基于决策树的多视图动态KNN分类

黄祎婧

华东交通大学

下载全文

在线阅读

引用

摘要：

随着信息技术及相关领域的快速发展，数据的获取途径变得越来越多样化。同一数据信息可以从多个不同的方面获取，由此获得的数据称为多视图数据。相比于单视图数据，多视图数据包含更丰富的样本特征信息。在处理多视图数据分类任务时，多个视图之间的数据既存在一致性又存在差异性。传统的单视图机器学习算法已经无法满足多视图分类的需求，越来越多基于多视图的相关改进算法被提出。　　动态KNN算法（AdaptiveK-NearestNeighbor，AKNN）能够为样本提供不同的k值，分类规则简单且具有可解释性，适用于多种数据分类任务。基于上述原因，针对多视图数据分类任务，本文分别提出了基于决策树的多视图动态KNN算法（Multi-viewAdaptiveK-NearestNeighbor，MVAKNN）以及基于随机森林的动态KNN算法（RandomForestbasedMulti-viewAdaptiveKNN，RF-MVAKNN）。其中，AKNN算法通过样本相关性度量矩阵获取样本对应的最优k值，考虑到样本标签对样本间距离的影响，在相关性矩阵中引入类间距离和类内距离。将基于决策树的动态KNN算法推广到了多视图分类领域，利用Dempster-Shafer证据理论组合规则有效组合了多个视图的信息，提高了算法在多视图数据下的分类精度。对于MVAKNN算法中单一决策树构造问题，RF-MVAKNN算法使用随机森林替代单一决策树，提高了算法的鲁棒性。　　本文的主要创新点如下：　　（1）将样本标签添加到计算样本相关性权重矩阵的过程中，引入类内距离和类间距离作为判断样本相关性的标准，从而使得具有相同类标签的样本具有更小的权重。　　（2）将基于决策树的动态KNN算法推广到了多视图分类领域，提高了算法的多视图分类精度。　　（3）利用Dempster-Shafer证据理论对多个视图的输出进行融合计算，在结合多个视图分类信息的同时增加了分类结果的可信度。　　（4）通过随机森林将消除数据微小变化对决策树构造的影响，提高算法的鲁棒性。此外，在计算相关性矩阵时添加了阈值，以优化训练部分的k值计算，并进一步提高算法的多视图分类精度。　　本文对基于决策树的多视图动态KNN算法进行研究，优化了动态KNN算法的分类效果，解决了单视图AKNN分类算法在多视图分类中无法结合多个视图信息的问题。

关键词：多视图分类;决策树;随机森林;动态KNN算法;Dempster-Shafer证据理论

授予单位：华东交通大学

授予学位：硕士

学科专业：数学

导师姓名：范自柱

学位年度：2023

语种：中文

分类号：TP391.41

在线出版日期：2023-11-30（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于决策树的多视图动态KNN分类