多标记特征选择及其类属属性获取算法

赵冬冬

安庆师范大学

下载全文

在线阅读

引用

摘要：

近年来，大数据技术以及人工智能技术得到了高速的发展，同时也推动了多标记学习的发展，多标记学习逐渐被诸多学者和专家列入重点的研究课题并在这方面取得了非常不错的成绩。其中，多标记特征选择也在数据挖掘和机器学习中得到了越来越多的关注，而且已经提出了大量的算法来实现特征空间的降维，并成功地应用于多种领域。多标记特征选择的目的就是实现特征降维，选择具有高度鉴别能力的特征，来实现相关性最大化与冗余性最小化。与多标记特征提取不同，特征选择是从原始特征空间中选择特征，不进行任何变换，很好地保留了原始特征的物理意义，在可读性和可解释性方面，多标记特征选择算法已成为许多研究者关注的焦点。在多数特征选择算法中主要利用信息熵等方法判断相关性，利用条件概率判断冗余性，这些方法不仅需要先验知识，而且计算较为复杂。并且进行多标记特征选择时，标记具有其本身所独有的属性，这些独有的属性对于标记具有很强的判别能力，因此，加强对类属属性的研究，可以更加高效地开展多标记学习，基于上述问题，本文提出了两种特征选择算法，主要内容如下：　　（1）本文利用粗糙集隶属度与肯德尔相关系数进行特征选择。粗糙集计算的特点就是不需要先验知识，对数据进行分析和推理，从中发现隐含的知识，揭示潜在的规律。本文首先利用粗糙集中的隶属度计算特征与标记空间的相关性，将相关性最高的特征存入已选特征子集中。然后利用肯德尔相关系数计算已选特征与未选特征之间的冗余性，将相关性与冗余性差值最大的特征存入已选特征中，每当存入一个特征后，重新计算冗余性，直到所有特征都存入已选特征。最后在已选特征子集中，取前k个特征作为最后约简的特征子集进行训练和分类测试。在多个数据集的实验结果中说明了算法的有效性。　　（2）本文首先稀疏表示特征，然后对稀疏之后的特征进行互信息大小计算。标记都具有其本身所独有的属性，即类属属性，在进行特征选择时，可以对类属属性进行稀疏表示，但是对于通过类属属性处理后的特征而言，可能还存在一定的冗余。本文结合信息熵对新的特征空间中所有特征，分别计算其与标记空间的互信息，根据互信息的大小，对特征依次进行排序，并取前90%作为最终的特征子集。在研究中测试了多标记数据集，最终的测试结果显示，该算法体现了较强的可行性。

关键词：多标记学习;特征选择;类属属性;隶属度;互信息

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计信息技术

导师姓名：王一宾

学位年度：2020

语种：中文

分类号：TP181

在线出版日期：2022-01-10（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

多标记特征选择及其类属属性获取算法