基于专家的特征选择及缺省多标记学习策略

宋帆

安庆师范大学

下载全文

在线阅读

引用

摘要：

多标记学习是机器学习中的一个研究热点，在个性化推荐、文本分类、生物学等领域引起了广泛关注。较之传统的单标记学习中的一个实例只能局限于单个标记，对于多标记学习，每个实例可以同时具有多个标记。多标记学习的目的是得到一个高性能的分类模型，它可以对于任何新实例预测出其可能的标记集。　　在多标记学习问题中，对于特征空间，由于海量数据中维度过高等问题，经常发生维数灾难，从而导致分类精度的降低。然而，可通过特征选择方法实现特征空间的降维，进而提升分类精度和泛化性能。对于标记空间，由于数据获取中其方法和成本限制等原因，部分数据丢失等现象经常出现，从而导致标记的部分缺省。基于此，本文针对这两个问题提出两种处理算法，主要内容如下：　　（1）对于特征空间的维度过高的问题，多数特征选择算法主要利用最大相关性最小冗余性准则在全部特征集中进行特征选择，没有考虑专家特征，因此多标记特征选择算法运行时间较长，复杂度较高。实际上，在现实生活中专家依据几个或者多个关键特征就能够直接决定整体的预测方向。如果提取关注这些信息，必将减少特征选择计算时间，甚至提升分类器性能。基于此，提出一种基于专家特征的条件互信息多标记特征选择算法。该算法考虑先将专家特征与剩余的特征相联合，再利用条件互信息得出一个与标记集合相关性由强到弱的特征序列，最后通过划分子空间去除冗余性较大的特征。　　（2）对于标记空间的标记缺省的问题，大多数多标记学习算法默认其标记集是完整的。但是，在现实世界中，每个实例的数据信息并不一定完整。目前，针对缺省标记补全算法较少，且这些算法忽略了特征空间中的噪声干扰。同时，当人们标注未知实例时，其判别函数的阈值大小的选择往往会影响其标注质量，特别在阈值附近的标注最明显。所有这些因素使得在缺省标记的情况下使用标记相关性变得更加困难。针对上述问题，提出了一种基于两级自编码的非平衡化缺省多标记学习算法。首先，利用标记密度来扩大标记空间的分类间隔面。在此基础上，利用非平衡标记补全方法对缺失的标记矩阵进行补全，得到一个新的补全标记矩阵。最后，考虑到特征空间的噪声问题，构造二级核极限学习机自编码器来实现特征和标记的信息融合。　　最后针对实际数据集，通过本文提出的两种算法进行应用，其分类结果较为优异，进一步说明本文算法的合理性和有效性。

关键词：多标记学习;特征选择;缺省标记;专家系统;极限学习机;自编码器

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计信息技术

导师姓名：程玉胜

学位年度：2020

语种：中文

分类号：TP181

在线出版日期：2022-01-10（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于专家的特征选择及缺省多标记学习策略