基于标记权重与加权核极限学习机的多标记学习研究

郑海

安庆师范大学

下载全文

在线阅读

引用

摘要：

多标记学习是机器学习和数据挖掘中的研究重点之一，其目的是通过分析已有多标记数据对未知样本进行较准确的预测。在大多数多标记数据集中，描述样本的特征数存在大量冗余特征。冗余特征不仅影响分类精度，还增加了计算的复杂性。特征选择能有效解决上述问题。然而，在实际分类问题中，类不平衡的问题也是机器学习的研究难点之一。　　本文充分调研了相关参考文献，总结了研究现状，分析了现有方法的优缺点。在此基础上，挖掘标记对样本可区分度对标记赋权值。并针对类不平衡问题提出了一种解决方法，本文的主要研究工作如下：　　（1）挖掘出标记对样本可区分度，并依据此对标记赋权值，提出了基于核函数和标记权重的多标记特征选择算法（Multi-labelfeatureselectionbasedonkernelfunctionandlabelweighting,KF-LW）。首先分别统计贴有不同标记的样本数量。若对某个标记，贴有该标记的样本数量明显高于含有其他标记的样本数量，则表明该标记的权重越大，根据标记空间的信息对标记进行权重赋值；然后，利用核函数将原始特征空间映射到高维空间，使得特征具有可分性，最后根据信息熵度量特征与标记空间之间的相关性，并以此作为度量标准选择特征子集。　　（2）针对类不平衡问题，以加权核极限学习机为基础，并将其应用到多标记分类问题中，提出了基于加权的核极限学习机的多标记学习算法（Multi-labellearningalgorithmbasedonweightedkernelextremelearningmachine，ML-WKELM），该算法通过计算每个样本的正例标记个数以及统计平均样本标记个数，为每个样本计算权值矩阵，分类器为少数类样本赋更大的权重，而为多数类样本赋较小权重，以此解决多标记类不平衡问题，提高分类精度。

关键词：多标记学习;特征选择;标记权重;类别不平衡;核极限学习机

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计信息技术

导师姓名：钱萌

学位年度：2020

语种：中文

分类号：TP181

在线出版日期：2022-01-10（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于标记权重与加权核极限学习机的多标记学习研究