标签重构的不平衡缺省多标签学习

钱坤

安庆师范大学

下载全文

在线阅读

引用

摘要：

多标签学习能够有效地解决真实世界中多语义问题，其一直是机器学习算法领域研究的一个热点。近年来随着数据量的快速增长，数据复杂程度不断增加，为了更好地提升算法精度，标签间相关性被广泛地应用于多语义问题。然而仅考虑标签间相关性可能会使算法的鲁棒性有所降低。而且多标签数据还呈现标注不平衡和标签多样性引起的标签不平衡，这将直接影响到多标签学习性能，因此对不平衡数据的分类建模是必要的。同时数据复杂度的增加使得标签的标注代价增加，标签不可避免的存在缺失。因此如何进行标签补全，降低缺省标签干扰，对提高多标签分类精度至关重要。基于此，本文针对上述问题进行研究，主要内容如下：　　1)现有的多标签学习算法往往利用标签间相关性，却忽略特征空间的影响。根据萤火虫方法的思想，通过将特征信息与标签信息相结合来重构标签空间，提出一种融合萤火虫方法的多标签懒惰学习算法(Multi-labelLazyLearningApproachbasedonFireFlymethod,FF-MLLA)。首先，利用Minkowski距离来度量样本间相似度，从而确定近邻空间。然后，结合标签近邻点和萤火虫方法构建标签计数向量。最后，分别使用奇异值分解与核极限学习机进行线性分类。该算法考虑了标签信息与特征信息从而提高了算法的鲁棒性。　　2)与单标签中类不平衡不同，多标签数据不仅存在类的内部不平衡，还表现出类与类之间不平衡。目前方法主要集中在将采样技术和代价敏感学习相结合，融入标签相关性来改善分类器性能，但它们通常都未考虑标注代价引起的标签缺省情况。实际上，对未知样本进行标签标注，结果常常受到判别函数阈值的影响，特别是阈值附近的标签。我们认为把数据分布密度、标签密度等信息融入标签相关性，扩大分类间隔面，能有效解决阈值附近标签的标注质量。为此，本文提出一种基于分类间隔面的非平衡化缺省多标签学习算法(MissingMulti-labelsLearningwithNon-EquilibriumBasedonClassificationMargin,MNECM)，旨在对缺省标签进行补全。　　3)由于数据的激增，标签空间不完备问题日益突出，标签数据的缺省会导致标签相关性的度量变得困难。然而，许多多标签学习算法主要考虑标签相关性，以恢复缺省标签，却忽略实例信息。因此，我们结合注意力机制挖掘标签与实例信息，改善标签质量，提升标签补全效果。本文提出一种结合注意力机制的全局与局部缺省多标签学习算法(GlobalandLocalMulti-labelLearningwithAttentionMechanismforMissingLabels,GLMAM)。　　本文通过萤火虫方法来融合标签与特征信息以重构标签空间，扩大分类间隔面解决标签不平衡，利用非平衡化方法与注意力机制进行标签补全。对公开的多组基准多标签数据集的实验结果分析，表明本文所提算法较其他对比的多标签学习算法有一定优势，使用统计假设检验与稳定性分析进一步说明所提出算法的合理性与有效性。

关键词：多标签学习;标签重构;核极限学习机;标注不平衡

授予单位：安庆师范大学

授予学位：硕士

学科专业：统计学

导师姓名：程玉胜

学位年度：2020

语种：中文

分类号：TP181

在线出版日期：2022-01-10（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

标签重构的不平衡缺省多标签学习