基于聚类优选样本的协同训练方法研究

鲜焱

重庆师范大学

下载全文

在线阅读

引用

摘要：

半监督学习是一种让学习器利用大量无标记样本来辅助少量有标记样本的学习模式，在理论和实际运用中均受到了广泛关注。协同训练是基于不同视图训练两个分类器来互相标记样本以扩充训练集的一个过程，属于半监督学习的范畴。基于不仅能考虑到现实世界中数据集的分布情况，还能有效利用数据中各视图间相关信息这些特性，协同训练在自然语言处理、模式识别等领域均得到了广泛的应用。然而，如何选择更可靠的样本加入训练过程，是目前待解决的一个问题。　　聚类假设是指在相同类簇中的样本极有可能具有相同的类标记，而在这一假设下，大量的无标记样本可以帮助探明整个样本空间的数据分布情况。反之，若已发现某数据集的空间结构，则能帮助确定类别决策边界较清晰的无标记样本，即训练可信度高的样本。因此，本文从协同训练自身存在的问题出发，借助聚类方法的最新研究和进展，提出了三种基于聚类优选样本的协同训练方法，完成的主要工作如下：　　(1)针对协同训练算法不能直接应用于单视图数据，且在迭代过程中加入的无标记样本隐含有用信息不够的问题，提出了基于核均值漂移聚类的改进局部协同训练算法。该方法利用改进局部协同训练算法得到一个完整视图分类器和另一个由高价值特征子集训练的局部视图分类器，然后采用核均值漂移算法选择聚类过程中指定带宽范围内的样本，从而得到隐含较多有用信息的无标记样本。　　(2)针对协同训练算法在迭代过程中加入的无标记样本隐含有用信息不足和多分类器标记不一致的样本导致分类错误累积的问题，提出了结合虹吸平衡自适应密度峰值聚类和共享子空间的协同训练算法。该算法基于虹吸平衡法则进行密度峰值聚类，并从簇中心出发推进式选择相互邻近度高的无标记样本交由分类器标记，然后利用多视图分解的共享子空间训练一致性分类器，以此来确定标记不一致样本的最终类别。　　(3)针对如何结合样本置信度和数据空间结构来选择更可靠的无标记样本，提出了基于改进密度峰值聚类的协同训练算法。该算法利用加权虹吸平衡法则确定数据集的簇中心后进行初聚类，再通过归类置信度等级划分策略监测归类模糊性高的样本，实现对其的归类自校正。最后根据归类置信度等级梯度获得的置信点、低模糊点和高模糊点依次添加到两个基分类器中，以达到协同优化的目的。　　本文在标准UCI数据集中，通过多组对比实验对提出的三种算法模型进行了实验仿真，实验证明了所提算法的有效性和更高的模型评价能力。

关键词：半监督学习;协同训练;均值漂移聚类;密度峰值聚类;共享子空间

授予单位：重庆师范大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：吕佳

学位年度：2021

语种：中文

分类号：TP391.1

在线出版日期：2021-11-11（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于聚类优选样本的协同训练方法研究