包含主动学习的成对约束聚类算法研究以及应用

陈多闻

广东工业大学

下载全文

在线阅读

引用

摘要：

在机器学习领域，半监督聚类是半监督学习的一个重要分支，其内容是利用少量的先验信息来提升聚类精度.常见的先验信息主要有类标签信息和成对约束信息，相较于类标签信息，成对约束信息更易获取且能由前者转换，因此基于成对约束的半监督聚类算法得到了更多的关注.以往的研究表明，通常情况下先验信息可以提升聚类精度，但不恰当的先验信息可能无效甚至降低聚类效果.针对这些问题，学者们提出设计一个主动学习算法来尽可能的选取有价值的成对约束信息从而提升聚类精度.这一想法提出后迅速被采用，发展至今已有丰硕的成果.现有的主动学习方法大都采用了一种基于邻域的方法，而这类方法往往存在着计算量大、查询效率低以及对聚类精度提升有限等问题.因此如何设计一个经济且高效的主动学习方法依然是一个有价值的研究课题.　　在现有的主动学习方法中，蔡的方法(Cai’smethod)基于邻域.因此计算量大，时间复杂度高；而钟的方法(AIPC)则基于熵，虽然降低了时间复杂度，但该方法只收集must-link约束而忽略cannot-link约束，此举可能导致有价值的信息被遗漏.为克服以上两种方法的局限，我们提出了一种基于熵的主动学习方法(ALPCS)，该方法分为选择、探索和巩固三个阶段.主要内容如下：　　1.在选择阶段，利用模糊c均值算法来获取所有样本的隶属度后计算它们的香农熵，最后选择香农熵大的样本生成一个信息子集(香农熵越大，不确定性越大，包含的信息量越多).　　2.在探索阶段，提出一种最远距离优先策略,主动从信息子集中挑选样本构造一个聚类骨架集群.如果骨架集数等于真正的聚类簇数，则进入巩固阶段，否则主动学习方法停止.　　3.在巩固阶段，依次从信息子集中挑选不确定性最大非骨架集点来与骨架集中的点构成查询，直到构成must-link约束.该阶段用了最小对称相对熵优先原则来减少查询次数.　　我们在六个UCI数据集上对ALPCS算法进行了对比评估，最终的实验结果表明：在查询数目较大时，ALPCS算法有着良好的表现.

关键词：半监督聚类;成对约束;主动学习;熵

授予单位：广东工业大学

授予学位：硕士

学科专业：数学

导师姓名：金应华

学位年度：2021

语种：中文

分类号：TP311.13

在线出版日期：2021-10-15（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

包含主动学习的成对约束聚类算法研究以及应用