聚类融合算法的实验评价方法

梁荣德

广东工业大学

下载全文

在线阅读

引用

摘要：

在数据分析中，聚类被认为是有效的工具之一。近二十年，大量优秀的聚类算法被提出，并已经被广泛地应用于数据挖掘，模式识别，机器学习，信息检索，图像分析，生物信息学等领域。不同的聚类算法在不同的领域具有各自的优势。然而，没有任何一种聚类算法能适用于所有情况。聚类融合算法被认为是一种集取各种聚类算法所长的算法，它通过融合基聚类算法的决策，得出各基聚类算法所不能得到的决策，能够更全面地反映数据集的内部结构。聚类融合算法是聚类领域的一个研究热点，当前许多地聚类融合算法被提出。然而，除了研究优良的聚类融合算法，如何评价聚类的质量也被认为是难题之一。根据有无基准可用，聚类的质量评价方法分为内在评价方法和外在评价方法。内在评价方法不使用基准，它根据聚类的定义，考察数据内部结构情况。内在评价方法一般需要使用者定义数据之间的距离度量，而使用者一般缺乏这方面的知识。外在评价方法使用基准，它考察聚类结果和基准的相似程度。传统的外在评价方法使用专家评价的基准作为参照。但是实际上，这种基准不但昂贵，而且常常不容易得到。　　本文提出一种不依赖专家评价基准的外在评价方法。它从聚类基准的模糊性出发，认为专家评价的基准只是所有不同类型的基准之一，基准可以基于所有参与评价的聚类融合算法的。因此，一种新颖的基于实验的聚类融合算法评价方法被提出，其参照基准是基于所有聚类融合算法折衷所得出来的。基于这个方法的设计框架，实验部分使用了Single Linkage Clustering(SLC)算法， Iterative Voting Clustering(IVC)算法和AnAlgebraic Approach to Clustering Ensemble(AA)算法，在2个仿真和3个UCI数据集上，分别对三组算法，SLC算法和IVC算法，SLC算法和AA算法，IVC算法和AA算法进了评价对比，并将结果和传统使用专家评价的基准外在方法进了比较。当传统外在评价方法认为当参与评价的算法是强聚类融合算法时，该评价方法结果与传统方法的评价结果一致。由于本文的方法无需使用专家评价的基准，因此有着广泛的应用前景。

关键词：数据挖掘;聚类算法;信息融合;程序语言

授予单位：广东工业大学

授予学位：硕士

学科专业：控制理论与控制工程

导师姓名：刘波

学位年度：2015

语种：中文

分类号：TP311.13;TP312

页数：53

在线出版日期：2015-10-12（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

聚类融合算法的实验评价方法