学位专题

目录>
<
DOI:10.7666/d.Y2795793

聚类融合算法的实验评价方法

梁荣德
广东工业大学
引用
在数据分析中,聚类被认为是有效的工具之一。近二十年,大量优秀的聚类算法被提出,并已经被广泛地应用于数据挖掘,模式识别,机器学习,信息检索,图像分析,生物信息学等领域。不同的聚类算法在不同的领域具有各自的优势。然而,没有任何一种聚类算法能适用于所有情况。聚类融合算法被认为是一种集取各种聚类算法所长的算法,它通过融合基聚类算法的决策,得出各基聚类算法所不能得到的决策,能够更全面地反映数据集的内部结构。聚类融合算法是聚类领域的一个研究热点,当前许多地聚类融合算法被提出。然而,除了研究优良的聚类融合算法,如何评价聚类的质量也被认为是难题之一。根据有无基准可用,聚类的质量评价方法分为内在评价方法和外在评价方法。内在评价方法不使用基准,它根据聚类的定义,考察数据内部结构情况。内在评价方法一般需要使用者定义数据之间的距离度量,而使用者一般缺乏这方面的知识。外在评价方法使用基准,它考察聚类结果和基准的相似程度。传统的外在评价方法使用专家评价的基准作为参照。但是实际上,这种基准不但昂贵,而且常常不容易得到。  本文提出一种不依赖专家评价基准的外在评价方法。它从聚类基准的模糊性出发,认为专家评价的基准只是所有不同类型的基准之一,基准可以基于所有参与评价的聚类融合算法的。因此,一种新颖的基于实验的聚类融合算法评价方法被提出,其参照基准是基于所有聚类融合算法折衷所得出来的。基于这个方法的设计框架,实验部分使用了Single Linkage Clustering(SLC)算法, Iterative Voting Clustering(IVC)算法和AnAlgebraic Approach to Clustering Ensemble(AA)算法,在2个仿真和3个UCI数据集上,分别对三组算法,SLC算法和IVC算法,SLC算法和AA算法,IVC算法和AA算法进了评价对比,并将结果和传统使用专家评价的基准外在方法进了比较。当传统外在评价方法认为当参与评价的算法是强聚类融合算法时,该评价方法结果与传统方法的评价结果一致。由于本文的方法无需使用专家评价的基准,因此有着广泛的应用前景。

数据挖掘;聚类算法;信息融合;程序语言

广东工业大学

硕士

控制理论与控制工程

刘波

2015

中文

TP311.13;TP312

53

2015-10-12(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅