基于加权MP马氏距离的GS方法研究

王振丽

南京理工大学

下载全文

在线阅读

引用

摘要：

聚类分析是多元统计分析的一个分支，在社会生活的各个领域应用非常广泛。在聚类分析中，聚类有效性指标对评价聚类效果起着关键性的作用，而聚类数的确定是聚类有效性的重要课题。2000年，Tibshirani R等人提出了用于估计最佳聚类数的GS方法，该方法引入了一个参考分布，通过比较参考数据集和观察数据集的类内离差程度来确定最佳聚类数。　　GS方法的提出是建立在k-means聚类算法基础上的，本文首先对k-means聚类算法因初始聚类中心随机选取造成的聚类结果不稳定进行了改进，提出了基于权重矩阵的初始聚类中心确定方法。　　GS方法相比其它最佳聚类数确定方法来说虽然有很多的优点，但是一般只适用于较简单的数据集，这与其选择的相似性度量方法有很大的关系。GS方法中默认的度量方法是欧氏距离，欧氏距离只适用于属性间是相互独立的情况，易受量纲的影响，且对属性同等对待，忽视了各指标不同的重要性对聚类的影响。而经典的马氏距离不仅考虑到了指标变量间的相关性，还对数据集进行了标准化，不受数据量纲的影响。本文以加权MP马氏距离为相似性度量方法，然后在GS方法的基础上提出了WMPGS模型，通过对UCI数据库中一些数据集进行仿真实验。实证表明WMPGS方法不仅拥有和GS方法相同的可行性，而且在较复杂的数据集中，WMPGap曲线能够更合理地反应数据集的特点，且比GS方法有着更好的聚类效果。论文最后指出了该方法存在的问题以及今后的研究方向。

关键词：k-means聚类算法;加权MP马氏距离;GS方法;权重矩阵;多元统计分析

授予单位：南京理工大学

授予学位：硕士

学科专业：概率论与数理统计

导师姓名：张正军

学位年度：2016

语种：中文

分类号：O212.4

页数：51

在线出版日期：2016-11-11（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于加权MP马氏距离的GS方法研究