密度峰值聚类算法及其优化策略研究

邢帅杰

华东交通大学

下载全文

在线阅读

引用

摘要：

近些年随着大数据时代的到来，全球各领域产生的数据量呈爆炸式增长，如何挖掘并利用海量数据中潜藏的有价值信息是研究的重点方向，聚类分析工具作为处理大数据的重要工具一直是研究的焦点。　　本文的主要研究内容是密度峰值聚类（DPC）算法，算法设计的核心是不同簇的聚类中心均具有较大的局部密度且距离其他的聚类中心的距离较远，通过利用决策图选择初始中心并实现后续非聚类中心点标签的快速分配。DPC作为一种高效、无需先验知识且能识别任意形状簇的聚类算法，自被提出以来就一直被研究人员青睐。但DPC算法也存在着一定的局限性，比如：执行DPC算法时截断距离参数需要提前设定且聚类效果对截断距离参数的值敏感；聚类过程中初始中心的选取受主观性的影响、无法处理数据密度差异大的数据集、算法的时间复杂度高等。所以对DPC算法进行优化和改进，扩展其适用范围十分必要，本文通过对不同DPC优化算法进行分类和总结，并针对DPC的缺陷提出了优化算法，主要研究内容如下：　　（1）DPC算法近几年在多个领域得到了广泛的应用，但DPC算法在一些方面存在局限性，针对DPC算法的不足，不断涌现出诸多相关的优化算法，以综述的形式将改进的密度峰值聚类算法归纳总结。根据DPC算法的基本原理，重点指出DPC执行过程中存在的局限性并对相关代表性的DPC优化算法进行归纳概述。将近年来提出的DPC优化算法按照优化方向分为4个大类，并对每一类改进DPC算法的优缺点、核心策略进行归纳总结和对比分析，便于发现DPC算法在执行过程中的限制和解决途径。　　（2）针对DPC面对簇间密度差异大时会遗漏稀疏簇以及非中心点标签分配的“Domino”问题，提出基于共享最近邻和亲近度的密度峰值聚类算法SNNDPC-ID。首先，借助共享最近邻根据不同数据对象与其K-最近邻中数据的亲近程度新定义局部密度?；其次，利用拉普拉斯特征映射降维，将数据集投影至更低维度的空间；最后，在低维空间根据新定义的局部密度和相对距离挑选合适的初始聚类中心并将剩余数据对象根据增强版的两步分配策略完成聚类。对比实验结果表明，该算法在合成数据集和UCI数据集的表现优秀，尤其是在密度分布不均匀和高维数据集上优势更加显著。　　（3）针对DPC算法对截断距离参数敏感以及难以处理形状结构复杂的数据集的问题，提出一种基于自然近邻和簇骨干的密度峰值聚类算法DPC-NN-CB。首先引入自然近邻并重新定义数据点局部密度的计算方式，以应对簇间稀疏度差异大的情况且无需指定任何参数。另外，通过寻找骨干点揭示潜在的簇的结构和形状，充分利用数据集的分布信息，在局部范围内形成骨干微簇；最后，借助凝聚层次聚类算法的思想，建立骨干微簇间的融合得分机制进行微簇合并，得到更为准确的聚类结果。在合成数据集和UCI数据集的对比实验结果表明，DPC-NN-CB的聚类准确性明显优于其余对比聚类算法。

关键词：数据挖掘;密度峰值聚类;优化DPC算法;共享最近邻;微簇融合

授予单位：华东交通大学

授予学位：硕士

学科专业：数学

导师姓名：王森

学位年度：2023

语种：中文

分类号：TP311.13

在线出版日期：2023-11-30（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

密度峰值聚类算法及其优化策略研究