面向海量数据流的基于密度的簇结构挖掘算法
提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MCluStream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑 CR-Tree索引结构,将直接核心可达的一对数据点映射成树结构中的父子关系,蕴含了数据点依赖关系的 CR-Tree 涵盖了一系列subEps参数下的基于密度的簇结构;其次,MCluStream算法采用滑动窗口的方式更新CR-Tree,在线维护当前窗口上的簇结构,实现了对海量数据流的快速演化聚类分析;再次,设计了一种快速从CR-Tree提取簇结构的方法,根据可视化的簇结构,选择合理的聚类结果;最后,在真实和合成海量数据上的实验验证了 MCluStream 算法具有有效的挖掘效果、较高的聚类效率和较小的空间开销.MCluStream 可适用于海量数据流应用中自适应的密度聚类演化分析.
聚类分析、密度聚类、簇结构、数据流、滑动窗口
26
TP311(计算技术、计算机技术)
国家自然科学基金61403328, 61302065, 61172049;山东省自然科学基金ZR2013FM011;山东省高等学校科技计划J14LN24;吉林大学符号计算与知识工程教育部重点实验室开放基金93K172014K13
2015-08-07(万方平台首次上网日期,不代表论文的发表时间)
共16页
1113-1128