基于预聚类的并行序贯模式数据挖掘（CLUSP）的研究与应用

金沈杰

上海大学

下载全文

在线阅读

引用

摘要：

本文探讨了数据挖掘领域中序贯模式挖掘的目的、一般方法及其并行化方法,针对并行序贯模式挖掘中需要时间最长的部分——并行计算节点之间的通信问题,提出了一种新的并行序贯模式挖掘算法:"基于预聚类的并行序贯模式数据挖掘CLUSP算法(Pre-Clustered Sequential Pattern Data Mining)".CLUSP算法首先对原始数据序列进行"预聚类"处理,根据数据序列之间的相似程度(以同一个顺序出现的子序列的长度与原序列长度之间的比值)不同,把原始数据序列划分为不同的"类",使得类内数据序列间的相似度较大而类间数据序列间的相似度较小.然后把这些类分布到各个计算节点中,并把同一个类分到一个或者一组节点中,不同的类分布到不同的节点(组)中.然后,在调度并行序贯模式算法执行的时候,根据以上信息,将大部分通信限制在紧密联结的节点(组)之内,从而减少了整个计算网络上的通信量,达到减少通信时间开销、提高整体执行效率的目的.经过模拟数据实验证明,在一般适于划分聚类的数据集上,CLUSP算法能使序贯模式挖掘的整体性能显著提高.本文还将CLUSP算法整合到"基于集群式计算机的并行数据挖掘系统"平台中,利用平台提供的资源对用户提供决策支持.具体用于对某电梯公司销售的电梯的维护/维修历史数据序列进行序贯模式的挖掘,应用结果表明,CLUSP算法在实际数据挖掘和决策支持上取得较好的效果.本文由上海市科委"基于高性能计算的数据挖掘和知识发现"项目(01JC14022)和上海市教委"第四期重点学科"项目(205153)支持.

关键词：序贯模式挖掘;并行计算;预聚类;并行调度;数据挖掘;机器学习;人工智能

授予单位：上海大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：吴耿锋

学位年度：2004

语种：中文

分类号：TP311.131;TP181

页数：48

在线出版日期：2005-07-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于预聚类的并行序贯模式数据挖掘（CLUSP）的研究与应用