基于PR-tree的多维关联规则的研究与实现

粟莉萍

广东工业大学

下载全文

在线阅读

引用

摘要：

关联规则挖掘是数据挖掘的一个重要研究分支,以从大型数据库中提取知识的主要手段,有效地来解决“数据丰富、知识贫乏”的现状,因此具有较大的理论研究与应用价值。关联规则挖掘主要是发现大量数据库中项集之间的关联关系,通过发现的关联关系来指导相关决策和行动。　　目前,关联规则挖掘成果颇为丰富、研究非常活跃且研究分支比较广泛。研究重点从单维关联规则逐渐扩展到多维关联规则挖掘,如何提高挖掘算法的时空效率始终是研究的核心问题。本文针对如何提高挖掘算法效率这一核心问题进行了相关理论研究,并通过实验对相关理论做了验证。　　本文的主要研究内容包括:　　 1.首先对关联规则挖掘的相关概念、基本框架、相关技术和任务作了介绍。接着重点介绍了关联规则的几个经典算法--包括Apriori算法、DHP算法和FP-Growth算法,描述了上述算法的原理和频繁项目集生成过程,分析了算法存在的问题及具有的优势。然后,介绍了基于数据立方体的多维关联规则挖掘算法,描述了该算法的具体步骤、相关技术,分析了算法的特性和适应度。　　 2.提出了基于前缀存储的关联规则挖掘算法。该算法是在结合原有的关联规则算法(主要有Apriori算法、DHP算法、FP-Growth算法)的基础上,利用数据压缩组合技术提出了一种新的使用前缀树的改进算法。其原理是,将具有相同前缀的项目集压缩为一个子集合作为一个结点,该结点下的所有项目集共同享有同一前缀集。这样,使得用于存储项目集的临时内存空间大大减少,且候选项目集直接根据结点的前缀和后缀产生,省略了项目集能否自连成功的判断时间。另外,算法增加了头链表集,使任意一个含有相同的谓词值的结点在树中通链表链接起来,方便了查找树结点。此外,由于采用分段处理的思想,不仅可以针对大量数据的单维关联规则通过分段处理在可接受的时效范围内得到最终频繁项目集,还可以有效的分步分层挖掘出多维关联规则,使得在资源条件有限的情况挖掘混合多维关联规则成为可能。其中,在挖掘频繁2-项目集时,采用类似于Hash函数的思想单独处理,由数据库直接生成候选2-项目集,提高频繁2-项目集的产生。　　 3.结合理论研究,通过对上百万条记录实验对算法加以论证。分析实验结果,证实算法的可行性,并对算法的不足做了补充,为后期研究提供方向。　　

关键词：多维关联规则;数据挖掘;数据立方体;PR-tree算法;频繁谓词集;频繁项目集

授予单位：广东工业大学

授予学位：硕士

学科专业：计算机软件与理论

导师姓名：杨文伟

学位年度：2011

语种：中文

分类号：TP393.09;TP301.6

页数：75

在线出版日期：2011-11-30（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于PR-tree的多维关联规则的研究与实现