关联规则挖掘算法的研究

张贞梅

山东科技大学

下载全文

在线阅读

引用

摘要：

关联规则的发现是数据挖掘中最成功和最重要的一项任务，也是当今数据挖掘中一个非常活跃的研究领域。针对Apriori算法中C2通常是最大的，算法的绝大部分时间消耗在生成频繁2-项集上的问题，论文提出了一种基于矩阵的MAT(Matrix)算法。基本思想是：扫描数据库，根据项目集在事务中的出现，采用矩阵计数。把小于最小支持度的元素删去，从而得出频繁1-项集和频繁2-项集。这种算法减少了数据库扫描的遍数，从而提高了效率。针对在Apriori算法中第K(K＞2)轮的递推中，数据库中的每个事务T的所有K阶子项集都要判断其是否在K阶候选项集中的问题，论文提出了一种基于事务剪枝和分区查找的PPS(Pruning&PartitionSearching)算法，进一步提高了效率。事务剪枝基于以下策略：若要在事务T中保留项目ti，那么ti至少出现在(K-1)个频繁(K-1)-项集中，否则在求频繁K-项集的迭代中ti被剪枝。分区查找基于以下策略：建立一种可快速搜索定位的数据结构，将频繁(K-1)-项集序列划分为若干连续的分区(Partition)，形成(K-1)阶频繁项目集的若干不相交的子集。划分的依据是(K-1)阶频繁项目集的前两项。第一个数组存放有序的候选项集频度计数器；第二个数组记录各分区开始的位置，则任何前两项相同的项目子集将存在于一个连续的区间内。论文对提出的两种改进算法与Apriori算法在实验数据集上进行测试。实验证明，在测试数据集相同的情况下，MAT-PPS算法运行时间明显低于Apriori算法，运行过程中占用最大内存少于Apriori算法，效率得到了有效的提高。在多层关联规则挖掘研究中，论文提出一种基于FP-树的FP-CH改进算法。FP-CH算法在挖掘同层关联规则过程中，在不同层上建立各自的FP-树；在进行交叉层的关联规则挖掘过程中，对已挖掘的同层关联规则中的频繁项，找出其相应的事务集，挖掘出跨层间的关联规则。改善了传统的ML-CH算法挖掘过程中，可能丢失低层项之间关联的缺陷。FP-CH算法是一种自底向上的挖掘算法，能够避免频繁项的丢失，克服了ML-CH算法产生的缺陷。论文在最后指出了上述算法存在的不足和进一步需要研究的内容。

关键词：关联规则;挖掘算法;事务剪枝;分区查找;FP-树;矩阵;MAT算法

授予单位：山东科技大学

授予学位：硕士

学科专业：计算机软件与理论

导师姓名：孙忠林

学位年度：2005

语种：中文

分类号：TP311.13;TP301.6

页数：52

在线出版日期：2006-08-31（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

关联规则挖掘算法的研究