学位专题

<
DOI:10.7666/d.y842402

关联规则挖掘算法的研究

张贞梅
山东科技大学
引用
关联规则的发现是数据挖掘中最成功和最重要的一项任务,也是当今数据挖掘中一个非常活跃的研究领域。 针对Apriori算法中C2通常是最大的,算法的绝大部分时间消耗在生成频繁2-项集上的问题,论文提出了一种基于矩阵的MAT(Matrix)算法。基本思想是:扫描数据库,根据项目集在事务中的出现,采用矩阵计数。把小于最小支持度的元素删去,从而得出频繁1-项集和频繁2-项集。这种算法减少了数据库扫描的遍数,从而提高了效率。 针对在Apriori算法中第K(K>2)轮的递推中,数据库中的每个事务T的所有K阶子项集都要判断其是否在K阶候选项集中的问题,论文提出了一种基于事务剪枝和分区查找的PPS(Pruning&PartitionSearching)算法,进一步提高了效率。事务剪枝基于以下策略:若要在事务T中保留项目ti,那么ti至少出现在(K-1)个频繁(K-1)-项集中,否则在求频繁K-项集的迭代中ti被剪枝。分区查找基于以下策略:建立一种可快速搜索定位的数据结构,将频繁(K-1)-项集序列划分为若干连续的分区(Partition),形成(K-1)阶频繁项目集的若干不相交的子集。划分的依据是(K-1)阶频繁项目集的前两项。第一个数组存放有序的候选项集频度计数器;第二个数组记录各分区开始的位置,则任何前两项相同的项目子集将存在于一个连续的区间内。 论文对提出的两种改进算法与Apriori算法在实验数据集上进行测试。实验证明,在测试数据集相同的情况下,MAT-PPS算法运行时间明显低于Apriori算法,运行过程中占用最大内存少于Apriori算法,效率得到了有效的提高。 在多层关联规则挖掘研究中,论文提出一种基于FP-树的FP-CH改进算法。FP-CH算法在挖掘同层关联规则过程中,在不同层上建立各自的FP-树;在进行交叉层的关联规则挖掘过程中,对已挖掘的同层关联规则中的频繁项,找出其相应的事务集,挖掘出跨层间的关联规则。改善了传统的ML-CH算法挖掘过程中,可能丢失低层项之间关联的缺陷。FP-CH算法是一种自底向上的挖掘算法,能够避免频繁项的丢失,克服了ML-CH算法产生的缺陷。 论文在最后指出了上述算法存在的不足和进一步需要研究的内容。

关联规则;挖掘算法;事务剪枝;分区查找;FP-树;矩阵;MAT算法

山东科技大学

硕士

计算机软件与理论

孙忠林

2005

中文

TP311.13;TP301.6

52

2006-08-31(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅