10.3969/j.issn.1001-4616.2016.04.005
一种新的基于FP_Growth的频繁项目集并行挖掘算法
频繁项目集挖掘用于发现项目之间的关联规则.为了高效求解面向大数据的频繁项目集,本文提出一种新的基于HP_Growth的频繁项目集并行挖掘算法NPFP_Growth(New Parallel algorithm based on FP_Growth),该算法对频繁模式树的存储结构进行改进,基于Map/Reduce并行计算模型,利用HDFS实现数据存储,在各自计算节点上构造局部频繁模式树,求解该局部频繁模式树中每个分支的最长全局频繁项目集;对于全局非频繁项目集,计算其支持数,发送至相应计算节点进行支持度统计,从而以较为简单的算法实现频繁项目集并行挖掘.实验表明,NPFP_Growth算法具有较高的计算效率和良好的可伸缩性.
频繁项目集、关联规则、FP_Growth、Hadoop、Map/Reduce
39
TP311.11(计算技术、计算机技术)
国家自然科学基金41471371
2017-04-24(万方平台首次上网日期,不代表论文的发表时间)
共6页
19-24