10.3969/j.issn.1000-386x.2015.10.014
分布式频繁项集挖掘算法
传统的频繁项集挖掘方法具有一定的局限性。Apriori 算法需要重复扫描输入数据,导致很高的 I /O 负载,算法性能不高;Fp-growth 算法需要在内存中建立 Fp-tree 并根据 Fp-tree 挖掘频繁项集,导致算法受到计算机的内存限制。在大数据时代,由于挖掘数据规模十分巨大,更加凸显这些传统算法的局限性。对此,一方面改进传统的频繁项集挖掘算法,另一方面基于 Spark 框架实现分布式频繁项集挖掘算法(FIMBS)。实验结果表明,该算法相比基于 MapReduce 框架的关联规则算法具有显著的优势。
频繁项集挖掘、分布式算法、Spark、MapReduce
TP3(计算技术、计算机技术)
2015-11-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
63-66