DOI：10.3969/j.issn.1000-386x.2015.10.014

分布式频繁项集挖掘算法

引用

摘要：

传统的频繁项集挖掘方法具有一定的局限性。Apriori 算法需要重复扫描输入数据，导致很高的 I ／O 负载，算法性能不高；Fp-growth 算法需要在内存中建立 Fp-tree 并根据 Fp-tree 挖掘频繁项集，导致算法受到计算机的内存限制。在大数据时代，由于挖掘数据规模十分巨大，更加凸显这些传统算法的局限性。对此，一方面改进传统的频繁项集挖掘算法，另一方面基于 Spark 框架实现分布式频繁项集挖掘算法（FIMBS）。实验结果表明，该算法相比基于 MapReduce 框架的关联规则算法具有显著的优势。

关键词：频繁项集挖掘、分布式算法、Spark、MapReduce

分类号：TP3(计算技术、计算机技术)

在线出版日期：2015-11-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：63-66

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

分布式频繁项集挖掘算法