10.3969/j.issn.2095-2783.2011.07.001
基于MapReduce的数据聚集运算算法
为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基于MapReduce的面向海量数据的数据聚集运算算法,主要包括数据的选择、投影以及等值连接等,并在此基础上,实现了计数、求和和均值等聚集运算,形成了比较完整的面向海量数据的聚集运算算法。实验结果表明,该算法充分利用了集群系统的计算能力和存储能力,极大地提高了海量数据的聚集运算效率和基于聚集运算结果上的数据查询效率。
数据仓库、聚集运算、MapReduce、联机分析处理
6
TP311(计算技术、计算机技术)
国家自然科学基金资助项目61033007;中央高校基本科研业务费专项资金资助项目N 100304005;国家高技术研究发展计划863计划资助项目2009AA01Z131
2011-12-05(万方平台首次上网日期,不代表论文的发表时间)
共8页
469-475,481