10.3969/j.issn.1000-386x.2015.09.007
一种大规模数据快速并行导入工具的研究与实现
随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的“快速并行导入”技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上层数据导入时间的浪费,又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明,在“快速并行导入”技术的基础上设计并实现的快速并行导入工具,支持多列族文本数据的快速导入。与传统使用API导入数据相比,速度提升一倍以上。
Hadoop HBase、MapReduce、分布式数据库、大规模数据导入
TP3(计算技术、计算机技术)
河南省教育厅科学技术研究重点项目12B520025;郑州市科技攻关项目20120473;校级科研项目KYZR201006。
2015-10-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
26-30