DOI：10.3969/j.issn.1000-386x.2015.09.007

一种大规模数据快速并行导入工具的研究与实现

引用

摘要：

随着大规模数据的快速增长及高可靠性需求，将本地数据迁移到分布式数据库势在必行。针对这种情况，提出一种基于MapReduce的“快速并行导入”技术，充分利用集群的并行计算能力，直接向HBase底层存储文件HFile写入数据，既可避免上层数据导入时间的浪费，又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明，在“快速并行导入”技术的基础上设计并实现的快速并行导入工具，支持多列族文本数据的快速导入。与传统使用API导入数据相比，速度提升一倍以上。

关键词：Hadoop HBase、MapReduce、分布式数据库、大规模数据导入

分类号：TP3(计算技术、计算机技术)

资助基金：河南省教育厅科学技术研究重点项目12B520025；郑州市科技攻关项目20120473；校级科研项目KYZR201006。

在线出版日期：2015-10-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：26-30

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

一种大规模数据快速并行导入工具的研究与实现