基于Hadoop与Spark的大数据处理平台的构建研

引用

摘要：

鉴于当前的数据治理管控方法缺乏统一标准约束,治理管控效果比较差,故此设计一种基于Hadoop与Spark大数据平台的数据治理管控方法.使用Apache Atlas元数据管理工具,配合Hadoop与Spark平台完成管理工具的伸缩和扩展,实现元数据管理,利用Hadoop与Spark大数据平台中自带的分布式文件系统GFS的结构,内置的大量块服务器与客户端功能使用的过程中进行交互,搭建并行计算框架,数据治理过程主要针对数据的一致性、完整性和实时性三个方面进行治理过程设计.方法性能测试结果表明:使用设计的数据治理管控方法,企业的运营数据一致性、完整性、实时性分别为97.5％、97.7％、95.4％,由此可以看出数据质量存在提升.

关键词：Hadoop、Spark、大数据处理、平台构建

分类号：TP311.13;TP274;TN911-34

资助基金：安徽省高校自然科学研究重点项目KJ2021A1467

在线出版日期：2023-04-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：87-89

个人中心

我的学术圈

我的书案

退出

期刊专题

基于Hadoop与Spark的大数据处理平台的构建研