基于Hadoop与Spark的大数据处理平台的构建研
鉴于当前的数据治理管控方法缺乏统一标准约束,治理管控效果比较差,故此设计一种基于Hadoop与Spark大数据平台的数据治理管控方法.使用Apache Atlas元数据管理工具,配合Hadoop与Spark平台完成管理工具的伸缩和扩展,实现元数据管理,利用Hadoop与Spark大数据平台中自带的分布式文件系统GFS的结构,内置的大量块服务器与客户端功能使用的过程中进行交互,搭建并行计算框架,数据治理过程主要针对数据的一致性、完整性和实时性三个方面进行治理过程设计.方法性能测试结果表明:使用设计的数据治理管控方法,企业的运营数据一致性、完整性、实时性分别为97.5%、97.7%、95.4%,由此可以看出数据质量存在提升.
Hadoop、Spark、大数据处理、平台构建
TP311.13;TP274;TN911-34
安徽省高校自然科学研究重点项目KJ2021A1467
2023-04-13(万方平台首次上网日期,不代表论文的发表时间)
共3页
87-89