期刊专题

分布式大数据不一致性检测?

引用
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况。为找出不一致数据,需要进行函数依赖冲突检测。集中式数据库中可以通过 SQL 技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题。在大数据背景下,上述问题更加突出。提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型。为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理。由于分布式环境不一致性检测问题为 NP-hard 问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解。提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题。在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好。

函数依赖、不一致性、冲突检测、分布式数据、大数据

27

TP311(计算技术、计算机技术)

国家重点基础研究发展计划9732012CB316203;国家自然科学基金61472321,61332006,61502390;国家高技术研究发展计划8632015AA015307;西北工业大学基础研究基金3102014JSJ0005,3102014JSJ0013@@@@National Program on Key Basic Research Project of China 9732012CB316203;National Natural Science Foundation of China61472321,61332006,61502390;National High-Tech R&D Program of China 8632015AA015307;Basic Research Fund of Northwestern Polytechnical University of China3102014JSJ0005,3102014JSJ0013

2016-10-14(万方平台首次上网日期,不代表论文的发表时间)

共18页

2068-2085

相关文献
评论
暂无封面信息
查看本期封面目录

软件学报

1000-9825

11-2560/TP

27

2016,27(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn

打开万方数据APP,体验更流畅