DOI：10.3969/j.issn.1001-2400.2007.02.035

近似重复记录的自适应距离度量检测

引用

摘要：

提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.

关键词：近似重复记录检测、记录链接、实体匹配、数据集成

所属期刊栏目：34

分类号：TP311(计算技术、计算机技术)

资助基金：国家部委预研项目41101050108;西安电子科技大学博士生创新基金05013

在线出版日期：2007-05-14（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：331-336

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

近似重复记录的自适应距离度量检测