面向关联数据的实体对齐方法研究

李琳

北京化工大学

下载全文

在线阅读

引用

摘要：

无论是在传统Web场景还是语义Web场景下，知识互联始终是一个重要的问题，大规模知识图谱的构建为此提供了坚实的基础，知识图谱中的一个重要的部分就是多数据源之间OWL:sameAs链接的发现，这也是实体对齐(Entity Alinment)工作所要解决的问题。关联数据集之间的描述异构性使得适用基于模式的方法效果并不是很好，实体链接存在缺失。利用独立于模式的链接发现方法则可以在兼顾数据语义标签特征及统计特征的基础上发现缺失链接。　　本文通过将传统的基于模式下属性规则的对齐问题转换为独立于属性的二分类问题，针对关联数据集特殊场景，通过对数据集的语义特征抽取以及对抽取后的特征向量进行特征分析，在此基础上提出了一种基于机器学习分类算法的实体对齐算法，在关联数据集上的实验证明了此方法有助于一些缺失links的发现，并将此方法应用于设计、构建链接发现系统。主要研究内容如下:　　(1)对关联数据集合进行语义特征解析，提出了一种面向关联数据集的基于属性文本语义特征的实体对齐方法(Semantic Features based Entity Alignment，SFEA)。该方法充分利用关联数据作为对齐工作的数据来源，在对RDF数据进行语义特征解析的基础上，使用JSON技术并结合语义标签特征划分得到主要有效的九大类文本信息，构建具有显著语义特征的文本向量集待用。为了减少文本处理的工作量，本文还引入了倒排索引来生成候选实体集合。　　(2)特征向量构建匹配过程中，为了保证评估可靠性，使用MapReduce模型框架实现属性文本序列化计算工作，使用key-value形式存储信息，并综合选取具有较好类别区分能力的五大类综合性TF·IDF统计方法对文本特征进行建模，在筛选过滤有效信息的同时最大程度保证了候选实体对完整性，降低了计算复杂度。　　(3)提出了一种适用于大规模数据集合有监督的机器学习分类算法，利用特征向量信息以及关联数据集中特有的已存链接信息对数据集实体间关系进行有效分类。分类器生成过程中，一方面使用广泛验证有效的C4.5算法学习得到基本分类器，另一方面为得到性能良好的综合分类器使用改进的Adaboost算法扩展使用训练数据，最终得到性能良好的综合分类器，进而在大规模数据集上使用训练好的模型对实体关系进行分类。　　(4)将基于机器学习的实体对齐算法应用到了实际的实体链接构建系统设计中，本文在典型关联数据集合上进行了实验，对算法的实际对齐效果进行了有效测试。

关键词：关联数据;语义抽取;实体对齐法;机器学习分类算法

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机科学与技术

导师姓名：万静

学位年度：2017

语种：中文

分类号：TP311.13

页数：83

在线出版日期：2017-08-15（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

面向关联数据的实体对齐方法研究