学位专题

目录>
<
DOI:10.7666/d.Y2862210

基于维基类百科知识资源的实体关系发现和语义标注

程童凌
北京化工大学
引用
互联网技术的不断发展,促进了新一代网络出版载体的发展,维基类百科全书也应运而生。从维基类百科出现开始,其崇尚自由、开放、共享的精神就受到互联网用户的普遍关注。时至今日,维基类百科已经成为最具活力、影响力最大、传播效力最广的网络出版类型之一。维基类百科自身数据间的关系链接为语义网应用服务的发展提供了可能,然而维基类百科编辑者们在编辑词条时,并未对一些实体提供语义标注,导致维基类百科数据间存在实体链接缺失。实体链接旨在为知识库中某个关键词寻找合适的实体,并与该关键词建立链接,以加强知识库数据间的关联程度。在知识库中添加实体链接关系可以将无结构或结构程度低的文本信息转化为结构程度高的文本信息,极大地增强了知识库信息的可读性。  中文维基类知识库,如百度百科,互动百科等实体链接关系缺失严重,并且基于维基百科的实体链接方法在中文知识库上准确率和召回率低,所以本文结合中文知识库知识结构的特点,定义了5个相似度特征值来描述实体间的关联程度。在此基础上,针对百度百科等中文知识资源,给出了一种自动发现实体链接并进行语义标注的方法。通过识别百度百科信息框和正文中的所有条目,构建相应的条目表,为条目表中的每一个条目建立候选匹配表;然后使用逻辑斯蒂回归模型来评价定义的5个特征值对语义关系的贡献程度(即权值),发现候选匹配集中的最佳匹配,以此实现百度百科的实体链接并进行相应的语义标注。  为评估本文方法的有效性,本文选取百度百科作为数据源,进行实体链接关系发现和相应的语义标注实验,实验结果表明,本文定义的5个相似度特征值可以从不同方面较好地表示实体间的语义关联程度,提出的方法可以有效地发现缺失的实体链接关系,准确率和召回率都明显优于其他中文百科链接方法,并且最终能获得良好的语义标注效果。  

实体链接;中文知识库;语义标注;维基类百科;文本信息

北京化工大学

硕士

计算机科学与技术

赵瑞莲

2015

中文

TP393.09;TP391.12

66

2015-12-29(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅