基于动态粒度思想的实体关系识别方法研究

顾雪峰

山西大学

下载全文

在线阅读

引用

摘要：

信息抽取是自然语言处理领域的一个重要分支，它的研究内容是从海量信息源中迅速找到真正需要的信息，主要目的是将无结构的文本转化为结构化或半结构化的信息，并以数据库的形式存储，供用户查询以及进一步分析利用。中文信息抽取研究起步较晚，主要研究工作集中在中文命名实体的识别方面。近年来，随着实体识别研究逐步实用化，实体关系识别的研究也越来越受到人们的重视。实体关系识别对于篇章理解、信息检索、信息抽取、问答系统、机器翻译等方面的研究有着非常积极的意义。目前汉语实体关系识别的研究刚起步，研究者主要是采用基于特征向量的机器学习算法识别中文文本中的实体关系，取得了一定的效果。实体关系的识别完全依赖文本中的特征，不同的特征粒度对识别结果有较大影响。分析以往的方法，都是采用统一粒度的特征来进行关系识别，这样会产生由于特征粒度比较“细”，问题粒度相对比较“粗”而不能识别的区域，为了解决这个问题，本文提出了采用基于动态粒度下粗集近似思想的方法进行实体关系识别。本文首次应用动态粒度思想，对识别特征逐步进行了细化，构建了一个具有偏序关系的特征族，经过训练，用来识别实体关系，取得了较好的效果。本文主要工作如下：1.语料标注。对818篇3.11马德里爆炸新闻语料，约40万字，进行了实体标注，同时少量标注了7.7伦敦地铁爆炸新闻语料，做开放测试语料。 2.实体对聚类。在分析真实语料的基础上，本文采用了OPTICS的聚类算法对实验语料中实体对进行了初始聚类。 3.特征选择。从聚类结果中，根据一些特征选择的规则，产生每类关系的识别特征。 4.构造偏序特征集。应用动态粒度下粗集近似思想，对特征细化，产生一组由粗到细、有偏序关系的特征族。按照上面提出的方法，本文设计并实现了基于动态粒度思想的实体关系识别实验，封闭测试结果，各类实体关系的F均值都达到了80％，与采用统一粒度特征的方法相比，F均值平均提高了5个百分点，最好的提高了8个百分点。开放测试中，采用本文方法比一般统一粒度方法高出近7个百分点。最后，本文详细分析了实验结果中的错误实例，分析了原因，并对一些问题提出了解决的办法，以便进一步研究。本文采用基于动态粒度思想进行实体关系识别，取得了较好的效果，今后将在进一步扩大资源，增加特征的基础上进行更深入的研究。

关键词：统一粒度;实体关系;动态粒度;粗集近似;偏序关系

授予单位：山西大学

授予学位：硕士

学科专业：计算机软件与理论

导师姓名：杨尔弘

学位年度：2006

语种：中文

分类号：TP391.4;O153.1

页数：36

在线出版日期：2007-07-02（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于动态粒度思想的实体关系识别方法研究