基于动态贝叶斯网的中文专有名词识别

刘杰

山西大学

下载全文

在线阅读

引用

摘要：

专有名词的识别是中文信息处理领域的重要研究课题之一，目前尚未得到很好的解决。在大规模真实文本为基础的语料库研究的重要性日益突显的情况下，如何提高大规模语料库的质量成为关键，而专有名词的识别质量是影响语料库加工质量的一个重要因素，专有名词识别的自动化也能提高大规模语料库加工效率。此外，在信息抽取、问答系统、术语学研究等各个研究领域应用领域，专有名词的识别也是其基础性步骤。本文针对真实中文文本中较为频繁出现的人名、地理政治地名还有组织机构名三类专有名词，提出了一种基于动态贝叶斯网模型的专有名词自动识别方法，该方法把文本中的局部特征、全局特征及语言学经验知识融入一个极具表达和推导能力的随机概率模型中，可以很好地识别专有名词。研究内容主要包括以下几个方面： 1.对专有名词的分类做了较好的研究，分析它们在单句中的局部特征，在此基础上，建立了专有名词的局部特征变量之间的相互依赖关系。 2.研究了专有名词在真实中文文本的互指等语篇信息，利用有效的互指消解规则，解决了专有名词名义性互指等问题，把全局信息融入系统，保证了有效地识别专有名词。 3.采用了基准模型与动态贝叶斯网模型相结合的方法，取长补短，充分利用了两种模型的各自优点，既保证了识别系统的效率，也保证了识别结果的准确率。 4.为了提高专有名词识别效果，我们考虑了自然语言文本中的局部信息，此外更主要的是考察其语篇信息，并且针对中文文本中人名、组织机构名及地理政治名的识别，构建专有名词识别动态贝叶斯模型(DBNS)。我们把“是否某类专有名词”作为分词后中文文本的每个词的属性之一，从而把专有名词识别问题转换成一个分类问题。特别是考虑了正在识别的词与已经识别为某类专有名词的前一个词之间的一种联系等语篇信息，综合利用了随机模型和基于特征推理方法的优点。我们选用山西大学中文评测语料中共230篇作为实验材料，随机抽取其中180篇用于训练动态贝叶斯模型参数，剩余的50篇用于测试，然后同Nymble模型单独识别的结果比较，我们把动态贝叶斯模型作为Nymble的补充，在略微降低了专有名词识别召回率情况下，较大地提高了准确率和F值，特别地我们应用动态贝叶斯模型消除了Nymble方法识别结果中的模糊专有名词60％的错误结果。由此可见，因为动态贝叶斯识别模型考虑了待识别词的在文本中的诸多语篇信息，弥补了只考虑局部信息的隐马尔科夫模型——Nymble方法的局限，所以改善了专有名词的识别效果。

关键词：动态贝叶斯模型;专有名词;语篇信息

授予单位：山西大学

授予学位：硕士

学科专业：计算机软件与理论

导师姓名：杨尔弘

学位年度：2006

语种：中文

分类号：TP391.43;O212.8

页数：31

在线出版日期：2007-07-02（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于动态贝叶斯网的中文专有名词识别