学位专题

<
DOI:10.7666/d.Y3352366

研报领域的产品词命名实体识别的研究

蒋超
广西大学
引用
命名实体识别是自然语言处理的基础研究之一,命名实体识别的效果的好坏,可能会直接影响到后续研究的效果。在金融研报(以下简称研报)领域中,产品词是一种常见的命名实体,识别这些产品词命名实体能够有助于从研报中挖掘出更深层次的信息,对进行后续的研报研究具有极其重要的意义。本文在分析了大量研报之后,针对研报中产品词命名实体存在的潜在规律,提出了相应的产品词命名实体识别方案,研究方法如下:  (1)本文选取条件随机场CRF作为序列标注模型,在引入常用的词、词性等特征之后,提出一种基于Word2vec的特征提取及优化算法,该算法首先提取出word2vec词向量中前五个与当前词词向量距离最邻近的词作为优化模型的特征。并在此基础上,结合种子词词典与同义词理论,分别引入种子产品词词频及前后缀搭配词特征来优化模型。该方法不仅丰富了模型的特征,提升了模型的准确率与召回率,且很大程度上改善了模型针对训练过程中的语料稀缺以及标注语料匮乏等问题时的产品词识别效果。  (2)本文在原有的CRF模型上,针对应用中出现的问题,提出一种改进的CRF算法,即回溯CRF算法。该算法的第一步,首先结合规则,在模型对序列标注进行概率计算时,对满足规则的词优先置为产品词标签,求得最初的最优序列标注。第二步,通过回溯CRF算法,依次纠正被第一步误置为产品词标签的词,获得最终的最优序列标注。

金融研报;产品词;命名实体;识别算法

广西大学

硕士

计算机系统结构

唐天兵

2017

中文

TP391.1

65

2018-07-18(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅