10.3969/j.issn.1000-386x.2014.02.023
HMM词性标注中高频生词的处理
介绍在一种确定语料库中高频生词的处理方法。在分析隐马尔科夫模型在词性标注中的具体实现以及生词问题的关键所在的基础上,结合现有的生词处理方法,通过设定相应的阈值,并结合生词的词性特征,针对英汉生词词性分布的特点,选取生词中更加有价值的高频词加入训练文本,达到完善语料库,提高标注准确率的目的。并对HMM模型和加入生词处理方法之后的模型的标注准确性进行比较。实验表明,上述方法可以有效地选择出某领域具有代表性的高频词,在训练文本中加入这些词,能够较大提高词性标注的准确率,满足了词性标注应用于实际的基本要求。
隐马尔科夫模型、词性标注、生词处理
TP391(计算技术、计算机技术)
山西省留学归国人员科研项目2011-027;山西省留学人员科技活动择优项目2011-762
2014-03-12(万方平台首次上网日期,不代表论文的发表时间)
共3页
86-88