DOI：10.3969/j.issn.0254-0037.2007.07.010

基于多特征的自适应新词识别

引用

摘要：

为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识别模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.

关键词：自然语言处理系统、计算语言学、词语处理、新词识别、多特征、自适应、自动分词

所属期刊栏目：33

分类号：TP391.12(计算技术、计算机技术)

资助基金：国家自然科学基金60272055;60572159;国家高技术研究发展计划863计划2001AA114111;教育部科学技术研究重点项目00128;107017

在线出版日期：2007-08-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：718-725

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于多特征的自适应新词识别