基于N-Gram的专业领域中文新词识别研究

引用

摘要：

以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频（TF）、文档频率（D）和平均词频（TF/D）对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。

关键词：N-Gram、新词识别、词频统计

分类号：G350(情报学、情报工作)

资助基金：教育部人文社会科学研究青年基金项目“基于深度语义标注的网络中文学术信息抽取研究——以生物多样性描述为例”项目10YJC870004的研究成果之一

在线出版日期：2012-07-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：41-47

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于N-Gram的专业领域中文新词识别研究