学位专题

<
DOI:10.7666/d.y980342

基础教育资源搜索引擎中的分词技术研究

黄立冬
南京师范大学
引用
自动分词技术是自然语言处理的基础工程。任何基丁词一级的中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理利未登录词的识别。 本文结合基础教育资源搜索引擎项目工程,提出了中文分词在该项目中的解决方案。 对歧义词的处理,本文统计高频特征词的构词特点,提出并采用了“高频特征词”消歧义的办法,同时系统实现时辅助以“统计汉字二元语法关系”的方法来解决交集歧义的问题。 对姓名的处理,本文主要是结合统计与规则两种方法各自的优点,统计语料库,并对这些姓名用字进行分析,提出了自己的分类策略。采用分词碎片识别中文姓名法,对常见。的姓名识别率达到90%左右。 对其它未登录词的处理,本文尝试采用高频重复词自动识别,能把每篇文章中出现的高频未登录词统计出来(匹配次数、文章篇数),然后根据权重计算,计算机能把它自动加入到词库,从而可以自动的扩充主词库的容量。 本文最后对分词系统的构架、流程、接口设计进行了阐述。

中文信息处理;中文分词;搜索引擎

南京师范大学

硕士

教育技术学

杨晓江

2006

中文

G202

48

2007-08-07(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅