基础教育资源搜索引擎中的分词技术研究

黄立冬

南京师范大学

下载全文

在线阅读

引用

摘要：

自动分词技术是自然语言处理的基础工程。任何基丁词一级的中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理利未登录词的识别。本文结合基础教育资源搜索引擎项目工程，提出了中文分词在该项目中的解决方案。对歧义词的处理，本文统计高频特征词的构词特点，提出并采用了“高频特征词”消歧义的办法，同时系统实现时辅助以“统计汉字二元语法关系”的方法来解决交集歧义的问题。对姓名的处理，本文主要是结合统计与规则两种方法各自的优点，统计语料库，并对这些姓名用字进行分析，提出了自己的分类策略。采用分词碎片识别中文姓名法，对常见。的姓名识别率达到90％左右。对其它未登录词的处理，本文尝试采用高频重复词自动识别，能把每篇文章中出现的高频未登录词统计出来(匹配次数、文章篇数)，然后根据权重计算，计算机能把它自动加入到词库，从而可以自动的扩充主词库的容量。本文最后对分词系统的构架、流程、接口设计进行了阐述。

关键词：中文信息处理;中文分词;搜索引擎

授予单位：南京师范大学

授予学位：硕士

学科专业：教育技术学

导师姓名：杨晓江

学位年度：2006

语种：中文

分类号：G202

页数：48

在线出版日期：2007-08-07（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基础教育资源搜索引擎中的分词技术研究