学位专题

<

基于Lucene的垂直搜索引擎的研究与应用

陈航哲
暨南大学
引用
垂直搜索引擎的研究与应用日益受到重视,一般基于开源软件包Lucene进行开发,但Lucene内置的语言解析器对于中文分词的支持不友好,所以在实际应用中一般需要开发者设计适合开发系统的中文分词模块。目前中文分词的主要方法包括机械分词等三类,而机械分词中的正向最大匹配算法占据主流地位,并得到了广泛的研究与应用。   本文重点研究了正向最大匹配算法,提出了一种新的正向最大匹配算法,该算法具有较高的分词精度,充分体现了“长词优先”原则等优点。对其分词的效率和精度进行了实验仿真,实验数据表明,该算法提高了分词的精度,而且效率在可接受的范围内,从而验证了算法思想的正确性和实用性。   在新的正向最大匹配算法理论的基础上,采用垂直搜索引擎系统的体系结构,设计并实现了一个可以在Tomcat服务器上运行的基于Lucene的公交线路查询系统,给出了系统的总体结构,并对其工作流程进行了较详细的描述,最后对系统的运行效果和性能进行了评测。

Lucene内置;垂直搜索引擎;正向最大匹配算法;机械分词

暨南大学

硕士

计算机科学与技术、计算机系统结构

王晓明

2010

中文

TP393.09

50

2011-04-27(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅