学位专题

<
DOI:10.7666/d.y882059

桌面搜索引擎的研究与实现

丛磊
北京化工大学
引用
针对传统意义上的搜索引擎和新近提出的桌面搜索的概念,本文提出一整套的搜索引擎从客户端到服务端的实现方案,并予以实现。此方案包括网络蜘蛛、多线程下载器、UNICODE文件存储模块、HTML/XML语法解析器、分词系统、散列二级索引数据库、WebService、Pagerank(网页排名)、划词搜索。 网络蜘蛛也就是Spider,负责将网络上的各种链接信息,包括普通网页信息、办公资源、图片资料和音乐视频资源和flash动画,网络蜘蛛把它们的URL地址及相关信息(如更新时间、来源网站)存进数据库,并将所有URL的链接情况记录下来,以等待后面的Pagerank模块调用。 多线程下载器将URL下载为文件后,用UNICODE更名机制存到本地硬盘。 HTML/XML语法解析器负责将已经存好的HTML文档解析,剔除无用的HTML标识,并根据有用的HTML标识将文本重新组织为XML。 分词则负责将英文和中文段落进行词分割。 散列二级索引数据库是根据分词的结果,建立从词到URL和从URL到词的两个查询数据库。 而WebService则是用于用户交互的网络服务,负责响应用户的查询请求,并调用已经建立好的索引数据库返回查询结果。 Pagerank利用网络蜘蛛创建好的链接信息,采用被二维线性收敛方法增强的幂法,计算每个URL的网络排名。 划词搜索是运行在客户端,能够监视用户的划词动作并快速返回其要搜索的关键词查询结果。 论文首先介绍了课题涉及到的主要理论和技术,然后介绍了本搜索引擎系统的总体设计以及主要模块的详细设计,最后对搜索引擎进行了总结和展望。

搜索引擎;索引数据库;桌面搜索;划词搜索;网络蜘蛛

北京化工大学

硕士

计算机应用技术

许南山

2006

中文

TP393

68

2006-11-17(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅