桌面搜索引擎的研究与实现
针对传统意义上的搜索引擎和新近提出的桌面搜索的概念,本文提出一整套的搜索引擎从客户端到服务端的实现方案,并予以实现。此方案包括网络蜘蛛、多线程下载器、UNICODE文件存储模块、HTML/XML语法解析器、分词系统、散列二级索引数据库、WebService、Pagerank(网页排名)、划词搜索。
网络蜘蛛也就是Spider,负责将网络上的各种链接信息,包括普通网页信息、办公资源、图片资料和音乐视频资源和flash动画,网络蜘蛛把它们的URL地址及相关信息(如更新时间、来源网站)存进数据库,并将所有URL的链接情况记录下来,以等待后面的Pagerank模块调用。
多线程下载器将URL下载为文件后,用UNICODE更名机制存到本地硬盘。
HTML/XML语法解析器负责将已经存好的HTML文档解析,剔除无用的HTML标识,并根据有用的HTML标识将文本重新组织为XML。
分词则负责将英文和中文段落进行词分割。
散列二级索引数据库是根据分词的结果,建立从词到URL和从URL到词的两个查询数据库。
而WebService则是用于用户交互的网络服务,负责响应用户的查询请求,并调用已经建立好的索引数据库返回查询结果。
Pagerank利用网络蜘蛛创建好的链接信息,采用被二维线性收敛方法增强的幂法,计算每个URL的网络排名。
划词搜索是运行在客户端,能够监视用户的划词动作并快速返回其要搜索的关键词查询结果。
论文首先介绍了课题涉及到的主要理论和技术,然后介绍了本搜索引擎系统的总体设计以及主要模块的详细设计,最后对搜索引擎进行了总结和展望。
搜索引擎;索引数据库;桌面搜索;划词搜索;网络蜘蛛
北京化工大学
硕士
计算机应用技术
许南山
2006
中文
TP393
68
2006-11-17(万方平台首次上网日期,不代表论文的发表时间)