桌面搜索引擎的研究与实现

丛磊

北京化工大学

下载全文

在线阅读

引用

摘要：

针对传统意义上的搜索引擎和新近提出的桌面搜索的概念，本文提出一整套的搜索引擎从客户端到服务端的实现方案，并予以实现。此方案包括网络蜘蛛、多线程下载器、UNICODE文件存储模块、HTML/XML语法解析器、分词系统、散列二级索引数据库、WebService、Pagerank(网页排名)、划词搜索。网络蜘蛛也就是Spider，负责将网络上的各种链接信息，包括普通网页信息、办公资源、图片资料和音乐视频资源和flash动画，网络蜘蛛把它们的URL地址及相关信息(如更新时间、来源网站)存进数据库，并将所有URL的链接情况记录下来，以等待后面的Pagerank模块调用。多线程下载器将URL下载为文件后，用UNICODE更名机制存到本地硬盘。 HTML/XML语法解析器负责将已经存好的HTML文档解析，剔除无用的HTML标识，并根据有用的HTML标识将文本重新组织为XML。分词则负责将英文和中文段落进行词分割。散列二级索引数据库是根据分词的结果，建立从词到URL和从URL到词的两个查询数据库。而WebService则是用于用户交互的网络服务，负责响应用户的查询请求，并调用已经建立好的索引数据库返回查询结果。 Pagerank利用网络蜘蛛创建好的链接信息，采用被二维线性收敛方法增强的幂法，计算每个URL的网络排名。划词搜索是运行在客户端，能够监视用户的划词动作并快速返回其要搜索的关键词查询结果。论文首先介绍了课题涉及到的主要理论和技术，然后介绍了本搜索引擎系统的总体设计以及主要模块的详细设计，最后对搜索引擎进行了总结和展望。

关键词：搜索引擎;索引数据库;桌面搜索;划词搜索;网络蜘蛛

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：许南山

学位年度：2006

语种：中文

分类号：TP393

页数：68

在线出版日期：2006-11-17（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

桌面搜索引擎的研究与实现