学位专题

目录>
<
DOI:10.7666/d.Y1865974

搜索引擎中网络爬虫技术研究

郭海燕
西安电子科技大学
引用
随着Internet技术的迅速发展,Web信息呈指数增长,搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意,如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统,并对其中的核心算法做了深入探讨。   论文分析了搜索引擎的工作原理和体系结构;研究了网络爬虫的搜集策略,提出了一种改进的基于网页深度和带权重的反向链接相结合的搜集算法,并对该算法做了可行性验证;设计并实现了网络爬虫的关键算法,包括多线程的网页抓取,URL的去重,网页的调度等。此外,针对中文搜索引擎的特点,采用汉字编码的转换,实现了不同编码网页的统一存储;采用DNS解析缓存机制,使得信息搜集的速度明显加快;采用增量抓取机制,避免了因重复搜集未变化的网页带来的资源和时间耗费。实验结果表明,该网络爬虫的设计较好的满足了搜索引擎对海量数据处理的要求。  

网络爬虫;搜索引擎;信息检索;Web服务;网页抓取

西安电子科技大学

硕士

计算机系统结构

丁振国

2009

中文

TP393.09;TP301.6

86

2011-08-03(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅