搜索引擎中网络爬虫技术研究

郭海燕

西安电子科技大学

下载全文

在线阅读

引用

摘要：

随着Internet技术的迅速发展，Web信息呈指数增长，搜索引擎已经成为人们进行信息获取必不可少的工具。目前大多数的搜索引擎提供的服务还不能令用户满意，如何利用有限的系统资源搜集尽可能多、尽可能重要的网页已经成为研究的热点。本文设计并实现了一个网络爬虫系统，并对其中的核心算法做了深入探讨。　　论文分析了搜索引擎的工作原理和体系结构；研究了网络爬虫的搜集策略，提出了一种改进的基于网页深度和带权重的反向链接相结合的搜集算法，并对该算法做了可行性验证；设计并实现了网络爬虫的关键算法，包括多线程的网页抓取，URL的去重，网页的调度等。此外，针对中文搜索引擎的特点，采用汉字编码的转换，实现了不同编码网页的统一存储；采用DNS解析缓存机制，使得信息搜集的速度明显加快；采用增量抓取机制，避免了因重复搜集未变化的网页带来的资源和时间耗费。实验结果表明，该网络爬虫的设计较好的满足了搜索引擎对海量数据处理的要求。　　

关键词：网络爬虫;搜索引擎;信息检索;Web服务;网页抓取

授予单位：西安电子科技大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：丁振国

学位年度：2009

语种：中文

分类号：TP393.09;TP301.6

页数：86

在线出版日期：2011-08-03（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

搜索引擎中网络爬虫技术研究