基于网站目录及链接关系的Spider爬行策略的研究与实现

刘亦科

北京化工大学

下载全文

在线阅读

引用

摘要：

随着互联网（Internet）近几年来的飞速发展，互联网上提供的信息也呈现爆炸式的增长态势，面对Web信息以几何级数不断增长的情况，如何能够快速获取对用户更有价值的、更有质量的信息便成为了研究的热点之一。网络机器人Spider是整个搜索引擎系统的重要组成部分，它是搜索引擎的数据来源，Spider的效率决定着整个搜索引擎系统的内容质量的高低、信息能否及时的更新。本文首先从搜索引擎的发展和种类出发，研究了搜索引擎的基本组成工作原理和网络机器人的组成体系结构，重点分析了基于网页质量研究的网络机器人的爬行策略。通过对Web结构上的挖掘分析，结合对链接种类的分析，设计了一种新的针对高质量网页及潜在的高质量网页为爬行目标的网络机器人爬行策略。本文的主要研究内容主要包括以下几个方面： 1．通过对一般网络机器人的体系结构的分析，以及对Jeff Heaton Spider开源爬虫的研究，提出了本文所设计的网络爬虫的体系结构。 2．对基于网页质量优先爬行的几种网络机器人爬行策略进行了分析和比较。 3．对Web的结构形式进行了分析，结合对网页间链接的分类研究，提出针对高质量网页和潜在高质量网页为目标的网络机器人爬行策略。 4．通过对实验数据进行分析，并与Backlink算法网络机器人进行比较，证明了本文所设计的爬行方案的可行性和必要性。 5．对运行结果和下一步本课题的实现内容做了分析和简单的展望。

关键词：链接分析;网站目录;高质量网页;爬行策略;搜索引擎;内容质量;网络机器人;网络爬虫

授予单位：北京化工大学

授予学位：硕士

学科专业：计算机应用技术

导师姓名：山岚

学位年度：2009

语种：中文

分类号：TP393.4

页数：51

在线出版日期：2010-01-19（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于网站目录及链接关系的Spider爬行策略的研究与实现