10.3969/j.issn.1000-386X.2011.11.067
一种新的主题网络爬虫爬行策略
为了解决传统主题网络爬虫准确度低或者爬行速度慢的问题,提出一种新的主题网络爬虫爬行策略,主要针对“二次爬行”过程进行改进.在传统的主题网络爬虫流程中增加一份“经验树”,将基于内容分析和基于链接分析两种不同的相关度分析算法相结合,并且可以保存爬虫爬行过程中所得到的“经验”,实现对后续爬行的指导.实验结果表明通过改进后的策略实现的主题网络爬虫在性能上有较大提升.
主题网络爬虫、爬行策略、二次爬行、相关度分析
28
TP311(计算技术、计算机技术)
2012-03-16(万方平台首次上网日期,不代表论文的发表时间)
共5页
264-267,293