10.3969/j.issn.1000-386X.2010.12.043
分布式主题爬虫的设计与实现
研究实现了一个分布式网络爬虫系统.系统架构主要分为控制节点和爬行节点两部分,并描述了分布式系统关键技术的解决方案.系统采用二级哈希映射算法进行任务分配以解决基于目标导向、负载均衡的URL分配问题,使用消息通信使节点相互协作,提出利用遗传算法作为该主题爬虫系统的搜索策略,并给出了网页更新策略的改进方法.
主题爬虫、分布式、遗传算法、搜索引擎
27
TP3;TP2
2011-03-21(万方平台首次上网日期,不代表论文的发表时间)
共4页
135-138