10.3969/j.issn.1000-386x.2018.11.037
基于爬虫的智能爬行算法研究
为了提高漏洞巡检的效率,过滤掉大部分结构相似的网页,提出一种智能爬行算法.对爬取过程中URL去重,丢弃重复的URL;计算两个URL对应页面的相似度值,具体是将页面解析成DOM树,根据节点的位置、DOM树的深度以及深度相同的节点数量,将权重分配给每个节点,再根据给定的公式计算网页的相似度;以相似度为基础,使用聚合式层次聚类思想将具有相似结构的网页聚为一组,每组只留下一个网页,达到去除大部分结构相似的网页的目的.实验结果表明,该智能爬行算法可以有效地减少结构相似的网页,提高漏洞巡检系统的巡检效率.
爬虫、智能爬行算法、URL去重、相似度、聚类
35
TP3(计算技术、计算机技术)
2019-04-25(万方平台首次上网日期,不代表论文的发表时间)
共6页
215-219,277