10.3969/j.issn.1000-386x.2014.03.005
基于模糊SVDD监督的PageRank主题爬虫算法
主题爬虫是收集特定领域资源的网络爬虫。为了保证主题爬虫的查准率,提出一种基于模糊 SVDD(support vector do-main description)监督的 PageRank 爬虫算法,既考虑网页间的链接关系,又使用合适的分类器监督来保证爬虫与主题不偏离。通过与关键词匹配主题爬虫、shark-search 主题爬虫、PageRank 主题爬虫、基于 SVM预测的主题爬虫、普通 SVDD 指导的主题爬虫进行试验对比,验证了该算法具有更高的查准率。
模糊 SVDD、PageRank、主题爬虫
TP3(计算技术、计算机技术)
国家高技术研究发展计划项目2011AA 040605。
2014-05-06(万方平台首次上网日期,不代表论文的发表时间)
共5页
16-19,30