10.3969/j.issn.0254-0037.2007.11.022
MatchLink:一种主题爬行方法
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法--MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面.实验表明其结果好于BestFirst和BreadthFirst.
主题爬行器、文档向量模型、朴素贝叶斯
33
TP391.3(计算技术、计算机技术)
2008-03-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
1227-1232