10.3969/j.issn.1000-386x.2013.04.025
一种基于逆序匹配重复模式的主题信息提取方法
网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法.该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取.实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率.
信息提取、重复模式、主题识别、逆序匹配
30
TP391(计算技术、计算机技术)
国家自然科学基金项目61003045
2013-05-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
88-91