DOI：10.3969/j.issn.1000-386x.2013.04.025

一种基于逆序匹配重复模式的主题信息提取方法

引用

摘要：

网页中的信息主要以重复的HTML结构进行组织并形成一致的展现形式,主要研究具备复杂重复模式的网页主题信息块识别,提出一种改进的基于逆序匹配重复模式的算法.该算法依据HTML标签结构和class属性改进DOM树,重构页面的向量空间模型,逆序匹配重复结构模式并完成对主题信息的提取.实验结果表明,该方法能准确识别复杂页面结构中主题重复模式,有效避免非主题重复模式的干扰,有较好的召回率和准确率.

关键词：信息提取、重复模式、主题识别、逆序匹配

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61003045

在线出版日期：2013-05-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：88-91

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

一种基于逆序匹配重复模式的主题信息提取方法