DOI：10.3969/j.issn.1000-386x.2014.07.013

基于多特征融合的网页正文信息抽取

引用

摘要：

当今主流网页分为单正文体网页和多正文体网页.这些网页的正文信息都具有多个正文特征.想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手.鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法.实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页.

关键词：单正文体、多正文体、多特征、信息抽取

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61152001,61170111;中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题20110102

在线出版日期：2014-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：47-49,77

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于多特征融合的网页正文信息抽取