DOI：10.3969/j.issn.1000-386X.2010.10.037

Web信息抽取技术在统一检索系统中的应用研究

引用

摘要：

结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例.实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台.

关键词：Web信息抽取、统一检索、页面结构分析、关键信息块、子树广度

所属期刊栏目：27

分类号：TP3;G2

资助基金：甘肃省科技基础条件平台建设计划项目2GS067-A35-004-01;甘肃省技术研究与开发专项计划项目0709TCYA007

在线出版日期：2010-12-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：120-122,137

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

Web信息抽取技术在统一检索系统中的应用研究