10.3969/j.issn.1000-386X.2010.10.037
Web信息抽取技术在统一检索系统中的应用研究
结合统一检索系统的信息抽取特点,应用基于HTML结构的信息抽取方法,介绍人工找到切割关键信息块的标记和位置的方法,最后提出基于子树广度的Web信息抽取方法,并给出了抽取规则的实现方案及实例.实验证明,该方法在基于Web过程模拟的统一检索系统中能保证很高的数据抽取回召率和查准率,并且成功应用于四家省级科技文献共享平台.
Web信息抽取、统一检索、页面结构分析、关键信息块、子树广度
27
TP3;G2
甘肃省科技基础条件平台建设计划项目2GS067-A35-004-01;甘肃省技术研究与开发专项计划项目0709TCYA007
2010-12-21(万方平台首次上网日期,不代表论文的发表时间)
共4页
120-122,137