DOI：10.3969/j.issn.1000-386X.2010.05.056

基于DOM的网页主题信息的抽取

引用

摘要：

随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强.但Web页面的主题信息通常不太明确,抽取主题信息也比较困难.针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息.实验表明,该方法能够准确抽取主题信息.

关键词：DOM、主题、信息抽取、分块、剪枝

所属期刊栏目：27

分类号：TP3;TU9

在线出版日期：2010-06-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：188-190

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于DOM的网页主题信息的抽取