10.3969/j.issn.1000-386X.2010.05.056
基于DOM的网页主题信息的抽取
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强.但Web页面的主题信息通常不太明确,抽取主题信息也比较困难.针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息.实验表明,该方法能够准确抽取主题信息.
DOM、主题、信息抽取、分块、剪枝
27
TP3;TU9
2010-06-22(万方平台首次上网日期,不代表论文的发表时间)
共3页
188-190