学位专题

<
DOI:10.7666/d.Y737155

基于搜索引擎和XML的化工物性数据搜集与发布系统的开发

张聚弘
北京化工大学
引用
  本文介绍了搜索引擎技术的历史、工作原理、新技术、专业领域数据库搜索引擎和面临的挑战,提出了页面分析与数据提取技术和主动式Web信息获取技术。使用Java以及Oracle9i数据库构建了一个面向化工物性数据的数据搜集和发布系统,其中利用了搜索引擎技术中的Spider技术和页面分析技术来获取数据,利用XML的通用性对数据进行转化和组织存放入了本地数据库中。针对页面分析和数据提取过程出现的数据定位不准确问题,本文提出了一种基于站点内页面对比分析的Web数据提取方法。在对页面建树和分块的基础上对比分析获得页面数据块,然后利用同结构多页面对比和格式判断提取出数据,最后将数据存入到数据库中。本系统实现了对网上的化工物性数据的高效、准确的数据提取。 

网络技术;搜索引擎;数据提取;页面结构;化工物性数据

北京化工大学

硕士

计算机应用技术

山岚

2005

中文

TQ021.8;TP311.13

51

2005-11-16(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅