10.3969/j.issn.1001-2400.2007.01.027
多源Web对象与关系数据的集成
利用序列数据语义标注学习方法来解决异构数据源的模式匹配问题,将从多个网站抽取的异构Web对象集成到关系数据库中.在线性链条件随机场的基础上提出了一种可叠加多阶链的组合条件随机场模型.该模型可以在由手工标注数据和关系数据库记录组成的联合样本集上进行训练,因此减少了对繁琐手工标注样本的依赖;此外,通过在线性链条件随机场模型上叠加高阶链,使得该模型能够有效地处理状态变量间的长距离依赖.在多个领域的真实数据集上的实验和分析结果表明,所提出的方法能显著提高异构Web数据的字段标注性能.
Web数据集成、模式匹配、组合条件随机场
34
TP311(计算技术、计算机技术)
国家部委预研项目41101050108;西安电子科技大学博士生创新基金05013
2007-03-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
126-130,153