10.3969/j.issn.1000-386x.2013.04.040
半结构化数据的形式化描述及数据抽取方法研究
半结构化数据的形式化描述和信息抽取是解决用户查询和信息获取的核心问题.随着信息资源的多样化和快速膨胀,现有的描述和抽取方法存在召回率和查准率低等缺陷.为解决此问题,提出一种新的半结构数据形式化描述方法,重新定义领域概念集和领域知识集,并在此基础上给出领域概念集、领域知识集的构建过程,包括领域概念的自动抽取、领域知识集关系自动构建和相似度算法描述.实验结果表明,所提出的描述方法比现有方法具有更高召回率和查准率,具有很好的可行性和有效性.
半结构数据、形式化描述、领域概念集、领域知识集、数据抽取
30
TP392(计算技术、计算机技术)
河南省教育厅自然科学研究计划项目2010C520007
2013-05-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
145-148