学位专题

目录>
<
DOI:10.7666/d.D462900

信息检索中的查询扩展技术研究

李新友
广西师范大学
引用
随着互联网技术的迅速发展,网络上的信息呈爆炸式增长,网络技术的发展拓宽了我们获取信息的渠道,然而这些海量信息在给我们的日常生活带来极大便利的同时,也给我们带来很大的困扰,人们在面对这泛滥成灾的海量信息的时候无所适从,陷入了信息量过载的困境。如何从这些海量信息中检索出用户自己所需要的信息己成为信息检索领域一个非常重要的研究课题。由此,搜索引擎应运而生,而由于用户提交的查询与文档信息不匹配和表达不完整等现象的存在,传统信息检索不能满足用户的查询要求。为解决此问题,有些学者提出了查询扩展技术,通过一定的方法和策略对用户的初始查询词进行扩展和重构,从而达到改善检索性能的目的。查询扩展是信息检索中优化查询的一种有效方法,研究信息检索中的查询扩展技术,具有重要的理论价值和实际意义。本文的主要研究工作如下:首先,文章说明了本文的研究背景、目的及意义,对信息检索与查询扩展的发展做了简要的概述。随后介绍了信息检索中的一些相关知识与理论并对目前的几种传统查询扩展技术进行了详细地分析与介绍,为本文的研究工作提供了一定的理论基础。其次,比较研究了三种传统的信息检索模型的检索性能,包括布尔模型、向量空间模型和概率模型。通过分析几种模型的检索原理与检索性能,比较这些模型的优缺点,并在此基础上对传统的向量空间模型进行了改进,提出了一种基于web页面结构的改进向量空间模型,该模型基于html语言的结构信息,将web文本文档的内容划分为标题类、黑体类、正文类3块,根据不同的块在文档中的位置以及对文档的重要程度不同,给各块赋予不同的权重比例系数,对其中的词项权重进行重新调整,以更好的区分相关文档和不相关文档,从而提高检索系统的检测性能。再之,结合查询扩展方法的不同特点以及检索模型各自的优缺点,在前文的基础上,利用上一章提出的改进的向量空间模型,提出了一种基于web页面结构和用户查询行为的伪相关反馈查询扩展算法,该算法利用本文提出的基于web页面结构的改进向量空间模型在不改变用户查询行为的情况下,结合用户对初检结果的查询浏览行为提取相关文档,然后对初始查询进行扩展。实验表明,该模型比传统的tf-idf算法、基于局部上下文分析的查询扩展算法和基于Apriori算法的局部反馈查询扩展算法的检索性能都有明显的提高。

信息检索;查询扩展;检索模型;查全率;查准率

广西师范大学

硕士

计算机软件与理论

张师超

2010

中文

TP391.3

2014-05-29(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅