学位专题

<
DOI:10.7666/d.Y1319420

潜在语义分析在跨语言信息检索中的应用研究

闭剑婷
广西大学
引用
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的网站和用户数逐渐增加,给传统的以英语为唯一语言的信息检索技术带来新的问题。为此研究直接用用户的母语进行信息检索成为必要,进而研究双语言或多语言的跨(交叉)语言信息检索也成为一个热门的话题。 跨语言信息检索研究的是基于一种自然语言构造的查询搜索任意语言文档的方法,因为单一语言信息检索的研究已经比较成熟,而且已经实用化,因此目前跨语言信息检索技术的基本框架都是从单语言信息检索继承发展而来。但由于不同的语言背后隐藏着差别很大的文化背景和人文习惯,机器翻译的效果至今不能满足人们的要求,所以仅仅依靠单语言检索的方法不能满足解决跨语言信息检索中的语义匹配等深层次问题。 本文首先介绍了跨语言信息检索的研究内容和相关技术及其国际评测标准,接着分析了潜在语义分析的原理和建模方法以及相关的应用。然后根据潜在语义分析的语言无关性等特点,用其分析双语文本,建立词语翻译模型,并引入双向翻译思想,提高翻译准确率。随后针对传统跨语言信息检索中查询扩展方法的缺陷,结合k-means聚类和潜在语义分析模型对文本和词语表示的优势,提出一种新的扩展方法,减轻翻译出错或翻译歧义对查询结果的影响,最后更新了传统的查询词权重计算公式,提高了检索的平均准确率。

信息检索;语义分析;跨语言检索

广西大学

硕士

计算机软件与理论

苏一丹

2008

中文

G354.4

60

2008-11-14(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅