学位专题

目录>
<

限定领域内汉英口语的统计翻译方法研究

程葳
中国科学院自动化研究所
引用
机器翻译是自然语言处理的重要应用领域.口语翻译作为机器翻译的一个新兴分支,具有重要的理论意义和实用价值,正受到越来越多的关注.该文以基于统计的翻译方法为研究主线,提出和建立了一整套限定领域内汉英口语的统计翻译框架,并就其中的一些关键问题进行了研究,主要成果和创新点包括:1.建立了限定领域内汉英口语统计翻译的原型系统,并就统计机器翻译在汉英口语翻译中应用的可行性和主要不足进行了探讨.该文在对统计机器翻译理论深入分析的基础上,将经典的基于单词的统计翻译方法应用到汉英两种差别较大的语言之间.2.提出了双语语块的基本概念.该论文在对基于语块的处理方法进行深入分析的基础上,针对汉英口语的特点和机器翻译的需要,提出了双语相关的语块描述框架——双语语块,并从结构、句法和语义对整性等多角度对其进行定义.然后,论文深入研究了双语语块的识别和语料库加工等问题,先后提出基于规则的双语语块语料库加工策略和统计与规则相结合的双语语块自动识别方法,为建立基于双语语块的大规模口语语料库提供了可能.3.对基于单词的统计机器翻译进行改进,建立基于双语语块的口语统计翻译系统.该论文针对原有统计机器翻译的主要不足,将双语语块概念引入到统计翻译方法当中,建立了基于双语语块的汉英口语统计翻译框架,并将其与基于单词的系统进行了比较.4.提出了面向口语统计翻译的译文质量自动评价新方法.输出译文质量的自动评价对统计翻译方法的研究具有十分重要的意义.但现有的评价方法主要是针对书面语翻译,并没有考虑到口语翻译的特殊要求.因此,该论文提出了一种面向口语和统计翻译方法的新型的自动评价方法,通过定义信息段、标注权重和设计多种匹配策略等方法,使自动评价结果与人工打分更为接近,同时也提高了评价过程对不同译文的适应能力.

口语翻译;统计机器翻译;语块;基于语块的处理;自动评价

中国科学院自动化研究所

博士

模式识别与智能系统

徐波;赵军

2003

中文

H085

142

2005-05-24(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅