学位专题

<
DOI:10.7666/d.Y1106366

汉英文本对应单位转换分析—语料库驱动研究

吴进善
河南师范大学
引用
平行语料库研究是近年来语料库语言学横向发展的新趋势,人们已清楚认识到大规模高质量的平行语料库在自然语言处理、词典工具开发、比较语言学以及第二语言习得和教学等众多领域中的巨大价值。“对应单位”为平行语料库研究提供了一个新的理念。基于平行语料库研究双语文本“对应单位”的转换与分析,其主要意义在于,充分尊重语言事实,尊重翻译事实。 “对应单位”被定义为“源语言和目标语言文本中任何可以识别的相互对应的语块”(李文中,2006)。这一定义是一个宏观的概念,在实际操作中,需要对“对应单位”作一个更加易于操作的界定。为了便于研究,我们把一个“对应单位”分为“源语言对应单位(CU<'s>)”和“目标语对应单位(CU)”两部分。我们认为“对应单位”是一个由源语言对应单位和目标语对应单位组成的一个二元组。源语言对应单位和目标语对应单位应满足以下条件: (1)源语言对应单位在形式上应该是源语言文本中的具有语义自足性、句法自足性和边界动态性特征的一个词或者一组词。 语义自足性是指源语言对应单位语义无歧义,其本身无歧义或已包含了消歧环境。 句法自足性是指源语言对应单位内部各成分之间满足一定的句法关系并具有一定的复现性。 边界动态性是指一个源语言对应单位可以扩展从而形成另一个大的源语言对应单位,或者可分解为更小的对应单位。提取过程中我们采取最小匹配原则,由小到大提取。实际运用中采取最大匹配原则,由大到小匹配。 (2)目标语对应单位是源语言对应单位的翻译。这一翻译应改是该源语言对应单位的唯一翻译,如果有多个翻译,那么这些翻译应该是同义并且可互换的。 本文从语料库语言学的视角,运用了语料库驱动的研究方法对“对应单位”这一面向应用提出的概念进行了初步研究。对“对应单位”的定义、识别标准进行了界定,并对其基本特征以及汉英文本“对应单位”的翻译转换关系进行了实证分析。 主要研究问题如下: (1)“对应单位”以什么样的形式在哪些层面上存在? (2)源语言对应单位和目标语对应单位之间的对应关系是如何建立和维持的? 研究目标为: (1)建立一个微型汉英平行语料库,并在其基础上建立一个汉英对应单位数据库; (2)初步构建“对应单位”这一概念的理论框架及其研究方法; (3)将“对应单位”这一理念初步运用到相关研究领域中去。 本文详细介绍了语料库的建立和“对应单位”的提取流程。本研究中的使用的语料库是一个微型的自建汉英平行语料库,语料题材为政治评论。在软件辅助下,通过手工识别,我们得到了一个包含1064组“对应单位”的对应单位数据库。根据源语言对应单位的形式,我们将数据库分为四组,分别为单词级对应单位(CU-W)、多词单位级对应单位(CU-MWU)、小句级对应单位(CU-C)和句子级对应单位(CU-S)。 基于对应单位数据库,我们对源语言对应单位和目标语对应单位之间的对应关系进行了考察,主要有对称对应和非对称性对应、直接对应和语法变化对应以及一对一对应和一对多对应三组对应关系。 “对应单位”这一概念是面向应用提出的。从平行语料库中提取的“对应单位”可以被用作双语词典或者翻译知识数据库,这对翻译工作者和语言学研究人员将会有所裨益。不同级别的“对应单位”组成的对应单位数据库将会成为新一代汉英双语词典(纸质或者电子版)的基础并起将会逐渐替代传统的双语词典。对应单位数据库不仅会帮助和改进人工翻译,而且还会使机器翻译在有限领域的真实自然文本的自动翻译成为可能,如果对应单位数据库足够大的话,将会使机器翻译在更广的领域都得以进行。对应单位数据库还可以用于词义消歧、翻译质量监督以及语言学习等其它相关领域。“对应单位”的实际应用还有待于进一步研究和开发,一些理论和技术上的问题也有待后续研究。大型的汉英平行语料库建设和提取工具开发将会是下一步研究的重点。

平行语料库;比较语言学;第二语言;语言习得;对应单位

河南师范大学

硕士

外国语言学及应用语言学

李文中

2007

中文

H08;TP311.131

70

2007-09-21(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅