学位专题

目录>
<

一种基于互信息的藏文自动校对技术研究

次仁白玛
西藏大学
引用
随着互联网的发展,出现了许多电子文本,该电子文本经常存在很多错误,比如基本拼写错误、语法和语义错误,从而导致出版业的书刊、政府和新闻媒体发布的公告,以及研究者的数据等文本资料产生了极大的影响,传统的人工校对方法已经无法适应迅速增长的电子文本数量,人工校对不仅繁琐复杂、工作单调、劳动强度大、效率低、成本高,而且可能会出现二次错误,因此,文本自动校对的研究具有非常重要的现实意义。  本文通过学习藏语语言学,研究了藏文的最基本拼写规则、格语法、紧缩词、语义等基本知识,并借鉴英文和汉文校对,提出了符合藏文文本的校对方法,即基于字和词互信息的藏文自动校对,同时建立了藏文字典和词典,基本覆盖了常用词语。根据这些相关的理论研究和数据利用,最终实现了藏文文本自动校对系统。  文本自动校对是涉及到许多方面的研究,比如最基本的拼写检查、字和词、以及段落、语义等,本文主要提出了基于字和词层面校对。  本文的主要工作如下:  1.通过分析国内外研究现状趋势,藏文文本自动校对存在滞后现象,从而借鉴英文、汉文和其他少数民族语言的文本自动校对方法,结合藏文本身的特点,研究了符合藏文文本的自动校对方法;  2.研究和学习了互信息的基本概念和应用,根据藏文字和词错误类型,把互信息的计算方法应用到藏文字和词校对中;  3.提出了基于字互信息的藏文自动校对方法。利用藏文字互信息的算法思想对藏文文本进行字的校对,并为了得到更好的校对效果而提出了藏文字校对的古德-图灵估计法,对数据进行平滑处理。最终实现了基于字互信息的藏文自动校对系统,总体的平均精确率、召回率、F值分别达到81%、78%、80%。  4.提出了基于词互信息的藏文自动校对方法。该校对算法思想和字互信息校对思想大致上一样,不同的是词互信息的校对需要分词,分词方法是通过词典匹配方法进行分词,然后按照分词后的界限作为单位进行计算两个词之间的互信息表,最终实现了基于词互信息的藏文自动校对系统,总体的平均精确率、召回率、F值分别达到69.5%,65%,67%。  5.最终实现了一种基于互信息的藏文自动校对系统。该系统包含了字和词两个层面的校对功能。并得到了字互信息的校对效果优于词互信息的校对效果。  6.为了得到校对效果更好而提出了语言模型和语义分析的校对设想。

藏文;自动校对技术;互信息

西藏大学

硕士

计算机应用技术

尼玛扎西

2020

中文

H214;TP391.1

2021-02-04(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅