基于《汉语大字典》（第二版）的全同异体字字库建设与检索系统开发

王米娜

华中科技大学

下载全文

在线阅读

引用

摘要：

随着信息技术的发展，人文社会类学术研究由传统的纸质研究逐步向计算机辅助型研究转变，其中最基本的要求是电子文本的阅读与检索，而目前投入使用的检索系统或不包含计算机未处理汉字或以图片代替，并不能实现真正完备的检索。异体字的数字化处理是解决这一问题的重要环节。目前，《汉语大字典》（第二版）是规模最大的字典，但尚未有人对其异体关系做系统的统计，为此，本文以《汉语大字典》中全同异体关系为研究对象，建立了一个面向电子文本使用的异体字字库，设计并实现了完全意义上的文本检索系统。　　本文在穷尽式地统计出以“同某”为标注方式的全同异体关系基础上，通过进行类似“同用”和“递用”的系联，整理出完备的全同异体字表，其中包含10397行记录，涉及32877个汉字。在异体字字库建设过程中，本文新造了计算机未能识别汉字并完成输入法设置。统计发现共存在4828个计算机未处理的汉字，通过新造字库实现所有全同异体字的数字化处理；并借鉴字海两分输入法的思路，以拆分所得字元的拼音组合得到汉字编码，实现了新造字的输入与显示，最终实现了异体字表的数字化处理，建成了异体字字库。　　在此基础上，设计实现了异体字组查询、古籍中出现频次和出现环境统计等功能，并一一进行了测试，能够通过输入一个字检索到与之相关的全部异体字在不同朝代不同文献中的使用环境，检索范围可根据需要灵活选择库内指定古籍文本或库内全古籍。设计过程中集中力量解决了四字节汉字和新造字的识别处理工作，主要借助AscW函数对检索字符进行判断，最终实现对异体字表中全部字符的检索。　　通过异体字字库建设和检索系统开发，最终实现了全文本的数字化检索，在提高电子文本使用率的同时，为汉字本体研究及文献版本研究提供便利。

关键词：《汉语大字典》;异体字字库;检索系统;字符判断

授予单位：华中科技大学

授予学位：硕士

学科专业：语言学及应用语言学

导师姓名：刘根辉

学位年度：2017

语种：中文

分类号：H124.3

页数：77

在线出版日期：2018-06-27（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于《汉语大字典》（第二版）的全同异体字字库建设与检索系统开发