学位专题

目录>
<

藏文情感词汇本体库半自动构建技术研究

尼玛次仁
西藏大学
引用
本体是概念化的明确的规范说明,本体作为知识库的一种常见实现形式,它是对一个领域中的概念的形式化描述。随着人与机器之间的交流越来越广泛,结构化的语言知识库对自然语言的发展起到了重大的作用,同时本体的共享概念和知识形式化表达以及复杂的关系描述功能在知识库构建中取得了广泛的应用。构建藏文情感词汇本体库不仅能够推动藏语言文字信息化的发展,同时对藏语自然语言处理领域的文本情感分析和情感倾向计算等任务提供重要的判断依据。  由于目前在藏语自然语言处理中缺乏比较规范且公开的词汇语义本体资源,并且构建本体需要投资大量时间和精力等问题,本文探索和研究如何从非结构化的文本语料中挖掘我们所需要的信息,构建情感词汇语义资源。同时通过复用其他优秀本体的基础上从文本中自动提取藏文情感词汇及词汇情感信息并手动构建情感词汇本体结构和框架,半自动方法来实现情感词汇本体库。该方法不仅能够保障情感词汇本体的信息准确率,还能节省时间和人工劳动力,在很大程度上提高了本体构建的效率。  首先,从词汇语义学和统计语言学等角度对藏文情感词汇的情感信息和语义特征进行了分析和研究,为藏文情感词汇本体知识获取范围提供精准的目标。使用手工收集和自动获取相结合的方式获取情感词汇本体知识,包括情感分类、极性和强度等情感信息以及其他词汇语义知识。为了减少本体构建的工作量和节约时间,提出了基于SO-PMI的藏文情感词典构建方法,构建了社交媒体领域现代藏文情感词典。  其次,根据藏文情感词汇的语义信息和情感信息,用Protégé本体构建工具,设计了藏文情感词汇本体的基本框架,复用中文情感词汇本体的基础上从藏文情感词典中获取情感词汇本体知识,定义藏文情感词汇本体的类和属性以及它们之间的层次结构和关系约束,创建情感词汇本体实例并相应的属性关系进行关联,然后用OWL本体描述语言形式化表示情感词汇本体并将其保存为owl文件形式。  最后,已有的情感词汇基础上利用浅层神经网络的词向量文本语义相似度计算方法,计算藏文情感词汇的语义信息,实现藏文情感词汇本体半自动扩充,并不同训练方法和模型效果进行对比,选择最优的藏文词向量模型,用于藏文情感词汇本体的扩充。为了保障本体的准确性,人工验证和评价本体的准确度以及本体构建结果,同时在验证和应用过程中不断修改和完善。通过实验结果分析和人工评价本体等方法,半自动化本体构建方法在藏文情感词汇本体构建和扩充方面取得了较好的结果,验证了该方法的可行性。

藏文情感词汇;本体库;半自动构建技术

西藏大学

硕士

中国少数民族语言文学

拥措

2023

中文

H214;TP391.1

2023-09-19(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅