学位专题

目录>
<

面向散文体裁的情感词语识别方法研究

程琦
山西大学
引用
阅读理解是自然语言处理领域的一个重要研究方向,现有阅读理解大多是针对语料格式相对简单,问题形式相对固定的任务,但是高考文学类作品阅读理解问题复杂多样,文学作品以中国现代散文为主,作品取材广泛,语言凝练,意境深邃,理解困难。因此,本文面向散文阅读理解任务,针对散文中的情感词语识别开展研究。从粒度最小的词语单位出发,研究情感词语的识别技术,主要研究工作如下:  (1)面向散文的情感词典和语料库构建。通过对散文文本独有特点的分析,发现散文情感大多细腻复杂,结合高考散文阅读理解答题的需要,许多问题涉及原文中的情感分析或修辞方法识别,若能构建散文阅读理解的基础资源,可以提升问题的解答效果。本文建立情感词典,并收集80190篇散文,其中标注1140条词语及其情绪标签、2625条动词隐喻句及其情感类别,最后分别对标注数据语料进行分析、总结。  (2)面向散文的低频情感词语抽取与情绪标签确定。散文是一种抒发作者真情实感、写作方式灵活的记叙类文学体裁,其表现形式更加多元化,表达方式更加婉转,情感表达更加细腻等。通过词语之间的共现关系确定词语间的相关性,再利用Word2Vec计算词语间的语义相似度。在此基础上,构建随机游走图,利用一般的词典确定种子集词语,再通过种子集的游走过程判别候选词的情绪标签,与其他方法相比较,本文提出的方法有明显的提升,证明了本文方法的有效性。  (3)面向散文的隐喻动词识别及情感判别。散文中常见寄情于景的写作方式,即两个概念体之间存在映射关系。本文根据隐喻动词能够表征两个概念体之间的关系,采用了BiLSTM(Bi-directional Long Short-Term Memory)用于记忆动词前后的两个概念体表示,根据隐喻动词常常有字面意思和隐喻意思两种意思,融合了Hownet中的义原知识,使得每个词包含至少一个义原,将义原的内容嵌入BiLSTM输入层的词向量表示层中,能够同时兼顾动词的语义信息和上下文特征。实验结果表示本文的方法对于隐喻动词识别有较好的效果。结合(2)中情感词语抽取方法,本文对隐喻动词的情感进行了识别,并将其应用到高考散文阅读理解原文中的隐喻动词识别和情感类别判断。

散文体裁;情感词语;随机游走;隐喻动词;自然语言处理

山西大学

硕士

软件工程

王素格

2019

中文

TP391.1

2020-01-15(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅