多领域的文本情感倾向分类方法研究

暴艳

山西大学

下载全文

在线阅读

引用

摘要：

随着Web2.0技术的迅速发展，网上出现了大量带有主观性倾向的文本信息，为了对这些文本信息进行挖掘与分析处理，文本情感倾向性分析技术引起了很多专家学者的关注。特征选择方法是进行文本情感倾向分析技术的重要步骤，但是仅仅考虑特征对文本情感倾向分类的作用已显得片面，本文将文本的主题信息与特征的类别区分能力相结合旨在得到既包含主题信息又包含区分能力的文本情感倾向分类特征。针对多领域的文本情感倾向分类问题，本文做了如下研究工作:　　(1)为了实现多领域的文本情感倾向分类，本文利用LDA主题模型对文本的主题信息进行了分析。通过建立文本表面的文字与隐藏于片段内的不同主题间的关联关系，获取主题在文本上的概率分布，实现文本的主题聚集。通过对2008年文本倾向性分析评测的2704篇文本的实验，对10个主题下的类别与已知领域类别进行的匹配结果表明，此时该文本子集的聚集纯度最高。　　(2)为了进一步对混合领域文本情感倾向性分类进行研究，本文利用LDA模型与Fisher判别准则两种方法进行交集和并集混合，获取用于文本情感倾向判别的特征，在此基础上，采用TF-IDF的特征权重计算方法以及文本情感分类效果较好的SVM分类器，在相同的文本语料上进行实验比较。结果表明，两种特征混合交集，在特征维数最低的情况，却得到了最好的情感分类结果。　　(3)针对多领域的文本情感倾向性分类问题，本文利用LDA模型将混合领域的文本进行领域聚集，在此基础上对各领域类别的文本，采用Fisher判别准则的特征选择方法重新选择了特征，仍采用TF-IDF的特征权重计算方法和SVM分类器，在同样的文本语料上进行实验比较。结果表明，当领域信息比较清晰时，文本的倾向性分类结果比较好，说明文本的情感倾向性分类是与领域相关的。

关键词：文本情感倾向性分类;特征选择;LDA模型;Fisher判别准则;主题信息

授予单位：山西大学

授予学位：硕士

学科专业：计算数学

导师姓名：王素格

学位年度：2012

语种：中文

分类号：TP391.1;TP301.6

页数：51

在线出版日期：2015-04-20（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

多领域的文本情感倾向分类方法研究