学位专题

目录>
<

面向短文本的特征选择方法研究

黄思佳
长春工业大学
引用
随着大数据时代的来临,互联网进入人们的生活。信息与数据也是以各种各样的形式出现:语音、视频、图像和文本等。在这些数据形式中,文本数据一直以传输速率快、内存小等优势传播最为广泛。正因如此,文本形态的数据越来越多。从文本数据中获取到最有用的信息这一问题,成为了领域内很受欢迎的课题。要从文本中获取信息,首先需要对其进行分类,文本分类也就此产生。由于短文本的数据稀疏、歧义,对这种文本形式进行分类就成了文本分类中一项具有挑战性的任务。对于文本的处理,分类效果主要取决于特征选择结果的好坏。对特征选择这个方向的探讨至关重要。本文对短文本的特征选择算法进行了研究,结合短文本的特征进行了算法分析和改进,以影评文本和新闻文本为实验数据对算法进行了验证。  本文主要针对信息增益算法进行研究与改进,并结合深度学习内容,引入Bert模型和注意力机制。主要的工作内容分为以下几个方面:  第一,对理论知识进行了研究。分析了文本分类的定义、相关概念、分类流程以及各个分类流程关键的算法步骤;介绍了常见的特征选择方法及它们的优缺点;又介绍了研究工作中用到的Bert模型的输入输出和预处理流程;对注意力机制的相关知识进行了阐述。  第二,给出了对信息增益算法的改进思路。通过对信息增益算法的分析,针对算法计算公式的两个不足:忽略词频因素对分类效果的影响和特征词未出现情况为分类带来的干扰大于其带来的贡献,分别为算法引入了词频因子和平衡因子,又针对特征选择算法忽略词性的问题引入词性过滤步骤,提出了一种改进信息增益算法,有效提升特征选择的效果。  第三,通过对短文本的特点进行分析,为改进后的算法引入Bert模型和注意力机制。提出了一种基于注意力机制的改进特征选择模型,有效解决了短文本特征稀疏歧义和上下文关联性强的问题。  最后,实验及结果分析。本文针对短文本,分别在二分类和多分类的数据集上对提出的改进信息增益算法和改进特征选择模型进行了实验验证,并通过准确率、召回率和F1值等评价指标来评判实验结果,证明了改进算法和改进模型在特征选择上的有效性。

特征选择;信息增益;短文本;注意力机制;文本分类

长春工业大学

硕士

电子信息

郑虹;卢少男

2022

中文

TP391.1

2022-10-12(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅