学位专题

目录>
<

基于Lasso和互信息的特征选择算法研究

孟金彪
安庆师范大学
引用
随着计算机技术和网络技术的飞速发展,大数据和人工智能的浪潮也随之而来,数据越来越多,数据的特征也随之变得更加繁杂。当数据大量产生时,如何去处理这些数据就成了当下迫切需要解决的问题。在传统单标记方法无法满足现实需要的时候,多标记学习框架被提出,随着越来越多专家学者的深入研究,更多的基于多标记学习的研究方法相继被提出。特征选择在解决数据高维性问题具有很好的效果,在原始特征空间的基础上进行操作,去除冗余,得到一个性能优越的特征子集。有效的提高分类器的分类性能,减少运算时间,提高算法的计算效率。但是这些传统的特征选择算法却只能处理静态的特征数据,需要在运算前获取整个特征空间,然后才能加以处理得到相应的特征子集。而现实生活中,特征空间往往是动态产生的,并实时增加变化的,这就导致了传统的特征选择算法无法处理这类流特征选择问题。基于上述问题,本文提出了两种特征算法用以解决相应的特征选择问题,主要内容如下:  (1)针对传统特征选择算法在删除冗余特征,进行特征子集的选择过程中,往往存在计算开销大的问题,本文引入了Lasso特征选择算法,用于快速处理高维数据,选择特征子集。此外鉴于传统的信息熵不具有补的性质,且计算较为繁杂,本文引入模糊信息熵来替代传统的信息熵,以提高分类性能。基于这两点本文提出了一种基于Lasso和模糊互信息的多标记特征选择算法,通过实验证明该算法是有效的。  (2)针对动态特征选择问题,主要还是围绕着如何降低数据维度进行处理。基于“最大相关性,最小冗余性”的选择标准,考虑到实际情况下,特征空间往往具高维性和稀疏性的特点,而特征之间的冗余度相对是很小的。本文采用一种极限的思想,充分考虑筛选出与标记空间相关性高的特征,去忽略特征与已选特征之间的冗余性,计算实时产生的特征与标记空间之间的互信息,最后选出互信息大于阈值的特征得到最终的特征子集。基于此种思想,提出了基于互信息的快速流特征选择算法。通过实验证明该算法能达到节约运算时间的目标,同时也能提高分类效率。

多标记学习;特征选择;Lasso算法;模糊互信息

安庆师范大学

硕士

统计信息技术

钱萌

2020

中文

TP181

2022-01-10(万方平台首次上网日期,不代表论文的发表时间)

相关文献
评论
相关作者
相关机构
打开万方数据APP,体验更流畅