基于稀疏贝叶斯的半监督超限学习机分类算法研究

赵德海

中国科学技术大学

下载全文

在线阅读

引用

摘要：

如何有效地挖掘和学习海量的无标记数据中的规律，让用户快速找到需要的信息，是当前机器学习领域的一个研究热点。半监督学习利用少量标记数据和大量无标记数据的综合信息来提高分类算法的准确率，引起了学术界的广泛关注。然而传统半监督分类算法的计算复杂度较高，通常为O(N3)，N为输入样本的个数，如拉普拉斯支持向量机。超限学习机是一种单隐层前馈神经网络，具有较低的计算复杂度。为了提高半监督算法的计算效率，人们将半监督学习引入到超限学习机框架中，提出了半监督超限学习机。半监督超限学习机继承了传统超限学习机的速度优势，又能充分利用无标记样本信息。但是，半监督超限学习机的分类准确率对隐层节点的数目比较敏感，在特定问题上为取得较好的分类准确率通常需要使用大量的冗余隐层节点，增加了模型的复杂度。　　本文针对半监督超限学习机在稀疏性和分类准确率上的不足，在稀疏贝叶斯和半监督超限学习机框架的基础上，提出一种基于稀疏贝叶斯的半监督超限学习机分类算法。为了利用无标记样本数据的流形(Manifold)信息，同时使模型更加稀疏，该算法在网络输出层的权值参数上定义稀疏流形先验。模型在训练阶段自适应地剔除冗余的隐层节点，该算法降低了模型的复杂度和分类准确率对隐层节点数量的敏感性。在多个数据集上的实验结果表明:与当前主流的半监督分类器相比，本文提出的算法可以取得较好的分类性能，同时弥补了半监督超限学习机在稀疏性和稳定性方面的缺陷。　　综上，本文的工作和贡献主要体现在以下几个方面:　　(1)针对基于半监督超限学习机框架的分类算法在稀疏性和稳定性上表现不足的问题，本文通过稀疏贝叶斯学习方法来学习模型参数，在学习阶段自动剔除冗余隐层节点，增强半监督超限学习机模型的稀疏性和稳定性。因此，本文算法既具有半监督超限学习机的速度优势，又具有稀疏贝叶斯学习算法的稀疏性。　　(2)传统半监督超限学习机采用最小二乘求解模型参数，容易导致过拟合，本文算法通过最大化模型的边际似然概率可以在一定程度上降低模型过拟合的可能性，增强模型的表达力，模型具有更好的鲁棒性。　　(3)本文算法相比半监督超限学习机具有较低的计算复杂度。本文算法的时间复杂度为O(L3+N log N)，其中L为隐层节点的个数，N为样本数据的个数，N log N是构造图的拉普拉斯矩阵的时间复杂度，L3是计算权值参数w的时间复杂度。因此，相比半监督超限学习机中O(N3)的时间复杂度，本文算法训练时间更短。　　(4)在UCI1标准数据集上的实验结果表明，相对对比算法，本文基于稀疏贝叶斯的半监督超限学习机分类算法具有较好的稀疏性能，并且，在分类准确率方面与当前主流的半监督分类算法相当。其次，在真实的邮件分类数据集上对本文提出的算法进行验证，实验结果表明，本文提出的算法同样具有较高的分类准确率和良好的稀疏性能。

关键词：无标记数据;超限学习机;半监督学习;分类算法;稀疏贝叶斯学习

授予单位：中国科学技术大学

授予学位：硕士

学科专业：计算机系统结构

导师姓名：陈欢欢

学位年度：2017

语种：中文

分类号：TP391

页数：80

在线出版日期：2018-05-30（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于稀疏贝叶斯的半监督超限学习机分类算法研究