基于数据选择方法的分类器性能提高的研究

任钦差

华北水利水电大学

下载全文

在线阅读

引用

摘要：

目前机器学习作为数据挖掘中一种重要的工具，其不只是对人的认知学习过程的探索，还包括对数据的分析处理。面对大量数据的挑战，目前一部分研究专注于机器学习算法的改进和开拓，另一部分研究人员则致力于样本数据的选择和数据集的缩减，这两方面研究工作是并行的。训练样本数据选择是机器学习的一个研究热点，通过对样本数据的有效选择，提取更具有信息量的样本，剔除冗余样本和噪声数据，从而提高训练样本质量，进而获得更好的学习性能。本文以分类器训练样本为研究对象，对分类器训练样本选择方法进行研究。　　(1)作者就目前存在的样本数据选择方法进行综述研究，对目前存在的方法从基于抽样的方法、基于聚类的方法、基于近邻分类规则的方法这三大类以及其他相关数据选择方法四个方面进行总结和分析对比，并对训练样本数据选择方法存在的问题和未来研究方向提出一些结论和展望。　　(2)为了提高神经网络分类器的性能，本文提出一种新的训练样本数据选择方法——基于K均值聚类的分段样本数据选择方法，利用该方法结合人工数据集和UCI标准数据集分别对BP、LVQ、ENN(Extension neural network)这三种常用的分类器进行实验研究，并验证了该方案的有效性。通过对比实验可以看出在平均压缩比为66.93%的前提下，对于三种神经网络分类器的性能大部分情况下在其训练步长和测试集分类精度方面有所改善，说明所提出的训练样本数据选择方法能够筛选出训练集中的优秀样本，剔除大量冗余样本，保证了训练样本的质量，挑选出的训练集进行训练能够改善神经网络分类器的性能。　　(3)结合第四章提出的基于聚类的分段样本数据选择方法中第一步获得的K均值聚类中心来确定ENN网络的初始类中心提出KENN网络，并结合挑选数据集通过人工数据集和Iris数据集以及实际工程应用数据证明了其能进一步提高ENN的性能，为提高ENN的性能提供了一种可参考的解决方案。与传统的ENN相比，提出的KENN结合数据选择方法具有更短的学习时间、更高的分类精度、更好的学习能力和更强的泛化能力。有效地提高了传统ENN的综合性能。

关键词：训练样本;K均值聚类;神经网络;分类器;数据选择

授予单位：华北水利水电大学

授予学位：硕士

学科专业：控制科学与工程

导师姓名：周玉

学位年度：2020

语种：中文

分类号：TP391.9;TP183

在线出版日期：2020-12-14（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

基于数据选择方法的分类器性能提高的研究