10.3969/j.issn.1000-386x.2016.06.014
基于数据集特征的KNN最优K值预测方法
KN N算法中的参数K的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。
KN N分类算法、数据集特征、信息熵、最优K
33
TP18(自动化基础理论)
中国石油大学北京基金项目KYJJ ,2012-05-25。
2016-07-15(万方平台首次上网日期,不代表论文的发表时间)
共6页
54-58,83