DOI：10.3969/j.issn.1000-386x.2016.06.014

基于数据集特征的KNN最优K值预测方法

引用

摘要：

KN N算法中的参数K的选择一般采取多次交叉验证方法求取，数据规模较大时并不适用。同时，影响参数选择最根本的因素是数据集本身。因此，提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量，然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型，并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明，该方法能迅速预测最优K值，并确保一定的精度。

关键词：KN N分类算法、数据集特征、信息熵、最优K

所属期刊栏目：33

分类号：TP18(自动化基础理论)

资助基金：中国石油大学北京基金项目KYJJ&nbsp,2012-05-25。

在线出版日期：2016-07-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：54-58,83

英文信息展示

个人中心

我的学术圈

我的书案

退出

期刊专题

基于数据集特征的KNN最优K值预测方法