首页> 中文期刊> 《计算机应用与软件》 >基于数据集特征的KNN最优K值预测方法

基于数据集特征的KNN最优K值预测方法

     

摘要

Multiple cross validation method is usually used in KNN algorithm to choose parameter K ,but it is not applicable when the size of dataset is big.Meanwhile,the most fundamental factor affecting the parameter selection is dataset itself.Therefore,we proposed an optimal K value prediction method by using the featurs of dataset itself.First is the eigenvector construction by extracting the features of historical dataset including the simple feature,statistic feature,information entropy feature,precision feature of simple algorithm,and complexity feature,etc.Then,the method employs the methods of linear regression and neural network to build a prediction model between eigenvector and optimal K value,and uses the model to predict the optimal K of new dataset.It was indicated by the experiment on UCI dataset that the method could quickly predict optimal K value and ensure certain precision.%KN N算法中的参数K的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。

著录项

  • 来源
    《计算机应用与软件》 |2016年第6期|54-58,83|共6页
  • 作者单位

    中国石油大学石油数据挖掘北京市重点实验室 北京 102249;

    中国石油大学计算机系 北京 102249;

    中国石油大学石油数据挖掘北京市重点实验室 北京 102249;

    中国石油大学计算机系 北京 102249;

    中国石油大学石油数据挖掘北京市重点实验室 北京 102249;

    中国石油大学计算机系 北京 102249;

    中国石油大学石油数据挖掘北京市重点实验室 北京 102249;

    中国石油大学计算机系 北京 102249;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 人工智能理论;
  • 关键词

    KN N分类算法; 数据集特征; 信息熵; 最优K;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号