基于数据集特征的KNN最优K值预测方法

李洪奇; 杨中国; 朱丽萍; 刘蔷

首页> 中文期刊> 《计算机应用与软件》 >基于数据集特征的KNN最优K值预测方法

基于数据集特征的KNN最优K值预测方法

AI论文写作 >>

开具论文收录证明 >>

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Multiple cross validation method is usually used in KNN algorithm to choose parameter K ,but it is not applicable when the size of dataset is big.Meanwhile,the most fundamental factor affecting the parameter selection is dataset itself.Therefore,we proposed an optimal K value prediction method by using the featurs of dataset itself.First is the eigenvector construction by extracting the features of historical dataset including the simple feature,statistic feature,information entropy feature,precision feature of simple algorithm,and complexity feature,etc.Then,the method employs the methods of linear regression and neural network to build a prediction model between eigenvector and optimal K value,and uses the model to predict the optimal K of new dataset.It was indicated by the experiment on UCI dataset that the method could quickly predict optimal K value and ensure certain precision.%KN N算法中的参数K的选择一般采取多次交叉验证方法求取，数据规模较大时并不适用。同时，影响参数选择最根本的因素是数据集本身。因此，提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量，然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型，并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明，该方法能迅速预测最优K值，并确保一定的精度。

著录项

来源
《计算机应用与软件》 |2016年第6期|54-58,83|共6页
作者
李洪奇; 杨中国; 朱丽萍; 刘蔷;
展开▼
作者单位

中国石油大学石油数据挖掘北京市重点实验室北京 102249;

中国石油大学计算机系北京 102249;

中国石油大学石油数据挖掘北京市重点实验室北京 102249;

中国石油大学计算机系北京 102249;

中国石油大学石油数据挖掘北京市重点实验室北京 102249;

中国石油大学计算机系北京 102249;

中国石油大学石油数据挖掘北京市重点实验室北京 102249;

中国石油大学计算机系北京 102249;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
KN N分类算法; 数据集特征; 信息熵; 最优K;

相似文献

中文文献
外文文献
专利

1. 基于密度特征与KNN算法的最优特征维数选择 [J] . 孙国栋 ,梅术正 ,汤汉兵 . 现代电子技术 . 2018,第016期
2. 基于最优特征集和马氏距离KNN分类的机械故障分类方法研究 [J] . 孟亚辉 . 机械设计与制造 . 2017,第007期
3. 一种基于信息熵的自适应k值KNN二分类方法 [J] . 谢妙 ,林泳昌 ,朱晓姝 . 合肥工业大学学报（自然科学版） . 2021,第011期
4. 基于LLRKNN算法的不平衡数据集分类应用 [J] . . 电脑知识与技术 . 2018,第036期
5. 一种基于加权KNN的大数据集下离群检测算法 [J] . 王茜 ,杨正宽 . 计算机科学 . 2011,第010期
6. 串级萃取最优k值方程 [C] . 钟学明 ,万荣生 . 中国稀土学会第四届学术年会 . 2000
7. 基于KNN-WNN的高速公路行程时间预测方法研究 [A] . 苑仁腾 . 2020

基于数据集特征的KNN最优K值预测方法

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅