交叉验证中数据分布对分类性能的影响分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

机器学习中常用交叉验证方法估计各种模型性能。目前，很多研究者的工作已经揭示了期望预测误差的交叉验证估计的一些性质，并且给出了一些改进交叉验证估计的方法和思想。例如，多次重复使用交叉验证来减少估计的方差;使用分层交叉验证方法来减少原有的交叉验证估计的偏差。但是，这些工作仅仅是以得到期望预测误差的良好估计为目标的，对于其它的分类模型性能指标并未涉及，例如，准确率，召回率，F值，ROC，AUC等。
　　本文主要针对自然语言处理中常用的四种模型评价指标（准确率P、召回率R和F值、精确率A），研究了它们的标准2折交叉验证估计随着观测中类别分布的不同以及设计矩阵分布的不同的性能指标的变化情况。为此，本文针对两类分类问题限定分类算法为LOGISTIC回归模型和设计矩阵仅为0-1矩阵的情况下进行研究。
　　本文基于一些随机产生的模拟数据，进行了大量的模拟实验。实验的结果表明:
　　 (1)对于样本的类别分布:当2折交叉验证的两份数据中的类别分布相同或相近时，准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小，且估计的偏差随着2折交叉验证中类别的差异增加而增加。当2折交叉验证中数据的类别分布相差较大时，模型性能明显的变差。因此，采用交叉验证切分数据时，应尽量保持每份数据的类别分布与总体一致。
　　 (2)对于设计矩阵的分布:当2折交叉验证的两份数据中的类别分布相同或相近时，而设计矩阵分布之间有差异的时候，估计的偏差随着2折交叉验证中设计矩阵分布的差异增加而增加，因此，用交叉验证切分数据时，应尽量保持每份数据的类别分布与总体一致，也要尽量保持设计矩阵分布也相一致。
　　 (3)尽管研究者认为，在对数据集进行切分时，除了保证类别分布一致外，应尽量保证设计矩阵的分布也尽量一致。但是，对于设计矩阵为0-1矩阵时，尤其是设计矩阵维数很高时，很难找到一个很好的度量指标来度量设计矩阵分布的一致性。本文试图使用KL距离来给出相应的度量，但是，该度量在高维特征矩阵下失效。

著录项

作者
赵存秀;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科概率论与数理统计
授予学位硕士
导师姓名李济洪;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类期望与预测;
关键词
交叉验证; 数据分布; 分类性能; 模型评价指标;

相似文献

中文文献
外文文献
专利

1. 交叉验证中类别切分不均衡对分类性能的影响分析 [J] . 赵存秀 ,王瑞波 ,李济洪 . 太原师范学院学报（自然科学版） . 2013,第001期
2. 不同分类器在遥感数据分类中的性能比较 [J] . 夏俊 ,刘金梅 . 价值工程 . 2013,第004期
3. 云分类中逐个修改聚类和模糊聚类分类性能的对比研究 [J] . 朱亚平 ,刘健文 ,白洁 . 气象 . 2007,第002期
4. 多种分类器在华北地区土地覆盖遥感分类中的性能评价 [J] . 刘勇洪 ,牛铮 ,徐永明 . 中国科学院研究生院学报 . 2005,第006期
5. Socket网络程序中的参数对流传输性能的影响分析--Windows下基于实验的流传输性能分析、参数设置规则及公式 [J] . 黄毅峰 . 电脑编程技巧与维护 . 2003,第010期
6. 网页文本分类中特征压缩对分类器性能的影响 [C] . 梁久祯 . 第五届中国Rough集与软计算学术研讨会 . 2005
7. 基于均衡5×2交叉验证的分类算法对照研究 [A] . 李艳芳 . 2014

交叉验证中数据分布对分类性能的影响分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅