首页> 中文学位 >交叉验证中数据分布对分类性能的影响分析
【6h】

交叉验证中数据分布对分类性能的影响分析

代理获取

目录

摘要

第一章 引言

1.1 研究背景及意义

1.2 本文研究方法和内容

1.2.1 标准交叉验证方法

1.2.2 准确率、召回率、F值

1.2.3 LOGISTIC回归模型

1.3 文章结构安排

第二章 类别分布不均衡模拟实验

2.1 特征为两维时类别切分不均衡对分类器的影响

2.1.1 实验设置

2.1.2实验结果及分析

2.2 模拟特征中只有一个1的情况类别切分不均衡对分类器的影响

2.2.1 特征为3维实验设置

2.2.2 特征为500维实验设置

2.2.3 实验结果及分析

第三章 类别切分均衡特征切分不均衡模拟实验

3.1 实验设置

3.1.1 实验一:预测变量为两维

3.1.2 实验二:预测变量为三维且分量中只有一个1的实验设置

3.1.3 实验三:预测变量为500维且分量中只有一个1的实验设置

3.2 实验结果分析

3.3 KL距离

3.3.1 实验设置

3.3.2 实验结果分析

第四章 总结与展望

4.1 总结

4.2 展望

参考文献

附件一

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

承诺书

声明

展开▼

摘要

机器学习中常用交叉验证方法估计各种模型性能。目前,很多研究者的工作已经揭示了期望预测误差的交叉验证估计的一些性质,并且给出了一些改进交叉验证估计的方法和思想。例如,多次重复使用交叉验证来减少估计的方差;使用分层交叉验证方法来减少原有的交叉验证估计的偏差。但是,这些工作仅仅是以得到期望预测误差的良好估计为目标的,对于其它的分类模型性能指标并未涉及,例如,准确率,召回率,F值,ROC,AUC等。
   本文主要针对自然语言处理中常用的四种模型评价指标(准确率P、召回率R和F值、精确率A),研究了它们的标准2折交叉验证估计随着观测中类别分布的不同以及设计矩阵分布的不同的性能指标的变化情况。为此,本文针对两类分类问题限定分类算法为LOGISTIC回归模型和设计矩阵仅为0-1矩阵的情况下进行研究。
   本文基于一些随机产生的模拟数据,进行了大量的模拟实验。实验的结果表明:
   (1)对于样本的类别分布:当2折交叉验证的两份数据中的类别分布相同或相近时,准确率、召回率、F值及精确率的2折交叉验证估计的偏差最小,且估计的偏差随着2折交叉验证中类别的差异增加而增加。当2折交叉验证中数据的类别分布相差较大时,模型性能明显的变差。因此,采用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致。
   (2)对于设计矩阵的分布:当2折交叉验证的两份数据中的类别分布相同或相近时,而设计矩阵分布之间有差异的时候,估计的偏差随着2折交叉验证中设计矩阵分布的差异增加而增加,因此,用交叉验证切分数据时,应尽量保持每份数据的类别分布与总体一致,也要尽量保持设计矩阵分布也相一致。
   (3)尽管研究者认为,在对数据集进行切分时,除了保证类别分布一致外,应尽量保证设计矩阵的分布也尽量一致。但是,对于设计矩阵为0-1矩阵时,尤其是设计矩阵维数很高时,很难找到一个很好的度量指标来度量设计矩阵分布的一致性。本文试图使用KL距离来给出相应的度量,但是,该度量在高维特征矩阵下失效。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号