首页> 中文学位 >基于可控的置信机器学习方法研究
【6h】

基于可控的置信机器学习方法研究

代理获取

目录

声明

致谢

摘要

1 引言

1.1 研究背景与意义

1.2 置信机器学习

1.2.1 置信机器概述

1.2.2 置信机器学习系统模型

1.2.3 置信机器学习系统结构

1.3 研究现状

1.3.1 直推式置信机器

1.3.2 基于集成的置信机器

1.3.3 置信回归

1.3.4 目前的应用与研究

1.4 本论文组织结构与创新点

1.4.1 本论文组织结构

1.4.2 创新点

2 置信机器理论基础与置信度机制

2.1 置信机器理论基础

2.2 一般机器学习方法的置信机制

2.2.1 置信度机制原理及分析

2.2.2 置信度机制实现方法

2.2.3 应用分析与总结

2.3 贝叶斯学习方法的置信度机制

2.3.1 置信度机制原理

2.3.2 原理分析

2.3.3 应用分析与总结

2.4.1 直推式学习方法

2.4.2 置信度机制原理

2.4.3 应用分析与总结

2.5 带有拒绝选项学习方法的置信度机制

2.5.1 置信度机制原理

2.5.2 拒绝类别的处理

2.5.3 应用分析与总结

2.6 置信度机制比较分析

2.7 本章小结

3 基于一类分类器的二元置信分类TCCC-OCC算法

3.1 问题的提出

3.2 算法的设计与实现

3.2.1 理论基础

3.2.2 用一类分类器解决二元置信分类问题

3.2.3 用多层置信集成分类实现增强分类

3.2.4 算法实现

3.3 数据与结果

3.4 讨论

3.5 本章小结

4 基于二元分类器的可控置信分类CCC-TCC算法

4.1 问题的引入

4.2 算法的设计与实现

4.2.1 理论基础

4.2.2 算法的两种情况

4.2.3 四种情况的考虑

4.2.4 算法实现

4.3 数据与结果

4.4 讨论

4.5 本章小结

5 基于KNN的置信回归CR-KNN算法

5.1 问题的说明

5.2 算法的设计与实现

5.2.1 理论基础

5.2.2 KNN算法的实现

5.2.3 接受域与拒绝域的划分

5.2.4 误差的计算

5.2.5 算法实现

5.3 数据与结果

5.4 讨论

5.5 本章小结

6 结论

6.1 本文工作总结

6.2 进一步研究展望

参考文献

附录

作者简历及攻读博士学位期间取得的研究成果

学位论文数据集

展开▼

摘要

机器学习算法的研究已经取得了很大的进展,并且得到了广泛的应用,但多数机器学习算法只能给出“是”或“不是”、“属于”或“不属于”这类简单的判断,缺少一种置信度机制来说明这种判断的可信度或可靠性有多大。置信机器就是这种带有置信度机制的机器学习方法。置信机器是许多机器学习方法的进一步延伸,它不仅可以像许多机器学习方法做出性能的预测,还可以对预测结果中的定量的质量度量,给出可信性(Credibility)和置信度(Confidence)。
  目前的置信机器学习算法的研究,往往理论基础深奥,算法复杂,可替代计算的函数很少,且不容易理解与使用。本论文主要对基于可控的置信机器学习方法进行研究,以便找出更简单、更高效、更可靠、更实用的可控置信机器学习方法,主要的研究内容如下:
  首先对置信机器问题的提出、置信度等问题进行了论述。将置信度机制分为采用整体平均置信度学习方法的置信度机制、贝叶斯学习方法的置信度机制、直推式学习方法的置信度机制、带有拒绝选项学习方法的置信度机制。本学位论文的所有研究就是基于第四种置信度机制,即带有拒绝选项学习方法的置信度机制来实现的。
  针对二元置信分类问题,提出了一种基于一类分类器的二元置信分类(Tow Class Confidence Classification Based on One Class Classifier,TCCC-OCC)算法。该算法通过对识别样本进行两次学习的结果进行计算与分析,实现了接受域和拒绝域的划分,从而省略了在传统的置信机器学习中必须为每个未知样例进行具体置信度的计算,也省略了设置拒绝域阈值,减少了计算量。同时运用集成学习的方法,对学习结果进行多层学习,进一步提升了识别率。
  对可控率的置信问题进行了研究,提出了一种基于二元分类器的可控置信分类(Controllable Confidence Classification Based on Tow Class Classification,CCC-TCC)算法。该算法利用支持向量机(SVM)对样本进行学习,然后将学习结果从空间值转化为一维空间的Output Score值。由于SVM输出值Output Score的大小顺序保持了SVM分类时距离超平面的远近距离顺序,所以可以通过设置阈值来控制置信度和错误率。
  CCC-TCC算法包括设置总的错分率进行可控置信分类算法、分别设置正负例错分率进行可控置信分类算法、从Score设置输出转换值的百分比进行可控置信分类算法、从错分的Score设置输出转换值的百分比进行可控置信分类算法共4个子算法,并在心脏病和糖尿病等5个数据集上对它们进行了实验验证。
  对置信回归问题的可控性进行了研究,提出了基于KNN的置信回归(Confidence Regressin Based on k-Nearest Neighbor,CR-KNN)算法。该算法以KNN算法为工具,将回归学习的结果进行误差判断,实现接受域与拒绝域的划分,从而实现置信回归,并通过设置具体的误差数值的改变,实现了置信回归的可控。
  最后运用UCI等数据集中的数据进行了验证研究,选取了Heart、Australian、Colon-Cancer、Pima Indians Diabetes、Liver-Disorders、Bodyfat、Housing、Pyrim、Triazines、Cpusmall等十余个数据集进行了实验研究,与其它相关的算法在相关方面的研究进行了比较。本学位论文提出的TCCC-OCC算法和CCC-TCC算法,以及CR-KNN算法对问题的研究,取得了满意的效果,达到了预期的目的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号