首页> 中文学位 >用未标记数据增强分类器能力的研究
【6h】

用未标记数据增强分类器能力的研究

代理获取

目录

文摘

英文文摘

第一章 引言

1.1 半监督学习研究的背景

1.2 半监督学习基本原理与假设

1.2.1 聚类假设

1.2.2 流形假设

1.3 半监督学习常见方法

1.3.1 自训练方法

1.3.2 生成模型方法

1.3.3 基于信息不一致的方法

1.3.4 直推式支持向量机

1.3.5 基于图的方法

1.4 研究的意义

1.5 论文的组织结构

第二章 半监督增强框架的研究

2.1 半监督增强问题描述

2.2 分类器增强已有方法分析

2.2.1 迭代式半监督增强框架的描述

2.2.2 迭代式半监督增强框架的可行性分析

2.2.3 传统的置信度方法中存在的问题

2.3 基于独立置信度的半监督增强框架

2.3.1 基于独立置信度的半监督增强框架的描述

2.3.2 基于独立置信度的半监督增强框架正确性分析

2.3.3 基于独立置信度的半监督增强框架的优点

2.4 训练集更新方式研究

2.5 半监督增强问题的泛化

2.6 本章小结

第三章 基于图的半监督学习方法及相关问题分析

3.1 问题描述与基本思想

3.2 图的构造问题的分析

3.2.1 距离的度量

3.2.2 图的稀疏化

3.2.3 图权重的重新确定

3.3 几个重要的基于图的半监督学习方法

3.3.1 最小切方法

3.3.2 高斯混合场与谐波函数方法

3.3.3 基于局部和全局一致性的方法

3.3.4 流形正则化方法

3.3.5 交替最小化图直推方法

3.4 对于数据不平衡和噪声问题的处理

3.4.1 对于图的处理

3.4.2 对于正则化优化目标的处理

3.4.3 对于分类结果的处理

3.5 基于图的半监督学习相关问题总结

3.6 本章小结

第四章 独立的标记置信度的计算问题研究

4.1 基于图的半监督包装器方法

4.1.1 方法基础

4.1.2 详细算法描述

4.1.3 方法分析

4.2 基于梯度的置信度方法

4.2.1 方法基础

4.2.2 方法分析与详细算法描述

4.3 本章小结

第五章 基于独立置信度的半监督增强框架实验研究

5.1 实验数据集

5.1.1 跨膜蛋白质数据集

s.1.2 UCI基准数据集

5.2 实验基础设定

5.2.1 跨膜蛋白数据集实验设定

5.2.2 UCI基准数据集实验设定

5.3 实验结果与分析

5.3.1 跨膜蛋白数据集实验结果分析

5.3.2 UCI数据集半监督置信度方法比较

5.3.3 重训练方法对于半监督增强框架的影响研究

5.3.4 半监督增强框架与state-of-the-art的半监督学习方法效果比较

5.3.5 实验总结

5.4 相关问题研究与分析

5.4.1 置信度方法参数敏感度分析

5.4.2 半监督增强迭代次数的考虑

5.5 本章小节

第六章 总结与展望

6.1 论文总结

6.2 研究展望

致谢

参考文献

附录A 详细实验结果

UCI数据集重训练方法为LDA的实验结果

UCI数据集重训练方法为SDA的实验结果

附录B 攻读硕士学位期间完成的论文

展开▼

摘要

传统的分类问题需要通过大量的标记样本进行学习,以预测未来样本的标记。然而在实际的分类应用中,比如图像分析、网页分类、蛋白质结构预测等,标记样本往往数量比较少,获取成本比较高;而未标记样本往往大量存在,其获取成本也相对较低。因此如何利用大量未标记数据来改善学习的效果,成为了机器学习领域备受关注的课题,针对此问题的研究方法被称之为半监督学习。
   以往许多半监督学习研究工作都侧重于设计专有的学习方法,使其能够利用大量未标记数据辅助标记数据的学习。然而,经常会有这样的情况,对于特定应用,已经有了最合适的监督学习方法,希望能够借助大量未标记数据来提高已有方法的效果。同时,对于那些已有的半监督学习方法而言,希望在其基础之上,运用某种方法再次提高它的效果。所以寻找一种能够结合大量的未标记数据来增强已有学习器的效果的方法,非常有实际意义。为区别于一般的半监督学习方法,本文称这种半监督学习的思路为半监督增强(Semi-supervisedImprovement,SSI)。
   大部分的半监督增强方法都采用基于置信度的迭代式框架,存在的主要问题有:受到置信度方法的限制,只能增强软标记的分类方法;依靠分类器现有模型扩展标记数据集,增强效果不明显;容易放大训练初期的错误,以导致精度退化。
   针对这些问题,本文在传统的半监督增强框架上进行了研究和拓展,提出了基于独立置信度的半监督增强框架(Semi-supervised Improvement Framework based on External Confidence,SIFEC),该框架利用与已有分类器无关的置信度计算方法,客观的评判出标记的正确性,从而有效地改善了传统的置信度方法在迭代过程中更新信息少和强化早期错误的问题,同时打破了传统框架中对于学习器种类的限制,能够修正任意学习方法;还在传统的增量式数据集更新方式的基础上,提出了一种新的过滤式数据集更新方式,改善了贪婪式框架不能修正已有训练集中存在的错误的问题;最后进一步对传统的半监督增强框架进行了泛化,使其从针对特定学习方法进行增强的框架,变成了针对未标记数据的某个预测结果进行增强的框架,允许框架根据特定数据集更换重训练方法,进一步提高了框架的增强效果。置信度计算方法是半监督增强框架中的关键问题,本文借鉴基于图的半监督学习方法,提出了三种独立的标记置信度计算方法:GSW方法、MSG方法、MACC方法,能够有效的选出已有标记中置信度高的数据。
   跨膜蛋白质数据集以及UCI基准数据集上的实验结果表明,配合适当的重训练方法,本文提出的泛化的半监督增强框架以及独立的置信度方法能有效的提高已有分类器的分类效果,达到甚至超过目前较好的半监督学习方法的水平。数据分析

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号