用未标记数据增强分类器能力的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

传统的分类问题需要通过大量的标记样本进行学习，以预测未来样本的标记。然而在实际的分类应用中，比如图像分析、网页分类、蛋白质结构预测等，标记样本往往数量比较少，获取成本比较高；而未标记样本往往大量存在，其获取成本也相对较低。因此如何利用大量未标记数据来改善学习的效果，成为了机器学习领域备受关注的课题，针对此问题的研究方法被称之为半监督学习。
　　以往许多半监督学习研究工作都侧重于设计专有的学习方法，使其能够利用大量未标记数据辅助标记数据的学习。然而，经常会有这样的情况，对于特定应用，已经有了最合适的监督学习方法，希望能够借助大量未标记数据来提高已有方法的效果。同时，对于那些已有的半监督学习方法而言，希望在其基础之上，运用某种方法再次提高它的效果。所以寻找一种能够结合大量的未标记数据来增强已有学习器的效果的方法，非常有实际意义。为区别于一般的半监督学习方法，本文称这种半监督学习的思路为半监督增强（Semi-supervisedImprovement，SSI）。
　　大部分的半监督增强方法都采用基于置信度的迭代式框架，存在的主要问题有：受到置信度方法的限制，只能增强软标记的分类方法；依靠分类器现有模型扩展标记数据集，增强效果不明显；容易放大训练初期的错误，以导致精度退化。
　　针对这些问题，本文在传统的半监督增强框架上进行了研究和拓展，提出了基于独立置信度的半监督增强框架（Semi-supervised Improvement Framework based on External Confidence，SIFEC），该框架利用与已有分类器无关的置信度计算方法，客观的评判出标记的正确性，从而有效地改善了传统的置信度方法在迭代过程中更新信息少和强化早期错误的问题，同时打破了传统框架中对于学习器种类的限制，能够修正任意学习方法；还在传统的增量式数据集更新方式的基础上，提出了一种新的过滤式数据集更新方式，改善了贪婪式框架不能修正已有训练集中存在的错误的问题；最后进一步对传统的半监督增强框架进行了泛化，使其从针对特定学习方法进行增强的框架，变成了针对未标记数据的某个预测结果进行增强的框架，允许框架根据特定数据集更换重训练方法，进一步提高了框架的增强效果。置信度计算方法是半监督增强框架中的关键问题，本文借鉴基于图的半监督学习方法，提出了三种独立的标记置信度计算方法：GSW方法、MSG方法、MACC方法，能够有效的选出已有标记中置信度高的数据。
　　跨膜蛋白质数据集以及UCI基准数据集上的实验结果表明，配合适当的重训练方法，本文提出的泛化的半监督增强框架以及独立的置信度方法能有效的提高已有分类器的分类效果，达到甚至超过目前较好的半监督学习方法的水平。数据分析

著录项

作者
常正刚;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机应用技术
授予学位硕士
导师姓名何洁月;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
未标记数据; 半监督增强; 标记置信度计算;

相似文献

中文文献
外文文献
专利

1. 利用未标记数据提高SVM分类器性能的研究 [J] . 祝宇 ,聂峰光 ,郭力 . 计算机工程与应用 . 2006,第027期
2. 针对标记数据不足的数据流分类器 [J] . 熊忠阳 ,周兴勤 ,张玉芳 . 计算机工程与应用 . 2015,第006期
3. 中医临床疾病数据多标记分类方法研究 [J] . 潘主强 ,张林 ,张磊 . 计算机科学与探索 . 2018,第008期
4. 贝叶斯分类器在农村金融数据分类中的应用研究 [J] . 蒲京京 ,苏巧荣 ,张朝瑜 . 安徽农学通报 . 2018,第011期
5. 组合分类器在金融行业数据分类中的应用研究 [J] . 陈江涛 ,吕建秋 . 计算机应用与软件 . 2018,第002期
6. 用表达式解释器增强数据处理能力 [C] . 刘群根 . 2006年航空试验测试技术学术交流会 . 2006
7. 不确定数据流环境下正例和未标记数据分类算法的研究与实现 [A] . 李硕儒 . 2015

用未标记数据增强分类器能力的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅