基于选择性集成的半监督中文文本分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的飞速发展，文本数据每年正以指数级的速度增长，文本分类作为处理文本数据的重要技术之一也变得越来越重要。传统的文本分类方法一般都是基于有监督学习的，为了训练出一个好的分类器需要大量的有标注文本。而在现实中，有标注文本数远小于未标注文本数，如果仅用少量的有标注文本来训练分类器，不但得到的分类器性能较差，还会错失未标注文本中隐含的信息，造成资源的浪费。因此，如何合理有效地运用这部分数据成为重中之重。
　　本文首先对现有用于文本分类的算法进行阐述，指出其优势及缺陷。针对有标注文本不足，以及分类器性能难以有效提升等问题，本文以NB分类器为基础分类器，并结合Bagging算法、EM算法以及选择性集成方法，提出基于Bagging算法的EM选择性集成学习方法，通过设计模拟实验证明了该方法的可行性及有效性。然后将该方法用于处理中文文本分类实际问题。实证结果表明:1.将EM算法应用于文本分类，可以克服有标注训练文本不足的缺陷，提高NB分类器的分类性能，但是相比某些有监督学习算法还是具有一定缺陷，分类器的分类性能略低;2.通过将多个EM基分类器进行比较，选出较好的基分类器，然后进行集成，可以得到一个较强的分类器;3.该方法解决了Bagging算法中由于存在一些效果较差的基分类器而导致分类器弱化的问题，提升学习器的整体性能。

著录项

作者
赵晨;
展开▼
作者单位

浙江工商大学;

展开▼
授予单位浙江工商大学;
学科应用统计
授予学位硕士
导师姓名明瑞星;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP274.2;
关键词
文本数据; 分类处理; 半监督学习; 选择性集成;

相似文献

中文文献
外文文献
专利

1. 基于多粒度建模的半监督文本分类方法研究 [J] . 余本功 ,汲浩敏 . 现代情报 . 2021,第006期
2. 基于半监督与词向量加权的文本分类研究 [J] . 宋建国 . 软件导刊 . 2020,第009期
3. 基于特征扩展的半监督协同短文本分类方法研究 [J] . 付学敏 . 电脑知识与技术：学术版 . 2018,第10Z期
4. 基于优化样本分布抽样集成学习的半监督文本分类方法研究 [J] . 徐禹洪 ,黄沛杰 . 中文信息学报 . 2017,第006期
5. 基于概率超图半监督学习的专利文本分类方法研究 [J] . 刘桂锋 ,汪满容 ,刘海军 . 情报杂志 . 2016,第009期
6. 基于优化样本分布抽样集成学习的半监督文本分类方法研究 [C] . 徐禹洪 ,黄沛杰 . 第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会 . 2017
7. 基于半监督学习的中文短文本分类研究 [A] . 张倩 . 2014

基于选择性集成的半监督中文文本分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅