首页> 中文学位 >基于选择性集成的半监督中文文本分类研究
【6h】

基于选择性集成的半监督中文文本分类研究

代理获取

目录

摘要

1.1 研究背景及意义

1.2 国内外相关研究

1.3 本文创新点

1.4 论文组织结构及内容

第2章 文本分类相关技术

2.1 文本分类

2.2 分词技术

2.3 文本表示模型

2.4 特征选择

2.5 权重的计算

2.6 文本分类方法

2.7 性能评价标准

第3章 基于Bagging算法的EM选择性集成分类方法

3.1 结合EM算法的NB改进算法介绍

3.2 Bagging算法及选择性集成

3.3 基于Bagging算法的EM选择性集成分类方法

3.4 模拟研究及实验对比

4.1 实验环境

4.2 实验数据

4.3 数据处理及抽样

4.4 实验及分析

5.1 总结

5.2 展望

参考文献

致谢

声明

展开▼

摘要

随着互联网的飞速发展,文本数据每年正以指数级的速度增长,文本分类作为处理文本数据的重要技术之一也变得越来越重要。传统的文本分类方法一般都是基于有监督学习的,为了训练出一个好的分类器需要大量的有标注文本。而在现实中,有标注文本数远小于未标注文本数,如果仅用少量的有标注文本来训练分类器,不但得到的分类器性能较差,还会错失未标注文本中隐含的信息,造成资源的浪费。因此,如何合理有效地运用这部分数据成为重中之重。
  本文首先对现有用于文本分类的算法进行阐述,指出其优势及缺陷。针对有标注文本不足,以及分类器性能难以有效提升等问题,本文以NB分类器为基础分类器,并结合Bagging算法、EM算法以及选择性集成方法,提出基于Bagging算法的EM选择性集成学习方法,通过设计模拟实验证明了该方法的可行性及有效性。然后将该方法用于处理中文文本分类实际问题。实证结果表明:1.将EM算法应用于文本分类,可以克服有标注训练文本不足的缺陷,提高NB分类器的分类性能,但是相比某些有监督学习算法还是具有一定缺陷,分类器的分类性能略低;2.通过将多个EM基分类器进行比较,选出较好的基分类器,然后进行集成,可以得到一个较强的分类器;3.该方法解决了Bagging算法中由于存在一些效果较差的基分类器而导致分类器弱化的问题,提升学习器的整体性能。

著录项

  • 作者

    赵晨;

  • 作者单位

    浙江工商大学;

  • 授予单位 浙江工商大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 明瑞星;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP274.2;
  • 关键词

    文本数据; 分类处理; 半监督学习; 选择性集成;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号