首页> 中文学位 >基于半监督集成学习的情感分类方法研究
【6h】

基于半监督集成学习的情感分类方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景

1.2 研究意义

1.3 情感分类研究现状

1.4 研究内容

1.5 组织结构

第2章 相关知识介绍

2.1 文本表示模型

2.2 最大熵分类模型

2.3 传统自训练算法

2.4 常用集成学习方法

2.5 性能评测指标

第3章 基于随机特征子空间自训练的半监督情感分类方法

3.1 问题描述及相关研究

3.2 文本中客观句与情感句的分布

3.3 基于随机特征子空间的自训练

3.4 实验与分析

3.5 本章小结

第4章 基于标签一致性融合的半监督情感分类方法

4.1 问题描述及相关研究

4.2 标签一致性融合

4.3 进行标签一致性融合的半监督学习方法

4.4 实验结果与分析

4.5 本章小结

第5章 基于元分类器及样本过滤的半监督情感分类方法

5.1 问题描述及相关研究

5.2 元分类器生成

5.3 样本过滤

5.4 基于元分类器及样本过滤的集成学习

5.5 实验与结果分析

5.6 本章小结

第6章 总结与展望

6.1 研究工作总结

6.2 下一步工作设想

参考文献

攻读学位期间发表的论文及科研项目

致谢

展开▼

摘要

随着WWW的迅速发展,网络上出现了越来越多包含着巨大利用价值的评价文本,如何自动处理这些主观文本显得愈发重要。情感分析正是在这样的背景下产生并取得迅猛发展的一个研究方向。其中,文本情感分类是情感分析研究中最广泛的一个基本任务。
  情感分类中,现有的研究主要致力于提升监督学习的效果。然而,监督学习往往需要大量的标注样本,而人工标注这些样本非常耗时耗力。因此,在少量标注样本的基础上,充分利用大量未标注样本的半监督情感分类方法受到越来越广泛的关注。其中,半监督集成学习方法上的研究还十分缺乏。本文主要针对情感分类中的半监督集成学习方法展开深入研究,主要研究内容包括以下三个方面:
  首先,本文提出一种基于随机特征子空间自训练的半监督情感分类方法。核心思想是在标注样本基础上,利用随机特征子空间训练多个子分类器,并采用最大置信度的集成方式,选择置信度高的子分类器做分类决策。该方法能够尽量避免噪音特征为半监督情感分类带来的不良影响。实验结果表明,该方法相比于传统的自训练方法及基于随机特征子空间的协同训练方法,获得了更好的分类性能。
  其次,本文提出了一种基于标签一致性融合的半监督情感分类方法。核心思想是,将多个半监督学习方法标注一致的未标注样本自动标注,并更新标注样本集,过滤掉标注不一致的未标注样本,从而保证了标注集合的质量,降低误标注给半监督学习带来的负面影响。实验结果表明,基于标签一致性融合的半监督情感分类方法有效地降低了未标注样本的误标注率,在分类效果上远远优于单个半监督学习方法。
  最后,本文提出了一种基于元分类器及样本过滤的半监督情感分类方法。相比于标签一致性融合的半监督情感分类方法,该方法具有更广泛的适应性,在多个半监督学习方法进行集成学习时,同样能够获得非常好的效果。核心思想是训练一层元分类器,利用元分类器对未标注样本进行标注,并过滤掉分类置信度低的未标注样本。实验结果验证了该集成学习方式的有效性,在多个半监督学习方法进行集成学习时,该方法获得了最好的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号