首页> 中文学位 >基于新型多标记集成学习方法的文本分类研究
【6h】

基于新型多标记集成学习方法的文本分类研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

专用术语注释表

第一章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3主要内容与组织结构

第二章 文本分类技术综述

2.1文本分类的一般框架

2.2文本的表示

2.3文本分类算法

2.4文本分类的评价指标

2.5本章小结

第三章 基于多标记学习的文本分类框架

3.1基于多标记学习的文本分类框架

3.2多标记学习中文本的表示

3.3多标记学习中的分类算法

3.4多标记学习算法的评价指标

3.5多标记学习的分类测试

3.6本章小结

第四章 基于新型多标记集成学习方法的文本分类

4.1集成特征选择方法

4.2基于MLKNN的集成分类En-MLKNN算法

4.3实验与评价

4.4本章小结

第五章 基于代价敏感的多标记集成学习文本分类算法

5.1特征加权的归一化

5.2基于代价敏感的集成分类En-MLCKNN算法

5.3集成学习En-MLCKNN算法实验

5.4本章小结

第六章 总结与展望

参考文献

附录1 攻读硕士学位期间撰写的论文

附录2 攻读硕士学位期间参加的科研项目

致谢

展开▼

摘要

随着Internet网络的发展与普及,文本资源呈现指数级的增长。作为组织和管理大量文本信息的重要方式,文本分类不仅能够解决如何更好地使用这些文本的问题,而且能够有助于挖掘出潜藏在这些文本资源中的价值。由于文本通常同时与多个类别相关,文本分类往往可看作是一个多标记学习问题。多标记学习作为一种新型的机器学习方法,对于多义性的建模具有十分重要的意义,在信息检索、Web挖掘、生物信息学和自动标注等诸多领域得到了广泛应用。
  本文以应用多标记学习方法解决文本分类为目标,对文本分类、数据集处理、文本预处理、文本变换、特征选择、特征加权、多标记分类和多标记分类评估等诸多内容进行了研究,并且对特征选择和多标记分类方法进行了改进与优化。
  本论文研究内容和创新工作主要包括以下三个部分:
  (1)基于多标记学习的文本分类框架
  文本分类往往可看作是一个多标记问题。在深入研究文本分类和多标记学习的基础上,本文提出了基于多标记学习的文本分类框架,主要包括了文本变换、多标记学习分类和多标记分类评估等新型的技术。
  (2)基于集成多标记学习的文本分类算法(En-MLKNN)
  基于多标记文本分类的框架,集成目前三种主流的特征选择方法,并对最好的多标记学习算法之一MLKNN进行改进,设计了En-MLKNN算法以解决文本分类问题。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLKNN在多个评估指标下具有优越性。
  (3)基于代价敏感的集成多标记学习文本分类算法
  En-MLKNN算法可应用于文本分类并取得了较好的性能,但存在类不平衡问题。基于代价敏感解决类不平衡的思想,本文提出了En-MLCKNN算法。通过对两个标准数据集的测试,相比其他多标记学习算法,En-MLCKNN在多个评估指标下具有优越性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号