首页> 中文学位 >基于TrAdaBoost的直推式迁移学习文本分类技术改进研究
【6h】

基于TrAdaBoost的直推式迁移学习文本分类技术改进研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 研究的主要内容、目标及创新点

1.4 论文的组织结构

2 文本分类相关技术介绍

2.1 文本分类整体流程概述

2.2 常用的特征选择方法

2.3 TrAdaBoost算法框架概述

2.4 常用的基分类器

2.5 本章小结

3 融合类频率的类文档频率特征选择方法

3.1 选择特征分析

3.2 特征选择算法评价指标

3.3 CDFDC特征选择算法

3.4 文档预处理过程实现

3.5 实验设置

3.6 特征选择对比实验

3.7 本章小结

4 基于权重调整的TrAdaBoost迁移学习算法改进

4.1 TrAdaBoost算法框架对已有分类器整合的技术分析

4.2 TrAdaBoost整合SVM、NB难点分析

4.3 带样本权重的朴素贝叶斯分类算法改进

4.4 带文档权重SVM算法改进研究

4.5 SVM和朴素贝叶斯整合分析

4.6 迁移学习对比实验

4.7 本章小结

5 总结与展望

5.1 全文总结

5.2 研究展望

致谢

参考文献

附录1 攻读硕士学位期间发表论文

附录2 课题来源

附录3 缩写表

展开▼

摘要

基于迁移学习的文本分类算法在目标领域标注数据不足以及训练集和测试集数据分布不一致的情况下,可得到准确的分类器,符合大数据环境下缺少标注样本的现实,并节约人工标注成本,因此成为当前研究的热点之一。
  特征选择方法和迁移学习文本分类算法是迁移学习文本分类技术需要改进的两个重要环节,改进的目标是在训练集和测试集数据分布不一致的情况下,构建可靠的迁移学习文本分类器,使之分类效率优于TrAdaBoost整合单一基分类器支持向量机的TrS算法和整合单一基分类器朴素贝叶斯的TrN算法。特征选择方法是文本预处理过程的核心,直接影响文本分类的精度和效率。融合类频率的类文档频率特征选择方法CDFDC对文档频率特征选择方法进行改进。TrAdaBoost是常用的基于权重调整的迁移学习文本分类算法框架,带文档权重的朴素贝叶斯算法dwNB以及带文档权重的支持向量机算法dwSVM为实现融合dwNB、dwSVM、TrAdaBoost的TrSN算法奠定基础。
  CDFDC的对比实验结果说明,在20news group数据集上,当训练集和测试集数据分布一致的情况下,使用朴素贝叶斯NB算法,在选取特征数量大于3000时,CDFDC分类效率优于其他5种特征选择方法,分类精度达到0.77,运行时间效率仅次于运行时间最短的卡方检验特征选择方法CHI。TrSN的对比实验结果说明,在使用20news group构建的多元迁移学习文本分类问题上,在训练集和测试集数据分布相关但不同的情况下,TrSN分类时间效率(400到1036秒)明显优于TrS算法;TrSN算法分类精度平均达到0.94,在对比算法中最佳,优于TrS算法和TrN算法。综上,TrAdaBoost整合两个基分类器SVM和NB得到的TrSN算法,在训练集和测试集数据分布相关但不同的情况下,分类效率优于TrAdaBoost整合单一基分类器的TrS算法和TrN算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号