基于TrAdaBoost的直推式迁移学习文本分类技术改进研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

基于迁移学习的文本分类算法在目标领域标注数据不足以及训练集和测试集数据分布不一致的情况下，可得到准确的分类器，符合大数据环境下缺少标注样本的现实，并节约人工标注成本，因此成为当前研究的热点之一。
　　特征选择方法和迁移学习文本分类算法是迁移学习文本分类技术需要改进的两个重要环节，改进的目标是在训练集和测试集数据分布不一致的情况下，构建可靠的迁移学习文本分类器，使之分类效率优于TrAdaBoost整合单一基分类器支持向量机的TrS算法和整合单一基分类器朴素贝叶斯的TrN算法。特征选择方法是文本预处理过程的核心，直接影响文本分类的精度和效率。融合类频率的类文档频率特征选择方法CDFDC对文档频率特征选择方法进行改进。TrAdaBoost是常用的基于权重调整的迁移学习文本分类算法框架，带文档权重的朴素贝叶斯算法dwNB以及带文档权重的支持向量机算法dwSVM为实现融合dwNB、dwSVM、TrAdaBoost的TrSN算法奠定基础。
　　CDFDC的对比实验结果说明，在20news group数据集上，当训练集和测试集数据分布一致的情况下，使用朴素贝叶斯NB算法，在选取特征数量大于3000时，CDFDC分类效率优于其他5种特征选择方法，分类精度达到0.77，运行时间效率仅次于运行时间最短的卡方检验特征选择方法CHI。TrSN的对比实验结果说明，在使用20news group构建的多元迁移学习文本分类问题上，在训练集和测试集数据分布相关但不同的情况下，TrSN分类时间效率（400到1036秒）明显优于TrS算法；TrSN算法分类精度平均达到0.94，在对比算法中最佳，优于TrS算法和TrN算法。综上，TrAdaBoost整合两个基分类器SVM和NB得到的TrSN算法，在训练集和测试集数据分布相关但不同的情况下，分类效率优于TrAdaBoost整合单一基分类器的TrS算法和TrN算法。

著录项

作者
李小璇;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机技术
授予学位硕士
导师姓名王芬;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP322.3;
关键词
分类器; 迁移学习; 文本分类; 特征选择; TrAdaBoost框架;

相似文献

中文文献
外文文献
专利

1. 基于Logistic回归分析的直推式迁移学习 [J] . 胡学钢 ,方玉成 ,张玉红 . 合肥工业大学学报（自然科学版） . 2010,第012期
2. 一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT [J] . 戴新宇 ,田宝明 ,周俊生 . 电子学报 . 2008,第008期
3. 直推式可信最邻近分类器在文本分类中的应用研究 [J] . 杜秋超 ,赵宏 . 北京交通大学学报 . 2008,第005期
4. 选择性直推式迁移学习 [J] . 沈杰 ,刘解放 ,杭文龙 . 计算机工程与设计 . 2017,第008期
5. 一种异构直推式迁移学习算法 [J] . 杨柳 ,景丽萍 ,于剑 . 软件学报 . 2015,第011期
6. 基于语义概念空间的渐进直推式文本分类 [C] . 张晓滨 ,尹英顺 ,赵培坤 . 第七届中文信息处理国际会议 . 2007
7. 基于自学习的直推式迁移学习方法研究 [A] . 胡孔兵 . 2013

基于TrAdaBoost的直推式迁移学习文本分类技术改进研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅