首页> 中文学位 >基于集成学习的跨数据域文本倾向性分析研究
【6h】

基于集成学习的跨数据域文本倾向性分析研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网社交平台的蓬勃发展,传统的社交方式、商业经济结构正发生巨大变革。人们越来越青睐于通过微信、微博等社交工具与他人进行交流,互联网中涌现出大量的主观性信息。这些蕴含观点与意见的文本数据具有十分重要的价值,目前针对这些数据进行文本倾向性分析成为自然语言处理任务中主要研究内容之一。 本文主要研究了文本倾向性分析的两个方面:在情感分类算法方面,设计了针对绝对不平衡数据集分类算法;在文本特征提取方面,提出了一种基于多特征融合的情感分类算法。本文的主要工作和成果如下所示: (1) 针对文本倾向性分析任务,本文提出一种基于级联结构的集成迁移学习方法,从数据层面与算法层面解决训练数据绝对不平衡问题。在算法层面,提出一种基于权重恢复因子的TrAdaboost算法。该算法在解决了TrAdaboost算法中辅助数据权重不可恢复问题的同时,利用代价敏感学习思想对不同领域不同类别的样本采取不同的样本权重更新策略。在数据层面,利用级联结构对目标领域数据过采样,对辅助数据域进行欠采样,在平衡数据集的同时可以有效避免“负”迁移。实验结果表明,文本提出的基于级联结构的集成迁移学习算法可以很好的解决数据绝对不平衡问题,其分类效果好于目前主流的不平衡分类算法与实例迁移学习算法。 (2) 分布式词向量训练模型主要针对文本的上下文共现关系,忽略了单词的内在情感特性,虽然一些研究开始引入已有的情感资源来增加词向量的信息,但是都没能考虑领域依赖问题。本文提出了一种基于多特征融合的情感分类算法,一方面,通过将词语上下文信息与词语情感特征、词性特征融合实现词语向量化 ;另一方面,结合不同卷积核的CNN-LSTM模型结构实现句子向量化。实验结果表明,本文提出的基于多特征融合的情感分类模型可以提升情感分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号