基于集成学习的跨数据域文本倾向性分析研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网社交平台的蓬勃发展，传统的社交方式、商业经济结构正发生巨大变革。人们越来越青睐于通过微信、微博等社交工具与他人进行交流，互联网中涌现出大量的主观性信息。这些蕴含观点与意见的文本数据具有十分重要的价值，目前针对这些数据进行文本倾向性分析成为自然语言处理任务中主要研究内容之一。本文主要研究了文本倾向性分析的两个方面：在情感分类算法方面，设计了针对绝对不平衡数据集分类算法；在文本特征提取方面，提出了一种基于多特征融合的情感分类算法。本文的主要工作和成果如下所示： (1) 针对文本倾向性分析任务，本文提出一种基于级联结构的集成迁移学习方法，从数据层面与算法层面解决训练数据绝对不平衡问题。在算法层面，提出一种基于权重恢复因子的TrAdaboost算法。该算法在解决了TrAdaboost算法中辅助数据权重不可恢复问题的同时，利用代价敏感学习思想对不同领域不同类别的样本采取不同的样本权重更新策略。在数据层面，利用级联结构对目标领域数据过采样，对辅助数据域进行欠采样，在平衡数据集的同时可以有效避免“负”迁移。实验结果表明，文本提出的基于级联结构的集成迁移学习算法可以很好的解决数据绝对不平衡问题，其分类效果好于目前主流的不平衡分类算法与实例迁移学习算法。 (2) 分布式词向量训练模型主要针对文本的上下文共现关系，忽略了单词的内在情感特性，虽然一些研究开始引入已有的情感资源来增加词向量的信息，但是都没能考虑领域依赖问题。本文提出了一种基于多特征融合的情感分类算法,一方面，通过将词语上下文信息与词语情感特征、词性特征融合实现词语向量化；另一方面，结合不同卷积核的CNN-LSTM模型结构实现句子向量化。实验结果表明，本文提出的基于多特征融合的情感分类模型可以提升情感分类效果。

著录项

作者
么素素;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科电子与通信工程
授予学位硕士
导师姓名王宝亮,侯瑞;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;环境监测仪器设备;
关键词
集成学习; 数据域; 文本倾向性;

相似文献

中文文献
外文文献
专利

1. 基于文本特征的短文本倾向性分析研究 [J] . 程南昌 ,侯敏 ,滕永林 . 中文信息学报 . 2015,第002期
2. 基于集成学习的文本情感分析研究 [J] . 李高翡 ,张洋 ,杨新凯 . 计算机应用研究 . 2020,第S01期
3. 基于语义的微博短文本倾向性分析研究 [J] . 马力 ,刘笑 ,宫玉龙 . 计算机应用研究 . 2016,第010期
4. 基于指示信号方式实现跨时钟域数据传输的方法 [J] . 王良 ,方粮 ,池雅庆 . 计算机工程与科学 . 2017,第012期
5. 基于Twitter数据的文本情感分析研究 [J] . 于营 . 信息与电脑 . 2018,第19期
6. 锆石微区原位U-Pb定年时跨晶域混合年龄的数据处理方法 [C] . 张永清 ,李国占 ,许雅雯 . 第十一届全国同位素地质年代学与同位素地球化学学术讨论会 . 2017
7. 基于集成学习的变换域语音隐写分析研究 [A] . 王伟亮 . 2012

基于集成学习的跨数据域文本倾向性分析研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅