首页> 中文学位 >基于文本和图像的舆情分析方法研究
【6h】

基于文本和图像的舆情分析方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

由于互联网和移动技术的发展普及,社交媒体已成为人们日常生活中不可或缺的一部分。如今,人们越来越喜欢在社交媒体上通过文本和图像的形式来发布自己的观点、评论以及情感等信息,对这些文本和图像数据进行正确的舆情分析不仅可以帮助企业机构改进产品而且有利于政府机关进行正确的舆论引导,预防危机。目前,已知的舆情分析系统大多是对文本数据进行舆情情感分析,且这些方法均未考虑到或突出情感信息对文本舆情情感分析的影响,如何利用仅有的文本数据挖掘出足够有效的情感特征仍是一个研究难点。除此之外图像中往往蕴含用户的情感信息,对文本情感具有互补作用,但对图文融合舆情情感分析的研究却比较少,且在实际应用中由于社交媒体的随意性、情感主观性等特点造成的文本和图像之间的情感互斥问题也增加了其分析难度。针对以上两种挑战,本文分别提出一种基于文本的情感显著性特征提取方法和一种基于图文融合的跨模态舆情回归分析方法。文章的主要内容和创新点如下: (1)提出基于文本的情感显著性特征提取方法。该方法的主要思想是在预处理阶段将情感标点和相邻词语组合起来作为一个新的情感词,并在情感词典的基础上,通过计算情感关联来扩展情感词,以此来丰富文本的情感信息,接着通过改进CBOW模型(Continuous Bag of Words Model)来训练学习得到既包含文本语义信息,又体现情感信息的文本情感显著性特征。最后为了验证所提方法的有效性,将学习到的文本情感显著性特征输入CNN和LSTM分类器中进行情感分类,并且分别在产品评论、新浪微博和Twitter三个社交媒体数据集上进行对比实验,实验表明基于文本的情感显著性特征的情感分类结果均要优于其它文本特征的情感分类结果。 (2)提出基于图文融合的跨模态舆情回归分析方法。该方法的主要思想是在跨模态回归模型的基础上引入了模态贡献计算,通过计算分析每个模态对整体的贡献,来选择合适的融合策略,从而避免情感表达不一致的问题。该方法主要包括三个阶段,第一阶段是利用情感显著性特征提取方法和 CNN 模型分别提取文本和图像的情感特征,第二阶段是通过跨模态舆情回归模型学习融合特征和每个模态特征之间的情感相关权重,第三阶段是利用训练好的分类器进行情感分类。本文分别在 Veer 和 Weibo 两个社交媒体数据集上进行对比实验,实验结果表明基于图文融合的跨模态舆情回归模型的情感分类准确率均高于其它融合模型的情感分类准确率。 ( 3 )设计并实现文本和图像的舆情分析原型系统。采用 Python 程序设计语言和OpenCV 视觉处理库设计并实现文本和图像融合的舆情分析原型系统。该系统包括数据采集、数据预处理、舆情情感分析以及舆情情感分析报告展示四个模块。其中,文中提出的基于文本的情感显著性特征提取方法功能模块和基于图文融合的跨模态舆情回归分析方法功能模块都在该原型系统的舆情情感分析模块中得到实现。通过该原型系统的实现来展示和验证本文所提方法的有效性和实用性。

著录项

  • 作者

    申自强;

  • 作者单位

    江苏大学;

  • 授予单位 江苏大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 毛启容;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    文本; 图像; 分析;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号