首页> 中文学位 >面向微博的观点摘要关键技术研究
【6h】

面向微博的观点摘要关键技术研究

代理获取

目录

封面

目录

中文摘要

英文摘要

第一章 绪论

1.1研究背景及意义

1.2国内外研究现状

1.3本文研究内容

1.4论文组织结构

第二章 基础理论及研究方法

2.1情感分析

2.2文本摘要

2.3本章小结

第三章 基于三元词组模式的微博情感分析方法

3.1任务描述

3.2三元词组模式算法

3.3数据集

3.4实验结果及分析

3.5本章小结

第四章 基于熵融合的微博文本摘要方法

4.1任务描述

4.2微博文本摘要

4.3数据集

4.4实验结果及分析

4.5本章小结

第五章 总结与展望

5.1总结

5.2展望

参考文献

攻读学位期间取得的研究成果

致谢

个人简况及联系方式

声明

展开▼

摘要

微博作为互联网发展浪潮中的衍生物,短期内迅速俘获了大批用户的心。每时每刻,大众都可以对自己感兴趣的话题发表评论。基于以上情况,包括商家、政府在内的个人及团体都期望能够从这些海量评论中及时感知舆论趋势。正是如此,面向微博文本进行观点摘要应用而生。而情感分析和文本摘要作为观点摘要问题中的两个主要课题已逐渐成为业内的研究热点。其中,情感分析能够识别、抽取文本所表达的情感倾向,帮助了解喜好偏向;文本摘要则可对信息进行压缩、概括,便于知晓概况。因此,针对微博的观点摘要问题,研究情感分析及文本摘要的关键技术具有重要意义。
  本文围绕微博中多个话题的评论,对观点摘要问题中,情感分析和文本摘要两个子课题所涉及的关键技术进行了研究,主要成果如下:
  (1)针对微博的情感分析问题,提出了基于三元词组模式的微博情感分析方法。首先将当前已有的情感词典归纳整理,并更新部分资源,得到一个更全、针对性更强的词典。在充分研究微博文本特点后发现,微博评论的作者经常会显式地使用词汇表达自己的观点,且三个词汇之间的组合搭配能够左右整句的情感,因此本文利用三元词组间的搭配模式进行情感分析,用以自动标注语料。最后,对自动标注好的语料进行测试,并分析和研究了多个影响结果的参数。实验结果表明,在不进行人为标注的情况下,自动标注的训练语料可以达到最高72.39%的测试正确率。
  (2)针对微博的文本摘要问题,提出了基于熵融合的微博文本摘要方法。首先利用主题模型LDA(Latent Dirichlet Allocation)对样本集合建模,挖掘其中的潜在主题。然后对每个子主题下的文本进行相似度计算,用以去除冗余。在计算每条微博的重要度时发现,使用熵值可以度量信息的多少,且微博除文本信息以外还有其他如转发数、点赞数等外源信息。基于以上原因,本文提出了熵与(微博)外源信息融合的微博重要度计算方法,并将每条微博按重要度依次排序。最后再以一定的压缩比抽取摘要。实验表明,相较于对比方法,本文提出的方法在各项指标上平均高出7%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号