首页> 中文学位 >中文微博评论与微博主题相关性的研究
【6h】

中文微博评论与微博主题相关性的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文主要内容

1.4 论文结构安排

2 相关知识

2.1 短文本模型化与关键词提取

2.2 短文本相似度计算

2.3 用户偏好与可信度分析

2.4 本章小结

3基于微博词语语义关系图的关键词提取方法

3.1 PostWordGraph(PWG)图的构建

3.2 PostWordRank(PWR)算法

3.3 关键词提取

3.4 本章小结

4 抽取与主题相关的微博评论

4.1 How-Net知识库

4.2中文短文本语义相似度算法CSSSA

4.3用户主题偏好(User Topic Preference)的定义

4.4用户权威值(User Authority Value)的定义

4.5评论相关分值(Comment Related Score)的定义

4.6中文微博评论与主题相关性算法

4.7本章小结

5 实验及结果分析

5.1 实验环境

5.2 实验准备

5.3 系统架构

5.4 实验过程

5.5 实验结果与分析

5.6 本章小结

总结与展望

参考文献

一、 攻读硕士学位期间发表的论文及研究成果

二、参与的科研、项目

致谢

展开▼

摘要

作为Web2.0时代具有代表的社交平台,微博已经成为了一种主流的信息分享和交流的平台,微博营销也应运而生。微博营销是一种新型的网络营销方式,商家通过在微博上发表与商品主题相关的帖子,以他的粉丝和偶像为传播媒介,让其他用户能够快速地了解到商品信息。微博营销是一种口碑式的营销方式,用户的评论中携带大量的情报信息,对商家和其他用户都有重要的意义;对商家而言,评论信息越多,说明有更多的用户关注他的商品;评论的内容也能够让商家及时发现商品的优缺点。对用户来说,了解到与商品有关的评论信息,他们能够做出正确的购买决定。然而,微博评论往往较多,以人工的方式来读取所有评论是耗时的,也是不现实的,并且由于评论的自由性,有些评论其实是与微博帖子内容不相关的,而且有些评论者对主题是不了解的,或者评论者是一些新用户,他们的评论不具有权威性。因此,挖掘出那些与主题相关的,而且评论者对主题具有一定偏好和较高的权威性的评论具有重要的现实意义。本文所研究的内容如下:
  1、微博评论的模型化。传统的文本表达模型,如向量空间模型(Vector Space Model,VSM),将文本抽象成向量,使用词频-逆文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)来计算词语的权重。微博帖子和评论是一种短文本,使用VSM来模型化微博帖子和评论是不科学的。因此,本文提出了用PostWordGraph(PWG)图来模型化微博帖子和评论。在PWG中,节点表示词,边表示词之间的关系。
  2、从短文本集中提取关键词。微博评论的自由性导致了微博评论中含有一些与主题无关的词语,这些词语不仅仅会增加计算开销,而且会影响准确性。在PWG的基础上,本文提出了PostWordRank(PWR)算法来计算PWG中的词的权重。词的PWR值反应了该节点的重要性。因此,那些具有较高的PWR值的词将被当做关键词,那些包含关键词的评论将更可能是与主题相关的。
  3、本文提出了中文短文本语义相似度算法(Chinese Short-Text Semantic Similarity Algorithm,CSSSA)。CSSSA不仅考虑了词语的词性,还考虑了词语之间的语义相似度。
  4、本文定义了评论相关分值(Comment Related Score,CRS)。CRS不仅仅考虑了评论内容与主题的语义相似性,而且考虑了评论者的主题偏好(User Topic Preference,UTP)和权威值(User Authority Value,UAV)。
  最后,本文在腾讯微博数据集上实验,用召回率、准确率和F值作为评价指标,实验结果证明本文提出的方法是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号