基于语义相似度计算及Twitter Storm平台的微博检索研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网在国内外的飞速发展，微博作为一款在世界各地被广泛使用的互联网社交产品具有跨时代的意义。它在为用户提供开放和集中的互联网社交服务的同时，逐渐发展为具有较大影响力的新媒体。鉴于微博数据的大规模及实时的特点，如何在海量及动态更新的微博数据中为用户提供其感兴趣的内容显得尤为重要。
　　本文所讨论的基于特征扩展和相似度计算的微博检索的内容包括：1、扩展微博短文本的内容，丰富微博的语义特征，为检索结果与检索关键字在语义上的相关性提供保障。2、利用WordNet机器语义字典的网状结构得到较准确的微博语义相似度值。3、以相似度值的高低作为检索排序的标准来模拟一个实时的微博检索过程，能够完成对关键字的微博检索，并为每一个检索到的微博提供相关微博的列表。
　　在丰富微博语义方面，本文提出基于维基百科的语义特征扩展方法，该方法将微博中的名词作为表达微博主题的关键词，对名词进行关联拓展以丰富微博的信息内容。具体地，本文将维基百科作为语义特征的扩展源，将名词词条中的“category”模块下所包含的类别作为扩展语义特征添加到原微博中来丰富微博语义，并通过实验证明使用该语义扩展方法能够在一定程度上提高相似度计算结果的质量。在获取较高准确度的微博相似度值方面，本文利用了普林斯顿大学开发的英语词网数据库WordNet的网状结构得到基于微博语义的相似度。具体地，我们使用[37]中提出的基于路径长度的方法，同时考虑两个单词以及它们的最近公共节点在WordNet中距离根节点的路径长度（深度）来计算语义相似度，在实验中与基于VSM的余弦相似度方法做比较证明该方法能够在一定程度上提高找到相关微博的准确度与召回率。在模拟实时微博检索方面，本文研究了开源及实时的数据处理平台Twitter Storm的架构及应用，采用本地模式模拟数据的实时和分布式处理。具体地，本文定义了自己的微博检索拓扑结构，并实现拓扑结构中的每个节点功能，包括twitter数据集的预处理、节点间信息传输、多节点的相似度的并行计算与相似度表的维护、基于相似度值的检索结果排序，以及为每个检索结果提供相关微博等，从而将微博检索排序嵌入到了Twitter Storm平台上。

著录项

作者
肖慧璠;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科计算机应用技术
授予学位硕士
导师姓名钟珞,李琳;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
微博数据; 信息检索; 特征扩展; 相似度计算; Twitter Storm平台;

相似文献

中文文献
外文文献
专利

1. 基于Twitter Storm平台并行挖掘最稠密子图 [J] . 王金明 ,王远方 . 计算机科学 . 2014,第001期
2. 基于概念语义相似度计算模型的信息检索研究 [J] . 杨春龙 ,顾春华 . 计算机应用与软件 . 2013,第006期
3. 基于潜在语义与图结构的微博语义检索 [J] . 肖宝 ,李璞 ,胡娇娇 . 计算机工程 . 2017,第006期
4. 语义检索中的词语相似度计算研究 [J] . 冉婕 ,孙瑜 . 计算机技术与发展 . 2011,第004期
5. 基于Twitter Storm的数据实时分析处理工具研究 [J] . 赵建红 . 商情 . 2013,第008期
6. 微博与Twitter,国家通讯社在两个舆论场上的新媒体实践——@XHNews与@新华视点、@新华社中国网事的跨平台比较分析 [C] . . 第三届全国对外传播理论研讨会 . 2013
7. 微博客平台的企业公益传播——基于中国企业使用新浪微博与丹麦企业使用Twitter的实例 [A] . 谷羽 . 2013

基于语义相似度计算及Twitter Storm平台的微博检索研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅