首页> 中文学位 >基于语义相似度计算及Twitter Storm平台的微博检索研究
【6h】

基于语义相似度计算及Twitter Storm平台的微博检索研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1课题背景

1.2课题来源

1.3课题的国内外研究现状

1.4课题研究的目标和意义

1.5论文结构

第2章 文本相似度计算

2.1文本相似度概述

2.2文本相似度计算方法介绍

2.3本章小结

第3章 基于特征扩展和WordNet的微博语义相似度计算方法

3.1 WordNet简介

3.2基于VSM的余弦相似度计算方法

3.3基于WordNet的语义相似度计算方法

3.4基于维基百科的微博特征扩展

3.5实验步骤与结果分析

3.6本章小结

第4章 开放实时数据处理平台Twitter Storm

4.1 Storm简介

4.2 Storm的架构及核心概念

4.3 Storm的核心处理思想

4.4一个自定义topology结构实例

4.5本章小结

第5章 基于Twitter Storm平台的微博检索实现

5.1实验准备

5.2 实验步骤

5.3 本地模拟的实验结果

5.4本章小结

第6章 总结和展望

6.1工作总结

6.2展望

致谢

参考文献

攻读学位期间取得的学位论文相关科研成果

展开▼

摘要

随着互联网在国内外的飞速发展,微博作为一款在世界各地被广泛使用的互联网社交产品具有跨时代的意义。它在为用户提供开放和集中的互联网社交服务的同时,逐渐发展为具有较大影响力的新媒体。鉴于微博数据的大规模及实时的特点,如何在海量及动态更新的微博数据中为用户提供其感兴趣的内容显得尤为重要。
  本文所讨论的基于特征扩展和相似度计算的微博检索的内容包括:1、扩展微博短文本的内容,丰富微博的语义特征,为检索结果与检索关键字在语义上的相关性提供保障。2、利用WordNet机器语义字典的网状结构得到较准确的微博语义相似度值。3、以相似度值的高低作为检索排序的标准来模拟一个实时的微博检索过程,能够完成对关键字的微博检索,并为每一个检索到的微博提供相关微博的列表。
  在丰富微博语义方面,本文提出基于维基百科的语义特征扩展方法,该方法将微博中的名词作为表达微博主题的关键词,对名词进行关联拓展以丰富微博的信息内容。具体地,本文将维基百科作为语义特征的扩展源,将名词词条中的“category”模块下所包含的类别作为扩展语义特征添加到原微博中来丰富微博语义,并通过实验证明使用该语义扩展方法能够在一定程度上提高相似度计算结果的质量。在获取较高准确度的微博相似度值方面,本文利用了普林斯顿大学开发的英语词网数据库WordNet的网状结构得到基于微博语义的相似度。具体地,我们使用[37]中提出的基于路径长度的方法,同时考虑两个单词以及它们的最近公共节点在WordNet中距离根节点的路径长度(深度)来计算语义相似度,在实验中与基于VSM的余弦相似度方法做比较证明该方法能够在一定程度上提高找到相关微博的准确度与召回率。在模拟实时微博检索方面,本文研究了开源及实时的数据处理平台Twitter Storm的架构及应用,采用本地模式模拟数据的实时和分布式处理。具体地,本文定义了自己的微博检索拓扑结构,并实现拓扑结构中的每个节点功能,包括twitter数据集的预处理、节点间信息传输、多节点的相似度的并行计算与相似度表的维护、基于相似度值的检索结果排序,以及为每个检索结果提供相关微博等,从而将微博检索排序嵌入到了Twitter Storm平台上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号