首页> 中文学位 >微博短文本检索关键技术研究
【6h】

微博短文本检索关键技术研究

代理获取

目录

封面

中文摘要

英文摘要

第1章 绪论

1.1本文的研究背景

1.2本文研究目的和意义

1.3 相关研究综述

1.4本文的内容组织和结构

第2章 实时性语言模型

2.1语言模型相关工作

2.2相关文档的时间分布分析

2.3基于热点时间的语言模型

2.4实验数据和评价指标

2.5实验结果及分析

2.6本章小结

第3章 融入时间信息的查询建模

3.1基于实时性的查询扩展

3.2针对多波峰主题相关的查询扩展

3.3融合实时性与多波峰主题相关的查询扩展

3.4实验结果与分析

3.5本章小结

第4章 基于参考文档模型的微博文本检索

4.1微博短文本检索的关键问题分析

4.2参考文档模型

4.3基于概率空间的参考文档模型

4.4实验结果与分析

4.5本章小结

第5章 基于排序学习模型的微博文本检索

5.1引言

5.2基于Ranking SVM的微博排序学习模型

5.3排序学习模型的特征抽取

5.4实验结果及分析

5.5本章小结

结论

附录一 预处理后的结构化Tweet样例

附录二 本文实验中的微博查询样例

附录三 TREC 2012 微博实时检索评测参赛队伍

参考文献

攻读学位期间发表的学术论文

声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。
  微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究:
  1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。
  2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对用户查询进行扩展,提高检索精度。具体的讲,探索了三种查询扩展方法。一种是基于实时性的查询扩展,能够对实时性的查询提供候选词。第二种是针对相关文档时间分布波峰离查询时间点较远或者出现多波峰的情况,此方法获取原始查询和扩展查询的时间属性,基于这两个分布的最小KL-分散度选择好的扩展词。第三种方法利用对文档年龄进行高斯分布建模巧妙的将前两种查询扩展方法进行了融合,是一种自适应权重的有效方法。
  3.基于参考文档模型的微博文本检索。在本章中我们通过对微博短文本模型建模遇到的潜在困难进行分析的基础上,引入参考文档模型对微博文本进行扩展,提高微博文本的模型估计精度,探究了文档信息增益对检索性能的影响。进一步利用参考文档同时对查询和文档进行伪反馈。实验结果表明,对查询和文档同时进行伪反馈的性能是最好的,远远好于传统反馈方法。本文还发现利用微博文本中的URL链向的网页内容对提高微博的检索性能有很大贡献作用。
  4.基于排序学习模型的微博检索。在本章中我们采用了一种新的排序策略,在排序中不仅考虑了文本相似度,而且同时考虑了微博用户和微博独有的一些特征信息。因此采用了排序学习方法,融合多个特征,来产生更好的排序函数。进行了一系列实验,通过对单个特征的分析和尝试不同的特征子集选择方案,来获取能达最佳微博检索性能的特征子集。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号