微博短文本检索关键技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。
　　微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究:
　　1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。
　　2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对用户查询进行扩展,提高检索精度。具体的讲,探索了三种查询扩展方法。一种是基于实时性的查询扩展,能够对实时性的查询提供候选词。第二种是针对相关文档时间分布波峰离查询时间点较远或者出现多波峰的情况,此方法获取原始查询和扩展查询的时间属性,基于这两个分布的最小KL-分散度选择好的扩展词。第三种方法利用对文档年龄进行高斯分布建模巧妙的将前两种查询扩展方法进行了融合,是一种自适应权重的有效方法。
　　3.基于参考文档模型的微博文本检索。在本章中我们通过对微博短文本模型建模遇到的潜在困难进行分析的基础上,引入参考文档模型对微博文本进行扩展,提高微博文本的模型估计精度,探究了文档信息增益对检索性能的影响。进一步利用参考文档同时对查询和文档进行伪反馈。实验结果表明,对查询和文档同时进行伪反馈的性能是最好的,远远好于传统反馈方法。本文还发现利用微博文本中的URL链向的网页内容对提高微博的检索性能有很大贡献作用。
　　4.基于排序学习模型的微博检索。在本章中我们采用了一种新的排序策略,在排序中不仅考虑了文本相似度,而且同时考虑了微博用户和微博独有的一些特征信息。因此采用了排序学习方法,融合多个特征,来产生更好的排序函数。进行了一系列实验,通过对单个特征的分析和尝试不同的特征子集选择方案,来获取能达最佳微博检索性能的特征子集。

著录项

作者
李绪维;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名李生,杨沐昀;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
微博数据; 文本检索; 热点时间; 查询建模; 排序学习;

相似文献

中文文献
外文文献
专利

1. 微博短文本检索关键技术 [J] . 吴晓阳 . 中国科技信息 . 2015,第021期
2. 考虑语境的微博短文本挖掘:情感分析的方法 [J] . 史伟 ,付月 . 计算机科学 . 2021,第0z1期
3. 融合表情符号与短文本的微博多维情感分类 [J] . 赵晓芳 ,金志刚 . 哈尔滨工业大学学报 . 2020,第005期
4. 基于特征融合的微博短文本情感分类研究 [J] . 陈涛 ,安俊秀 . 数据与计算发展前沿 . 2020,第006期
5. 面向搜索的微博短文本语义建模方法 [J] . 寇菲菲 ,杜军平 ,石岩松 . 计算机学报 . 2020,第005期
6. 一种基于特征簇的微博短文本情感分类方法 [C] . ZHOU Yong-mei ,周咏梅 ,WANG Wei . 中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） . 2015
7. 微博的短文本检索查询扩展与排序方法研究 [A] . 韩红云 . 2017

微博短文本检索关键技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅