首页> 中文学位 >中文微博热点话题检测与自动文摘技术研究
【6h】

中文微博热点话题检测与自动文摘技术研究

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景

1.2 基本概念介绍

1.2.1 微博

1.2.2 热点话题

1.2.3 自动文摘

1.3 本课题的提出

1.4 本文组织结构

第2章 国内外研究现状

2.1 话题检测技术

2.1.1 国外研究现状

2.1.2 国内研究现状

2.2 自动文摘技术

2.2.1 机械文摘

2.2.2 理解文摘

2.2.3 中文自动文摘技术研究的现状

2.3 微博相关研究

2.4 本章小结

第3章 微博特点分析及数据预处理

3.1 微博概述

3.2 微博信息特点

3.3 微博信息传播特点

3.4 微博数据

3.4.1 微博数据获取

3.4.2 数据介绍和分析

3.4.3.数据预处理

3.5 本章小结

第4章 热点话题检测

4.1 设计目标

4.2 热点话题的三个特性

4.3 基于话题发现和话题合并的热点话题检测

4.3.1 方法的提出

4.3.2 基于Accessor Variety的初步话题检测(话题发现)

4.3.3 基于词聚类的话题合并

4.4 基于特征词聚类的热点检测系统

4.4.1 特征词选择

4.4.2 特征词聚类

4.5 实验

4.5.1 数据

4.5.2 实验流程

4.5.3 结果评价

4.6 本章小结

第5章 自动生成微博热点话题摘要

5.1 设计目标

5.2 基于话题特征词的微博自动文摘技术

5.2.1 算法的提出

5.2.2 话题特征词选择

5.2.3 自动摘要算法概述

5.3 结果评价

5.4 实验

5.4.1 实验数据

5.4.2 实验结果

5.5 本章小结

第6章 结论

参考文献

致谢

攻读硕士期间发表的论文及参加的项目

展开▼

摘要

微博在当今已经成为互联网用户中越来越受欢迎的交流工具和平台。每天,有数以百万计的用户在微博平台上分享和发表着对生活当中各个方面的观点和看法。微博作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。它已经成许多重大事件爆发的第一现场,用户在微博上发布关于事件的第一手资料。为了使人们不仅能够获取微博中分散的信息,且能够及时了解整个微博中的热点话题,及时获取话题的后续信息,本文针对这几个方面分别进行了研究。
  首先,检测微博热点话题。微博热点话题具有以下三个特点:热门性、突发性、时效性。热门性可以从搜索次数和微博中提及率中体现出来,一个热门话题必然会成为用户在微博平台上议论的焦点;突发性是指,该话题在某个特点时间点突然爆发,在此之前可能少有人议论,或者没有被提到过,从该时间点开始搜索次数和提及率大量增加;时效性指的是该热点话题一旦产生,会在微博中停留一段时间,但很快将有新的话题取代旧话题成为热点。本文基于微博热点话题的以上三个特点提出了基于话题发现和话题合并的检测技术。
  获得热点话题之后,用户急需了解这个话题是关于什么。由于微博信息数据量十分庞大,逐条阅读会花费很多时间,自动提取微博摘要就成为了本文需要解决的第二个问题。本文将自动文摘的问题简化为从含有某话题的大量微博中找到一个子集,这个子集中的微博与话题的相关程度最强,且能够尽可能全面的描述这个话题。用户在微博中描述一个话题时使用的词语往往属于一个较为固定的词集,本文中将这个词集定义为某话题的特征词集合。因此本文提出了基于微博话题特征集的自动文摘技术,首先计算话题的特征词集合与所有微博文本之间的相似度,选择相似度最大的微博加入子集,然后再次分别计算所有微博与子集中微博的相似度,同时结合特征词集合与微博间的相似度,不断选择新的微博加入子集,直到子集中的微博个数达到预设值,这时子集中的微博就是能够最全面描述话题的微博集合。
  本文提出了中文微博热点话题检测和自动文摘的方法,实验结果表明该方法在时间效率在可接受的情况下比传统的方法提高了准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号