首页> 中文学位 >微博健康热点话题发现系统的设计与实现
【6h】

微博健康热点话题发现系统的设计与实现

代理获取

目录

声明

1 绪论

1.1 研究背景与意义

1.2 国内外研究现状

1.3 论文研究内容

1.4 本文组织结构

2 相关理论和技术介绍

2.1 微博健康话题发现概述

2.2 话题发现与跟踪介绍

2.3 话题发现的关键技术

2.4 本章小结

3.1 传统话题发现方法的局限性

3.2 LDA模型介绍

3.3 MLDA模型的引出

3.4 基于VSM和MLDA模型相结合的微博健康话题发现算法

3.5 本章小结

4 微博健康话题发现系统的设计与实现

4.1 系统总体设计框架

4.2 数据采集与预处理模块

4.3 微博数据存取模块

4.4 微博话题发现模块

4.5 话题热度计算模块

4.6 热点话题展示

4.7 本章小结

5.1 实验环境

5.2 实验过程

5.3 本章小结

6.1 工作总结

6.2 未来展望

致谢

参考文献

展开▼

摘要

随着互联网技术的不断发展,微博作为W eb3.0新兴起的一类开放互联网社交平台,凭借其使用方便、信息传播速度快、平台开放性以及交互性强等优点,成为备受广大用户喜爱的分享、获取以及传播信息的重要平台。微博上每天都会产生大量的数据,这些数据蕴含着丰富的元数据信息。
  目前,传统的话题发现模型及文本聚类技术己经被广泛应用于各个领域,并取得了不错的成果。针对微博短文本数据,传统的话题发现方法仍然存在着很大的局限性,给微博热点话题发现带来了新的挑战。因此,如何准确快速的从海量微博数据中获取热点话题信息并将其及时展示给广大用户,是微博话题发现技术亟待解决的问题。
  基于以上研究背景,本文结合微博的特点,改进传统的话题发现模型以及文本聚类算法,提出了一种基于VSM模型和MLDA模型相结合的微博话题发现算法,在此基础上设计了微博健康话题发现系统。主要工作内容如下:
  首先,采用微博平台开放API接口和网络爬虫技术,分别对微博用户信息和微博内容两方面数据进行爬取,通过数据去噪、文本分词等操作对微博文本数据进行预处理;
  其次,利用VSM模型和MLDA模型对微博文本数据进行联合建模,构造微博文本的特征向量,实现微博文本相似度的联合计算。
  再次,采用改进传统的Single-pass算法和凝聚式层次聚类算法,对微博文数据进行二次聚类,实现微博热点话题的抽取以及话题热度的计算与排序。
  最后,通过多方面实验验证与分析证明了系统有效性和准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号