首页> 中文学位 >中文微博话题检测跟踪方法研究和系统设计
【6h】

中文微博话题检测跟踪方法研究和系统设计

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 引言

1.2 微博研究现状与意义

1.3 微博的特点

1.4 微博热点话题

1.5 本文章节结构

第二章 相关技术概述

2.1应用程序编程接口API

2.2 JSON和XML解析

2.3 网络爬虫

2.4 检测与跟踪技术

第三章 微话题数据获取过程研究

3.1 基于网络爬虫的数据获取方式

3.2 基于API的微博数据获取方式

第四章 微话题的检测与跟踪技术

4.1 话题热度检测

4.2 话题热度分析

4.3 话题跟踪技术

第五章 新浪微博微话题检测跟踪系统设计

5.1 设计目标

5.2 总体架构

5.3 模块设计

第六章 实验结果与数据分析

6.1 获取方式分析

6.2 跟踪算法分析

第七章 总结与展望

参考文献

在学期间论文发表情况

致谢

展开▼

摘要

微博作为一种Web2.0信息时代的出类拔萃的新媒介,做为支持跨平台信息互动交流的多媒体平台,在近两年里迅速发展,逐渐成为普通民众分享个人信息、关注他人信息、获取实时信息的主要平台,也逐渐成为网络媒体的主要组成部分。其特点是信息数量庞大、分散、多样。
  为了能让用户实时了解微博中整体的话题走向,跟踪自己感兴趣的话题,本文进行中文微博话题数据获取方式,话题检测跟踪方法研究。通过采用适用于微博的网页信息采集技术——基于时间控制广度优先采集,提高信息采集效率,保证信息采集覆盖率。对微博网站话题信息的自适应采集和信息抽取,模块化识别和规范化储存,提供质量较好的数据源。
  同时研究了基于微博API数据获取方式,并比较了基于网络爬虫数据获取方式和基于API微博数据获取方式两种方案在微博数据获取中性能的优劣。
  最后采用了中文处理技术进行文本处理,对获取的数据进行检测跟踪。在话题追踪过程中实时调整查询向量,并且通过网页关系、核心特征项和非核心特征项的调整有效过滤了噪声信息的引入,从而提高查询向量调整效果。最终实现了微博话题检测与热门话题跟踪。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号