首页> 中文学位 >基于改进LDA模型的社交网络用户行为分析
【6h】

基于改进LDA模型的社交网络用户行为分析

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究内容

1.4 论文组织结构

第二章 社交网络用户行为分析总体框架

2.1 社交网络的定义和发展

2.2 社交网络用户行为分析

2.3 用户行为分析总体框架

2.4 本章小结

第三章 新浪微博数据采集

3.1 网络爬虫简单介绍

3.2 社交网站中用户行为图谱

3.3 微博爬虫需求分析

3.4 爬虫系统的设计与实现

3.5 基于改进布隆过滤器URL去重

3.6 爬虫系统测试和分析

3.7 本章小结

第四章 基于UR-LDA的微博用户主题挖掘与相似话题聚类

4.1 用户文档表示

4.2 LDA主题模型简介

4.3 UR-LDA模型

4.4 微博用户相似性话题聚类

4.5 仿真实验及结果分析

4.6 本章小结

第五章 总结与展望

5.1 论文工作总结

5.2 未来研究展望

参考文献

附录1 攻读硕士学位期间撰写的论文

致谢

展开▼

摘要

随着互联网的快速发展,以微博为代表的社交网络已经成为用户发布和获取实时信息的重要手段。网络信息的爆炸性增长,一方面带来了更多消息来源,另一方面使得获取实用信息的难度加大。通过有效的手段,精准地发现、组织和利用社交网络海量短文本背后隐藏的有价值的信息,分析研究用户的行为特征,不仅具有较高的舆情监控和商业推广价值,还有助于互联网的综合管理。
  本文以国内主流社交网站新浪微博为研究对象,对微博数据采集和用户行为特点进行深入的研究,主要贡献和创新之处如下:
  1.微博信息爬虫系统。本文设计并实现了一种基于改进布隆过滤器的新浪微博信息爬虫系统,该系统主要针对布隆过滤器误识率问题进行改进,提供了一种高效的URL去重方案,解决URL去重效率低的问题,同时解决了新浪微博用户数据获取和存储问题。
  2.异常用户行为分析。根据爬取到的微博用户数据,分析异常用户的行为特点。对LDA模型进行改进,设计适用于处理用户关系数据的UR-LDA模型。利用UR-LDA模型对词化后的微博垃圾用户特征进行降维和聚类。
  3.用户关注话题分析。由爬虫系统获取的用户数据挖掘出用户关注的话题。首先用中文分词系统ICTCLAS对用户微博数据进行分词和去停用词处理,然后利用UR-LDA模型进行主题挖掘,最后对用户进行聚类分析。
  在实验过程中,本文将基于改进的布隆过滤器和传统的布隆过滤器过滤器进行分析和比较,结果表明,本文设计的爬虫系统具有更高的URL去重效率,爬取微博数据更加高效。通过LDA模型对和UR-LDA模型对微博主题挖掘效果对比,实验结果表明UR-LDA能更加有效地挖掘出用户关注的话题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号