首页> 中文学位 >基于LDA主题模型的新浪微博用户兴趣研究
【6h】

基于LDA主题模型的新浪微博用户兴趣研究

代理获取

目录

声明

摘要

1.1研究背景

1.2研究意义

1.3国内外研究综述

1.3.1关于主题模型的相关研究

1.3.2关于新浪微博的相关研究

1.3.3研究述评

1.4研究内容及创新

1.4.1研究内容

1.4.2研究创新性

1.5论文组织结构

第2章模型理论基础

2.1基本概念

2.1.1贝叶斯方法

2.1.2伽玛函数

2.1.3多项分布

2.1.4贝塔分布

2.1.5狄利克雷分布

2.2共轭分布

2.2.1二项分布和贝塔分布

2.2.2多项分布和狄利克雷分布

2.3文本建模

2.3.1 Unigram基础模型

2.3.2加入贝叶斯框架的Unigram模型

2.3.3 PLSA模型

第3章LDA主题模型的构建

3.1.1加入贝叶斯框架

3.1.2增加参数

3.1.3物理过程分解

3.1.4 LDA模型中的共轭分布

3.1.5概率表达式

3.2吉布斯采样

3.2.1前提条件

3.2.2特殊的转移概率矩阵

3.2.3吉布斯采样具体采样过程

3.2.4 LDA模型中的采样

3.3参数估计

3.4模型的训练和推断

3.5模型的评估

3.5.1困惑度

3.5.2连贯度

第4章面向新浪微博的爬虫系统的设计与开发

4.1网络爬虫的通用模块

4.2网络爬虫程序的设计和实现

4.2.1初始URL和待抓取URL队列

4.2.2微博用户身份认证

4.2.3网页源码获取和微博限制访问机制

4.2.4网页动态加载

4.2.5网页解析

4.3网络爬虫程序功能测试

第5章基于LDA模型的新浪微博用户兴趣偏好挖掘

5.1实验准备

5.1.1数据说明

5.1.2数据收集

5.1.3文档集的表现形式

5.2文本预处理

5.2.1中文分词

5.2.2降噪处理

5.3参数选择和优化

5.3.1先验分布参数

5.3.2主题数目

5.4主题模型的训练和展示

5.4.1直接建模训练和推断

5.4.2利用训练好的模型推断

5.5实验结果评估

5.5.1模型质量评估

5.5.2模型应用评估和分析

6.1全文总结

6.2研究展望

参考文献

致谢

展开▼

著录项

  • 作者

    史昀嘉;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 李欣鹏;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号