首页> 中文学位 >主题模型的在线消息传递算法研究
【6h】

主题模型的在线消息传递算法研究

代理获取

目录

封面

中文摘要

英文摘要

目录

第一章 绪论

1.1 课题研究背景及意义

1.2 国内外研究现状

1.3 目前存在的主要问题

1.4 本文主要工作及创新点

1.5 本文组织结构

第二章 相关主题模型的概述

2.1 潜在语义分析模型介绍

2.2 概率潜在语义分析模型介绍

2.3 潜在狄利克雷分布模型介绍

2.4 本章小结

第三章 基于PLSA模型的在线消息传递算法

3.1 PLSA模型常用在线近似推理算法简述

3.2 因子图

3.3 基于Factor graph的PLSA模型

3.4 实验结果与对比分析

3.5 本章小结

第四章 基于LDA模型的在线消息传递算法

4.1 LDA模型常用在线近似推理算法简述

4.2 基于Factor graph的LDA模型

4.3 LDA模型在线消息传递算法收敛性证明

4.4 实验结果与对比分析

4.5 本章小结

第五章 基于在线消息传递算法的主题追踪

5.1 基于主题模型的主题追踪介绍

5.2 PLSA模型的主题追踪

5.3 LDA模型的主题追踪

5.5 x 10

5.4 本章小结

第六章 总结和展望

6.1 论文工作总结

6.2 未来工作展望

参考文献

攻读学位期间公开发表的论文

致谢

展开▼

摘要

在线学习是指一个学习系统能不断地从新样本中学习到新的知识,并且还能够保留大部分以前已经学习到的知识。在当今数字化信息时代,随着各行各业数据规模的不断增加,对时间和空间资源的需求也在不断增加,所以研究在线学习就成为一种迫切需求。目前主题模型的在线学习算法在精度和速度上都不是很理想,因此本文以海量数据和流数据为研究对象,着重研究基于概率潜在语义分析(PLSA)模型和潜在狄利克雷分布(LDA)模型更高效的在线学习算法,其创新点主要体现在以下几个方面:
  1)针对当前所面临的海量数据和流数据,离线算法会因为内存不足和数据集不能完整获取而无法解决文档分类的问题,因此本文提出的在线学习算法首先对海量数据进行切分,然后对切分后的若干独立段逐个训练,并且采用前段的结果参数计算当前数据段的梯度下降。
  2)提出基于PLSA模型改进因子图表示的在线消息传递(OBP)算法。PLSA模型是一种简单的文档分类方法,然而针对海量数据和流数据,PLSA模型无法继续采用传统的离线算法解决文档分类的问题,虽然现在已经提出相应的在线学习算法,但是仍然不能满足快速和准确的要求,所以本文提出了基于PLSA模型改进因子图表示的OBP算法。四组公共大规模数据集和三组百度真实海量数据集上的实验,都表明在时间和空间复杂度上OBP算法均优越于当前所流行的基于PLSA模型的OEM算法。
  3)提出基于LDA模型改进因子图表示的在线消息传递(OBP)算法。针对PLSA模型在处理海量数据时,模型中参数的个数随文档数和单词数呈线性增长,从而导致PLSA模型的在线学习算法在处理海量数据时非常复杂这一问题,因此本文提出了基于LDA模型改进因子图表示的OBP算法,并且从理论上证明了OBP算法的收敛性,通过实验验证该算法的高效性。
  4)提出了在线消息传递的主题追踪算法。针对训练的过程中因数据流不断地流入,导致每段的主题也跟随着不断的变化这一问题,本文提出了在线消息传递的主题追踪算法。算法通过对流数据的不断训练,给出当前最热冷门主题,并更准确地预测各个主题的变化趋势等。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号