主题模型的在线消息传递算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在线学习是指一个学习系统能不断地从新样本中学习到新的知识，并且还能够保留大部分以前已经学习到的知识。在当今数字化信息时代，随着各行各业数据规模的不断增加，对时间和空间资源的需求也在不断增加，所以研究在线学习就成为一种迫切需求。目前主题模型的在线学习算法在精度和速度上都不是很理想，因此本文以海量数据和流数据为研究对象，着重研究基于概率潜在语义分析（PLSA）模型和潜在狄利克雷分布（LDA）模型更高效的在线学习算法，其创新点主要体现在以下几个方面：
　　1）针对当前所面临的海量数据和流数据，离线算法会因为内存不足和数据集不能完整获取而无法解决文档分类的问题，因此本文提出的在线学习算法首先对海量数据进行切分，然后对切分后的若干独立段逐个训练，并且采用前段的结果参数计算当前数据段的梯度下降。
　　2）提出基于PLSA模型改进因子图表示的在线消息传递（OBP）算法。PLSA模型是一种简单的文档分类方法，然而针对海量数据和流数据，PLSA模型无法继续采用传统的离线算法解决文档分类的问题，虽然现在已经提出相应的在线学习算法，但是仍然不能满足快速和准确的要求，所以本文提出了基于PLSA模型改进因子图表示的OBP算法。四组公共大规模数据集和三组百度真实海量数据集上的实验，都表明在时间和空间复杂度上OBP算法均优越于当前所流行的基于PLSA模型的OEM算法。
　　3）提出基于LDA模型改进因子图表示的在线消息传递（OBP）算法。针对PLSA模型在处理海量数据时，模型中参数的个数随文档数和单词数呈线性增长，从而导致PLSA模型的在线学习算法在处理海量数据时非常复杂这一问题，因此本文提出了基于LDA模型改进因子图表示的OBP算法，并且从理论上证明了OBP算法的收敛性，通过实验验证该算法的高效性。
　　4）提出了在线消息传递的主题追踪算法。针对训练的过程中因数据流不断地流入，导致每段的主题也跟随着不断的变化这一问题，本文提出了在线消息传递的主题追踪算法。算法通过对流数据的不断训练，给出当前最热冷门主题，并更准确地预测各个主题的变化趋势等。

著录项

作者
叶芸;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机应用技术
授予学位硕士
导师姓名龚声蓉;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
主题模型; 在线学习; 消息传递算法; 数据切分; 文档分类;

相似文献

中文文献
外文文献
专利

1. 基于消息传递机制的MapReduce图算法研究 [J] . 潘巍 ,李战怀 ,伍赛 . 计算机学报 . 2011,第010期
2. 基于消息传递的Paxos算法研究 [J] . 许子灿 ,吴荣泉 . 计算机工程 . 2011,第021期
3. 基于消息传递接口的并行图像处理算法研究 [J] . 熊杰 ,刘彩云 . 成都大学学报（自然科学版） . 2010,第002期
4. 基于联合判决消息传递机制的LDPC码译码算法研究 [J] . 雷菁 ,文磊 ,高永强 . 信号处理 . 2009,第012期
5. 基于串行消息传递机制的QC-LDPC码快速译码算法研究 [J] . 雷菁 ,高永强 ,王建辉 . 电子与信息学报 . 2008,第012期
6. 基于消息传递机制的MapReduce图算法研究 [C] . 潘巍 ,李战怀 ,伍赛 . 第28届中国数据库学术会议 . 2011
7. 基于消息传递的免调度NOMA系统信道估计与用户检测算法研究 [A] . 张园园 . 2020

主题模型的在线消息传递算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅