一种基于共享内存的快速并行主题建模算法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的快速发展，对非结构化数据处理的时效性要求逐渐变高，并行化的主题建模是一种能够有效的快速处理非结构化数据的方法。潜在狄利克雷分配（Latent Dirichlet Allocation，LDA）是一种常用的概率主题模型，它能够通过获取文档在主题空间的低维表示来实现文档的分析。但是并行LDA模型在处理大规模数据时面临两大问题：一是对于已有的LDA近似推理算法，都存在着相应的缺点使其难以被应用于大规模数据的处理与分析。信息传播算法虽然在收敛速度以及计算复杂度上都具有一定的优势，但其空间复杂度过大，使其无法在大数据处理上得到很好的应用；二是现有基于共享内存并未很好的解决线程之间的阻塞问题，线程阻塞大大降低了并行LDA算法效率。如何改进已有LDA算法中近似推理方法以避免其在大规模数据处理中的缺陷，以及如何有效减少共享内存并行算法中线程阻塞时间，从而实现一种更实用和高效的基于共享内存的并行LDA算法是一件非常有挑战性的工作。
　　基于传统信息传播算法的空间复杂度较大的问题，本文通过从最大化期望（Expectation Maximization，EM）的角度对信息传播算法进行重新解释，提出了一种新的参数更新方法（Expectation-maximization Belief Propagation，EBP）。这种更新方式不再需要剔除信息矩阵本身信息，能够避开统计过程中的信息存储问题，从而极大地减少信息传播算法中的空间复杂度。
　　基于传统共享内存的并行LDA算法无法有效利用线程的计算资源，经常会导致线程阻塞问题。本文提出了一种基于共享内存的动态调度并行方法，能够将算法并行的过程看成是一个为线程分配工作的过程，通过动态的为线程分配任务，实现了线程间无等待的动态调度，改善了传统共享内存并行算法中的线程等待问题。通过将改进的信息传播算法与改进的并行算法结合实现了一种基于共享内存的快速并行主题建模算法（Parallel Expectation-maximization Belief Propagation，PEBP）。
　　实验结果表明，EBP算法在混淆度与收敛速度方面的性能接近基于传统近似推理算法的LDA模型。此外，相对于一般的基于共享内存的并行方法，PEBP具有更好的加速比以及纵向扩展比，在混淆度以及收敛速度方面同样具有明显的优势。

著录项

作者
杨希;
展开▼
作者单位

苏州大学;

展开▼
授予单位苏州大学;
学科计算机科学与技术
授予学位硕士
导师姓名曾嘉;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;
关键词
共享内存; 快速并行主题建模算法; 信息传播; 互联网;

相似文献

中文文献
外文文献
专利

1. 基于快速置信传播算法的并行主题建模方法研究 [J] . 高恩婷 ,顾一清 ,严建峰 . 南通大学学报（自然科学版） . 2013,第001期
2. 基于共享内存的高效OpenMP并行多层快速多极子算法 [J] . 潘小敏 ,皮维超 ,盛新庆 . 北京理工大学学报 . 2012,第2期
3. 一种基于矢量有限元与多层快速多极子技术的电磁散射快速并行算法 [J] . 袁军 ,刘其中 ,郭景丽 . 电子学报 . 2008,第003期
4. 基于共享内存的并行 LDA 算法 [J] . 杨希 ,刘晓升 ,杨璐 . 计算机应用与软件 . 2016,第003期
5. 一种基于GPU并行加速的快速建模方法 [J] . 罗德新 ,谢凯 ,夏巍 . 长江大学学报（自然版）理工卷 . 2015,第001期
6. 三对角Toeplitz方程组的一种快速并行算法 [C] . 单润红 ,高峰 ,宋君强 . 2003年全国开放式分布与并行计算学术会议暨全国第十三届网络与数据通信学术会议 . 2003
7. 基于快速置信传播算法的并行主题建模方法研究 [A] . 顾一清 . 2012

一种基于共享内存的快速并行主题建模算法

目录

摘要

著录项

相似文献

相关主题

期刊订阅