首页> 中文学位 >基于上下文的主题模型
【6h】

基于上下文的主题模型

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.3 目前存在的问题

1.4 本文的工作及创新点

1.5 本文的组织结构

第二章 相关研究

2.1 潜在狄利克雷分配

2.2 变分贝叶斯

2.3 吉布斯采样

2.4 置信传播

2.5 在线主题模型算法

2.6 本章小结

第三章 基于滑动窗口的主题模型

3.1 SWTM

3.2 SWTM的生成过程及训练过程

3.3 SWTM的实验分析

3.4 本章小结

第四章 基于中心词的上下文主题模型

4.1 CCTM

4.2 CCTM的生成过程及训练过程

4.3 CCTM实验分析

4.4 本章小结

第五章 在线上下文主题模型

5.1 在线主题模型的介绍

5.2 在线滑动窗口主题模型

5.3 在线中心词上下文主题模型

5.4 实验分析

5.5 本章小结

第六章 总结和展望

6.1 工作总结

6.2 工作展望

参考文献

攻读学位期间参与的科研项目和公开发表的论文

致谢

展开▼

摘要

主题模型是分析大规模文档集合最有效的工具,它能够有效的从大量的非结构化文本数据中提取出有用的语义信息。自从潜在狄利克雷分配(LDA)主题模型被提出来之后,就吸引了很多学者对它的研究,并提出来了很多不同的求解方法。这些模型通过不断改进已经应用在很多领域,并且有很好的实践效果。LDA是一个无监督模型,能够自动提取出文本中的语义信息,挖掘背后的语义关联。同时它也是一个基于“Bag-of-Word”假设的模型,这种方法假设文档是单词词频的组合,不考虑文档中单词之间的顺序关系,造成了单词之间的语义混淆,例如同一文档中前后相同的单词由于其上下文信息不同,可能具有不同的含义。这种方法虽然简化了模型的复杂度,但是造成了模型的预测能力较低,为模型的改进提供了契机。
  本文针对原有主题模型基于“Bag-of-Word”的假设造成预测能力较低等问题,提出了两种新的主题模型,这两种模型都不再单单是把文档看作词频的向量组合,而是把文档中单词之间的顺序关系也考虑了进去。
  (1)基于滑动窗口的主题模型(SWTM):这种模型根据窗口和滑动位移,把文档切割为粒度更小的片段,并对每个窗口内的所有单词计算主题概率分布。其基本思想是文档中一个单词的主题与其附近若干单词的主题关系更为紧密,受附近单词主题的影响最大。文档中的每个单词由于所在的窗口不同,因此也就具有不同的上下文信息。实验结果表明,基于滑动窗口的主题模型在混淆度(Perplexity)上平均减少了25%~54%,并且收敛速度也有提高。
  (2)基于中心词的上下文主题模型(CCTM):基于滑动窗口的主题模型并没有完全排除“词袋”的假设,因此提出了基于中心词的上下文主题模型。这种模型在计算每个单词的主题概率分布时,以这个词为中心,前后扩展若干个词作为其上下文信息,通过其上下文信息来计算主题概率分布。文档中相同的单词由于其上下文信息不同,所以其主题概率分布也不同。实验结果表明,基于中心词的上下文主题模型在混淆度(Perplexity)上相对于SWTM平均减少了9%。
  (3)上述两种模型都是针对离线数据的,特点是一次性把所有的数据都加载到内存中计算,当数据量大的时候,就会造成内存资源不足、训练时间长等情况。针对数据流,在基于滑动窗口主题模型和基于中心词的上下文主题模型的基础上提出了在线滑动窗口主题模型(OSWTM)和在线中心词上下文主题模型(OCCTM)。在四个数据集上的实验结果表明,OSWTM和OCCTM在混淆度(Perplexity)上相对其它在线主题模型平均减少24%~55%和37%~63%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号