首页> 中文学位 >基于LDA和HMM的文本主题演化模型及其应用研究
【6h】

基于LDA和HMM的文本主题演化模型及其应用研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 LDA的研究现状

1.2.2 HMM的研究现状

1.2.3 主题演化研究现状

1.3 本文主要研究内容

1.3.1 主要研究内容

1.3.2 论文的特色

1.4 论文的结构安排

第二章 主题模型的基本原理

2.1 文本挖掘及相关理论基础

2.1.1 文本挖掘的概念

2.1.2 文本挖掘的过程

2.1.3 文本的特征化表示

2.1.4 文本挖掘相关模型

2.1.5 关联规则

2.1.6 层次聚类

2.1.7 K-Means聚类

2.2 概率主题模型简介

2.2.1 TF-IDF模型

2.2.2 一元混合模型

2.2.3 LSI模型

2.2.4 PLSI模型

2.3 共现理论

2.3.1 词的共现现象

2.3.2 基于共现词对文档建模

2.4 本章小结

第三章 ATNLDA主题模型介绍

3.1 LDA模型

3.1.1 模型描述

3.1.2 抽取算法

3.1.3 LDA概率主题模型的文本生成过程

3.2 基于共现词对的文档向量模型的特点

3.3 ATNLDA主题模型

3.4 本章小结

第四章 ATNLDA主题模型验证

4.1 实验分析

4.2 实验数据获取

4.3 实验数据预处理

4.4 LDA中α和β参数的确定方法

4.5 ATNLDA过程

4.6 ATNLDA主题分析

4.7 ATNLDA主题关联关系分析

4.8 本章小结

第五章 主题演化理论

5.1 隐马尔可夫模型

5.1.1 HMM的基本理论

5.1.2 HMM的三个主要问题

5.1.3 HMM的主要算法

5.2 主题演化基本理论介绍

5.2.1 主题演化定义

5.2.2 主题演化的模式

5.2.3 主题强度度量

5.2.4 主题相似性度量

5.3 主题演化模型介绍

5.4 本章小结

第六章 主题演化及分析

6.1 数据准备

6.2 主题演化实验

6.2.1 实验步骤

6.2.2 实验参数的获取

6.2.3 实验结果及分析

6.3 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

参考文献

攻读硕士学位期间的研究成果

致谢

展开▼

摘要

近年来,主题模型随着LDA理论的创建越来越火。主题模型旨在海量文本数据中挖掘出有价值的主题,然后对主题进行检测、跟踪和预测。主题演化就是从主题的产生,发展,再到成熟,最后到消失的一系列过程。根据生命周期理论来判断主题演化的具体过程。本文主要是致力于文本主题演化的研究,涉及到相关的文本挖掘,LDA(Latent Dirichlet Allocation)主题模型,HMM(Hidden Markov Models)模型,高级主题模型,主题生命周期理论等内容。
  首先,本文对目前较流行的相关文本挖掘算法和主题模型进行深入的探讨与研究,涉及到狄利克雷分布和先验分布的研究,概率潜在语义检索理论的研究,词共现理论的深入研究,以及基于以上理论技术而获得的主题之间相似度计算的研究。
  其次,本文对干细胞研究背景进行介绍,在分析干细胞主题意义的基础上,探讨了共现理论的主题分析和LDA的主题划分模型在干细胞数据上的应用。并针对LDA模型中的参数估值的缺点,集成共现理论和聚类判断指标,构建ATNLDA(Auto Topic-numberLDA)主题划分模型。利用ATNLDA模型对PubMed中2006到2011年的干细胞研究文献进行主题划分,并进行专家判断以验证ATNLDA模型在主题划分上的可行性,并对这些主题进行关联关系分析,使用MDS(Multi-Dimension Scale)绘制干细胞研究主题的关联关系图谱,提出了ATNLDA模型目前的缺陷和后续的研究内容。
  最后,本文介绍HMM模型的背景和目前的研究情况,深入研究如何基于LDA模型和HM模型来搭建高级的主题模型,并以此来挖掘不同时间戳间主题的相互关系。利用交互可视化与探测开源工具绘制干细胞研究主题的演化图谱。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号