首页> 中文学位 >基于统计学习方法的高斯LDA模型的文本聚类研究
【6h】

基于统计学习方法的高斯LDA模型的文本聚类研究

代理获取

目录

声明

第1章 绪论

1.1 选题背景和意义

1.2 文献综述

1.3 论文思路

1.4 创新与不足之处

第2章 文本聚类的相关技术与理论基础

2.1 文本预处理

2.2 文本建模

2.3 特征提取

2.4 文本聚类算法

2.5 聚类主题识别

2.6 聚类有效性评价标准

第3章 基于统计学习方法的高斯LDA模型的文本聚类

3.1 基于统计学习方法的高斯LDA模型

3.2 人工干预的聚簇主题识别

3.3 基于语义相似性的聚类有效性评价指标

第4章 实验设计及结果分析

4.1 实验语料选择

4.2 实验平台搭建

4.3 实验结果与分析

第5章 总结与展望

5.1 全文总结

5.2 研究展望

参考文献

致谢

个人简历、在校期间发表的学术论文及研究成果

附件

展开▼

摘要

科学技术的发展日新月异,人们与互联网的联系越来越紧密,随着智能设备的普及,人们在使用智能设备的过程中不断产生大量的文本数据,如何从这些文本数据中汲取我们所需的信息,是当前文本信息挖掘的热点,而文本聚类是文本挖掘信息领域的研究重点,而文本标记的关键基础又是文本聚类,与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点:第一,聚类的结果与客观使用需求的匹配;第二,聚类的结果的描述问题;第三,文本聚类结果的有效性评估问题。本文综合讨论以上三点,提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。
  本文主要在以下三个方面进行了相关工作:
  第一,针对国内外相关研究进行了详细的对比研究和综述,并指出现阶段研究的优势及不足。
  第二,将词向量模型以文本扩展的形式引入,对LDA模型的先验信息进行改进,引入高斯LDA模型,将潜在主题特征知识融入词向量空间,深层次挖掘出文本内部语义知识,提高文本聚类质量,并在Python下实现了高斯LDA模型。
  第三,利用基于统计学习方法高斯LDA模型,结合文本相关主题词及主题的概率分布情况,以及词向量模型,提出了一种基于词向量语义相似度的聚类结果评价方法。
  中英文语料上的试验结果对比分析显示,本文方法相对于传统的LDA以及传统的高斯LDA模型,聚类有效性有了一定的提升,且基于主题词对主题的描述较为清晰,从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号