基于统计学习方法的高斯LDA模型的文本聚类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

科学技术的发展日新月异，人们与互联网的联系越来越紧密，随着智能设备的普及，人们在使用智能设备的过程中不断产生大量的文本数据，如何从这些文本数据中汲取我们所需的信息，是当前文本信息挖掘的热点，而文本聚类是文本挖掘信息领域的研究重点，而文本标记的关键基础又是文本聚类，与此同时,文本聚类技术又是自然语言处理技术的最基础技术,在文本聚类领域,困难主要可以概括为以下三点：第一，聚类的结果与客观使用需求的匹配；第二，聚类的结果的描述问题；第三，文本聚类结果的有效性评估问题。本文综合讨论以上三点，提出了基于统计学习方法的高斯LDA主题模型的文本聚类方法。
　　本文主要在以下三个方面进行了相关工作：
　　第一，针对国内外相关研究进行了详细的对比研究和综述，并指出现阶段研究的优势及不足。
　　第二，将词向量模型以文本扩展的形式引入，对LDA模型的先验信息进行改进，引入高斯LDA模型，将潜在主题特征知识融入词向量空间，深层次挖掘出文本内部语义知识，提高文本聚类质量，并在Python下实现了高斯LDA模型。
　　第三，利用基于统计学习方法高斯LDA模型，结合文本相关主题词及主题的概率分布情况，以及词向量模型，提出了一种基于词向量语义相似度的聚类结果评价方法。
　　中英文语料上的试验结果对比分析显示，本文方法相对于传统的LDA以及传统的高斯LDA模型，聚类有效性有了一定的提升，且基于主题词对主题的描述较为清晰，从而验证了基于统计方法的改良高斯LDA模型的文本聚类方法的有效性。

著录项

作者
王宇;
展开▼
作者单位

华侨大学;

展开▼
授予单位华侨大学;
学科统计学
授予学位硕士
导师姓名黄大柯;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
文本聚类; 统计学习; 语义相似度; 词向量空间; 高斯LDA模型;

相似文献

中文文献
外文文献
专利

1. 基于LDA模型和文本聚类的水族文献主题挖掘研究 [J] . 杨秀璋 . 现代计算机（专业版） . 2019,第005期
2. 基于VSM和LDA混合模型的文本聚类研究 [J] . 刘晓蒙 ,熊海涛 . 电脑知识与技术 . 2018,第001期
3. 基于LDA模型的文本聚类检索 [J] . 李霄野 ,李春生 ,李龙 . 计算机与现代化 . 2018,第006期
4. 一种基于加权LDA模型的文本聚类方法 [J] . 李国 ,张春杰 ,张志远 . 中国民航大学学报 . 2016,第002期
5. 基于LDA改进的K-means算法在短文本聚类中的研究 [J] . 冯靖 ,莫秀良 ,王春东 . 天津理工大学学报 . 2018,第003期
6. 基于LDA模型的文本聚类研究 [C] . Dong Jing-ling ,董婧灵 ,Li Fang . 第十一届全国计算语言学学术会议 . 2011
7. 基于LDA主题模型的文本聚类研究 [A] . 王惠 . 2018

基于统计学习方法的高斯LDA模型的文本聚类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅