基于隐含主题的文本谱聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本聚类能对无标签的文本数据在没有任何先验知识的情况下进行自动分类，是一种无监督的方法。谱聚类算法（Spectral Clustering，SC）通常被认为是一种较为高效的算法，它以谱图理论作为基础，将数据集映射成为无向带权图，将对数据类别的划分转化为对图的划分问题。与常见的K-means等算法相比，谱聚类算法能够在不同的样本空间上进行聚类处理，并且能够收敛到最优解。它能够将比较复杂的聚类处理问题转化成相对较为简单的代数求解问题。谱聚类算法也存在一些不足之处，最常见的就是相似度矩阵的构造问题和需要提前确定聚类数目的问题。谱聚类算法的效果很大程度上取决于相似度矩阵。传统计算文本相似度的方法是利用向量空间模型的特征词向量进行计算。向量空间模型具有高维稀疏以及缺乏语义信息等缺点。针对文本相似度计算问题，本文通过在传统词向量模型的基础上引入LDA（Latent Dirichlet Allocation）模型的隐含主题信息，对特征词和隐含主题的相似度进行加权来计算文本的相似度。然后利用词性和权值大小挑选出更能体现文本信息的特征词，对特征词进行了缩减。针对谱聚类算法需要提前确定聚类数目的问题，本文在经典谱聚类算法NJW算法的基础上，利用本征间隙法原理求解拉普拉斯矩阵的各个特征值之间的差值来获得文本聚类的数目。由此本文提出了基于主题特征加权的自适应谱聚类算法（Adaptive Feature Weighting–NJW , AFW-NJW）。该算法充分利用词项特征和主题特征计算文本相似度。由于LDA模型需要人工确定主题数目，本文利用主题之间平均相似度性质来确定最佳的主题个数。通过实验，本文验证了LDA模型自动确定主题个数以及AFW-NJW自动确定聚类数目的有效性，确定了在进行文本相似度计算时隐含主题特征的权值大小。并对提出的AFW-NJW算法与传统的K-means算法以及NJW算法进行了对比实验，结果表明AFW-NJW算法比K-means算法和NJW算法NMI值有明显提升。

著录项

作者
邱先标;
展开▼
作者单位

贵州大学;

展开▼
授予单位贵州大学;
学科计算机科学与技术
授予学位硕士
导师姓名陈笑蓉;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类图书馆学、图书馆事业;计算技术、计算机技术;
关键词
隐含主题; 文本; 谱聚类;

相似文献

中文文献
外文文献
专利

1. 基于稀疏子空间聚类的文本谱聚类算法研究 [J] . 原虹 . 电子技术与软件工程 . 2020,第013期
2. 基于自然标注信息和隐含主题模型的无监督文本特征抽取 [J] . 饶高琦 ,于东 ,荀恩东 . 中文信息学报 . 2015,第006期
3. 基于主题和特征的文本相似度算法研究 [J] . 药珍妮 . 软件 . 2016,第010期
4. 基于主题词的文本案例检索算法研究 [J] . 孙镇1 ,袁辉2 ,孙泰2 . 计算机科学与应用 . 2013,第008期
5. 基于句子相似度的文本主题句提取算法研究 [J] . 孔胜 ,王宇 . 情报学报 . 2011,第006期
6. 基于隐含主题协同注意力网络的领域分类方法 [C] . HUANG Peisong ,黄培松 ,HUANG Peijie . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于谱聚类的慢性肝病超声检查报告文本挖掘算法研究 [A] . 陈晓菲 . 2018

基于隐含主题的文本谱聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅