主动半监督高斯混合模型聚类算法的研究与应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

伴随着社会各个领域数据量的激增，人类迫切需要通过一些技术手段从大量的未知数据中挖掘出隐藏在其中的有用信息。其中，聚类是一种高效的数据分析技术，能够将大量的未标记数据聚成若干类，为进一步的数据挖掘提供了良好的基础。高斯混合模型（Gaussian Mixture Model，GMM）是基于模型聚类中最典型、最常用的代表，在很多领域中得到了重要应用。但是，传统的GMM无法利用已经存在的少量已标记数据，而半监督学习能够利用这些已标记数据提升聚类性能，因此半监督高斯混合模型（Semi-supervised GMM，SGMM）具有更强的科研和实际应用价值。　　基于样本标记的SGMM能够利用少量已标记样本使算法对大量无标记样本进行有偏聚类，使聚类结果满足一定的约束条件，并有效提高基于模型参数估计的准确率。但是，当数据集存在类不均衡或类间重叠度大时，SGMM的收敛速度和准确率会严重下降。对此，将逆模拟退火与SGMM的EM算法相结合，提出一种基于逆模拟退火的半监督高斯混合模型（Anti-annealing SGMM，ASGMM）。ASGMM的逆温度参数从一个较小且大于0的值缓慢上升至大于1的值，再逐渐降低至1，其EM算法在每个逆温度参数下均迭代至收敛。在人工数据和UCI数据上表明ASGMM的聚类性能优于SGMM。　　虽然ASGMM能够通过逆模拟退火来改善EM算法易陷于局部最优的缺陷，提高了算法针对类不均衡或类间重叠大的数据集的准确率，但其仍然严重依赖模型初始参数的优劣，并且不能直接针对网络数据进行聚类。对此，将主动学习和表示学习与ASGMM相结合，提出一种基于表示学习的主动半监督高斯混合模型（Active learning ASGMM，AASGMM）。AASGMM首先通过主动学习算法从未标记节点集合中选取一批价值含量高的节点并标记，用于扩充已标记节点集合。然后，利用表示学习将节点内容信息和链接信息融合成节点表示向量。最后，将节点表示向量和部分标记作为ASGMM的输入进行聚类。在人工网络和真实网络上的实验结果表明AASGMM的聚类性能优于ASGMM。为了进一步测试AASGMM算法的有效性，将AASGMM应用在CSDN的用户画像中，分别针对博客文档和CSDN用户进行聚类，聚类结果表明AASGMM具有较好的实际应用价值。

著录项

作者
王垚;
展开▼
作者单位

河北地质大学;

展开▼
授予单位河北地质大学;
学科计算机软件与理论
授予学位硕士
导师姓名李文斌;
年度 2018
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
数据挖掘,聚类算法,主动半监督高斯混合模型,表示学习;

相似文献

中文文献
外文文献
专利

1. 一种基于逆模拟退火和高斯混合模型的半监督聚类算法 [J] . 王垚 ,柴变芳 ,李文斌 . 南京师大学报（自然科学版） . 2017,第003期
2. 基于主动学习的半监督谱聚类算法研究 [J] . 刘晓丽 ,牟意红 . 甘肃高师学报 . 2021,第002期
3. 一种主动半监督K-means聚类算法的改进策略 [J] . 吕峰 ,柴变芳 ,李文斌 . 南京师范大学学报（工程技术版） . 2018,第002期
4. 基于主动学习先验的半监督K-means聚类算法 [J] . 柴变芳 ,吕峰 ,李文斌 . 计算机应用 . 2018,第011期
5. 一种基于Seeds集和成对约束的主动半监督聚类算法 [J] . 陈志雨 ,王慧君 ,胡明 . 吉林大学学报（理学版） . 2017,第003期
6. 基于高斯混合模型的层次聚类算法 [C] . 瞿俊 ,姜青山 ,Wang Shengrui . 第二十三届中国数据库学术会议（NDBC2006） . 2006
7. 主动半监督K-means聚类算法研究及应用 [A] . 吕峰 . 2018

主动半监督高斯混合模型聚类算法的研究与应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅