首页> 中文学位 >主动半监督高斯混合模型聚类算法的研究与应用
【6h】

主动半监督高斯混合模型聚类算法的研究与应用

代理获取

目录

声明

第一章 绪论

1.1 课题来源与意义

1.2 国内外研究现状

1.2.1 半监督高斯混合模型研究现状

1.2.2 主动学习研究现状

1.3 本文主要研究内容与组织结构

1.3.1 本文主要研究内容

1.3.2 本文组织结构

第二章 半监督学习与主动半监督学习

2.1 半监督学习

2.1.1 半监督高斯混合模型

2.1.2 实际应用现状

2.2 主动半监督学习

2.2.1 主动半监督高斯混合模型

2.2.2 实际应用现状

2.3 本章小结

第三章 基于逆模拟退火的半监督高斯混合模型(ASGMM)

3.1 研究动机

3.2 ASGMM算法设计

3.3 ASGMM实验结果与分析

3.3.1 实验设计

3.3.2 人工数据集上的实验结果及分析

3.3.3 UCI数据集上的实验结果及分析

3.4 本章小结

第四章 基于表示学习的主动半监督高斯混合模型(AASGMM)

4.1 研究动机

4.2 AASGMM算法设计

4.3 AASGMM实验结果与分析

4.3.1 实验设计

4.3.2 人工网络上的实验结果及分析

4.3.3 真实网络上的实验结果及分析

4.4 本章小结

第五章 AASGMM的应用

5.1 CSDN用户画像简介

5.2 CSDN用户数据简介

5.3 基于AASGMM的CSDN博客聚类

5.3.1 方法设计

5.3.2 实验设计及结果分析

5.4 基于AASGMM的CSDN用户画像

5.4.1 方法设计

5.4.2 实验设计及结果分析

5.5 本章小结

总结与展望

参考文献

攻读硕士学位期间发表的论文和科研成果

作者简介

致谢

展开▼

摘要

伴随着社会各个领域数据量的激增,人类迫切需要通过一些技术手段从大量的未知数据中挖掘出隐藏在其中的有用信息。其中,聚类是一种高效的数据分析技术,能够将大量的未标记数据聚成若干类,为进一步的数据挖掘提供了良好的基础。高斯混合模型(Gaussian Mixture Model,GMM)是基于模型聚类中最典型、最常用的代表,在很多领域中得到了重要应用。但是,传统的GMM无法利用已经存在的少量已标记数据,而半监督学习能够利用这些已标记数据提升聚类性能,因此半监督高斯混合模型(Semi-supervised GMM,SGMM)具有更强的科研和实际应用价值。  基于样本标记的SGMM能够利用少量已标记样本使算法对大量无标记样本进行有偏聚类,使聚类结果满足一定的约束条件,并有效提高基于模型参数估计的准确率。但是,当数据集存在类不均衡或类间重叠度大时,SGMM的收敛速度和准确率会严重下降。对此,将逆模拟退火与SGMM的EM算法相结合,提出一种基于逆模拟退火的半监督高斯混合模型(Anti-annealing SGMM,ASGMM)。ASGMM的逆温度参数从一个较小且大于0的值缓慢上升至大于1的值,再逐渐降低至1,其EM算法在每个逆温度参数下均迭代至收敛。在人工数据和UCI数据上表明ASGMM的聚类性能优于SGMM。  虽然ASGMM能够通过逆模拟退火来改善EM算法易陷于局部最优的缺陷,提高了算法针对类不均衡或类间重叠大的数据集的准确率,但其仍然严重依赖模型初始参数的优劣,并且不能直接针对网络数据进行聚类。对此,将主动学习和表示学习与ASGMM相结合,提出一种基于表示学习的主动半监督高斯混合模型(Active learning ASGMM,AASGMM)。AASGMM首先通过主动学习算法从未标记节点集合中选取一批价值含量高的节点并标记,用于扩充已标记节点集合。然后,利用表示学习将节点内容信息和链接信息融合成节点表示向量。最后,将节点表示向量和部分标记作为ASGMM的输入进行聚类。在人工网络和真实网络上的实验结果表明AASGMM的聚类性能优于ASGMM。为了进一步测试AASGMM算法的有效性,将AASGMM应用在CSDN的用户画像中,分别针对博客文档和CSDN用户进行聚类,聚类结果表明AASGMM具有较好的实际应用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号