首页> 中文学位 >聚类式最小角回归与聚类式坐标下降仿真及实例分析
【6h】

聚类式最小角回归与聚类式坐标下降仿真及实例分析

代理获取

目录

声明

摘要

第一章 引言

§1.1 研究背景及意义

§1.2 模型选择问题

§1.3 本文的结构与创新

第二章 规范化与模型选择

§2.1 偏倚与误差的两难选择

§2.2 AIC、BIC准则与Lasso

§2.3 交叉验证

§2.4 特征选择

§2.5 贝叶斯统计与规范化

第三章 聚类分析算法

§3.1 聚类分析简介

§3.2 K均值方法

§3.3 高斯混合模型

§3.4 因子分析法

§3.5 最大熵解释

第四章 聚类式算法的实现

§4.1 聚类式最小角回归

4.1.1 算法更新

4.1.2 仿真模拟

§4.2 聚类式坐标下降法

4.2.1 算法更新

4.2.2 仿真模拟

§4.3 实例分析

4.3.1 花萼长度预测

4.3.2 多指标预测300城市人口健康状况

第五章 总结与展望

参考文献

致谢

展开▼

摘要

随着人工智能的兴起,机器学习作为人工智能的核心被更多的人熟知。机器学习本质上分为有监督学习问题和无监督学习问题。有监督学习问题中,数据本身具备类别标签,学习问题的目标是完成分类或回归。有监督学习过程中,变量的输入和输出是能够被充分观察到的。而无监督学习问题中,数据本身没有类别标签,学习问题的目标是完成聚类。无监督学习过程中,聚类结果可以不代表明确类别含义。
  而模型选择作为机器学习中的重要一环,是帮助分析数据有效性、探求变量间相关关系以及试洽实际案例的有力工具。传统的模型选择方法往往假定了源数据是独立同分布的,这使得目前模型选择问题的研究,主要针对有限维特征的情况。可是,大规模数据的案例中,源数据来自不同的数据生成过程,已经是不争的公判。这使得数据异质性问题成为模型选择乃至机器学习中不可忽视的问题。
  在许多实际问题中,数据异质性具体体现为:(1)数据明确属于不同的来源(如本文4.3.1小节中的花卉数据),但可能我们不知道具体的分类。(2)我们明确知晓存在不同的分类(例如本文4.3.2中300个城市的各项指标),但不同城市之间又存在特征(城市大小,发展程度等)的相似性,因此实际中不可能分成300个类别去处理数据。此时,将源数据划分为多少个类别才合适,就变成一个重要的问题。
  为了解决数据异质性对模型选择带来的糟糕影响,本文提出一类聚类式算法解决这一问题:用分层模型实现对源数据的聚类,在每一层内部独立完成有监督学习,并计算每一种聚类结果对应的学习过程的BIC分数,选择BIC得分最小的那一层做为数据生成过程的个数。
  聚类式算法,本质上对有监督学习问题求解算法的改进。传统模型选择对于源数据独立同分布的假设,可以看做,将源数据的数据生成过程个数假设为n=1。聚类式算法,将数据生成过程的个数n推广到任意正整数。而数据生成过程的数量,由算法外层的聚类分析完成。
  基于上述想法,再考虑到高斯分布的广泛性、Lasso回归的优良特征,本文重点研究了聚类式最小角回归与聚类式坐标下降两个算法,通过Python随机数据对新算法进行了仿真模拟,通过Matlab数据集对新算法进行了实例分析。从仿真结果发现,两个聚类式算法的仿真模拟结果一致,并且明显比原估计稳定。从实例分析结果看,聚类式算法的BIC分数较为理想,说明预测结果较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号