高维分类数据的关联关系及可压缩性分析

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

通常情况下，统计学研究的数据类型可以根据测量的尺度分为定性数据和定量数据两种类型。所谓的定性数据是一组表示事物性质、规定事物类别的文字表述型数据，在统计学上的包括分类数据和顺序数据。对于定性数据中的分类数据，主要研究的内容及结论除了基于logistics模型的回归分析之外，更多的是变量与变量间的关联关系或相关关系，特别对于多维的情形，各变量间复杂的关系和关联结构是研究的重点，也是难点。
　　分类数据常见于社会科学各领域，特别是出现在各种调查问卷收集的结果，以及医学和心理学等方面的数据中。由于涉及的问题和因素众多，这些结果常常以高维列联表的形式呈现。对于高维列联表而言，直接作分析是很困难且很繁琐的，因此需要对其进行简化，这就需要研究变量之间的各种关系，包括是否独立？是否相关？是否既不独立也不相关？如果有关系，结构如何？是否可以用函数表示等等一系列问题。于是，从最基础的独立性检验问题出发展开讨论。用于独立性假设检验的卡方检验和似然比检验需要在大样本的数据容量下才能保证其参数的有效性和稳定性，而高维列联表必定会使每个单元格频数显著降低，解决这个问题可以有两个想法，一是收集更多的样本，增加每个单元格的数据容量，二是通过压缩变量增加单元格数量，即对原有的高维列联表进行压缩。对于第一个想法，关键是增加样本量，而当这些变量中有涉及到抽象的，现有数据集中不存在的变量时，就必须采取问卷调查的形式来获取相应数据，通常以这种消耗人力又耗时的方法得到的数据量是非常有限的。而第二个想法，自从Simpson于1951年提出辛普森悖论，对高维列联表的压缩成为了一个值得研究的问题，若对高维列联表压缩不当，就会出现虚假相关，虚假独立，辛普森悖论等问题。
　　本文主要针对上述两个想法和相应问题提出对应的解决方法，主要研究的内容包括以下几点:
　　(1)首先从三维列联表饱和对数线性模型出发，给出列联表可压缩性的相关定理，同时将该定理推导到高维列联表的情况，说明其结论同样适用于高维情形。该定理除了可以刻画变量间的关系外，在一定程度也解释了什么时候会发生“同质”现象，即两变量的发生比之比不会随着其他变量的取值不同而改变。
　　(2)在已有的关于三，四维分类数据的列联表的压缩性定理基础上，通过借助对数线性模型和关联图的关系重点研究高维列联表的关联关系和压缩性定理。相比已有结论，我们的方法一方面可以自然推广到五维及以上的高维情形，另一方面建立更直观的关联图的可压缩性定理，以关联图的形式分析哪些变量是可压缩的，哪些是不可压缩的，给人以更直观的形式呈现。
　　(3)在已有的三、四维列联表基于互信息的变量重要性排序的基础上，进一步研究基于条件互信息的变量可压缩性排序问题，研究表明，这两种排序结果是不一致的。其实除了本文提出的基于对数线性模型和关联图下的可压缩性定理，还有以其他标准来衡量一变量是否可压缩，如基于线性信息模型或信息熵下的压缩分析，但它们得出的答案可能会有差异，本文提出的可压缩性排序就像是一把衡量它们结果好坏的尺子。
　　(4)对于不易进行数据收集的分类变量，通常得到的样本是有限的。为了获取更多有效的样本，本文提出先用Bootstrap抽样法产生多份一定量的数据集，分别模拟它们的对数线性模型得到模型的各个参数的估计向量，并进行聚类得若干份各参数估计的向量，以提供模型预测的选择。实验结果表明即使各参数与真实模型的各个参数有差异，但这若干个参数估计向量对应的模型的概率分布与真实模型的概率分布的K-L距离都较小，即概率分布很接近，并且这若干个向量中，越靠近对应参数的置信区间，它与真实的概率分布的K-L距离越小。
　　探究分类变量间的关联关系及构建变量的模型是至关重要的，尤其对于分类数据中常见的高维列联表，或者是样本量不足的情况，既会增加分析的难度，也会使得变量间的关联关系和模型的不可信。本文就是以这种问题背景下，提出相应的压缩性定理，压缩性排序和利用Bootstrap抽样法增加样本的方法。

著录项

作者
徐玲丽;
展开▼
作者单位

浙江师范大学;

展开▼
授予单位浙江师范大学;
学科统计学
授予学位硕士
导师姓名陈雪东;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类统计资料的分析和整理;
关键词
统计学; 高维分类数据; 列联表; 关联关系; 可压缩性;

相似文献

中文文献
外文文献
专利

1. 高维分类数据的关联关系及可压缩性分析 [J] . 徐玲丽 ,陈雪东 . 应用数学与计算数学学报 . 2018,第004期
2. 比例优势boosting算法在高维有序多分类数据分析中的应用 [J] . 张圆圆 ,赵薇薇 ,侯艳 . 中国卫生统计 . 2018,第003期
3. 基于条件信息熵的超高维分类数据特征筛选 [J] . 程国胜 ,孙超男 ,宋凤丽 . 统计与决策 . 2018,第8期
4. 一种有效的高维分类数据聚类方法研究 [J] . 贾俊芳 ,李德玉 . 微电子学与计算机 . 2011,第6期
5. 分类数据主成分分析法在多选题分析中的应用 [J] . 张文彤 ,竺丽明 ,鲍培芬 . 中国公共卫生 . 2004,第1期
6. 考虑库水可压缩性的拉西瓦拱坝地震响应分析 [C] . 付杰 ,张建伟 ,王涛 . 纪念“汶川地震”10周年——高坝大库抗震安全国际学术研讨会 . 2018
7. 分类数据中高维列联表可压缩性研究 [A] . 孙红艳 . 2014

高维分类数据的关联关系及可压缩性分析

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅