OPTYMALNY PODZIAŁ ROZKŁADU EMPIRYCZNEGO (I KILKA PROBLEMÓW Z TYM ZWIĄZANYCH)

JAN W. OWSIŃSKI

摘要

Praca zajmuje się podziałem empirycznego rozkładu wielkości x,-, gdzie i jest indeksem jednostki, dla której obserwujemy tę wielkość (np. x_i to PKB na mieszkańca w kraju i-tym). Wartości x, uporządkowano niemalejąco. Analizujemy dystrybuantę rozkładu, tj. wartości z_i = ∑_(i'=1,...,i)x_i, które tworzą ciąg wypukły. Chcemy otrzymać taki podział dystrybuanty na podzbiory, by przybliżyć kształt rozkładu {z,} z możliwie małym błędem przy pomocy odcinków linii prostej, odpowiadających podzbiorom, a zarazem - by tych odcinków byto możliwie mało. Odpowiada to kategoryzacji podobnych rozkładów (np. kraje „rozwinięte", „rozwijające się", ...), gdzie zwykle nie stosuje się metod statystycznych, tylko przesłanki „merytoryczne", bądź stosowanie metod statystycznych ogranicza się do ustalenia, np., kwantyli rozkładu, bez uwzględniania kształtu i innych przesłanek dla rozwiązania, optymalizującego wspomniane kryterium. Zaproponowano ogólną metodykę optymalizacji podziału takich rozkładów w duchu wspomnianego kryterium, funkcję celu i jej konkretną realizację, wraz z algorytmami. Na podstawie przykładów konkretnych rozkładów, zarysowano także problemy, wynikające z faktu, że rozkłady empiryczne mają często charakter, stawiający pod znakiem zapytania podstawy przyjętej metodyki i w ogóle sens podobnych zadań. Przeanalizowano możliwe pochodzenie tych rozkładów oraz skutki dla ewentualnej kategoryzacji. Zaproponowana metodyka daje podstawy do kategoryzacji empirycznych dystrybuant i narzędzie do oceny racjonalności sposobu ich otrzymywania.%We consider division of an empirical distribution of x_i, i being the index of a unit, for which we observe x_i (e.g., province i, for which x_i is the GDP per capita). Values x, are ordered non-decreasingly. We analyse the cumulative distribution, z_i = ∑_(i'=1,...,i)x_i. The sequence z_i is convex. We want to divide the distribution of z_i into subsets of i, with the shape of the distribution {z_i} possibly well approximated by the segments of the straight line, determined for the subsets, forming a piecewise linear contour, the number of segments being possibly small. This corresponds to the frequently used categorisations for similar distributions (e.g., "developed", "developing",... countries). For such categorisations, usually no formal methods are applied but "substantive" prerequisites, or the methods applied are limited to establishing quantiles of the distribution, without considering its shape and the objective premises for determination of a different number of segments, including optimisation of the criterion mentioned before. A general approach is proposed for optimising division of such distribution conform to the criterion mentioned. A general objective function is proposed and its concrete realisation, as well as algorithms. The methodology proposed allows for obtaining the optimum divisions into categories for arbitrary distributions. Yet, on the basis of concrete empirical distributions, problems are outlined, due to the fact that the distributions obtained often display the features, leading to questioning of the foundations of the methodology proposed, and of the very sense of such categorisations. Examples of distributions of this kind, and consequences for the potential categorisations, are discussed. In summary, the methodology proposed, including the criterion function, constitutes a basis for the categorisation with respect to the cumulative distribution, and a tool for evaluating the rationality of the way, in which the distributions are obtained.

机译：这项工作涉及大小x，-的经验分布的划分，其中和是我们观察到该大小的单位的索引（例如x_i是第i个国家的人均GDP）。 x值按不降序排列。我们分析了累积分布函数，即z_i = ∑_（i'= 1，...，i）x_i的值，它们形成一个凸串。我们希望将分布划分为子集，以便在与子集相对应的直线段的帮助下，以最小的可能误差近似分布{z，}的形状，同时将这些部分最小化。这对应于类似分布的分类（例如“发达”，“发展中国家”等），其中通常不使用统计方法，仅使用“实质性”前提，或者使用统计方法仅限于建立例如分位数在不考虑优化上述准则的解决方案的形状和其他前提的前提下，提出了一种根据上述准则，目标函数及其具体实现以及算法，对此类分布进行优化的一般方法，并基于特定分布的示例，说明了由经验分布通常具有以下性质：对采用的方法论的基础以及总体上类似任务的意义提出质疑，并分析了这些分布的可能来源以及对可能分类的影响。 a。％我们考虑对x_i的经验分布进行除法，i是我们观察到的x_i的单位指数（例如，省份i，x_i是人均GDP）。值x，以不降序排列。我们分析累积分布z_i = ∑_（i'= 1，...，i）x_i。序列z_i是凸的。我们希望将z_i的分布划分为i的子集，其中分布{z_i}的形状可能很好地近似于为子集确定的直线段，从而形成分段线性轮廓，段的数量可能是小。这对应于类似分布的常用分类（例如“发达”，“发展中”，...国家）。对于此类分类，通常不应用正式方法，而是“实质性”先决条件，或者所应用的方法仅限于确定分布的分位数，而无需考虑其形状和确定不同数量段的客观前提，包括优化段的数量。前面提到的标准。提出了一种通用方法来优化符合上述标准的这种分布的划分。提出了通用目标函数及其具体实现以及算法。所提出的方法允许获得针对任意分布的类别的最佳划分。然而，由于具体的经验分布会概述问题，这是由于以下事实：所获得的分布经常显示出特征，从而引起对所提出方法论基础的质疑，以及这种分类的意义。讨论了此类分布的示例以及对潜在分类的后果。总之，所提出的方法包括标准函数，主题，关于累积分布的分类基础，以及评估获得分布的方式合理性的工具。

OPTYMALNY PODZIAŁ ROZKŁADU EMPIRYCZNEGO (I KILKA PROBLEMÓW Z TYM ZWIĄZANYCH)

摘要

著录项

相似文献

相关主题

期刊订阅