Эмпирическая функция распределения, гистограмма

Поскольку неизвестное распределение $\mathscr F$ можно описать, например, его функцией распределения $F(y)={\mathsf P}\,(X_1<y)$ , построим по выборке «оценку» для этой функции.

Определение 1.

Эмпирической функцией распределения, построенной по выборке ${\mathbf X}=(X_1, \ldots, X_n)$ объема , называется случайная функция $F^*_n:{\textrm{\upshape I\kern-0.20em R}}\times\Omega\to [0,1]$ , при каждом $y\in{\textrm{\upshape I\kern-0.20em R}}$ равная

$\begin{displaymath} F^*_n(y)=\dfrac{\textrm{ количество } X_i\in(-\infty,y)}{n} =\frac{1}{n}\sum\limits_{i=1}^n {\mathbf I}(X_i<y).\end{displaymath}$

Напоминание: Случайная функция

$\begin{displaymath} {\mathbf I}(X_i<y)=\begin{cases} 1, & \textrm{ если } X_i<y, \cr 0 & \textrm{ иначе } \end{cases}\end{displaymath}$

называется индикатором события $\{X_i<y\}$ . При каждом это — случайная величина, имеющая распределение Бернулли с параметром $p={\mathsf P}\,(X_i<y)=F(y)$ . почему?

Иначе говоря, при любом

значение

, равное истинной вероятности случайной величине

быть меньше

, оценивается долей элементов выборки, меньших

Если элементы выборки

, $\ldots$ ,

упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом:

$\begin{displaymath} X_{(1)}\leqslant X_{(2)} \leqslant \ldots \leqslant X_{(n-1)}\leqslant X_{(n)}.\end{displaymath}$

$\begin{displaymath} X_{(1)}=\min\{X_1, \ldots, X_n\}, \quad X_{(n)}=\max\{X_1, \ldots, X_n\}.\end{displaymath}$

Элемент $X_{(k)}$ , $k=1,\ldots,n$ , называется

-м членом вариационного ряда или

-й порядковой статистикой .

Пример 1.

Выборка: ${\mathbf X}= (0;2;1;2{,}6;3{,}1;4{,}6;1;4{,}6;6;2{,}6;6;7;9;\ 9;2{,}6).$
Вариационный ряд: $(0;1;1;2;2{,}6;2{,}6;2{,}6;3{,}1;4{,}6;4{,}6;6;\ 6;7;9;9).$

**Рис. 1.** Пример 1
$\begin{figure} \unitlength=1mm \begin{picture} (67.00,44.00) \put(70.00,2.00){\m... ...(55.00,33.00){\rule{0.005\unitlength}{1.00\unitlength}}\end{picture}\end{figure}$

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где — количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

$\begin{displaymath} F_n^*(y)=\begin{cases} 0, & \textrm{ если } y\leqslant X_{(1... ...nt X_{(k+1)}, \cr 1 & \textrm{ при } y\gt X_{(n)}. \end{cases}\end{displaymath}$

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма.

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины $\xi$ (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть

, $\ldots$ ,

— интервалы на прямой, называемые интервалами группировки. Обозначим для $j=1,\,\ldots,\,k$ через $\nu_j$ число элементов выборки, попавших в интервал

$\begin{equation} \nu_j=\{\textrm{\,число } X_i \in A_j\}=\sum\limits_{i=1}^n {\m... ...A_j), \quad \textrm{ здесь } \quad \sum\limits_{j=1}^k \nu_j = n.\end{equation}$

(1)

На каждом из интервалов

строят прямоугольник, площадь которого пропорциональна $\nu_j$ . Общая площадь всех прямоугольников должна равняться единице. Пусть

— длина интервала

. Высота

прямоугольника над

равна

Полученная фигура называется гистограммой.

Пример 2.

Имеется вариационный ряд (см. пример 1):

$\begin{displaymath} (0;1;1;2;2{,}6;2{,}6;2{,}6;3{,}1;4{,}6;\ 4{,}6;6;6;7;9;9).\end{displaymath}$

Разобьем отрезок на 4 равных отрезка. В отрезок $A_1=[0; 2{,}5)$ попали 4 элемента выборки, в $A_2=[2{,}5; 5)$ — 6, в $A_3=[5; 7{,}5)$ — 3, и в отрезок $A_4=[7{,}5; 10]$ попали 2 элемента выборки. Строим гистограмму (рис. 2). На рис. 3 — тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

Рис. 2. Пример 2 Рис. 3. Пример 2

$\begin{figure} \unitlength=0.9mm \begin{picture} (63.00,35.00) \put(62.,2.00){\m... ...cc]{\scriptsize 0.1}} \put(0.00,5.00){\vector(1,0){63}}\end{picture}\end{figure}$

Замечание 1.

В курсе «Эконометрика» утверждается, что наилучшим числом интервалов группировки («формула Стерджесса») является $k = k(n) = 1+\left[3.322 {\rm ~lg~} n\right]$ .

Здесь ${\rm ~lg~} n$ — десятичный логарифм, поэтому $k = 1+ \left[\log_2 10 \log_{10} n\right] = 1+ \left[\log_2 n\right]$ , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при $k(n)\to\infty$ так, что $k(n)/n\to 0$ , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Рис. 2. Пример 2		Рис. 3. Пример 2
$\begin{figure} \unitlength=0.9mm \begin{picture} (63.00,35.00) \put(62.,2.00){\m... ...cc]{\scriptsize 0.1}} \put(0.00,5.00){\vector(1,0){63}}\end{picture}\end{figure}$

1.3. Эмпирическая функция распределения, гистограмма