next up previous index
Next:  Две простые гипотезы   Up:  Оглавление   Previous:  Вопросы и упражнения

7.   Проверка гипотез

Если возможно выдвинуть несколько взаимоисключающих «гипотез» о распределении элементов выборки, то возникает задача выбора одной из этих гипотез на основании выборочных данных. Как правило, по выборке конечного объема безошибочных выводов о распределении сделано быть не может, поэтому приходится считаться с возможностью выбрать неверную гипотезу.

Пусть дана выборка ${\mathbf X}=(X_1, \ldots, X_n)$ из распределения $\mathscr F$. Если не оговорено противное, считается, что все наблюдения имеют одно и то же распределение. В ряде случаев это предположение также нуждается в проверке (см., например, ниже: гипотеза об однородности или гипотеза о случайности) — в таких случаях одинаковая распределенность наблюдений не предполагается. То же касается и независимости наблюдений.

Определение 19.

Гипотезой ($H$) называется любое предположение о распределении наблюдений:

\begin{displaymath}
H=\bigl\{\mathscr F=\mathscr F_1\bigr\} \quad \textrm{~ или ...
 ...quad H=\bigl\{\,\mathscr F\in\{\,\hat{\mathscr F}\,\}\,\bigr\}.\end{displaymath}

Гипотеза $H$ называется простой, если она однозначно определяет распределение, т.е. $H=\bigl\{\mathscr F=\mathscr F_1\bigr\}$. Иначе $H$ называется сложной гипотезой. Сложная гипотеза предполагает, что распределение $\mathscr F$ — одно из некоторого множества распределений $\{\,\hat{\mathscr F}\,\}$.

  

Если гипотез всего две, то одну из них принято называть основной, а другую — альтернативой или отклонением от основной гипотезы.

Пример 27.   (типичные постановки задач).  

1.
Выбор из нескольких простых гипотез: $H_1{=}\bigl\{\mathscr F=\mathscr F_1\bigr\}$, $\ldots$, $H_k{=}\bigl\{\mathscr F=\mathscr F_k\bigr\}$ (и другие предположения невозможны).
2.
Простая основная гипотеза и сложная альтернатива: $H_1{=}\bigl\{\mathscr F=\mathscr F_1\bigr\}$, $H_2{=}\bigl\{\mathscr F\ne\mathscr F_1\bigr\}$.

Например, $H_1{=}\bigl\{\mathscr F={\mathsf U}_{0,1}\bigr\}$, $H_2{=}\bigl\{\mathscr F\ne {\mathsf U}_{0,1}\bigr\}$.

Еще вариант: дана выборка из семейства распределений ${\mathsf B}_p$, где $0<p\leqslant 1/2$. Простая гипотеза $H_1{=}\bigl\{p=1/2\bigr\}$. Сложная односторонняя альтернатива $H_2{=}\bigl\{p<1/2\bigr\}$. Случай $p\gt 1/2$ исключен априори.

3.
Сложная основная гипотеза и сложная альтернатива: , .

Например, гипотеза о нормальности $H_1{=}\bigl\{\mathscr F\in \{\,{\mathsf N}_{a,\sigma^2}, a\in{\textrm{\upshape I\kern-0.20em R}}, \sigma\gt\,\}\bigr\}$, $H_2{=}\bigl\{H_1 \textrm{ неверна}\bigr\}$.

4.
Гипотеза однородности. Заданы несколько выборок:

$(X_{1 1}, \ldots, X_{1 n_1})$ из распределения $\mathscr F_1$, $\ldots$, $(X_{k 1}, \ldots, X_{k n_k})$ из распределения $ \mathscr F_k$. Проверяется гипотеза $H_1{=}\bigl\{\mathscr F_1 = \ldots =\mathscr F_k\bigr\}$ — сложная гипотеза — против (сложной) альтернативы $H_2{=}\bigl\{H_1 \textrm{ неверна}\bigr\}$.

5.
Гипотеза независимости. Наблюдается пара случайных величин $(\xi,\eta)$.

По выборке $\bigl((X_1,Y_1), \ldots, (X_n,Y_n)\bigr)$ из $n$ независимых наблюдений над парой $(\xi,\eta)$ проверяется гипотеза $H_1{=}\bigl\{\xi \textrm{ и } \eta \textrm{ независимы}\bigr\}$ — сложная гипотеза — против (сложной) альтернативы $H_2{=}\bigl\{H_1 \textrm{ неверна}\bigr\}$.

6.
Гипотеза случайности. В эксперименте наблюдаются $n$ случайных величин $(\xi_1, \ldots, \xi_n)$. По выборке $X_1$,  $\ldots$,  $X_n$, в которой каждая случайная величина представлена одним значением, проверяется гипотеза $H_1{=}\bigl\{\xi_1,\ldots,\xi_n \textrm{ независимы и одинаково распределены}\bigr\}$ — сложная гипотеза — против (сложной) альтернативы $H_2{=}\bigl\{H_1 \textrm{ неверна}\bigr\}$.

Эту задачу ставят, например, если требуется проверить качество датчика случайных чисел.

Определение 20.

Если имеются гипотезы $H_1$, $\ldots$, $H_k$, то критерием (нерандомизированным критерием) $\delta=\delta(X_1,\ldots,X_n)$ называется отображение

\begin{displaymath}
\delta: {\textrm{\upshape I\kern-0.20em R}}^n \to \{H_1,\ldots,H_k\}.\end{displaymath}

О рандомизированных критериях, которые предписывают принимать каждую гипотезу с некоторой (зависящей от выборки) вероятностью, мы поговорим позднее.

Определение 21.

Для заданного критерия $\delta: {\textrm{\upshape I\kern-0.20em R}}^n \to \{H_1,\ldots,H_k\}$ будем говорить, что произошла ошибка $i$-го рода, если гипотеза $H_i$ отвергнута критерием, в то время как она верна. Вероятностью ошибки $i$-го рода критерия $\delta$ называется

\begin{displaymath}
\alpha_i(\delta)={\mathsf P}\,{\!}_{H_i}(\delta({\mathbf X})\neq H_i).\end{displaymath}

Замечание 16.

Говоря «$H_i$ верна» и вычисляя ${\mathsf P}\,{\!}_{H_i}(\pmb \cdot)$, мы имеем в виду, что распределение выборки именно такое, как предполагает гипотеза $H_i$, и вычисляем вероятность в соответствии с этим распределением. Если гипотеза $H_i$ простая, т.е. указывает ровно на одно возможное распределение выборки, то $\alpha_i(\delta)$ — число. Если же $H_i$ — сложная гипотеза, то $\alpha_i(\delta)$ будет зависеть от того, при каком именно из распределений $\mathscr F_i$, отвечающих $H_i$, вычисляется вероятность:

\begin{displaymath}
\alpha_i(\delta) =\alpha_i(\delta,\mathscr F_i)=
{\mathsf P}\,{\!}_{\mathscr F_i}(\delta({\mathbf X})\neq H_i)\end{displaymath}

Пример 28.   (контроль качества и ошибки).  

Пусть любое изделие некоторого производства оказывается браком с вероятностью $p$. Контроль продукции допускает ошибки: годное изделие бракует с вероятностью $\gamma$, а бракованное пропускает (признает годным) с вероятностью $\varepsilon$.

Если ввести для наудачу взятого изделия две гипотезы: $H_1=\bigl\{\textrm{изделие годное}\bigr\}$ и $H_2=\bigl\{\textrm{изделие бракованное}\bigr\}$, и критерием выбора считать контроль продукции, то $\gamma$ есть вероятность ошибки первого рода, а $\varepsilon$ — вероятность ошибки второго рода данного критерия:

\begin{displaymath}
\gamma={\mathsf P}\,{\!}_{H_1}(\delta=H_2)={\mathsf P}\,{\!}_{\textrm{изделие годное}}(\textrm{контроль забраковал изделие});\end{displaymath}

\begin{displaymath}
\varepsilon={\mathsf P}\,{\!}_{H_2}(\delta=H_1)={\mathsf P}\...
 ...trm{изделие бракованное}}(\textrm{контроль пропустил изделие});\end{displaymath}

Упражнение.    Вычислить вероятности ошибок первого и второго рода того же критерия, если гипотезы занумеровать иначе: $H_1=\bigl\{\textrm{изделие бракованное}\bigr\}$ и $H_2=\bigl\{\textrm{изделие годное}\bigr\}$.


Надеемся, что читатель сделал для себя следующие выводы:

1.
Статистический критерий не отвечает на вопрос, верна или нет проверяемая гипотеза. Он лишь решает, противоречат или не противоречат выдвинутой гипотезе выборочные данные, можно ли принять или следует отвергнуть данную гипотезу.
2.
Если есть одна основная гипотеза, а все остальное — нежелательные отклонения от нее, то вывод «данные противоречат гипотезе» всегда весомее, нежели вывод «данные не противоречат гипотезе».

3.
Нам неизвестно, какая из гипотез верна в действительности, поэтому следует считаться с гипотетическими вероятностями ошибок критерия. Если много раз применять критерий к выборкам из распределения, для которого гипотеза $H_i$ верна, то примерно доля $\alpha_i$ таких выборок будет признана противоречащей гипотезе $H_i$.




N.I.Chernova
9 сентября 2002