Пусть даны две независимые выборки X=(X1,...,Xm)
и Y=(Y1,...,Yn) из неизвестных распределений F и
G
соответственно. Проверяется гипотеза H1={F=G} при альтернативе
H2={H1 неверна}. Критерий Колмогорова-Смирнова
используется, если F и G имеют непрерывные функции распределения.
Пусть Fm*(y) и Gn*(y) - эмпирические функции
распределения, построенные по выборкам X и Y,
r(X,Y)=
Ц
mn/(m+n)
Dm,n,
величину Dm,n=supy|Fm*(y)-Gn*(y)| - будем называть статистикой Колмогорова-Смирнова.
Если верна основная гипотеза, то r(X,Y) - слабо сходится при m,n®Ґ к случайной величине,
имеющей распределение Колмогорова, поэтому (асимптотический) достигаемый уровень значимости критерия мы будем вычислять по формуле
1-K(r(X(w0),Y(w0))),
где K(·) - функция распределения Колмогорова, а X(w0), Y(w0) - реализации выборок X и Y.
На практике значение статистики Dm,n можно вычислять следующим образом.
Выборки X и Y объединяются в
одну общую выборку (X1,...,Xm,Y1,...,Yn)
объема n = n+m, которую затем упорядочивают
по возрастанию.
По упорядоченной выборке (Z1,...,Zn+m) формируют
последовательность нулей и единиц: di=1, если Zi - элемент
второй выборки; di=0, если Zi - элемент первой выборки. После этого вычисляют
Dm,n+=
max
1 Ј i Ј n
(
i е
k=1
(n-ndk)/(n*m)).
Далее формируют новую последовательность из нулей и единиц: diў=1, если Zi - элемент
первой выборки; di=0, если Zi - элемент второй выборки. После этого вычисляют
Исследуемые выборки помещаются в текстовые поля (это можно сделать,
набрав соответствующие значения вручную либо скопировав, скажем из Excel), затем остается
нажать кнопку "Вычислить", после чего в текстовых полях "Значение статистики Колмогорова-Смирнова" и
"Достигаемый уровень значимости" появится соответствующие значения.
Отметим, что в качестве десятичного разделителя в числах можно использовать и точку, и запятую. Особо обратим внимание! В качестве разделителя между отдельными числами ни в коем
случае не следует использовать точку и запятую, так как эти знаки используются в качестве десятичного разделителя. Отделить
одно число от другого можно используя "пробел" или "ввод". Скажем, такой ввод в текстовое поле верен:
0,23 0,56 0.98
0,98 1,56 9,9 7.908
Соответственно будут обрабатываться семь значений: 0.23 0.56 0.98 1.56 9.9 7.908.