Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона?

Установлено, что двухвыборочный критерий Вилкоксона (Манна-Уитни) предназначен для проверки гипотезы H0: P (X < Y) = ½, где X — случайная величина, распределенная как элементы первой выборки, а Y — второй. Разобраны три примера.

В прикладной математической статистике часто рассматривают вероятностную модель двух независимых выборок числовых результатов наблюдений. Первая выборка описывается набором m случайных величин X1, X2, …, Xm, имеющих одну и ту же функцию распределения F (x), а вторая выборка — набором n случайных величин Y1, Y2, …, Yn, имеющих одну и ту же функцию распределения G (x), причем все эти m+n случайных величин X1, X2, …, Xm, Y1, Y2, …, Yn независимы в совокупности. Без ограничения общности можно считать, что m # n, в противном случае выборки можно поменять местами. Обычно предполагается, что функции F (x) и G (x) непрерывны и строго возрастают. Из непрерывности этих функций следует, что с вероятностью 1 все m+n результатов наблюдений различны. В реальных статистических данных иногда встречаются совпадения, но сам факт их наличия — свидетельство нарушений предпосылок только что описанной базовой математической модели.

Статистика S двухвыборочного критерия Вилкоксона определяется следующим образом. Все элементы объединенной выборки X1, X2, …, Xm, Y1, Y2, …, Yn упорядочиваются в порядке возрастания. Элементы первой выборки X1, X2, …, Xm занимают в общем вариационном ряду места с номерами R1, R2, …, Rm, другими словами, имеют ранги R1, R2, …, Rm. Тогда

S = R1 + R2 + … + Rm.

Статистика U Манна-Уитни определяется как число пар (Xi, Yj) таких, что Xi < Yj, среди всех mn пар, в которых первый элемент — из первой выборки, а второй — из второй. Как известно [1, с.160],

U = mn + m (m+1)/2 — S .

Поскольку S и U линейно связаны, то часто говорят о критерии Вилкоксона (Манна-Уитни). Не будем обсуждать здесь вопросы истории и терминологии, относящиеся к S и U.

Критерий Вилкоксона — один из самых известных инструментов непараметрической статистики (наряду со статистиками типа Колмогорова-Смирнова и коэффициентами ранговой корреляции). Свойствам этого критерия и таблицам его критических значений уделяется место во многих монографиях по математической и прикладной статистике (см., например, [1−3]).

Однако в литературе имеются и неточные утверждения относительно возможностей критерия Вилкоксона. Так, одни полагают, что с его помощью можно обнаружить различие между функциями распределения F (x) и G (x). По мнению других, этот критерий нацелен на проверку равенства медиан распределений, соответствующих выборкам. И то, и другое, строго говоря, неверно. Настоящая статья написана, чтобы внести ясность в рассматриваемый вопрос.

Ссылки на публикации с неточными и ошибочными утверждениями не приводим по нескольким причинам. Во-первых, таких публикаций слишком много. Во-вторых, некоторые из них после исключения ошибок представляют ценность для практически работающего статистика. В-третьих, зачем создавать рекламу плохим книгам. И т.п.

Введем некоторые обозначения. Пусть F-1(t) — функция, обратная к функции распределения F (x). Она определена на отрезке [0;1]. Положим L (t) = G (F-1(t)). Поскольку F (x) непрерывна и строго возрастает, то F-1(t) и L (t) обладают теми же свойствами. Важную роль в дальнейшем изложении будет играть величина a = P (X < Y). Как нетрудно показать,

a = P (X < Y) = .

Введем также

b2 = - (1 -a)2, g2 = - a2 .

Тогда математические ожидания и дисперсии статистик Вилкоксона и Манна-Уитни согласно [1, с.160] выражаются через введенные величины:

E (U) = mna, E (S) = mn + m (m+1)/2 — E (U) = mn (1- a) + m (m+1)/2,

D (S) = D (U) = mn [ (n — 1) b2 + (m — 1) g2 + a (1 -a) ]. (1)

Когда объемы обеих выборок безгранично растут, распределения статистик Вилкоксона и Манна-Уитни являются асимптотически нормальными (см., например, [1, гл. 5 и 6]) с параметрами, задаваемыми формулами (1).

Если выборки полностью однородны, т. е. их функции распределения совпадают, справедлива гипотеза

H0: F (x) = G (x) при всех x, (2)

то L (t) = t и a= ½. Подставляя в формулы (1), получаем, что