Статистическая проверка гипотез


Статистическая гипотеза

Статистической гипотезой называется любое предположение о виде неизвестного закона распределения или о параметрах известных распределений. Предположим, что на основании имеющихся данных есть основания выдвинуть предположения о законе распределения или о параметре закона распределения случайной величины (или генеральной совокупности, на множестве объектов которой определена эта случайная величина). Задача проверки статистической гипотезы заключается в подтверждении или опровержении этого предположения на основании выборочных (экспериментальных) данных.

Проверка статистической гипотезы означает проверку соответствия выборочных данных выдвинутой гипотезе. Параллельно с выдвигаемой основной гипотезой, рассматривают и противоречащую ей гипотезу, которая называется конкурирующей или альтернативной. Альтернативная гипотеза считается справедливой, если основная выдвинутая гипотеза отвергается.

Параметрической гипотезой называется гипотеза о значениях параметров распределения или о сравнительной величине параметров двух распределений. Примером параметрической статистической гипотезы является гипотеза о равенстве математических ожиданий двух нормальных совокупностей.

Непараметрическими гипотезами называются гипотезы о виде распределения случайной величины.

Нулевой, основной или проверяемой гипотезой называется первоначально выдвинутая гипотеза, которая обозначается Н0.

Конкурирующей или альтернативной гипотезой называется гипотеза, которая противоречит основной гипотезе Н0 и обозначается Н1.

Например, основная гипотеза Н0 состоит в том, что математическое ожидание μ равно какому-то значению μ0. В этом случае конкурирующая гипотеза Н1 может состоять в предположении, что математическое ожидание μ не равно (больше или меньше) значения μ0:

Н0: μ=μ0; Н1: μ≠μ0, или Н1: μ>μ0, Н1: μ<μ0.

При проверке статистических гипотез существует вероятность допустить ошибку, приняв или опровергнув верную гипотезу. Уровнем значимости (а) называется вероятность совершения ошибки первого рода. Значение уровня значимости а обычно задается близким к нулю (например, 0,05; 0,01; 0,02 и т. д.), потому, что чем меньше значение уровня значимости, тем меньше вероятность совершить ошибку первого рода, состоящую в опровержении верной гипотезы Н0. Р-статистическая достоверность принятия верной гипотезы. Проверка справедливости статистических гипотез осуществляется с помощью различных статистических критериев.  В статистике чаще всего пользуются тремя уровнями значимости:

 α=0,10,  тогда Р=0,90 (в 10 случаях из 100)

 α=0,05,  тогда Р=0,95 ( в 5 случаях из 100)

 α=0,01,  тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Статистическим критерием называется случайная величина, которая используется с целью проверки нулевой гипотезы. Статистические критерии называются соответственно по тому закону распределения, которому они подчиняются, т. е. F-критерий подчиняется распределению Фишера-Снедекора, χ2-критерий подчиняется χ2-распределению, Т-критерий подчиняется распределению Стьюдента, U-критерий подчиняется нормальному распределению.

Областью принятия гипотезы или областью допустимых значений называется множество возможных значений статистического критерия, при которых основная гипотеза принимается. Если наблюдаемое значение статистического критерия, рассчитанное по данным выборочной совокупности, принадлежит критической области, то основная гипотеза отвергается. Если наблюдаемое значение статистического критерия принадлежит области принятия гипотезы, то основная гипотеза принимается.

Рассмотрим на примере:

Проверить правильность нулевой гипотезы

Условие:

Электролампочки на 220 В изготавливаются двумя электроламповыми заводами.
С первой партии, изготовленной заводом № 1, было отобрано электролампочек количеством n1=25 , с другой партии- количеством n2 = 36. Первую и вторую партию электролампочек проверили на срок службы. Результаты проверки приведены в виде статистических распределений следующего вида:

yi

48

50

52

54

56

n1

 2

 3

14

 5

 1

xj

53

56

59

62

65

n2

 4

 6

10

12

 4

Известно, что признаки являются случайными величинами, которые независимы между собой и имеют нормальный закон распределения со значением среднеквадратического отклонения: σy = 50σx=72

  • Yi – срок службы электролампочек  завода №1
  • Xj – срок службы электролампочек  завода №2 

При уровне значимости α = 0,01 проверить правильность нулевой гипотезы:
H0 : M(X)=M(Y), если альтернативная гипотеза:
Hα : M(X) > M(Y)

Решение:
1. Определим математическое ожидание для обоих заводов:

    \[\begin{array}{l} M\left( Y \right) = \frac{{48 \cdot 2 + 50 \cdot 3 + 52 \cdot 14 + 54 \cdot 5 + 56 \cdot 1}}{{25}} = 52\\ \\ M\left( X \right) = \frac{{53 \cdot 4 + 56 \cdot 6 + 59 \cdot 10 + 62 \cdot 12 + 65 \cdot 4}}{{36}} = 59.5 \end{array}\]

M(X) > M(Y): 59.5 > 52

Проверяем нулевую гипотезу о равенстве матожиданий (средних): Ho : M(X) = M(Y)

2. Оценим генеральную дисперсию по 1-ому и 2-ому заводам:

3. Рассчитаем одну общую оценку генеральной дисперсии как среднюю взвешенную:

4. Рассчитаем выборочное значение  t- статистики:

По таблице значений функции Стьюдента (двусторонняя критическая область) при:

  • α = 0.01 
  • число степеней свободы ν=36+25-2=59
  • находим  t-табличное =2,66
  • t-расчетное = 0,45 не попадает в допустимую область (-2,66, +2,66)

Следовательно нулевая гипотеза о равенстве матожиданий (средних) отклоняется:

M(x)=59,5  > M(y)=52

Смотри также: