При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному. Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.
Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.
Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия.
Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.
Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным, то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым, то данные наблюдений не согласуются с гипотезой и ее отвергают.
Обычно эмпирические и теоретические частоты различаются в силу того, что:
- расхождение случайно и связано с ограниченным количеством наблюдений;
- расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально — ошибочна.
Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.
Для закона нормального распределения их можно найти следующим образом:
- Σƒi—сумма накопленных (кумулятивных) эмпирических частот
- h — разность между двумя соседними вариантами
- σ — выборочное среднеквадратическое отклонение
- t–нормированное (стандартизированное) отклонение
- φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)
Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.
Критерий согласия Пирсона χ2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (fТ) и эмпирическими (f) частотами к теоретическим частотам:
- k–число групп, на которые разбито эмпирическое распределение,
- fi–наблюдаемая частота признака в i-й группе,
- fT–теоретическая частота.
Для распределения χ2 составлены таблицы, где указано критическое значение критерия согласия χ2 для выбранного уровня значимости α и степеней свободы df (или ν).
Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р — статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:
α=0,10, тогда Р=0,90 (в 10 случаях из 100)
α=0,05, тогда Р=0,95 ( в 5 случаях из 100)
α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза
Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ2табл
При полном совпадении теоретического и эмпирического распределений χ2=0, в противном случае χ2>0. Если χ2расч> χ2табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ2расч< χ2табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению. Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.
Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:
где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений.
По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер.
Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.
Критерий согласия Колмогорова
Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:
- Сравнивают фактические и теоретические частоты.
- По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.
- Проверяют на сколько распределение признака соответствует нормальному.
Для IV колонки таблицы:
В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (Xi), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter
Для V колонки таблицы:
Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)
Для VI колонки таблицы:
Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:
По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ
Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения
Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.
Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.