Проверка выполнимости предпосылок МНК


Предпосылки метода наименьших квадратов (МНК)

Оценивание модели (уравнения) регрессии по методу наименьших квадратов предусматривает проверку выполнимости предпосылок МНК.

Первая предпосылка МНК

Случайный характер остатков εi. Для проверки этого свойства определяют значения остатков εi и строится график зависимости остатков εi от теоретических значений результативного признака. Если на графике получена горизонтальная полоса остатков εi, то они представляют собой случайные величины и МНК оправдан, теоретические значения yx независимы от εi.

 При этом возможны следующие случаи, если остатки εi зависят от yx:

остатки εi не случайны

остатки εi не имеют постоянной дисперсии

остатки εi носят систематический характер

 

Вторая предпосылка МНК 

Средняя величина случайного отклонения εi (остатков) для всех наблюдений равна нулю. Это означает, что случайное отклонение в среднем не оказывает влияния на зависимую переменную. В каждом конкретном наблюдении случайный член может быть либо положительным, либо отрицательным, но он не должен иметь систематического смещения.

Если ошибка имеет не нулевое среднее значение (матожидание), то оценки по МНК окажутся смещенными. Другими словами, в ошибке осталась детерминированная (не­слу­чай­ная) составляющая, которая может быть функцией входящих в модель регрессоров, что и означает, что функциональная форма выбрана неверно.  Остатки дают представления об ошибках, поэтому они должны в правильно заданной регрессии иметь везде нулевое среднее. Если остатки (ε), например, для каких-то значений некоторой переменной Х в среднем больше нуля, а для каких-то – меньше, то это служит признаком неправильно специфицированной модели.

Третья предпосылка МНК 

Дисперсия случайных отклонений σεi2  постоянна для любых наблюдений. Данное условие подразумевает, что несмотря на то, что при каждом конкретном наблюдении случайное отклонение может быть либо большим, либо меньшим, а следовательно не должно быть причины, вызывающей большое отклонение (ошибку). Выполнимость данной предпосылки называется гомоскедастичностью (постоянством дисперсии отклонений σε2-const). Невыполнимость данной предпосылки называется гетероскедастичностью (непостоянством дисперсий отклонений σε2-var).

Проверка на наличие гетероскедастичности

Методом графического анализа остатков.

Использование графического представления отклонений позволяет определиться с наличием гетероскедастичностиВ этом случае по оси абсцисс откладываются значения объясняющей переменной Xi, а по оси ординат либо отклонения εi, либо квадраты отклонений εi2Если имеется определенная связь между отклонениями, то гетероскедастичность имеет место. Отсутствие зависимости, скорее всего, будет свидетельствовать об отсутствии гетероскедастичности.

Гетероскедастичность (отсутствие гомоскедастичности) проявляется в том, что разброс остатков меняется в зависимости от некоторой переменной Xi.

При помощи теста ранговой корреляции Спирмена.

При использовании данного теста предполагается, что дисперсия отклонения будет либо увеличиваться, либо уменьшаться с увеличением значений Хi. Поэтому для регрессии, построенной по МНК, абсолютные величины отклонений εi и значения Хi, будут коррелированы. Значения Хi и εi ранжируются, т. е. упорядочиваются по величине. Затем определяется коэффициент ранговой корреляции:

d — разность между рангами Хi и εi; n — число наблюдений.

Доказано,что если коэффициент ранговой корреляции (ρ) для генеральной совокупности равен нулю, то t-статистика имеет распределение Стьюдента с числом степеней свободы ν=n-2:

    \[t = \frac{{{r_{x,\varepsilon }}\sqrt {n - 2} }}{{\sqrt {1 - r_{x,\varepsilon }^2} }}\]

Следовательно, если tнабл. > tтабл. определяемое по таблице критических точек распределения Стьюдента, то необходимо отклонить гипотезу о равенстве нулю коэффициента ранговой корреляции для генеральной совокупности, а следовательно, и об отсутствии гетероскедастичности. В противном случае гипотеза об отсутствии гетероскедастичности принимается. Если в модели регрессии более, чем одна объясняющая переменная, то проверка гипотезы может осуществляться с помощью t-статистики для каждой из них отдельно.

Четвертая предпосылка МНК 

Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений   от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.
При построении регрессионных моделей важно соблюдение отсутствия автокорреляции остатков, т.е. значения остатков εεj должны быть распределены независимо друг от друга. Выполнимость данной предпосылки предполагает, что отсутствует систематическая связь между любыми случайными отклонениями. Если данное условие выполняется, то говорят об отсутствии автокорреляции.

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент автокорреляции остатков определяется по формуле линейного коэффициента корреляции:

График остатков

В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.
Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).

Отсутствие автокорреляции остаточных величин обеспечивает состоятельность и эффективность оценок коэффициентов регрессии

Особенно  актуально  соблюдение  данной  предпосылки  МНК  при  построении регрессионных  моделей  по  рядам  динамики,  где  ввиду   наличия  тенденции, последующие  уровни  динамического  ряда,  как  правило,  зависят  от  своих предыдущих  уровней. При несоблюдении  основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы,  преобразовывать  исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии.

Пятая предпосылка МНК 

Остатки подчиняются нормальному распределению. Нормальное распределение остатков может быть визуально проверено путем графического изображения ряда распределения остаточных величин и сравнения с кривой нормального распределения

О соответствии эмпирического распределения теоретическому можно судить по величине коэффициента  эксцесса, который в случае нормального распределения Е≈0.

    \[{E_x} = \frac{{{\mu ^4}}}{{{\sigma ^4}}} - 3\]

μ4 — центральный момент четвертого порядка, который определяется по формуле :

    \[{\mu ^4} = \frac{{{{\sum {\left( {{\varepsilon _i} - \bar \varepsilon } \right)} }^4}}}{n}\]

Если распределение случайных остатков εне соответствует некоторым предпосылкам МНК, то следует корректировать модель. Если все 1-5 предпосылки выполнены, то оценки, полученные по МНК, обладают следующими свойствами:

  • Оценки являются несмещенными - математическое ожидание остатков равно нулю.
  • Оценки состоятельны — дисперсия оценок параметров при возрастании числа наблюдений стремится к нулю.
  • Оценки эффективны — остатки (отклонения) характеризуются наименьшей дисперсией.

Смотри также: