Проверка адекватности регрессионной модели


Анализ адекватности уравнения регрессии

Для практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным. 

Анализ качества эмпирического уравнения парной и множественной линейной регрессии начинают с построения эмпирического уравнения регрессии, которое является начальным этапом эконометрического анализа. Первое же, построенное по выборке уравнение регрессии, очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей оценкой является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки, которая проводится по следующим направлениям: 

  • проверка статистической значимости коэффициентов уравнения регрессии
  • проверка общего качества уравнения регрессии
  • проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК)

Прежде, чем проводить анализ качества уравнения регрессии, необходимо определить дисперсии и стандартные ошибки коэффициентов, а также интервальные оценки коэффициентов. Корреляционный и регрессионный анализ, как правило, проводится для ограниченной по объёму совокупности.

Поэтому параметры уравнения регрессии (показатели регрессии и корреляции), коэффициент корреляции и коэффициент детерминации могут быть искажены действием случайных факторов. Чтобы проверить, на сколько эти показатели характерны для всей генеральной совокупности и не являются ли они результатом стечения случайных обстоятельств, необходимо проверить  адекватность построенных статистических моделей.

При анализе адекватности уравнения регрессии (модели) исследуемому процессу, возможны следующие варианты:

1. Построенная модель на основе F-критерия Фишера в целом адекватна и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.

2. Модель по F-критерию Фишера адекватна, но часть коэффициентов  не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.

3. Модель по F-критерию адекватна, но все коэффициенты регрессии не значимы. Модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

Проверить значимость (качество) уравнения регрессии–значит установить, соответствует ли математическая модель, выражающая  зависимость между переменными, экспериментальным данным, достаточно ли включенных в уравнение  объясняющих  переменных для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели, по каждому наблюдению из относительных отклонений определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой  не должна превышать 12-15% (максимально допустимое значение).

Оценка значимости уравнения  регрессии в целом производится на основе F-критерия Фишера, которому предшествует дисперсионный анализ. В математической  статистике  дисперсионный  анализ  рассматривается  как самостоятельный  инструмент  статистического  анализа. В эконометрике он применяется как вспомогательное средство для изучения  качества регрессионной модели. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной (y) от среднего значения (yср.) раскладывается на две части: «объясненную» и «необъясненную»:

Схема дисперсионного анализа имеет следующий вид:

(n –число наблюдений,  m–число параметров при переменной  x)

Определение  дисперсии  на  одну  степень  свободы  приводит  дисперсии к  сравнимому  виду.  Сопоставляя  факторную  и  остаточную  дисперсии  в расчете на одну степень свободы, получим величину  F-критерия Фишера. Фактическое  значение  F -критерия  Фишера  сравнивается  с табличным значением Fтабл. (α, k1, k2)  при заданном уровне значимости α и степенях свободы k1= m и k2=n-m-1.  При  этом,  если  фактическое  значение  F-критерия  больше  табличного Fфакт > Fтеор, то  признается  статистическая  значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:

Эта формула в общем виде может выглядеть так:

Отношение объясненной части дисперсии переменной (у) к общей дисперсии называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение между объясненной и необъясненной частями общей дисперсии можно представить в альтернативном варианте:

Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0≤ R2 ≤1. Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии. Чем больше R2, тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных). Чтобы определить, при каких значениях R2 уравнение регрессии следует считать статистически не значимым, что, в свою очередь, делает необоснованным его использование в анализе, рассчитывается F-критерий ФишераFфакт > Fтеор - делаем вывод о статистической значимости уравнения регрессии. Величина F-критерия связана с коэффициентом детерминации R2xy (r2xy) и ее можно рассчитать по следующей формуле:

Либо при оценке значимости индекса  детерминации (аналог коэффициента детерминации):

где:  i2 - индекс (коэффициент) детерминации, который рассчитывается:

Использование коэффициента множественной детерминации R2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2. Поэтому, при большом количестве факторов, предпочтительнее использовать, так называемый, улучшенный, скорректированный коэффициент множественной детерминации R2, определяемый соотношением:

где p – число факторов в уравнении регрессии, n – число наблюдений. Чем больше величина p, тем сильнее различия между множественным коэффициентом детерминации R2 и скорректированным R2. При использовании скорректированного R2, для оценки целесообразности включения фактора в уравнение регрессии, следует учитывать, что увеличение его величины (значения), при включении нового фактора, не обязательно свидетельствует о его значимости, так как значение увеличивается  всегда, когда t-статистика больше единицы (|t|>1). При заданном объеме наблюдений и при прочих равных условиях, с увеличением числа независимых переменных (параметров), скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений, скорректированная величина коэффициента множественной детерминации R2 имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами:

  • в регрессионную модель не включены существенные факторы;
  • неверно выбрана форма аналитической зависимости, которая нереально отражает  соотношения между переменными, включенными в модель.

Следует также обратить внимание на важность анализа остатков (остаточной, «необъясненной» дисперсии)Остаток представляет собой отклонение фактического значения зависимой переменной от значения, полученного расчетным путем. При построении уравнения регрессии, мы можем разбить значение (у) в каждом наблюдении на 2 составляющие:

    \[{y_i} = {\tilde y_i} + {\varepsilon _i}\]

Отсюда:

    \[{\varepsilon _i} = {y_i} - \tilde y{}_i\]

Если εi=0, то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значе­ниями. Графически это означает, что теоретическая линия рег­рессии (линия, построенная по функции у=а01х) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак (у) полностью обусловлен влиянием фактора (х). На практике, как правило, имеет место некоторое рассеива­ние точек корреляционного поля относительно теоретической линии регрессии, т.е. отклонения эмпирических данных от тео­ретических εi≠0. Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения. 

Большинство предположений множественной регрессии нельзя в точности проверить, однако можно обнаружить отклонения от этих предположений. В частности, выбросы (экстремальные наблюдения) могут вызвать серьезное смещение оценок, сдвигая линию регрессии в определенном направлении и, тем самым, вызывая смещение коэффициентов регрессии. Часто исключение всего одного экстремального наблюдения приводит к совершенно другому результату. Выбросы оказывают существенное влияние на угол наклона регрессионной линии и,соответственно, на коэффициент корреляции. Всего один выброс может полностью изменить наклон регрессионной линии и, следовательно, вид зависимости между переменными. Одна точка выброса обуславливает высокое значение коэффициента корреляции, в то время, как в отсутствие выброса, он практически равен нулю. 

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия для параметров a0 а1:

  • n — число наблюдений, m-число параметров уравнения регрессии,
  • σε - (остаточное) среднее квадратическое отклонение результативного признака от выровненных значений ŷ,
  • σх - среднее квадратическое отклонение факторного признака от общей средней.

Вычисленные, по вышеприведенным формулам, значения сравнивают с критическими t, которые определяют по таблице значений Стьюдента с учетом принятого уровня значимости  (α)  и числа степеней свободы вариации k (ν)=n-2. В социально-экономических исследованиях уровень значимости α обычно принимают равным  0,05.  Параметр признается значимым (существенным)  при условии,  если   tрасч. > tтабл. В этом случае, практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Для оценки значимости парного коэффициента корреляции (корень квадратный из коэффициента детерминации), при условии линейной формы связи между факторами, можно использовать t-критерий Стьюдента:

    \[{t_r} = \frac{{\left| r \right| \cdot \sqrt {n - 2} }}{{\sqrt {1 - {r^2}} }} = \left| r \right| \cdot \sqrt {\frac{{n - 2}}{{1 - {r^2}}}} \]

Анализ качества эмпирического уравнения множественной линейной регрессии предусматривает оценку мультиколлинеарности факторов. При оценке мультиколлинеарности факторов следует учитывать, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Для отбора наиболее значимых факторов Хi должны быть учтены следующие условия:

  • связь между результативным признаком и факторным должна быть выше межфакторной связи
  • связь между факторами должна быть не более 0.7
  • при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними

Более объективную характеристику тесноты связи дают частные коэффициенты корреляции, измеряющие влияние на результативный    фактор Уi фактора Хi при неизменном уровне других факторов. Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (У и Хi) при условии, что влияние на них остальных факторов (Хj) устранено.

    \[{r_{y{x_1}}}/{x_2} = \frac{{{r_{y{x_1}}} - {r_{y{x_2}}} \cdot {r_{{x_1}{x_2}}}}}{{\sqrt {(1 - {r^2}_{y{x_2}})(1 - {r^2}_{{x_1}{x_2}})} }}\]

    \[{r_{y{x_2}}}/{x_1} = \frac{{{r_{y{x_2}}} - {r_{y{x_1}}}{r_{{x_2}{x_1}}}}}{{\sqrt {(1 - {r^2}_{y{x_1}})(1 - {r^2}_{{x_2}{x_1}})} }}\]

    \[{r_{{x_1}{x_2}}}/y = \frac{{{r_{{x_1}{x_2}}} - {r_{{x_1}y}}{r_{{x_2}y}}}}{{\sqrt {(1 - {r^2}_{{x_1}y})(1 - {r^2}_{{x_2}y})} }}\]

Смотри также по теме: