Корреляция и Регрессия


Характеристика методов корреляционно-регрессионного анализа

Статистикой разработано множество методов изучения связей, выбор которых зависит от целей исследования и от поставленных задач. Причинно-следственные отношения – это связь явлений и процессов, когда изменение одного из них – причины – ведет к изменению другого – следствия. Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на 2 класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.

В реальной общественной жизни ввиду неполноты информации жестко детерминированной системы, может возникнуть неопределенность, из-за которой эта система по своей природе должна рассматриваться как вероятностная, при этом связь между признаками становится стохастической.

Стохастическая связь – это связь между величинами, при которой одна из них, случайная величина у, реагирует на изменение другой величины х или других величин х12 …х(случайных или неслучайных) изменением закона распределения. Это обуславливается тем, что зависимая переменная (результативный признак), кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых (случайных) факторов, а также некоторых неизбежных ошибок измерения переменных. Поскольку значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а только указаны с определенной вероятностью.

Характерной особенностью стохастических связей является то, что они проявляются во всей совокупности, а не в каждой ее единице. Причём неизвестен ни полный перечень факторов, определяющих значение результативного признака, ни точный механизм их функционирования и взаимодействия с результативным признаком. Всегда имеет место влияние случайного. Появляющиеся различные значения зависимой переменной–реализация случайной величины. Модель стохастической связи может быть представлена в общем виде уравнением: ŷi = ƒ(xi) + ei, где:

  • f(xi)-часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков (одного или множества), находящихся в стохастической связи с признаком;
  • ŷi-расчетное значение результативного признака;
  • ei-часть результативного признака, возникшая вследствие действия неконтролируемых или неучтенных факторов, а также измерения признаков, неизбежно сопровождающегося некоторыми случайными ошибками.

Проявление стохастических связей подвержено действию закона больших чисел: лишь в достаточно большом числе единиц индивидуальные особенности сгладятся, случайности взаимопогасятся и зависимость, если она имеет существенную силу, проявится достаточно отчётливо. 

По форме проявления взаимосвязей выделяют функциональную (полную) и корреляционную (неполную) связи. Корреляционная связь является частным случаем стохастической связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. 

Функциональные связи характеризуются полным соот­ветствием между изменением факторного признака и изменением результативной величины и каждому значению признака-фактора соответствуют вполне определенные значения результативного признака. Функциональная зависимость может связывать резуль­тативный признак с одним или несколькими факторными признаками. Функциональную связь можно представить уравнением: yi = f(xi), где:

  • f(xi)-известная функция связи результативного и факторного признаков;
  • yi-результативный признак ( i = 1, … , n);
  • xi -факторный признак.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

В корреляционных связях между изменением фактор­ного и результативного признака нет полного соответствия. Одновременное воз­действие на изучаемый признак большого количества самых разнообразных факторов приводит к тому, что одному и тому же значению признака-фактора соответствует целое распределение значений результативного признака, поскольку в каждом конкрет­ном случае прочие факторные признаки могут изменять силу и направленность своего воздействия.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений, зависимость себестоимости от урожайности сельскохозяйственных культур (продуктивности скота, птицы). Очевидно, что количество внесенных удобрений участвует в формировании урожая. Но для каждого конкретного поля или участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается: так увеличение массы внесенных удобрений, ведет к росту урожайности, рост урожайности, в свою очередь, ведет к снижению себестоимости.

(кликабельно)

При сравнении функциональных и корреляционных зависи­мостей следует иметь в виду, что при наличии функциональной зависимости между признаками можно, зная величину факторного признака, точно определить величину результативного признака. При наличии же корреляционной зависимости устанавливается лишь тенденция изменения результативного признака при изме­нении величины факторного признака. В отличие от жесткости функциональной связи, корреляционные связи характеризуются множеством причин и следствий, и устанавливаются лишь их тен­денции.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

 

По силе различаются сильные и слабые связи, либо полное их отсутствие. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной, если изучаются более чем две переменные — множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных, различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредствует связь между изучаемыми признаками. Ложная связь — это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна вообще.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая—регрессионный анализ. В то же время, ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов.

С помощью корреляционно-регрессионного анализа определяют необходимость включения тех или иных факторов в уравнение множественной регрессии, а также оценивают полученное уравнение регрессии на соответствие выявленным связям, используя коэффициент детерминации.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле, когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле, когда исследуется сила связи и регрессионный анализ, в ходе которого оценивается ее форма и воздействие одних факторов на другие.

Задачи, собственно корреляционного анализа, сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, параметрические  методы принято называть корреляционными. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений:

Коэффициент корреляции знаков Фехнера

Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.

C — число пар, у которых знаки отклонений значений от их средних совпадают

H — число пар, у которых знаки отклонений значений от их средних не совпадают

Коэффициент ранговой корреляции Спирмена

Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности (d) и вычисляется коэффициент ранговой корреляции Спирмена:

Приемы корреляционного анализа используются для измерения влияния факторов в стохастическом анализе, когда взаимосвязь между показателями неполная, вероятностная. Различают парную и множественную корреляцию. Парная корреляция — это связь между двумя показателями, один из которых является факторным, а другой — результативным. Множественная корреляция возникает при взаимодействии нескольких факторов с результативным показателем.

Необходимые условия применения корреляционного анализа:

  1. Наличие достаточно большого количества наблюдений о величине исследуемых факторных и результативных показателей (в динамике или по совокупности однородных объектов).
  2. Исследуемые факторы должны иметь количественное измерение и отражение в тех или иных источниках информации.

Применение корреляционного анализа позволяет решить следующие задачи:

  • определить изменение результативного показателя под воздействием одного или нескольких факторов (в абсолютном измерении), т.е. определить, на сколько единиц изменяется величина результативного показателя при изменении факторного на единицу;
  • установить относительную степень зависимости результативного показателя от каждого фактора.

Первая задача решается путем подбора и обоснования соответствующего типа уравнения связи и нахождения его параметров. Уравнение связи обосновывается с помощью графиков, аналитических группировок и т.д.

Зависимость результативного показателя от определяющих его факторов можно выразить уравнением парной и множественной регрессии. При прямолинейной форме она имеет следующий вид:

1. уравнение парной регрессии:

2. уравнение множественной регрессии:

  • a — свободный член уравнения
  • x1,x2…xn — факторы, определяющие уровень изучаемого результативного показателя; 
  • b1,b2…bn — коэффициенты регрессии при факторных показателях, характеризующие уровень влияния каждого фактора на результативный показатель в абсолютном выражении. 

Расчет уравнения связи сводится к определению параметров а, b, с. В соответствии с требованиями метода наименьших квадратов для определения параметров   необходимо решить следующие системы уравнений.

1. В случае прямолинейной зависимости:

2. В случае криволинейной зависимости между изучаемыми явлениями, когда при увеличении одного показателя, значения другого возрастают до определенного уровня, а потом начинают снижаться (например, зависимость производительности труда рабочих от их возраста), то для записи такой зависимости лучше всего подходит парабола второго порядка:

3. В случае криволинейной зависимости, когда при увеличении одной переменной значения другой увеличиваются до определенного уровня, а потом прирост снижается, например зависимость урожайности от количества внесенного удобрения, продуктивности животных от уровня их кормления, себестоимости единицы продукции от объема ее производства и т.д. Такую зависимость лучше описывает  гипербола:

При более сложном характере зависимости между изучаемыми явлениями используются более сложные полиномы (третьего, четвертого порядка и т.д.), степенные, показательные и другие функции.

Таким образом, используя тот или иной тип математического уравнения, можно определить степень зависимости между изучаемыми явлениями, узнать, на сколько единиц, в абсолютном измерении, изменяется величина результативного показателя с изменением факторного на единицу. Однако регрессионный анализ не дает ответа на вопрос: на сколько тесна эта связь, решающее или второстепенное воздействие оказывает данный фактор на величину результативного показателя. Математической мерой корреляции двух случайных величин (факторов) служит корреляционное отношение, либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической. Для измерения тесноты связи между факторными и результативными показателями исчисляется коэффициент корреляции. При прямолинейной форме связи между изучаемыми показателями он рассчитывается по следующим формулам:

Этот коэффициент может принимать значения от 0 до 1. Чем ближе его величина к 1, тем более тесная связь между изучаемыми явлениями, и наоборот. Если коэффициент корреляции возвести в квадрат, получим коэффициент детерминации.

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:

где: ai—коэффициент регрессии, σx—среднеквадратическое отклонение соответствующего факторного признака, σy—среднеквадратическое отклонение результативного признака.

Что касается измерения тесноты связи при криволинейной форме зависимости, то здесь используется не линейный коэффициент корреляции, а корреляционное отношение, формула которого имеет следующий вид:

Эта формула является универсальной. Ее можно применять для исчисления коэффициента корреляции при любой форме зависимости. Однако, для его нахождения требуется предварительное решение уравнения регрессии и расчет по нему теоретических (выравненных) значений результативного показателя для каждого наблюдения исследуемой выборки. Силу связи между признаками можно оценить по шкале Чеддока:
0.1 < η < 0.3 — слабая
0.3 < η < 0.5 — умеренная
0.5 < η < 0.7 — заметная
0.7 < η < 0.9 — высокая
0.9 < η < 1,0 — весьма высокая

При определении тесноты связи для многофакторной модели, при условии линейной связи между факторами (переменными), используется коэффициент множественной корреляции:

Для расчета которого необходимо определить частные коэффициенты корреляции:

Решение задач многофакторного корреляционного анализа производится по типовым программам. Cведения вводятся в соответствующую программу  и  рассчитывается уравнение множественной регрессии.

Смотри также по теме: