Определение наличия мультиколлинеарности. Определение мультиколлинеарности Методы устранения мультиколлинеарности

Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Различают два вида мультиколлинеарности: полную и частичную.

Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.


Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

Литература:

1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).

ВОПРОСЫ НА ЭКЗАМЕН ПО КУРСУ

«ЭКОНОМЕТРИКА (продвинутый уровень)»

1. Модель множественной регрессии. Виды моделей множественной регрессии.

2. Матричная форма записи и матричная формула оценки параметров множественной регрессии.

3. Оценка качества уравнения регрессии. Объясненная и необъясненная составляющие уравнения регрессии.

4. Коэффициент детерминации и коэффициент корреляции, их расчет в модели парной регрессии.

5. Выборочный множественный коэффициент детерминации и проверка его значимости по -критерию Фишера.

6. Проверка значимости множественного уравнения регрессии с помощью -критерия Фишера.

Значимость уравнения регрессии, т.е. соответствие эконометрической модели Y = a ˆ0 + a ˆ 1X + e фактическим (эмпирическим) данным, позволяет ус-

тановить, пригодно ли уравнение регрессии для практического использования (для анализа и прогноза), или нет.

Для проверки значимости уравнения используется F - критерий Фишера. Он вычисляется по фактическим данным как отношение несмещенной

дисперсии остаточной компоненты к дисперсии исходного ряда. Проверка значимости коэффициента детерминации осуществляется с помощью -критерия Фишера, расчетное значение которого находится по формуле:

,

где коэффициент множественной корреляции, – количество наблюдений, - количество переменных, – диагональный элемент матрицы .

Для проверки гипотезы по таблице определяют табличное значение

критерия Фишера F .

F(α ν1 ν2) – это максимально возможное значение критерия в зависимости от влияния случайных факторов при данных степенях свободы

ν = m1 , ν2 = n m −1, и уровне значимости α . Здесь m – количество аргументов в модели.

Уровень значимости α – вероятность отвергнуть правильную гипотезу, но при условии, что она верна (ошибка первого рода). Обычно α принимается равной 0,05 или 0,01.

Если F ф> F табл, то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если наоборт, то гипотеза H0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

7. Оценка значимости линейных коэффициентов корреляции. -критерий Стьюдента.

Для оценки статистической значимости коэффициентов регрессии и коэффициента корреляции рассчитывается t-критерий Стьюдента. Выдвигается гипотеза H 0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Наблюдаемые значения t-критерия рассчитываются по формулам:

, , ,

где – случайные ошибки параметров линейной регрессии и коэффициента корреляции.


Для линейной парной регрессии выполняется равенство , поэтому проверки гипотез о значимости коэффициента регрессии при факторе и коэффициента корреляции равносильны проверке гипотезы о статистической значимости уравнения регрессии в целом.

Вообще, случайные ошибки рассчитываются по формулам:

, , .

где – остаточная дисперсия на одну степень свободы:

.

Табличное (критическое) значение t-статистики находят по таблицам распределения t-Стьюдента при уровне значимости α = 0,05 и числе степеней свободы . Если t табл < t факт, то H 0 отклоняется, т.е. коэффициенты регрессии не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора.

8. Анализ влияния факторов на основе многофакторных регрессионных моделей: коэффициент эластичности ; бета-коэффициент и дельта-коэффициент .

9. Способы расчета параметров , , производственной функции Кобба-Дугласа.

10. Регрессионные уравнения с переменной структурой. Фиктивные переменные. Виды фиктивных переменных. Преимущества использования фиктивных переменных при построении регрессионных моделей.

11. Использование фиктивных переменных для исследования структурных изменений. Моделирование сезонности. Количество бинарных переменных при k градациях.

Понятие мультиколлинеарности. Методы обнаружения и устранения мультиколлинеарности.

Количественная оценка параметров уравнения регрессии предполагает выполнение условия линейной независимости между независимыми переменными. Однако на практике объясняющие переменные часто имеют высокую степень взаимосвязи между собой, что является нарушением указанного условия. Данное явление носит название мультиколлинеарности.

Термин коллинеарность (collinear ) обозначает линейную корреляцию между двумя независимыми переменными, а Мультиколлинеарность (multi-collinear ) – между более чем двумя независимыми переменными. Обыкновенно под мультиколлинеарностью понимают оба случая.

Таким образом, мультиколлинеарность означает наличие тесной линейной зависимости или сильной корреляции между двумя или более объясняющими (независимыми) переменными. Одной из задач эконометрии является выявление мультиколлинеарности между независимыми переменными.

Различают совершенную и несовершенную мультиколлинеарность. Совершенная мультиколлинеарность означает, что вариация одной из независимых переменных может быть полностью объяснена изменением другой (других) переменной.

Иначе, взаимосвязь между ними выражается линейной функцией

Графическая интерпретация данного случая:

Несовершенная мультиколлинеарность может быть определена как линейная функциональная связь между двумя или более независимыми переменными, которая настолько сильна, что может существенно затронуть оценки коэффициентов при переменных в модели.

Несовершенная мультиколлинеарность возникает тогда, когда две (или более) независимые переменные находятся между собой в линейной функциональной зависимости, описываемой уравнением

В отличие от ранее рассмотренного уравнения, данное включает величину стохастической ошибки . Это предполагает, что несмотря на то, что взаимосвязь между и может быть весьма сильной, она не настолько сильна, чтобы полностью объяснить изменение переменной изменением , т.е. существует некоторая необъяснимая вариация.

Графически данный случай представлен следующим образом:


В каких же случаях может возникнуть мультиколлинеарность? Их, по крайней мере, два.

1. Имеет место глобальная тенденция одновременного изменения экономических показателей. В качестве примера можно привести такие показатели как объем производства, доход, потребление, накопление, занятость, инвестиции и т.п., значения которых возрастают в период экономического роста и снижаются в период спада.

Одной из причин мультиколлинеарности является наличие тренда (тенденции) в динамике экономических показателей.

2. Использование лаговых значений переменных в экономических моделях.

В качестве примера можно рассматривать модели, в которых используются как величины дохода текущего периода, так и затраты на потребление предыдущего.

В целом при исследовании экономических процессов и явлений методами эконометрии очень трудно избежать зависимости между показателями.

Последствия мультиколлинеарности сводятся к

1. снижению точности оценивания, которая проявляется через

a. слишком большие ошибки некоторых оценок,

b. высокую степень корреляции между ошибками,

c. Резкое увеличение дисперсии оценок параметров. Данное проявление мультиколлинеарности может также отразиться на получении неожиданного знака при оценках параметров;

2. незначимости оценок параметров некоторых переменных модели благодаря, в первую очередь, наличию их взаимосвязи с другими переменными, а не из-за того, что они не влияют на зависимую переменную. То есть -статистика параметров модели не отвечает уровню значимости ( -критерий Стьюдента не выдерживает проверки на адекватность);

3. сильному повышению чувствительности оценок параметров к размерам совокупности наблюдений. То есть увеличение числа наблюдений существенно может повлиять на величины оценок параметров модели;

4. увеличению доверительных интервалов;

5. повышению чувствительности оценок к изменению спецификации модели (например, к добавлению в модель или исключению из модели переменных, даже несущественно влияющих).

Признаки мультиколлинеарности:

1. когда среди парных коэффициентов корреляции

между объясняющими (независимыми) переменными есть такие, уровень которых либо приближается, либо равен коэффициенту множественной корреляции.

Если в модели более двух независимых переменных, то необходимо более детальное исследование взаимосвязей между переменными. Данная процедура может быть осуществлена с помощью алгоритма Фаррара-Глобера;

2. когда определитель матрицы коэффициентов парной корреляции между независимыми переменными приближается к нулю:

если , то имеет место полная мультиколлинеарность,

если , то мультиколлинеарность отсутствует;

3. если в модели найдено маленькое значение параметра при высоком уровне коэффициента частной детерминации и при этом -критерий существенно отличается от нуля;

1.В модели с двумя переменными одним из признаков мультиколлинеарности является близкое к единице значение коэффициента парной корреляции . Если значение хотя бы одного из коэффициентов парной корреляции больше, чем 0,8, то мультиколлинеарность представляет собой серьезную проблему.

Однако в модели с числом независимых переменных больше двух, парный коэффициент корреляции может принимать небольшое значение даже в случае наличия мультиколлинеарности. В этом случае лучше рассматривать частные коэффициенты корреляции.

2. Для проверки мультиколлинеарности можно рассмотреть детерминант матрицы коэффициентов парной корреляции |r|. Этот детерминант называется детерминантом корреляции |r| ∈(0; 1). Если |r| = 0, то существует полная мультиколлинеарность. Если |r|=1, то мультиколлинеарность отсутствует. Чем ближе |r| к нулю, тем более вероятно наличие мультиколлинеарности.

3. Если оценки имеют большие стандартные ошибки, невысокую значимость, но модель в целом значима (имеет высокий коэффициент детерминации), то это свидетельствует о наличие мультиколлинеарности.

4. Если введение в модель новой независимой переменной приводит к существенному изменению оценок параметров и небольшому изменению коэффициента детерминации, то новая переменная находится в линейной зависимости от остальных переменных

65. Фиктивные переменные: определение, назначение, типы, смысл названий.

Фиктивные переменные – это переменные с дискретным множеством значений, которые количественным образом описывают качественные признаки. В эконометрических моделях обычно используются фиктивные переменные бинарного типа “0-1”.

Фиктивные переменные необходимы для оценки качественных признаков на эндогенную переменную. Например, при оценке спроса на некоторый товар мы построили регрессионную модель, регрессорами в которой в которой были количественные переменные – цены и дохода потребителя. Одним из способов уточнения данной модели может послужить включение таких качественных признаков, как вкус потребителя, возраст, национальные особенности, сезонность и т.д. Эти показатели нельзя представить в численном виде. Поэтому возникает задача отражения их влияния на значения эндогенной переменной, которая решается как раз при помощи введения фиктивных переменных.

В общем случае, когда качественный признак имеет более двух значений, вводится несколько бинарных переменных. При использовании нескольких бинарных переменных необходимо исключить линейную зависимость между переменными, так как в противном случае, при оценке параметров, это приведет к совершенной мультиколлинеарности. Поэтому применяется следующее правило: если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1) фиктивная переменная.

В регрессионных моделях применяются фиктивные переменные двух типов:

1. Фиктивные переменные сдвига

2. Фиктивные переменные наклона – это переменная, которая изменяет наклон линии регрессии. При помощи таких фиктивных переменных можно построить кусочно-линейные модели, которые позволяют учесть структурные изменения в экономических процессах (например, введение новых правовых или налоговых ограничений, изменение политической ситуации и т.д.) Такие переменные применяются, когда изменение качественного признака приводит не к параллельному сдвигу графика регрессии, а к изменению его наклона. Собственно поэтому такие фиктивные переменные и называются переменными наклона.

66. Фиктивная переменная сдвига: спецификация регрессионной модели с фиктивной переменной сдвига.

Фиктивные переменные сдвига – эти переменные применяются в динамических моделях, когда с определенного момента времени начинает действовать какой-либо качественный фактор (например, при рассмотрении производительности завода до забастовки рабочих и во время нее). Эти переменные применяются, когда изменение качественного признака приводит к параллельному сдвигу графика регрессионной модели, поэтому они и называются переменными сдвига.

Спецификация парной регрессионной модели с фиктивной перемен­ной сдвига имеет вид:

Где α, β, δ – параметры модели; – значение регрессора в наблюдении t;

Фиктивная переменная;

δ – параметр при фиктивной переменной.

Значение фиктивной переменной dt=0 называется базовым (сравнительным). Базовое значение может либо определяться целями исследования, либо выбираться произвольно. Если заменить базовое значение переменной, то суть модели не изменится, изменится знак параметра δ на противоположный.

Рассмотрим парную регрессионную модель с фиктивной переменной сдвига на примере.

Пусть на продажи мороженого влияет наличие рекламы на фургоне у продавца. При помощи уравнения с фиктивными переменными можно, использую одно уравнение регрессии, получить результат как для продавцов с рекламой, так и для продавцов без рекламы.

Пусть первоначальная модель описывается спецификацией:

Где n – количество продавцов мороженого, – количество продаж для t-го продавца, – значение количественного регрессора для t-го продавца

Введем фиктивную переменную сдвига

Мультиколлинеарность означает, что в множественной регрессионной модели две или большее число независимых переменных (факторов) связаны между собой тесной линейной зависимостью или, другими словами, имеют высокую степень корреляции ().

Последствия мультиколлинеарности:

1. Первым практическим последствием мультиколлинеарности является большая дисперсия и ковариация оценок параметров, вычисленных методом наименьших квадратов.

2. Вторым практическим последствием мультиколлинеарности является увеличение доверительных интервалов теоретических коэффициентов уравнения линейной регрессии.

3. Уменьшается статистика коэффициентов, поэтому возможен вывод о статистической незначимости коэффициента.

4. Коэффициенты уравнения регрессии становятся очень чувствительными к малейшим изменениям данных.

5. Затрудняется определение вклада каждой из переменных в объясняемую уравнением дисперсию признака.

К сожалению, нет единого подхода для определения мультиколлинеарности. Приведем несколько методов тестирования наличия мультиколлинеарности.

1) Высокое значение коэффициента детерминации и низкие статистики некоторых переменных.

2) Высокие значения частных коэффициентов корреляции. Однако это условие является достаточным, но не является необходимым условием наличия мультиколлинеарности. Она может иметь место даже при относительно небольших значениях коэффициентов корреляции, когда число факторов больше двух.

3) тест Фаррара–Глобера.

Этот тест имеет и другое название: построение вспомогательной регрессии.

Коэффициент детерминации является коэффициентом детерминации в уравнении регрессии, которое связывает фактор с остальными факторами Например, .является коэффициентом детерминации такой регрессии:

Для каждого коэффициента детерминации рассчитываем отношение:

Тест проверяет гипотезу

при конкурирующей гипотезе

Вычисленное значение сравниваем с критическим значением , найденным по таблицам распределения Фишера с и степеням свободы и заданным уровнем значимости. Если то отвергаем нулевую гипотезу и считаем, что фактор является мультиколлинеарным; если то нулевую гипотезу принимаем и убеждаемся, что фактор не является мультиколлинеарным.

Для устранения мультиколлинеарности существует несколько способов.

Первый способ. Если между двумя факторами и существует мультиколлинеарность, то один из факторов исключается из рассмотрения.