Вконтакте Facebook Twitter Лента RSS

Спецификация модели множественной регрессии. Сравнительный анализ эконометрических моделей регрессии Спецификация регрессионной модели

Основной целью множественной регрессии является построение модели с большим числом факторов и определение при этом влияния каждого из факторов в отдельности на результат, а так же определение совокупного воздействия факторов на моделированный показатель.

Спецификация модели множественной регрессии включает в себя отбор фактора и выбор вида математической функции (выбор вида уравнения регрессии). Факторы, включаемые во множественную регрессию должны быть количественно измеримы и не должны быть интеркоррелированы и тем более находиться в точной функциональной связи (т.е. должны в меньшей степени влиять друг на друга, а в большей степени на результативный признак).

Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. Например, если строится модель с набором - факторов, то для нее находится значение показателя детерминации , который фиксирует долю объясненной вариации результативного признака за счет - факторов.

Влияние других неучтенных факторов в модели оценивается как соответствующей остаточной дисперсии .

При включении в модель дополнительного фактора значение показателя детерминации должно возрастать, а значение остаточной дисперсии должно уменьшиться. Если этого не происходит, то дополнительный фактор не улучшает модель и практически является лишним, причем введение такого фактора может привести к статистической не значимости параметров регрессии по - критерию Стьюдента.

Отбор факторов для множественной регрессии осуществляется в две стадии:

1. Подбираются факторы, исходя из сущности проблемы.

2. На основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты корреляции между объясняющими переменными , которые еще называют коэффициентами интеркорреляции, позволяют исключить из модели дублирующие факторы.

Две переменные и называют явно коллинеарными, если коэффициент корреляции .

Если переменные явно коллинеарны, то они находятся в сильной линейной зависимости.



При наличии явно коллинеарных переменных предпочтение отдается не фактору более тесно связанному с результатом, а фактору, который при этом имеет наименьшую тесноту связи с другими факторами.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллениарность факторов.

При использовании множественной регрессии может возникнуть мультиколлениарность фактов, т.е. более чем два фактора связаны между собой линейной зависимостью. В таких случаях менее надежным становится МНК при оценке отдельных факторов, результатом чего становится затруднение интерпретации параметров множественной регрессии как характеристик действия фактора в чистом виде. Параметры линейной регрессии теряют экономический смысл, оценки параметров ненадежны, возникают большие стандартные ошибки, которые при этом могут изменяться с изменением объема наблюдений, т.е. модель становится непригодной для анализа и прогнозирования экономической ситуации. Для оценки мультиколлениарности фактора используют следующие методы:

1. Определение матрицы парных коэффициентов корреляции между факторами, например, если задана линейная модель множественной регрессии , то определитель матрицы парных коэффициентов примет вид:

Если значение данного определителя равно 1

,

то факторы являются неколлинеарными между собой.

Если между факторами существует полная линейная зависимость, то все коэффициенты парной корреляции равны 1, в результате чего

.

2. Метод испытания гипотезы о независимости переменных. В этом случае нулевая гипотеза , доказано, что величина имеет приближенное распределение с числом степеней свободы .

Если , то нулевая гипотеза отклоняется.

Определяя и сравнивая между собой коэффициенты множественной детерминации фактора, используя в качестве зависимой переменной последовательно каждой из факторов можно определить факторы, ответственные за мультиколлениарность, т.е. фактор с наибольшим значением величины .

Существуют следующие способы преодоления сильной межфакторной корреляции:

1) исключение из модели одного или несколько данных;

2) преобразование факторов для уменьшения корреляции;

3) совмещение уравнения регрессии, которые будут отражать не только факторы, но и их взаимодействие;

4) переход уравнения приведенной формы и др.

При построении уравнения множественной регрессии одним из важнейших этапов является отбор факторов, включаемых в модель. Различные подходы к отбору факторов на основе показателей корреляции к различным методам, среди которых наиболее применимы:

1) Метод исключения – производится отсев данных;

2) Метод включения – вводят дополнительный фактор;

3) Шаговый регрессионный анализ – исключают ранее введенный фактор.

При отборе факторов применяют следующее правило: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строится модель.

Параметр не подлежит экономической интерпретации. В степенной модели нелинейное уравнение множественной регрессии коэффициенты , ,…, являются коэффициентами эластичности, которые показывают насколько, в среднем, изменится результат при изменении соответствующего фактора на 1% при неизменном воздействии остальных факторов.

Под спецификацией уравнения регрессии понимают выбор объясняющих переменных и установление вида связи между изучаемыми явлениями. В случае парной регрессии эта задача сводится к выбору независимой переменной и вида связи. Решение этих вопросов должна давать теория, описывающая взаимосвязи изучаемых процессов.

К ошибкам спецификации в случае парной регрессии можно отнести неправильный выбор доминирующего фактора, влияющего на изменение изучаемого показателя, или неправильный выбор вида зависимости между изучаемыми показателями. И в том и в другом случае будут нарушены предпосылки МНК, особенно 3-я и 4-я, т.е. остатки регрессии будут гетероскедастичными и автокоррелироваными.

Гетероскедастичность и автокорреляция остатков уравнения регрессии могут сказаться на эффективности оценок, полученных на основе МНК и на смещённости оценки их дисперсии. Поэтому интервальные оценки и статистические выводы о значимости оценок в этом случае могут быть ненадёжными.

Разработаны специальные статистические методы проверки остатков на гомоскедастичность и автокорреляцию. Рассмотрим сначала наиболее простые из них.

1.3.1. Проверка остатков регрессии на гетероскедастичность (тест Голдфелда Квандта)

Этот тест применяется в предположении нормально распределённых остатков и в предположении их пропорциональности величинам объясняющей переменной х . Для применения рассматриваемого теста пары наблюдений упорядочиваются в порядке роста значений независимой переменной х . Затем выбираются первые и последние наблюдения в количестве не менее n/3. По выбранным наблюдениям строятся уравнения регрессии (отдельно по каждому набору) и сравниваются их остаточные суммы квадратов. Гипотеза о гомоскедастичности в этом случае будет равносильна гипотезе о том, что остатки в этих уравнениях представляют собой выборочные наблюдения нормально распределённых случайных величин с одинаковыми дисперсиями. Сравнивая эти дисперсии по критерию Фишера (число степеней свободы числителя и знаменателя здесь совпадают, т. к. слева и справа берётся одинаковое число наблюдений) принимаем или отклоняем гипотезу о гомоскедастичности остатков.



Несмотря на ограниченность применения этого критерия (пропорциональность величин остатков значениям независимой переменной), данный тест работает с элементами выборки и не требует больших объёмов выборки как асимптотические тесты.

1.3.2. Проверка остатков регрессии на автокорреляцию (статистика Дарбина Уотсона)

При анализе остатков на автокорреляцию в случае пространственной выборки надо меть в виду, что последовательную зависимость остатков друг от друга необходимо рассматривать не для случайного набора пар наблюдений, а для пар наблюдений, упорядоченных по величине значений независимой переменной. И только в этом случае поведение остатков будет соответствовать ситуации, проверяемой по описываемому ниже критерию.

Проверку остатков регрессии на автокорреляцию можно осуществить на основе статистики Дарбина-Уотсона. Этот критерий основан на гипотезе о существовании автокорреляции между соседними членами ряда остатков и использует статистику

Здесь e i = y i – . Можно показать, что
где вычитаемая в скобках из единицы дробь равна коэффициенту автокорреляции первого порядка (т. е. это коэффициент корреляции между e i и e i -1). Ясно, что d-статистика равна двум, если автокорреляция отсутствует (тогда ), и равна 0 или 4 при полной автокорреляции ().

Для d-статистики найдены критические границы (d u – верхняя и d l – нижняя), на основе которых можно определить области, позволяющие принять или отклонить нулевую гипотезу об отсутствии автокорреляции при фиксированном уровне значимости , известном числе независимых переменных m и объёме выборки n.

Таблица 1.3 – Механизм проверки гипотезы об автокорреляции в остатках по критерию Дарбина – Уотсона

0 d l d u 4–d u 4–d l 4

Если вычисленное значение d-статистики попало в область неопределенности критерия, то это означает, что нет статистических оснований ни принять, ни отклонить нулевую гипотезу об отсутствии автокорреляции в остатках. В этом случае нужно использовать какой-либо иной критерий или для большей точности увеличить объём выборки. Учитывая наличие области неопределённости, в литературе по эконометрике можно встретить такую рекомендацию: считать приближённо, что автокорреляции в остатках нет, если значение критерия находится в интервале (1,5 – 2,5), в противном случае признаётся наличие автокорреляции.

В некоторых статистических пакетах программ при проверке гипотезы об отсутствии автокорреляции в остатках совместно со статистикой Дарбина – Уотсона рассчитывается р-value, например в Statgraphics. В этом случае проверяется гипотеза H 0: = 0, т. е. что автокорреляция первого порядка отсутствует, так что если р-величина больше принятого уровня значимости, то гипотеза об отсутствии автокорреляции не отклоняется.

Как уже отмечалось, статистика Дарбина-Уотсона в большей мере используется при анализе временных рядов, поскольку именно для них актуально понятие автокорреляции. Однако она может быть использована для проверки правильной спецификации уравнения парной (простой) регрессии, но при этом необходимо случайную выборку упорядочить по степени возрастания независимой переменной. Тогда появится смысл в понятии «последовательные остатки». Если при этом с помощью критерия Дарбина-Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в спецификации уравнения регрессии и либо вернуться к выбору объясняющей переменной, либо к форме регрессионной зависимости, либо попытаться избавиться от автокорреляции другими методами.

Следует иметь в виду, что статистика Дарбина-Уотсона обладает рядом недостатков: проверяет автокорреляцию только первого порядка, имеет области неопределённости и не может использоваться, если в качестве независимой переменной выступает лаговое значение зависимой переменной и если в уравнении регрессии отсутствует константа.

Несмотря на указанные недостатки, данная статистика используется наиболее часто и работает с выборочными наблюдениями, не требуя жёстких требований к выборке в отличие от асимптотических критериев.

Пример 1. Анализ функции потребления.

Приведём пример использования рассмотренных положений теории по простой регрессии, анализируя зависимость расхода 60 семей от их доходов. Эта информация представлена на графике (рисунок 1.1).

Рисунок 1.1 – График исходных данных

Уравнение регрессии зависимости расходов (y) от доходов (х) раcсчитано в EViews и отчёт о регрессии приведён ниже (рисунок 1.2).

Проанализируем его. В отчёте указан метод оценивания параметров уравнения регрессии (Least Squares – наименьшие квадраты), число наблюдений – 60. В столбце «коэффициенты» указаны оценки параметров уравнения регрессии (коэффициент при х равен 0,6 и свободный член (с) равен 17). Следовательно, можно выписать уравнение регрессии: = 17 + 0,6х. За столбцом «коэффициенты» следуют столбцы стандартных ошибок и t-статистик. Последний столбец (Prob.) – это расчётный уровень значимости, т.е. вероятность того, что |t |≤ . Если эта вероятность меньше (по умолчанию будем в дальнейшем принимать = 0,05), то соответствующая оценка значимо отлична от нуля. У нас обе вероятности меньше 0,05, следовательно, обе оценки значимо отличны от нуля.

Рисунок 1.2 – Отчёт о регрессии

Проанализируем показатели точности уравнения регрессии. Начнём с анализа значимости уравнения регрессии. F-satstistic = 544, а вероятность для неё (Prob(F-statistic)) равна нулю. Это – результат дисперсионного анализа уравнения регрессии. Здесь проверяется гипотеза о значимости уравнения регрессии, т. е., что коэффициент уравнения регрессии равен нулю. Поскольку расчётный уровень значимости здесь меньше принятого (0,05), то гипотеза о равенстве коэффициента регрессии отклоняется и считается, что уравнение регрессии значимо.

Коэффициент детерминации (R-squared) равен 0,9. Следовательно, изменение расходов в нашем примере на 90% зависит от изменения доходов. Показатель Adjusted R-squared (исправленный коэффициент детерминации) в простой регрессии не анализируется. Затем указана стандартная ошибка регрессии (S.E. of regression). Она равна 11.32. Затем показана сумма квадратов остатков регрессии (Sum squared resid – ) 2 = 7432), которая используется в более подробном анализе (см. далее в примере).

Далее (в правом столбце нижней части отчёта) указано среднее значение зависимой переменной (Mean dependent var) – средний уровень доходов этих 60 семей (он равен 121,2). Стандартную ошибку регрессии (11,32) можно сравнить с этим средним доходом и определить, насколько точно в среднем прогнозируются расходы семьи по этому уравнению регрессии.

Статистика Дарбина – Уотсона (d) рассчитана для проверки гипотезы о наличии в остатках регрессии автокорреляции первого порядка. Как отмечалось, эта информация более полезна при анализе временных рядов. Для пространственной информации надо данные упорядочить, чтобы понятие «соседние» остатки приняло какой-то смысл. В случае случайной выборки это понятие теряет смысл. В нашем случае данные упорядочены по росту доходов (см. рисунок1.1), следовательно, можно анализировать эту статистику без предварительного упорядочения. Как видно из отчёта, d = 1,51. Табличные значения нижней (d l) и верхней (d u) границ соответственно равны 1,55 и 1,62. Построим области принятия решения о наличия или отсутствия автокорреляции в остатках в соответствии с приведённой схемой в таблице 1.3.

0 1,55 1,62 2,38 3,45 4

Как видим, расчётное значение попало в область, где автокорреляция есть. Да и по графику (рисунок 1.3) видно, что остатки не являются случайным процессом. Видна закономерность их изменения – регулярная смена отрицательных остатков на положительные. На этом рисунке изображены реальные (Actual) и расчётные (Fitted – подобранные) значения моделируемой переменной (расходов) и остатки (Residual). Причём, правая вертикальная ось – для моделируемого показателя, левая – для остатков.

Рисунок 1.3 – Графики остатков, выборочных и расчётных значений

для расходов

Гомоскедастичность остатков проверим тестом Голдфелда – Квандта. Для этого всю выборку разобьём на три части по 20 наблюдений, рассчитаем уравнения регрессии поотдельности для первых 20 наблюдений и для последних 20 наблюдений и выпишем остаточные суммы квадратов этих уравнений (Sum squared resid). Получим для первой части выборки 1 246,276, а для третьей – 4 164,0 (рисунок 1.4 и рисунок 1.5). Обратите внимание на позицию Sample – выборка. В первом случае в окне спецификации было установлено «1 20» (т. е. первых 20 наблюдений), а во втором – «41 60» (последних 20 наблюдений).

Рисунок 1.4 – Регрессия для первых 20 наблюдений

Рисунок 1.5 – Регрессия для последних 20 наблюдений

Вычислим F-статистику как отношение этих двух дисперсий и сравним с критическим значением. Получим F = 3,34, а табличное значение F (20;20;0,05) = 2,1. Поскольку выборочное значение F-статистики оказалось больше табличного, то гипотеза о равенстве дисперсий отклоняется, и делаем вывод, что дисперсии различаются значимо, а значит, остатки анализируемого уравнения гетероскедастичны (растут с ростом доходов).

Тестирование предпосылки о нормальном законе распределения остатков проведём тестом Jarque – Bera, который сравнивает асимметрию и эксцесс остатков с асимметрией и эксцессом нормального закона распределения.

Чтобы провести это тестирование, необходимо после оценки уравнения регрессии сначала создать остатки, выбрав Proc/Make Residual Series…/OK. Затем выбрать View/Descriptive Statistics&Tests/Histogram and Stats. Получим рисунок 1.6. Здесь кроме гистограммы остатков приведены описательные статистики остатков, а также асимметрия (Skewness) и эксцесс (Kurtosis). Известно, что для нормального закона распределения эти характеристики равны соответственно 0 и 3. Статистика Jarque – Bera рассчитывается из соотношения

где n – объём выборки, k – число оцениваемых параметров, S – асимметрия, K – эксцесс. Поскольку в нашем случае вероятность больше 0,05, то гипотезе о нормальном законе распределения остатков не отклоняется.

Рисунок 1.6 – Гистограмма остатков и тест Jarque – Bera

Как поступить, если установлены наличие автокорреляции и гетероскедастичность остатков, а также тестирование второй предпосылки МНК – рассмотрим далее, при анализе уравнения множественной регрессии.

В зависимости от количества факторов, включенных в уравнение регрессии, принято различать простую (парную) и множественную регрессию.

Парная регрессия - регрессия между двумя переменными y и x , т.е. модель вида

где y - зависимая переменная (результативный признак);

x - независимая, объясняющая переменная (признак-фактор).

Спецификация модели - формулировка вида модели, исходя из соответствующей теории связи между переменными. Со спецификации модели начинается любое эконометрическое исследование.

Иными словами, исследование начинается с теории, устанавливающей связь между явлениями.

Прежде всего, из круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы.

Парная регрессия достаточна, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией

где yj -- фактическое значение результативного признака;

y xj --теоретическое значение результативного признака.

Случайная величина, характеризующая отклонения реального значения результативного признака от теоретического.

Случайная величина е называется также возмущением. Она включает влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения.

От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным у .

К ошибкам спецификации относятся неправильный выбор той или иной математической функции для, и недоучет в уравнении регрессии какого-либо существенного фактора, т. е. использование парной регрессии вместо множественной.

Наряду с ошибками спецификации имеет место ошибка выборки - исследователь чаще всего имеет дело с выборочными данными при установлении закономерной связи между признаками. Ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками.

Основное внимание в эконометрических исследованиях уделяется ошибкам спецификации модели. В парной регрессии выбор вида математической функции может быть осуществлен тремя способами: графическим ; аналитическим (исходя из теории изучаемой взаимосвязи) и экспериментальным .

Графический метод основан на поле корреляции. Аналитический метод основан на изучении материальной природы связи исследуемых признаков. Экспериментальный метод осуществляется путем сравнения величины остаточной дисперсии D ост , рассчитанной при разных моделях. Если фактические значения результативного признака совпадают с теоретическими то D ocm =0. Если имеют место отклонения фактических данных от теоретических то

Чем меньше величина остаточной дисперсии, тем лучше уравнение регрессии подходит к исходным данным.

Если остаточная дисперсия оказывается примерно одинаковой для нескольких функций, то на практике предпочтение отдается более простым видам функций, ибо они в большей степени поддаются интерпретации и требуют меньшего объема наблюдений. Число наблюдений должно в 6 -- 7 раз превышать число рассчитываемых параметров при переменной х.

Построение уравнения регрессии начинается с решения вопроса о спецификации модели, т.е. формулировки вида модели, исходя из теории, устанавливающей связь между явлениями. Она включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. Из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы.

От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным.

К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции, а также влияние лишней переменной и недоучет в уравнении регрессии какого-либо существенного фактора.

Влияние неучтенной переменной.

Пусть - истинная модель.

Т.о. по МНК: (для ложной модели).

А на самом деле: - несмещенная, эффективная, состоятельная.

Т.е. - смещенная оценка параметра (т.к. в модель не включен ).

Рассмотрим величину смещения оценки : .

В истинной модели и прямо воздействуют на у с силой воздействия и соответственно. В ложной модели прямо воздействуют на у с силой воздействия , а также замещает переменную в ее воздействии на у, т.е. имеет место эффект замещения .

Это замещение возможно, т.к. , т.е. между и есть связь: , где по МНК.

Влияние лишней переменной.

Пусть - истинная модель.

Будем рассматривать ложную модель . По выборке для этой модели мы оценили уравнение регрессии: .

Т.к. на самом деле , то - оценка , т.е.

При этом , т.е. - несмещенная оценка.

Однако (см. условия Г-М).

Т.о. оценка - неэффективная. Она менее точная, чем . Учет лишней переменной дает неточную оценку параметра.

Мультиколлинеарность.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. При дополнительном включении в регрессию фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, то включаемый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

3. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда для зависимости может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции.

Матрица коэффициентов корреляции:

y x z v
y
x 0,8
z 0,7 0,8
v 0,6 0,5 0,2

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если ( - парный коэффициент корреляции).

Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Очевидно, что факторы x и z дублируют друг друга. В анализ целесообразно включить фактор z , а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у (), но зато слабее межфакторная корреляция . Поэтому в данном случае в уравнение множественной регрессии включаются факторы z, v.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов.

Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга.

Мультиколлинеарность – ситуация, при которой линейная зависимость между независимыми переменными приводит к получению неэффективных, ненадежных оценок линейной регрессии.

Реальная (частичная) мультиколлинеарность возникает в случае существования достаточно тесных статистических связей между объясняющими переменными.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать вместе. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК:

предполагается, что , где

Общая сумма квадратов отклонений ;

Факторная (объясненная) сумма квадратов отклонений ;

Остаточная сумма квадратов отклонений .

В свою очередь, при независимости факторов друг от друга выполнимо равенство

Где

Суммы квадратов отклонений, обусловленные влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий :

· Затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

· Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делают модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции была бы единичной матрицей, поскольку все недиагональные элементы были бы равны 0. Так для уравнения регрессии, включающего три объясняющих переменных, матрица парных коэффициентов корреляции имела бы определитель, равный 1:

. , то гипотеза Н 0 отклоняется. Это означает, что , недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Существует ряд подходов преодоления сильной межфакторной корреляции .

1) Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов.

2) Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней , чтобы исключить влияние тенденции.

3) Используются такие методы, которые сводят к нулю межфакторную корреляцию, т.е. переходят от исходных переменных к их линейным комбинациям, не коррелированных друг с другом (метод главных компонент: с помощью метода главных компонент осуществляется переход к ортогонализированным объясняющим переменным. Эти новые объясняющие переменные представляют собой некоторые линейные комбинации исходных регрессоров, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали).

4) Решению проблемы устранения мультиколлинеарности факторов может помочь переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

5) К способам снижения мультиколлинеарности можно отнести увеличение объема выборки; увеличение (нерепрезентативность выборки→анализ ограниченной части генеральной совокупности→ занижена→оценки ненадежны); уменьшение (добавим важную переменную → снижается ); использование некоррелированных переменных: 1) использование теоретических ограничений на параметры модели, 2) использование внешних оценок.

В зависимости от количества факторов, включенных в уравнение регрессии, различают парную и множественную регрессии.

Уравнение взаимосвязи двух переменных и x называют парной регрессией , а зависимость y от нескольких объясняющих переменных = (x 1 , x 2 , ... x n )– множественной регрессией .

Уравнение парной регрессии имеет вид:

где - независимая переменная, влияющая на у ; – коэффициенты модели.

Как уже отмечалось, на первом этапе эконометрического исследования проводится выбор формы взаимосвязи переменных, т.е. осуществляется спецификация уравнения регрессии. С этой целью их круга факторов, влияющих на результирующую переменную у , выделяются наиболее существенно влияющие факторы. Парная регрессия считается достаточной, если можно выделить доминирующий фактор, который используется в качестве объясняющей (независимой) переменной. От правильности выбора спецификации модели зависит величина случайных ошибок: они тем меньше, чем ближе фактические данные у к рассчитанным по построенному уравнению значениям .

К ошибкам спецификации модели относится не только неправильный выбор той или иной математической функции f взаимосвязи переменных у и , но недоучет в уравнении регрессии какого-либо существенного фактора, т.е. использование парной регрессии вместо множественной.

В парной регрессии выбор математической функции можно осуществить графически, аналитически и экспериментальным путем.

Чаще всего для подбора вида уравнения парной регрессии используется графический метод , основанный на построении поля корреляции. Основные типы кривых, используемых при оценке взаимосвязей переменных, представлены на рисунке 1:




а) б) в)

Аналитический метод выбора типа уравнения регрессии состоит в изучении материальной природы взаимосвязи исследуемых факторов и учете степеней их влияния друг на друга в уравнении регрессии.

При использовании экспериментального метода строятся уравнения различных типов, а затем из них выбирается наилучшее с точки зрения величины дисперсии ошибки:

.

Чем меньше величина дисперсии ошибки, тем лучше построенное уравнение регрессии подходит к исходным данным.

© 2024 Про уют в доме. Счетчики газа. Система отопления. Водоснабжение. Система вентиляции