5.4. Выявление гетероскедастичности

Гетероскедастичность — это типичная «болезнь» пространственных данных, поэтому лучше по умолчанию исходить из того, что она в вашей модели есть. Тем не менее, иногда бывает полезно уметь аккуратно проверить её наличие. Для этого можно использовать два традиционных подхода: графический анализ данных и формальные статистические тесты.

Один из способов выявления гетероскедастичности при помощи графического анализа состоит в том, чтобы построить диаграммы рассеяния, в каждой из которых по оси ординат стоит зависимая переменная, а по оси абсцисс — один из регрессоров. Если, разглядывая подобную диаграмму, вы видите нечто похожее на рисунок 2.3б, то у вас есть гетероскедастичность, связанная с соответствующим регрессором. Другой вариант состоит в анализе графика остатков регрессии. Отсортируйте остатки по возрастанию какой-либо объясняющей переменной и постройте их график. Если разброс остатков вокруг нуля равномерен (как, например, на рис. 5.1), то можно заключить, что гетероскедастичность, связанная с этим регрессором, в данных отсутствует. Если же на графике остатков явно видно, что их разброс вокруг нуля зависит от значения регрессора (как, например, на рис. 5.2), значит, гетероскедастичность есть.

Рисунок 5.1. Поведение остатков регрессии говорит в пользу гомоскедастичности

Рисунок 5.2. Поведение остатков регрессии говорит в пользу гетероскедастичности

Анализ графиков не всегда позволяет сделать однозначный вывод по поводу наличия или отсутствия гетероскедастичности, поэтому помимо него могут быть полезны соответствующие формальные статистические тесты. Ниже приводятся два наиболее часто используемых в настоящее время теста.

Тест Бреуша — Пагана

Тестируемая гипотеза в данном тесте состоит в том, что гетероскедастичности в модели нет:

\(H_{0}:{\sigma_{1}^{2} = \ldots = \sigma_{n}^{2}}\)

Альтернативная гипотеза — дисперсия случайной ошибки \(\varepsilon_{i}\) некоторым образом зависит от группы переменных:

\(H_{1}:{\sigma_{i}^{2} = {\gamma_{0} + \gamma_{1}}}{z_{i}^{(1)} + \ldots + \gamma_{p}}z_{i}^{(p)}\)

Здесь \(z_{i}^{(1)},z_{i}^{(2)},\ldots,z_{i}^{(p)}\) — набор переменных, которые предположительно влияют на дисперсию случайной ошибки. Обычно в качестве таких переменных берутся регрессоры из исходной модели, а также их квадраты.

Процедура осуществления теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки \(e_{i}\). Далее вычисляется вспомогательное значение \({{\overset{\sim}{\sigma}}^{2} = \frac{1}{n}}{\sum e_{i}^{2}}\). После этого необходимо оценить вспомогательное уравнение, в котором справа стоят переменные, потенциально влияющие на дисперсию случайной ошибки:

\({\frac{e_{i}^{2}}{{\overset{\sim}{\sigma}}^{2}} = {\gamma_{0} + \gamma_{1}}}{z_{i}^{(1)} + \ldots + \gamma_{p}}{z_{i}^{(p)} + u_{i}}\)

Далее вычисляется расчетное значение тестовой статистики по простой формуле: половина от объясненной суммы квадратов во вспомогательном уравнении.

Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с \(p\) степенями свободы. Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения \(\chi^{2}\) с \(p\) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность (необходимые таблицы доступны, например, в приложении к главе 6). В противном случае можно сделать вывод в пользу гомоскедастичности.

Тест Уайта

Тестируемая гипотеза в данном тесте снова состоит в том, что гетероскедастичности в модели нет:

\(H_{0}:{\sigma_{1}^{2} = \ldots = \sigma_{n}^{2}}\)

Альтернативная гипотеза — дисперсия случайной ошибки \(\varepsilon_{i}\) произвольным (возможно, нелинейным) образом зависит от переменных модели.

Процедура теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки \(e_{i}\). После этого необходимо оценить вспомогательное уравнение, в котором слева стоит \(e_{i}^{2}\), а справа — константа, регрессоры исходного уравнения, их квадраты и попарные произведения¹.

Далее вычисляется расчетное значение тестовой статистики по следующей формуле

\({\left( {R^{2}\mathit{во}\mathit{вспомогательном}\mathit{уравнении}} \right) \ast n}.\)

Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с \(p\) степенями свободы (\(p\) — число регрессоров во вспомогательном уравнении). Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения \(\chi^{2}\) с \(p\) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность. В противном случае можно сделать вывод в пользу гомоскедастичности².

Закончить обсуждение вопроса выявления гетероскедастичности следует предостережением по поводу ложной гетероскедастичности. Ложной гетероскедастичностью называется ситуация, при которой формальные тесты указывают на наличие гетероскедастичности, однако в действительности дело вовсе не в ней, а в неверной спецификации уравнения. Хорошим примером может служить рисунок 4.5б, на котором представлена нелинейная зависимость между парой переменных. Если при этом ошибочно оценить линейную регрессию (соответствующая прямая линия изображена на рисунке), то статистические тесты будут говорить в пользу гетероскедастичности, так как поведение остатков технически будет зависеть от значения регрессора (см. нижний график на этом же рисунке). Однако в действительности гетероскедастичности в модели нет, а есть только нелинейная связь между переменными.

Важно различать истинную и ложную гетероскедастичность, так как они приводят к совершенно разным последствиям. Истинная гетероскедастичность не вызывает смещения оценок коэффициентов модели, в то время как ошибочная спецификация уравнения регрессии вызывает его, то есть является гораздо более серьезной проблемой.

Пример 5.3. Оценка эффективности использования удобрений (окончание)

Для модели, оцененной в примере 5.1, осуществите тест Уайта, используя пятипроцентный уровень значимости. Интерпретируйте полученные результаты.

Решение:

Результаты оценки вспомогательного уравнения для осуществления теста Уайта представлены ниже.

Тест Уайта на гетероскедастичность

МНК, использованы наблюдения 1-200

Зависимая переменная: квадраты остатков регрессии, оцененной в примере 5.1

Коэффициент Ст. ошибка t-статистика P-значение

--------------------------------------------------------------------

const -2270,16 5654,83 -0,4015 0,6886

FUNG1 0,482935 108,468 0,004452 0,9965

FUNG2 -150,789 95,3876 -1,581 0,1158

GIRB 1,82902 98,0229 0,01866 0,9851

INSEC 129,035 72,6436 1,776 0,0775 *

LABOUR 2,05511 4,84800 0,4239 0,6722

YDOB1 30,5354 43,6171 0,7001 0,4849

YDOB2 3,43369 50,1279 0,06850 0,9455

квадрат_FUNG1 0,0956897 0,0549105 1,743 0,0833 *

FUNG1*FUNG2 0,0294522 0,0492979 0,5974 0,5510

FUNG1*GIRB -0,0332633 0,0480171 -0,6927 0,4895

FUNG1*INSEC 0,0229300 0,0554156 0,4138 0,6796

FUNG1*LABOUR -0,00259087 0,00348456 -0,7435 0,4582

FUNG1*YDOB1 0,0104778 0,0246791 0,4246 0,6717

FUNG1*YDOB2 -0,0536699 0,0501448 -1,070 0,2861

квадрат_FUNG2 0,0919819 0,0646201 1,423 0,1565

FUNG2*GIRB -0,0931636 0,0529473 -1,760 0,0803 *

FUNG2*INSEC -0,0878293 0,0548646 -1,601 0,1113

FUNG2*LABOUR -0,00520969 0,00419928 -1,241 0,2165

FUNG2*YDOB1 0,0829467 0,0471221 1,760 0,0802 *

FUNG2*YDOB2 -0,0118900 0,0437395 -0,2718 0,7861

квадрат_GIRB -0,0598434 0,0581283 -1,030 0,3048

GIRB*INSEC -0,0361947 0,0561232 -0,6449 0,5199

GIRB*LABOUR 0,00279620 0,00413522 0,6762 0,4999

GIRB*YDOB1 0,0287539 0,0384965 0,7469 0,4562

GIRB*YDOB2 0,0537695 0,0489420 1,099 0,2735

квадрат_INSEC -0,0406052 0,0570708 -0,7115 0,4778

INSEC*LABOUR -0,00562133 0,00477862 -1,176 0,2412

INSEC*YDOB1 0,0367439 0,0296061 1,241 0,2163

INSEC*YDOB2 -0,0599689 0,0474392 -1,264 0,2080

квадрат_LABOUR -0,000342326 0,000950427 -0,3602 0,7192

LABOUR*YDOB1 -0,00130669 0,00215676 -0,6059 0,5454

LABOUR*YDOB2 0,00492378 0,00240166 2,050 0,0419 **

квадрат_YDOB1 -0,0176598 0,00913794 -1,933 0,0550 *

YDOB1*YDOB2 -0,0352604 0,0255207 -1,382 0,1690

квадрат_YDOB2 0,0194422 0,0232499 0,8362 0,4042

Неисправленный R-квадрат = 0,280856

Тестовая статистика: n*R-квадрат = 56,171138,

р-значение = P(Хи-квадрат(35) > 56,171138) = 0,013059

В учебных целях мы привели оцененное уравнение полностью, хотя обычно в этом нет нужды, так как для осуществления теста достаточно знать только количество переменных в этом уравнении, его R-квадрат и число наблюдений. Обратите внимание, что число регрессоров тут действительно велико из-за добавления квадратов и попарных произведений переменных из исходного уравнения.

В нашем случае P-значение для осуществляемого теста (представленное в самом низу таблицы с результатами) составляет 0,013. Это меньше, чем 0,05. Поэтому при уровне значимости 5% следует отвергнуть нулевую гипотезу данного теста. Напомним, что нулевая гипотеза теста Уайта состоит в том, что в модели нет гетероскедастичности. Следовательно, отвергая её, мы должны заключить: в нашем случае в данных наблюдается гетероскедастичность.

Обратите внимание, что добавлять нужно только такие квадраты и попарные произведения, включение которых в модель не приводит к чистой мультиколлинеарности. Например, квадраты фиктивных переменных добавлять не стоит, так как они будут принимать в точности такие же значения, что и исходные переменные (\(0^{2} = 0\) и \(1^{2} = 1\)).↩︎
В XX веке для выявления гетероскедастчиности использовался широкий спектр альтернативных тестов: Голдфелда — Квандта, Спирмена, Глейзера и Парка. Они остались за рамками этой книги, поскольку в современных исследованиях применяются редко.↩︎