Гетероскедастичность — это типичная «болезнь» пространственных данных, поэтому лучше по умолчанию исходить из того, что она в вашей модели есть. Тем не менее, иногда бывает полезно уметь аккуратно проверить её наличие. Для этого можно использовать два традиционных подхода: графический анализ данных и формальные статистические тесты.
Один из способов выявления гетероскедастичности при помощи графического анализа состоит в том, чтобы построить диаграммы рассеяния, в каждой из которых по оси ординат стоит зависимая переменная, а по оси абсцисс — один из регрессоров. Если, разглядывая подобную диаграмму, вы видите нечто похожее на рисунок 2.3б, то у вас есть гетероскедастичность, связанная с соответствующим регрессором. Другой вариант состоит в анализе графика остатков регрессии. Отсортируйте остатки по возрастанию какой-либо объясняющей переменной и постройте их график. Если разброс остатков вокруг нуля равномерен (как, например, на рис. 5.1), то можно заключить, что гетероскедастичность, связанная с этим регрессором, в данных отсутствует. Если же на графике остатков явно видно, что их разброс вокруг нуля зависит от значения регрессора (как, например, на рис. 5.2), значит, гетероскедастичность есть.
Рисунок 5.1. Поведение остатков регрессии говорит в пользу гомоскедастичности
Рисунок 5.2. Поведение остатков регрессии говорит в пользу гетероскедастичности
Анализ графиков не всегда позволяет сделать однозначный вывод по поводу наличия или отсутствия гетероскедастичности, поэтому помимо него могут быть полезны соответствующие формальные статистические тесты. Ниже приводятся два наиболее часто используемых в настоящее время теста.
Тест Бреуша — Пагана
Тестируемая гипотеза в данном тесте состоит в том, что гетероскедастичности в модели нет:
\(H_{0}:{\sigma_{1}^{2} = \ldots = \sigma_{n}^{2}}\)
Альтернативная гипотеза — дисперсия случайной ошибки \(\varepsilon_{i}\) некоторым образом зависит от группы переменных:
\(H_{1}:{\sigma_{i}^{2} = {\gamma_{0} + \gamma_{1}}}{z_{i}^{(1)} + \ldots + \gamma_{p}}z_{i}^{(p)}\)
Здесь \(z_{i}^{(1)},z_{i}^{(2)},\ldots,z_{i}^{(p)}\) — набор переменных, которые предположительно влияют на дисперсию случайной ошибки. Обычно в качестве таких переменных берутся регрессоры из исходной модели, а также их квадраты.
Процедура осуществления теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки \(e_{i}\). Далее вычисляется вспомогательное значение \({{\overset{\sim}{\sigma}}^{2} = \frac{1}{n}}{\sum e_{i}^{2}}\). После этого необходимо оценить вспомогательное уравнение, в котором справа стоят переменные, потенциально влияющие на дисперсию случайной ошибки:
\({\frac{e_{i}^{2}}{{\overset{\sim}{\sigma}}^{2}} = {\gamma_{0} + \gamma_{1}}}{z_{i}^{(1)} + \ldots + \gamma_{p}}{z_{i}^{(p)} + u_{i}}\)
Далее вычисляется расчетное значение тестовой статистики по простой формуле: половина от объясненной суммы квадратов во вспомогательном уравнении.
Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с \(p\) степенями свободы. Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения \(\chi^{2}\) с \(p\) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность (необходимые таблицы доступны, например, в приложении к главе 6). В противном случае можно сделать вывод в пользу гомоскедастичности.
Тест Уайта
Тестируемая гипотеза в данном тесте снова состоит в том, что гетероскедастичности в модели нет:
\(H_{0}:{\sigma_{1}^{2} = \ldots = \sigma_{n}^{2}}\)
Альтернативная гипотеза — дисперсия случайной ошибки \(\varepsilon_{i}\) произвольным (возможно, нелинейным) образом зависит от переменных модели.
Процедура теста устроена так: сначала при помощи обычного МНК оценивается исходная модель (для которой мы хотим проверить отсутствие гетероскедастичности) и вычисляются соответствующие остатки \(e_{i}\). После этого необходимо оценить вспомогательное уравнение, в котором слева стоит \(e_{i}^{2}\), а справа — константа, регрессоры исходного уравнения, их квадраты и попарные произведения1.
Далее вычисляется расчетное значение тестовой статистики по следующей формуле
\({\left( {R^{2}\mathit{во}\mathit{вспомогательном}\mathit{уравнении}} \right) \ast n}.\)
Если верна нулевая гипотеза, то указанная статистика асимптотически имеет распределение Хи-квадрат с \(p\) степенями свободы (\(p\) — число регрессоров во вспомогательном уравнении). Поэтому, если расчетное значение больше критического значения, взятого из таблиц распределения \(\chi^{2}\) с \(p\) степенями свободы для выбранного исследователем уровня значимости, то следует отвергнуть нулевую гипотезу и заключить, что в данных есть гетероскедастичность. В противном случае можно сделать вывод в пользу гомоскедастичности2.
Закончить обсуждение вопроса выявления гетероскедастичности следует предостережением по поводу ложной гетероскедастичности. Ложной гетероскедастичностью называется ситуация, при которой формальные тесты указывают на наличие гетероскедастичности, однако в действительности дело вовсе не в ней, а в неверной спецификации уравнения. Хорошим примером может служить рисунок 4.5б, на котором представлена нелинейная зависимость между парой переменных. Если при этом ошибочно оценить линейную регрессию (соответствующая прямая линия изображена на рисунке), то статистические тесты будут говорить в пользу гетероскедастичности, так как поведение остатков технически будет зависеть от значения регрессора (см. нижний график на этом же рисунке). Однако в действительности гетероскедастичности в модели нет, а есть только нелинейная связь между переменными.
Важно различать истинную и ложную гетероскедастичность, так как они приводят к совершенно разным последствиям. Истинная гетероскедастичность не вызывает смещения оценок коэффициентов модели, в то время как ошибочная спецификация уравнения регрессии вызывает его, то есть является гораздо более серьезной проблемой.
Пример 5.3. Оценка эффективности использования удобрений (окончание)
Для модели, оцененной в примере 5.1, осуществите тест Уайта, используя пятипроцентный уровень значимости. Интерпретируйте полученные результаты.
Решение:
Результаты оценки вспомогательного уравнения для осуществления теста Уайта представлены ниже.
Тест Уайта на гетероскедастичность
МНК, использованы наблюдения 1-200
Зависимая переменная: квадраты остатков регрессии, оцененной в примере 5.1
Коэффициент Ст. ошибка t-статистика P-значение
--------------------------------------------------------------------
const -2270,16 5654,83 -0,4015 0,6886
FUNG1 0,482935 108,468 0,004452 0,9965
FUNG2 -150,789 95,3876 -1,581 0,1158
GIRB 1,82902 98,0229 0,01866 0,9851
INSEC 129,035 72,6436 1,776 0,0775 *
LABOUR 2,05511 4,84800 0,4239 0,6722
YDOB1 30,5354 43,6171 0,7001 0,4849
YDOB2 3,43369 50,1279 0,06850 0,9455
квадрат_FUNG1 0,0956897 0,0549105 1,743 0,0833 *
FUNG1*FUNG2 0,0294522 0,0492979 0,5974 0,5510
FUNG1*GIRB -0,0332633 0,0480171 -0,6927 0,4895
FUNG1*INSEC 0,0229300 0,0554156 0,4138 0,6796
FUNG1*LABOUR -0,00259087 0,00348456 -0,7435 0,4582
FUNG1*YDOB1 0,0104778 0,0246791 0,4246 0,6717
FUNG1*YDOB2 -0,0536699 0,0501448 -1,070 0,2861
квадрат_FUNG2 0,0919819 0,0646201 1,423 0,1565
FUNG2*GIRB -0,0931636 0,0529473 -1,760 0,0803 *
FUNG2*INSEC -0,0878293 0,0548646 -1,601 0,1113
FUNG2*LABOUR -0,00520969 0,00419928 -1,241 0,2165
FUNG2*YDOB1 0,0829467 0,0471221 1,760 0,0802 *
FUNG2*YDOB2 -0,0118900 0,0437395 -0,2718 0,7861
квадрат_GIRB -0,0598434 0,0581283 -1,030 0,3048
GIRB*INSEC -0,0361947 0,0561232 -0,6449 0,5199
GIRB*LABOUR 0,00279620 0,00413522 0,6762 0,4999
GIRB*YDOB1 0,0287539 0,0384965 0,7469 0,4562
GIRB*YDOB2 0,0537695 0,0489420 1,099 0,2735
квадрат_INSEC -0,0406052 0,0570708 -0,7115 0,4778
INSEC*LABOUR -0,00562133 0,00477862 -1,176 0,2412
INSEC*YDOB1 0,0367439 0,0296061 1,241 0,2163
INSEC*YDOB2 -0,0599689 0,0474392 -1,264 0,2080
квадрат_LABOUR -0,000342326 0,000950427 -0,3602 0,7192
LABOUR*YDOB1 -0,00130669 0,00215676 -0,6059 0,5454
LABOUR*YDOB2 0,00492378 0,00240166 2,050 0,0419 **
квадрат_YDOB1 -0,0176598 0,00913794 -1,933 0,0550 *
YDOB1*YDOB2 -0,0352604 0,0255207 -1,382 0,1690
квадрат_YDOB2 0,0194422 0,0232499 0,8362 0,4042
Неисправленный R-квадрат = 0,280856
Тестовая статистика: n*R-квадрат = 56,171138,
р-значение = P(Хи-квадрат(35) > 56,171138) = 0,013059
В учебных целях мы привели оцененное уравнение полностью, хотя обычно в этом нет нужды, так как для осуществления теста достаточно знать только количество переменных в этом уравнении, его R-квадрат и число наблюдений. Обратите внимание, что число регрессоров тут действительно велико из-за добавления квадратов и попарных произведений переменных из исходного уравнения.
В нашем случае P-значение для осуществляемого теста (представленное в самом низу таблицы с результатами) составляет 0,013. Это меньше, чем 0,05. Поэтому при уровне значимости 5% следует отвергнуть нулевую гипотезу данного теста. Напомним, что нулевая гипотеза теста Уайта состоит в том, что в модели нет гетероскедастичности. Следовательно, отвергая её, мы должны заключить: в нашем случае в данных наблюдается гетероскедастичность.
-
Обратите внимание, что добавлять нужно только такие квадраты и попарные произведения, включение которых в модель не приводит к чистой мультиколлинеарности. Например, квадраты фиктивных переменных добавлять не стоит, так как они будут принимать в точности такие же значения, что и исходные переменные (\(0^{2} = 0\) и \(1^{2} = 1\)).↩︎
-
В XX веке для выявления гетероскедастчиности использовался широкий спектр альтернативных тестов: Голдфелда — Квандта, Спирмена, Глейзера и Парка. Они остались за рамками этой книги, поскольку в современных исследованиях применяются редко.↩︎