Учебник+

5.1. Гетероскедастичность: определение и последствия

Вспомните предпосылки классической линейной модели парной регрессии (сформулированы в параграфе 2.3) и множественной регрессии (в параграфе 3.2). В обоих случаях предпосылка №4 состояла в том, что дисперсия случайной ошибки постоянна: \(\mathit{var}{\left( \varepsilon_{i} \right) = \sigma^{2} = \mathit{const}}\). (гомоскедастичность случайных ошибок).

Если же дисперсия случайной ошибки не является постоянной: \(\mathit{var}{\left( \varepsilon_{i} \right) = \sigma_{i}^{2}}\neq\mathit{const}\), то есть четвертая предпосылка классической модели не выполняется, такая ситуация называется гетероскедастичностью.

Напомним, что интуитивно понять различие между двумя этими ситуациями можно, взглянув на рисунки 2.3а и 2.3б, приведенные в параграфе 2.3. Первый из них соответствует ситуации, когда дисперсия случайной ошибки постоянна, и поэтому разброс точек вокруг линии регрессии более-менее равномерен. Во втором случае наблюдается частный случай гетероскедастичности, а именно ситуация, когда дисперсия случайной ошибки \(\mathit{var}\left( \varepsilon_{i} \right)\) положительно зависит от \(x_{i}\), и поэтому разброс точек вокруг линии регрессии увеличивается по мере увеличения значения этой переменной.

Когда можно ожидать, что в реальном исследовании в данных будет наблюдаться гетероскедастичность? Представим, например, что мы анализируем зависимость потребления индивида от его располагаемого дохода. Тогда располагаемый доход индивида является объясняющей переменной \(x\). Понятно, что для групп индивидов с маленьким доходом, который измеряется десятками долларов в месяц, потребление будет разным, но оно, скорее всего, тоже будет измеряться десятками долларов в месяц. Соответственно, и разброс потребления (отклонение от линии регрессии) для этих индивидов также будет измеряться в десятках долларов. С другой стороны, если взять очень богатых индивидов, у которых доход измеряется десятками тысяч долларов, то и разброс потребления у них тоже будет составлять несколько тысяч долларов. Получается, что для бедных индивидов разброс потребления будет маленьким, а для богатых индивидов — большим. Это и есть ситуация гетероскедастичности.

Подчеркнем, что гетероскедастичность не обязательно имеет вид, приведенный на рисунке 2.3б, то есть дисперсия случайной ошибки не обязательно должна расти пропорционально какому-то регрессору. Зависимость дисперсии случайной ошибки от тех или иных переменных может иметь и более сложный характер.

Пусть выполнены все предпосылки классической линейной модели множественной регрессии за одним исключением: в данных наблюдается гетероскедастичность. Как это скажется на свойствах МНК-оценок коэффициентов? Перечислим основные последствия:

  1. МНК-оценки коэффициентов останутся несмещенными. В этом легко убедиться, если вернуться к параграфу 2.4 и обратить внимание, что предпосылка №4 об отсутствии гетероскедастичности никак не используется при доказательстве несмещенности.
  2. МНК-оценки коэффициентов больше не являются эффективными. Из того же параграфа 2.4 видно, что соответствующая предпосылка критична для доказательства эффективности.
  3. Стандартные ошибки оценок коэффициентов, рассчитанные по формуле для случая гомоскедастичности, оказываются смещенными и несостоятельными. Следовательно, их использование для тестирования гипотез и построения доверительных интервалов может привести к некорректным выводам.

Первые два перечисленных последствия говорят о том, что МНК-оценки коэффициентов в условиях гетероскедастичности хотя и теряют в точности, однако остаются в среднем правильными. Третье же последствие весьма критично, так как увеличивает вероятность неверной интерпретации результатов моделирования. Поэтому в следующем параграфе мы сконцентрируемся на методе решения этой проблемы.