Вспомните предпосылки классической линейной модели парной регрессии (сформулированы в параграфе 2.3) и множественной регрессии (в параграфе 3.2). В обоих случаях предпосылка №4 состояла в том, что дисперсия случайной ошибки постоянна: \(\mathit{var}{\left( \varepsilon_{i} \right) = \sigma^{2} = \mathit{const}}\). (гомоскедастичность случайных ошибок).
Если же дисперсия случайной ошибки не является постоянной: \(\mathit{var}{\left( \varepsilon_{i} \right) = \sigma_{i}^{2}}\neq\mathit{const}\), то есть четвертая предпосылка классической модели не выполняется, такая ситуация называется гетероскедастичностью.
Напомним, что интуитивно понять различие между двумя этими ситуациями можно, взглянув на рисунки 2.3а и 2.3б, приведенные в параграфе 2.3. Первый из них соответствует ситуации, когда дисперсия случайной ошибки постоянна, и поэтому разброс точек вокруг линии регрессии более-менее равномерен. Во втором случае наблюдается частный случай гетероскедастичности, а именно ситуация, когда дисперсия случайной ошибки \(\mathit{var}\left( \varepsilon_{i} \right)\) положительно зависит от \(x_{i}\), и поэтому разброс точек вокруг линии регрессии увеличивается по мере увеличения значения этой переменной.
Когда можно ожидать, что в реальном исследовании в данных будет наблюдаться гетероскедастичность? Представим, например, что мы анализируем зависимость потребления индивида от его располагаемого дохода. Тогда располагаемый доход индивида является объясняющей переменной \(x\). Понятно, что для групп индивидов с маленьким доходом, который измеряется десятками долларов в месяц, потребление будет разным, но оно, скорее всего, тоже будет измеряться десятками долларов в месяц. Соответственно, и разброс потребления (отклонение от линии регрессии) для этих индивидов также будет измеряться в десятках долларов. С другой стороны, если взять очень богатых индивидов, у которых доход измеряется десятками тысяч долларов, то и разброс потребления у них тоже будет составлять несколько тысяч долларов. Получается, что для бедных индивидов разброс потребления будет маленьким, а для богатых индивидов — большим. Это и есть ситуация гетероскедастичности.
Подчеркнем, что гетероскедастичность не обязательно имеет вид, приведенный на рисунке 2.3б, то есть дисперсия случайной ошибки не обязательно должна расти пропорционально какому-то регрессору. Зависимость дисперсии случайной ошибки от тех или иных переменных может иметь и более сложный характер.
Пусть выполнены все предпосылки классической линейной модели множественной регрессии за одним исключением: в данных наблюдается гетероскедастичность. Как это скажется на свойствах МНК-оценок коэффициентов? Перечислим основные последствия:
- МНК-оценки коэффициентов останутся несмещенными. В этом легко убедиться, если вернуться к параграфу 2.4 и обратить внимание, что предпосылка №4 об отсутствии гетероскедастичности никак не используется при доказательстве несмещенности.
- МНК-оценки коэффициентов больше не являются эффективными. Из того же параграфа 2.4 видно, что соответствующая предпосылка критична для доказательства эффективности.
- Стандартные ошибки оценок коэффициентов, рассчитанные по формуле для случая гомоскедастичности, оказываются смещенными и несостоятельными. Следовательно, их использование для тестирования гипотез и построения доверительных интервалов может привести к некорректным выводам.
Первые два перечисленных последствия говорят о том, что МНК-оценки коэффициентов в условиях гетероскедастичности хотя и теряют в точности, однако остаются в среднем правильными. Третье же последствие весьма критично, так как увеличивает вероятность неверной интерпретации результатов моделирования. Поэтому в следующем параграфе мы сконцентрируемся на методе решения этой проблемы.