7.1. Эндогенность из-за пропуска существенной переменной

Пусть выполнены все предпосылки линейной модели со стохастическими регрессорами, и на зависимую переменную влияют два фактора:

\(y_{i} = \beta_{1} + \beta_{2}*x_{i} + \beta_{3}*w_{i} + \varepsilon_{i},\ \ \beta_{3} \neq 0\ \ \ \ \ \ \ \ \ \ \ \ (7.1)\)

Файл с примером

Представим, что мы игнорируем второй фактор и оцениваем парную регрессию переменной y по переменной x.

\({\widehat{y}}_{i} = \widehat{\beta_{1}} + \widehat{\beta_{2}}x_{i}.\)

В третьей главе мы показали, что в этом случае МНК-оценка будет, вообще говоря, смещена, что само по себе является достаточно серьезной проблемой. На самом деле, в большинстве ситуаций (кроме одного частного случая) она будет ещё и несостоятельной. То есть возникшую проблему нельзя будет компенсировать использованием сколь угодно большого массива данных. Докажем это:

\(\widehat{\beta_{2}} = \frac{\widehat{\text{cov}}(x,y)}{\widehat{\text{var}}(x)}\text{~~}\overset{\text{~~p~~}}{\rightarrow}\ \frac{\text{cov}\left( x_{i},y_{i} \right)}{\text{var}\left( x_{i} \right)} = \frac{\text{cov}\left( x_{i},\beta_{1} + \beta_{2}*x_{i} + \beta_{3}*w_{i} + \varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \frac{\beta_{2}*cov\left( x_{i},\ x_{i} \right) + \beta_{3}*cov\left( x_{i},\ w_{i} \right) + cov\left( x_{i},\ \varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \beta_{2} + \beta_{3}\frac{cov(x_{i},\ w_{i})}{\text{var}\left( x_{i} \right)} + \frac{cov(x_{i},\ \varepsilon_{i})}{\text{var}\left( x_{i} \right)} = \beta_{2} + \beta_{3}\frac{cov(x_{i},\ w_{i})}{\text{var}\left( x_{i} \right)}\)

Из этого соотношения ясно, что если, например, \(\beta_{3} > 0\) и \(\text{cov}\left( x_{i},\ w_{i} \right) > 0\), то МНК-оценка коэффициента \(\beta_{2}\) в парной регрессии будет несостоятельна и завышена:

\(\widehat{\beta_{2}}\overset{\text{~~p~~}}{\rightarrow}\beta_{2} + \beta_{3}\frac{cov(x_{i},\ w_{i})}{\text{var}\left( x_{i} \right)} > \beta_{2}.\)

Отметим, что в этом случае интересующая нас переменная \(\mathbf{x}\) действительно оказывается эндогенной (что, собственно, и приводит к проблеме). Действительно: при пропуске переменной \(\mathbf{w}\) этот пропущенный фактор как бы остается внутри случайной ошибки. Иными словами, исходную модель можно переписать вот так:

\(y_{i} = \beta_{1} + \beta_{2}*x_{i} + u_{i},\)

Где \(u_{i} = \beta_{3}*w_{i} + \varepsilon_{i}\). Поэтому \(\text{cov}\left( x_{i},\ u_{i} \right) = \text{cov}\left( x_{i},\ \beta_{3}*w_{i} + \varepsilon_{i} \right) =\)
\(= \beta_{3}\text{cov}\left( x_{i},w_{i} \right) + \text{cov}\left( x_{i},\ \varepsilon_{i} \right) = \beta_{3}\text{cov}\left( x_{i},w_{i} \right) > 0\). То есть, хотя регрессор \(\mathbf{x}\) не коррелирован со случайной ошибкой исходной модели (\(\mathbf{\varepsilon}\)), однако он коррелирован со случайной ошибкой оцениваемой парной регрессии (\(\mathbf{u}\)).

Единственный случай, в котором регрессор остается экзогенным, а МНК-оценка останется состоятельной — это ситуация некоррелированности интересующего нас регрессора и пропущенной переменной: \(\text{cov}\left( x_{i},\ w_{i} \right) = 0\). Если это так, то:

\(\widehat{\beta_{2}}\overset{\text{~~p~~}}{\rightarrow}\beta_{2} + \beta_{3}\frac{0}{\text{var}\left( x_{i} \right)} = \beta_{2}.\)

Как можно решить проблему эндогенности регрессора из-за пропуска существенной переменной? Ответ на этот вопрос зависит от того, в какой из двух возможных ситуаций мы находимся: в простой или в сложной. Рассмотрим их последовательно.

Ситуация 1 (простая). Пропущенная переменная наблюдаема

Эта ситуация, в которой у вас есть данные о пропущенной переменной. Тогда, как вы наверняка уже догадались, для решения проблемы нужно просто добавить пропущенную переменную в модель. В реальных исследованиях таких пропущенных переменных обычно не одна, а несколько (так как мир устроен сложно, и на зависимую переменную обычно влияют сразу много факторов). Что ж, тогда нужно добавить их все.

Переменные, которые вы добавляете в модель, чтобы устранить смещение оценки нужного вам коэффициента, называют контрольными.

Сформулируем два определения:

Переменная интереса (variable of interest) — фактор, влияние которого на зависимую переменную нас интересует.
Контрольные переменные (control variables) — переменные, которые мы включаем в модель для того, чтобы избежать смещения коэффициента при интересующей нас переменной.

Получение состоятельных оценок коэффициентов при контрольных переменных для исследователя зачастую не критично. И в целом получить состоятельные оценки коэффициентов при каждой переменной в модели множественной регрессии — это часто слишком амбициозная задача. Состоятельно оценить влияние переменной интереса — это уже успех.

Обратите внимание: с технической точки зрения (например, с точки зрения формул для вычисления МНК-оценок) нет разницы между контрольными переменными и переменными интереса. Разделение связано только с содержательными соображениями: интересующим вас исследовательским вопросом.

Пусть, например, ваш вопрос: влияет ли образование на уровень доходов? В этом случае в регрессии:

\(\text{EARNINGS}_{i} = \beta_{1} + \beta_{2}S_{i} + \beta_{3}\text{EXP}_{i} + \beta_{4}\text{FEMALE}_{i} + \varepsilon_{i}\)

переменная \(S\), обозначающая число лет обучения респондента, будет переменной интереса. А переменные \(\text{EXP}\) и \(\text{FEMALE}\), характеризующие опыт работы и пол респондента, соответственно, будут контрольными.

Однако если ваша статья посвящена исследованию дискриминации на рынке труда, то вы можете оценивать ту же самую модель, считая переменной интереса регрессор \(\text{FEMALE}\), так как именно он обозначает интересную вам характеристику работника. Контрольными переменными в этом случае будут факторы \(S\) и \(\text{EXP}\).

Так как включение дополнительных переменных в модель позволяет избежать несостоятельности коэффициентов, кажется, что разумно включать их в модель как можно больше. Просто на всякий случай. Приведет ли это к каким-то проблемам? Иными словами, к каким последствиям приводит включение в модель несущественного регрессора? Несущественным мы будем называть регрессор, который на самом деле не оказывает никакого влияния на зависимую переменную.

Последствия включения в модель несущественной переменной:

1. Коэффициенты при прочих переменных остаются несмещенными и состоятельными. Действительно, если новый регрессор не влияет на зависимую переменную, то можно всё равно считать, что он входит в модель, просто истинный коэффициент при нём равен нулю.

2. Из-за необходимости оценивать большее количество коэффициентов, а также из-за вероятной мультиколлинеарности увеличивается дисперсия оценок коэффициентов, то есть снижается точность модели.

Таким образом, включить в модель лишнюю переменную не так страшно, как пропустить нужную. Ведь в первом случае нет несостоятельности оценок, а во втором она возникает. Однако слишком много несущественных переменных включать в уравнение нецелесообразно, так как это негативно сказывается на точности ваших результатов.

Поэтому хочется иметь набор правил, чтобы принимать решение, включать ли ту или иную переменную в уравнение. Ниже приведены некоторые соображения по этому поводу.

Критерии для включения переменной в модель:

1. Роль переменной в уравнении опирается на прочные теоретические основания. Ну или хотя бы на здравый смысл.

2. Переменная статистически значима

3. Оценки других коэффициентов сильно меняются при включении новой переменной в модель. Это значит, что до этого они страдали от смещения из-за пропуска существенной переменной. Теперь вы эту существенную переменную добавили, и смещение пропало.

4. Скорректированный R-квадрат существенно увеличивается в результате включения переменной в модель

Ситуация 2 (сложная). Пропущенная переменная не наблюдаема

Эта ситуация, в которой у вас отсутствуют данные о пропущенной переменной и достать их невозможно. В этом случае говорят, что пропущенная переменная является ненаблюдаемой.

Важным частным случаем является проблема самоотбора. Представим, что вы снова обратились к одному из наших любимых примеров: оценке влияния образования на уровень дохода. Вполне возможно, что индивиды принимают решение, получать ли им образование или нет, в зависимости от некоторого не наблюдаемого исследователем фактора. Скажем, уровня таланта. Более талантливые индивиды после школы чаще принимают решение продолжить обучение в университете. Это и называется самоотбором. Тогда в терминах нашего уравнения (6.1) \(y_{i}\) — это доход i-го индивида, \(x_{i}\) — уровень его образования, а \(w_{i}\) — ненаблюдаемый уровень таланта. Причем \(\text{cov}\left( x_{i},w_{i} \right) > 0\), так как талантливые люди чаще решают получить высшее образование, и \(\beta_{3} > 0\), так как талант в среднем способствует получению более высоких доходов.

Ясно, что это как раз тот случай, когда

\(\widehat{\beta_{2}}\overset{\text{~~p~~}}{\rightarrow}\beta_{2} + \beta_{3}\frac{cov(x_{i},\ w_{i})}{\text{var}\left( x_{i} \right)} > \beta_{2},\)

и МНК-оценка будет завышать пользу от образования.

Так как в этой ситуации мы не можем просто включить в уравнение нужную переменную, придется придумать что-то другое. К счастью, можно указать целых четыре пути решения проблемы эндогенности из-за пропуска ненаблюдаемой существенной переменной:

Рассмотрим каждый из этих путей.

Замещающие переменные. Замещающей переменной называется переменная, которая тесно коррелирована с ненаблюдаемой существенной переменной и при этом является наблюдаемой.

В нашем примере с образованием такой переменной могли бы быть результаты IQ-теста. Ясно, что никакой тест не способен в полной мере описать природные способности человека, однако также ясно, что результаты хороших тестов будут коррелированы с этими способностями.

Другой пример: представим, что вам важно измерить то, насколько удобно вести бизнес в данной стране. Удобство ведения бизнеса зависит от множества параметров, которые трудно измерить количественно, например, характеристики законодательства; то, насколько это законодательство соблюдается; уровень коррупции и так далее. Поэтому напрямую переменную «удобство ведения бизнеса» включить в регрессионное уравнение не получится. Однако вместо неё вы можете использовать в качестве замещающей переменной один из многочисленных индексов, которые рассчитываются разными службами для оценки качества бизнес-среды. Например, индекс Ease of Doing Business Index (индекс легкости ведения бизнеса), который рассчитывается Мировым банком для сопоставления степени простоты ведения предпринимательской деятельности в разных странах.

Включение замещающей переменной устраняет несостоятельность оценки коэффициента при регрессоре из-за пропуска существенного ненаблюдаемого фактора.

Инструментальные переменные. В некоторых случаях у вас отсутствует переменная, тесно коррелированная с пропущенным ненаблюдаемым фактором, поэтому применить подход с замещающими переменными тоже невозможно. Зато вы можете отыскать данные о переменной, которая, наоборот, вообще не коррелирована с пропущенным ненаблюдаемым фактором и при этом коррелирована с вашей переменной интереса.

В нашем примере в странах, где образование преимущественно платное, такой переменной мог бы быть, например, доход родителей индивида. Вряд ли богатство родителей гарантирует талант ребенка, однако оно даёт ему гораздо больше возможностей для продолжения обучения.

Оказывается, что такую переменную также можно применить для решения эндогенности. Как это сделать, мы подробно обсудим в главе 8.

Модели с фиксированными эффектами. Если вы располагаете данными за несколько периодов и пропущенный ненаблюдаемый фактор с течением времени меняется медленно (или вообще не меняется), то для получения состоятельных оценок коэффициентов подойдут модели, использующие панельные данные. В частности, модели с фиксированными эффектами. Их применение подробно обсуждается в главе 9.

Контролируемый эксперимент. Представим, что в нашем примере был выпущен закон, в соответствии с которым в определенном регионе страны индивидам отныне запрещено самостоятельно решать, сколько лет они будут учиться. Теперь это определяется случайным образом, скажем, в ходе специальной лотереи. Законом строго предписывается, что каждому следует учиться ровно столько, сколько ему выпало в лотерее, и государству удается обеспечить его неукоснительное выполнение.

Конечно, на практике трудно представить себе такую ситуацию, однако, используя свою силу воображения, вы сможете это сделать. Окажется, что в этом случае талант индивида больше никак не коррелирован с продолжительностью обучения (так как эта продолжительность определяется случайным образом, независимым от таланта): \(\text{cov}\left( x_{i},w_{i} \right) = 0\). Поэтому теперь МНК-оценка отдачи от образования снова станет состоятельной:

\(\widehat{\beta_{2}}\overset{\text{~~p~~}}{\rightarrow}\beta_{2} + \beta_{3}\frac{0}{\text{var}\left( x_{i} \right)} = \beta_{2}.\)

Мы описали пример контролируемого эксперимента. Можно видеть, что такой подход также решает проблему эндогенности. В главе 1 мы уже упоминали преимущества использования экспериментальных данных. Более детально мы обсудим этот вопрос в главе 11, где будет освещен ряд соответствующих продвинутых методов¹.

В этом параграфе мы проанализировали широкий арсенал методов устранения эндогенности, вызванной пропуском существенной переменной. В следующих параграфах нас ждет аналогичное обсуждение для других источников эндогенности.

Примеры контролируемых экспериментов в оценке эффективности образования также вовсе не всегда являются утопией. Так, в 80-х годах XX века в Далласе несколько тысяч школьников в ходе контролируемого эксперимента случайным образом распределялись по классам разного размера. Детали этой истории вы можете найти в главе 11 данного учебника или в работе Kreuger (1999) Experimental Estimates of Education Production Functions // The Quarterly Journal of Economics.↩︎