Учебник+

11.1. Оценка эффекта воздействия в идеальном эксперименте

Начнем с того, что договоримся о терминах. В качестве примера при обсуждении терминологии мы будем использовать гипотетическое исследование, в котором анализируется эффективность лечения. Представим, что мы рассматриваем несколько сотен индивидов, часть из которых подверглась госпитализации и лечению, а часть — нет. И нас интересует причинно-следственная связь между госпитализацией индивида и его уровнем здоровья (будем считать, что мы умеем измерять уровень здоровья численно).

В общем случае группа объектов, которая подверглась воздействию, называется испытуемой группой (treatment group). А группа, которая ему не подвергалась — контрольной группой (control group).

В нашем примере испытуемая группа — это те, кто был госпитализирован, а контрольная — это все остальные.

Для обозначения принадлежности объекта к той или иной группе будем использовать бинарную переменную \(D_i\).

\(D_i=1\), если \(i\)-ый объект вошел в группу, подвергшуюся воздействию (treatment group). В нашем примере \(D_i=1\), если \(i\)-ый индивид был госпитализирован. Уровень здоровья \(i\)-го индивида в этом случае будем обозначать \(Y_i\left(1\right)\).

\(D_i=0\), если \(i\)-ый объект вошел в контрольную группу (control group). Например, если индивид не был госпитализирован. Уровень здоровья \(i\)-го индивида в этом случае будем обозначать \(Y_i\left(0\right)\).

Тогда изменение здоровья индивида в результате госпитализации можно определить так:

\begin{equation*} Y_i\left(1\right)-Y_i\left(0\right) \end{equation*}

Эта величина называется эффект воздействия (treatment effect или causal effect) для \(i\)-го индивида. В нашем примере treatment effect для некоторого индивида — это величина, на которую изменится уровень его здоровья, если его подвергнуть лечению, по сравнению со случаем, если его не лечить.

Обратите внимание, что эффект воздействия зависит от индекса i, то есть может быть разным для различных индивидов. Если это так, то эффект воздействия называется гетерогенным. Подобная гетерогенность эффекта — достаточно естественная предпосылка во многих ситуациях. Например, для болеющего человека уровень здоровья сильно зависит от того, подвергнется он лечению или нет, а для человека с крепким здоровьем госпитализация не будет существенно влиять на самочувствие.

Если усреднить эффект воздействия по всем индивидам из генеральной совокупности, то мы получим так называемый средний эффект воздействия (average treatment effect, ATE). Примеры ATE:

  • На сколько в среднем увеличивается здоровье индивидов в результате их госпитализации?
  • На сколько в среднем увеличится успеваемость школьников, если обучать их в маленьком классе вместо класса нормальной величины?
  • На сколько в среднем изменится занятость в ресторанах быстрого питания в результате принятия закона о минимальной заработной плате?

Чтобы посчитать эффект воздействия, нужно вычислить разность \(Y_i\left(1\right)-Y_i\left(0\right)\). На практике это невозможно, так как ни для одного объекта мы не наблюдаем одновременно \(Y_i\left(1\right)\) и \(Y_i\left(0\right)\). Мы наблюдаем либо одно, либо другое. Действительно, данный конкретный индивид либо госпитализирован, либо нет. Если индивид госпитализирован, то мы наблюдаем \(Y_i\left(1\right)\). При этом мы не знаем достоверно, что было бы, если индивида не лечили, то есть мы не наблюдаем \(Y_i\left(0\right)\). Два эти значения называются потенциальными исходами (potential outcomes)

Уровень здоровья, который мы фактически наблюдаем — это и есть доступное нам в данных значение зависимой переменной для этого индивида (в англоязычной литературе его называют observed outcome):

\begin{equation*} Y_i=\left\{\begin{matrix}Y_i\left(1\right),\mathit{\text{е}\text{с}\text{л}\text{и}}D_i=1\\Y_i\left(0\right),\mathit{\text{е}\text{с}\text{л}\text{и}}D_i=0\end{matrix}\right. \end{equation*}

Иногда удобно записывать \(Y_i\) следующим образом:

\begin{equation*} Y_i=Y_i\left(0\right)+D_i{\ast}\left(Y_i\left(1\right)-Y_i\left(0\right)\right) \end{equation*}

Путем непосредственной подстановки нашей бинарной переменной легко убедиться, что обе записи эквиваленты.

Так как мы не можем непосредственно вычислить эффект воздействия для отдельного объекта \(Y_i\left(1\right)-Y_i\left(0\right)\), то мы не можем вычислить и его математическое ожидание \(E\left(Y_i\left(1\right)-Y_i\left(0\right)\right)\), то есть ATE. Мы не сможем его вычислить, даже если представить, что нам доступны данные по абсолютно всем объектам из генеральной совокупности.

Вместо этого мы можем попытаться оценить этот эффект, используя наблюдаемые данные.

В нашем примере можно попробовать оценить эффект от лечения, сопоставив ожидаемые уровни здоровья тех, кто был госпитализирован, с ожидаемым уровнем здоровья всех остальных. Для этого нужно вычислить такую величину:

\begin{equation*} E\left(Y_i|D_i=1\right)-E\left(Y_i|D_i=0\right) \end{equation*}

\(E\left(Y_i|D_i=1\right)\) — ожидаемое значение зависимой переменной для объектов, которые подверглись воздействию.

\(E\left(Y_i|D_i=0\right)\) — ожидаемое значение зависимой переменной для объектов, которые не подвергались воздействию.

Чтобы выяснить, как эта разница математических ожиданий соотносится с интересующей нас величиной ATE, осуществим такие преобразования:

\begin{equation*} E\left(Y_i|D_i=1\right)-E\left(Y_i|D_i=0\right)= \end{equation*}

\begin{equation*} E\left(Y_i\left(1\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=0\right)= \end{equation*}

\begin{equation*} E\left(Y_i\left(1\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=1\right)+\end{equation*}

\begin{equation*} +E\left(Y_i\left(0\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=0\right)= \end{equation*}

\begin{equation*} \underbrace{E\left(Y_i\left(1\right)-Y_i\left(0\right)|D_i=1\right)}_{\mathit{ATET}}+\underbrace{E\left(Y_i\left(0\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=0\right)}_{\mathit{selection}\mathit{bias}} \end{equation*}

Последнее выражение состоит из двух слагаемых:

  • \(E\left(Y_i\left(1\right)-Y_i\left(0\right)|D_i=1\right)\) — это средний эффект воздействия для индивидов, которые подверглись воздействию (average treatment effect on the treated, ATET)
  • \(E\left(Y_i\left(0\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=0\right)\) — это выражение называют смещением из-за самоотбора (selection bias). Первое слагаемое здесь — ожидаемый уровень здоровья госпитализированных людей ( \(D_i=1\)), если бы они не отправились лечиться ( \(Y_i\left(0\right)\)). Второе слагаемое — ожидаемый уровень здоровья людей, которые не пошли лечиться.

Таким образом, исходная разность математических ожиданий может быть записана так:

\begin{equation*} E\left(Y_i|D_i=1\right)-E\left(Y_i|D_i=0\right)=\mathit{ATET}+\mathit{selection}\mathit{bias} \end{equation*}

Если в нашем примере про больницы предположить, что люди сами решают, идти им лечиться или нет, то естественно ожидать отрицательного смещения из-за самоотбора. Потому что лечиться в этом случае отправятся люди с низким уровнем здоровья (то есть люди с низкими значениями \(Y_i\left(0\right)\)). Следовательно, разность математических ожиданий не будет равна интересующему нас эффекту воздействия.

Если же предположить, что индивиды случайным образом распределяются между испытуемой и контрольной группой в ходе контролируемого эксперимента, то наш вывод поменяется. Действительно, в условиях случайного распределения по группам (random assignment) попадание объекта в ту или иную группу не будет зависеть от его характеристик. В терминах математических ожиданий это будет означать, что

\begin{equation*} E\left(Y_i\left(0\right)|D_i=1\right)=E\left(Y_i\left(0\right)|D_i=0\right)=E\left(Y_i\left(0\right)\right) \end{equation*}

В такой ситуации смещение из-за самоотбора отсутствует:

\begin{equation*} \mathit{selection}\mathit{bias}=E\left(Y_i\left(0\right)|D_i=1\right)-E\left(Y_i\left(0\right)|D_i=0\right)=0. \end{equation*}

Следовательно, разность условных математических ожиданий равна интересующему нас среднему эффекту воздействия:

\begin{equation*} E\left(Y_i|D_i=1\right)-E\left(Y_i|D_i=0\right)=\mathit{ATET} \end{equation*}

Поскольку в соответствии с законом больших чисел математические ожидания могут быть состоятельно оценены средними, то состоятельная оценка среднего эффекта воздействия может быть вычислена следующим образом:

\begin{equation*} \overline Y_1-\overline Y_0=\widehat {\mathit{ATET}}. \end{equation*}

Здесь \(\overline Y_1\) — среднее по выборке значение зависимой переменной для объектов, попавших в испытуемую группу (в нашем примере это средний уровень здоровья для индивидов, подвергшихся госпитализации). \(\overline Y_0\) — среднее по выборке значение зависимой переменной для объектов, попавших в контрольную группу.

Ещё раз подчеркнем, что состоятельная оценка эффекта воздействия возможна только в условиях, когда смещение из-за самоотбора отсутствует. Контролируемый эксперимент — это ситуация, когда объекты независимо от своих характеристик случайным образом разделяются на две группы (испытуемую и контрольную). Следовательно, контролируемый эксперимент гарантирует отсутствие смещения из-за самоотбора. Это и обеспечивает фундаментальное теоретическое основание для использования экспериментальных данных с целью выявления причинно-следственных связей.

Оценка эффекта воздействия может быть получена и при помощи обычной парной регрессии. Для этого нужно оценить параметры модели:

\begin{equation*} \widehat Y_i=\widehat {\beta _1}+\widehat {\beta _2}{\ast}D_i \end{equation*}

Вспомнив формулы для обычного МНК, можно доказать (см. соответствующее задание в конце главы), что в этом случае МНК-оценка коэффициента при переменной будет в точности равна оценке интересующего нас среднего эффекта воздействия:

\begin{equation*} \widehat {\beta _2}=\overline{Y_1}-\overline{Y_0}\left(11.1\right) \end{equation*}

Если эксперимент построен корректно, то в обычной парной регрессии объясняющая переменная является экзогенной. Это возможно благодаря случайному распределению объектов по группам (благодаря random assignment). Поэтому обычная парная регрессия дает несмещенную и состоятельную оценку среднего эффекта воздействия. Следовательно, в регрессии не обязательно использовать контрольные переменные.

Тем не менее, есть две причины, по которым их использование все-таки может быть полезно:

  1. Увеличение точности оценивания: включение контрольных переменных позволяет лучше описать зависимую переменную, снизить стандартную ошибку регрессии и получить более точные оценки коэффициентов.
  2. Проверка качества рандомизации: если эксперимент построен правильно, и бинарная переменная D действительно экзогенна, то оценки коэффициента при этой переменной в парной и во множественной регрессии не должны сильно отличаться (так как обе оценки являются состоятельными).

Пример 11.1. Эксперимент STAR

В качестве примера использования экспериментальных данных в эконометрике, рассмотрим проект STAR (Student/Teacher Achievement Ratio), который был реализован в США в 80-х годах. Его авторы поставили перед собой цель выяснить, помогает ли обучение в меньших группах достигать больших академических успехов.

Этот вопрос важен не только с точки зрения образования, но и с экономической точки зрения, так как, чтобы учить школьников в маленьких классах, необходимо больше учителей, и, значит, для их оплаты необходимо больше бюджетных денег. Следовательно, нужно собирать больше налогов или отвлекать ресурсы от чего-то другого. Поэтому важно понять, есть ли какая-то существенная польза от уменьшения численности стандартного школьного класса.

Для того чтобы это выяснить, исследователям пришлось потратить 4 года и порядка 12 млн. долларов (и это в ценах 80-х годов) для проведения эксперимента. В нём было задействовано несколько тысяч американских школьников. Когда они поступали в начальную школу, их случайным образом распределяли по классам разного типа: некоторые классы имели стандартный размер (22-25 человек), а некоторые — уменьшенный (13-17 человек).

С деталями исследования вы можете познакомиться в статье (Krueger, 1999). Здесь мы сконцентрируемся на результатах расчетов для второклассников. Они представлены в таблице 11.1.

Зависимая переменная — результаты стандартизированного письменного теста, который проводился в конце каждого из четырех лет обучения (Stanford Achievement Test). То есть в конце каждого года обучения школьники во всех школах писали единый тест, что обеспечивало сравнимость их академических успехов.

Переменная интереса — это бинарная переменная, которая равна единице для школьников, попавших в испытуемую группу (treatment group), то есть для школьников, обучавшихся в маленьком классе (в таблице она обозначена как «Маленький класс»).

В таблице 11.1 вы также можете увидеть прочие переменные, которые были включены в те или иные спецификации модели:

  • Класс с дополнительной помощью — бинарная переменная, которая равна единице для школьников, обучавшихся в классе, где были доступны дополнительные консультации сверх обычных занятий. В ходе эксперимента такие классы тоже определялись случайным образом.
  • Белая/ Азиатская раса — бинарная переменная, равная единице для школьников, относящихся к одной из указанных рас.
  • Женщина — бинарная переменная, равная единице для девочек и нулю для мальчиков.
  • Право на бесплатный обед — бинарная переменная, равная единице для школьников, которые имели право на бесплатные ланчи. Эта переменная является замещающей переменной для дохода семьи, так как такое право получали школьники из малоимущих семей.
  • Белый учитель — бинарная переменная, равная единице для школьников, которых обучал учитель указанной расы.
  • Учитель-мужчина — это, как нетрудно догадаться, снова бинарная переменная, которая равна единице для школьников, которых обучал учитель-мужчина.
  • Опыт учителя и степень магистра — это переменные, характеризующие стаж учителя (в годах) и наличие у него степени магистра.
  • Кроме того, в некоторые спецификации включались бинарные переменные принадлежности к определенной школе (в исследовании приняли участие школьники из нескольких десятков школ).

Судя по результатам оценивания, случайное распределение школьников по классам было осуществлено корректно: попадание в тот или иной класс не коррелировано с прочими контрольными переменными. Такой вывод можно сделать в силу того, что изменения набора контрольных переменных не оказывают существенного влияния на коэффициент при переменной интереса. Во всех спецификациях этот коэффициент приблизительно равен 6.

Можно видеть, что эффект воздействия от попадания в маленький класс устойчив к выбору спецификации: он статистически значим на однопроцентном уровне во всех моделях. Таким образом, можно заключить, что обучение в маленьком классе увеличивает результаты школьника на итоговом тесте примерно на 6 баллов.

Таблица 11.1. Моделирование воздействия размера класса на результаты итогового теста

Объясняющая переменная (1) (2) (3) (4)
Маленький класс

5,93
(1,97)

6,33
(1,29)

5,83
(1,23)

5,79
(1,28)

Класс с дополнительной помощью

1,97
(2,05)

1,88
(1,10)

1,64
(1,07)

1,58
(1,06)

Белая/ Азиатская раса

6,35
(1,20)

6,36
(1,19)

Женщина

3,48
(0,60)

3,45
(0,60)

Право на бесплатный обед

-13,61
(0,72)

-13,61
(0,72)

Белый учитель

0,39
(1,75)

Учитель-мужчина

1,32
(3,96)

Опыт учителя

0,10
0,06

Степень магистра

-1,06
(1,06)

Фиксированные эффекты школ Нет Да Да Да
R2 0,01 0,22 0,28 0,28

Примечания: В таблице приведены результаты МНК-оценки модели для второклассников. Зависимая переменная — балл школьника за стандартизированный тест. Во всех моделях кроме перечисленных переменных включена константа, которая не приводится для экономии места. В скобках под оценками коэффициентов указаны робастные стандартные ошибки. Число наблюдений равно 5950. Источник: (Krueger, 1999).