Учебник+

11.4. Разрывный регрессионный дизайн

В некоторых квазиэкспериментах вероятность того, что объект подвергнется воздействию, является разрывной функцией от наблюдаемой переменной (или группы переменных). В этом случае для оценки эффекта воздействия может быть применен разрывный регрессионный дизайн (regression discontinuity design, RDD).

Он бывает двух видов: четкий (sharp) и нечеткий (fuzzy). Рассмотрим их последовательно.

Четкий разрывный дизайн

Представим, например, что вы хотите оценить влияние обучения индивида в магистратуре университета N на его будущий доход. Скажем, у вас есть результаты вступительных экзаменов в эту магистратуру в 2010 году для всех абитуриентов, а также данные об их доходах в 2020 году. Доход является зависимой переменной. Для поступления в эту магистратуру нужно сдать вступительный экзамен. Пусть проходной балл в 2010 году составил 150 баллов из 200 возможных. В этом случае, если абитуриент набрал 150 и более баллов, то он поступает в магистратуру (то есть оказывается в испытуемой группе). Если же он набрал 149 баллов, то не поступает (то есть оказывается в контрольной группе).

Такая организация данных возникает и в других случаях, когда назначение воздействия определяется какими-то формальными правилами. Например, в двухпартийной системе кандидат от партии побеждает на выборах, если набирает больше половины голосов. Или финансовая помощь может назначаться индивиду, если его доход оказывается ниже некоторого порогового уровня.

Для определенности мы продолжим концентрироваться на примере с поступлением в университет N. В этом случае испытуемая группа — это выпускники университета N, которые в свое время успешно в него поступили, набрав проходной балл. Контрольная группа — это те абитуриенты, которые в свое время не смогли поступить в университет N.

Понятно, что простое сравнение средних уровней доходов в испытуемой и контрольной группе не даст нам состоятельной оценки эффекта от обучения в магистратуре. Ведь, скорее всего, результат вступительного испытания коррелирован со способностями индивида. Тем самым в университет поступили индивиды с более высоким уровнем способностей. А значит, их доход может оказаться выше не из-за того, что они учились в университете N, а из-за того, что они в целом более способные, чем индивиды из контрольной группы.

Мы могли бы устранить это смещение, сравнивая средние уровни доходов для индивидов, которые набрали ровно 150 баллов (ровно проходной балл) и для индивидов, которые набрали 149 баллов (то есть оказались непосредственно под чертой). Судя по результатам вступительного экзамена, уровень способностей для таких индивидов очень близок. Можно считать, что разница в 1 балл из 200 определяется исключительно случайными факторами. А значит, сравнение средних уровней доходов в этом случае даст состоятельную оценку эффекта воздействия обучения в магистратуре университета N на будущий доход.

Проблема последнего подхода состоит в том, что в вашей выборке может оказаться очень мало индивидов, имеющих ровно 149 баллов и ровно 150 баллов. Из-за этого ваша оценка будет иметь низкую точность (высокую дисперсию).

Разрывный дизайн позволяет преодолеть эту проблему. Чтобы показать, как он работает, воспользуемся следующими обозначениями:

Di = 1, если i-ый объект вошел в группу, подвергшуюся воздействию (treatment group). В нашем примере , если i-ый индивид учился в магистратуре университета N. Доход i-го индивида в этом случае будем обозначать .

Di = 0, если i-ый объект вошел в контрольную группу (control group). В нашем примере \(D_i=0\), если \(i\)-ый индивид не учился в магистратуре университета N. Доход \(i\)-го индивида в этом случае будем обозначать \(Y_i\left(0\right)\).

Интересующий нас эффект воздействия — это изменение дохода индивида в результате обучения в магистратуре университета N:

\begin{equation*} \rho =Y_i\left(1\right)-Y_i\left(0\right) \end{equation*}

Естественно предположить, что ожидаемый доход индивида связан с его баллом за экзамен. Эта связь возникает за счет того, что балл за экзамен является прокси-переменной для способностей индивида. В этом случае доход индивида можно следующим образом записать как функцию от переменных \(x_i\) и \(D_i\):

\begin{equation*} Y_i=\alpha +\beta x_i+\rho D_i+\varepsilon _i, \end{equation*}

\begin{equation*} D_i=\left\{\begin{matrix}0,\mathit{\text{п}\text{р}\text{и}}x_i<x^{\text *},\\1,\mathit{\text{п}\text{р}\text{и}}x_i{\geq}x^{\text *}.\end{matrix}\right. \end{equation*}

Здесь — пороговый уровень, преодоление которого определяет попадание в испытуемую группу. В нашем примере — это проходной балл, равный 150. Переменную x в разрывном дизайне называют переменной отбора (selection variable1).

Отличие от стандартного случая использования контрольной переменной, который мы обсуждали в предыдущих главах, здесь состоит в том, что переменная интереса D не просто коррелирована с другим регрессором x, а является неслучайной (детерминированной) функцией от него. Поэтому для состоятельности МНК-оценок достаточно потребовать экзогенности переменной отбора. Тогда переменная D автоматически тоже будет экзогенной.

В условиях этой предпосылки для индивида из контрольной группы условное математическое ожидание зависимой переменной равно:

E(Yi(0)|xi) = α + βxi.

А для индивида из испытуемой группы оно составляет:

E(Yi(1)|xi) = α+βxi+ρ.

Геометрически описанная ситуация проиллюстрирована на рисунке 11.2. Коэффициент равен величине разрыва функции ожидаемого дохода в точке \(x^{\text *}\).

Таким образом, чтобы выяснить эффект воздействия, достаточно оценить полученное уравнение регрессии. МНК-оценка и будет состоятельной оценкой эффекта воздействия.


Рисунок 11.2. Пример модели с разрывным дизайном. Линейный случай

Влияние переменной отбора на зависимую переменную может быть нелинейным:

\begin{equation*} Y_i=\alpha +f\left(x_i\right)+\rho D_i+\varepsilon _i\left(11.5\right), \end{equation*}

\begin{equation*} D_i=\left\{\begin{matrix}0, \mathit{\text{п}\text{р}\text{и} }x_i<x^{\text *}, 1, \mathit{\text{п}\text{р}\text{и} }x_i{\geq}x^{\text *}.\end{matrix}\right.\left(11.6\right). \end{equation*}

В качестве функции \(f\left(x_i\right)\) обычно используют полином. Например, для квадратичной функции \(f\left(x_i\right)\):

\begin{equation*} Y_i=\alpha +\beta _1x_i+\beta _2x_i^2+\rho D_i+\varepsilon _i. \end{equation*}

Соответствующий пример изображен на рисунке 11.3.

При необходимости спецификация (11.5) может быть дополнена путем включения в уравнение контрольных переменных.

Если эффект воздействия является гетерогенным, то есть различным для разных индивидов, то разрывный дизайн корректно оценивает этот эффект не для любых индивидов, а только для тех, у кого значение переменной отбора близко к пороговому уровню.


Рисунок 11.3. Пример модели с разрывным дизайном. Нелинейный случай

Нечеткий разрывный дизайн

При нечетком разрывном дизайне вместо условия (11.6) выполняется следующая предпосылка:

\begin{equation*} P\left(D_i=1\left|x_i\right.\right)=\left\{\begin{matrix}g_0\left(x_i\right),\mathit{\text{п}\text{р}\text{и}}x_i<x^{\text *},\\g_1\left(x_i\right),\mathit{\text{п}\text{р}\text{и}}x_i{\geq}x^{\text *},\end{matrix}\right.\mathit{\text{г}\text{д}\text{е}}g_0\left(x^{\text *}\right){\neq}g_1\left(x^{\text *}\right).\left(11.7\right) \end{equation*}

Таким образом, при нечетком разрывном дизайне преодоление порога влияет на вероятность попадания в испытуемую группу, однако не гарантирует это попадание.

В нашем примере с поступлением такая ситуация могла бы возникнуть, если бы некоторые из абитуриентов, набравшие проходной балл, после этого по каким-то причинам не стали бы учиться в магистратуре университета N. И наоборот, какие-то из абитуриентов, не набравшие проходной балл, все-таки смогли бы пройти обучение (скажем, не на бюджетной основе, а на платной).

В этом случае переменная D в уравнении \(Y_i=\alpha +f\left(x_i\right)+\rho D_i+\varepsilon _i\) больше не является экзогенной, так как зависит не только от преодоления порога, но и от решения индивида. Следовательно, обычный МНК не позволит получить состоятельную оценку коэффициента \(\rho \) в уравнении (11.5).

Поэтому в условиях нечеткого разрывного дизайна для оценки эффекта воздействия лучше применить 2МНК, используя в качестве инструмента переменную T:

\begin{equation*} T_i=\left\{\begin{matrix}0,\mathit{\text{п}\text{р}\text{и}}x_i<x^{\text *},\\1,\mathit{\text{п}\text{р}\text{и}}x_i{\geq}x^{\text *}.\end{matrix}\right. \end{equation*}

В силу того, что вероятность попадания в контрольную группу зависит от того, превышает ли переменная отбора порог или нет, такой инструмент будет релевантным. В то же время он является экзогенным, так как определяется исключительно экзогенной переменной отбора.

Пример 11.2. Партия власти и результаты выборов

В заключение этого параграфа рассмотрим пример применения метода разрывного регрессионного дизайна для модели бинарного выбора (таким образом, этот пример опирается не только на текущую главу, но и на главу 10).

Мы обратимся к статье (Lee, 2008), автор которой задался вопросом, существует ли у партии власти дополнительное преимущество на выборах (Incumbency advantage)?

Точнее говоря, Ли пытается выяснить, имеет ли преимущество кандидат на место в Палате представителей США на текущих выборах, если его партия выиграла предыдущие выборы?

В поиске ответа на этот вопрос есть очевидная трудность: вполне возможно, что лица, занимающие должность, хорошо соответствуют предпочтениям избирателей, имеют большую поддержку и выигрывают благодаря этому, а вовсе не благодаря «административному ресурсу».

Чтобы отделить один эффект от другого, Ли при помощи идеологии четкого разрывного дизайна анализирует вероятность быть избранным как функцию от соотношения голосов за партии демократов и республиканцев на предыдущих выборах

Он использует тот факт, что победитель на выборах может быть определен следующим образом:

\begin{equation*} D_{i,t}=1,\mathit{\text{е}\text{с}\text{л}\text{и}}x_{i,t}{\geq}0\text{и}D_{i,t}=0,\mathit{\text{е}\text{с}\text{л}\text{и}}x_{i,t}<0, \end{equation*}

где \(x_{i,t}\) — разность между долями голосов, отданных за демократов и за республиканцев (Democratic vote share margin of victory). Если эта разность больше нуля, значит, демократы получили на выборах больше голосов, чем республиканцы, и, следовательно, выиграли их2.

\(D_{i,t}\) — переменная, равная единице, если на выборах победил кандидат от демократов. Индекс i соответствует избирательному округу, а индекс t — номеру года.

Ли оценивает параметры следующей логит-модели бинарного выбора:

\begin{equation*} P\left(D_{i,t+1}=1\right)=F\left(\alpha +\beta x_{i,t}+\rho D_{i,t}\right)\left(11.8\right) \end{equation*}

Здесь \(P\left(D_{i,t+1}=1\right)\) — вероятность победы демократической партии на выборах в периоде \(t+1\), \(F\left({\bullet}\right)\) — логистическая функция. (В некоторых спецификациях автор добавляет также контрольные переменные, которые могут влиять на вероятность победы. Например, опыт кандидата.)

Результаты оценивания модели представлены графически на рисунке 11.4. По мере роста доли голосов, которую демократы получили на предыдущих выборах, увеличивается вероятность их победы на следующих выборах. Это увеличение логично и могло бы объясняться увеличением популярности демократов на территории соответствующего избирательного округа, если бы не значительный разрыв в точке \(x_{i,t}=0\) (соответствующей ровно половине голосов, отданных избирателями демократам). Мы видим, что, набрав немного менее 50% голосов на предыдущих выборах, демократы имеют шансы на победу лишь около 15% (см. левую шкалу на графике). Однако если число голосов на прошлых выборах оказывается хоть немного больше 50%, то вероятность победы демократов в текущей избирательной кампании резко растет сразу до 60%.

Величина этого разрыва соответствует оценке коэффициента \(\rho \) и характеризует эффект воздействия нахождения партии у власти в момент избирательной компании на вероятность победить на выборах. Как можно видеть из рисунка, партия власти получает примерно 45-процентный «бонус» к вероятности победы.

Всё это позволяет автору заключить, что партия власти получает существенное преимущество на выборах (независимо от текущих предпочтений избирателей).

pic

Рисунок 11.4. Зависимость вероятности победы демократов на выборах в периоде t+1 в зависимости от доли голосов, набранных в периоде t.

Примечание: Democratic vote share margin of victory, Election t — разность между долями голосов, отданных за демократов и за республиканцев на выборах в периоде t. Следовательно, положительные значения этой переменной соответствуют победе демократов, а отрицательные — победе республиканцев. Источник: (Lee, 2008).

Важным свидетельством корректности выводов автора являются результаты так называемого теста плацебо (placebo test). Такое название в литературе об эффектах воздействия носит не какая-то конкретная статистическая процедура, а общий подход к проверке надежности результатов, который устроен так: необходимо проанализировать спецификацию модели, которая похожа на вашу базовую спецификацию, но в которой точно не должно возникать значимого эффекта воздействия. Если его там действительно не возникает, это говорит в пользу корректности выводов базовой модели.

В случае с работой (Lee, 2008) подобный тест состоит в том, чтобы оценить параметры следующей модели:

\begin{equation*} P\left(D_{i,t-1}=1\right)=F\left(\beta _0+\beta _1D_{i,t}+\beta _2x_{i,t}\right)\left(11.9\right) \end{equation*}

В отличие от базовой модели (11.8) в левой части уравнения стоит вероятность победы не на следующих выборах, а на предыдущих ( \(t-1\)). Ясно, что затруднительно использовать нахождение у власти сегодня для того, чтобы выиграть выборы несколько лет назад. Следовательно, в этом случае коэффициент при переменной \(D_{i,t}\) должен быть статистически незначимым, и на соответствующем графике не должно возникать разрыва. Как видно на рисунке 11.5, разрыва в графике вероятности победы на выборах, действительно, нет. Это означает, что модель Ли успешно проходит тест плацебо.

Подчеркнем, что этот тест может применяться не только в рамках разрывного дизайна. Он может быть полезен при проверке корректности выводов модели, оцененной любым из методов.

pic

Рисунок 11.5. Результаты теста плацебо. Источник: (Lee, 2008)


  1. Иногда в литературе используются также термины «running variable» и «forcing variable». 
  2. Разумеется, такую методологию можно применить только в том случае, когда на победу на выборах претендуют ровно две партии. В случае с США — это партии демократов и республиканцев.