9.2. Модель с фиктивными переменными

Естественным подходом к решению проблемы ненаблюдаемых фиксированных эффектов является добавление фиктивных переменных, характеризующих эти эффекты. Например, если в вашем распоряжении есть данные по регионам России, можно добавить в уравнение фиктивную переменную для каждого из регионов¹.

Зададим эти фиктивные переменные вот так:

\(d_{i}^{(2)}\) — фиктивная переменная, которая равна единице, если наблюдение относится ко второму объекту (\(i = 2\)), и равна нулю в противном случае;

\(d_{i}^{(3)}\) — фиктивная переменная, которая равна единице, если наблюдение относится к третьему объекту (\(i = 3\)), и равна нулю в противном случае;

…

\(d_{i}^{(n)}\) — фиктивная переменная, которая равна единице, если наблюдение относится к объекту номер n (\(i = n)\), и равна нулю в противном случае.

Покажем, как эти фиктивные переменные могут быть применены для оценки коэффициентов в уравнении

\(y_{\text{it}} = \beta x_{\text{it}} + \mu_{i} + \varepsilon_{\text{it}}.\ \ (9.1)\)

Для этого перепишем уравнение (9.1) следующим образом:

\(y_{\text{it}} = \beta x_{\text{it}} +\)

\(+ \mu_{1} + \left( \mu_{2} - \mu_{1} \right)d_{i}^{(2)} + \left( \mu_{3} - \mu_{1} \right)d_{i}^{(3)} + \ldots + \left( \mu_{n} - \mu_{1} \right)d_{i}^{(n)} + \varepsilon_{\text{it}}\ \ (9.2)\)

Легко проверить, что уравнение (9.2) эквивалентно уравнению (9.1). Действительно, если записать его для первого объекта (для \(i = 1\)), то все фиктивные переменные окажутся равными нулю, и мы получим:

\(y_{1t} = \beta x_{1t} + \mu_{1} + \varepsilon_{1t}.\)

Если же записать его, например, для второго объекта (для \(i = 2\)), то окажется, что \(d_{i}^{(2)} = 1\), \(d_{i}^{(3)} = d_{i}^{(4)} = \ldots = d_{i}^{(n)} = 0\). Следовательно, уравнение (9.2) примет вид:

\(y_{2t} = \beta x_{2t} + \mu_{1} + \left( \mu_{2} - \mu_{1} \right) + \varepsilon_{2t},\)

\(y_{2t} = \beta x_{2t} + \mu_{2} + \varepsilon_{2t}.\)

Аналогично для всех остальных объектов. Таким образом, чтобы учесть фиксированные эффекты, достаточно добавить в модель константу и \((n - 1)\) фиктивную переменную². Эти фиктивные переменные мы всегда можем задать, то есть они наблюдаемы. Следовательно, проблема смещения из-за пропуска ненаблюдаемой существенной переменной (описанная в самом начале этой главы) решается, и обычный МНК снова будет давать состоятельные оценки коэффициентов при интересующих нас переменных.

Если переписать уравнение (9.2), используя более привычные обозначения, то можно представить его следующим образом³:

\(y_{\text{it}} = \beta_{0} + \beta_{1}x_{\text{it}} + \beta_{2}d_{i}^{(2)} + \beta_{3}d_{i}^{(3)} + \ldots + \beta_{n}d_{i}^{(n)} + \varepsilon_{\text{it}}\ \ (9.3)\)

Это так называемая модель с фиктивными переменными (least squares dummy variables model, LSDV-модель).

R-квадрат в этой модели обычно называют LSDV-\(R^{2}\). Обычно на практике он оказывается сравнительно высоким за счет того, что большое количество фиктивных переменных объясняет значительную долю дисперсии зависимой переменной.

В рамках данного подхода легко осуществить тест, который ответит на вопрос, нужно ли учитывать фиксированные эффекты в уравнении. Иными словами, позволит сравнить модель с фиксированными эффектами и обычную регрессию, не учитывающую специфические особенности отдельных объектов (последняя называется регрессией пула, pooled regression). Для этого достаточно тестировать гипотезу

\(H_{0}:\ \beta_{2} = \beta_{3} = \ldots = \beta_{n} = 0.\)

Альтернативная гипотеза состоит в том, что хотя бы один из коэффициентов отличается от нуля

Проверку можно осуществить при помощи стандартного теста на сравнение «короткой» и «длинной» регрессий. Если эта гипотеза отвергается, то следует использовать модель с фиксированными эффектами. В противном случае можно заключить, что все объекты в выборке одинаковые, и ограничиться использованием pooled regression.

Описанный способ оценивания демонстрирует преимущество панельных данных по сравнению с пространственными данными. Действительно, на пространственных данных оценить уравнение (9.3) при помощи МНК было бы невозможно, так как в этом случае в вашем распоряжении было бы всего \(n\) наблюдений. А в уравнении (9.3) аж \((n + 1)\) неизвестный параметр.

Есть у этого подхода и существенное ограничение. Модель с фиктивными переменными не позволяет идентифицировать коэффициенты при переменных, которые не меняются во времени. При попытке добавить такие переменные в модель в ней возникнет чистая мультиколлинеарность из-за того, что они окажутся линейно зависимы со множеством фиктивных переменных для отдельных объектов. Например, оценивая при помощи модели с фиксированными эффектами уравнение для заработной платы работника, вы сможете включить в него возраст, но не сможете включить бинарную переменную, характеризующую расу работника. Ведь раса работника, в отличие от его возраста, со временем не меняется и де-факто уже учтена в его фиксированном эффекте.

Двунаправленная модель с фиксированными эффектами

Модель (9.1) может быть обобщена следующим образом:

\(y_{\text{it}} = \beta x_{\text{it}} + \mu_{i} + \gamma_{t} + \varepsilon_{\text{it}}\)

Здесь \(\gamma_{t}\) — фиксированные эффекты различных периодов времени. Такие переменные могут быть полезны, если вы хотите учесть общие для всех объектов структурные изменения, которые происходят с течением времени. Скажем, если ваша выборка представляет собой данные по регионам России за 20 лет, то фиксированные эффекты объектов \(\mu_{i}\) будут учитывать специфические особенности каждого из регионов, а временные эффекты \(\gamma_{t}\) — особенности различных лет, например, влияние на зависимую переменную экономических подъемов и спадов, характерных для экономики страны в целом.

Модель, которая учитывает оба типа эффектов, называется двунаправленной моделью (модель, учитывающая только один тип, соответственно, однонаправленной). Оценить её параметры можно, добавив в уравнение (9.3) ещё \((T - 1)\) фиктивную переменную:

\(y_{\text{it}} = \beta_{0} + \beta_{1}x_{\text{it}} + \beta_{2}d_{i}^{(2)} + \ldots + \beta_{n}d_{i}^{(n)} + \theta_{2}\text{td}_{t}^{(2)} + \ldots + \theta_{T}\text{td}_{t}^{(T)} + \varepsilon_{\text{it}}.\)

Здесь \(\text{td}_{t}^{(2)}\) — бинарная переменная, которая равна единице, если наблюдение относится ко второму периоду времени, и равна нулю в противном случае;

\(\text{td}_{t}^{(3)}\) — бинарная переменная, которая равна единице, если наблюдение относится к третьему периоду времени, и равна нулю в противном случае;

…

\(\text{td}_{t}^{(T)}\) — бинарная переменная, которая равна единице, если наблюдение относится к периоду времени T, и равна нулю в противном случае.

Пример 9.1. Отдача от посещения лекций

Три сотни студентов изучали курс математического анализа, который длился два семестра. В файле Attendance доступны следующие данные о каждом из них:

\(\text{performanc}e_{\text{it}}\) — результат по курсу \(i\)-го студента в семестре \(t\);

\(t = 1\) соответствует первому семестру, \(t = 2\) соответствует второму семестру. Результат семестра измерен в баллах по шкале от 0 до 100.

\(\text{attendance}_{\text{it}}\) — количество лекций, посещенных \(i\)-м студентом в семестре \(t\).

Результат студента по курсу описывается моделью:

\(\text{performanc}e_{\text{it}} = \beta*\text{attendanc}e_{\text{it}} + \mu_{i} + \gamma_{t} + \varepsilon_{\text{it}}\)

Здесь \(\mu_{i}\) — переменная, которая характеризует индивидуальные особенности \(i\)-го студента. Например, уровень его мотивации и школьной математической подготовки.

Переменная \(\gamma_{t}\), в свою очередь, характеризует особенности семестра \(t\). Например, если \(\gamma_{2} > \gamma_{1}\), это будет свидетельствовать о том, что результаты студентов во втором семестре в среднем выше, чем в первом (при равной мотивации и равном количестве посещенных лекций), то есть о том, что второй семестр проще первого.

Исследовательский вопрос, на который мы попытаемся ответить: влияет ли посещение лекций на результат студента в семестре, или же этот результат полностью определяется индивидуальными особенностями студента?

В терминах модели этот вопрос можно переформулировать так: отличается ли от нуля коэффициент при переменной \(\text{attendance}\)?

Для ответа на этот вопрос оценим параметры трех уравнений.

Уравнение 1. Объединенная регрессия (регрессия пула, pooled regression):

\({\widehat{\text{performance}}}_{\text{it}} = \widehat{\beta_{0}} + \widehat{\beta_{1}}*\text{attendanc}e_{\text{it}}.\)

Уравнение 2. Модель с фиксированными эффектами для студентов. Так как в нашем распоряжении есть данные про 300 студентов, необходимо добавить в уравнение 299 фиктивных переменных:

\({\widehat{\text{performance}}}_{\text{it}} = \widehat{\beta_{0}} + \widehat{\beta_{1}}*\text{attendanc}e_{\text{it}} + \widehat{\beta_{2}}d_{i}^{(2)} + \ldots + \widehat{\beta_{300}}d_{i}^{(300)}.\)

Уравнение 3. Двунаправленная модель с фиксированными эффектами. Так как нам доступны данные за два периода, следует добавить в уравнение ещё одну фиктивную переменную для второго периода времени:

\({\widehat{\text{performance}}}_{\text{it}} = = \widehat{\beta_{0}} + \widehat{\beta_{1}}*\text{attendanc}e_{\text{it}} + \widehat{\beta_{2}}d_{i}^{(2)} + \ldots + \widehat{\beta_{300}}d_{i}^{(300)} + \widehat{\theta_{2}}\text{td}_{t}^{(2)}.\)

Результаты представлены в таблице 9.1. Первый столбец соответствует уравнению 1, второй — уравнению 2, третий — уравнению 3.

Если взглянуть на первый столбец, можно обнаружить, что коэффициент при переменной attendance значим на однопроцентном уровне и отрицателен: он равен –0,989. Таким образом, из этого уравнения, казалось бы, можно заключить, что посещение каждой лекции в среднем снижает результат по курсу математического анализа на один балл.

Чтобы проверить, не вызван ли этот неожиданный вывод смещением оценки коэффициента из-за пропуска существенной переменной, посмотрим на второй столбец, где представлены результаты оценки модели с фиксированными эффектами. Прежде всего отметим, что гипотеза о равенстве нулю коэффициентов при всех фиктивных переменных фиксированных эффектов уверенно отвергается при любом разумном уровне значимости (см. значение F-статистики и соответствующее P-значение внизу второго столбца). Следовательно, мы должны сделать вывод о том, что предпочтительна модель с фиксированными эффектами для отдельных студентов. Иными словами, индивидуальные особенности каждого из студентов играют важную роль в определении его результатов по курсу.

Таблица 9.1. Три спецификации моделей для результатов семестра

	(1)	(2)	(3)
Константа	62,639***	34,163***	34,219***
	(2,420)	(0,509)	(0,528)
attendance	-0,989***	1,119***	1,116***
	(0,219)	(0,051)	(0,051)
d_2		-3,669***	-3,666***
		(0,051)	(0,051)
d_3		11,491***	11,492***
		(0,025)	(0,026)
…	…	…	…

d_299		26,809***	26,808***
		(0,025)	(0,026)
d_300		10,937***	10,932***
		(0,102)	(0,102)
td_2			-0,062
			(0,185)
Число наблюдений	600	600	600
R²	0,046	0,993	0,993
F-статистика для проверки незначимости индивидуальных эффектов	—	138,5 (0,000)	137,8 (0,000)
F-статистика для проверки незначимости временных эффектов	—	—	0,2 (0,639)

В скобках под оценками коэффициентов указаны робастные стандартные ошибки. В скобках рядом с F-статистиками указаны P-значения для проверки соответствующей гипотезы. *** обозначает значимость на 1-процентном уровне.

Коэффициент при переменной attendance во втором столбце снова значим на однопроцентном уровне, но теперь оказался положительным: он равен 1,119. То есть посещение каждой лекции в среднем увеличивает результат студента по курсу примерно на 1,1 балла. Скажем, посещение десяти лекций добавит к результату семестра примерно 11 баллов. Учитывая, что суммарное количество баллов за семестр может принимать значения от 0 до 100, можно видеть, что лекции не играют решающей роли в оценке. Тем не менее, их вклад на самом деле является положительным, а не отрицательным (как мы могли бы ошибочно заключить, если бы ограничились моделью без фиксированных эффектов из первого столбца). Этот пример демонстрирует, как важно учитывать неоднородность моделируемых объектов для получения корректной оценки.

Кстати, отметим, что радикальное увеличение коэффициента R-квадрат в модели с фиксированными эффектами по сравнению с первой моделью говорит в пользу того, что индивидуальные особенности студентов играют решающую роль в их результате по курсу.

В третьем столбце рассматривается двусторонняя модель, то есть модель с добавлением ещё и фиктивной переменной для временного периода. Если бы у нас было больше временных периодов, то и таких бинарных переменных было бы больше одной. Формальный тест не отвергает гипотезу о равенстве нулю коэффициента при бинарной переменной времени. То есть данные не противоречат тому, что сложность двух семестров курса была примерно одинаковой и, следовательно, номер семестра не влияет на результаты студентов. Поэтому в данном случае можно сделать выбор в пользу модели из второго столбца (впрочем, коэффициент при интересующей нас переменной примерно одинаков для второго и третьего столбцов).

Точнее, для всех регионов, кроме одного, чтобы избежать ловушки фиктивных переменных, которая описана в главе 4↩︎
Ещё раз подчеркнем, что если добавить к константе не \((n - 1)\), а \(n\) фиктивных переменных, то возникнет чистая мультиколлинеарность.↩︎
Здесь мы обозначили \(\beta_{0} = \mu_{1}\), \(\beta_{i} = \left( \mu_{i} - \mu_{1} \right),\ i = 2,3,\ldots,n\).↩︎