Глава 9. Панельные данные

Если в выборке содержатся данные о нескольких объектах, каждый из которых наблюдается в течение нескольких моментов времени, то такие данные называют панельными (panel data или longitudinal data). Например, ежегодные данные о доходе и потреблении в 50 регионах некоторой страны за период с 1992 по 2011 годы.

В отличие от пространственных данных, на которых мы концентрировались в предыдущих главах, теперь для обозначения наблюдений нам будет удобно использовать не один, а два индекса:

\(x_{\text{it}},\)

где \(i = 1,\ldots,n\) — номер объекта (например, региона),

\(t = 1,\ldots,T\) — номер момента времени (например, номер года).

Есть несколько причин для использования панельных данных в прикладных исследованиях:

1. Большое количество наблюдений. Представьте, что вы проводите исследование, опираясь на информацию по странам мира. Если вы используете пространственные данные, то в вашем распоряжении, по всей видимости, будет менее 200 наблюдений. Ведь даже если вы включите в выборку все независимые государства-члены ООН, то их окажется меньше двухсот. А если оставить только те из них, по которым доступна достаточно полная статистическая информация, список окажется ещё короче. С другой стороны, применив панельные данные, вы будете иметь возможность использовать гораздо больше точек. Например, получив информацию о 100 странах за 10 лет, вы сможете строить регрессии по 100*10=1000 наблюдений.

Количество доступных наблюдений зависит от того, имеете ли вы дело со сбалансированной или несбалансированной панелью. Панель называется сбалансированной, если существует наблюдение для каждого объекта и для каждого момента времени. В этом случае общее число наблюдений равно \(n*T\). Когда в данных есть пропуски, панель называется несбалансированной. В этом случае общее число наблюдений меньше, чем \(n*T\), однако все равно может оставаться достаточно большим. Если возникновение пропусков является экзогенным, то для несбалансированных панелей можно использовать те же методы оценивания, что и для сбалансированных.

2. Возможность отслеживать динамику для множества объектов. Использование панельных данных позволяет анализировать распределение тех или иных эффектов во времени. Например, постепенное изменение потребления сигарет в некоторой стране после принятия антитабачных законов в ряде её регионов.

3. Дополнительный способ устранения эндогенности. Пожалуй, самым главным мотивом для использования панельных данных является возможность получить состоятельные оценки коэффициентов при интересующих нас переменных в условиях, когда на пространственной выборке это невозможно. Такой шанс появляется за счет учета неоднородности моделируемых объектов.

Чтобы понять, как указанная неоднородность может затруднять оценивание, рассмотрим пример. Представим, что нас интересует ответ на такой вопрос: влияет ли закон, разрешающий гражданам носить с собой личное огнестрельное оружие, на уровень преступности? Ответ на него, действительно, вовсе не очевиден. Сторонники закона утверждают, что его введение позволяет снизить преступность, так как гражданские лица получат шанс защититься от злоумышленников. Их оппоненты возражают, что в результате введения такого закона преступность, наоборот, вырастет из-за избыточного количества огнестрельного оружия на руках у населения и его спонтанного использования.

Пусть мы располагаем панельными данными о регионах некоторой страны, и уровень преступности в них описывается следующим уравнением:

\(y_{\text{it}} = \beta x_{\text{it}} + \mu_{i} + \varepsilon_{\text{it}}\ \ (9.1)\)

Здесь \(y_{\text{it}}\) — уровень преступности в регионе i в год t;

\(x_{\text{it}}\) — бинарная переменная, которая равна единице, если в регионе i в год t введен закон, разрешающий гражданам носить личное огнестрельное оружие, и равная нулю в противном случае;

\(\varepsilon_{\text{it}}\) — это, как обычно, случайные ошибки модели;

\(\mu_{i}\) — ненаблюдаемая переменная, характеризующая специфические особенности каждого из регионов. Например, культурные или институциональные особенности, которые трудно поддаются измерению. Так как все регионы разные, почти нет шансов полностью учесть их специфику в наблюдаемых контрольных переменных. Поэтому такой фактор в модели наверняка останется. Обратите внимание, что у этой переменной нет индекса t, а есть только индекс i. Так мы подчеркиваем, что указанные особенности не меняются во времени (или меняются очень медленно, поэтому в рамках исследования могут считаться постоянными). Присутствие переменной \(\mu_{i}\) порождает следующую дилемму:

С одной стороны, мы не можем включить её в модель непосредственно, так как она не является наблюдаемой.
С другой стороны, если она коррелирована с интересующей нас переменной \(x_{\text{it}}\), то её невключение приведет к несостоятельности оценки коэффициента \(\beta\) из-за пропуска существенной переменной (см. главу 7).

Таким образом, неоднородность объектов часто становится причиной эндогенности регрессоров. К счастью, панельные данные дают возможность применить простой и хорошо работающий способ решения этой проблемы — использование моделей с фиксированными эффектами.

Именно этот класс моделей рассматривается в параграфах 9.1–9.4. Затем в параграфах 9.5–9.6 обсуждается альтернативный подход к оцениванию — модель со случайными эффектами. В конце главы, в параграфе 9.7, обобщена информация о спецификационных тестах, которые помогут выбрать наиболее подходящий в каждом случае метод работы с панельными данными.

Глава 9. Панельные данные

9.1. Модель с фиксированными эффектами

9.2. Модель с фиктивными переменными

9.3. Внутригрупповое преобразование

9.4. Модель в первых разностях

9.5. Модель со случайными эффектами

9.6. Доступный ОМНК для оценивания модели со случайными эффектами

9.7. Спецификационные тесты

Задания для самостоятельного решения