1.3. Типы данных, используемых в эконометрике

Один из важных способов классификации данных в эконометрике — это классификация с точки зрения структуры данных. В ней выделяют следующие типы:

Пространственные данные (cross section data). Пространственными называются данные, собранные о множестве объектов за один момент времени. Например, данные о ценах однокомнатных квартир в Москве в мае 2020 года. Или данные о росте и весе тысячи индивидов по состоянию на 1 сентября 2020 года.
Временные ряды (time series). Под временным рядом понимаются данные об одном объекте, собранные в течение нескольких последовательных тактов времени. Например, ежедневные данные о курсе доллара, собранные за год. Или данные о росте и весе Ивана Петровича Сидорова, которые собирались 1 числа каждого месяца на протяжении пяти лет.
Панельные данные (panel data). Панельными называются данные о нескольких объектах, измеренные в течение нескольких тактов времени. Например, ежегодные данные об уровне инфляции в 50 развивающихся странах, собранные за 10 лет. Или данные о росте и весе тысячи индивидов, по каждому из которых доступна информация за 12 месяцев.

В ближайших главах мы сконцентрируемся в основном на пространственных данных, так как они лучше всего подходят для первого знакомства с эконометрикой. В главе 9 мы обсудим преимущества, дополнительные трудности и специальные методы, которые возникают при работе с панельными данными. Подробный анализ временных рядов выходит за рамки первого издания этого учебника, и с ними лучше знакомиться в рамках отдельного продвинутого курса, так как работа с данными подобной структуры имеет много специфических особенностей. Тем не менее, мы будем обращаться к временным рядам с целью иллюстрации некоторых важных идей (как мы уже сделали в примере 1.2).

Альтернативная классификация данных определяется источником их возникновения. По этому критерию выделяют экспериментальные данные и наблюдаемые статистические данные (их ещё называют историческими).

Экспериментальные данные получаются из контролируемых случайных экспериментов (randomized controlled experiments). Наблюдаемые данные, в свою очередь, возникают исторически в течение развития неконтролируемых экспериментатором процессов.

Удобно пояснить различие между двумя этими типами данных, вспомнив пример 1.1 про подготовительные курсы. В нём каждый абитуриент сам решал, посещать ему подготовительные курсы или нет. В итоге на это решение воздействовали разные характеристики абитуриента (скажем, уровень его подготовки), которые также влияли и на результат вступительного экзамена. Это порождало трудности с выявлением истинной пользы от посещения подготовительных курсов в связи с проблемой самоотбора и проблемой пропуска существенных факторов. Возникновение таких трудностей весьма характерно для неэкспериментальных данных.

Представим теперь на минуту, что абитуриенты лишились возможности самостоятельно выбирать, посещать ли им курсы. Теперь мы решаем за каждого абитуриента, будет ли он ходить на курсы. Мы делаем это при помощи специальной лотереи, победители которой в принудительном порядке отправляются на занятия, а всем остальным запрещается это делать. Ясно, что в этом случае индивидуальные характеристики каждого из абитуриентов перестанут влиять на то, попал он на курсы или нет. Следовательно, полезный эффект от посещения курсов будет гораздо проще измерить, так как проблемы, описанные в примере 1.1, автоматически пропадут. Такую лотерею, если она реализована аккуратно, можно считать контролируемым экспериментом, а данные, полученные на основе такого исследования, — экспериментальными.

Второй (более традиционный) пример экспериментальных данных — это медицинские данные, собираемые в ходе тестирования эффективности новых лекарств. Процедура такова: все испытуемые случайным образом разбиваются на две группы, и одной группе выдается новое лекарство, а другой — плацебо.

Из этих примеров следуют два вывода:

Во-первых, ясно, почему эконометристы очень любят работать именно с экспериментальными данными. В этом случае пропадает ряд типичных подводных камней, которые мешают получить корректные результаты (проблема самоотбора, проблема смещения из-за пропуска существенных факторов и другие проблемы, которые обсуждаются в последующих главах учебника). Это позволяет надежно получать новые знания о мире, используя элементарные методы и модели.

Во-вторых, становится понятным, почему на практике эконометристам гораздо чаще приходится работать с неэкспериментальными историческими данными. Действительно, во многих ситуациях проведение экспериментов либо аморально, либо очень дорого, либо просто невозможно. Скажем, в примере 1.1 история с отбором участников подготовительных курсов по лотерее вряд ли бы вызвала энтузиазм у абитуриентов. А представьте, что вас интересует менее безобидный вопрос: например, влияет ли введение смертной казни на уровень преступности? Маловероятно, что общество благосклонно отнеслось бы к избирательному случайному применению смертной казни в рамках эксперимента.

Всё это приводит к тому, что в большинстве случаев экспериментальные данные остаются для эконометристов недостижимым идеалом. А все продвинутые эконометрические методы направлены на то, чтобы «заставить» исторические данные давать ответы на вопросы так же, как если бы они являлись экспериментальными.

Тем не менее, в некоторых случаях экспериментальные данные эконометристам все-таки доступны. А иногда обстоятельства складываются столь удачно, что и без вмешательства исследователя ситуация оказывается очень похожей на контролируемый эксперимент. Подобное счастливое стечение обстоятельств называется квазиэкспериментом или естественным экспериментом (natural experiment). Про эксперименты и квазиэксперменты мы подробно поговорим в главе 11.