Учебник+

1.5. Как экономисты проверяют теории на основе данных?

Анализ данных – это процесс извлечения знаний из данных, не обязательно включающий в себя применение сложных алгоритмов машинного обучения. Например, если вы для прогноза, кто победит в волейбольном турнире, сравнили средний рост команд и сделали вывод о том, что победит самая высокая команда – вы провели анализ данных. Навык работы с данными необходим современному экономисту. За последние несколько десятилетий произошла так называемая «эмпирическая революция»: для обоснования какого-либо экономического утверждения сегодня нужно не только построить модель с предпосылками, но и продемонстрировать его в данных.

Какие бывают данные

Сначала опишем, какие бывают данные, а потом сделаем обзор методов их анализа. Одна из основных классификаций данных – по структуре:

  • Временные ряды. Это значит, что некоторый показатель, например инфляцию, вы наблюдаете в разные периоды времени (между которыми одинаковое расстояние): ежемесячно, ежеквартально, ежегодно и т.д. При этом объект наблюдения у вас фиксирован: скажем, инфляция за разные месяцы в России. Разнообразные макроэкономические данные, как правило, представляют из себя временные ряды. Финансовые данные (динамика цены акций некоторой торгующейся на бирже компании) тоже часто изучают, как временные ряды.
  • Пространственные выборки. В данном случае речь идет о фиксированном моменте времени и изучении некоторого показателя для многих объектов или его изменение в пространстве. Объектами наблюдения могут выступать люди, фирмы, регионы, страны и т.д. Примером может служить изучение инфляции в 2023 году в регионах России (зафиксирован момент времени, рассматриваются много объектов, регионы России).
  • Панельные данные. Это объединение временных рядов и пространственных данных. Ситуация, когда данные у вас изменяются и во времени, и по объектам наблюдения. Примером может быть изучение месячной инфляции за период с 2020 по 2023 год по развитым странам (рассматриваемая переменная, помесячная инфляция, меняется и во времени, и по объектам).

Вторая важнейшая классификация данных – по источникам (способам) их получения. Принципиально различными являются источники:

  • Статистические наблюдения. Это могут быть метеорологические данные, статистика рождаемости, смертности населения, макроэкономические данные (например, все та же инфляция).
  • Экспериментальные данные. Знакомыми вам примерами здесь могут быть результаты экспериментов в физике, химии, биологии, но в последние десятилетия и в общественных науках все больше и больше экспериментальных данных.

Зачем же необходимы эксперименты в экономике? В первую очередь, для оценки эффекта воздействия некоторого события на человека или объект. Например, эксперименты помогают найти точные ответы на вопросы:

  • положительное ли влияние оказывает получение высшего образования на заработную плату в будущем?
  • есть ли эффект от посещения врача?
  • стоит ли выделять денежную помощь развивающимся странам?

Попробуем порассуждать про оценку эффективности посещения врача. Если мы сравним средний уровень здоровья тех, кто обращался к врачу, с теми, кто в больницу не ходил, приведем к противоречивому выводу – посещать врача вредно для здоровья. Этот эффект называется смещением самоотбора, он заключается в том, что ко врачу изначально обращаются те, у кого ниже уровень здоровья. Те, кого ничего не беспокоит, в больницу не идут.

Аналогично, университетское образование идут получать изначально более умные и талантливые, которые потом и заработную плату более высокую получают. То есть существуют первоначальные различия между теми, кто получил воздействие образованием, и теми, кто его не получал – иначе говоря, самоотбор. Чтобы избежать подобного смещения, необходимо контролируемое воздействие – эксперимент.

Для проведения идеального эксперимента нужно всю выборку разделить на две группы: группу воздействия и контрольную группу. Это деление должно быть случайным. Тогда, если выборка довольно большая, средние характеристики объектов в двух группах будут похожими, а различия будут только в том, получил ли объект из группы воздействие или нет. Более простыми словами, для правильной оценки эффекта от высшего образования нужно рассмотреть 1000 человек, случайно отобранную половину из них отправить учиться в университет (это будет группа воздействия), а второй половине не дать получить высшее образование (это будет контрольная группа). Поскольку деление на группы было случайным, то все характеристики людей в этих группах будут очень похожими (доход семьи, баллы на выпускных экзаменах и т.д.), за исключением того, что группу воздействия отправили учиться, а контрольную группу – нет. Разница в средних зарплатах в этих группах и есть эффект от образования. Конечно, такой эксперимент будет довольно жестоким, его провести нельзя. Как правило, экономисты работают с естественными экспериментами, то есть с ситуациями, в которых складываются условия, напоминающие контролируемое воздействие: объекты исследования по средним показателям очень похожи, а отличаются только тем, испытывали ли они интересное исследователю воздействие.

Интересно, что подобные эксперименты крупные технологические компании проводят довольно регулярно. Например, компания Netflix должна уметь качественно рекомендовать пользователю, какое видео ему стоит посмотреть следующим1. Если рекомендательная система построена хорошо, то пользователь более вероятно купит подписку, а значит принесет компании деньги. Вариантов рекомендовать следующий фильм несколько:

  • самый популярный фильм или сериал на сегодняшний день
  • на основе того, что вы смотрели ранее (может быть, вы любитель романтических комедий)
  • на основе ваших социально-демографических характеристик (что же еще нравится смотреть домохозяйкам, как не романтические комедии)

Какой же вариант выбрать компании Netflix? Ответ прост – провести эксперимент: разделить пользователей случайно на несколько групп, каждой группе «включить» свою систему рекомендаций, проследить, в какой группе будет больше подписчиков.

Более простая ситуация с наблюдаемыми статистическими данными, как правило, они доступны в специальных базах. Данные по странам мира доступны на сайтах международных организаций: статистическое бюро Международной организации труда, отдел статистики ООН, данные Мирового банка и т.д. Более подробные данные по отдельным странам можно найти на сайтах национальных статистических служб. В случае России - это Федеральная служба государственной статистики. Часто отдельные государственные органы тоже публикуют свои данные (Центральный Банк РФ или Московская межбанковская валютная биржа).

Нельзя забывать о том, что современные способы получения и обработки данных позволяют скачивать и превращать в числовые данные тексты (скажем, текстовые описания вакансий или объявления об аренде квартиры), изображения (например, сканы свидетельств о рождении) или географические данные (координаты точек на карте, а также маршруты, их соединяющие). Все это открывает для исследователей возможность отвечать на более сложные и интересные вопросы: какие навыки работника наиболее важны работодателю, размещающему вакансию; правда ли, что цена аренды квартир ниже, если в тексте объявления содержится дискриминирующий текст?

Как экономисты строят прогнозы?2

В наиболее общем виде задача анализа данных заключается в том, чтобы подобрать такую функцию, которая для каждого наблюдения из выборки по известным k характеристикам \(x_{i}^{(1)},\ldots,x_{i}^{(k)}\) позволяет найти оценку зависимой переменной \({\widehat{y}}_{i}\):

\({\widehat{y}}_{i} = f\left( x_{i}^{(1)},\ldots,x_{i}^{(k)} \right)\)

Это вполне может быть линейная функция для одной характеристики, например, зависимость цены квартиры от площади:

\(\widehat{Цена_{i}} = a + b \bullet Площадь_{i},\ \ i = 1\ldots n\)

В данном случае площади и цены квартир в выборке (рассматриваемом наборе данных) нам известны. Мы хотим найти параметры \(a\ и\ b\), чтобы уметь прогнозировать цену новой квартиры, когда нам уже известна ее площадь. Иначе говоря, мы используем анализ данных в данном случае, чтобы построить прогноз.

Если исследуемая зависимая переменная может принимать любые значения, то такая задача называется задачей регрессии. Если же зависимая переменная может быть либо 0, либо 1, то есть задача бинарная, то такая задача называется задачей классификации. Пример исследовательского вопрос для задачи классификации - зависит ли факт сдачи экзамена на курсе в университете от посещения лекций по этому предмету? Тогда переменная сдачи экзамена может быть либо 1, если студент успешно сдал экзамен, либо 0, если сдать не удалось.

Отдельная интересная задача анализа данных не предполагает наличия зависимой переменной вообще: по каждому объекту из выборки нам доступны только его характеристики \(x_{i}^{(1)},\ldots,x_{i}^{(k)}\). Такая задача называется задачей кластеризации и заключается в группировке объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров. Например, может быть задача разделить все страны на группы, схожие по макроэкономическим характеристикам.

Ловушки анализа данных

Для экономиста самым важным вопросом является вопрос о направлении влияния, о причинно-следственных связях. В случае данных выше обозначений это вопрос, правда ли, что именно изменения характеристик \(x_{i}^{(1)},\ldots,x_{i}^{(k)}\) влияет на зависимую переменную \(y_{i}\)? Проблема в том, что когда между двумя показателями А и В есть связь, это может сигнализировать о четырех принципиально разных ситуациях:

  • А является причиной изменений В
  • В является причиной изменений А
  • Между показателями существует двунаправленная связь
    • В биологии в паре хищник-добыча число хищников влияет на число животных, служащих пищей. Но число «пищи», также влияет на число хищников.
  • Оба показателя, и А, и В, порождены изменениями третьего фактора С
    • Можно привести безрадостный пример: жарким летом продажи мороженого на пляже растут, так же, как и число утонувших. Третьим фактором здесь является погода, а показатели продаж мороженого и смертности в воде не связаны между собой. Между ними наблюдается то, что называют ложной корреляцией. Много увлекательных примеров ложной корреляции можно найти по ссылке: https://tylervigen.com/spurious-correlations

Настоящему профессионалу в области анализа данных нужно с одной стороны хорошо владеть методами анализа данных, а с другой стороны быть специалистом в той содержательной области, в которой поставлен исследовательский вопрос. Неправильный выбор данных, некорректный выбор метода анализа могут привести к ошибкам и бессмысленным выводам.

Выводы

  • Навык работы с данными необходим современному экономисту. Для обоснования какого-либо экономического утверждения сегодня нужно не только построить модель с предпосылками, но и продемонстрировать его в данных.
  • Данные могут быть классифицированы по структуре на временные ряды, пространственные и панельные данные, а по способу получения на наблюдаемые статистические и экспериментальные.
  • Экспериментальный подход необходим, чтобы справиться с проблемой смещения из-за самоотбора (ситуации, когда средние характеристики индивида влияют на тот факт, получил он некоторое воздействие или нет).
  •  Для экономиста самым важным вопросом является вопрос о направлении влияния, о причинно-следственных связях. При этом важно помнить, что корреляция не гарантирует причинность.
  • Настоящему профессионалу в области анализа данных нужно с одной стороны хорошо владеть методами анализа данных, а с другой стороны быть специалистом в той содержательной области, в которой поставлен исследовательский вопрос

  1. Gomez-Uribe, Hunt, 2015. The Netflix recommender system: Algorithms, business value, and innovation↩︎

  2. Подробно про методы можно прочитать в учебнике: https://books.econ.msu.ru/Introduction-to-Econometrics/↩︎