1.2. Корреляция и причинно-следственная связь: некоторые подводные камни

В этом параграфе мы обсудим несколько важных эконометрических идей. Обойдемся без продвинутых методов (которые нам только предстоит изучить в будущем). Вместо этого ограничимся пока анализом простых таблиц и графиков.

Пример 1.1. Подготовительные курсы

В таблице 1.1 приведены статистические данные, которые характеризуют платные курсы по подготовке к поступлению в магистратуру экономического факультета одного из ведущих российских университетов.

Интуитивно кажется, что ходить на курсы полезно. Однако разглядывание таблицы 1.1 подталкивает нас к противоположному выводу. Курсы выглядят не просто бесполезными, а даже вредными: их посетители пишут экзамен хуже тех, кто готовился к экзамену сам. В таблице приведена информация о 150 абитуриентах, 50 из которых ходили на эти подготовительные курсы, а остальные 100 не ходили, готовясь к поступлению как-то иначе (скорее всего, самостоятельно). Кроме того, можно видеть, что представители первой группы получили в среднем 43 балла за вступительный экзамен (экзамен оценивался по стобалльной шкале). Представители второй группы, в свою очередь, в среднем набрали на этом экзамене 48,5 баллов.

Таблица 1.1. Результаты вступительного экзамена в магистратуру для 150 абитуриентов

	Ходили на курсы	Не ходили на курсы
Средний балл за экзамен	43 балла (50 человек)	48,5 баллов (100 человек)

Примечание: экзамен оценивался по 100-балльной шкале.

Иными словами, между посещением курсов и результатом экзамена наблюдается отрицательная корреляция. Означает ли это, что посещение курсов является причиной более скверных результатов экзамена? На самом деле вовсе не обязательно. И если мы немного поразмыслим, откуда возникла такая корреляция, то найдем альтернативное объяснение.

Одна из причин может состоять в том, что на курсы обычно ходят менее подготовленные и, следовательно, менее уверенные в своих силах абитуриенты.

Можем ли мы как-то учесть данный фактор? Один из способов сделать это — разделить всех абитуриентов на две группы: выпускники бакалавриата данного факультета данного университета и выпускники других вузов. Естественно предположить, что выпускники этого университета лучше готовы к экзамену: во-первых, университет, данные по которому мы анализируем, является одним из ведущих учебных заведений; во-вторых, выпускники, закончившие его бакалавриат, лучше представляют требования экзаменаторов, и поэтому лучше готовы к поступлению в его магистратуру.

Подобное разделение учтено в таблице 1.2. Здесь данные про тех же абитуриентов, что и в таблице 1.1, представлены несколько иначе. Из новой таблицы видно, что для каждой из групп в отдельности подготовительные курсы полезны. Действительно, бакалавры этого факультета, посетившие курсы, получают в среднем на 5 баллов больше не посетивших (55 баллов вместо 50). А для выпускников других вузов посещение курсов соответствует увеличению результата экзамена аж на 20 баллов (40 баллов вместо 20).

Таблица 1.2. Результаты вступительного экзамена в магистратуру для 150 абитуриентов (с учетом дополнительного фактора)

	Ходили на курсы	Не ходили на курсы
Выпускники бакалавриата данного университета	55 баллов (10 человек)	50 баллов (95 человек)
Выпускники других вузов	40 баллов (40 человек)	20 баллов (5 человек)
Средний балл за экзамен	43 балла (50 человек)	48,5 баллов (100 человек)

Примечание: экзамен оценивался по 100-балльной шкале.

Ещё раз подчеркнем, что это те же самые 150 абитуриентов, что и в таблице 1.1. Если посчитать средние взвешенные по каждому из столбцов, то мы получим числа из этой таблицы (см. нижнюю строчку таблицы 1.2).

Откуда же возникла видимость негативного эффекта от посещения курсов в таблице 1.1? Дело в том, что, как мы и предположили, абитуриенты из «сильной» группы гораздо реже ходят на курсы, чем абитуриенты из «слабой» группы: среди этих групп курсы посетили 10 и 40 человек, соответственно. Поэтому и общий средний балл всех посетителей курсов оказался не слишком высок, несмотря на то, что для каждой отдельной группы абитуриентов курсы были полезны.

Из этой простой истории можно извлечь два важных вывода:

Вывод №1: если вы будете игнорировать существенные переменные, вы получите смещенные результаты.¹

Такой эффект также называют смещением из-за пропуска существенных переменных (omitted-variable bias). Он подробно анализируется в главе 3.

Вывод №2: корреляция — это не то же самое, что причинно-следственная связь. В первой таблице между посещением курсов и результатами отрицательная корреляция, однако на самом деле это ничего не говорит о качестве курсов. Посчитать корреляцию, как правило, легко. Были бы данные. Выявить причинно-следственную связь — сложно. Пожалуй, это самая сложная (но и самая интересная!) задача в современной эконометрике.

Пример 1.2. Источник роста

Какие факторы определяют рост валового внутреннего продукта (ВВП)? Это важный вопрос, так как ВВП, несмотря на некоторые недостатки, является одним из ключевых показателей состояния экономики страны. Предположим, мы задались этим вопросом применительно к России и, собрав данные, построили график, характеризующий зависимость ВВП от некоторой переменной (см. рис. 1.1).

Каждая точка на рисунке соответствует данным за определенный год. Прямая линия представляет тенденцию, отражающую эту взаимосвязь. На рис 1.1 также есть уравнение этой прямой и коэффициент \(R^2\). Подробнее о том, как определять это уравнение и вычислять этот коэффициент, мы обсудим в главе 2. Пока отметим, что значение \(R^2\), близкое к единице (как это наблюдается в нашем случае) говорит о хорошем соответствии модели данным. Это соответствие видно невооруженным взглядом: на рисунке большему значению фактора N соответствует большее значение ВВП, и зависимость очень близка к линейной. Коэффициент корреляции между двумя рассматриваемыми переменными также близок к единице и составляет примерно 0,96.

Рисунок 1.1. Зависимость реального ВВП России (вертикальная ось) от некоторого фактора N (горизонтальная ось)

Примечания: Реальный ВВП в ценах 2008 года измерен в трлн руб. Использованы данные за 1995–2012 гг.

После анализа рисунка 1.1 есть соблазн сказать, что мы нашли тот самый важный фактор, который определяет динамику ВВП России. Достаточно увеличить его, чтобы и совокупный выпуск конечных товаров и услуг на территории страны также стал больше. Иногда, читая лекцию, я показываю этот график на экране и спрашиваю слушателей: что это за такой важный для российской экономики фактор N? Самый популярный ответ — цены на нефть — невероятно далек от истины.

В действительности переменная N — это… численность населения Австралии. Здравый смысл подсказывает, что такая переменная вряд ли критична для российского ВВП, а значит, вывод о наличии тесной причинно-следственной связи на основе рисунка 1.1 является ошибочным. В данном случае источником ошибки является одна из типичных ловушек, с которыми сталкиваются начинающие эконометристы при работе с временными рядами — так называемая ложная регрессия (spurious regression).

Чтобы понять источник проблемы, обратимся к рисункам 1.2а и 1.2б, где изображены графики ВВП России и численности населения Австралии по отдельности. Легко видеть, что каждая из этих переменных характеризуется возрастающим трендом. Поэтому, когда мы считаем корреляцию между указанными переменными, технически она оказывается чрезвычайно высокой. Однако в действительности возрастающие тенденции этих переменных определяются совершенно разными факторами и механизмами. А потому существенной причинно-следственной связи между ВВП России и населением Австралии, конечно, нет.

Рисунок 1.2а. Динамика реального ВВП России в 1995–2012 гг.

Рисунок 1.2б. Динамика численности населения Австралии в 1995–2012 гг.

Ложная регрессия — ситуация, когда между объясняющей и зависимой переменной в действительности нет причинно-следственной связи, однако коэффициент корреляции между ними по модулю близок к единице, а уравнение, описывающее их взаимосвязь, с высокой точностью соответствует данным. Эта ситуация обычно возникает в случае работы с временными рядами, которые характеризуются наличием тренда, детерминированного или случайного. Эконометристы называют такие временные ряды нестационарными.

Избавиться от возникновения ложной зависимости можно, устранив из данных указанные тренды. Для этого, например, вместо самих переменных можно анализировать их изменения. В нашем случае — изменение ВВП в году \(t\) по сравнению с годом \(t-1\) и изменение численности населения Австралии. Такой приём в эконометрике называют переходом к первым разностям переменных. Результат этого перехода представлен на рис. 1.3. Легко видеть, что в этом случае «злые чары» ложной регрессии рассеиваются, и кажущаяся связь между в действительности не связанными переменными пропадает.

Рисунок 1.3. Изменение реального ВВП России (вертикальная ось) и изменение некоторого фактора N (горизонтальная ось)

Примечание: Можно заметить, что после перехода к изменениям переменных между ними больше не наблюдается явной взаимосвязи (в отличие от ситуации на рис. 1.1.)

Из этой истории также можно извлечь важную мораль.

Вывод №3: если вы будете игнорировать свойства временных рядов, с которыми работаете (наличие трендов и нестационарность), вы получите искаженные результаты.

Много других примеров ложных зависимостей есть тут: https://tylervigen.com/spurious-correlations.

Приведенные кейсы охватывают лишь малую долю подводных камней, которые могут возникать в процессе попыток выявить причинно-следственные связи. Например, пока за кадром остался вопрос об определении того, какая из переменных является причиной, а какая — следствием (скажем, влияет ли религиозность нации на её благосостояние, или, наоборот, рост благосостояния является первопричиной изменения популярности религии в обществе?). Эта проблема рассматривается в главе 7.

Но даже те ситуации, которые мы уже обсудили, позволяют проиллюстрировать важность корректного применения методов работы с данными. Неправильное их использование опасно тем, что вместо истинных ответов на исследовательские вопросы вы получите полную чепуху. Именно неверное применение статистических методов, приводящее к сомнительным результатам, сделало популярной присказку про ложь, наглую ложь и статистику². Главы этого учебника призваны помочь вам избежать этой опасности и научиться, используя эконометрику, узнавать о мире нечто ценное.

Слово «смещенный» тут можно понимать в математико-статистическом смысле. Напомним, что оценка называется смещенной, если её математическое ожидание не совпадает с истинным значением оцениваемого параметра (в данном случае оцениваемым параметром является изменение балла за экзамен в результате посещения курсов). Более детально формальный смысл термина «смещенная оценка» мы обсудим в главах 2 и 3. ↵
«Существуют три вида лжи: ложь, наглая ложь и статистика». Выражение известно благодаря Марку Твену, который приписывал его премьер-министру Великобритании Бенджамину Дизраэли. ↵