Учебник+

7.5. Другие (помимо эндогенности) потенциальные угрозы обоснованности выводов эконометрического исследования

Хотя эндогенность является наиболее существенным препятствием для получения надежных выводов при помощи эконометрики, есть и другие аспекты, о которых не следует забывать в процессе моделирования. В этом разделе мы прокомментируем основные из них:

  • Мультиколлинеарность

  • Нарушение предпосылок о гомоскедастичности или о независимости случайных ошибок

  • Неоднородность выборки

  • Угрозы внешней обоснованности выводов

Мультиколлинеарность

Мультиколлинеарность не является первоочередной проблемой, так как её наличие в модели не приводит к смещению оценок коэффициентов. Поэтому если вы не наблюдаете серьезных негативных последствий мультиколлинеарности, то и бороться с ней не нужно. Напомним (см. детали в параграфе 3.1), что под серьезными проблемами в этом контексте мы понимаем сильные проявления следующих традиционных симптомов мультиколлинеарности:

— Неустойчивость результатов. Небольшое изменение исходных данных приводит к существенному изменению оценок коэффициентов.

Незначимость большинства переменных. Каждая переменная в отдельности является незначимой, а уравнение в целом является значимым и характеризуется высоким \(R^{2}\).

— Неправдоподобность результатов. Оценки коэффициентов имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения.

Однако даже если вы столкнулись с этими признаками, то прежде, чем бороться с мультиколлинеарностью, подумайте, не обусловлены ли указанные странности эндогенностью регрессоров? Например, неправдоподобные знаки коэффициентов могут быть вызваны смещением из-за пропуска существенной переменной, а незначимость переменной интереса может объясняться ошибками измерения. В такой ситуации нужно устранять не мультиколлинеарность, а эти, гораздо более критичные, проблемы.

Гетероскедастичность случайных ошибок или коррелированность случайных ошибок, относящихся к разным наблюдениям

В условиях гетероскедастичности МНК-оценки коэффициентов остаются несмещенными и состоятельными (см. детали в главе 5). Поэтому, как и мультиколлинеарность, эта проблема является менее критичной, чем проблема эндогенности.

Основная рекомендация в связи с возможной гетероскедастичностью — не забывайте использовать состоятельные в условиях гетероскедастичности (робастные) стандартные ошибки. Иначе результаты тестирования гипотез и построенные вами доверительные интервалы будут некорректными (даже при том, что сами коэффициенты модели будут оценены состоятельно).

В некоторых моделях случайные ошибки, относящиеся к разным наблюдениям, могут быть коррелированы друг с другом. Одним из примеров такой ситуации является автокорреляция, рассмотренная в конце параграфа 5.5. Другой типичный пример — модели на панельных данных. Он будет проанализирован в главе 9. Там будет показано, что в этом случае для решения проблемы также достаточно использовать специальный тип робастных стандартных ошибок.

Неоднородность выборки

Неоднородностью выборки будем называть ситуацию, когда часть наблюдений существенным образом отличается от основного массива данных. Подобные резко отличающиеся наблюдения называют выбросами. Как правило, следует исключать выбросы из выборки.

Представим, например, что вы исследуете влияние неравенства на экономический рост, используя межстрановые данные. Все страны в вашей выборке являются развитыми европейскими экономиками за единственным исключением: одна страна оказалась развивающейся экономикой из Южной Америки. Например, Венесуэлой. Не имея ничего против Венесуэлы, отметим, что, по всей видимости, её институты, уровень экономического развития и многие другие характеристики довольно сильно отличаются от аналогичных характеристик типичной развитой европейской страны. Поэтому, наверняка, и модель экономического роста для такой страны будет другой. Чтобы в полной мере учесть это отличие, пришлось бы добавить неоправданно много контрольных переменных. Поэтому лучше просто исключить Венесуэлу из выборки.

Другая похожая ситуация — исследования на региональных данных по России. В таких работах из выборки часто исключают, например, Москву, так как она резко отличается от других регионов сразу по ряду характеристик: плотность и численность населения, размер валового регионального продукта, средняя заработная плата и так далее.

Примеры неоднородности данных легко привести и на микроуровне. Представим исследователя, анализирующего влияние физических характеристик баскетболиста на его доходы в профессиональном спорте. Если массив данных, на который опирается исследователь, состоит из информации о двух сотнях спортсменов, играющих в российских баскетбольных турнирах, и о его любимом Майкле Джордане1, то информацию о последнем, увы, придется из выборки исключить.

Формально, наличие существенных выбросов нарушает предпосылку №2 линейной модели со стохастическими регрессорами, что может приводить к проблемам с состоятельностью и асимптотической нормальностью оценок. Однако обычно целесообразность исключения нетипичных наблюдений понятна и просто из соображений здравого смысла. Вряд ли статистика великого Майкла Джордана, игравшего в НБА в прошлом веке, может рассказать какую-то полезную историю о заработках типичного российского басктеболиста в наши дни. Скорее уж она непоправимо исказит результаты.

Обычно потенциальная неоднородность данных может быть обнаружена на этапе их первичного анализа. В частности, анализа гистограмм распределения данных и диаграмм рассеяния. Кроме того, для выявления отдельных неоднородных наблюдений или целых подвыборок полезно хорошо понимать содержательную сторону исследуемого вопроса.

Угрозы внешней обоснованности выводов

Приведенный выше пример про баскетболистов может быть полезен, чтобы обсудить ещё один важный вопрос: корректное определение границ, в рамках которых можно обобщать выводы эконометрического исследования.

В соответствии с определением (Stock, Watson, 2010) будем называть выводы эконометрического моделирования по поводу причинно-следственных связей внутренне обоснованными, если они применимы к проанализированной в исследовании генеральной совокупности.

Соблюдение рекомендаций данной главы позволяет гарантировать внутреннюю обоснованность за счет обеспечения состоятельности оценок коэффициентов и корректного определения их стандартных ошибок. При этом, однако, важно четко определять рамки анализируемой генеральной совокупности. Скажем, если (как в примере выше) исследование осуществлено на основе информации о двух сотнях российских баскетболистов, то анализируемой генеральной совокупностью можно считать всех (именно) российских (именно) баскетболистов. Это значит, что полученные выводы не следует распространять на всех баскетболистов мира или на представителей других видов спорта.

Более того, если в процессе более пристального рассмотрения данных окажется, что все баскетболисты в выборке были мужчинами в возрасте от 20 до 25 лет, то границы анализируемой генеральной совокупности должны быть сужены до этой категории спортсменов и не могут быть распространены на игроков старше сорока или женщин-баскетболисток. Пусть даже они из России.

Аналогично, на основе исследования по данным развитых европейских экономик можно делать выводы относительно развитых стран из Европы, но не по поводу, например, африканских стран. Во втором случае они будут необоснованными из-за игнорирования важных институциональных различий2.

В некоторых случаях эконометрист может претендовать на то, что выводы его исследования являются не только внутренне, но и внешне обоснованными. Выводы эконометрического исследования называются внешне обоснованными, если их можно обобщить с исследованной генеральной совокупности и заданных условий на другие генеральные совокупности и условия. Например, если вы используете данные обследования студентов Новосибирского государственного университета, чтобы формулировать те или иные суждения по поводу склонности к списыванию у студентов Санкт-Петербургского государственного университета.

Для обеспечения внешней обоснованности необходимо дополнительно к требованиям обоснованности внутренней гарантировать выполнение еще двух условий:

  • Отсутствие различий в генеральных совокупностях. В нашем примере это означает, что студенты НГУ и СПбГу должны быть похожи друг на друга по своим основным характеристикам.

  • Отсутствие различий в условиях. Даже если студенты НГУ и СПбГУ полностью идентичны, они могут находиться в разных институциональных условиях. Это может делать выводы, полученные на основе анализа одной группы студентов, неприменимыми по отношению к другой группе. Например, если речь идет о склонности к списыванию, то выводы могут быть искажены различием уровней строгости наказаний за нарушения академической этики, принятых в разных университетах.

Пример 7.1. Стоимость колготок в Московских оптовых торговых фирмах.

Массив данных о стоимости продукции двух фирм-производителей колготок осенью 1997 года вы можете найти в файле Tights.xlsx. Советуем проделать все вычисления, описанные в решении этого примера, чтобы лучше разобраться в деталях.

Переменные:

PRICE — цена колготок в рублях 1997 г.,

DEN — плотность колготок,

POLYAMID — % содержания полиамида,

LYKRA — % содержания лайкры,

COTTON — % содержания хлопка,

WOOL — % содержания шерсти,

\(\mathbf{\text{FIRM}} = \left\{ \begin{matrix} 0,\ \ если\ производитель\ колготок - фирма\ \text{Levante}, \\ 1,\ если\ производитель\ колготок - фирма\ \text{Golden}\ \text{Lady}. \\ \end{matrix} \right.\ \)

Вас интересует ответ на следующий исследовательский вопрос: если рассматривать продукцию с одинаковыми характеристиками, будет ли различаться цена для двух фирм? Если да, то какая фирма устанавливает более высокие цены?

(а) На основании анализа средних значений по группам скажите, различаются ли цены на колготки у разных производителей? Каковы недостатки такого подхода?

Решение пункта (а):

Ограничив выборку условием FIRM=1, получаем подвыборку колготок, произведенных фирмой GoldenLady. Среднее значение цены для этой подвыборки составляет 15206 рублей.

Ограничив выборку условием FIRM=0, получаем подвыборку колготок, произведенных фирмой Levante. Среднее значение цены для этой подвыборки составляет 16382 рубля.

Получается, что колготки Levante дороже в среднем примерно на 1000 рублей. Недостаток такого подхода в том, что он мало что говорит по поводу готовности потребителей доплачивать именно за товар данной фирмы-производителя. Возможно, дело не в бренде, а, например, в составе колготок. Иными словами, простое сравнение средних не позволяет учесть прочие важные факторы.

(б) Постройте уравнение зависимости цены колготок от их плотности, состава и производителя. Не забудьте использовать состоятельные в условиях гетероскедастичности стандартные ошибки.

Решение пункта (б):

Модель 1: МНК, использованы наблюдения 1-74

Зависимая переменная: Price

  Коэффициент Ст. ошибка t-статистика P-значение  
const −4644,35 59396,1 −0,07819 0,9379  
DEN 176,448 39,6128 4,454 <0,0001 ***
polyamid 103,653 597,609 0,1734 0,8628  
lykra 391,328 544,700 0,7184 0,4750  
cotton 156,537 584,205 0,2679 0,7896  
wool 476,064 1150,73 0,4137 0,6804  
Сумма кв. остатков 2,16e+09   Ст. ошибка модели 5641,841
R-квадрат 0,490681   Испр. R-квадрат 0,453231
F(5, 68) 13,10230   Р-значение (F) 6,17e-09

(в) Можно ли считать, что уравнения, описывающие цены колготок для двух рассматриваемых фирм, отличаются друг от друга? Проведите тест Чоу.

Решение пункта (в)

Для осуществления теста Чоу нужно оценить новую модель, добавив в неё соответствующую переменную сдвига и все необходимые переменные наклона, как это показано в таблице ниже:

	Расширенная регрессия для теста Чоу
МНК, использованы наблюдения 1-74
Зависимая переменная: Price
Пропущены из-за совершенной коллинеарности: fi_wool

                 Коэффициент   Ст. ошибка   t-статистика  P-значение
  ----------------------------------------------------------------
  const          −152808       118428          −1,290      0,2017   
  DEN                221,721       51,9178      4,271      6,70e-05  ***
  polyamid          1554,64      1178,86        1,319      0,1920   
  lykra             1922,61      1212,67        1,585      0,1179   
  cotton            1595,87      1173,40        1,360      0,1787   
  wool              3333,75      2346,56        1,421      0,1603   
  firm           −296013       168911          −1,752      0,0846    *
  firm*DEN           −96,1882      81,2445     −1,184      0,2409   
  firm*polyamid     2992,42      1679,25        1,782      0,0796    *
  firm*lykra        3114,42      1798,28        1,732      0,0882    *
  firm*cotton       3011,39      1698,10        1,773      0,0810    *

Среднее зав. перемен    15841,89   Ст. откл. зав. перемен  7629,898
Сумма кв. остатков      1,98e+09   Ст. ошибка модели       5612,979
R-квадрат               0,532946   Испр. R-квадрат         0,458810
F(10, 63)               7,188806   Р-значение (F)          1,93e-07
Лог. правдоподобие     −737,8770   Крит. Акаике            1497,754
Крит. Шварца            1523,099   Крит. Хеннана-Куинна    1507,864

Тест Чоу для структурных изменений в точке firm
  F(5, 63) = 1,14022 р-значение 0,349
Примечание: используется F-статистика, состоятельная в условиях гетероскедаст-чиности

Из таблицы видно, что P-значение для теста Чоу составляет 0,349, что больше, чем 0,05. Таким образом даже при использовании пятипроцентного уровня значимости мы не отвергаем гипотезу об отсутствии структурного сдвига между моделями для цены колготок двух разных производителей.

Есть некоторый соблазн остановить на этом процесс нашего исследования. Казалось бы, мы получили ответ на сформулированный в начале задания исследовательский вопрос: бренд не имеет значения. Однако, прежде, чем это сделать, следует более обстоятельно проанализировать качество полученной модели.

(г) Как можно объяснить большое количество незначимых переменных в уравнении из пункта (б)? Может быть, существует мультиколлинеарность? Чему равно значение коэффициентов VIF для модели из предыдущего пункта?

Как правило, колготки делают только из этих 4-х материалов: хлопка, шерсти, лайкры и полиамида (поэтому обычно сумма долей этих 4 элементов должна составлять 100%). Для проверки этого предположения создадим новую переменную, представляющую собой остаток:

REST = 100 – COTTON – LYKRA – POLYAMID – WOOL

Для каких наблюдений эта переменная не равна нулю? Исключите их из выборки.

Оцените регрессию заново, исключив из неё переменную POLYAMID, чтобы устранить мультиколлинеарность.

Решение пункта (г):

Из результатов оценивания модели в пункте (б) видим, что все переменные, кроме переменной DEN, незначимы. Полученный результат можно объяснить мультиколлинеарностью. Действительно, в большинстве случаев колготки состоят из четырех материалов, учтенных в модели: COTTON, LYKRA, POLYAMID и WOOL. Следовательно, обычно сумма долей четырех этих составляющих в составе колготок будет близка к 100%, то есть между указанными переменными существует почти строгая линейная связь.

Для проверки нашего предположения вычислим значения коэффициентов VIF:

       DEN    1,746
polyamid 251,545
lykra 89,774
cotton 93,498
wool 57,581

Легко видеть, что для перечисленных выше четырех переменных коэффициенты VIF существенно больше 10, что свидетельствует о сильной мультиколлинеарности.

Для проверки нашего предположения о том, что практически всегда колготки на 100% состоят из хлопка, лайкры, полиамида и шерсти, создадим новую переменную, представляющую из себя остаток:

REST = 100 – COTTON – LYKRA – POLYAMID – WOOL.

Проанализировав значения этой переменной в выборке, выясняем, что лишь для двух наблюдений переменная REST\(\neq\)0. Исключим из выборки эти нетипичные наблюдения.

Далее, рассмотрев значения переменной POLYAMID, видим, что для всех наблюдений его значение велико и близко к 100%. Исключив его из регрессии, мы по существу будем воспринимать его как материал «по умолчанию». Это позволит в значительной мере решить проблему мультиколлинеарности. Оценим на новой выборке регрессию с переменными COTTON, DEN, LYKRA и WOOL.

Модель 2: МНК, использованы наблюдения 1-72

Зависимая переменная: Price

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC1

  Коэффициент Ст. ошибка t-статистика P-значение  
const 4850,27 1800,05 2,695 0,0089 ***
DEN 175,399 44,4396 3,947 0,0002 ***
lykra 367,032 92,4580 3,970 0,0002 ***
cotton 58,2704 61,7878 0,9431 0,3490  
wool −249,251 554,391 −0,4496 0,6545  
Среднее зав. перемен 15561,11   Ст. откл. зав. перемен 7307,194
Сумма кв. остатков 2,10e+09   Ст. ошибка модели 5599,897
R-квадрат 0,445789   Испр. R-квадрат 0,412702
F(4, 67) 25,40284   Р-значение (F) 7,92e-13
Лог. правдоподобие −720,9688   Крит. Акаике 1451,938
Крит. Шварца 1463,321   Крит. Хеннана-Куинна 1456,469

Вычислив коэффициенты VIF для новой модели, видим, что мультиколлинеарность действительно устранена (так как все коэффициенты заметно меньше 10):

	 DEN    1,496
       lykra    3,109
      cotton    1,430
        wool    3,147

(д) Можно ли что-то еще сделать для получения более однородных данных? Посмотрим на данные подробнее.

Во-первых, обратимся к переменной WOOL: по шерсти только два наблюдения не равны 0. Скорее всего, это другой вид колготок, который описывается другой моделью, поэтому исключим их.

Во-вторых, проанализируем дополнительно данные по переменной COTTON. Только 3 наблюдения принимают очень высокие значения. Скорее всего, это совершенно другой вид колготок. Исключим из выборки все наблюдения, для которых содержание хлопка составляет 40% или выше.

Снова оцените модель из предыдущего пункта, используя новую ограниченную выборку. То есть оцените регрессию переменной PRICE на константу и переменные DEN, LYKRA, COTTON (переменную WOOL больше не имеет смысла включать в уравнение, так как теперь она для всех наблюдений равна нулю).

Как устранение мультиколлинеарности и переход к более однородным данным сказались на значимости оценок коэффициентов в данном примере?

Решение пункта (д):

Исключение переменных по указанным в данном пункте критериям приводит к выборке из 67 наблюдений. Оценим параметры регрессионной модели по этим данным.

Модель 3: МНК, использованы наблюдения 1-67

Зависимая переменная: Price

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC1

  Коэффициент Ст. ошибка t-статистика P-значение  
const 5128,89 1596,22 3,213 0,0021 ***
DEN 160,371 43,6176 3,677 0,0005 ***
lykra 256,324 73,8774 3,470 0,0009 ***
cotton 2085,87 529,272 3,941 0,0002 ***
Сумма кв. остатков 1,66e+09   Ст. ошибка модели 5134,673
R-квадрат 0,472643   Испр. R-квадрат 0,447531
F(3, 63) 17,17920   Р-значение (F) 2,91e-08

Отметим, что устранение мультиколлинеарности и использование однородной выборки приводит к получению статистически значимых коэффициентов при всех переменных в модели.

(е) Вернемся к интересующему нас вопросу о важности фирмы-производителя. Для модели из предыдущего пункта проведите тест Чоу, чтобы получить ответ на этот вопрос. Используйте пятипроцентный уровень значимости.

Если выяснилось, что структурный сдвиг между моделями ценообразования разных фирм существует, то оцените модель из пункта (д) заново, добавив в неё переменную FIRM. То есть оцените регрессию переменной PRICE на константу и переменные DEN, LYKRA, COTTON, FIRM. Интерпретируйте полученный результат.

Решение пункта (е):

Результаты теста Чоу для модели из пункта (д) представлены ниже. Обратите внимание, что соответствующее P-значение равно 0,014, то есть меньше, чем 0,05. Следовательно, при уровне значимости 5% мы можем заключить, что структурный сдвиг существует и добавление в модель переменной, характеризующей фирму производителя, скорее всего, является оправданным.

Расширенная регрессия для теста Чоу
МНК, использованы наблюдения 1-67
Зависимая переменная: Price
Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC1

              Коэффициент   Ст. ошибка   t-статистика   P-значение
  ----------------------------------------------------------------
  const          3084,33      1738,94         1,774         0,0813   *
  DEN             203,996       71,8443       2,839         0,0062   ***
  lykra           228,206      114,550        1,992         0,0510   *
  cotton         2244,67       693,342        3,237         0,0020   ***
  firm           1950,90      2892,84         0,6744        0,5027  
  firm*DEN        −80,0647      81,1609      −0,9865        0,3279  
  firm*lykra      243,035      153,016        1,588         0,1176  
  firm*cotton     −27,6460    1129,56        −0,02448       0,9806  

Среднее зав. перемен    14856,72   Ст. откл. зав. перемен  6908,103
Сумма кв. остатков      1,50e+09   Ст. ошибка модели       5046,583
R-квадрат               0,522927   Испр. R-квадрат         0,466325
F(7, 59)                12,99036   Р-значение (F)          5,58e-10
Лог. правдоподобие     −662,0824   Крит. Акаике            1340,165
Крит. Шварца            1357,802   Крит. Хеннана-Куинна    1347,144

Тест Чоу для структурных изменений в точке firm
  Хи-квадрат(4) = 13,7517 р-значение 0,0081
  F-статистика: F(4, 59) = 3,43792 р-значение 0,014

Ниже представлены результаты оценивания с включением новой переменной. Легко видеть, что коэффициент при переменной FIRM статистически значим при пятипроцентном уровне и составляет около двух с половиной тысяч. Следовательно, при прочих равных условиях (то есть при одинаковой плотности и сходном составе) колготки фирмы Golden Lady стоят на две с половиной тысячи рублей больше, чем колготки фирмы Levante3.

Модель 4: МНК, использованы наблюдения 1-67

Зависимая переменная: Price

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC1

  Коэффициент Ст. ошибка t-статистика P-значение  
const 2728,33 1396,87 1,953 0,0553 *
DEN 166,223 43,0672 3,860 0,0003 ***
lykra 329,380 75,4975 4,363 <0,0001 ***
cotton 2203,03 543,331 4,055 0,0001 ***
firm 2566,69 1266,24 2,027 0,0470 **
Сумма кв. остатков 1,57e+09   Ст. ошибка модели 5036,107
R-квадрат 0,500748   Испр. R-квадрат 0,468538
F(4, 62) 23,97258   Р-значение (F) 5,16e-12

(ж) Измените функциональную форму модели на логарифмически-линейную. То есть оцените регрессию логарифма переменной PRICE на константу и переменные DEN, LYKRA, COTTON, FIRM. Интерпретируйте полученный результат.

Решение пункта (ж)

Результаты оценивания логарифмически-линейной модели представлены ниже:

Модель 5: МНК, использованы наблюдения 1-67

Зависимая переменная: l_Price

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность), вариант HC1

  Коэффициент Ст. ошибка t-статистика P-значение  
const 8,44591 0,123112 68,60 <0,0001 ***
DEN 0,0115825 0,00241486 4,796 <0,0001 ***
lykra 0,0352771 0,00608287 5,799 <0,0001 ***
cotton 0,148974 0,0284931 5,228 <0,0001 ***
firm 0,286642 0,0766869 3,738 0,0004 ***
Сумма кв. остатков 6,106496   Ст. ошибка модели 0,313834
R-квадрат 0,608580   Испр. R-квадрат 0,583327
F(4, 62) 29,38280   Р-значение (F) 1,03e-13

Легко видеть, что и в данном случае переменная, характеризующая фирму-производителя, статистически значима. Интерпретировать коэффициент при этой переменной можно так: при прочих равных условиях (то есть при одинаковой плотности и сходном составе) колготки фирмы Golden Lady стоят на \(\left( e^{0,29} - 1 \right)*100\% = 33\%\) больше, чем колготки фирмы Levante.

(з) Осуществите тесты Рамсея для моделей из пунктов (е) и (ж). Используйте пятипроцентный уровень значимости. В соответствии с результатами тестов сделайте вывод, какая функциональная форма связи в данном случае является более оправданной: линейная или логарифмически-линейная?

Решение пункта (з)

Для модели из пункта (е) P-значения теста Рамсея составляет 0,46 (то есть больше, чем 0,05), а для модели из пункта (ж) оно равно 0,015 (то есть меньше, чем 0,05).

Следовательно, в первом случае гипотеза о корректности спецификации не отвергается, а во втором — отвергается. Можно заключить, что более оправдано использование линейной спецификации модели. Впрочем, это не очень важно, так как выводы по поводу знака и значимости коэффициента при интересующей нас переменной совпадают.

(и) На основе анализа всех полученных результатов дайте ответ на исследовательский вопрос, сформулированный в самом начале этого задания.

Решение пункта (и):

Мы получили устойчивый к изменению спецификации модели вывод о том, что при одинаковой плотности и сходном составе колготки фирмы Golden Lady стоят дороже колготок её конкурента.

Примечание: обратите внимание, что в процессе решения задания для получения корректного ответа на интересующий нас вопрос, пришлось проделать долгий путь. На этом пути мы использовали комбинацию нескольких идей по улучшению качества модели, описанных в данной главе: получение однородной выборки за счет устранения выбросов; преодоление негативных последствий сильной мультиколлинеарности; сопоставление различных функциональных форм уравнения регрессии.


  1. Майкл Джордан — шестикратный чемпион национальной баскетбольной ассоциации, который по версии ряда источников является величайшим баскетболистом всех времён и народов. В контексте нашего примера стоит также отметить, что Forbes называет Майкла Джордана самым высокооплачиваемым спортсменом в мире за всю историю профессионального спорта.↩︎

  2. Учитывая очевидность этой рекомендации, кажется удивительным, насколько часто она игнорируется не только начинающими эконометристами, но и вполне респектабельными людьми, дающими рекомендации по выбору мер экономической политики. Примеры провалов реформ, которые проводились в развивающихся странах на основе моделей, разработанных для развитых экономик, приводятся в остроумной книге Уильяма Истерли «В поисках роста». Русскоязычное издание: Истерли В. В поисках роста: Приключения и злоключения экономистов в тропиках / Пер. с англ. — М.: Институт комплексных стратегических исследований, 2006.↩︎

  3. Точнее, стоили в 1997 году.↩︎