Сформулируем новый набор предпосылок, который будем называть предпосылками линейной модели со стохастическими регрессорами. Начнем с модели парной регрессии.
Предпосылки линейной модели со стохастическим регрессором (случай парной регрессии):
-
Модель линейна по параметрам и правильно специфицирована:
\(y_{i} = \beta_{1} + \beta_{2}x_{i} + \varepsilon_{i},\ \ i = 1,2,\ldots,\ n.\)
-
Наблюдения \(\{\left( x_{i},y_{i} \right),\text{~i} = 1,\ldots,n\}\) независимы и одинаково распределены.
-
\(x_{i}\) и \(y_{i}\) имеют ненулевые конечные четвертые моменты распределения \(E\left( x_{i}^{4} \right) < \infty,\) \(E\left( y_{i}^{4} \right) < \infty\).
-
Случайные ошибки имеют нулевое условное математическое ожидание при заданном \(x_{i}\): \(E\left( \varepsilon_{i} \middle| x_{i} \right) = 0\).
Сравним предпосылки этой модели с предпосылками классической линейной модели парной регрессии (КЛМПР) из главы 2.
Первая предпосылка стандартна и остается без изменений.
Вторая предпосылка в КЛМПР требовала, чтобы регрессоры были неслучайными величинами. Теперь мы отказываемся от неё, допуская, что объясняющие переменные могут быть случайными. При этом мы требуем, чтобы наблюдения \(\{\left( x_{i},y_{i} \right),\text{~i} = 1,\ldots,n\}\) были независимыми и одинаково распределенными (independent and identically distributed, i.i.d.).
Это требование вовсе не означает, что \(y_{i}\) не зависит от \(x_{i}\) (ясно, что в этом случае анализировать модель их взаимосвязи было бы бессмысленно). Зато оно говорит о том, что векторы \(\left( x_{1},y_{1} \right),\left( x_{2},y_{2} \right)\), \(\left( x_{3},y_{3} \right)\ldots\) независимы друг от друга в вероятностном смысле. Иными словами, отдельные наблюдения в нашей модели не влияют друг на друга.
Для пространственных данных эта предпосылка практически всегда выполняется1. В то же время следует помнить, что при работе с временными рядами эта предпосылка часто нарушается, так как для временных рядов естественно предполагать, что будущие значения переменных зависят от прошлых2. Поскольку пока мы в основном концентрируемся на пространственных данных, для нас она остается весьма реалистичной.
Лирическое отступление о неслучайных и случайных регрессорах
Отвлечемся ненадолго от технических деталей и обратимся к вопросу: как следует думать об объясняющих переменных с содержательной точки зрения? Следует ли считать их скорее детерминированными величинами или скорее случайными?
Ответ, разумеется, зависит от того, с какими данными вы работаете, и какова процедура их сбора.
Представим, например, что вы анализируете зависимость логарифма реального ВВП от номера года. То есть оцениваете параметры линии тренда для временного ряда:
\({\ln y}_{t} = \beta_{1} + \beta_{2}*t + \varepsilon_{t}\)
Здесь \(y_{t}\) — ВВП в год t. В данном примере регрессор (номер года t) вполне естественно считать неслучайным (детерминированным). Действительно, мы точно знаем, что в принятой нами системе летоисчисления за 2020-ым годом последует 2021-ый, а затем наступит 2022-ой. Никакой случайности тут нет.
Теперь представим, что вас интересуют параметры следующей модели для инфляции:
\(\pi_{t} = \beta_{1} + \beta_{2}\pi_{t - 1} + \beta_{2}x_{t} + \varepsilon_{t}\)
\(\pi_{t}\) — это уровень инфляции в год t, а \(x_{t}\) — это, например, отклонение фактического ВВП от потенциального ВВП в год t 3. Обратите внимание: здесь предполагается, что инфляция в текущем периоде зависит от инфляции в прошлом периоде. Однако инфляция прошлого периода \(\pi_{t - 1}\), в свою очередь, зависит от \(\varepsilon_{t - 1}\), а значит уж точно является случайной величиной. Следовательно, в данном примере по крайней мере один из регрессоров (переменная \(\pi_{t - 1}\)) заведомо является случайным (стохастическим).
В двух приведенных примерах детерминированная или стохастическая природа объясняющих переменных может быть определена однозначно из соображений здравого смысла. В то же время, во многих ситуациях решение о том, как воспринимать регрессоры — как неслучайные величины или как случайные — это исключительно вопрос технического удобства. В частности, при использовании асимптотического подхода второй вариант более удобен, поэтому в современных эконометрических приложениях по умолчанию используют его.
Третья предпосылка выглядит достаточно устрашающе. Однако в действительности никак не ограничивает исследователя. По существу, она означает, что очень большие выбросы в данных маловероятны. Это техническая предпосылка, которая, как мы увидим в дальнейшем, позволяет гарантировать асимптотическую нормальность оценок коэффициентов. Это даст нам возможность тестировать гипотезы и строить доверительные интервалы.
Проверить эту предпосылку сложно, однако она достаточно слабая, и потому на практике обычно считают, что она выполнена. Во всяком случае, легко согласиться с тем, что она выполняется гораздо чаще, чем предпосылка КЛМПР №6 о нормальности случайных ошибок. А ведь именно её она, в сущности, заменяет.
Четвертая предпосылка играет ключевую роль в получении корректных результатов эконометрического моделирования. В последующих параграфах и главах мы увидим, что именно вопрос о выполнении или нарушении этой предпосылки оказывается в центре дискуссии об уместности применения тех или иных методов и спецификаций моделей в различных ситуациях.
Содержательно эта предпосылка говорит о том, что «прочие факторы», которые «спрятаны» в случайной ошибке \(\varepsilon_{i}\), никак не связаны с регрессором. Поэтому знание \(x_{i}\) никак не влияет на ожидания по поводу случайной величины \(\varepsilon_{i}\).
Чтобы на конкретных числах «пощупать» эту предпосылку, а заодно вспомнить, что такое условное математическое ожидание и как его считать, рассмотрим следующий простой пример.
Пример 6.3. Об условном математическом ожидании
Пусть известен совместный закон распределения случайных величин \(x_{i}\) и \(\varepsilon_{i}\).
\(\varepsilon_{i} = - 1\) | \(\varepsilon_{i} = 0\) | \(\varepsilon_{i} = 1\) | |
---|---|---|---|
\(x_{i} = 0\) | 0,2 | 0,1 | 0,2 |
\(x_{i} = 1\) | 0,1 | 0,3 | 0,1 |
(а) Проверьте, выполняется ли в данном случае предпосылка №4 об условном математическом ожидании случайной ошибки?
(б) Вычислите безусловное математическое ожидание случайной ошибки.
(в) Вычислите \(\text{cov}\left( \varepsilon_{i},x_{i} \right)\).
Решение:
(а) Напомним, что по определению условным математическим ожиданием случайной величины \(\varepsilon_{i}\) при условии \(x_{i}\) называется математическое ожидание условного распределения случайной величины \(\varepsilon_{i}\) при условии \(x_{i}\).
Запишем закон условного распределения \(\varepsilon_{i}\) при условии, что \(x_{i} = 0\). Для этого отметим, что вероятность события \(x_{i} = 0\) в нашем примере составляет 0,2+0,1+0,2=0,5.
\(\varepsilon_{i} = - 1\) | \(\varepsilon_{i} = 0\) | \(\varepsilon_{i} = 1\) | |
---|---|---|---|
\(P\left( \varepsilon_{i}|x_{i} = 0 \right)\) | \(\frac{0,2}{0,5}\) | \(\frac{0,1}{0,5}\) | \(\frac{0,2}{0,5}\) |
Зная этот закон распределения, легко посчитать математическое ожидание:
\(E\left( \varepsilon_{i}|x_{i} = 0 \right) = - 1*\frac{0,2}{0,5} + 0*\frac{0,1}{0,5} + 1*\frac{0,2}{0,5} = 0\)
Аналогично получаем условное математическое ожидание \(\varepsilon_{i}\) при условии, что \(x_{i} = 1\).
\(\varepsilon_{i} = - 1\) | \(\varepsilon_{i} = 0\) | \(\varepsilon_{i} = 1\) | |
---|---|---|---|
\(P\left( \varepsilon_{i}|x_{i} = 1 \right)\) | \(\frac{0,1}{0,5}\) | \(\frac{0,3}{0,5}\) | \(\frac{0,1}{0,5}\) |
\(E\left( \varepsilon_{i}|x_{i} = 1 \right) = - 1*\frac{0,1}{0,5} + 0*\frac{0,3}{0,5} + 1*\frac{0,1}{0,5} = 0\)
Таким образом, для любого возможного значения \(x_{i}\) условие \(E\left( \varepsilon_{i}|x_{i} \right) = 0\) соблюдается. То есть предпосылка выполнена.
(б) \(E\left( \varepsilon_{i} \right) = P\left( \varepsilon_{i} = - 1 \right)*( - 1) + P\left( \varepsilon_{i} = 0 \right)*0 + P\left( \varepsilon_{i} = 1 \right)*(1) =\)
\(= 0,3*( - 1) + 0,4*0 + 0,3*1 = 0\)
Следовательно, безусловное математическое ожидание случайной ошибки тоже равно нулю.
(в) \(\text{cov}\left( \varepsilon_{i},x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right) - E\left( \varepsilon_{i} \right)*E\left( x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right) - 0*E\left( x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right)\)
\(E\left( \varepsilon_{i}x_{i} \right) = 0,2*( - 1)*0 + 0,1*0*0 + 0,2*1*0 +\)
\(+ 0,1*( - 1)*1 + 0,3*0*1 + 0,1*1*1 = 0\)
В нашем примере оказалось, что предпосылке №4 соответствует выполнение условий \(E\left( \varepsilon_{i} \right) = 0\) и \(\text{cov}\left( \varepsilon_{i},x_{i} \right) = 0\). На самом деле это не случайный результат. Его можно обобщить, доказав два важных следствия из предпосылки №4.
Следствие 1. Если случайные ошибки имеют нулевое условное математическое ожидание при заданном \(x_{i}\): \(E\left( \varepsilon_{i} \middle| x_{i} \right) = 0\), то они имеют нулевое безусловное математическое ожидание: \(E\left( \varepsilon_{i} \right) = 0\)
Доказательство этого следствия является хорошим примером применения закона повторного математического ожидания.
Напомним формулировку закона повторного математического ожидания:
\(E(\xi) = E\left( E\left( \xi \middle| \eta \right) \right)\)
В нашем случае в соответствии с этим законом:
\(E\left( \varepsilon_{i} \right) = E\left( E\left( \varepsilon_{i} \middle| x_{i} \right) \right) = E(0) = 0.\)
Поэтому, сформулировав предпосылку №4, мы не нуждаемся в том, чтобы отдельно формулировать предположение по поводу безусловного математического ожидания случайной ошибки, которое мы делаем в КЛМПР.
Подчеркнем, что обратное утверждение, вообще говоря, неверно. Вполне возможна ситуация, когда безусловное математическое ожидание случайной ошибки равно нулю, а её условное математическое ожидание при условии \(x_{i}\) — нет. см. пример 6.4 далее.
Следствие 2. Если случайные ошибки имеют нулевое условное математическое ожидание при любом заданном \(x_{i}\): \(E\left( \varepsilon_{i} \middle| x_{i} \right) = 0\), то регрессор и случайная ошибка не коррелированы друг с другом: \(\text{cov}\left( \varepsilon_{i},x_{i} \right) = 0\).
Для доказательства сначала отметим, что по свойству теоретической ковариации:
\(\text{cov}\left( \varepsilon_{i},x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right) - E\left( \varepsilon_{i} \right)E\left( x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right) - 0*E\left( x_{i} \right) = E\left( \varepsilon_{i}x_{i} \right).\)
А затем снова воспользуемся законом повторного математического ожидания:
\(E\left( \varepsilon_{i}x_{i} \right) = E\left( E\left( \varepsilon_{i}x_{i} \middle| x_{i} \right) \right) = E\left( x_{i}E\left( \varepsilon_{i} \middle| x_{i} \right) \right) = E\left( x_{i}*0 \right) = E(0) = 0\)
Регрессор, который не коррелирован со случайной ошибкой модели, обычно называют экзогенным регрессором. Таким образом, предпосылку №4 иногда называют предпосылкой об экзогенности регрессора.
Если же объясняющая переменная в модели, наоборот, коррелирована со случайной ошибкой \(\text{cov}\left( \varepsilon_{i},x_{i} \right) \neq 0\), то её называют эндогенным регрессором.
Пример 6.4. Об условном математическом ожидании (продолжение)
Пусть теперь совместный закон распределения \(x_{i}\) и \(\varepsilon_{i}\) имеет такой вид:
\(\varepsilon_{i} = - 1\) | \(\varepsilon_{i} = 0\) | \(\varepsilon_{i} = 1\) | |
---|---|---|---|
\(x_{i} = 0\) | 0,3 | 0,1 | 0,1 |
\(x_{i} = 1\) | 0,1 | 0,1 | 0,3 |
Покажите, что в этом случае условие \(E\left( \varepsilon_{i} \right) = 0\) выполнено, а условие \(E\left( \varepsilon_{i} \middle| x_{i} \right) = 0\) нарушается.
Решение:
\(E\left( \varepsilon_{i} \right) = P\left( \varepsilon_{i} = - 1 \right)*( - 1) + P\left( \varepsilon_{i} = 0 \right)*0 + P\left( \varepsilon_{i} = 1 \right)*(1) =\)
\(= 0,4*( - 1) + 0,2*0 + 0,4*1 = 0\)
Чтобы показать, что предпосылка \(E\left( \varepsilon_{i}|x_{i} \right) = 0\) не выполняется, достаточно привести любое значение \(x_{i}\), для которого указанное равенство нарушено. Рассмотрим, например, случай \(x_{i} = 0\).
\(E\left( \varepsilon_{i}|x_{i} = 0 \right) = - 1*\frac{0,3}{0,5} + 0*\frac{0,1}{0,5} + 1*\frac{0,1}{0,5} = - 0,4\)
Следовательно, предпосылка \(E\left( \varepsilon_{i}|x_{i} \right) = 0\) не выполняется: регрессор в модели является эндогенным.
***
Выполнение четырех предпосылок линейной модели со стохастическими регрессорами (случай парной регрессии) гарантирует, что применение МНК будет приводить к хорошим результатам. Говоря более строго, эти гарантии можно сформулировать в виде следующей теоремы:
Теорема о состоятельности и асимптотической нормальности МНК-оценок в парной регрессии. Если предпосылки №1–4 выполнены, то МНК-оценки коэффициентов \(\beta_{1}\) и \(\beta_{2}\) состоятельны и асимптотически нормальны.
Доказательство этой теоремы приводится в параграфах 6.3 и 6.4. В первом из них доказывается состоятельность, а во втором — асимптотическая нормальность. Однако прежде, чем переходить к доказательству, обсудим значение теоремы для прикладных исследований. Забегая вперед, отметим, что оно велико.
Первый из результатов — состоятельность — даёт нам уверенность, что при достаточно слабых предположениях МНК будет обеспечивать верные ответы на интересующие нас вопросы о мире. Для получения этих ответов нужно лишь собрать достаточно много данных, чтобы асимптотические свойства были применимы. В практических исследованиях вполне хватает нескольких сотен точек (хотя, конечно, когда речь идет об асимптотических методах, то чем больше, тем лучше).
Второй результат — асимптотическая нормальность — позволяет нам легко тестировать гипотезы и строить доверительные интервалы, не делая жестких предположений о распределении отдельных случайных ошибок и отдельных переменных. Детали см. в параграфе 6.5. Это ценно потому, что на практике обычно нет никакой уверенности в том, что случайные ошибки модели распределены нормально. А ведь в рамках КЛМПР, как вы помните, мы были вынуждены делать такую предпосылку.
Отметим также, что в рамках нашей новой модели, в отличие от КЛМПР, мы не требуем гомоскедастичности. Действительно, мы сделали предположение по поводу того, что константой должно быть условное математическое ожидание случайной ошибки \(E\left( \varepsilon_{i} \middle| x_{i} \right)\), однако по поводу условной дисперсии случайной ошибки \(\text{var}(\varepsilon_{i}|x_{i})\) мы никаких предпосылок не делали. Следовательно, эта величина может меняться при изменении \(x_{i}\), то есть в модели может наблюдаться гетероскедастичность (в таком случае её также называют условной гетероскедастичностью).
Аналогичный набор предпосылок и аналогичная теорема могут быть, разумеется, сформулированы и для множественной регрессии:
Предпосылки линейной модели со стохастическими регрессорами (случай множественной регрессии):
-
Модель линейна по параметрам:
\(y_{i} = \beta_{1} + \beta_{2}*x_{i}^{(2)} + \beta_{3}*x_{i}^{(3)} + \ldots + \beta_{k}*x_{i}^{(k)} + \varepsilon_{i},\ \ i = 1,2,\ldots,\ n.\)
-
Наблюдения \(\left\{ \left( x_{i}^{(2)},\ldots,x_{i}^{(k)},y_{i} \right),\text{~i} = 1,\ldots,n \right\}\) независимы и одинаково распределены.
-
\(x_{i}^{(2)},\ldots,x_{i}^{(k)},y_{i}\) имеют ненулевые конечные четвертые моменты.
-
Случайные ошибки имеют нулевое условное математическое ожидание при заданных значениях регрессоров:
\(E\left( \varepsilon_{i} \middle| x_{i}^{(2)},\ldots,x_{i}^{(k)} \right) = 0,\ \ i = 1,\ldots,n\)
-
В модели с вероятностью единица отсутствует чистая мультиколлинеарность.
Теорема о состоятельности и асимптотической нормальности МНК-оценок (случай множественной регрессии). Если предпосылки №1–5 выполнены, то МНК-оценки коэффициентов модели множественной регрессии состоятельны и асимптотически нормальны.
Легко видеть, что набор предпосылок полностью идентичен случаю парной регрессии за одним исключением: нам пришлось добавить требование отсутствия мультиколлинеарности. Как мы знаем, при его нарушении МНК-оценки в модели множественной регрессии в принципе невозможно определить однозначно. Упоминание вероятности в формулировке предпосылки связано с тем, что теперь регрессоры являются стохастическими, то есть при каждой реализации их набор может отличаться.
Таблица 6.1. Сопоставление различных регрессионных моделей
Название модели | Классическая линейная модель множественной регрессии | Обобщенная линейная модель множественной регрессии | Линейная модель со стохастическими регрессорами |
---|---|---|---|
Где эта модель описана |
В параграфе 3.2 (а также для случая парной регрессии в параграфе 2.3) |
В параграфе 5.5 | В параграфе 6.2 |
Предположение о детерминированности (неслучайности) регрессоров | Требуется | Требуется | Не требуется |
Предположение о нормальности случайных ошибок | Требуется для тестирования гипотез | Требуется для тестирования гипотез | Не требуется |
Предположение об отсутствии гетероскедастичности | Требуется | Не требуется | Не требуется |
В таблице 6.1 содержится сопоставление предпосылок трёх основных моделей, в условиях которых мы исследуем свойства МНК-оценок. Из неё легко видеть, что предпосылки нашей новой модели, действительно, являются сравнительно более мягкими, что делает её максимально реалистичной моделью для практической работы с пространственными данными.
-
Исключение составляет специфический класс моделей пространственной автокорреляции, которые обычно рассматриваются отдельно.↩︎
-
Пример такой ситуации приведен далее в лирическом отступлении о неслучайных и случайных регрессорах.↩︎
-
Макроэкономист узнает в такой спецификации одну из возможных версий современной кривой Филлипса с адаптивными инфляционными ожиданиями. Однако даже человек, незнакомый с макроэкономическими моделями, наверняка согласится с тем, что если инфляция была высока в прошлом месяце, то и в этом она тоже наверняка будет высокой. Иными словами, текущая инфляция зависит от своих прошлых значений, что и отражено в данной модели.↩︎