Учебник+

2.3. Классическая линейная модель парной регрессии

В предыдущем параграфе мы научились описывать облако точек некоторой прямой, не делая никаких предположений по поводу природы анализируемых данных. Иными словами, мы не предполагали никакой конкретной модели, описывающей процесс порождения наших данных. Для дальнейшего продвижения, однако, это будет нам необходимо.

Вернемся к нашему примеру с квартирами. Естественно ожидать, что на цену квартиры (y) влияет её площадь (x), а также прочие факторы, например, удаленность квартиры от метро, этаж, наличие балкона и так далее. Обозначим эти прочие факторы переменной \(\varepsilon \). С учетом этих соображений естественно предположить следующую модель цены квартиры:

\( {y}_i = {β}_1 + {β}_2 {x}_i + {ε}_i , i = 1,2 , … , n \).

Здесь \(x_i\) — площадь i-ой квартиры в квадратных метрах, \(y_i\) — цена i-ой квартиры в миллионах рублей, \(\varepsilon_i \) — прочие факторы, которые оказывают влияние на цену квартиры \(y_i\). Переменную \(\varepsilon \) принято называть случайной ошибкой модели. Буквой n будем обозначать число наблюдений в доступной нам выборке.

В целом такая модель выглядит достаточно разумно. Если бы мы знали точные значения коэффициентов \(\beta _1\) и \(\beta _2\), мы могли бы использовать её в практических целях. Например, зная, что \(\beta _2=0,3\), строительная компания могла бы учитывать при планировании продаж, что один дополнительный квадратный метр площади квартиры оценивается рынком в 0,3 млн рублей. К сожалению, на практике значения параметров \(\beta _1\) и \(\beta _2\) нам не известны, зато мы можем собрать статистические данные и получить их (приблизительные) оценки.

Здесь уместно подчеркнуть важное различие между

  • параметрами \(\beta _k\) (без «крышек») в выражении \(y_i=\beta _1+\beta _2x_i+\varepsilon _i\),
  • и их оценками \(\widehat {\beta _k}\)(c «крышками») в выражении .

Это различие состоит в том, что и — это некоторые истинные значения параметров модели, которые на практике никогда не известны исследователю. Все, что исследователь в силах сделать — собрать данные и эти значения оценить приближенно. — это оценки истинных значений, которые мы получаем, используя наши выборочные данные. Так как \(\widehat {\beta _1}\text{ и }\widehat {\beta _2}\) рассчитываются на основе случайной выборки, то они являются случайными величинами.

Естественно, мы хотим, чтобы оценки были близки к истинным значениям оцениваемых параметров. Поэтому нам важно знать: при каких условиях мы можем доверять этим оценкам, то есть рассчитывать на то, что результат использования МНК будет близок к истине? Эти условия называют предпосылками классической линейной модели парной регрессии.

Предпосылки классической линейной модели парной регрессии (КЛМПР):

  1. Модель линейна по параметрам и корректно специфицирована
    \(y_i=\beta _1+\beta _2x_i+\varepsilon _i,i=1,2,{\dots},n.\)
  2. \(x_1,x_2,{\dots},x_n\) — детерминированные (неслучайные) величины, не все одинаковые.
  3. Математическое ожидание случайных ошибок равно нулю
    \(E\varepsilon _i=0\).
  4. Дисперсия случайной ошибки одинакова для всех наблюдений \(\mathit{var}\left(\varepsilon _i\right)=\sigma ^2\).
  5. Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы.
  6. Случайные ошибки имеют нормальное распределение \(\varepsilon _iN\left(0,\sigma ^2\right)\).

Мы обсудили выше соображения, исходя из которых может быть сформулирована предпосылка №1. Как мы увидим в дальнейшем, правильная спецификация подразумевает в первую очередь отсутствие среди прочих факторов других переменных, которые одновременно влияют на y и коррелируют с x. Нарушение этого требования приводит к серьезным проблемам, которые мы осветим в конце данной главы.

Предпосылка №2 касается двух важных аспектов. Во-первых, мы предполагаем, что регрессоры \(x_i\) являются неслучайными величинами. Это техническое предположение, которое упростит некоторые выкладки в этом разделе. Обратите внимание, что \(\varepsilon _i\) в отличие от регрессоров являются случайными величинами, а следовательно, и \(y_i\) тоже случайны, так как представляют собой сумму неслучайной компоненты \(\beta _1+\beta _2x_i\) и случайной величины \(\varepsilon _i\). В терминах нашего примера с квартирами про эту предпосылку можно думать так: представим, что вы собрали случайную выборку из 100 квартир площадью 30 м2, 100 квартир площадью 35 м2 и 100 квартир площадью 40 м2. Если вы соберете другую выборку из трехсот квартир с такими же площадями, то значения регрессоров \(x_i\) останутся теми же самыми, а вот значения объясняемой переменной \(y_i\) поменяются, поэтому в данном примере разумно думать про регрессоры как про неслучайные величины, а про величины \(y_i\) — как про случайные.

Во-вторых, в рамках предпосылки №2 мы предполагаем, что не все значения регрессоров одинаковы. Нетрудно понять, зачем нужно это предположение, если взглянуть на формулу оценки коэффициента

\(\widehat {\beta _2}=\frac{\widehat {\mathit{Cov}}\left(x,y\right)}{\widehat {\mathit{Var}}\left(x\right)}\). Обратите внимание, что в знаменателе этой формулы стоит выборочная дисперсия переменной x, но если все значения этой переменной в выборке будут одинаковы, то эта дисперсия окажется равной нулю, и из-за этого мы не сможем рассчитать МНК-оценку \(\widehat {\beta _2}\).

Предпосылка №3 говорит о том, что прочие факторы могут приводить к отклонению \(y_i\) от величины \(\beta _1+\beta _2x_i\) как вверх, так и вниз, но в среднем эти отклонения компенсируют друг друга.

Предпосылка №4 требует, чтобы разброс случайных ошибок в среднем был постоянен для всех наблюдений. Её смысл удобно пояснить, используя картинку. Посмотрите на рисунки 2.3а и 2.3б. В первом случае предпосылка о постоянстве дисперсии случайной ошибки выполнена, а во втором — нет, так как разброс точек вокруг линии регрессии растет по мере увеличения объясняющей переменной, следовательно, мы можем заключить, что дисперсия случайной ошибки не является одинаковой для всех наблюдений. Ситуация, когда предпосылка №4 выполнена (то есть ситуация, соответствующая рисунку 2.3а) называется гомоскедастичностью случайных ошибок. Альтернативная ситуация называется гетероскедастичностью случайных ошибок.

Гомоскедастичность случайных ошибок

Рисунок 2.3а. Гомоскедастичность случайных ошибок

Гетероскедастичность случайных ошибок

Рисунок 2.3б. Гетероскедастичность случайных ошибок

Из предпосылки №5 следует, что случайные ошибки, относящиеся к разным наблюдениям, не коррелированы друг с другом: \(\mathit{cov}\left(\varepsilon _i,\varepsilon _j\right)=0\) при \(i{\neq}j\).

Предпосылка №6 не требуется для обеспечения хороших свойств оценок коэффициентов (обратите внимание, что ниже, в формулировке теоремы Гаусса — Маркова, она не фигурирует), однако будет полезна для тестирования гипотез и построения доверительных интервалов.

Теорема Гаусса — Маркова. Если выполнены предпосылки 1-5 классической линейной модели парной регрессии, то МНК-оценки коэффициентов \(\widehat {\beta _1}\text{и}\widehat {\beta _2}\) будут:

(а) несмещенными,

(б) эффективными в классе всех несмещенных и линейных по y оценок1.

Напомним, что оценка называется несмещенной, если её математическое ожидание совпадает с истинным значением оцениваемого параметра: \(E\widehat {\beta _2}=\beta _2\). Свойство эффективности означает, что оценка характеризуется минимальной дисперсией среди всех альтернативных оценок в данном классе, то есть является «наиболее точной» оценкой интересующего нас параметра. Линейность по y означает, что мы рассматриваем все оценки, которые могут быть представлены в виде линейной комбинации значений объясняемой переменной, то есть записаны в виде \(\sum _{i=1}^nc_i{\ast}y_i\).

Если переформулировать свойства несмещенности и эффективности нестрого, то можно сказать, что при выполнении предпосылок 1-5 МНК-оценки параметров окажутся хорошими: они будут «в среднем правильными» и наиболее точными. Теорема Гаусса — Маркова дает нам важную мотивацию для того, чтобы оценивать параметры нашей модели именно методом наименьших квадратов, а не каким-то альтернативным способом.

Лирическое отступление о предпосылках

Каждый раз, когда я рассказываю студентам об этой теореме, в моей голове разыгрывается примерно такой диалог между двумя эконометристами (назовем их Филипп и Дима).

Дима: Реалистичны ли предпосылки КЛМПР?

Филипп: Не очень. Например, в реальных исследованиях на пространственных данных ты почти всегда будешь сталкиваться с нарушением требования постоянства дисперсии случайной ошибки (нарушением предпосылки №4). Во многих прикладных исследованиях также окажется более целесообразным думать про регрессоры как про случайные, а не детерминированные случайные величины (это отклонение от предпосылки №2). На нормальность случайных ошибок (предпосылка №6) я бы тоже не рассчитывал…

Дима: Зачем же тогда мы её изучаем? Давайте сразу перейдем к более реалистичной модели.

Филипп: Мы начинаем с КЛМПР, так как это самая простая модель, на примере которой мы можем обсудить ряд важных эконометрических идей и при этом не погрязнуть в технических трудностях. В последующих главах мы будем постепенно отказываться от предпосылок КЛМПР и в результате получим набор моделей и методов, которые хорошо подходят для реальных исследований на живых данных. Кроме того, мы научимся проверять выполнение тех или иных предположений КЛМПР, чтобы понять, когда стоит их использовать, а когда — нет.

В частности, последствия нарушения предпосылки №3 читателю предлагается проанализировать уже в этом параграфе, в одном из заданий для самостоятельного решения.


  1. Несмещенность и эффективность — это свойства оценок при фиксированном объеме выборки (при фиксированном n). Во многих случаях удобно также использовать асимптотические свойства оценок, то есть свойства, которые имеют место при \(n\rightarrow {\infty}\) (например, состоятельность). Об асимптотических свойствах МНК-оценок мы подробно поговорим в одной из последующих глав.