Учебник+

3.2. Классическая линейная модель множественной регрессии

При записи уравнения множественной регрессии мы будем использовать следующие обозначения:

\begin{equation*} y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+\beta _3{\ast}x_i^{\left(3\right)}+{\dots}+\beta _k{\ast}x_i^{\left(k\right)}+\varepsilon _i,i=1,{\dots},n \end{equation*}

\(y_i\) — зависимая (объясняемая) переменная;

\(x_i^{\left(m\right)}\) — объясняющие переменные (регрессоры), \(m=2,{\dots},k\);

\(\varepsilon _i\) — случайные ошибки;

\(k\) — число коэффициентов в модели;

\(n\) — по-прежнему число наблюдений.

Чтобы подчеркнуть, что константа — тоже своеобразный регрессор, это уравнение иногда удобно записывать вот так:

\(y_i=\beta _1x_i^{\left(1\right)}+\beta _2{\ast}x_i^{\left(2\right)}+\beta _3{\ast}x_i^{\left(3\right)}+{\dots}+\beta _k{\ast}x_i^{\left(k\right)}+\varepsilon _i,i=1,{\dots},n,\) где \(x_i^{\left(1\right)}=1\) для всех наблюдений.

Предпосылки классической линейной модели множественной регрессии во многом схожи с предпосылками аналогичной модели для регрессии парной.

Предпосылки классической линейной модели множественной регрессии (КЛММР)

  1. Модель линейна по параметрам и корректно специфицирована
    \(y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+\beta _3{\ast}x_i^{\left(3\right)}+{\dots}+\beta _k{\ast}x_i^{\left(k\right)}+\varepsilon _i,i=1,2,{\dots},n.\)
  2. Объясняющие переменные \(x_i^{\left(m\right)},m=1,2,{\dots},k\) являются детерминированными и линейно независимыми.
  3. Математическое ожидание случайных ошибок равно нулю \(E\varepsilon _i=0\).
  4. Дисперсия случайной ошибки одинакова для всех наблюдений \(\mathit{var}\left(\varepsilon _i\right)=\sigma ^2\).
  5. Случайные ошибки, относящиеся к разным наблюдениям, взаимно независимы.
  6. Случайные ошибки имеют нормальное распределение \(\varepsilon _iN\left(0,\sigma ^2\right)\).

Легко видеть, что отличия от парной регрессии касаются только первых двух предпосылок. В первой предпосылке теперь фигурирует уравнение, в котором не 2 коэффициента, а целых k штук.

Вторая предпосылка теперь требует, чтобы все регрессоры были линейно независимыми. Иными словами, не должно возникать ситуации, когда один регрессор линейно выражается через другие. Скажем, ситуация, когда для каждого наблюдения верно равенство \(x^{\left(2\right)}=6x^{\left(3\right)}+5x^{\left(4\right)}\) будет означать нарушение этой предпосылки. Такая ситуация представляет собой пример так называемой мультиколлинеарности. Мы подробно обсудим эту проблему в главе 4.


Для КЛММР также может быть сформулирована теорема Гаусса — Маркова.

Теорема Гаусса — Маркова для модели множественной регрессии

Если выполнены предпосылки 1-5 классической линейной модели множественной регрессии, то МНК-оценки коэффициентов модели будут:

(а) несмещенными,

(б) эффективными в классе всех несмещенных и линейных по y оценок.