Учебник+

3.1. Почему не стоит ограничиваться парной регрессией

Предположим, что выполнены все предпосылки классической линейной модели парной регрессии за одним исключением — на зависимую переменную влияют не один, а два регрессора:

\begin{equation*} y_i=\beta _1+\beta _2x_i+\beta _3w_i+\varepsilon _i \end{equation*}

Например, мы заинтересованы в оценке влияния уровня образования индивида (переменная x) на его уровень дохода (переменная y). Иными словами, мы заинтересованы в получении корректной оценки коэффициента \(\beta _2\). Однако вполне естественно ожидать, что на уровень дохода работника влияет еще и стаж его работы (переменная w).

Представим, что мы игнорируем второй фактор и оцениваем парную регрессию переменной y по переменной x.

\begin{equation*} \widehat y_i=\widehat {\beta _1}+\widehat {\beta _2}x_i. \end{equation*}

Будет ли в этом случае оценка коэффициента \(\widehat {\beta _2}\) несмещенной? Для ответа на этот вопрос преобразуем её следующим образом:

\begin{equation*} \widehat {\beta _2}=\frac{\widehat {\mathit{cov}}\left(x,y\right)}{\widehat {\mathit{var}}\left(x\right)}=\frac{\widehat {\mathit{cov}}\left(x,\beta _1+\beta _2{\ast}x+\beta _3{\ast}w+\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}= \end{equation*}

\begin{equation*} =\frac{\beta _2{\ast}\widehat {\mathit{cov}}\left(x,x\right)+\beta _3{\ast}\widehat {\mathit{cov}}\left(x,w\right)+\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}= \end{equation*}

\begin{equation*} =\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}

Теперь для проверки несмещенности следует вычислить её математическое ожидание:

\begin{equation*} E\widehat {\beta _2}=E\left(\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}\right)= \end{equation*}

\begin{equation*} =\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}

Последнее равенство верно, так как все слагаемые, кроме \(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\), являются неслучайными и, следовательно, могут быть вынесены за знак математического ожидания. Однако \(E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)=0\). Действительно:

\begin{equation*} E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)=E\left(\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(\varepsilon _i-\overline{\varepsilon }\right)\right)=\end{equation*}

\begin{equation*}=\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(E\varepsilon _i-E\overline{\varepsilon }\right)=\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(0-0\right)=0 \end{equation*}

Поэтому

\begin{equation*} E\widehat {\beta _2}=\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}

Из этого равенства легко видеть, что оценка коэффициента при интересующей нас переменной, вообще говоря, смещена. Например, если увеличение стажа работы приводит к увеличению дохода \(\beta _3>0\) и более образованные работники в среднем имеют более высокий стаж работы \(\widehat {\mathit{cov}}\left(x,w\right)>0\), то \(\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}>0\) и, следовательно, \(E\widehat {\beta _2}>\beta _2\). В этом случае оценку коэффициента называют завышенной.

Если, напротив, образование отрицательно коррелировано со стажем ( \(\widehat {\mathit{cov}}\left(x,w\right)<0\)), то \(\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}<0\) и \(E\widehat {\beta _2}<\beta _2\). В этом случае оценка коэффициента называется заниженной. Отметим, что в нашем примере этот случай более вероятен, так как обычно продолжение обучения связано с отказом от немедленного выхода на рынок труда. Таким образом, в нашем примере, оценив парную регрессию, мы будем получать заниженную оценку коэффициента при переменной x, то есть будем, как правило, недооценивать вклад образования в доходы работника.

Рассмотренный пример показывает, что использование парной регрессии вместо множественной может привести к неверным выводам.

Описанная ситуация называется смещением из-за пропуска существенной переменной (omitted variable bias). Для того чтобы избежать этого смещения, необходимо учитывать в вашей регрессии все существенные факторы (то есть все коррелированные с интересующей вас переменной факторы, коэффициенты при которых в истинной модели регрессии отличны от нуля). Это приводит нас к необходимости анализа модели множественной регрессии.

Прежде чем мы перейдем к этому анализу, подчеркнем, что смещение возникает только в том случае, если пропущенная переменная коррелирована с переменной, коэффициент при которой нас интересует. Действительно, если в нашем примере образование и стаж не связаны между собой \(\widehat {\mathit{cov}}\left(x,w\right)=0\), то \(E\widehat {\beta _2}=\beta _2\), и смещение отсутствует. Поэтому если нас интересует эффект от уровня образования, то в регрессию следует включать переменные, которые коррелированы с уровнем образования, а прочие факторы можно игнорировать.