Предположим, что выполнены все предпосылки классической линейной модели парной регрессии за одним исключением — на зависимую переменную влияют не один, а два регрессора:
\begin{equation*} y_i=\beta _1+\beta _2x_i+\beta _3w_i+\varepsilon _i \end{equation*}
Например, мы заинтересованы в оценке влияния уровня образования индивида (переменная x) на его уровень дохода (переменная y). Иными словами, мы заинтересованы в получении корректной оценки коэффициента \(\beta _2\). Однако вполне естественно ожидать, что на уровень дохода работника влияет еще и стаж его работы (переменная w).
Представим, что мы игнорируем второй фактор и оцениваем парную регрессию переменной y по переменной x.
\begin{equation*} \widehat y_i=\widehat {\beta _1}+\widehat {\beta _2}x_i. \end{equation*}
Будет ли в этом случае оценка коэффициента \(\widehat {\beta _2}\) несмещенной? Для ответа на этот вопрос преобразуем её следующим образом:
\begin{equation*} \widehat {\beta _2}=\frac{\widehat {\mathit{cov}}\left(x,y\right)}{\widehat {\mathit{var}}\left(x\right)}=\frac{\widehat {\mathit{cov}}\left(x,\beta _1+\beta _2{\ast}x+\beta _3{\ast}w+\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}= \end{equation*}
\begin{equation*} =\frac{\beta _2{\ast}\widehat {\mathit{cov}}\left(x,x\right)+\beta _3{\ast}\widehat {\mathit{cov}}\left(x,w\right)+\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}= \end{equation*}
\begin{equation*} =\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}
Теперь для проверки несмещенности следует вычислить её математическое ожидание:
\begin{equation*} E\widehat {\beta _2}=E\left(\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{\widehat {\mathit{cov}}\left(x,\varepsilon \right)}{\widehat {\mathit{var}}\left(x\right)}\right)= \end{equation*}
\begin{equation*} =\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}+\frac{E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}
Последнее равенство верно, так как все слагаемые, кроме \(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\), являются неслучайными и, следовательно, могут быть вынесены за знак математического ожидания. Однако \(E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)=0\). Действительно:
\begin{equation*} E\left(\widehat {\mathit{cov}}\left(x,\varepsilon \right)\right)=E\left(\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(\varepsilon _i-\overline{\varepsilon }\right)\right)=\end{equation*}
\begin{equation*}=\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(E\varepsilon _i-E\overline{\varepsilon }\right)=\frac 1 n\sum _{i=1}^n\left(x_i-\overline x\right)\left(0-0\right)=0 \end{equation*}
Поэтому
\begin{equation*} E\widehat {\beta _2}=\beta _2+\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)} \end{equation*}
Из этого равенства легко видеть, что оценка коэффициента при интересующей нас переменной, вообще говоря, смещена. Например, если увеличение стажа работы приводит к увеличению дохода \(\beta _3>0\) и более образованные работники в среднем имеют более высокий стаж работы \(\widehat {\mathit{cov}}\left(x,w\right)>0\), то \(\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}>0\) и, следовательно, \(E\widehat {\beta _2}>\beta _2\). В этом случае оценку коэффициента называют завышенной.
Если, напротив, образование отрицательно коррелировано со стажем ( \(\widehat {\mathit{cov}}\left(x,w\right)<0\)), то \(\beta _3\frac{\widehat {\mathit{cov}}\left(x,w\right)}{\widehat {\mathit{var}}\left(x\right)}<0\) и \(E\widehat {\beta _2}<\beta _2\). В этом случае оценка коэффициента называется заниженной. Отметим, что в нашем примере этот случай более вероятен, так как обычно продолжение обучения связано с отказом от немедленного выхода на рынок труда. Таким образом, в нашем примере, оценив парную регрессию, мы будем получать заниженную оценку коэффициента при переменной x, то есть будем, как правило, недооценивать вклад образования в доходы работника.
Рассмотренный пример показывает, что использование парной регрессии вместо множественной может привести к неверным выводам.
Описанная ситуация называется смещением из-за пропуска существенной переменной (omitted variable bias). Для того чтобы избежать этого смещения, необходимо учитывать в вашей регрессии все существенные факторы (то есть все коррелированные с интересующей вас переменной факторы, коэффициенты при которых в истинной модели регрессии отличны от нуля). Это приводит нас к необходимости анализа модели множественной регрессии.
Прежде чем мы перейдем к этому анализу, подчеркнем, что смещение возникает только в том случае, если пропущенная переменная коррелирована с переменной, коэффициент при которой нас интересует. Действительно, если в нашем примере образование и стаж не связаны между собой \(\widehat {\mathit{cov}}\left(x,w\right)=0\), то \(E\widehat {\beta _2}=\beta _2\), и смещение отсутствует. Поэтому если нас интересует эффект от уровня образования, то в регрессию следует включать переменные, которые коррелированы с уровнем образования, а прочие факторы можно игнорировать.