7.4. Эндогенность из-за ошибок измерения

Пусть переменные \(y_{i}\) и \(x_{i}^{*}\) связаны точным соотношением

\(y_{i}\ = \beta_{1} + \beta_{2}*x_{i}^{*}\)

Однако вместо точных значений регрессора мы наблюдаем измеренные с ошибкой значения: \(x_{i} = x_{i}^{*} + \varepsilon_{i}\), \(\text{cov}\left( x_{i}^{*},\varepsilon_{i} \right) = 0\).

Мы оцениваем методом наименьших квадратов уравнение

\(y_{i}\ = \beta_{1} + \beta_{2}*x_{i} + u_{i}.\)

Покажем, что и в этом случае МНК-оценка \(\widehat{\beta_{2}}\) будет несостоятельной.

Так как \(y_{i}\ = \beta_{1} + \beta_{2}*\left( x_{i} - \varepsilon_{i} \right) = \beta_{1} + \beta_{2}*x_{i} - \beta_{2}*\varepsilon_{i},\) то

\(u_{i} = - \beta_{2}*\varepsilon_{i}.\)

\(\widehat{\beta_{2}}\text{~~}\overset{\text{~~p~~}}{\rightarrow}\ \beta_{2} + \frac{\text{cov}\left( x_{i},\ u_{i} \right)}{\text{var}\left( x_{i} \right)} = \beta_{2} + \frac{\text{cov}\left( x_{i}^{*} + \varepsilon_{i},\ \ - \beta_{2}*\varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \beta_{2} - \beta_{2}\frac{\text{cov}\left( x_{i}^{*},\ \varepsilon_{i} \right) + cov\left( \varepsilon_{i},\ \varepsilon_{i} \right)}{\text{var}\left( x_{i} \right)} = \beta_{2} - \beta_{2}\frac{\text{var}\left( \varepsilon_{i}\ \right)}{\text{var}\left( x_{i} \right)} =\)

\(= \beta_{2} - \beta_{2}\frac{\text{var}\left( \varepsilon_{i}\ \right)}{\text{var}\left( \varepsilon_{i}\ \right) + var\left( x_{i}^{*} \right)} = \frac{\text{var}\left( x_{i}^{*} \right)}{\text{var}\left( \varepsilon_{i}\ \right) + var\left( x_{i}^{*} \right)}*\beta_{2}\)

Величина \(\left| \frac{\text{var}\left( x_{i}^{*} \right)}{\text{var}\left( \varepsilon_{i}\ \right) + \text{var}\left( x_{i}^{*} \right)} \right| < 1\), поэтому независимо от знака \(\beta_{2}\) эта оценка несостоятельна и смещена к нулю.

Можно привести много примеров ситуаций, когда в эконометрическом исследовании приходится мириться с ошибками измерения. Скажем, если вашим регрессором является уровень безработицы или валовой внутренний продукт, вы неизбежно столкнетесь с этой проблемой, так как статистические службы не могут измерить указанные показатели идеально точно.

Исследования, опирающиеся на индивидуальные данные, также иногда связаны с ошибками измерений. Типичная ситуация тут — использование данных, основанных на опросах. Если регрессором в вашей модели является возраст индивида, информация о котором собрана в ходе опроса (например, в процессе переписи населения), то, скорее всего, в измерениях будут содержаться неточности: демографам хорошо известно, что многие индивиды склонны при ответах на вопросы о возрасте округлять его до чисел, кратных пяти или десяти годам. Похожий эффект возникает и в случае ответов на вопросы о доходе.

Конечно, в условиях ошибок измерений всегда можно посоветовать исследователю найти данные поточнее. Это хороший совет. Однако, к сожалению, на практике последовать ему бывает трудно, поэтому приходится использовать альтернативный путь.

Как мы выясним в главе 8, проблема ошибок измерения также может быть решена при помощи инструментальных переменных.

Иногда, однако, эту проблему просто игнорируют. Мотивация тут такая: если вам интересна не количественная оценка силы влияния переменной x на переменную y, а просто сам факт наличия или отсутствия этого влияния, то, получив статистически значимый коэффициент при регрессоре, вы можете не предпринимать дальнейших корректировок. Действительно, мы точно знаем, что ошибки измерения сдвигают оценку коэффициента к нулю. Поэтому, если коэффициент оказался значимым даже в условиях ошибок измерения, то после их устранения он тем более должен быть значим.