Учебник+

6.3. Состоятельность МНК-оценок

В этом параграфе мы докажем, что если выполнены предпосылки линейной модели со стохастическим регрессором:

  1. Модель представима следующим образом:

\begin{equation*} y_i=\beta _1+\beta _2x_i+\varepsilon _i,i=1,2,{\dots},n, \end{equation*}

  1. Наблюдения \(\{\left(x_i,y_i\right),\text{ }i=1,{\dots},n\}\) независимы и одинаково распределены,
  2. \(x_i\) и \(y_i\) имеют ненулевые конечные четвертые моменты распределения \(E\left(x_i^4\right)< \infty ,\) \(E\left(y_i^4\right)< \infty \),
  3. Случайные ошибки имеют нулевое условное математическое ожидание при заданном \(x_i\): \(E\left(\varepsilon _i\left|x_i\right.\right)=0\),

то МНК-оценка коэффициента \(\beta _2\) является состоятельной.

Иными словами, мы докажем первую часть теоремы, сформулированной в параграфе 6.2.

В процессе доказательства мы несколько раз будем использовать тот факт, что в условиях перечисленных предпосылок 1–4 выборочные моменты сходятся по вероятности к своим теоретическим аналогам. Например:

\begin{equation*} \widehat {\mathit{var}}\left(x\right)\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\mathit{var}(x_i) \end{equation*}

\begin{equation*} \widehat {\mathit{cov}}\left(x,y\right)\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\mathit{cov}(x_i,y_i) \end{equation*}

Вполне возможно, что вы хорошо знакомы с этим фактом из курса математической статистики. Однако мы все-таки докажем одно из этих утверждений, чтобы продемонстрировать, почему сформулированные предпосылки действительно важны.

Утверждение: если предпосылки 2-3 выполнены, то \(\widehat {\mathit{cov}}\left(x,y\right)\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\mathit{cov}(x_i,y_i)\)

Доказательство:

\begin{equation*} \mathit{cov}\left(x_i,y_i\right)=E\left(x_iy_i\right)-E\left(x_i\right)\ast E(y_i) \end{equation*}

\begin{equation*} \widehat {\mathit{cov}}\left(x,y\right)=\overline{\mathit{xy}}-\overline x\ast \overline y \end{equation*}

Так как в силу предпосылки №2 все \(x_i\) — независимые и одинаково распределенные, выполняется закон больших чисел: \(\overline x\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}E\left(x_i\right)\)

Аналогично: \(\overline y\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}E\left(y_i\right)\)

Следовательно, по теореме Слуцкого \(\overline x\ast \overline y\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\) \(E\left(x_i\right)\ast E\left(y_i\right)\)

По закону больших чисел: \(\overline{\mathit{xy}}\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}E\left(x_iy_i\right)\)

Наконец, применив теорему Слуцкого для разности, получим:

\(\overline{\mathit{xy}}-\overline x\ast \overline y\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}E\left(x_iy_i\right)-E\left(x_i\right)\ast E\left(y_i\right)=\mathit{cov}(x_i,y_i)\)

Зачем для доказательства нам необходима предпосылка №3 о том, что \(E\left(x_i^4\right)< \infty ,\) \(E\left(y_i^4\right)< \infty \)?

Чтобы применить закон больших чисел (в форме Чебышёва) к последовательности \(\{x_i,\text{ }i=1,2,{\dots}\}\), нам необходимо, чтобы у \(x_i\text{ }\) существовали конечная дисперсия и математическое ожидание. Из конечности момента распределения четвертого порядка следует и конечность моментов распределения первого и второго порядков, следовательно, математическое ожидание и дисперсия \(x_i\) существуют. Аналогично для \(y_i\).

Наконец, чтобы применить закон больших чисел к последовательности произведений \(\{x_iy_i,\text{ }i=1,2,{\dots}\}\), нам необходимо, чтобы у \(x_iy_i\) существовали конечная дисперсия и математическое ожидание.

\begin{equation*} E\left(x_i^2\ast y_i^2\right){\leq}\sqrt{E\left(x_i^4\right)\ast E\left(y_i^4\right)}< \infty \end{equation*}

Здесь первый переход следует из неравенства Коши-Буняковского, а второй — из предпосылки №3.

Это значит, что случайная величина \(x_iy_i\) имеет конечный второй момент. Тогда она имеет конечный первый момент \(Ex_iy_i\) и конечную дисперсию

\begin{equation*} \mathit{var}\left(x_iy_i\right)=E\left(x_i^2\ast y_i^2\right)-\left(Ex_iy_i\right)^2 \end{equation*}

Что и требовалось доказать.

Утверждение \(\widehat {\mathit{var}}\left(x\right)\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\mathit{var}(x_i)\) доказывается аналогичным образом.

Теперь мы можем непосредственно доказать состоятельность МНК-оценки коэффициента при переменной в модели парной регрессии.

\begin{equation*} \widehat {\beta _2}=\frac{\widehat {\mathit{cov}}\left(x,y\right)}{\widehat {\mathit{var}}\left(x\right)}\text{ }\text{ }\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\text{ }\frac{\mathit{cov}\left(x_i,y_i\right)}{\mathit{var}\left(x_i\right)}=\frac{\mathit{cov}\left(x_i,\beta _1+\beta _2\ast x_i+\varepsilon _i\right)}{\mathit{var}\left(x_i\right)}= \end{equation*}

\begin{equation*} =\frac{\mathit{cov}(x_i,\text{ }\beta _2\ast x_i+\varepsilon _i)}{\mathit{var}\left(x_i\right)}=\frac{\beta _2\ast \mathit{cov}\left(x_i,\text{ }x_i\right)+\mathit{cov}(x_i,\varepsilon _i)}{\mathit{var}\left(x_i\right)}=\beta _2+\frac{\mathit{cov}(x_i,\varepsilon _i)}{\mathit{var}\left(x_i\right)} \end{equation*}

Таким образом, мы получили важное соотношение:

\begin{equation*} \widehat {\beta _2}\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\text{ }\beta _2+\frac{\mathit{cov}(x_i,\varepsilon _i)}{\mathit{var}\left(x_i\right)}(6.1) \end{equation*}

В параграфе 6.2 мы доказали, что из предпосылки \(E\left(\varepsilon _i\left|x_i\right.\right)=0\) следует равенство нулю соответствующей ковариации: \(\mathit{cov}\left(x_i,\varepsilon _i\right)=0\). Поэтому в случае, когда данная предпосылка об экзогенности регрессора выполнена, получаем:

\begin{equation*} \widehat {\beta _2}\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\text{ }\beta _2+\frac{\mathit{cov}(x_i,\varepsilon _i)}{\mathit{var}\left(x_i\right)}=\beta _2+\frac 0{\mathit{var}\left(x_i\right)}=\beta _2 \end{equation*}

Тем самым мы получили, что \(\widehat {\beta _2}\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\beta _2\), то есть что при увеличении выборки МНК-оценка коэффициента сходится по вероятности к истинному значению этого коэффициента, а значит, является состоятельной. Что и требовалось доказать.

Из этого доказательства становится ясно, почему критически важно выполнение предпосылки №4 об экзогенности регрессора. Представим, что она нарушена, то есть \(\mathit{cov}\left(x_i,\varepsilon _i\right){\neq}0\). Пусть, например, регрессор положительно коррелирован со случайной ошибкой: \(\mathit{cov}\left(x_i,\varepsilon _i\right)>0\). В этом случае:

\begin{equation*} \widehat {\beta _2}\underset{\rightarrow }{\text{ }\text{ }p\text{ }\text{ }}\text{ }\beta _2+\frac{\mathit{cov}(x_i,\varepsilon _i)}{\mathit{var}\left(x_i\right)}>\beta _2. \end{equation*}

Здесь МНК-оценка окажется несостоятельной и завышенной (и наоборот, если \(\mathit{cov}\left(x_i,\varepsilon _i\right)<0\), то она будет несостоятельной и заниженной).