6.1. Некоторые важные результаты математической статистики

Этот раздел, разумеется, не претендует на то, чтобы заменить собой учебник по теории вероятностей и математической статистике, и мы не будем вспоминать здесь все используемые в эконометрике факты из этих наук. Однако последующие разделы учебника будут восприниматься легче, если перед непосредственным знакомством с ними освежить в памяти некоторые ключевые результаты, касающиеся асимптотической теории.

Сходимость по вероятности. Рассмотрим последовательность случайных величин \(X_1,X_2,{\dots},X_n,{\dots}\)

Если для любого \(\varepsilon >0\) вероятность события \(\left|X_n-a\right|>\varepsilon \) стремится к нулю при \(n\rightarrow \infty \), то говорят, что число \(a\) — это предел по вероятности для последовательности \(X_1,X_2,{\dots},X_n,{\dots}\)

Для предела по вероятности обычно используют обозначение \(\mathbf{X}_{\mathbf{n}}\overset{\mathbf{\text{p}}}{\rightarrow}\mathbf{a}\) или \(\mathbf{\text{plim}}\mathbf{\ }\mathbf{X}_{\mathbf{n}}\mathbf{=}\mathbf{a}.\) Также в этом случае говорят, что последовательность сходится по вероятности к числу \(\mathbf{a}\).

Состоятельность. Оценка параметра называется состоятельной, если её предел по вероятности равен истинному значению оцениваемого параметра: \(\widehat {\beta }\text{ }\overset{\mathbf{\text{p}}}{\rightarrow}\beta \).

Говоря проще, если оценка параметра состоятельна, то всё, что вам нужно, чтобы узнать его истинное значение, — собрать достаточно большую выборку. Поэтому эконометристы очень любят состоятельные оценки в сочетании с большими массивами данных.

Достаточное условие состоятельности. Если оценка параметра является несмещенной (или асимптотически несмещенной), и ее дисперсия стремится к нулю при \(n\rightarrow \infty \), то эта оценка состоятельна.

Пример 6.1. Регрессия на константу

Рассмотрим модель регрессии на константу:

\begin{equation*} y_i=\theta +\varepsilon _i,i=1,2{\dots}\mathit{n.} \end{equation*}

Пусть для неё выполнены все предпосылки классической линейной модели множественной регрессии. Докажите, что МНК-оценка параметра \(\theta \) является состоятельной.

Решение:

МНК-оценка параметра \(\theta \) может быть вычислена по формуле: \(\widehat {\theta }=\overline y\) (см. задание 9 из главы 2).

Она является несмещенной:

\begin{equation*} E\left(\widehat {\theta }\right)=E\left(\frac{\sum _{i=1}^ny_i} n\right)=E\left(\frac{\sum _{i=1}^n\left(\theta +\varepsilon _i\right)} n\right)=\frac{\mathit{n\theta }+\sum _{i=1}^nE\left(\varepsilon _i\right)} n=\mathit{\theta .} \end{equation*}

Её дисперсия равна:

\begin{equation*} \mathit{var}\left(\widehat {\theta }\right)=\mathit{var}\left(\frac{\sum _{i=1}^n(\theta +\varepsilon _i\text{ })} n\right)= \end{equation*}

\begin{equation*} =\mathit{var}\left(\theta +\frac{\sum _{i=1}^n\varepsilon _i} n\right)=\text{ }\frac{\mathit{var}\left(\sum _{i=1}^n\varepsilon _i\right)}{n^2}=\frac{n\ast \sigma ^2}{n^2}=\frac{\sigma ^2} n. \end{equation*}

Таким образом, МНК-оценка коэффициента является несмещенной, а при \(n\rightarrow \infty \) ее дисперсия стремится к нулю. Поэтому выполнено достаточное условие состоятельности.

Закон больших чисел в форме Чебышёва. Если \(Y_1,Y_2,{\dots},Y_n{\dots}\) — независимые и одинаково распределенные случайные величины, причем \(E(Y_i)=\mu ,\) \(\mathit{var}\left(Y_i\right)< \infty ,\) то \(\overline Y\overset{\text{ }\text{ }\text{ }\text{ }p\text{ }\text{ }\text{ }\text{ }}{\rightarrow }\mu \).

Иными словами, для последовательности независимых и одинаково распределенных величин с конечной дисперсией среднее значение будет состоятельной оценкой математического ожидания.

Неравенство Коши — Буняковского. Это неравенство является достаточно общим результатом, однако нам в рамках этой главы будет достаточно его частного случая для математических ожиданий:

Пусть \(\xi \) и \(\eta \) — случайные величины, для которых определены конечные вторые моменты распределения. Тогда

\(E|\xi*\eta| \leq \sqrt{E\left( \xi^{2} \right)*E\left( \eta^{2} \right)}\)

Замечание. Не удивляйтесь тому, что в англоязычной эконометрической литературе вы такого названия неравенства не встретите. Там этот результат принято называть неравенством Коши — Шварца (the Cauchy-Schwarz inequality).

Сходимость по распределению. Последовательность случайных величин \(X_1,X_2,{\dots},X_n,{\dots}\) сходится по распределению к случайной величине \(\xi \), если

\begin{equation*} \lim _{n\rightarrow \infty }P\left\{X_n<x\right\}=P\left\{\xi <x\right\} \end{equation*}

для всех точек, где функция \(F\left(x\right)=P\left\{\xi <x\right\}\) непрерывна.

Обозначение сходимости по распределению: \(X_n\overset{\text{d}}{\rightarrow}\xi \).

Обратите внимание на важное отличие сходимости по вероятности от сходимости по распределению. В первом случае речь идёт о том, что последовательность сходится к некоторой (неслучайной) константе, а во втором — к случайной величине.

Сходимость по распределению главным образом понадобится нам для использования центральной предельной теоремы.

Центральная предельная теорема (ЦПТ). Если \(Y_1,{\dots},Y_n,{\dots}\) — независимые и одинаково распределенные случайные величины, причём \(E(Y_i)=\mu ,\text{ }\text{ }\text{ }\text{ }\text{ }\text{ }\mathit{var}\left(Y_i\right)=\sigma ^2< \infty ,\) то

\begin{equation*} \frac{\sqrt n\left(\overline Y-\mu \right)}{\sigma }\overset{\text{d}}{\rightarrow}N\left(0,1\right)(6.1). \end{equation*}

Выражение (6.1) иногда записывают в одном из эквивалентных вариантов.

Во-первых, напомним (см. пример 6.1), что \(\text{var}\left( \overline{Y} \right) = \frac{\sigma^{2}}{n}\). Тогда, обозначив \(\text{var}\left( \overline{Y} \right) = \sigma_{\overline{Y}}^{2}\), можно переписать (6.1) вот так:

\(\frac{\ \left( \overline{Y} - \mu \right)}{\sigma_{\overline{Y}}}\overset{\text{d}}{\rightarrow}N(0,1).\)

В этом случае говорят, что распределение \(\overline Y\) является асимптотически нормальным с математическим ожиданием \(\mu \) и дисперсией \(\frac{\sigma ^2} n\).

Во-вторых, если случайную величину \(\frac{\sqrt n\left(\overline Y-\mu \right)}{\sigma }\) домножить на коэффициент \(\sigma \), то её дисперсия увеличится в \(\sigma ^2\) раз (по свойству дисперсии). Следовательно, выражение (6.1) эквивалентно следующему утверждению:

\begin{equation*} \sqrt n\left(\overline Y-\mu \right)\overset{\text{d}}{\rightarrow}N\left(0,\sigma ^2\right). \end{equation*}

Центральная предельная теорема даёт уверенность в том, что при указанных предпосылках и достаточно большой выборке среднее значение будет иметь приблизительно нормальное распределение. Причем для этого не требуется, чтобы отдельные случайные величины \(Y_1,{\dots},Y_n{\dots}\) сами имели нормальное распределение. Они могут быть распределены как угодно, лишь бы имели конечную дисперсию.

Для эконометристов этот результат важен, так как во многих ситуациях гарантирует асимптотическую нормальность оценок коэффициентов, что позволяет легко тестировать гипотезы и вообще упрощает работу, так как свойства нормального распределения изучены очень хорошо.

Теорема Слуцкого (теорема Манна — Вальда).

Если

\(\mathbf{X}_{\mathbf{n}}\overset{\mathbf{\text{p}}}{\rightarrow}\mathbf{a}\) (то есть последовательность случайных величин \(X_1,X_2,{\dots},X_n,{\dots}\) сходится по вероятности к константе \(a\)),
функция \(g(x)\) непрерывна в точке \(a\) и некоторой её окрестности,

то \(g(X_n)\text{ }\overset{\mathbf{\text{p}}}{\rightarrow}g(a)\).

Пример 6.2. Регрессия на константу (продолжение)

Вернемся к нашему примеру 6.1. Вычислите предел по вероятности для \(\widehat {\theta }^2.\)

Решение:

Так как \(g\left(x\right)=x^2\) — это непрерывная функция, и \(\widehat {\theta }=\overline y\) сходится по вероятности к \(\theta \), то по только что сформулированной теореме получаем, что \(\widehat {\theta }^2\) сходится по вероятности к \(\theta^2 \).

Замечание 1. Эта теорема верна и в случае, когда \(X_n\) — это случайный вектор, и \(a\) — это вектор констант.

Замечание 2. Эта теорема называется теоремой Слуцкого только в русскоязычной традиции. Если обратиться к англоязычным учебникам по статистике и эконометрике, то там она называется теоремой Манна — Вальда (Mann–Wald theorem) или даже теоремой о непрерывном отображении (continuous mapping theorem). А теоремой Слуцкого там называется вот такой результат:

Теорема Слуцкого. Если

\(\mathbf{X}_{\mathbf{n}}\overset{\mathbf{\text{p}}}{\rightarrow}\mathbf{a}\) (то есть последовательность случайных величин \(X_1,X_2,{\dots},X_n,{\dots}\) сходится по вероятности к константе \(a\)),
\(\mathbf{Y}_{\mathbf{n}}\overset{\mathbf{\text{d}}}{\rightarrow}\mathbf{\xi}\) (то есть последовательность случайных величин \(Y_1,Y_2,{\dots},Y_n,{\dots}\) сходится по распределению к случайной величине \(\xi \)),

то

\begin{equation*} X_n+Y_n\overset{d }{\rightarrow\text{ }}a+\xi , \end{equation*}

\begin{equation*} X_n\ast Y_n\overset{d }{\rightarrow}a\ast \xi , \end{equation*}

\begin{equation*} \frac{Y_n}{X_n}\overset{d }{\rightarrow}\frac{\xi } a, \end{equation*}

Для последнего соотношения также требуется, чтобы случайная величина \(X_n\) не равнялась нулю с единичной вероятностью.

Обратите внимание: чтобы указанные соотношения выполнялись, каждый из пределов в отдельности должен существовать.

Обе сформулированные теоремы пригодятся нам в дальнейшем. Для определенности в контексте доказательств в данной главе договоримся, что, когда мы ссылаемся на теорему Слуцкого, мы подразумеваем последний из двух вариантов.