Учебник+

2.6. Прогнозирование

В зависимости от контекста термин «прогнозирование» в эконометрике может трактоваться по-разному. Применительно к данным временных рядов речь обычно идет о прогнозировании будущего значения зависимой переменной, например, курса рубля или ВВП. Когда же речь идет о пространственных выборках, под прогнозированием понимают предсказание значения зависимой переменной для заданных значений объясняющих переменных. Например, предсказание цены квартиры с заданной жилой площадью.

Формально задачу построения прогноза можно представить следующим образом. Имеется модель, для которой выполнены все предпосылки КЛМПР:

\begin{equation*} y_i=\beta _1+\beta _2x_i+\varepsilon _i \end{equation*}

Представим, что мы уже воспользовались МНК и получили оцененную на основе n наблюдений линию регрессии:

\begin{equation*} \widehat y_i=\widehat {\beta }_1+\widehat {\beta }_2x_i \end{equation*}

Теперь пусть у нас есть известное (n+1)-ое наблюдение регрессора \(x_{n+1}\), но неизвестно соответствующее значение зависимой переменной \(y_{n+1}\) и нужно построить его прогноз. Естественной идеей будет подставить известное значение в оцененную регрессию: \

\begin{equation*} \widehat y_{n+1}=\widehat {\beta }_1+\widehat {\beta }_2x_{n+1} \end{equation*}

Оказывается, что это хорошая мысль: такой прогноз будет несмещенным и эффективным (то есть будет характеризоваться минимальной ожидаемой квадратичной ошибкой прогноза).

Докажем несмещенность этого прогноза.

Вычислим математическое ожидание фактического значения \(y_{n+1}\) и нашего прогноза \(\widehat y_{n+1}\). Если прогноз несмещенный, то эти математические ожидания будут совпадать.

Воспользуемся тем, что, как мы доказали выше, \(\widehat {\beta }_1\) и \(\widehat {\beta }_2\) — несмещенные оценки коэффициентов \(\beta _1\) и \(\beta _2\):

\begin{equation*} E\left(\widehat y_{n+1}\right)=E\left(\widehat {\beta }_1+\widehat {\beta }_2x_{n+1}\right)=E\left(\widehat {\beta }_1\right)+E\left(\widehat {\beta }_2\right)x_{n+1}=\beta _1+\beta _2x_{n+1} \end{equation*}

Кроме того:

\begin{equation*} E\left(y_{n+1}\right)=E\left(\beta _1+\beta _2x_{n+1}+\varepsilon _{n+1}\right)=\end{equation*}

\begin{equation*} =\beta _1+\beta _2x_{n+1}+E\left(\varepsilon _{n+1}\right)=\beta _1+\beta _2x_{n+1} \end{equation*}

Следовательно, \(E\left(y_{n+1}\right)=E\left(\widehat y_{n+1}\right)\).

Кроме самого прогноза нас интересует его точность. Чтобы её оценить, целесообразно вычислить математические ожидания квадрата ошибки прогноза:

\begin{equation*} E\left(\widehat y_{n+1}-y_{n+1}\right)^2=E\left(\widehat {\beta }_1+\widehat {\beta }_2x_{n+1}-\beta _1-\beta _2x_{n+1}-\varepsilon _{n+1}\right)^2= \end{equation*}

\begin{equation*} =E\left(\left(\widehat {\beta }_1-\beta _1\right)+\left(\widehat {\beta }_2-\beta _2\right)x_{n+1}-\varepsilon _{n+1}\right)^2= \end{equation*}

\begin{equation*} =E\left(\widehat {\beta }_1-\beta _1\right)^2+x_{n+1}^2E\left(\widehat {\beta }_2-\beta _2\right)^2+E\left(\varepsilon _{n+1}\right)^2+ \end{equation*}

\begin{equation*} +2x_{n+1}E\left(\left(\widehat {\beta }_1-\beta _1\right)\left(\widehat {\beta }_2-\beta _2\right)\right)-2E\left(\left(\widehat {\beta }_1-\beta _1\right)\varepsilon _{n+1}\right)-\end{equation*}

\begin{equation*}-2x_{n+1}E\left(\left(\widehat {\beta }_2-\beta _2\right)\varepsilon _{n+1}\right)= \end{equation*}

\begin{equation*} \mathit{var}\left(\widehat {\beta }_1\right)+x_{n+1}^2\mathit{var}\left(\widehat {\beta }_2\right)+\sigma ^2+2x_{n+1}\mathit{cov}\left(\widehat {\beta }_1,\widehat {\beta }_2\right)-0-0= \end{equation*}

\begin{equation*} \frac{\frac{\sigma ^2} n{\ast}\sum x_i^2}{\sum \left(x_i-\overline x\right)^2}+x_{n+1}^2\frac{\sigma ^2}{\Sigma \left(x_i-\overline x\right)^2}+\sigma ^2-2x_{n+1}\frac{\overline x{\ast}\sigma ^2}{\Sigma \left(x_i-\overline x\right)^2}= \end{equation*}

\begin{equation*}  =\sigma ^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{n+1}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)\end{equation*}

Здесь в предпоследнем равенстве мы воспользовались формулами для \(\mathit{var}\left(\widehat {\beta }_1\right)\), \(\mathit{var}\left(\widehat {\beta }_2\right)\) и \(\mathit{cov}\left(\widehat {\beta }_1,\widehat {\beta }_2\right)\), представленными выше.

Дисперсия ошибки прогноза \(\sigma ^2\), неизвестная нам в реальности, может быть заменена несмещенной оценкой \(S^2.\) Если проделать эту замену, а затем извлечь из полученного результата корень, то получим стандартную ошибку прогноза:

\begin{equation*} \delta =\sqrt{s^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{n+1}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}\end{equation*}

Эту стандартную ошибку прогноза можно использовать для построения доверительного интервала прогноза.

95-процентный доверительный интервал для прогноза — это такой интервал, который накрывает истинное прогнозное значение зависимой переменной с вероятностью 95%. Он имеет вид:

\begin{equation*} \left(\widehat y_{n+1}-\delta {\ast}t_{n-2}^{\alpha },\widehat y_{n+1}+\delta {\ast}t_{n-2}^{\alpha }\right.) \end{equation*}

Обратите внимание, что величина стандартной ошибки прогноза зависит от соотношения \(x_{n+1}\) и \(\overline x\). Если \(x_{n+1}=\overline x\), то последняя дробь в этой большой формуле окажется равной нулю, и стандартная ошибка прогноза будет минимальной. Чем сильнее \(x_{n+1}\) отличается от \(\overline x\), тем больше будет эта дробь. Таким образом, чем меньше наблюдение, для которого вы строите прогноз, похоже на вашу исходную выборку, тем менее точным этот прогноз окажется.

Пример 2.6. Построение прогноза

Рассматривается классическая линейная модель парной регрессии \(y_i=\beta _1+\beta _2{\ast}x_i+\varepsilon _i.\) Имеется следующая информация о 10 наблюдениях анализируемых переменных:

\begin{equation*} \sum _{i=1}^{10}x_i=20,\sum _{i=1}^{10}x_i^2=50,\sum _{i=1}^{10}y_i=8,\sum _{i=1}^{10}y_i^2=26, \end{equation*}

\begin{equation*} \sum _{i=1}^{10}x_i{\ast}y_i=10 \end{equation*}

Для одиннадцатого наблюдения дано \(x_{11}=5\). Предполагая, что это наблюдение удовлетворяет исходной модели, вычислите наилучший линейный несмещенный прогноз \(y_{11}\) и оцените его точность, построив для него 95-процентный доверительный интервал.

Решение:

\begin{equation*} \widehat {\beta _2}=\frac{\overline{\mathit{xy}}-\overline x{\ast}\overline y}{\overline{x^2}-\overline x^2}=-0,6 \end{equation*}

\begin{equation*} \widehat {\beta _1}=\overline y-\widehat {\beta _2}{\ast}\overline x=2 \end{equation*}

Прогноз \(\widehat y_{11}=\widehat {\beta _1}+\widehat {\beta _2}{\ast}x_{11}=2-0,6{\ast}5=-1\).

Сумма квадратов остатков равна:

\begin{equation*} \sum _{i=1}^{10}e_i^2=\sum _{i=1}^{10}e_i{\ast}\left(y_i-\widehat {\beta _1}-\widehat {\beta _2}{\ast}x_i\right)= \end{equation*}

\begin{equation*} \sum _{i=1}^{10}e_iy_i-\widehat {\beta _1}\sum _{i=1}^{10}e_i-\widehat {\beta _2}\sum _{i=1}^{10}e_ix_i=\sum _{i=1}^{10}e_iy_i-\widehat {\beta _1}{\ast}0-\widehat {\beta _2}{\ast}0 \end{equation*}

Последнее равенство верно в силу свойств остатков регрессии. Таким образом:

\begin{equation*} \sum _{i=1}^{10}e_i^2=\sum _{i=1}^{10}e_iy_i=\sum _{i=1}^{10}\left(y_i-\widehat {\beta _1}-\widehat {\beta _2}{\ast}x_i\right)y_i= \end{equation*}

\begin{equation*} \sum _{i=1}^{10}y_i^2-\widehat {\beta _1}\sum _{i=1}^{10}y_i-\widehat {\beta _2}{\ast}\sum _{i=1}^{10}x_iy_i=26-2{\ast}8+0,6{\ast}10=16 \end{equation*}

\begin{equation*} \delta =\sqrt{s^2{\ast}\left(1+\frac 1 n+\frac{\left(x_{11}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}=\end{equation*}

 

\begin{equation*}=\sqrt{\frac{\sum e_i^2}{n-2}{\ast}\left(1+\frac 1 n+\frac{\left(x_{11}-\overline x\right)^2}{\sum \left(x_i-\overline x\right)^2}\right)}= \end{equation*}

 

\begin{equation*} =\sqrt{\frac{16}{10-2}{\ast}\left(1+\frac 1{10}+\frac{\left(5-2\right)^2}{10}\right)}=2 \end{equation*}

Теперь можно посчитать доверительный интервал прогноза:

\begin{equation*} \left(\widehat y_{11}-\delta {\ast}t_8,\widehat y_{11}+\delta {\ast}t_8\right) \end{equation*}

\begin{equation*} \left(-1-2{\ast}2,306,-1+2{\ast}2,306\right) \end{equation*}

\begin{equation*} \left(-5,612,3,612\right) \end{equation*}

Заметим, что в этом примере точность прогноза не слишком высока, что объясняется маленьким количеством наблюдений и тем, что \(x_{11}\) довольно далек от среднего по выборке значения переменной \(x\).

Для получения более точного прогноза лучше, конечно, использовать больше данных.

Ответ: \(\widehat y_{11}=-1,\) доверительный интервал: \(\left(-5,612,3,612\right)\)