Учебник+

3.4. Степень соответствия модели данным

Для множественной регрессии формула несмещенной оценки дисперсии случайной ошибки имеет вид

\begin{equation*} \widehat {\sigma ^2}=S^2=\frac 1{n-k}{\ast}\sum _{i=1}^ne_i^2 \end{equation*}

Она почти такая же, как для парной регрессии за тем исключением, что в знаменателе вместо выражения \(\left(n-2\right)\) стоит \(\left(n-k\right)\). Если извлечь корень из этой величины, то можно получить стандартную ошибку регрессии

\begin{equation*} \mathit{SEE}=\sqrt{S^2}=\sqrt{\frac 1{n-k}{\ast}\sum _{i=1}^ne_i^2} \end{equation*}

Расчет стандартной ошибки регрессии — это один из способов оценить точность вашей модели в целом. То есть оценить, насколько хорошо она соответствует данным. Чем меньше стандартная ошибка регрессии, тем лучше ваша модель соответствует доступным вам наблюдениям.

Следующая характеристика качества подгонки — это коэффициент детерминации \(R^2\).

Для множественной регрессии с константой так же, как и для парной, верно, что общая сумма квадратов может быть представлена как сумма квадратов остатков и объясненная сумма квадратов:

\begin{equation*} \sum _{i=1}^n\left(y_i-\overline y\right)^2=\sum _{i=1}^ne_i^2+\sum _{i=1}^n\left(\widehat y_i-\overline y\right)^2 \end{equation*}

Поэтому и \(R^2\) может быть рассчитан в точности таким же образом, как и для модели парной регрессии:

\begin{equation*} R^2=1-\frac{\sum _{i=1}^ne_i^2}{\sum _{i=1}^n\left(y_i-\overline y\right)^2}=\frac{\sum _{i=1}^n\left(\widehat y_i-\overline y\right)^2}{\sum _{i=1}^n\left(y_i-\overline y\right)^2}=\frac{\widehat {\mathit{Var}}\left(\widehat y\right)}{\widehat {\mathit{Var}}\left(y\right)} \end{equation*}

И точно так же, как и в случае парной регрессии, он будет лежать между нулем и единицей. Если ваша модель хорошо соответствует данным, то \(R^2\) будет близок к единице, если нет, то к нулю. Ещё раз подчеркнем, что условие \(\sum _{i=1}^n\left(y_i-\overline y\right)^2=\sum _{i=1}^ne_i^2+\sum _{i=1}^n\left(\widehat y_i-\overline y\right)^2\) выполняется только тогда, когда в модели есть константа. Если же ее нет, то указанное равенство, вообще говоря, неверно, и \(R^2\) не обязан лежать между нулем и единицей, и интерпретировать стандартным образом его нельзя.

Некоторые эконометристы старой школы придают важное значение величине коэффициента \(R^2\). Действительно, если он близок к единице, то это, как правило, приятная новость. Однако не стоит переоценивать эту характеристику качества модели потому, что у коэффициента \(R^2\) есть существенные ограничения:

  1. Высокий \(R^2\) характеризует наличие множественной корреляции между регрессорами и зависимой переменной, но ничего не говорит о наличии или отсутствии причинно-следственной связи между анализируемыми переменными. Вспомните примеры из первой главы, где мы обсуждали, что высокая корреляция не гарантирует причинно-следственной связи.
  2. \(R^2\) не может быть использован для принятия решения о том, стоит ли добавлять в модель новые переменные или нет. Дело в том, что, когда вы добавляете новые переменные в ваше уравнение, качество подгонки данных не может стать хуже, следовательно, и сумма квадратов остатков не может увеличиться. В теории она может остаться неизменной, но на практике она всегда будет уменьшаться. А в этом случае, как видно из расчетной формулы, \(R^2\) будет увеличиваться. Получается, что какие бы дурацкие новые переменные вы ни добавляли в модель, коэффициент \(R^2\) будет увеличиваться (или, в крайнем случае, оставаться неизменным).

Последний из указанных недостатков легко можно преодолеть. Для этого есть усовершенствованная версия \(R^2\), которую называют скорректированным (или нормированным) коэффициентом \(R^2\) ( \(R^2\) adjusted):

\begin{equation*} R_{\mathit{adj}}^2=R^2-\frac{k-1}{n-k}{\ast}\left(1-R^2\right) \end{equation*}

\(R_{\mathit{adj}}^2\) меньше, чем обычный \(R^2\), на величину \(\frac{k-1}{n-k}{\ast}\left(1-R^2\right)\), которая представляет собой штраф за добавление избыточных переменных. Обратите внимание, что при прочих равных этот штраф растет по мере увеличения параметра \(k\), характеризующего число коэффициентов в вашей модели. Если вы будете добавлять в модель много регрессоров, которые не вносят существенного вклада в объяснение зависимой переменной, то \(R^2_{\mathit{adj}}\) будет снижаться.

Поэтому, если вы хотите сравнить межу собой модели с разным числом объясняющих переменных, то лучше использовать \(R^2_{\mathit{adj}}\), чем обычный \(R^2\). А ещё лучше обращать внимание не только на этот коэффициент, но и на прочие характеристики адекватности вашей модели, которые мы обсудим в этой книге.

Чтобы понять, откуда берется формула для скорректированного R-квадрата, запишем обычный R-квадрат следующим образом:

\begin{equation*} R^2=1-\frac{\sum _{i=1}^ne_i^2}{\sum _{i=1}^n\left(y_i-\overline y\right)^2}=1-\frac{\frac{\sum _{i=1}^ne_i^2} n}{\frac{\sum _{i=1}^n\left(y_i-\overline y\right)^2} n}. \end{equation*}

В числителе дроби стоит выборочная дисперсия остатков, а в знаменателе — выборочная дисперсия зависимой переменной. Если и ту, и другую дисперсии заменить их несмещенными аналогами, то получим следующее выражение:

\begin{equation*} 1-\frac{S^2}{\frac{\sum _{i=1}^n\left(y_i-\overline y\right)^2}{n-1}}=1-\frac{\frac{\sum _{i=1}^ne_i^2}{n-k}}{\frac{\sum _{i=1}^n\left(y_i-\overline y\right)^2}{n-1}}. \end{equation*}

Легко проверить, что это и есть скорректированный R-квадрат:

\begin{equation*} 1-\frac{\frac{\sum _{i=1}^ne_i^2}{n-k}}{\frac{\sum _{i=1}^n\left(y_i-\overline y\right)^2}{n-1}}=1-\frac{n-1}{n-k}\frac{\sum _{i=1}^ne_i^2}{\sum _{i=1}^n\left(y_i-\overline y\right)^2}=1-\frac{n-1}{n-k}\left(1-R^2\right)= \end{equation*}

\begin{equation*} R^2-\frac{k-1}{n-k}{\ast}\left(1-R^2\right)=R_{\mathit{adj}}^2. \end{equation*}