3.5. Тестирование гипотез и построение доверительных интервалов

Начнем с тестирования гипотез для отдельных коэффициентов. Пусть вы имеете дело с классической линейной моделью:

\begin{equation*} y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+\beta _3{\ast}x_i^{\left(3\right)}+{\dots}+\beta _k{\ast}x_i^{\left(k\right)}+\varepsilon _i. \end{equation*}

Если вас интересует, влияет ли регрессор \(x^{\left(j\right)}\) на зависимую переменную, то для этого вам нужно осуществить тест на незначимость соответствующего коэффициента.

Процедура тестирования незначимости коэффициента в модели множественной регрессии:

Формулируем тестируемую гипотезу \(H_0:\beta _j=0\) («переменная \(x^{\left(j\right)}\) не влияет на переменную y») и альтернативную гипотезу \(H_1:\beta _j{\neq}0\) («переменная \(x^{\left(j\right)}\) влияет на переменную y»)
Находим расчетное значение тестовой статистики по формуле \(\frac{\widehat {\beta }_j}{\mathit{se}\left(\widehat {\beta }_j\right)}\).
Выбираем уровень значимости \(\alpha \).
Из таблиц распределения Стьюдента находим критическое значение тестовой статистики \(t_{n-k}^{\alpha }\) для выбранного уровня значимости и так называемого числа степеней свободы, которое в нашем случае равно \(\left(n-k\right)\).
Если \(\left|\frac{\widehat {\beta }_j}{\mathit{se}\left(\widehat {\beta }_j\right)}\right|>t_{n-k}^{\alpha }\), то есть \(\widehat {\beta }_j\) достаточно велик по абсолютной величине, следует отвергнуть гипотезу \(H_0:\beta _j=0\) и сделать вывод в пользу альтернативной гипотезы, то есть заключить, что переменная \(x^{\left(j\right)}\) влияет на переменную y. В этом случае переменную \(x^{\left(j\right)}\) называют статистически значимой при уровне значимости \(\alpha \). В противном случае, соответственно, гипотеза \(H_0\) не может быть отвергнута, и переменную \(x^{\left(j\right)}\) называют статистически незначимой при уровне значимости \(\alpha \).

Легко заметить, что описанная процедура в целом такая же, как и для парной регрессии. Отличие состоит в том, что число степеней свободы теперь равно \(\left(n-k\right)\). И в том, что оценки коэффициентов и их стандартные ошибки рассчитываются по формулам для множественной регрессии. Как именно их рассчитать, мы обсудили в параграфе 3.3, но на практике вы можете доверить эту скучную работу компьютеру.

Аналогичным образом можно тестировать гипотезу \(H_0:\beta _j=c\) (против альтернативной гипотезы \(H_1:\beta _j{\neq}c\)), где c — это некоторая константа. В этом случае процедура тестирования остается такой же с одним исключением: расчетное значение тестовой статистики будет иметь вид \(\frac{\widehat {\beta }_j-c}{\mathit{se}\left(\widehat {\beta }_j\right)}\).

Такая же аналогия с парной регрессией работает и при построении доверительных интервалов. Например, 95-процентный доверительный интервал для коэффициента \(\beta _j\) имеет вид:

\begin{equation*} \left(\widehat {\beta }_j-\mathit{se}\left(\widehat {\beta }_j\right){\ast}t_{n-k}^{0,05};\widehat {\beta }_j+\mathit{se}\left(\widehat {\beta }_j\right){\ast}t_{n-k}^{0,05}\right) \end{equation*}

Здесь \(t_{n-k}^{0,05}\) — критическое значение распределения Стьюдента для уровня значимости 5% и \(\left(n-k\right)\) степеней свободы.

Это распределение пригодится и для тестирования гипотез по поводу линейных комбинаций коэффициентов. Например, гипотезы следующего вида:

\begin{equation*} H_0:a{\ast}\beta _1+b{\ast}\beta _2=c \end{equation*}

В этом случае процедура тестирования снова остается такой же с одним исключением: расчетное значение тестовой статистики будет иметь вид

\begin{equation*} \frac{a{\ast}\widehat {\beta _1}+b{\ast}\widehat {\beta _2}-c}{\widehat {\mathit{se}}\left(a{\ast}\widehat {\beta _1}+b{\ast}\widehat {\beta _2}\right)}=\frac{a{\ast}\widehat {\beta _1}+b{\ast}\widehat {\beta _2}-c}{\sqrt{\widehat {\mathit{var}}\left(a{\ast}\widehat {\beta _1}+b{\ast}\widehat {\beta _2}\right)}}= \end{equation*}

\begin{equation*} \frac{a{\ast}\widehat {\beta _1}+b{\ast}\widehat {\beta _2}-c}{\sqrt{a^2{\ast}\widehat {\mathit{var}}\left(\widehat {\beta _1}\right)+b^2{\ast}\widehat {\mathit{var}}\left(\widehat {\beta _2}\right)+2\mathit{ab}{\ast}\widehat {\mathit{cov}}\left(\widehat {\beta _1},\widehat {\beta _2}\right)}} \end{equation*}

Пример 3.2. Тестирование гипотез в модели множественной регрессии (продолжение примера 3.1)

Рассматривается классическая линейная модель множественной регрессии \(y_i=\beta _1+\beta _2x_i^{\left(2\right)}+\beta _3x_i^{\left(3\right)}+\varepsilon _i\). В ходе оценивания модели на основе данных по тысяче наблюдений при помощи МНК были получены следующие результаты:

\begin{equation*} \widehat y_i=-\underset{\left(1,58\right)}{2,50}+\underset{\left(0,71\right)}{0,50}x_i^{\left(2\right)}+\underset{\left(1,00\right)}{2,00}x_i^{\left(3\right)} \end{equation*}

Кроме того, вычислена оценка коэффициента ковариации между \(\widehat {\beta _2}\) и \(\widehat {\beta _3}\), которая составляет \(\widehat {\mathit{cov}}\left(\widehat {\beta _2},\widehat {\beta _3}\right)=0\).

(а) Значима ли переменная \(x^{\left(3\right)}\) (при уровне значимости 5%)?

(б) Проверьте гипотезу \(\beta _2+2\beta _3=5\).

Решение:

(а) Критическое значение тестовой статистики из таблиц распределения Стьюдента при уровне значимости 5% и \(\left(1000-3\right)=997\) степенях свободы составляет 1,96. Расчетное значение тестовой статистики: \(\frac{\widehat {\beta _3}}{\mathit{se}}\). Следует сделать вывод о том, что переменная \(x^{\left(3\right)}\) статистически значима при уровне значимости 5%.

(б) \(H_0:1{\ast}\beta _2+2{\ast}\beta _3=5\):

\begin{equation*} t_{\mathit{\text{р}\text{а}\text{с}\text{ч}}}=\frac{1{\ast}\widehat {\beta _2}+2{\ast}\widehat {\beta _3}-5}{\widehat {\mathit{se}}\left(1{\ast}\widehat {\beta _2}+2{\ast}\widehat {\beta _3}\right)}=\frac{1{\ast}\widehat {\beta _2}+2{\ast}\widehat {\beta _3}-5}{\sqrt{\widehat {\mathit{var}}\left(1{\ast}\widehat {\beta _2}+2{\ast}\widehat {\beta _3}\right)}} \end{equation*}

\begin{equation*} \frac{0,5+2{\ast}2-5}{\sqrt{\widehat {\mathit{var}}\left(\widehat {\beta _2}\right)+4{\ast}\widehat {\mathit{var}}\left(\widehat {\beta _3}\right)+4{\ast}\widehat {\mathit{cov}}\left(\widehat {\beta _2},\widehat {\beta _3}\right)}}= \end{equation*}

\begin{equation*} \frac{0,5+2{\ast}2-5}{\sqrt{\left(\mathit{se}\left(\widehat {\beta _2}\right)\right)^2+4{\ast}\left(\mathit{se}\left(\widehat {\beta _3}\right)\right)^2+4{\ast}\widehat {\mathit{cov}}\left(\widehat {\beta _2},\widehat {\beta _3}\right)}} \end{equation*}

\begin{equation*} \frac{-0,5}{\sqrt{0,5+4{\ast}1+4{\ast}0}}=-0,236 \end{equation*}

Число \(-0,236\) по модулю меньше, чем 1,96. Следовательно, тестируемая гипотеза не отвергается.

***

Во всех рассмотренных выше случаях мы тестировали гипотезу по поводу выполнения единственного линейного ограничения (например, \(\beta _3=0\) или \(\beta _2+2\beta _3=5\)). Однако на практике часто возникает необходимость тестировать одновременное выполнение сразу нескольких ограничений.

Представим, например, что вы сначала оценили параметры регрессии, в которой есть m коэффициентов:

\begin{equation*} y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+{\dots}+\beta _m{\ast}x_i^{\left(m\right)}+\varepsilon _i \end{equation*}

После этого вы задались вопросом по поводу того, стоит ли добавить в эту модель ещё q новых переменных. То есть о том, стоит ли переходить вот к такому уравнению:

\begin{equation*} y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+{\dots}+\beta _m{\ast}x_i^{\left(m\right)}+ \end{equation*}

\begin{equation*} +\beta _{m+1}{\ast}x_i^{\left(m+1\right)}+{\dots}+\beta _{m+q}{\ast}x_i^{\left(m+q\right)}+\varepsilon _i \end{equation*}

Для удобства назовем первую из двух моделей «короткой» (так как в ней меньше переменных), а вторую — «длинной» (так как в ней переменных больше). Как сделать выбор между этими моделями?

«Короткая» регрессия будет предпочтительной, если ни одна из добавленных в «длинную» регрессию переменных не является значимой. Иными словами, следует выбрать «короткую» регрессию, если верна следующая гипотеза:

\begin{equation*} H_0:\beta _{m+1}={\dots}=\beta _{m+q}=0 \end{equation*}

То есть в том случае, если одновременно выполнено q ограничений.

Для этого можно использовать так называемый F{-тест}.

Процедура теста на сравнение «короткой» и «длинной» регрессий:

Оцените «короткую» регрессию, получите коэффициент R-квадрат из этой регрессии. Обозначим его \(R_R^2\) ( \(R^2\) restricted, то есть R-квадрат в регрессии, для которой выполнено ограничение restriction).

Оцените «длинную» регрессию, получите коэффициент R-квадрат из этой регрессии. Обозначим его \(R_{\mathit{UR}}^2\) ( \(R^2\) unrestricted).

Вычислите расчетное значение тестовой статистики:

\begin{equation*} F_{\mathit{\text{р}\text{а}\text{с}\text{ч}}}=\frac{\frac{R_{\mathit{UR}}^2-R_R^2}{1-R_{\mathit{UR}}^2}{\ast}(n-k)} q \end{equation*}

Здесь \(k=m+q\) — количество коэффициентов в «длинной» регрессии.

Если верна нулевая гипотеза, то расчетное значение тестовой статистики имеет распределение Фишера с q и \(\left(n-k\right)\) степенями свободы. Поэтому, если расчетное значение больше критического значения из таблиц распределения Фишера \(F_{\mathit{\text{р}\text{а}\text{с}\text{ч}}}>F^{\alpha }\left(q,n-k\right)\), то тестируемая гипотеза отвергается при уровне значимости \(\alpha \), то есть следует сделать выбор в пользу «длинной регрессии».

Если же \(F_{\mathit{\text{р}\text{а}\text{с}\text{ч}}}{\leq}F^{\alpha }\left(q,n-k\right)\), то тестируемая гипотеза не отвергается при уровне значимости \(\alpha \), то есть следует сделать выбор в пользу «короткой» регрессии.

Таблицы распределения для осуществления всех тестов из этой главы содержатся в Приложении 3.А.

Важным частным случаем F-теста является ситуация, когда «короткая» регрессия включает в себя только константу \(y_i=\beta _1+\varepsilon _i,\) а «длинная» регрессия по-прежнему содержит много переменных:

\begin{equation*} y_i=\beta _1+\beta _2{\ast}x_i^{\left(2\right)}+{\dots}+\beta _k{\ast}x_i^{\left(k\right)}+\varepsilon _i. \end{equation*}

В этой ситуации, сравнение «короткой» и «длинной» регрессии состоит в проверке гипотезы \(\beta _2={\dots}=\beta _k=0\), то есть гипотезы о том, что ни один из регрессоров не влияет на зависимую переменную. Разумеется, если эта гипотеза не отвергается, то стоит заключить, что факторы для вашей модели мы выбрали скверные (раз уж ни один из них не помогает объяснить зависимую переменную). В таком случае уравнение называют в целом незначимым. А саму процедуру проверки гипотезы \(\beta _2={\dots}=\beta _k=0\) называют тестом на незначимость уравнения в целом.

Так как в уравнении, содержащем только константу, R-квадрат всегда равен нулю (см. задачу 9 из главы 2), то можно упростить формулу расчётного значения тестовой статистики. Подставим в неё 0 вместо величины \(R_R^2\), а величину \(R_{\mathit{UR}}^2\) обозначим просто \(R^2\). Кроме того, не забудем, что в нашем случае \(q=k-1\). Получим:

\begin{equation*} F_{\mathit{\text{р}\text{а}\text{с}\text{ч}}}=\frac{R^2}{1-R^2}{\ast}\frac{n-k}{k-1}. \end{equation*}

Это и есть расчетное значение тестовой статистики для теста на незначимость уравнения в целом. Сравнивать его нужно с критическим значением из таблиц распределения Фишера \(F^{\alpha }\left(k-1,n-k\right).\)

Тест на сравнение «короткой» и «длинной» регрессий можно обобщить на случай сравнения невложенных моделей. Представим, например, что вам нужно сделать выбор между двумя такими моделями:

\begin{equation*} y_i=\beta _1+\beta _2x_i^{\left(2\right)}+\beta _3x_i^{\left(3\right)}+\varepsilon _i\left(A\right) \end{equation*}

\begin{equation*} y_i=\alpha _1+\alpha _2z_i^{\left(2\right)}+\alpha _3z_i^{\left(3\right)}+\varepsilon _i\left(B\right) \end{equation*}

Они называются невложенными (nonnested), так как по крайней мере некоторые переменные из модели А не входят в модель B и, наоборот, по крайней мере некоторые переменные из модели B не входят в модель A. Указанные модели не получится сопоставить, используя тест на сравнение «короткой» и «длинной» регрессий, так как ни одна из моделей не вложена в другую (то есть не является её частным случаем, «короткой» версией). Чтобы преодолеть это ограничение, можно прибегнуть к следующему трюку: рассмотреть новую модель, которая обобщает две предыдущих:

\begin{equation*} y_i=\beta _1+\beta _2x_i^{\left(2\right)}+\beta _3x_i^{\left(3\right)}+\alpha _2z_i^{\left(2\right)}+\alpha _3z_i^{\left(3\right)}+\varepsilon _i \end{equation*}

Для этой модели нужно провести два теста на сравнение «короткой» и «длинной» регрессий:

Сначала проверить гипотезу о том, что незначимыми являются все переменные, которые входят в модель А, но не входят в модель B.
Затем проверить гипотезу о том, что, наоборот, незначимыми являются все переменные, которые входят в модель B, но не входят в модель A.

Вывод на основе этого теста следует делать так:

Если первая гипотеза будет отвергнута, а вторая — нет, то следует сделать выбор в пользу модели A.
Если же, наоборот, вторая гипотеза будет отвергнута, а первая — нет, то следует сделать выбор в пользу модели B.

Конечно, возможна ситуация, в которой обе гипотезы будут отвергнуты. В этом случае следует сделать выбор в пользу наиболее общей объединенной модели. Если же не удастся отвергнуть ни одну из гипотез, то, по всей видимости, ни одна из моделей не является удовлетворительной.

Описанная процедура называется тестом на сравнение невложенных моделей.

Пример 3.3. Разные тесты для модели множественной регрессии

На основе 20 наблюдений была оценена следующая модель регрессии (в скобках указаны стандартные ошибки оценок коэффициентов):

\begin{equation*} \widehat y_i=\underset{\left(0,6\right)}{2,4}+\underset{\left(0,3\right)}{6,9}x_i+\underset{\left(9,8\right)}{5,1}w_i \end{equation*}

Кроме того, известно, что общая сумма квадратов равна 2000, а сумма квадратов остатков равна 200.

(а) Вычислите значение коэффициента \(R^2\), значение скорректированного коэффициента \(R_{\mathit{adj}}^2\) и стандартную ошибку регрессии.

(б) Проверьте значимость уравнения в целом: сформулируйте и проверьте гипотезу о том, что все коэффициенты при переменных уравнения одновременно равны нулю.

(в) Значим ли коэффициент при переменной \(x\)? Сформулируйте и проверьте соответствующую гипотезу.

(г) Проверьте гипотезу о том, что коэффициент при переменной \(x\) равен 7.

(д) Постройте 99-процентный доверительный интервал для коэффициента при переменной \(x\).

(е) После того, как исследователь добавил в уравнение еще две переменные (назовём их \(p\) и \(s\)), \(R^2\) в этой модели увеличился до 0,95. Осуществив соответствующий тест, определите, стоило ли добавлять в модель эти переменные?

Примечание: все гипотезы в этой задаче проверяйте при уровне значимости 1%.

Решение:

(а) \(R^2=1-\frac{\sum _{i=1}^ne_i^2}{\sum _{i=1}^n\left(y_i-\overline y\right)^2}=1-\frac{200}{2000}=0,9\)

\begin{equation*} R_{\mathit{adj}}^2=R^2-\frac{k-1}{n-k}\left(1-R^2\right)=0,9-\frac{3-1}{20-3}{\ast}\left(1-0,9\right)=0,89 \end{equation*}

Стандартная ошибка регрессии: \(\sqrt{\frac{200}{20-3}}=3,43\)

(б) Если обозначить коэффициенты в рассматриваемой модели стандартным образом: \(y_i=\beta _1+\beta _2x_i+\beta _3w_i+\varepsilon _i\), то тестируемая гипотеза может быть записана так:

\begin{equation*} H_0:\beta _2=\beta _3=0. \end{equation*}

Расчетное значение: \(F=\frac{\frac{R^2}{1-R^2}{\ast}n-k}{k-1}=\frac{\frac{0,9}{0,1}{\ast}17} 2=76,5\).

Критическое значение при уровне значимости 1% \(F\left(2,17\right)=6,11\).

76,5>6,11, поэтому тестируемая гипотеза отвергается. Следует сделать вывод о том, что уравнение в целом значимо.

(в) Проверяемая гипотеза: \(H_0:\beta _2=0\). Расчетное значение 6,9/0,3=23. Критическое значение при уровне значимости 1% составляет \(t\left(20-3\right)=2,898\).

\(23>2,898\), поэтому тестируемая гипотеза отвергается. Следует сделать вывод о том, что переменная значима.

(г) Проверяемая гипотеза: \(H_0:\beta _2=7\). Расчетное значение

\begin{equation*} \frac{6,9-7}{0,3}=-0,33. \end{equation*}

Критическое значение при уровне значимости 1% составляет \(t\left(20-3\right)=2,898\). \(0,3<2,898\) вывод: мы не можем отклонить гипотезу о том, что коэффициент \(\beta _2\) равен 7.

(д) С вероятностью 99% \(\beta _2{\in}\) \(\left(6,9-0,3{\ast}2,898;6,9+0,3{\ast}2,898\right)\)

\begin{equation*} \beta _2{\in}\left(6,03;7,77\right). \end{equation*}

(е) Если обозначить коэффициенты в новой модели стандартным образом: \(y_i=\beta _1+\beta _2x_i+\beta _3w_i+\beta _4p_i+\beta _5s_i+\varepsilon _i\), то тестируемая гипотеза может быть записана так:

\begin{equation*} H_0:\beta _4=\beta _5=0. \end{equation*}

Расчетное значение: \(F=\frac{\frac{R_{\mathit{UR}}^2-R_R^2}{1-R_{\mathit{UR}}^2}{\ast}n-k} q=\frac{\frac{0,95-0,9}{1-0,95}{\ast}20-5} 2=7,5\).

Критическое значение при уровне значимости 1% \(F\left(2,15\right)=6,36\).

7,5>6,36, поэтому тестируемая гипотеза отвергается. «Длинная» регрессия значимо лучше, чем «короткая». То есть переменные добавлять стоило. Хотя, конечно, в реальных исследованиях лучше не оценивать уравнение с четырьмя переменными всего по 20 точкам.