Учебник+

4.2. Фиктивные переменные

Иногда в процессе эконометрического моделирования у исследователя возникает потребность учитывать в качестве объясняющих факторов не только количественные, но и качественные характеристики. Например, на цену квартиры могут влиять не только её жилая площадь и расстояние до ближайшего метро (количественные переменные), но и материал, из которого изготовлен дом, или наличие в этой квартире балкона (качественные переменные). На величину заработной платы работника могут влиять не только его стаж работы (количественный признак), но и факт наличия у него высшего образования или пол (качественные признаки). Во всех этих случаях удобно использовать так называемые фиктивные переменные.

Фиктивные переменные — это такие переменные, которые принимают одно из двух значений — 0 или 1. Их также называют бинарными или дамми-переменными (dummy variable).

Представим, например, что заработная плата описывается следующим уравнением, для которого выполнены все предпосылки классической линейной модели множественной регрессии:

\({Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + {\beta_{3} \ast D_{i}} + \varepsilon_{i}}},\)

где \(Y_{i}\) — зарплата i-го работника в долларах в час, \(X_{i}\) — стаж работы i-го работника в годах, \(D_{i}\) — фиктивная переменная, которая равна единице, если i-ый работник — женщина, и равна нулю, если мужчина. Исследователь включает в модель эту переменную потому, что подозревает наличие на рассматриваемом рынке труда дискриминации по гендерному признаку.

В результате МНК-оценивания параметров модели на основе данных о 1000 работниках исследователь получил следующее уравнение:

\({{\widehat{Y}}_{i} = {\underset{(0,3)}{4,2} + \underset{(0,1)}{2,1}}}{X_{i} - \underset{(0,2)}{3,5}}D_{i}\)

Результаты построения модели с фиктивной переменной удобно интерпретировать, если записать её для двух случаев: когда фиктивная переменная равна 0 и когда она равна 1. В нашем примере это приведёт к двум вот таким уравнениям:

мужчины (\(D_{i} = 0\)): \(Y_{i} = {4,2 + {2,1 \ast X_{i}}}\),

женщины (\(D_{i} = 1\)): \(Y_{i} = {4,2 + {2,1 \ast X_{i}} - 3,5} = {0,7 + {2,1 \ast X_{i}}}\).

Отсюда видно, что при прочих равных условиях (при равном стаже работы) женщины получают на 3,5 доллара меньше, чем мужчины. Подчеркнем, что оценка такой модели гораздо лучше, чем просто сравнение средней по выборке заработной платы мужчин со средней по выборке заработной платой женщин, так как гипотетически различие между этими средними могло бы объясняться не гендерной дискриминацией, а разным стажем работы у мужчин и женщин. Мы же в нашем примере контролируем это различие, включая стаж работы в модель. В реальном исследовании, разумеется, было бы целесообразно включить в модель и прочие факторы, которые могут влиять на заработную плату (скажем, образование), однако нам для целей объяснения идеи фиктивных переменных пока хватит этого упрощенного примера.

Графически полученные уравнения представлены на рисунке 4.1. Мы видим, что наша фиктивная переменная отражает сдвиг линии, характеризующей зависимость заработной платы от стажа работы. Поэтому фиктивные переменные такого сорта иногда называют фиктивными переменными сдвига.

Рисунок 4.1. Зависимость между стажем работы и заработной платой для мужчин и для женщин в случае использования фиктивной переменной сдвига.

У модели, которую оценил наш исследователь, есть важное ограничение. Мы видим, что женщины получают «штраф» к зарплате в размере 3,5 долларов. Причем этот «штраф» фиксирован и не зависит от стажа работы. В действительности, возможна ситуация, когда с ростом опыта работы зарплата у мужчин растет быстрее, чем у женщин. Иными словами, разрыв между зарплатами мужчин и женщин может становиться больше по мере увеличения стажа работы. Чтобы выявить подобную тенденцию, нам потребуется новый вид фиктивных переменных — фиктивные переменные наклона. Это произведение переменных \(X_{i}\) и \(D_{i}\).

Включив такое произведение в модель, исследователь получит следующее уравнение:

\({Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + {\beta_{3} \ast D_{i}} + {\beta_{4} \ast X_{i}}}}{D_{i} + \varepsilon_{i}}\)

И снова, чтобы понять, как его интерпретировать, удобно переписать уравнение отдельно для женщин и мужчин:

мужчины (\(D_{i} = 0\)): \(Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + \varepsilon_{i}}\),

женщины (\(D_{i} = 1\)): \(Y_{i} = {{({\beta{1 + \beta_{3}}})} + {{{({\beta{2 + \beta_{4}}})} \ast X_{i}} + \varepsilon_{i}}}\).

Получается, что в «мужской» модели коэффициент перед переменной \(X\) равен \(\beta_{2}\), то есть каждый дополнительный год стажа увеличивает зарплату мужчины на \(\beta_{2}\). А для женщин коэффициент при \(X\) равен \(\beta_{2} + \beta_{4}\), то есть каждый дополнительный год стажа работы увеличивает зарплату на \({\beta_{2} + \beta_{4}}.\) И если, например, \(\beta_{4} < 0\), то это означает, что наклон линии регрессии для женщин более пологий, чем для мужчин (см. рис. 4.2), то есть каждый дополнительный год опыта работы дает женщинам меньшую прибавку к зарплате по сравнению с мужчинами.

\(\beta_{1}\)

Рисуснок 4.2. Зависимость между стажем работы и заработной платой для мужчин и для женщин в случае использования фиктивных переменных сдвига и наклона (\({\beta_{3} < 0},{\beta_{4} < 0}\)).

Фиктивные переменные могут помочь выявить структурные различия в моделях для разных подвыборок. В нашем примере мы можем проверить наличие или отсутствие структурных различий в моделях заработных плат для мужчин и женщин. Для этого достаточно проверить гипотезу

\(\beta_{3} = \beta_{4} = 0.\)

Действительно, легко видеть, что если эта гипотеза верна, то уравнения заработной платы для мужчин и для женщин являются одинаковыми. Чтобы тестировать эту гипотезу, следует осуществить уже знакомый нам тест для сравнения «короткой» и «длинной» регрессий. Применительно к фиктивным переменным этот тест иногда называют тестом Чоу или тестом на структурный сдвиг. Он устроен следующим образом: необходимо добавить в модель фиктивную переменную сдвига и все соответствующие фиктивные переменные наклона, а затем тестировать гипотезу о том, что коэффициенты при этой фиктивной переменной сдвига и всех фиктивных переменных наклона одновременно равны нулю.

Пример 4.2. Тест на структурный сдвиг.

Опираясь на одну и ту же выборку из 1000 работников, исследователь оценил параметры двух моделей:

\(Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + \varepsilon_{i}}\)

\({Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + {\beta_{3} \ast D_{i}} + {\beta_{4} \ast X_{i}}}}{D_{i} + \varepsilon_{i}}\)

В первой модели R-квадрат оказался равен 0,6, а во второй — 0,8. Осуществите тест на структурный сдвиг и интерпретируйте его результаты.

Решение:

Нужно тестировать гипотезу \(\beta_{3} = \beta_{4} = 0\) против альтернативной гипотезы о том, что хотя бы один из двух указанных коэффициентов отличен от нуля.

Расчетное значение тестовой статистики может быть определено по формуле:

\(F_{\mathit{расч}} = \frac{\frac{R_{\mathit{UR}}^{2} - R_{R}^{2}}{1 - R_{UR}^{2}} \ast {n - k}}{q} = \frac{\frac{0,8 - 0,6}{1 - 0,8} \ast {1000 - 4}}{2} = 498\)

Это больше, чем критическое значение соответствующей тестовой статистики при любом разумном уровне значимости. Например, при уровне значимости 1% \(F{{({q,{n - k}})} = F}{{(2,996)} = 4,61}\). Поэтому нулевая гипотеза должна быть отвергнута, и следует сделать вывод о наличии структурного сдвига между моделями заработной платы для мужчин и для женщин. Иными словами, сделать вывод о том, что в рассматриваемой отрасли присутствует дискриминация по гендерному признаку.

***

В рассмотренном нами примере качественный признак может принимать два возможных значения: работник является либо мужчиной, либо женщиной. При помощи фиктивных переменных можно анализировать и случаи большего количества возможных значений.

Представим, что мы в качестве моделируемого признака рассматриваем университет, который закончил работник, и что в выборке есть выпускники ровно трёх университетов: A, B и C (и нет работников, которые не закончили никакого университета). Ясно, что одной бинарной переменной нам уже не хватит, и этот качественный признак нужно закодировать каким-то другим образом. Оказывается, это просто сделать, добавив в модель не одну, а две фиктивные переменные. Тогда уравнение будет выглядеть вот так:

\({Y_{i} = {\beta_{1} + {\beta_{2} \ast X_{i}} + {\beta_{3} \ast A_{i}} + {\beta_{4} \ast B_{i}} + \varepsilon_{i}}},\)

где \(A_{i}\) — фиктивная переменная, которая равна 1, если i-ый респондент является выпускником вуза А, и равна 0 в противном случае, \(B_{i}\) — аналогичная переменная для вуза B.

Конечно, есть некоторый соблазн добавить три фиктивные переменные: по одной для каждого университета. Действительно, почему бы не добавить в модель фиктивную переменную \(C_{i}\), равную единице для выпускников университета C и нулю для выпускников остальных университетов? Ответ на этот вопрос дает нам первая часть данной главы.

Дело в том, что если мы добавим 3-ю фиктивную переменную, то мы столкнемся с чистой мультиколлинеарностью. Если i-ый работник закончил университет B, тогда для него \({A_{i} = 0},{B_{i} = 1},{C_{i} = 0}\) и, следовательно

\({{A_{i} + B_{i} + C_{i}} = 1}.\)

Аналогично для работника, закончившего любой университет (то есть для каждого работника в нашей выборке), сумма трех указанных переменных будет равна единице. Тем самым наблюдается строгая линейная связь между переменными модели, что соответствует определению строгой мультиколлинеарности. Поэтому оценка модели, включающей константу и три этих переменных, невозможна. Ситуация возникновения чистой мультиколлинеарности из-за добавления в модель избыточного количества фиктивных переменных называется ловушкой фиктивных переменных. Избежать этой ловушки легко: нужно добавлять в модель на одну переменную меньше, чем есть значений признака. То есть, если моделируемый признак принимает m возможных значений, то для его описания в уравнение следует добавить \(m - 1\) фиктивную переменную1.

Представим, что мы в нашем примере ограничились двумя фиктивными переменными, собрали данные о трех тысячах выпускников и, проведя необходимые расчеты, получили следующие оценки параметров:

\({{\widehat{Y}}_{i} = {\underset{(0,5)}{5,2} + \underset{(0,2)}{1,1}}}{X_{i} + \underset{(0,1)}{2,0}}{A_{i} + \underset{(0,2)}{3,0}}B_{i}\)

Как интерпретировать полученные оценки коэффициентов? Снова запишем модель для каждого типа выпускников отдельно:

вуз А (\({A_{i} = 1},{B_{i} = 0}\)): \(\widehat{Y_{i}} = {5,2 + {1,1 \ast X_{i}} + 2,0}\),

вуз В (\(A_{i} = 0\), \(B_{i} = 1\)): \(\widehat{Y_{i}} = {5,2 + {1,1 \ast X_{i}} + 3,0}\),

вуз С (\(A_{i} = 0\), \(B_{i} = 0\)):\(\widehat{Y_{i}} = {5,2 + {1,1 \ast X_{i}}}\).

Коэффициент при фиктивной переменной А, оценка которого равна 2, означает, что при прочих равных условиях выпускник вуза А зарабатывает на 2 доллара в час больше, чем выпускник вуза С. Важно помнить, что, когда мы интерпретируем коэффициент, мы должны не просто говорить, что кто-то зарабатывает больше, а указывать, по сравнению с кем больше. В данном случае фраза «выпускник вуза А в среднем получает на 2 доллара в час больше, чем выпускник вуза С» — это корректная фраза. А фраза «выпускник вуза А получает на 2 доллара больше, чем выпускники других вузов» — это некорректная фраза, так как в модели видно, что выпускник вуза А по сравнению с выпускниками вуза В получает не больше, а меньше.

Обычно в качестве базы для сравнения (или так называемой эталонной категории) выступает та категория, для которой мы не стали добавлять фиктивную переменную. В нашем примере эталонным университетом выступает вуз С (эталонным не в том смысле, что он самый хороший, а в том смысле, что с ним все сравнивается).

Еще раз подчеркнем, что подобная содержательная интерпретация коэффициентов осмыслена только в том случае, если эти коэффициенты статистически значимы. Если же они статистически не значимы, то у нас нет уверенности в том, что они отличаются от нуля, и это должно отразиться на наших выводах. Например, если бы в уравнении выше стандартная ошибка оценки коэффициента при переменной \(A_{i}\) была бы равна не 0,1, а 10,0, то расчетное значение соответствующей t-статистики оказалось бы равно 2,0/10,0=0,2, что меньше критического значения при любом разумном уровне значимости. Следовательно, мы не могли бы отвергнуть гипотезу о том, что \(\beta_{3} = 0\), и должны были бы заключить, что различия в заработных платах между выпускниками вузов А и С отсутствуют.


  1. Или добавить все m фиктивных переменных, но тогда не добавлять константу. Этот вариант менее удобен для содержательной интерпретации результатов, поэтому используется сравнительно редко.↩︎