Вероятность наступления события в логит-модели описывается функцией:
\(P\left( y_{i} = 1 \right) = F\left( z_{i} \right) = \frac{1}{1 + e^{- (\beta_{1} + \beta_{2}x_{i})}}\)
Следовательно, вероятность ненаступления события имеет вид:
\(P\left( y_{i} = 0 \right) = 1 - P\left( y_{i} = 1 \right) =\)
\(= 1 - F\left( z_{i} \right) = 1 - \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}}\)
С учетом этих соображений можем записать функцию правдоподобия:
\(L\left( y_{1},\ldots,y_{n} \right) = \prod_{y_{i} = 1}^{}{P\left( y_{i} = 1 \right)}*\prod_{y_{i} = 0}^{}{P\left( y_{i} = 0 \right)} =\)
\(= \prod_{y_{i} = 1}^{}\frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}}*\prod_{y_{i} = 0}^{}\left( 1 - \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}} \right) =\)
\(= \prod_{i}^{}{\left( \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}} \right)^{y_{i}}*\left( 1 - \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}} \right)^{1 - y_{i}}}\)
Логарифмируя это выражение, получаем логарифм функции правдоподобия:
\(\ln{L\left( y_{1},\ldots,y_{n} \right)} =\)
\(= \sum_{i = 1}^{n}y_{i}*\ln\frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}} + \sum_{i = 1}^{n}{\left( 1 - y_{i} \right)*\ln\left( 1 - \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}x_{i} \right)}} \right)}\)
Далее для получения оценок параметров достаточно вычислить производные по \(\beta_{1}\) и \(\beta_{2}\) и приравнять их к нулю. Решение соответствующей системы относительно неизвестных значений параметров и приводит к получению необходимых оценок \(\widehat{\beta_{1}}\) и \(\widehat{\beta_{2}}\).
Так как данная система является нелинейной, у неё может не быть аналитического решения, поэтому не получится (подобно случаю применения МНК) записать формулы оценок коэффициентов в общем виде. Эконометрические пакеты осуществляют решение системы не аналитически, а численными методами. Функция правдоподобия будет выпуклой вверх, поэтому в найденной точке будет достигаться её максимум.
В силу общих свойств метода максимального правдоподобия, если спецификация модели верна, то полученные ММП-оценки параметров будут состоятельными и асимптотически нормальными. Последнее свойство позволяет тестировать гипотезы по поводу отдельных коэффициентов в логит-модели стандартным образом: вычисляя отношение оценки коэффициента к его стандартной ошибке и используя тот факт, что это отношение имеет стандартное нормальное распределение (см. пример 10.1).
Тестировать гипотезы по поводу выполнения нескольких ограничений (например, для сравнения «короткой» и «длинной» регрессий) можно при помощи теста отношения правдоподобия (likelihood ratio test). Для этого следует оценить параметры модели без ограничений и модели с ограничением и вычислить следующее расчетное значение тестовой статистики:
\(LR = - 2\left( \ln L_{R} - \ln L_{\text{UR}} \right).\)
Здесь \(\ln L_{\text{UR}}\) — логарифм максимального значения эмпирической функции правдоподобия в регрессии без ограничений;
\(\ln L_{R}\) — логарифм максимального значения эмпирической функции правдоподобия в регрессии с ограничениями.
Если верна нулевая гипотеза, то эта статистика имеет асимптотическое распределение \(\chi^{2}(q)\), где q — число ограничений.
В этом и предыдущем параграфах мы рассматривали случай анализа парной взаимосвязи. В действительности на вероятность наступления того или иного события могут влиять сразу много факторов.
В этом случае логит-модель оценивается и интерпретируется аналогичным образом с той лишь разницей, что теперь \(z_{i}\) зависит не от единственной переменной, а от произвольного их количества:
\(P\left( Y_{i} = 1 \right) = F\left( z_{i} \right) = \frac{1}{1 + e^{- z_{i}}} = \frac{1}{1 + e^{- \left( \beta_{1} + \beta_{2}*{x_{i}}^{(2)} + \ldots + \beta_{k}*{x_{i}}^{(k)} \right)}},\)
\(z_{i} = \beta_{1} + \beta_{2}*{x_{i}}^{(2)} + \ldots + \beta_{k}*{x_{i}}^{(k)}\)
Так как параметры логит-модели оцениваются не методом наименьших квадратов, то стандартный коэффициент R-квадрат в данном случае неприменим. Зато можно использовать для анализа степени соответствия модели данным некоторые специфические именно для моделей бинарного выбора характеристики:
-
Доля правильно предсказанных исходов. При этом в стандартном случае, если предсказанная вероятность наступления события не меньше 0,5 (\(\widehat{P}\left( y_{i} = 1 \right) \geq 0,5\)), то предсказанным исходом считается наступление события. Если же соответствующая вероятность меньше половины, то предсказанным исходом считается ненаступление события. Естественно, более предпочтительной является модель, которая лучше предсказывает исходы.
-
Коэффициент корреляции между исходами и предсказанными вероятностями.
-
Коэффициент псевдо-\(R^{2}\), называемый также R-квадрат МакФаддена. Он определяется следующим образом:
pseudo-R2\(= 1 - \frac{\ln(L)}{\ln(L_{0})}\)
\(\ln(L)\) — логарифм функции правдоподобия в модели, для которой мы вычисляем pseudo-R2. \(\ln(L_{0})\) — логарифм функции правдоподобия в модели, содержащей только константу.
Подобно обычному коэффициенту R-квадрат этот коэффициент лежит в пределах от нуля до единицы (и равен нулю для модели, включающей только константу). Чем лучше модель соответствует данным, тем ближе к единице он окажется.
Пример 10.1. Вероятность приёма на работу
100 кандидатов проходили собеседование о приеме на работу в крупную компанию. Известны следующие данные о кандидатах:
x — стаж работы кандидата (в годах),
gender — бинарная переменная, равная единице для кандидатов-мужчин и равная нулю для кандидатов-женщин,
black — бинарная переменная, равная единице для кандидатов-афро-американцев и нулю для всех остальных кандидатов,
y — бинарная переменная, равная единице для тех кандидатов, которые были приняты на работу.
Результаты оценивания трех моделей на основе доступных данных представлены в таблицах ниже.
(а) Заполните пропуски в таблице 1, вычислив значение коэффициента R-квадрат МакФаддена для всех моделей.
(б) Для модели №3 проверьте значимость уравнения в целом, используя тест отношения правдоподобия.
(в) Сравните модель №2 и модель №3, используя тест отношения правдоподобия.
(г) Для модели №2 интерпретируйте полученный результат, вычислив предельный эффект стажа работы для среднего по выборке работника.
(д) Для модели №2 интерпретируйте полученный результат, вычислив средний предельный эффект стажа работы.
Таблица 10.3. Модели вероятности принятия кандидата на работу
Зависимая переменная: y Метод оценивания: логит-модель |
|||
---|---|---|---|
Модель 1 | Модель 2 | Модель 3 | |
X | — |
0,49 (0,03) |
0,49 (0,15) |
Gender | — | — |
0,15 (0,43) |
Black | — | — |
–0,32 (0,43) |
Constant |
–0,32 (0,20) |
−1,02 (0,15) |
−0,90 (0,42) |
Логарифм функции правдоподобия | –68,0 | −62,0 | −61,0 |
R-квадрат МакФаддена |
Таблица 10.3.б. Стаж работы и результаты отбора кандидатов
Стаж работника |
Количество кандидатов с таким стажем работы | Количество принятых на работу |
---|---|---|
0 лет | 40 | 10 |
1 год | 25 | 10 |
2 года | 10 | 5 |
3 года | 10 | 6 |
4 года | 10 | 7 |
5 лет | 5 | 4 |
Решение:
(а) Для каждой из моделей вычислим pseudo-R2:
Модель 1: pseudo-R2\(= 1 - \frac{\ln\left( L_{0} \right)}{\ln\left( L_{0} \right)} = 0\)
Модель 2: pseudo-R2\(= 1 - \frac{62}{68} = 0,09\)
Модель 3: pseudo-R2\(= 1 - \frac{61}{68} = 0,10\)
(б) Для тестирования значимости уравнения в целом нам нужно проверить гипотезу о том, что коэффициенты при всех трех переменных (стаж, пол и раса кандидата) равны нулю. Для этого нам нужно знать значение логарифма функции правдоподобия в модели, в которой нет всех трех этих переменных, то есть в модели, в которую включена только константа.
\(\text{LR} = - 2\left( \ln L_{R} - \ln L_{\text{UR}} \right) = - 2( - 68 + 61) = 14\)
Критическое значение тестовой статистики Хи-квадрат(3) при уровне значимости 5% равно 7,81. Расчетное значение больше критического, следовательно, гипотеза о равенстве нулю коэффициентов при всех переменных отклоняется. Делаем вывод о том, что уравнение в целом значимо.
(в) \(\text{LR} = - 2\left( \ln L_{R} - \ln L_{\text{UR}} \right) = - 2( - 62 + 61) = 2\)
Критическое значение тестовой статистики Хи-квадрат(2) при уровне значимости 5% равно 5,99. Расчетное значение меньше критического, следовательно, гипотеза о равенстве нулю коэффициентов при добавленных переменных не отвергается. Делаем вывод о том, что добавление переменных не оправдано. Модель №2 является предпочтительной.
(г) Для начала отметим, что коэффициент при анализируемой переменной статистически значим при уровне значимости 5% (0,49/0,03>1,96). Средний по выборке стаж работника составляет:
\(\overline{x} = \frac{40*0 + 25*1 + 10*2 + 10*3 + 10*4 + 5*5}{100} = 1,4\)
Предельный эффект в этой точке равен:
\(\frac{d\widehat{p}}{\text{dx}} = \frac{e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)}}{\left( 1 + e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)} \right)^{2}}*{\widehat{\beta}}_{2} = \frac{e^{- ( - 1,02 + 0,49*1,4)}}{\left( 1 + e^{- ( - 1,02 + 0,49*1,4)} \right)^{2}}*0,49 = 0,12\)
Таким образом, для среднего по выборке кандидата один дополнительный год опыта работы увеличивает вероятность оказаться нанятым на работу примерно на 12 процентных пунктов.
(д) Вычисляем предельный эффект для каждого стажа работы, который есть в выборке:
\(x = 0\), \(\frac{d\widehat{p}}{\text{dx}} = \frac{e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)}}{\left( 1 + e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)} \right)^{2}}*{\widehat{\beta}}_{2} = \frac{e^{- ( - 1,02 + 0,49*0)}}{\left( 1 + e^{- ( - 1,02 + 0,49*0)} \right)^{2}}*0,49 = 0,095\)
\(x = 1\), \(\frac{d\widehat{p}}{\text{dx}} = \frac{e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)}}{\left( 1 + e^{- \left( {\widehat{\beta}}_{1} + {\widehat{\beta}}_{2}x \right)} \right)^{2}}*{\widehat{\beta}}_{2} = \frac{e^{- ( - 1,02 + 0,49*1)}}{\left( 1 + e^{- ( - 1,02 + 0,49*1)} \right)^{2}}*0,49 = 0,114\)
\(x = 2\), \(\frac{d\widehat{p}}{\text{dx}} = 0,122\)
\(x = 3\), \(\frac{d\widehat{p}}{\text{dx}} = 0,117\)
\(x = 4\), \(\frac{d\widehat{p}}{\text{dx}} = 0,099\)
\(x = 5\), \(\frac{d\widehat{p}}{\text{dx}} = 0,076\)
Вычисляем средний предельный эффект:
\(\frac{40*0,095 + 25*0,114 + 10*0,122 + 10*0,117 + 10*0,099 + 5*0,076}{100} =\)
\(= 0,10\)
Таким образом, средний предельный эффект стажа работы составляет примерно 10 процентных пунктов.