На первый взгляд, если мы столкнулись с одним из вопросов, сформулированных в начале параграфа, мы можем легко обойтись тем инструментарием, который нам уже знаком: взять в качестве зависимой переменной бинарную переменную. В примере с заемщиками мы могли бы собрать данные про n индивидов, взявших кредит в банке, и в качестве зависимой переменной выбрать бинарную переменную, равную единице для тех, кто вернул долг, и нулю для тех, кто не вернул.
В такой модели мы можем считать, что вероятность наступления события (например, возвращения кредита) линейно зависит от некоторого фактора x (например, от заработной платы индивида). Тогда такую модель называют линейной моделью вероятности и записывают следующим образом:
\(p_{i} = P\left( y_{i} = 1 \right) = \beta_{1} + \beta_{2}x_{i},\)
где \(Y_{i}\) — переменная, которая равна единице, если событие наступило, и нулю в противном случае, \(x_{i}\) — фактор, влияющий на вероятность наступления данного события, а \(p_{i} = P\left( y_{i} = 1 \right)\) — вероятность того, что событие наступит.
Рассмотрим данную модель на примере влияния времени, затраченного на подготовку к зачету, на вероятность его успешной сдачи. Пусть\(y_{i}\) — переменная, которая равна единице, если \(i\)-й студент сдал зачет, и нулю в противном случае, \(x_{i}\) — время, затраченное на подготовку \(i\)-м студеном (в часах), а \(p_{i} = P\left( y_{i} = 1 \right)\) — вероятность того, что зачет будет сдан успешно.
Представим, что мы собрали данные о двух тысячах студентов, оценили параметры уравнения при помощи обычного МНК и получили следующие результаты (см. таблицу 10.1).
Таблица 10.1. Результаты оценки вероятности сдачи зачета при помощи линейной модели вероятности
Зависимая переменная: y | |||
---|---|---|---|
Коэффициент | Ст. ошибка | t-статистика | |
Константа | –0,30 | 0,05 | -6,00 |
x | 0,10 | 0,02 | 5,00 |
В соответствии с результатами оценивания из таблицы 10.1. можно записать уравнение для предсказанной вероятности сдачи зачета:
\(\widehat{p} = - 0,3 + 0,1x_{i}.\)
Это уравнение следует интерпретировать так: если x увеличивается на единицу, то вероятность наступления события увеличивается на 0.1. То есть один дополнительный час подготовки увеличивает вероятность сдать зачет на 0,1 (на 10 процентных пунктов). Скажем, если студент потратил на подготовку 9 часов, то вероятность сдать зачет будет равна
\(\widehat{p} = - 0,3 + 0,1*9 = 0,6\)
На практике линейная модель вероятности используется сравнительно редко, так как обладает недостатками. Главный из них — сложности с интерпретацией результатов: в такой модели предсказанные значения вероятности могут быть отрицательными или превышать единицу, что заведомо не соответствует действительности. В нашем примере, если \(x = 2\), то \(\widehat{p} = - 0,1 < 0\), а если \(x = 20\), то \(\widehat{p} = 1,7 > 1\).
Кроме того, нереалистичным часто выглядит и предположение о том, что вероятность успеха зависит от объясняющей переменной линейно. Вряд ли увеличение времени подготовки с 20 до 30 часов должно приводить к такому же изменению вероятности сдачи зачета, как и увеличение с 1000 до 1010 часов.
Чтобы преодолеть эту проблему, в прикладных исследованиях вместо линейной модели вероятности обычно используют одну из двух альтернатив: логит-модель или пробит-модель. Мы рассмотрим их в последующих параграфах этой главы.