Файл с данными для этого примера.
В заключение этой главы рассмотрим пример, позволяющий обобщить всё, что мы в ней выяснили.
Пример 4.4. Цена коттеджа
В файле Cottage.xlsx имеются следующие данные о двух сотнях коттеджей:
living_area — жилая площадь коттеджа, м2;
total_area — общая площадь коттеджа, м2;
land — площадь участка, на котором расположен коттедж, сотки;
dist — расстояние от города до участка с коттеджем, км;
lake — фиктивная переменная, равная единице для коттеджей, расположенных на берегу естественного водоема: реки или озера.
price — цена коттеджа, млн руб.
Мы не будем переходить сразу к построению моделей с этой переменной, а начнем с предварительного анализа данных. В таблицах 4.2 и 4.3 представлены описательные статистики для анализируемых переменных.
Из таблицы 4.2 видно, например, что общая площадь коттеджей в нашей выборке изменяется от 54 до 175 квадратных метров, а средняя цена коттеджа с участком, на котором он расположен, равна 16,6 миллионов рублей. Среднее значение переменной lake, равное 0,055, говорит о том, что 5,5% коттеджей в выборке расположены непосредственно рядом с водоемом.
Таблица 4.3 позволяет заключить, что знаки коэффициентов корреляции между ценой коттеджа и прочими факторами соответствуют нашим ожиданиям: цена коттеджа положительно коррелирована с его площадью (как жилой, так и общей), с площадью участка и с близостью к водоему. Между ценой коттеджа и расстоянием от него до города, напротив, наблюдается отрицательная корреляция.
Таблица 4.2. Описательные статистики для всех переменных
Переменная | Среднее | Медиана | S.D. | Min | Max |
living_area | 89,8 | 92,0 | 28,7 | 41,0 | 140,0 |
total_area | 113,0 | 115,0 | 29,7 | 54,0 | 175,0 |
land | 24,6 | 24,0 | 8,96 | 10,0 | 40,0 |
dist | 60,9 | 58,5 | 27,9 | 10,0 | 109,0 |
lake | 0,055 | 0,000 | 0,229 | 0,000 | 1,000 |
price | 16,6 | 13,0 | 14,2 | 2,00 | 99,0 |
Таблица 4.3. Матрица парных коэффициентов корреляции
living_area | total_area | land | dist | lake | price | |
1,000 | 0,963 | -0,069 | -0,192 | -0,006 | 0,379 | living_area |
1,000 | -0,083 | -0,187 | -0,018 | 0,380 | total_area | |
1,000 | -0,061 | 0,003 | 0,076 | land | ||
1,000 | 0,090 | -0,293 | dist | |||
1,000 | 0,471 | lake | ||||
1,000 | price |
Ещё одно важное наблюдение, которое можно сделать из таблицы 4.3: жилая площадь и общая площадь коттеджа сильно коррелированы, что может говорить о мультиколлинеарности, которая, скорее всего, возникнет в модели с обеими этими переменными. Убедимся в этом, построив модель для цены, включающую две эти переменные, площадь участка и расстояние до города.
Результаты обработки эконометрическим пакетом представлены в таблице 4.4. Мы видим, что ряд переменных, которые в соответствии с соображениями здравого смысла должны влиять на цену коттеджа, оказались незначимыми. Проверим наше предположение о мультиколлинеарности, сформулированное абзацем выше, вычислив коэффициенты VIF для представленной модели. Значения коэффициентов VIF для переменных living_area, total_area, land и dist составляют, соответственно, 13,616, 13,820, 1,015, 1,045. Первые два из них больше 10, что является дополнительным аргументов в пользу сильной мультиколлинеарности. Попробуем решить эту проблему, оставив в нашей модели только одну из двух площадей, например, общую. Новая модель представлена в таблице 4.5. Для неё все коэффициенты VIF меньше 10, так что существенной мультиколлинеарности в ней нет. Отметим, что это хорошо сказалось на точности оценивания коэффициента при переменной total_area: его стандартная ошибка уменьшилась, и он оказался значимым на однопроцентном уровне (о чем свидетельствует P-значение, которое существенно меньше 0,01). Обратите внимание, что по критерию исправленного R-квадрата новая модель также стала немного лучше: этот коэффициент увеличился с 0,188 до 0,191.
Таблица 4.4. Результаты оценивания модели №1 (линейной)
Модель 1: МНК, использованы наблюдения 1-200
Зависимая переменная: price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 2,25967 | 5,65823 | 0,3994 | 0,6901 | |
living_area | 0,0652513 | 0,117412 | 0,5557 | 0,5790 | |
total_area | 0,104345 | 0,113172 | 0,9220 | 0,3577 | |
land | 0,141501 | 0,101732 | 1,391 | 0,1658 | |
dist | −0,112346 | 0,0331773 | −3,386 | 0,0009 | *** |
Сумма кв. остатков | 31797,57 | Ст. ошибка модели | 12,76967 | |
R-квадрат | 0,204604 | Испр. R-квадрат | 0,188288 | |
F(4, 195) | 12,54020 | Р-значение (F) | 4,25e-09 |
Таблица 4.5. Результаты оценивания модели №2 (линейной)
Модель 2: МНК, использованы наблюдения 1-200
Зависимая переменная: price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | 1,26480 | 5,35810 | 0,2361 | 0,8136 | |
total_area | 0,164814 | 0,0310774 | 5,303 | <0,0001 | *** |
land | 0,143690 | 0,101477 | 1,416 | 0,1584 | |
dist | −0,113168 | 0,0330858 | −3,420 | 0,0008 | *** |
Сумма кв. остатков | 31847,94 | Ст. ошибка модели | 12,74714 | |
R-квадрат | 0,203344 | Испр. R-квадрат | 0,191150 | |
F(3, 196) | 16,67612 | Р-значение (F) | 1,09e-09 |
Запишем полученную модель в виде уравнения:
\({{\widehat{\mathit{price}}}_{i} = {\underset{(5,36)}{1,26} + \underset{(0,03)}{0,16}}}{{\mathit{total}_{\mathit{area}}}_{i} + \underset{(0,10)}{0,14}}{\mathit{land}_{i} - \underset{(0,03)}{0,11}}\mathit{dist}_{i}\)
Как можно интерпретировать полученные результаты? Увеличение площади коттеджа на один квадратный метр увеличивает его цену в среднем при прочих равных условиях на 0,16 млн рублей. Каждый дополнительный километр расстояния до города в среднем при прочих равных условиях снижает цену коттеджа на 0,11 млн рублей.
Коэффициент при переменной land в данном случае является статистически незначимым, так что его интерпретировать смысла нет (так как нет уверенности в том, что он отличен от нуля). Как объяснить подобное наблюдение? Возможно, конечно, дело в том, что площадь участка не слишком важна для цены коттеджа, а возможно, спецификация модели пока не совершенна. Попробуем проанализировать нелинейную спецификацию. В таблице 4.6 представлены результаты оценки логарифмической модели с тем же самым набором переменных.
Таблица 4.6. Результаты оценивания модели №3 (логарифмической)
Модель 3: МНК, использованы наблюдения 1-200
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | −1,66295 | 0,945301 | −1,759 | 0,0801 | * |
l_total_area | 1,04244 | 0,157187 | 6,632 | <0,0001 | *** |
l_land | 0,265954 | 0,109011 | 2,440 | 0,0156 | ** |
l_dist | −0,383089 | 0,0750266 | −5,106 | <0,0001 | *** |
Сумма кв. остатков | 72,16836 | Ст. ошибка модели | 0,606800 | |
R-квадрат | 0,315417 | Испр. R-квадрат | 0,304939 | |
F(3, 196) | 30,10192 | Р-значение (F) | 4,74e-16 |
Отметим, что в новой модели коэффициент при переменной land является статистически значимым при уровне значимости 5%, так как соответствующее P-значение меньше пяти сотых. Коэффициенты при двух остальных регрессорах значимы на однопроцентном уровне.
Запишем полученную модель в виде уравнения:
\({{\widehat{\ln\mathit{price}}}_{i} = {{- \underset{(0,95)}{1,66}} + 1}},\underset{(0,16)}{04}{{\ln\mathit{total}_{\mathit{area}}}_{i} + \underset{(0,11)}{0,27}}\ln{\mathit{land}_{i} - \underset{(0,08)}{0,38}}{\ln\mathit{dist}}_{i}\)
Поскольку теперь модель является логарифмической, то интерпретировать результаты можно так: увеличение общей площади коттеджа на 1% увеличивает её цену в среднем при прочих равных тоже примерно на 1%. Однопроцентное увеличение площади участка, в свою очередь, соответствует увеличению цены примерно на 0,3%. Наконец, увеличение расстояния от коттеджа до города на 1% снижает цену коттеджа на 0,4%.
Обратимся теперь к влиянию на цену коттеджа его близости к водоему. Для начала воспользуемся тестом Чоу, чтобы проверить гипотезу о том, что близость к водоему не приводит к структурному сдвигу в модели для цены. В нашем случае для этого требуется добавить в рассматриваемую модель одну фиктивную переменную сдвига (переменную lake) и три фиктивных переменных наклона (три произведения lake*total_area, lake*land, lake*dist), а затем проверить гипотезу о том, что коэффициенты при всех этих переменных одновременно равны нулю (для этого будем использовать обычный тест на сравнение «короткой» и «длинной» регрессий). Это приводит к следующим результатам:
Тест Чоу для структурных изменений в точке lake
F(4, 192) = 11,487; р-значение 0,000
Поскольку p-значение теста Чоу меньше одной сотой, при уровне значимости 1% можно заключить, что структурный сдвиг в данных присутствует, и близость к водоему влияет на цену коттеджа. Рассмотрим несколько спецификаций, учитывающих это влияние. Начнем с модели, включающей переменную сдвига (см. таблицу 4.7).
Таблица 4.7. Результаты оценивания модели №4
Модель 4: МНК, использованы наблюдения 1-200
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | −1,54847 | 0,863024 | −1,794 | 0,0743 | * |
l_total_area | 1,03798 | 0,143476 | 7,235 | <0,0001 | *** |
l_land | 0,260242 | 0,0995056 | 2,615 | 0,0096 | *** |
l_dist | −0,417305 | 0,0686934 | −6,075 | <0,0001 | *** |
lake | 1,09338 | 0,172327 | 6,345 | <0,0001 | *** |
Сумма кв. остатков | 59,81914 | Ст. ошибка модели | 0,553864 | |
R-квадрат | 0,432561 | Испр. R-квадрат | 0,420921 | |
F(4, 195) | 37,16229 | Р-значение (F) | 4,39e-23 |
Отметим, что в новой модели все переменные статистически значимы при уровне значимости 1%. В том числе добавленная нами фиктивная переменная lake. Так как эта переменная входит в уравнение линейно, а зависимая переменная — под логарифмом, то для интерпретации результатов нам потребуется воспользоваться формулой для логарифмически-линейной модели, которую мы получили в предыдущем параграфе. В соответствии с ней можно заключить, что в среднем при прочих равных условиях коттеджи, расположенные рядом с водоемом, дороже остальных коттеджей на
\({\left( {e^{1,09} - 1} \right) \ast 100}{\text{%} = 197}\text{%}.\)
Получается, что в нашей выборке коттеджи рядом с водоемом почти в три раза дороже коттеджей, расположенных не рядом с ним (при условии равенства всех прочих характеристик). Альтернативная (и, возможно, более реалистичная гипотеза) состоит в том, что прибавка к цене коттеджа за близость к водоему не является фиксированной, а зависит от его площади. Это приводит нас к спецификации с фиктивной переменной наклона, представленной в таблице 4.8.
Таблица 4.8. Результаты оценивания модели №5
Модель 5: МНК, использованы наблюдения 1-200
Зависимая переменная: l_price
Коэффициент | Ст. ошибка | t-статистика | P-значение | ||
const | −1,49135 | 0,863459 | −1,727 | 0,0857 | * |
l_total_area | 1,02785 | 0,143526 | 7,161 | <0,0001 | *** |
l_land | 0,257921 | 0,0995325 | 2,591 | 0,0103 | ** |
l_dist | −0,417855 | 0,0687166 | −6,081 | <0,0001 | *** |
lake*l_total_area | 0,232968 | 0,0367676 | 6,336 | <0,0001 | *** |
Сумма кв. остатков | 59,84676 | Ст. ошибка модели | 0,553991 | |
R-квадрат | 0,432299 | Испр. R-квадрат | 0,420654 | |
F(4, 195) | 37,12264 | Р-значение (F) | 4,59e-23 |
Записав эту модель в виде уравнения, получим следующий результат:
\({{\widehat{\ln\mathit{price}}}_{i} = {{- \underset{(0,86)}{1,49}} + 1}},\underset{(0,14)}{03}{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + \underset{(0,10)}{0,26}}\ln{\mathit{land}_{i} - \underset{(0,07)}{0,42}}{{\ln\mathit{dist}}_{i} + 0},\underset{(0,04)}{23}\mathit{lak}{e_{i} \ast {\ln{\mathit{tota}l_{\mathit{area}}}}_{i}}\)
Чтобы понять, как близость к водоему влияет на цену коттеджа в данном случае, воспользуемся уже знакомым нам приемом: выпишем уравнение отдельно для коттеджей, расположенных не рядом с водоемом (то есть для тех наблюдений, где переменная lake равна нулю), и для коттеджей, расположенных рядом с водоемом (переменная lake равна единице).
Случай \(\mathit{lak}{e_{i} = 0}\):
\({{\widehat{\ln\mathit{price}}}_{i} = {{- 1,49} + 1}},03{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + 0,26}\ln{\mathit{land}_{i} - 0,42}{\ln\mathit{dist}}_{i}\)
Случай \(\mathit{lak}{e_{i} = 1}\):
\({{\widehat{\ln\mathit{price}}}_{i} = {{- 1,49} + 1}},26{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + 0,26}\ln{\mathit{land}_{i} - 0,42}{\ln\mathit{dist}}_{i}\)
Таким образом, для коттеджей, расположенных не рядом с водоемом, один дополнительный процент площади увеличивает цену на 1,03%, а для коттеджей, расположенных рядом с водоемом, — аж на 1,26%. Иными словами, для коттеджей рядом с водой эластичность цены по площади больше на 0,23.
Проверим корректность спецификации последней рассмотренной модели при помощи теста Рамсея. Соответствующие результаты представлены в таблице 4.9. Обратите внимание, что в соответствии с процедурой теста в уравнение для модели 5 добавлены квадраты и кубы зависимой переменной. Гипотеза о том, что коэффициенты при этих переменных равны нулю, не отвергается (это видно из того, что указанное внизу таблицы p-значение=0,568>0,05). Поэтому гипотеза о том, что предложенная спецификация корректна, не отвергается.
Таблица 4.9. Результаты теста Рамсея для модели №5
Вспомогательная регрессия для теста Рамсея МНК, использованы наблюдения 1-200 Зависимая переменная: l_price Коэффициент Ст. ошибка t-статистика P-значение -------------------------------------------------------------------- const −4,53589 7,39461 −0,6134 0,5403 l_total_area 2,43723 3,24327 0,7515 0,4533 l_land 0,606548 0,815676 0,7436 0,4580 l_dist −0,975025 1,33506 −0,7303 0,4661 lake_l*total_area 0,522222 0,737288 0,7083 0,4796 yhat^2 −0,624421 1,17952 −0,5294 0,5971 yhat^3 0,0906579 0,143396 0,6322 0,5280 Тестовая статистика: F = 0,567765, р-значение = P(F(2,193) > 0,567765) = 0,568