Учебник+

4.4. Обобщающий пример

Скрипт в R для этого примера

Файл с данными для этого примера.

В заключение этой главы рассмотрим пример, позволяющий обобщить всё, что мы в ней выяснили.

Пример 4.4. Цена коттеджа

В файле Cottage.xlsx имеются следующие данные о двух сотнях коттеджей:

living_area — жилая площадь коттеджа, м2;

total_area — общая площадь коттеджа, м2;

land — площадь участка, на котором расположен коттедж, сотки;

dist — расстояние от города до участка с коттеджем, км;

lake — фиктивная переменная, равная единице для коттеджей, расположенных на берегу естественного водоема: реки или озера.

price — цена коттеджа, млн руб.

Мы не будем переходить сразу к построению моделей с этой переменной, а начнем с предварительного анализа данных. В таблицах 4.2 и 4.3 представлены описательные статистики для анализируемых переменных.

Из таблицы 4.2 видно, например, что общая площадь коттеджей в нашей выборке изменяется от 54 до 175 квадратных метров, а средняя цена коттеджа с участком, на котором он расположен, равна 16,6 миллионов рублей. Среднее значение переменной lake, равное 0,055, говорит о том, что 5,5% коттеджей в выборке расположены непосредственно рядом с водоемом.

Таблица 4.3 позволяет заключить, что знаки коэффициентов корреляции между ценой коттеджа и прочими факторами соответствуют нашим ожиданиям: цена коттеджа положительно коррелирована с его площадью (как жилой, так и общей), с площадью участка и с близостью к водоему. Между ценой коттеджа и расстоянием от него до города, напротив, наблюдается отрицательная корреляция.

Таблица 4.2. Описательные статистики для всех переменных

Переменная Среднее Медиана S.D. Min Max
living_area 89,8 92,0 28,7 41,0 140,0
total_area 113,0 115,0 29,7 54,0 175,0
land 24,6 24,0 8,96 10,0 40,0
dist 60,9 58,5 27,9 10,0 109,0
lake 0,055 0,000 0,229 0,000 1,000
price 16,6 13,0 14,2 2,00 99,0

Таблица 4.3. Матрица парных коэффициентов корреляции

living_area total_area land dist lake price  
1,000 0,963 -0,069 -0,192 -0,006 0,379 living_area
  1,000 -0,083 -0,187 -0,018 0,380 total_area
    1,000 -0,061 0,003 0,076 land
      1,000 0,090 -0,293 dist
        1,000 0,471 lake
          1,000 price

Ещё одно важное наблюдение, которое можно сделать из таблицы 4.3: жилая площадь и общая площадь коттеджа сильно коррелированы, что может говорить о мультиколлинеарности, которая, скорее всего, возникнет в модели с обеими этими переменными. Убедимся в этом, построив модель для цены, включающую две эти переменные, площадь участка и расстояние до города.

Результаты обработки эконометрическим пакетом представлены в таблице 4.4. Мы видим, что ряд переменных, которые в соответствии с соображениями здравого смысла должны влиять на цену коттеджа, оказались незначимыми. Проверим наше предположение о мультиколлинеарности, сформулированное абзацем выше, вычислив коэффициенты VIF для представленной модели. Значения коэффициентов VIF для переменных living_area, total_area, land и dist составляют, соответственно, 13,616, 13,820, 1,015, 1,045. Первые два из них больше 10, что является дополнительным аргументов в пользу сильной мультиколлинеарности. Попробуем решить эту проблему, оставив в нашей модели только одну из двух площадей, например, общую. Новая модель представлена в таблице 4.5. Для неё все коэффициенты VIF меньше 10, так что существенной мультиколлинеарности в ней нет. Отметим, что это хорошо сказалось на точности оценивания коэффициента при переменной total_area: его стандартная ошибка уменьшилась, и он оказался значимым на однопроцентном уровне (о чем свидетельствует P-значение, которое существенно меньше 0,01). Обратите внимание, что по критерию исправленного R-квадрата новая модель также стала немного лучше: этот коэффициент увеличился с 0,188 до 0,191.

Таблица 4.4. Результаты оценивания модели №1 (линейной)

Модель 1: МНК, использованы наблюдения 1-200

Зависимая переменная: price

  Коэффициент Ст. ошибка t-статистика P-значение  
const 2,25967 5,65823 0,3994 0,6901  
living_area 0,0652513 0,117412 0,5557 0,5790  
total_area 0,104345 0,113172 0,9220 0,3577  
land 0,141501 0,101732 1,391 0,1658  
dist −0,112346 0,0331773 −3,386 0,0009 ***
Сумма кв. остатков 31797,57   Ст. ошибка модели 12,76967
R-квадрат 0,204604   Испр. R-квадрат 0,188288
F(4, 195) 12,54020   Р-значение (F) 4,25e-09

Таблица 4.5. Результаты оценивания модели №2 (линейной)

Модель 2: МНК, использованы наблюдения 1-200

Зависимая переменная: price

  Коэффициент Ст. ошибка t-статистика P-значение  
const 1,26480 5,35810 0,2361 0,8136  
total_area 0,164814 0,0310774 5,303 <0,0001 ***
land 0,143690 0,101477 1,416 0,1584  
dist −0,113168 0,0330858 −3,420 0,0008 ***
Сумма кв. остатков 31847,94   Ст. ошибка модели 12,74714
R-квадрат 0,203344   Испр. R-квадрат 0,191150
F(3, 196) 16,67612   Р-значение (F) 1,09e-09

Запишем полученную модель в виде уравнения:

\({{\widehat{\mathit{price}}}_{i} = {\underset{(5,36)}{1,26} + \underset{(0,03)}{0,16}}}{{\mathit{total}_{\mathit{area}}}_{i} + \underset{(0,10)}{0,14}}{\mathit{land}_{i} - \underset{(0,03)}{0,11}}\mathit{dist}_{i}\)

Как можно интерпретировать полученные результаты? Увеличение площади коттеджа на один квадратный метр увеличивает его цену в среднем при прочих равных условиях на 0,16 млн рублей. Каждый дополнительный километр расстояния до города в среднем при прочих равных условиях снижает цену коттеджа на 0,11 млн рублей.

Коэффициент при переменной land в данном случае является статистически незначимым, так что его интерпретировать смысла нет (так как нет уверенности в том, что он отличен от нуля). Как объяснить подобное наблюдение? Возможно, конечно, дело в том, что площадь участка не слишком важна для цены коттеджа, а возможно, спецификация модели пока не совершенна. Попробуем проанализировать нелинейную спецификацию. В таблице 4.6 представлены результаты оценки логарифмической модели с тем же самым набором переменных.

Таблица 4.6. Результаты оценивания модели №3 (логарифмической)

Модель 3: МНК, использованы наблюдения 1-200

Зависимая переменная: l_price

  Коэффициент Ст. ошибка t-статистика P-значение  
const −1,66295 0,945301 −1,759 0,0801 *
l_total_area 1,04244 0,157187 6,632 <0,0001 ***
l_land 0,265954 0,109011 2,440 0,0156 **
l_dist −0,383089 0,0750266 −5,106 <0,0001 ***
Сумма кв. остатков 72,16836   Ст. ошибка модели 0,606800
R-квадрат 0,315417   Испр. R-квадрат 0,304939
F(3, 196) 30,10192   Р-значение (F) 4,74e-16

Отметим, что в новой модели коэффициент при переменной land является статистически значимым при уровне значимости 5%, так как соответствующее P-значение меньше пяти сотых. Коэффициенты при двух остальных регрессорах значимы на однопроцентном уровне.

Запишем полученную модель в виде уравнения:

\({{\widehat{\ln\mathit{price}}}_{i} = {{- \underset{(0,95)}{1,66}} + 1}},\underset{(0,16)}{04}{{\ln\mathit{total}_{\mathit{area}}}_{i} + \underset{(0,11)}{0,27}}\ln{\mathit{land}_{i} - \underset{(0,08)}{0,38}}{\ln\mathit{dist}}_{i}\)

Поскольку теперь модель является логарифмической, то интерпретировать результаты можно так: увеличение общей площади коттеджа на 1% увеличивает её цену в среднем при прочих равных тоже примерно на 1%. Однопроцентное увеличение площади участка, в свою очередь, соответствует увеличению цены примерно на 0,3%. Наконец, увеличение расстояния от коттеджа до города на 1% снижает цену коттеджа на 0,4%.

Обратимся теперь к влиянию на цену коттеджа его близости к водоему. Для начала воспользуемся тестом Чоу, чтобы проверить гипотезу о том, что близость к водоему не приводит к структурному сдвигу в модели для цены. В нашем случае для этого требуется добавить в рассматриваемую модель одну фиктивную переменную сдвига (переменную lake) и три фиктивных переменных наклона (три произведения lake*total_area, lake*land, lake*dist), а затем проверить гипотезу о том, что коэффициенты при всех этих переменных одновременно равны нулю (для этого будем использовать обычный тест на сравнение «короткой» и «длинной» регрессий). Это приводит к следующим результатам:

Тест Чоу для структурных изменений в точке lake

F(4, 192) = 11,487; р-значение 0,000

Поскольку p-значение теста Чоу меньше одной сотой, при уровне значимости 1% можно заключить, что структурный сдвиг в данных присутствует, и близость к водоему влияет на цену коттеджа. Рассмотрим несколько спецификаций, учитывающих это влияние. Начнем с модели, включающей переменную сдвига (см. таблицу 4.7).

Таблица 4.7. Результаты оценивания модели №4

Модель 4: МНК, использованы наблюдения 1-200

Зависимая переменная: l_price

  Коэффициент Ст. ошибка t-статистика P-значение  
const −1,54847 0,863024 −1,794 0,0743 *
l_total_area 1,03798 0,143476 7,235 <0,0001 ***
l_land 0,260242 0,0995056 2,615 0,0096 ***
l_dist −0,417305 0,0686934 −6,075 <0,0001 ***
lake 1,09338 0,172327 6,345 <0,0001 ***
Сумма кв. остатков 59,81914   Ст. ошибка модели 0,553864
R-квадрат 0,432561   Испр. R-квадрат 0,420921
F(4, 195) 37,16229   Р-значение (F) 4,39e-23

Отметим, что в новой модели все переменные статистически значимы при уровне значимости 1%. В том числе добавленная нами фиктивная переменная lake. Так как эта переменная входит в уравнение линейно, а зависимая переменная — под логарифмом, то для интерпретации результатов нам потребуется воспользоваться формулой для логарифмически-линейной модели, которую мы получили в предыдущем параграфе. В соответствии с ней можно заключить, что в среднем при прочих равных условиях коттеджи, расположенные рядом с водоемом, дороже остальных коттеджей на

\({\left( {e^{1,09} - 1} \right) \ast 100}{\text{%} = 197}\text{%}.\)

Получается, что в нашей выборке коттеджи рядом с водоемом почти в три раза дороже коттеджей, расположенных не рядом с ним (при условии равенства всех прочих характеристик). Альтернативная (и, возможно, более реалистичная гипотеза) состоит в том, что прибавка к цене коттеджа за близость к водоему не является фиксированной, а зависит от его площади. Это приводит нас к спецификации с фиктивной переменной наклона, представленной в таблице 4.8.

Таблица 4.8. Результаты оценивания модели №5

Модель 5: МНК, использованы наблюдения 1-200

Зависимая переменная: l_price

  Коэффициент Ст. ошибка t-статистика P-значение  
const −1,49135 0,863459 −1,727 0,0857 *
l_total_area 1,02785 0,143526 7,161 <0,0001 ***
l_land 0,257921 0,0995325 2,591 0,0103 **
l_dist −0,417855 0,0687166 −6,081 <0,0001 ***
lake*l_total_area 0,232968 0,0367676 6,336 <0,0001 ***
Сумма кв. остатков 59,84676   Ст. ошибка модели 0,553991
R-квадрат 0,432299   Испр. R-квадрат 0,420654
F(4, 195) 37,12264   Р-значение (F) 4,59e-23

Записав эту модель в виде уравнения, получим следующий результат:

\({{\widehat{\ln\mathit{price}}}_{i} = {{- \underset{(0,86)}{1,49}} + 1}},\underset{(0,14)}{03}{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + \underset{(0,10)}{0,26}}\ln{\mathit{land}_{i} - \underset{(0,07)}{0,42}}{{\ln\mathit{dist}}_{i} + 0},\underset{(0,04)}{23}\mathit{lak}{e_{i} \ast {\ln{\mathit{tota}l_{\mathit{area}}}}_{i}}\)

Чтобы понять, как близость к водоему влияет на цену коттеджа в данном случае, воспользуемся уже знакомым нам приемом: выпишем уравнение отдельно для коттеджей, расположенных не рядом с водоемом (то есть для тех наблюдений, где переменная lake равна нулю), и для коттеджей, расположенных рядом с водоемом (переменная lake равна единице).

Случай \(\mathit{lak}{e_{i} = 0}\):

\({{\widehat{\ln\mathit{price}}}_{i} = {{- 1,49} + 1}},03{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + 0,26}\ln{\mathit{land}_{i} - 0,42}{\ln\mathit{dist}}_{i}\)

Случай \(\mathit{lak}{e_{i} = 1}\):

\({{\widehat{\ln\mathit{price}}}_{i} = {{- 1,49} + 1}},26{{\ln{\mathit{tota}l_{\mathit{area}}}}_{i} + 0,26}\ln{\mathit{land}_{i} - 0,42}{\ln\mathit{dist}}_{i}\)

Таким образом, для коттеджей, расположенных не рядом с водоемом, один дополнительный процент площади увеличивает цену на 1,03%, а для коттеджей, расположенных рядом с водоемом, — аж на 1,26%. Иными словами, для коттеджей рядом с водой эластичность цены по площади больше на 0,23.

Проверим корректность спецификации последней рассмотренной модели при помощи теста Рамсея. Соответствующие результаты представлены в таблице 4.9. Обратите внимание, что в соответствии с процедурой теста в уравнение для модели 5 добавлены квадраты и кубы зависимой переменной. Гипотеза о том, что коэффициенты при этих переменных равны нулю, не отвергается (это видно из того, что указанное внизу таблицы p-значение=0,568>0,05). Поэтому гипотеза о том, что предложенная спецификация корректна, не отвергается.

Таблица 4.9. Результаты теста Рамсея для модели №5

Вспомогательная регрессия для теста Рамсея
МНК, использованы наблюдения 1-200
Зависимая переменная: l_price

                     Коэффициент  Ст. ошибка  t-статистика  P-значение
  --------------------------------------------------------------------
  const              −4,53589      7,39461      −0,6134       0,5403  
  l_total_area        2,43723      3,24327       0,7515       0,4533  
  l_land              0,606548     0,815676      0,7436       0,4580  
  l_dist             −0,975025     1,33506      −0,7303       0,4661  
  lake_l*total_area   0,522222     0,737288      0,7083       0,4796  
  yhat^2             −0,624421     1,17952      −0,5294       0,5971  
  yhat^3              0,0906579    0,143396      0,6322       0,5280  

Тестовая статистика: F = 0,567765,
р-значение = P(F(2,193) > 0,567765) = 0,568