Научная статья на тему 'Особенности построения географически взвешенной регрессии для моделирования рынка недвижимости'

Особенности построения географически взвешенной регрессии для моделирования рынка недвижимости Текст научной статьи по специальности «Математика»

CC BY
351
90
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Балаш Ва, Балаш Ос, Харламов Ав

В статье рассматриваются методы учета пространственной неоднородности и пространственной корреляции при построении эконометрических моделей по региональным и территориальным данным на примере ценообразования на вторичном рынке жилья.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPECIFIC FEATURES OF AREA-ORIENTED REGRESSION FOR SIMULATION OF REAL ESTATE MARKET

The article considers the methods of spatial heteroginity and correlation while creating econometric models according to regional an d territorial data of secondhand housing market.

Текст научной работы на тему «Особенности построения географически взвешенной регрессии для моделирования рынка недвижимости»

/ ÄÖÄ /ÄÖExÄNEEÄ Ё Ё fNÖDÖ / Ä fÖÄ EÜ f UÄ IÄÖIÄU YEI f I /ЁЕЁ

УДК 347.214.2:330.4

TN TÄÄ i i TNÖE їTNÖDTÄ Г ЁВ ÄATÄDAÖ£xAN££ AQAÄ0Ä Г ГТЁ DАÄDÄNNЁЁ АЁВ 1 TÄÄËЁDTAAГЁß DUfeA ГАААЁ^Ё! TNÖЁ1

При эконометрическом моделировании явления, распространенного на большой территории, получают уравнение со средними значениями параметров по всей совокупности. Такая модель адекватна изучаемому процессу тогда, когда изменения данных носят умеренный характер, не имеют больших различий в отдельных областях и колебания случайны.

Классические методы регрессионного анализа позволяют построить модель по всей исследуемой территории. Однако если существуют различия по районам, то по модели можно сделать неверные выводы, и она не может быть использована для анализа. С другой стороны, если всю тер -риторию разделить на районы, то уравнения, построенные по ограниченному набору данных, могут также значительно отличаться от глобального уравнения и их коэффициенты будут смещенными.

Построим эконометрическую модель цен на недвижимость г Сарато -ва по данным о продаже однокомнатных квартир на вторичном рынке [1] в целом по городу. В качестве независимых переменных рассматривались: х1 - жилая площадь, м2; х2 - площадь кухни, м2 ; х3 - дополнительная площадь, м2; х4 - логарифм расстояния до центра, Іп(м); х5 - первый этаж;

последний этаж; х7 - дом малой этажности; х8

на или лоджии.

По 1 813 квартирам было построено глобальное уравнение по всему городу регрессии (в скобках указаны стандартные ошибки):

у = 1180,61 +13,04X! +10,38x2 +11,17 х3 -116,40х4-36,82х5 -28,19х6 -122,10 xy (1,04) (1,36) (0,79) (2,62) (5,70) (5,34) (10,99)

-30,43X8 + 20,88X9 +19,22x^ +16,87Хц .

(5,06) (5,03) (4,20) (5,30)

Коэффициент детерминации 0,7 показывает, что модель хорошо объясняет имеющиеся данные, все коэффициенты при переменных значимы.

Построенное уравнение элиминирует специфические особенности, присущие конкретному району Так, в глобальной модели было получено, что параметр «кирпичные дома» значим, но для центрального района, где подавляющее большинство домов кирпичные, этот параметр не значим. Такая же ситуация складывается в отношении состояния квартиры и наличия балкона или лоджии. Аналогичный результат получен для новых районов, застраиваемых преимущественно панельными домами. Может

Ä.Ä. Ääeä0,

ёТёоТд уёТ (Т ie+ä-пёёо íäöё, УдТоаппТд ёäöääдü ïдёёëääíТë ^оа^оёёё, NÄNYÖ

T.N. Ääëä0f

ёä íäёää ö уёТ(Т/ё+а-пёёо íäöё, äТöäíö ёä-öääдü айп0аё läöä-і äöёёё ё ё íö Тд і äöё-Тííüö öäöíТëТäёë, NäдäöТäпёёë ёíпöё-ööö ОТппёёпёТаТаТп0-ääдпöääííТäТ öТдäТ-аТ-уёТ íТ lё+äпёТäТ öíёääдпёöäöä

Ä.Ä. ÖäдëäïТä,

пöäд0ёë ïдäïТääää-öäëü ёäöääдü öäТдёё ääд Туö íТпöё ё гю0^ё-íüö ïдТöäппТä, Näдä-öТäпёёë äТпöääдпöää í-íüë ö íёääдпёöäö

пятиэтажка; х9 - кир

пичныи дом; х1П- в хорошем или отличном состоянии; х- наличии балко-

1 Статья подготовлена при финансовой поддержке Российского гуманитарно-

го фонда (проект 08-02-27209а/в).

ААЙ01'Ёе. 2008. № 5(24)

сказаться и обратный эффект: параметр, не значимый для всей глобальной модели, оказывается значимым для отдельных регионов.

Чтобы устранить эти недостатки, используют метод географически взвешенной регрессии.

При географическом подходе считают, что модель меняется по всей территории и ее параметры являются функциями координат:

У, = А(и, , V) + Xв(и,, V)'х к + Ъ ,

где (ц^¡) - координаты точки /.

Оценки коэффициентов модели вк(ЦV), к-

0

W:2

0 0

0

0

№ ■

Вычисление коэффициентов проводится для каждой точки і. В результате получают матрицу оценок параметров:

В =

во(Ці,^і)ві(Ці,^і)...вр(Ці,^і) ' в(Ц2, V2 )в(Ц2, V2)...вр(ц2, V2)

вЦ V )ві(ип уп )...рр (ип

■■ і, если (і,/) є А ;

№....

= 0 , если (/, /)і А ,

Такой подход еще называют способом движущегося фиксированного окна, а число Ь - полосой пропускания.

Использование дискретного подхода при определении весов является достаточно жестким ограничением. При этом получают самостоятельные модели для каждого региона. Как правило, влияние соседей умень -шается с увеличением расстояния, поэтому имеет смысл близким соседям придавать больший вес, чем дальним. Подход, в котором веса строятся с учетом расстояния, называют ядерным. Обычно применяют ядро Гаусса:

0, Р

вычисляются отдельно в каждой пространственной точке ¡. Пространственные данные - это показатели, меняющие свои характеристики в зависимости от их территориального распространения.

Оценки коэффициентов в точке , проводят методом наименьших квадратов. Для выявления местных особенностей учитывают влияние измерений в соседних точках, исходя из их расстояния к месту построения ,. Степень близости задается весом №... Вектор оценок коэффициентов для точки имеет вид:

в(и,,у) = (ХТ№(и,, V, )Х)-1 XTW(u¡,у )У , где № (и, ,У,) - диагональная матрица весовых коэффициентов размерности п х п:

- л (А ^2*

і - й//

2 1 Ь

В точке регрессии , вес равен единице, а при удалении быстро уменьшается.

Альтернативой гауссова подхода является использование ядра «би-квадрат»:

(

і- + 4

или «три-куб»:

і -

- Ьл 0,

3 V

иначе

В глобальном случае все веса равны единицам, матрица коэффициентов В состоит из одинаковых строк, оценки коэффициентов не меняются на всей территории.

Существуют следующие способы вычисления весовых коэффициентов. Если исследуемая территория разделена на районы, например по административному принципу то весовые коэффициенты для точек , и., принадлежащих одному району, равны единице и нулю, в противном случае:

Данное ядро обеспечивает непрерывное изменение веса в пределах полосы и нулевое значение за ее границей. Причем скорость убывания практически такая же, как и для гауссова ядра.

Приведенные методы не учитывают неравномерность распределения точек измерения. Если измерения проводились на равномерной решетке, то фиксированные ядра дают хороший результат. При неравномерной плотности распределения точек измерения желательно проводить расчет весов с учетом этой плотности. Это можно сделать помощью адаптивных ядер. Такое ядро можно получить, если рассчитывать вес через ранги, присваиваемые точкам . в соответствии с их удаленностью от точки регрессии

*

Ь

№ и = ехр| -

где А - район, в котором находится точка ,.

Если районы были сформированы исторически, то определяют веса с учетом расстояния между точками измерения. При этом задают предельно допустимую удаленность Ь, называемую фиксированной шириной окна. Вес равен единице, если расстояние между точками d.. не превосходит заданного расстояния Ь, и равен нулю в противном случае:

№= 1 , если d . < Ь ; №. = 0 , если d . > Ь .

Ближайшие соседи имеют нулевой ранг и, соответственно, вес, равный единице. При увеличении расстояния увеличивается ранг и уменьшается вес. Так как вычисление рангов проводится с учетом числа соседей, то полоса пропускания автоматически будет зависеть от скученности точек измерения.

Одной из проблем при использовании метода географически взвешенной регрессии является необходимость оптимального выбора нормирующих констант: ширины полосы пропускания, числа ближайших соседей, ограничения на сумму весов. Для выбора оптимальной матрицы используют различные критерии сравнения результатов моделирования.

Наиболее естественным подходом является применение метода наименьших квадратов. Так как оценки коэффициентов зависят от ширины полосы пропуска-

к

№ = і/

0

ния, то и прогнозные значения можно рассматривать как функцию параметра Ь. Оптимальное значение Ь вычисляется исходя из минимума величины:

г = £(У - У (Ь))2.

,=1

При данном подходе возникает проблема малых значений параметра. Если величина г будет близка к нулю, то в качестве оптимального значения этого параметра может быть выбрано нулевое.

Во избежание этого при построении оценок коэффициентов в местоположении саму точку или несколько ближайших исключают из рассмотрения. При этом ищется минимум функционала:

СУ = £(у - УФ,(Ь))2.

1=1

Рассмотрим применение географического подхода к моделированию цен на недвижимость г. Саратова.

Координаты объектов (квартир) были получены из географических координат широты и долготы некоторым масштабированием. Для построения весовой матрицы использовалась функция «три-куб». Оптимальное число ближайших соседей, дающее минимум функционала СУ, 295. Коэффициент детерминации для модели равен 0,8300.

Проанализируем значения полученных коэффициентов при каждом регрессоре. Результаты для коэффициента при регрессоре «жилая площадь» имеют следующий вид (рисунок).

Аналогично возможно построить диаграммы для других независимых переменных.

Все коэффициенты значимы на всей территории. В центральной части города сразу выделяется квад-

рат с дорогими квартирами, практически по 30 тыс. руб. за квадратный метр. Центр составляет некоторый район с квартирами около 20 тыс. руб., на окраине города - около 10 тыс. руб. Можно проследить дрейф убывающей цены от центра в направлении Ленинского района.

Анализируя значения коэффициентов при регрессоре «площадь кухни», можно выделить зоны, где высоко ценится метр кухни и зоны с дешевыми кухнями. Также существует район, где коэффициент оказался незначимым. Это можно объяснить типичностью застройки района, когда размеры кухни практически одинаковы и не являются определяющим параметрами в цене.

В самом центре коэффициент «расстояние до центра» не значим, как и в очень отдаленной части Заводского района. При некотором отдалении от центра его значение резко увеличивается, отрицательно влияет на стоимость и уменьшается по абсолютной величине при удалении от центра. Степень изменения коэффициента зависит от направления удаления, что может объясняться экологическими или социальными особенностями.

Расположение квартиры на первом или последнем этажах понижает ее стоимость, но четко просматривается зависимость от места расположения дома. В некоторых районах значение этого параметра незначимо.

Этажность дома меньше девяти этажей также уменьшает стоимость квартиры, и это уменьшение тесно связано с районом. Отчетливо выделяются центр и окраины. Есть районы, где этот параметр не значим,

что может объясняться типичностью застройки.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Интересна ситуация с влиянием материала изготовления дома на цену квартиры. Согласно глобальной регрессионной модели квартира в кирпичном доме стоит на 20 тыс. руб. дороже аналогичной квартиры в панельном доме. Географический подход показывает, что «кирпичность» значимо влияет на цену только в некоторых местах. Такая же ситуация складывается и для параметров «балкон» и «состояние». Они являются значимыми для глобальной модели, а при географическом подходе четко проявляется зависимость влияния этих параметров от места расположения соответствующей квартиры.

і. иР1_: http://www.ks.sarbc.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.