Техника геокодирования в построении географически взвешенных регрессионных моделей при массовой оценке в условиях неопределенности и неоднородности исходных данных
А.В. Захаров
директор ООО «Агентство Анализа Консалтинга Менеджмента», кандидат физико-математических наук (г. Саратов)
А.В. Харламов
старший преподаватель кафедры теории вероятностей, математической статистики и управления стохастическими процессами Саратовского государственного университета (г. Саратов)
Александр Владимирович Захаров, [email protected]
Моделирование стоимости на рынке недвижимости (продажа, аренда), как правило, осуществляется с помощью множественной линейной регрессии. При этом получают общую (глобальную) по исследуемой территории модель с усредненными характеристиками зависимостей. Такой подход оправдан, если исходные данные однородны и исследуемая территория «правильной формы» (например, известные регрессионные модели ценообразования для жилой недвижимости города Москвы [1]).
Глобальная линейная множественная модель регрессии имеет вид:
У, =в + вхл + в х,2 + - + £,,
где у - цена объекта;
х(1, х2 ... - параметры объекта (площадь помещения, тип дома, этажность, год постройки и т. д.);
в0, в1,... - неизвестные коэффициенты;
£, - погрешность измерений.
При этом местоположение объекта обычно учитывается через расстояние до центра либо через принадлежность конкретному микрорайону.
В случае сложной структуры обследуемой области (города Саратов, Волгоград), а также если обследуемые объекты неоднородны, что часто бывает в реальных ситуациях, в регрессионной модели необходимо учитывать местоположение каждого объекта. С развитием технологий геоинформационных систем (ГИС) стало достаточно просто осуществлять геокодировние объектов, то есть включать в характеристики объекта его координаты. Использование координат позволяет строить географически взвешенные регрессионные (ГВР) модели (так называемые локальные модели). При построении ГВР-моделей исследователь получает не одну глобальную модель, а целый набор локальных моделей для каждой точки исследования [3].
Схематично географический подход можно охарактеризовать следующим образом. Считается, что модель не постоянна для всего изучаемого региона, она может меняться в зависимости от местных условий, и параметры модели будут функциями координат:
У, =в (и,У,) + ^вк(и„у,) ■ х,к +е,,
к
где и,, V - координаты объекта (местоположения, в котором строится модель);
коэффициенты вк(и^) - функции координат; к = 0, 1, 2 ...р.
При использовании такого подхода к оценке коэффициентов модели вк(иV будут вычисляться в каждом местоположении, где проводились измерения, и будут являться функциями координат. В результате в отличие от глобального случая, когда получают единственный вектор оценок параметров, получается матрица оценок параметров:
во (и VI )в(щ ,УЛ )...рр(щ ,УЛ)
во (и2 V 2 )в(и2 V 2 )...рр(и2 V 2 )
во (ип’Чп)в(ип’Чп)..вр(ип’Чп)„
Применение геокодирования и ГВР через учет местоположения объектов позволяет выявить следующее:
1) специфическое влияние ценообразующих характеристик;
2) сложившиеся подрынки недвижимости (на основе анализа неоднородности данных об аналогах);
3) тенденции развития районов города.
Рассмотрим опыт применения этого подхода [2]. Техника геокодирования и ГВР были использованы для моделирования стоимости однокомнатных квартир на вторичном рынке жилья города Саратова.
Саратов имеет достаточно сложную географию и неоднородную застройку (рис. 1).
Рис. 1. Схема города Саратова
Использовались исходные данные за январь 2006 года. Измерения проводились в точках - местоположениях объектов, показанных на рисунке 2.
у 39 37 35 33 31 29 27
52 54 56 58 60 62 64 66
X
Рис. 2. Координаты точек измерений объектов (здесь и далее X, У - координаты долготы и широты объекта в условных единицах, условный «ноль» расположен в точке 45о восточной долготы и 51о северной широты)
При моделировании учитывались следующие показатели:
• У - цена квартиры, тыс. р.;
• Х1 - жилая площадь, м2;
• Х2 - площадь кухни, м2;
• Х3 - дополнительная площадь, м2;
• Х4 - логарифм расстояния, 1п(м);
• Х5 - расположение на первом этаже;
• Х6 - расположение на последнем этаже;
• Х7 - дом малой этажности;
• Х8 - пятиэтажка;
• Х9 - кирпичный дом;
• Х10 - в хорошем или отличном состоянии;
• Х11 - наличие балкона или лоджии.
Построенная глобальная линейная модель множественной регрессии имеет вид: у = 1180,61 +13,04 х1 +10,38 х2 +11,17 х3 -116,40 х4 - 36,82 х5 -
(1,04) (1,36) (0,79) (2,62) (5,70)
-28,19 х6 -122,10 х7 - 30,43 х8 + 20,88 х9 +19,22 х10 +16,87 х11
(5,34) (10,99) (5,06) (5,03) (4,20) (5,30)
В выражении в скобках указаны стандартные ошибки, все показатели значимы на пятипроцентном уровне.
Неоднородность исходных данных проявляется, в частности, в различиях средних цен за один квадратный метр однокомнатных квартир в городе (см. рис. 3), а также в различиях остатков глобальной модели (см. рис. 4).
Сложность территории и неоднородность объектов стали причиной применения моделирования ГВР. Так как результаты этого моделирования необозримы, можно привести только небольшой фрагмент таблицы, в которой показаны результаты ГВР-моделирования (см. табл. 1).
♦ «** < 5" * ♦
рл г** . ♦ 4
♦ ♦ * V-'/
♦ ж
■|-------------------------------------------------------1Г
Рис. 3. Средние цены за один квадратный метр однокомнатных квартир в городе Саратове в январе 2006 года, тыс. р.
Рис. 4. Остатки глобальной модели, тыс. р.
Отметим различия в результатах глобального и локального моделирования. Для примера проанализируем поведение коэффициента при параметре «кирпичный дом».
Исходя из глобальной модели в 2006 году в среднем однокомнатная квартира в кирпичном доме стоила на 20 тысяч рублей дороже такой же квартиры в панельном доме.
Таблица 1
Результаты ГВР-моделирования
№ п/п X У Остатки во 01 02 ...
1 56,432 31,575 2 403,83 868,8 8,3 17,2
2 53,003 29,028 2 021,0 1 723,0 4,5 5,0
3 55,326 36,644 1 456,4 621,4 3,8 11,3
4 53,003 29,028 2 021,0 1 723,0 4,5 5,03
5 55,419 30,586 1 436,0 2 211,4 4,3 14,5
6 55,752 35,118 1 060,0 1 330,5 5,6 13,61
7 55,884 35,224 910,2 1 379,9 5,7 14,4
8 55,262 35,31 1 621,5 1 148,1 4,6 12,6
9 58,306 32,128 2 924,8 1 222,2 7,6 14,8
10 58,306 32,128 2 924,8 1 222,2 7,6 14,8
11 58,306 32,128 2 924,8 1 222,2 7,6 14,8
12 62,473 31,964 14 737,5 -468,2 14,7 12,5
13 53,003 29,028 2 021,0 1 723,1 4,5 5,0
Результаты ГВР-моделирования показывают, что этот показатель не является значимым для всей исследуемой территории (см. табл. 2; для наглядности в таблице представлены результаты, усредненные по целочисленным значениям координат, пустые ячейки означают незастроенные территории города).
Таблица 2
Значения р-value оценок коэффициентов регрессии при переменной «кирпичный дом»
Х
53 54 55 56 57 58 59 60 61 62 63 64
36 0,40 0,82 0,299 0,8 0,863 0,924
35 0,44 0,49 0,71 0,22 0,393 0,142 0,69
34 0,173 0,24 0,501 0,28 0,002 0,002 0,551 0,78
33 0,085 0,679 0,542 0,064 0,077 0,004
У 32 0,081 0 0,208 0,453 0,22 0,001 0
31 0,022 0,004 0 0,002 0,106 0,027 0 0
30 0,09 0,01 0,01 0,001 0,008 0,002 0
29 0,26 0,06 0,02 0,001 0,002 0,008
28 0,20 0,14 0,15
27 0,17
Можно сделать вывод, что рассматриваемый параметр является ценообразующим не на всех подрынках города. Также его значение меняется в зависимости от местоположения объекта (см. табл. 3).
Таблица 3
Зависимость оценок коэффициентов регрессии от координат при регрессоре «кирпичный дом»
Х
53 54 55 56 57 58 59 60 61 62 63 64
36 6 1,7 6,3 1,4 -0,3 -0,5
35 5,7 5,2 0,6 9,4 5,7 -10,9 -5,3
34 12 9,7 5 -10 -41,6 -32 -7,8 -4
33 13,1 3,3 -7,6 -28,3 -27,8 54,8
У 32 15,8 40,2 21 15,1 33,7 119,7 126,2
31 17,6 26,2 38 45,9 29,4 50,7 142,6 139,6
30 11,5 16,1 17,9 21,6 21,9 30,8 48,9
29 7,9 13,3 18,7 21,9 24,2 23,6
28 9,1 10,5 10,3
27 9,7
Таким образом, было выявлено, что в одних районах города квартира в кирпичном доме стоит на 142 тысячи рублей дороже, чем в панельном, а в других - на 32 тысячи рублей дешевле. Причины такой ситуации - задача дальнейшего исследования подрынков жилой недвижимости.
Линии уровней изменения коэффициента по территории города представлены на рисунке 5.
Рис. 5. Линии уровней значений оценок коэффициентов при переменной
«кирпичный дом»
Также ГВР-моделирование позволяет выявлять тенденции развития районов города. Результаты сравнения средней стоимости одного квадратного метра однокомнатных квартир в 2008 году относительно 2006 года (см. табл. 4) позволяют выявить тренды более или менее интенсивного развития районов города.
Таблица 4
Зависимость коэффициента роста стоимости одного квадратного метра площади от координат в 2008 году по сравнению с 2006 годом
Х
53 54 55 56 57 58 59 60 61 62 63 64
36 2,3 2,4 2,4 2,5 2,4 2,5
35 2,5 2,3 2,9 2,5 2,5 2,3
34 2,4 2,5 2,2 2,7 2,9
У 33 2,4 2,4 2,4 2,4 2,3
32 2,5 2,5 2,4 2,4 2,4 2,4 2
31 1,9 3 2,4 2,2 2,5 2,3 2,3 2,3
30 2,4 2,4 2,5 2,4 1,9 2,4
29 3 2,5 2,6 2,5 2,4
28 2,5 2,5 2,6
27 2,4
Таким образом, приходим к заключению, что геокодирование и ГВР являются эффективной техникой при массовой оценке стоимости недвижимости, позволяющей через местоположение объектов учесть влияние латентных показателей, выявить ценообразующие параметры и, как следствие, специфические подрынки в пространственном смысле, а также определить тренды в развитии районов города.
С применением ГВР можно выявить структуру ценообразования в рамках населенных пунктов и административных округов в окрестности объекта недвижимого имущества. Моделирование цен с помощью ГВР позволяет строить ряды динамики по результативному признаку «стоимость недвижимости» в населенных пунктах и административных округах, формировать однородные кадастровые кварталы. В ряде случаев предпочтительнее использовать ГВР-модели, нежели чем глобальные линейные множественные модели регрессии, поскольку с помощью ГВР-моделей можно получить больший объема полезной информации при анализе влияния ценообразующих параметров на результативный признак. Помимо этого, при построении моделей ГВР возможно учитывать пространственную автокорреляцию, позволяющую в цене объекта недвижимости учесть цены соседних объектов.
Обсудим понятие пространственной автокорреляции на примере модели стоимости недвижимости. Так как цена объекта зависит от его местоположения, естественно предполагать, что цены соседних объектов коррелированны:
у : = к + ру * + £,
где у - цена объекта недвижимости в точке /;
у* - средневзвешенная цена п ближайших соседей:
П
X 1
У* = —П----,
Х™9
1=1
где - весовые коэффициенты, принимающие значение, равное единице, если / является одним из п ближайших соседей, и нулю в противном случае;
к и р - параметры, подлежащие оценке;
£: - случайные ошибки.
Если коэффициент р положительный (отрицательный) и значимо отличается от нуля, то существует положительная (отрицательная) автокорреляция. Если коэффициент незначим, то автокорреляция отсутствует. В отличие от моделей временной автокорреляции в пространственном случае отсутствует порядок следования объектов и возникают сложности определения соседних элементов. При построении модели пространственной автокорреляции исходят из следующих предположений.
Объекты, которые находятся поблизости друг от друга, как правило, имеют много общего (например однородная застройка микрорайона), и в силу этого модель пространственной автокорреляции будет отличаться от классической. Если в классической регрессии матрица ковариации ошибок равна У(е) = о2/, то в пространственной автокорреляции -У(е) = А.
При анализе регрессии с пространственной автокорреляцией используют два метода: метод условной авторегрессии и метод одновременной авторегрессии.
В модели условной авторегрессии предполагается, что зависимая переменная является функцией некоторого числа регрессоров и при этом имеет место пространственная автокорреляция.
В одновременной авторегрессионной модели рассматривается безусловное распределение зависимой переменной по нормальному закону.
Как правило, наличие автокорреляции, присутствующей в реальных данных, находит отражение в остатках построенных моделей. По этой причине анализ на наличие или отсутствие автокорреляции начинают с анализа остатков классической регрессии.
Рассмотренные модели пространственной авторегрессии применяют как вариант моделирования при наличии ненулевой автокорреляции в ошибках. Как правило, объекты недвижимости имеют положительную корреляцию. Такой подход выявляет наличие автокорреляции между объектами, не объясняя ее, и в результате получают смещенные оценки параметров.
В случае пространственной автокорреляции географически взвешенная регрессия имеет вид:
у, = к (и,, V :) + р(и,, V, )у * +е,.
В результате оценки параметров географически взвешенным методом получают поверхность локальных оценок коэффициента автокорреляции. Использование коэффициента авторегрессии в глобальной модели не дает того эффекта, который можно получить при географическом подходе, когда распределение получаемых остатков в географической модели имеет практически случайный характер. Также следует отметить, что локальные модели с авторегрессией и без нее дают практические одинаковые результаты в оценках параметров. Более того, приходится делать вывод, что добавление авторегрессионой составляющей в локальную модель практически не объясняет местные различия и изменения параметров регрессии относительно модели без авторегрессии.
Одним из подходов при моделировании является объединение методов пространственной регрессии и географического подхода. Если пространственная зависимость вытекает из пространственной неоднородности, то географический подход представляется более предпочтительным.
До сих пор мы предполагали, что ошибки измерений имеют нормальное распределение с нулевым средним и постоянной дисперсией. Более общей ситуацией является зависимость дисперсии ошибки от местоположения точки регрессии. В этом случае ошибка подчиняется нормальному закону, но дисперсия ошибки зависит от координат. Тогда говорят о пространственной нестационарности. Такая модель называется обобщенной географической.
Метод географического взвешивания применим на всех этапах статистического исследования, в частности, для предварительного анализа данных. Так, при анализе бинарных показателей для расчета статистических характеристик в местоположении / берутся значения соседних величин с соответствующими весовыми коэффициентами. Тогда доля элементов совокупности р,, обладающая заданным признаком, исчисляется по средней взвешенной:
X
X
№
ч
где м - вес, рассчитанный одним из методов географической регрессии;
X - бинарные переменные, принимающие значение, равное единице, если элемент обладает заявленным признаком, и нулю в противном случае, параметр / «пробегает» значения от 1 до п.
Аналогично (с использованием географически рассчитанных весов) вычисляют все показатели описательной статистики, например выборочную среднюю:
X
ч
Ч
Значения таких показателей непрерывно меняются по всей области вычислений аналогично коэффициентам географической регрессии.
Если м.. рассматривать как относительную частоту, то приведенные показатели можно представить в следующем виде:
* = X > р, = X .
При исчислении географически взвешенного стандартного отклонения г, =
X (*ч-*, )2
находят отклонения для каждого местоположения относительно локальных средних, а не относительно глобального среднего значения. Например, вычисление средней цены квартиры покажет, как цена меняется в зависимости от района.
Изменение средней цены по районам города происходит случайным образом или по определенной тенденции, обусловленной пространственной неоднородностью. Если колебание средней цены возникает за счет случайных влияний, то среднее значение имеет асимптотически нормальное распределение.
Одним из способов тестирования адекватности модели ГВР является исследование взаимной корреляции остатков - пространственной автокорреляции. Ошибки классической регрессионной модели (предполагается, что наличие автокорреляционной зависимости непременно проявляется в остатках классической регрессии, а для исследуемых данных зависимость определяется даже визуально) показали наличие автокорреляционной зависимости. После проведения необходимых расчетов было получено значение коэффициента пространственной корреляции р = 0,79. Это соответствует общей практике и вполне согласуется со здравым смыслом: цены ближайших объектов положительно коррелируют между собой.
Сравнивая авторегрессионные модели и классическую модель регрессии, убеждаемся, что оценки коэффициентов в глобальной регрессионной модели и в моделях с пространственной корреляцией практически не различаются. Отметим, что коэффициент автокорреляции в условной модели принимает большее значение (р = 0,97), чем в одновременной модели (р = 0,64), что обуславливается спецификой методики их построения.
Можно сделать вывод, что применение авторегрессионных моделей не дает какого-либо преимущества по сравнению с классической регрессией. Эти модели только выявляют пространственную нестационарность, не объясняя ее. Использование коэффициента автокорреляции в глобальной модели не дает того эффекта, который можно получить при использовании географического подхода, когда распределение получаемых остатков имеет практически случайный характер.
Проанализируем оценки коэффициентов регрессии, полученные географически взвешенным методом с точки зрения пространственной автокорреляции. В полученных оценках коэффициентов просматривается явная автокорреляционная зависимость. Проведя необходимые расчеты для коэффициентов при регрессорах «жилая площадь», «логарифм расстояния», «кирпичный дом», получили следующие коэффициенты автокорреляции р1 = 0,84; р4 = 0,84 и р9 = 0,87 соответственно. Эти результаты уже могут объяснить существование пространственной автокорреляции и свидетельствуют о том, что пространственная зависимость вытекает из пространственной неоднородности. Анализ остатков географической регрессии показывает значительное уменьшение пространственной зависимости, коэффициент автокорреляции принимает значение р = 0,36.
Можно отметить, что в отличие от авторегрессионных моделей, которые только определяют пространственные зависимости, географический подход позволяет находить объяснение пространственной зависимости и выявлять специфические особенности, присущие отдельным районам города.
Таким образом, мы показали, что географический подход позволяет выявить специфические особенности ценообразования жилой недвижимости, присущие отдельным районам города, которые нивелируются в глобальной модели. Географический подход аппроксимирует специфику ценообразования в конкретном местоположении, однако исследование конкретных факторов, влияющих на ценообразование в этом местоположении, выходит за рамки географического подхода. Очевидно, что на стоимость недвижимости влияет множество неучтенных в модели факторов: особенности прилегающей территории, социальная инфраструктура, транспортная доступность и т. д. Выявление влияния локальных характеристик является отдельной задачей.
Использование метода ГВР для сопоставления уровня цен за различный период времени позволяет сформулировать следующий вывод.
Несмотря на общую тенденцию роста цен за рассматриваемый период, этот процесс имел существенные особенности в различных районах города. Наибольший рост цен наблюдался в центральных районах города и районах новой застройки с более благоприятной экологической обстановкой. Динамика цен и влияние отдельных факторов на уровень цен существенно зависят от местоположения объекта на территории города. Метод ГВР позволяет выявлять эти особенности и формулировать прогнозы ценовых движений.
ЛИТЕРАТУРА
1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс : учебник. 6-е изд. Перераб. и доп. М. : Дело, 2004.
2. Балаш О. С., Харламов А. В. Эконометрическое моделирование пространственных данных : монография. Саратов : Научная книга, 2010.
3. Fotheringham A. S., Brunsdon C, Charrlton M. Geographically weighted regression the analysis of spatially varyng relationships: University of Newcastle, UK John Wiley & Sons Ltd, 2002.