№2(22) 2011
В. А. Балаш, 0. С. Балаш, А. В. Харламов
Эконометрический анализ геокодированных данных о ценах на жилую недвижимость
В представленной статье рассматриваются проблемы регрессионного анализа пространственных данных на примере моделирования цен вторичного рынка жилья в городе Саратове методом географически взвешеннойрегрессии.
Ключевые слова: географически взвешенная регрессия, ценообразование на вторичном рынке жилья, регрессионный анализ пространственных данных.
JEL classification: С21, R21.
1. Введение
В последние десятилетия существенно повысилась доступность информации, имеющей пространственную привязку, в том числе, данных геоинформационных систем (ГИС). Использование геокодированной информации значительно обогащает возможности статистического анализа, т. к. позволяет явно или неявно учитывать взаимное расположение объектов либо изменчивость изучаемого явления в пространстве.
Традиционные приемы анализа статистических данных, как правило, не используют информацию об упорядоченности объектов. В случае временных рядов естественным является представление результатов как последовательности наблюдаемых значений во времени. Соответственно, методы обработки нацелены на выявление и моделирование временной зависимости последовательных значений. Геокодированные данные отражают расположение объектов внутри некоторой области или территории. Специализированные методы и модели анализа территориально-распределенной информации позволяют учитывать изменчивость изучаемого процесса по территории или взаимосвязь значений показателей для соседних объектов или смежных областей. Спектр таких методов достаточно разнообразен. В настоящее время сформировалось научное направление пространственной статистики и эконометрики, см., например, (Anselin, 1988, 2006; Fotheringham et al., 2002; Haining, 2004; Lloyd, 2007; Schabenberger, Gotway, 2005).
В данной работе кратко обсуждаются некоторые положения, используемые при анализе пространственных данных, а также приводятся результаты применения метода географически взвешенной регрессии для моделирования цен на жилую недвижимость.
2. Представление пространственных данных при построении эконометрических моделей
При построении эконометрических моделей данные обычно представляют в виде таблицы «объект — признак», либо организуют в виде панели. Пространственные модели, кроме этого, используют информацию о взаимном расположении объектов. В общем случае ме-
№2(22) 2011
тоды представления пространственных данных зависят от задач исследования и особенно- § стей объектов наблюдения. SS
При анализе точечных процессов исследователь располагает результатами наблюдений для некоторого числа точек — мест проявления изучаемого явления в пространстве. Такой оа тип данных более характерен для естественных наук: астрономии, геологии, эпидемиологии, экологии и т.д., чем для экономических приложений. Например, это могут быть данные ss о местах жительства пациентов, страдающих тем или иным заболеванием, местах возникно- щ вения лесных пожаров, эпицентрах стихийных бедствий, расположении населенных пунк- Ч тов и т. п. При этом географические координаты наблюдений известны и их можно внести g в матрицу данных в виде дополнительных столбцов. Задачи анализа имеют определенную | специфику. Примером может быть проверка, является ли расположение наблюдений на изу- ^ чаемой территории случайным или имеет место какая-либо закономерность, кластеризация, щ и если да, то какие факторы определяют места сгущения.
В случае геостатистических данных анализу подвергаются результаты выборочного наблюдения в ограниченном числе точек. Например, результаты сделок с объектами недвижимости, совершенных в заданный период, сведения о загрязнении воздуха, получаемые от некоторого числа стационарных метеостанций и пр. Типичная задача состоит в прогнозировании уровня одного или нескольких показателей для других точек изучаемой территории — модельной цены для вновь появившегося на рынке объекта недвижимости, уровня загрязнения воздуха в выбранной точке и т.д. Координаты наблюдений известны и могут быть добавлены в таблицу данных, также возможно определить координаты точек, в которых требуется построить прогноз, например, задана равномерная сетка внутри заданной территории и т. п.
Важными аспектами при построении регрессионных моделей по геостатистическим данным является отражение пространственной зависимости и пространственной неоднородности. О пространственной зависимости говорят, если значения показателей у близлежащих объектов положительно или отрицательно коррелированы. Под пространственной неоднородностью (эффект местоположения) имеют в виду зависимость проявления изучаемого процесса или явления от уникальных, связанных с расположением, характеристик. Если каждому местоположению свойственны некоторые уникальные особенности, отличающие его от прочих, то регрессионная модель, не учитывающая пространственной неоднородности, может неадекватно описать процесс в заданной точке.
Применение стандартных методов регрессионного анализа к пространственно зависимым или неоднородным данным сопровождается рядом проблем. Среди них: неустойчивость коэффициентов модели, неправильно вычисленные стандартные ошибки коэффициентов, границы доверительных интервалов и т.д. Существует ряд способов учета пространственной зависимости в регрессионных моделях, таких как модели пространственного лага зависимой переменной, независимых переменных или случайного члена. Если полагать, что сочетание ненаблюдаемых факторов зависит от местоположения, но достаточно плавно изменяется по территории, то для отражения пространственной зависимости или неоднородности можно использовать модели с переменной структурой (переменными коэффициентами). Далее рассмотрим более подробно подход географически взвешенной регрессии.
Региональные данные представляют собой совокупность показателей, относящихся к заранее определенным территориям — странам, регионам, районам. В отличие от предыдущих случаев, наблюдаемые значения относятся к областям, т. е. протяженным объектам.
I
№2(22) 2011
Поэтому для точного отображения взаимного расположения объектов недостаточно указать две координаты. Важным аспектом исследования может быть то, как взаимосвязаны уровни изучаемого явления в различных регионах, существует ли их пространственная автокорреляция либо пространственные экстерналии. При положительном ответе может ставиться задача оценки влияния изменения уровня развития изучаемого явления в одной из областей на показатели в других, смежных, удаленных и т. п. районах.
Общей проблемой при построении эконометрических моделей для геокодированных данных является учет пространственной неоднородности и взаимозависимости, т. е. того, как различаются и как связаны между собой наблюдаемые значения в соседних точках или областях.
Ряд методов, учитывающих взаимное расположение объектов, предполагает при построении эконометрических моделей использование пространственной матрицы весов Ж(п х п). Элементы весовой матрицы отражают силу потенциальных взаимодействий между объектами. Выбор способа формирования весовой матрицы — ключевой, наиболее важный и трудный этап применения большинства методов анализа территориально-распределенных данных.
В общем случае матрица пространственных весов определяется как симметричная матрица смежности, которая иногда может быть построена на основе топологической информации, представленной в ГИС, т. е. информации о близости, сопредельности объектов или расстояний между ними. Выбор метода построения весовой матрицы зависит от целей ис-о следования. По-видимому, не существует универсального способа определения весов, ко-| торый может использоваться во всех задачах. В случае геокодированных данных за основу | могут браться географические расстояния, затраты времени на достижение объекта г из объ-5 екта у и т. п. При анализе региональных данных расстояния между объектами трудно оп-
2 ределить однозначно, поэтому элементы весовой матрицы определяют, учитывая близость
§ или сопредельность областей (Bavaud, 1998; Cliff, Ord, 1973, 1981). При решении конкрет-
я ной проблемы полезно сравнить результаты, полученные при разных вариантах определе-
g ния весов, а затем выбрать из них наиболее адекватный.
! Многие методы расчета весовых матриц реализованы как встроенные в ряде геоинфор-
0 мационных систем, а также в специализированных пакетах статистического и эконометри-
3 ческого анализа.
t
W
4 Й
1
s 3. Модели пространственной авторегрессии
§ и географически взвешенной регрессии
5
| Регрессионные модели с переменной структурой широко используются в практике эко-£ неметрических исследований. Например, выборка может быть разбита на несколько групп | по признаку местоположения объекта в том или ином районе города, а модель расширена за счет дополнительных (фиктивных) переменных. При пересечении границ районов один или несколько коэффициентов модели меняются скачкообразно (Айвазян, Мхитарян, 2001; ф Магнус и др., 2006). Адаптивные методы анализа временных рядов допускают непрерыв-¡^ ную трансформацию коэффициентов во времени. Географически взвешенная регрессия (Foil theringham et al., 2002; LeSage, 1999, 2001) может интерпретироваться как частный случай
¡с регрессионных моделей с переменной структурой при предположении, что коэффициенты Й модели не являются постоянными, а плавно изменяются по территории.
I №
2(22) 2011
Не претендуя на полноту изложения, приведем несколько частных случаев пространст- §
венных эконометрических моделей с постоянными и переменными коэффициентами. ¡5
Пусть п — число наблюдений; У — вектор значений зависимой переменных размерности п; Ж — заданная матрица весов размерности п X п, диагональные элементы которой оа равны 0; (и.,у) —географические координаты объектов, г = !,...,п; X —матрица значе-
Э
нии независимых переменных: <5
X =
/ 1 X Xх
1 Ли 1 р
1 Х21 ■■■ х2 р
1 Х„, ... X,,
щ
о о Э
та Щ
~пр) ^
Щ
Определим вектор значений пространственной лаговой переменной как У = ЖУ. Значения пространственной лаговой переменной часто поддаются прозрачной интерпретации. Допустим, р — цены объектов недвижимости. Если элементы матрицы Ж заданы по следующему правилу:
[1, если у один из к ближайших соседей г, м'а = 1
[0, в противном случае,
п
то значение Р* =—п- равно средней цене к ближайших объектов. При ином способе
}=1
определения весовой матрицы результат вычисления величины пространственного лага будет равен средневзвешенному значению переменной для всех или части объектов.
Иногда удобно работать с нормированной по строкам матрицей весов Ж . Если принять,
мл.
что мл. = — > = п> У = п> то сумма элементов каждой строки матрицы Ж* рав-
2 ^
Г=1
п
на 1,и Р* = ^ Щ,Р ■
}=1
Заметим, что пространственный лаг можно определить и для независимых переменных: X * = ЖХ.
Простейшая модель пространственной авторегрессии первого порядка описывает зависимость цены объекта от значений пространственного лага:
Р =а + рР* +е1, I = 1,...,п,
где е; — независимые случайные ошибки, а, р — неизвестные коэффициенты. В рассматриваемом примере модель предполагает зависимость цены объекта от средневзвешенных цен соседних объектов:
№2(22) 2011
Pt =а + р2w'jPj +£i, i = 1,...,п.
j=i
Матричная запись имеет следующий вид:
Y = ain + pW (Y - ain ) + £, £ - N(0, a2In ),
где in — вектор размерности n, все элементы которого равны 1. Для упрощения записи обычно предполагают, что зависимая переменная центрирована, т. е. а = 0. Такую модель обычно называют Spatial Autoregressive Model (SAR):
Y = pWY + £,
£ - N(0, a2In ).
Могут быть определены модели пространственной авторегрессии второго, третьего и более порядков, модели пространственного скользящего среднего (Spatial Moving Average Model, SMA) и т. д.
При включении дополнительных регрессоров получим смешанную модель пространст-
0 венной авторегрессии (Mixed Regressive Spatial Autoregressive Model):
1
I Y = pWY + Xß + s,
e ~ N(0, In ),
Щ
5?
I
I
§ где В — вектор коэффициентов регрессии: *
| £ = 08о, А,..., £, )г.
*
ф а° Пространственную автокорреляцию ошибок модели формализуют с использованием
Spatial Error Model (SEM):
I
| У = Х/З + ы,
| ы = ХЖы + £,
I £ - N(0, а21п).
Обобщение рассмотренных случаев приводит к модели вида
5
| У = рЩУ + Х/3 + ы,
>¡5 Ы = ЛЖ2Ы + £,
I 2
§ £-N(0, а21п),
5
6
| где Ж2 — заданные матрицы весов. Однако при этом необходимо определить две раз-
§ личные весовые матрицы. Если, например, принять , то возникает проблема иден-
m тификации параметров. 66 J=
п
№2(22) 2011
Кроме этого, модель может включать пространственные лаги независимых перемен- §
§
ных г
где Ж — матрица смежности, элементы на главной диагонали которой равны 0. Такие модели естественно возникают при исследовании региональных взаимодействий. На изучае-
мый показатель, например, уровень цен, темпы экономического роста, уровень преступно- щ сти и т. д., влияют как собственные факторы, так и факторы соседних регионов. Ч
Э
Напомним, что в случае моделей с постоянными коэффициентами полагают, что для | всех объектов изучаемой совокупности верна одна и та же «глобальная» модель. Условием ^ ее применения является территориальная однородность изучаемой совокупности. Под од- щ нородностью совокупности имеется в виду, что коэффициенты модели одинаковы во всех подобластях.
В случае территориальной неоднородности качество модели частично удается повысить, разбив территорию на районы и построив серию локальных моделей. В предельном случае вместо задачи оценки параметров глобальной зависимости приходим к проблеме оценивания серии локально линейных моделей, коэффициенты которых зависят от местоположения объекта. Например, модели пространственной авторегрессии первого порядка с переменными коэффициентами yi = a(ui, vi) + p(ui, vi)y* +£i или модели с переменными коэффициен-тамиприрегрессорах у, ,у) + fil(ui,V)x„ +/32{щ,у)xt2 +... + 0р(u;,у)xip +е;.
Закономерности изменения коэффициентов по территории могут быть определены исследователем, например, как заданные функции координат.
Альтернативный подход, состоящий в построении отдельной модели для каждого объекта на основании подвыборки близлежащих наблюдений, получил названия географически взвешенной регрессии (Geographically Weighted Regression, GWR).
Модель географически взвешенной регрессии имеет вид:
где пара переменных (и1,у) представляет координаты точки (местоположение) /, / = 1,...,п, у1 — значение наблюдаемой зависимой переменной; ха,...,хг> — независимые детерминированные регрессоры, р — число регрессоров; [5к (и1,) — неизвестные коэффициенты, подлежащиеоценке, к = 0,1,..., р; е; —случайныеошибки.
Предполагается, что регрессионные модели для соседних точек схожи, но могут варьироваться по территории. Допустим, что коэффициенты регрессии ¡30(и,у),/31(и,у),...,¡$к(и,у) являются непрерывными функциями координат (и,у). Если эти функции достаточно гладкие, то коэффициенты регрессии для близлежащих объектов приблизительно равны между собой. Тогда в некоторой окрестности точки наблюдения с координатами {и1,у) исследуемая зависимость с переменными коэффициентами может быть приближена локальной линейной моделью с постоянными коэффициентами:
Y = X P + WX в + е,
р
(1)
№2(22) 2011
где у0 = /30(ы1, у ), у1 = ¡31 (ы;, у ),..., у к = ¡5к (ы;, у ). Для нахождения оценок коэффициентов локальной модели используют взвешенный метод наименьших квадратов, при этом ближайшие объекты учитываются с большим, а отдаленные с меньшим (нулевым) весом:
}=1
У1
г
■УоХл
2
тт
Уо,-, У Р
О
0 §
1
Щ
5?
I
I
¡г
г ф а о
л £
га Ч
л £
те о
о &
! о
£
и
Ч
>8 £
0 ф
1 &
Ф §
0
1
г
о
где мл. — весу-го наблюдения при построении локальной модели в точке с координатами (Ыг, V).
Локальная модель может быть представлена в матричном виде следующим образом:
V («,, V, )У = ¥ (и,, V,) X 0(и,, у ) + ¥ (и,, V, )£,
£ - N(0, а21п),
где У — вектор значений зависимых переменных размерности п; X — матрица значений
независимых переменных; ,у ) — вектор коэффициентов регрессии в местоположе-
у
нииг; (ы;,у) —географические координаты объектов, / = 1,..., п, V(м;,у) = Ж(ы1,у )/2, Ж(ы;,у ) — диагональная матрица весовых коэффициентов размерности п X п :
У =
Ы ] 1 Х11 ■ Х ■■ Х1 р (е X и, у,) ^
У1 , X = 1 Х21 ■ ■■ Х2 р , £ = £1 , РЫ , у,) = А (Ыг, Уг )
\Ур 1 Хп1 ■ - Хпр \£п ^ / , Ы, У;),
Ж Ы, у,) =
^л о О мл,
О О
о о
щ„
Элемент матрицы }, г, у = 1,..., п определяет степень влияния соседейу на зависимости в местоположении /. Матрица весовых коэффициентов вычисляется для каждого местоположения.
Вектор оценок коэффициентов для каждого местоположения г вычисляется по формуле: 3 (ы,, у) = (ХТЖ и, у,) X )"1 ХТЖ ы, у, )У.
Расчеты коэффициентов проводятся для всех измерений, в результате получают матрицу оценок параметров:
30(ы 1, у1) Р1 (Ы1, у1) ■■■ 3 „ (Ы1, у1)
В =
Р0(Ы2, У2 ) $1 (Ы2, У2 ) - 3 „ (Ы2, У2 )
_Р0(Ып У ) Д(Ып ' Уп ) - Рр (Ып V )_
где г-ая строка представляет собой вектор оценок коэффициентов в точке (ы1,у ), г = !,...,п. 68 ^-
п
к=1
I №
2(22) 2011
Щ
э
§
Так как каждому местоположению / соответствуют координаты (ы1, у1 ), то явный вид за- §
висимости от координат можно опустить: ¡5
£
3 (О = (X ТЖ (г)Х У1 Хт Ж (г)У. *
Для проверки гипотез о значимости локальной модели рассчитывают ковариационную матрицу оценок.
Пусть С = (ХТЖ (/) X )_1 ХТЖ (г). Вектор прогнозных значений можно представить в виде: щ
У = ЗУ, где 3 = ХС — матрица линейного преобразования наблюдений У в вектор про- Ч
гнозных значений У. Тогда ковариационная матрица оценок: д
15
Гаг (]3(-)) = ССТ о2, *
(У■ — У )2 т щ
где о = /-'-'--несмещенная оценка дисперсии, г1 = 1г(3), у2 = 1г(3 3), 1г —
I п — 2п1 + V 2
след матрицы.
По аналогии с классическим случаем величину п — 2у1 + у2 можно трактовать как число степеней свободы, а 2у1 —V2 — число эффективных параметров для данной точки построения регрессии. Можно отметить, что значения у1 = 1г (3) и у2 = 1г (Зт 3) практически не различаются, поэтому число параметров считают равным у1 = 1г(3).
Стандартные ошибки оценок коэффициентов вычисляют по формуле:
Ш) Ч ^ (Ш) •
Опишем способы построения матрицы весовых коэффициентов.
При определении элементов матрицы применяют естественный принцип: более близкие соседи оказывают наибольшее влияние. Наиболее употребляемые методы вычисления весовых коэффициентов: административно-территориальное деление, метод движущегося окна, фиксированные и адаптивные ядра.
Часто исследуемая территория разделена на районы, например, по административному принципу. Если такое административное деление раскрывает специфические закономерности, присущие некоторым или всем административным единицам, то это учитывается в весовых коэффициентах. Для точек, принадлежащих району А с местоположением /, элемент весовой матрицы принимаем равным единице, в противном случае полагаем его равным нулю:
=1, если (/, у ) е А; мл. = 0, если (/, у) £ А.
Если административные районы сформированы исторически и не отражают естественное расслоение объектов, то дискретные веса определяются с учетом расстояния между исследуемыми объектами. В этом случае применяют метод движущегося окна. При этом задают предельно допустимую удаленность, т. е. некоторое фиксированное расстояние Ь, относительно которого определяют категорию ближайшего соседа. Вес принимают равным единице, если расстояние между объектами г иу не превосходит заданного расстояния Ь, и равным нулю в противном случае:
№2(22) 2011
мл. =1, если ¿у < Ъ; = 0, если d¡j > Ъ.
Расстояние между исследуемыми объектами находят как расстояние между точками на плоскости. Величина Ь фиксирована и называется шириной окна (или полосы пропускания).
Использование дискретного подхода при определении весов позволяет учесть территориальную неоднородность, но при этом модели для каждого района не связаны друг с другом. Кроме того, влияние всех соседей, попавших в полосу пропускания, считается одинаковым. Однако в большинстве случаев влияние соседей уменьшается с увеличением расстояния. Поэтому имеет смысл более близким соседям придавать больший вес, чем дальним.
Подход, в котором веса строятся с учетом непрерывного изменения расстояния между исследуемыми объектами, называют ядерным, а веса, которые являются убывающими функциями расстояния — ядрами.
Наиболее часто применяют ядра Гаусса:
■ ехр
\2 \ /
О
0 §
1
Щ
5?
I
I £
¡г
г ф
3
0 а
л
1 I
та
4
X £
г
та о
0 &
1
о
г
м Ч
где Ь — фиксированная ширина полосы пропускания, а — масштабный коэффициент. В местоположении г вес равен единице, а при удалении объектов исследования от него быстро уменьшается.
Как альтернативу можно использовать ядро би-квадрат:
Щ =
1 'й ^
а..
1-
\Ь ,
о,
если ¿у < Ь;
если ¿у > Ъ.
Би-квадрат обеспечивает непрерывное изменение веса в пределах полосы пропускания и ноль за ее границей.
Еще одним примером вычисления непрерывно меняющегося веса может служить ядро три-куб:
Щ =
1-
'О, ^^
о,
если ¿у < Ь;
если dy > Ъ.
(2)
>8 £
0 ш
1 &
§
0
1 §
о
Здесь убывание происходит «более круто», чем в предыдущих случаях. Больший вес возникает у ближайшего окружения заданной точки и быстро убывает при приближении к границе полосы пропускания.
Если измерения проводились на равномерной решетке, то ядра с постоянной шириной полосы пропускания дают хороший результат. Но во многих практических задачах наблюдения неравномерно расположены по территории. В этом случае использование фиксиро-
1и
I №
2(22) 2011
ванной ширины полосы пропускания может привести как к недостатку данных в слабо заполненных районах, и вследствие этого неустойчивости оценок коэффициентов, так и к огрублению зависимости в районах с высокой плотностью наблюдений. Чтобы избежать указанных недостатков, прибегают к использованию адаптивных ядер. Рассмотрим некоторые методы их построения.
Часто веса рассчитывают с учетом рангов. Ближайшим соседям присваивают нулевой ранг и вес, равный единице. При удалении объектов от местоположения ранг, как и расстояние, увеличивается, а вес уменьшается.
Если ширину полосы пропускания определить как расстояние до т-го соседа, то получим ядро с изменяющейся шириной полосы пропускания. В таком случае полоса автоматически меняется в зависимости от скученности точек измерения. В более густых местах — сужается, а в более разреженных — увеличивается.
Оптимальное число ближайших соседей т можно определить с помощью итеративной процедуры, сравнивая качество моделей для разных значений параметра. Для полученного оптимального числа соседей проводится расчет весов с ядром би-квадрат или три-куб. Положительные веса получают только т ближайших соседей, для остальных веса равны нулю. Например,
1
Щ Э
I
те щ
о о
3
те Щ
4 щ
щ =
' ' а ^х2
1-
\Ь 0
если ] один из т соседей;
иначе,
0
при этом величина параметра Ь задается расстоянием до самого дальнего из т ближайших соседей.
Более сложный подход к построению адаптивного ядра состоит в том, что для каждого местоположения г число соседей определяется таким образом, чтобы сумма весов соседних точек измерения была постоянной:
]
При этом веса могут быть вычислены с помощью какого-либо непрерывного ядра, например, ядра Гаусса. Так же, как в предыдущем случае, в более плотных областях ядра будут сжиматься, а в разреженных — растягиваться.
Для определения оптимального значения параметра Л можно использовать итерационные процедуры, где для различных значений параметра вычисляют статистики качества (адекватности) модели, из которых выбирают наилучшую.
Очевидно, что оценки коэффициентов регрессионной модели зависят от способа расчета весов. Рассмотрим методы вычисления оптимальных значений параметров весовых функций. Так, при достаточно больших значениях ширины полосы пропускания Ь можно получить такие же оценки коэффициентов модели, как и в случае классической регрессии. При этом все индивидуальные местные особенности могут быть нивелированы, и тем самым необходимый эффект географического подхода может не проявиться. Напротив, при малых значениях Ь возникнет опасность получения незначимых и неэффективных оценок коэф-
№2(22) 2011
фициентов регрессии. Следовательно, необходимо подбирать оптимальные значения параметров весовой функции.
Для определения оптимальных значений естественным подходом, на первый взгляд, является применение метода наименьших квадратов. Действительно, оценки коэффициентов модели зависят от параметров функций, используемых при расчете весов, в частности, от ширины полосы пропускания Ь. Поэтому прогнозные значения можно рассматривать как функцию параметра Ь. Оптимальное значение Ь можно получить, минимизируя значение функционала
z=2(* - У (ь))2.
Но при данном способе минимум может достигаться для малых значений Ь. В этом случае величина 1 будет близка к нулю, и в качестве оптимального значения может быть также выбрано Ь = 0, что, естественно, противоречит здравому смыслу. Поэтому прибегают к методам взаимной ратификации и обобщенной взаимной ратификации.
Метод взаимной ратификации состоит в том, что при построении оценок коэффициентов в местоположении г саму эту точку исключают из рассмотрения. Оптимальное значение параметра Ь выбирается исходя из задачи минимизации функционала СУ:
CV = 2(У- - У*(b))2 ^ min•
I В методе обобщенной взаимной ратификации оптимальное значение Ь выбирается исхо-
щ
| дя из следующей задачи минимизации: ^ n
ä GCV = (^F?(У' "y*(b))2 " mm'
i
¡s
| где величина vj = tr(S), a S — матрица линейного преобразования вектора зависимой пе-
° ременной 7 в вектор прогнозных значений Y. При этом производится коррекция на число
3 используемых параметров в каждой точке построения регрессии.
W
4
äs Выбор оптимальных параметров полосы пропускания может основываться на использо-
I
W
§ В качестве оптимального значения параметра b берется решение задачи на минимум t AIC:
о
* n + V
9 AIC = 2n ln а + n ln(2 л) + n-1--> min, (3)
вании информационного критерия Акаике (AIC).
n - 2 -Vj
где о — оценка стандартного отклонения, vj = tr (S).
£
и
¡3
I
та
£
ф Альтернативой является использование байесовского информационного критерия. Опти-¡^ мальное значение ширины полосы пропускания определяется минимизацией величины
I В1С = —21п Ь + (р + 1) 1п п ,
о
т где Ь — значение функции правдоподобия; р + 1 — число оцениваемых коэффициентов.
=i
i=j
n
№2(22) 2011
Описанная процедура основана на предположении, что все коэффициенты модели меняются по территории. Отметим, что существует класс смешанных регрессионных моделей, позволяющих учитывать, что некоторые коэффициенты регрессии одинаковы во всей совокупности, а другие являются функциями координат. Такие модели являются обобщением географического подхода (АшеНп, 1988; РоШеп^Ьат е! а1., 2002).
4. Эмпирические результаты
Метод географически взвешенной регрессии был применен для построения модели ценообразования на рынке недвижимости на примере стоимости однокомнатных квартир города Саратова.
Информационной базой послужили данные о продажах однокомнатных квартир на вторичном рынке жилья1 за январь 2006 года. Численность выборки составила 1813 объектов.
На карте (рис. 1) четко прослеживаются направления «вытянутости» расположения города вдоль реки Волги и в перпендикулярном ей направлении. То есть город имеет достаточно сложную географическую структуру. Жирно выделены границы, внутри которых рассчитаны показатели географически взвешенной регрессии.
Зависимой переменной является у — цена квартиры (тыс. руб.); а регрессорами: х1 — жилая площадь (м2), х2 — площадь кухни (м2), х3 — дополнительная площадь (м2), х4 — логарифм расстояния от центра города (1п (км)), х5 — расположение на первом этаже, х6 — расположение на последнем этаже, х7 — дом
малой этажности, х„
-пятиэтажка, х„
Рис. 1. Карта Саратова
http://www.ks.sarbc.ru/.
1
Щ
Э
§
та Щ
О О
3
та Щ
4 щ
-кирпичный дом, х10 — квартира в хорошем или отличном состоянии, х11 — наличие балкона или лоджии.
Для применения географически взвешенной регрессии к исходным данным были добавлены условные координаты объектов, полученные с помощью электронной базы данных «Все города России». Переменная х4 включалась в стандартную регрессионную модель, а в географически взвешенном подходе не использовалась.
При построении весовой матрицы использовалась функция три-куб (2), в качестве критерия оптимизации ширины окна — критерий Акаике (3).
Географически взвешенный метод дал следующие результаты.
\
73
№2(22) 2011
Оптимальное число ближайших соседей, дающее минимум критерия Акаике, равно 295. Коэффициент детерминации Я2 = 0.8.
Схематично зависимость критерия от числа точек регрессии (числа ближайших соседей) изображена на рис. 2.
13.30
13.29
13.28
13.27
13.26
13.25
13.24 Н-1-1-1-1-1-1-1-1
о
§ 291 292 293 294 295 296 297 298 299
ч Рис. 2. Зависимость значения критерия СУ от числа ближайших соседей
I
§ При определении этого параметра пришлось учитывать специфику фиктивных пере-
и менных и определять условный минимум, при котором матрица регрессоров является об-
£ ратимой.
| Проанализируем значения полученных оценок коэффициентов при каждом регрессоре.
° Для удобства анализа представим результаты в виде табл. 1 и 2, в которых значения оценок £
та Ч
Ь В таблице 1 и на рисунке 3 представлены усредненные оценки коэффициента регрессии | при переменной «жилая площадь».
15 В центральной части города выделяется квадрат (координаты X = 60, У = 32) с самыми дорогими квартирами — около 30 тыс. рублей за квадратный метр. Вокруг него стоимость
коэффициентов усреднены по целым значениям координат, а также представлены в виде диаграмм. Центр города располагается в квадрате X = 61, У = 32.
§ метра жилой площади превышает 20 тыс. руб. Четко выделяются окраины города, где цена квадратного метра жилой площади составляет около 10 тыс. рублей. Прослеживается дрейф | убывающей цены от центра в направлении Ленинского и Заводского районов («левого верх-
С5
^ него» и «левого нижнего» углов табл. 1 и рис. 3). Линии на рис. 4 соответствуют уровням
оценок коэффициентов при переменной «жилая площадь». ф Оценки коэффициента при регрессоре «площадь кухни» представлены в табл. 2
¡^ ина рис. 4.
| Анализ коэффициентов позволяет локализовать районы с наиболее высокой оценкой
| квадратного метра площади кухни. Наиболее высокая стоимость в квадрате X = 59, У = 31
о и прилегающих к нему зонах.
№2(22) 2011
Таблица 1. Зависимость оценок коэффициента регрессии при переменной «жилая площадь» от координат X, У
У X
53
54
55
56
57
58
59
60
61
62
63
64
1
Щ
Э
§
та Щ
О О
э
та Щ
00
36
35
34
33
32
31
9.1
(1.23)
9.7
(1.24)
8.6 (1.28)
10.9 (1.25)
30 10.3 12.9 14.2
(1.48) (1.53) (1.61)
29 9.6 11 13.3
(1.51) (1.51) (1.60)
28 9.8 10 10.3
(1.53) (1.54) (1.61)
27 9.8
(1.54)
11.9 (1.29)
11.9 (1.29)
11.2 (1.17)
13
(1.87)
13.6 (1.70)
13.7 (1.62)
12.2 (1.48)
12.9 (1.51)
11.5 (1.37)
14.1 (1.60)
15.7 (1.85)
14.7 (1.85)
14
(1.77)
11.2 (1.47)
9.8 (1.39)
11.8 (1.35)
12
(1.37)
16.6 (1.83)
17.2 (2.11)
16.4 (2.11)
12.7 (2.06)
8.9 (1.26)
14.7 (1.48)
15.7 (1.75)
23.2 (2.67)
19.7 (3.05)
18.6 (2.88)
8.6 (1.22)
20.3 (2.68)
28.4 (3.47)
22.4 (3.40)
12.4 (1.55)
16.6 (2.24)
19.1 (2.95)
21.4 (3.78)
17.4 (3.71)
15.2 (2.40)
14.1 (4.10)
11.6 (4.06)
16.6 (3.25)
15.7 (4.34)
14.1 (4.46)
13.5 (4.21)
16.7 (3.29)
16.8 (3.51)
Примечание. Все оценки коэффициентов значимы на 5%-ном уровне.
Жилая площадь
Рис. 3. Линии уровней значений оценок коэффициентов при переменной «жилая площадь»
\
75
№2(22) 2011
Таблица 2. Зависимость оценок коэффициентов регрессии при переменной «площадь кухни» от координат X, У
У X
53
54
55
56
57
58
59
60
61
62
63
64
о
0 §
1
Щ
5?
I
I
&
I ф а о X
л £
та Ч Й
л £
та о
о &
! о
г
м Ч
>8 £
0 ф
1 &
Ф §
0
1 §
О
36 35 34 33 32 31 30 29 28 27
6
(2.2) 6
(2.20)
5.2
(2.24) 6
(2.22)
7.8 9 7.8
(1.95) (1.82) (1.87)
6.9 8.6 8.3
(2.04) (1.92) (1.88)
7.4 8.1 10
(2.03) (2.04) (2.04)
8.2
(2.02)
7
(2.28)
9.8 (2.23)
13.5 (2.18)
12.5 (2.22)
9.8 (1.96)
8.6
(1.89)
12.2 (2.18)
10.1
(2.33)
11.7
(2.38)
18.2 (2.26)
14.7 (2.19)
12.3 (2.17)
10.4 (2.04)
12.1 (2.05)
9.6 (2.03)
9.4
(2.15)
9.9 (2.22)
17.3 (2.05)
19.3 (2.29)
18.5 (2.29)
14.3 (2.32)
11.2 (1.79)
3.5 (2.20)
6.8
(2.67)
15.4 (3.15)
29.1 (3.04)
27.7 (2.75)
10.2 (1.72)
8.4 (3.26)
20.1 (4.03)
26.1 (3.55)
-4.4 (2.2)
-6.6 (3.15)
9.3
(3.87)
23.7 (4.79)
26.8 (4.23)
-6.4 (2.66)
15.7 (4.53)
18.7 (4.24)
-7
(2.99)
3.9 (4.22)
14
(4.58)
16.9 (4.36)
-7.7 (3.04)
-7
(3.19)
Площадь кухни
Рис. 4. Линии уровней значений оценок коэффициентов при переменной «площадь кухни»
№2(22) 2011
Отметим, что квадраты с наиболее дорогими площадями комнат и кухни не совпадают. §
На наш взгляд, это отражает специфику застройки разных районов города, которые не уда- ¡5 ется адекватно измерить и включить в состав регрессоров.
Еще одной особенностью этих центральных квадратов является то, что дополнитель- оа ный метр кухни стоит дороже дополнительного метра жилой площади, так, для квадрата
X = 57, У = 32 эти стоимости равны 18.2 и 14.1 тыс. руб. соответственно. На окраинах го- §
рода расположены зоны с относительно дешевыми кухнями. Кухонный метр по сравнению щ
с жилым здесь стоит меньше или столько же. Ч
Выделяется квадрат X = 63, У = 33, в котором коэффициент регрессии отрицательный д
и незначимый. Это можно объяснить типичностью застройки данного района — для всех |
домов размеры кухни практически одинаковы и не являются определяющим параметрами ^
в цене. оа
Геокодированные данные существенно расширяют возможности экономического исследования пространственно распределенных явлений и процессов. Для моделирования цен на вторичном рынке жилья Саратова в работе был использован подход географически взвешенной регрессии. Переменные коэффициенты модели, плавно изменяющиеся по территории, позволяют в агрегированной форме отразить закономерности и локальные особенности ценообразования на вторичном рынке жилья, которые трудно воспроизвести стандартными методами.
Айвазян С. А., Мхитарян В. С. (2001). Прикладная статистика и основы эконометрики. М.:
Магнус Я. Р., Катышев П. К., Пересецкий А. А. (2006). Эконометрика. Начальный курс. М.: Дело.
Anselin L. (1988). Spatial econometrics: Methods and models. Dordrecht: Kluwer Academic.
Anselin L. (2006). Spatial Econometrics. In: Palgrave handbook of econometrics: Volume 1. Econometrics theory, 901-941. Basingstoke: Palgrave Macmillan.
BavaudF. (1998). Modelsforspatialweights: A systematiclook. Geographical Analysis, 30, 153-171.
Cliff A., Ord J. K. (1973). Spatial autocorrelation. London: Pion.
Cliff A. D., Ord J. K. (1981). Spatialprocesses: Models and applications. London: Pion Limited.
Fotheringham A. S., Brunsdon C., Charrlton M. (2002). Geographically weighted regression the analysis ofspatially varying relationships. New York: Wiley.
Haining R. (2004) Spatial data analysis: Theory andpractice. Cambridge: Cambridge University Press.
LeSage J. P. (1999). The theory and practice of spatial econometrics. Department of Economics, University of Toledo.
LeSage J. P. (2001). Econometrics toolbox for MATLAB. http://www.spatial-econometrics.com/.
Lloyd C. D. (2007). Local modelsfor spatial analysis. CRC Press.
Schabenberger O., Gotway C. A. (2005). Statistical methodsfor spatial data analysis. CRC Press.
5. Заключение
Список литературы
юнити.