Научная статья на тему 'Нейросетевое моделирование в задаче массовой оценки нежилой недвижимости г. Москвы'

Нейросетевое моделирование в задаче массовой оценки нежилой недвижимости г. Москвы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
397
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / NEURAL NETWORKS / GRNN / MLP / МАССОВАЯ ОЦЕНКА / MASS APPRAISAL / УПРАВЛЕНИЕ НЕДВИЖИМОСТЬЮ / PROPERTY MANAGEMENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Борусяк Кирилл Константинович, Мунерман Илья Викторович, Чижов Сергей Сергеевич

В работе рассматриваются вопросы применения метода нейронных сетей в задачах массовой оценки нежилых помещений на примере комплекса муниципальной недвижимости Департамента имущества г. Москвы. Описаны особенности факторного пространства и проблемы, связанные со сбором и предобработкой данных для анализа. Впервые использованы обобщенно-регрессионные нейронные сети (GRNN), которые позволили снизить погрешность оценки до приемлемого уровня в 20%.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Борусяк Кирилл Константинович, Мунерман Илья Викторович, Чижов Сергей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Neural Network Modeling in the Problem of Mass Appraisal of Non-Residential Real Estate in Moscow

The paper analyses the use of neural networks for mass appraisal of commercial property applied to the real property of The Moscow City Property Department. Special features of the factor space and problems of data collection and preprocessing are described. General regression neural networks (GRNN) were first time used for appraisal purposes and made it possible to achieve the acceptable level of 20% relative error.

Текст научной работы на тему «Нейросетевое моделирование в задаче массовой оценки нежилой недвижимости г. Москвы»

выделении наиболее значимых факторов, воздействующих на темпы развития и эффективность сельскохозяйственного производства в России, а также при обнаружении факторов, тормозящих развитие.

Литература

Аграрная проблема Китая (конец XX - начало XXI века). М.: Ин-т Дальнего Востока РАН, 2009.

Денисов В.И. Приоритетные задачи экономического роста сельскохозяйственного производства в России // Международный сельскохозяйственный журнал. 2009. № 5.

Назаренко В.И. Россия и зарубежные страны. Модели аграрной политики. М.: Памятники исторической мысли, 2008.

Назаренко В.И. Теоретические основы аграрной политики на западе России. М.: Ин-т Европы РАН, 2009.

РАСХН. Статистические материалы. М.: Росстат, 2006-2008.

Российский статистический ежегодник. М.: Росстат, 2004-2008.

Сводные данные бухгалтерского отчета Минсельхозпрода. М.: Росстат, 2004-2008.

Agriculture and rural development, 2004-2008.

Agriculture in the European Union, 2004-2008.

Agriculture policies in OECD countries, 2004-2008.

General Report of the activities of the European Union, 2008.

USDA. Budget level and outlays, 2004-2008.

Рукопись поступила в редакцию 05.10.2009 г.

НЕЙРОСЕТЕВОЕ МОДЕЛИРОВАНИЕ В ЗАДАЧЕ МАССОВОЙ ОЦЕНКИ НЕЖИЛОЙ НЕДВИЖИМОСТИ г. МОСКВЫ1

К.К. Борусяк, И.В. Мунерман, С.С. Чижов

В работе рассматриваются вопросы применения метода нейронных сетей в задачах массовой оценки нежилых помещений на примере комплекса муниципальной недвижимости Департамента имущества г. Москвы. Описаны особенности факторного пространства и проблемы, связанные со сбором и предобработкой данных для анализа. Впервые использованы обобщенно-регрессионные нейронные сети (GRNN), которые позволили снизить погрешность оценки до приемлемого уровня в 20%. Ключевые слова: нейронные сети, GRNN, MLP, массовая оценка, управление недвижимостью.

Основополагающую роль в управлении обширными комплексами недвижимости играет массовая оценка. Массовая оценка предполагает построение математической модели, позволяющей оценить с заранее известной точностью рыночную стоимость объектов определенной группы на основе ограниченного и фиксированного набора их основных це-нообразующих характеристик.

В условиях кризиса рынка недвижимости данная задача приобретает особую актуальность при решении ряда проблем. Среди них мониторинг состояния залогов в банковской системе и их возможной эрозии за счет

© Борусяк К.К., Мунерман И.В., Чижов С.С., 2009 г.

1 Авторы благодарят В.Э. Меладзе за ценные обсуждения и комментарии.

обесценения, планирование инвестиционных программ государственных и частных институтов, деятельности строительных компаний и связанных с ними финансовых организаций. Преимущества массовой оценки перед индивидуальной во всех этих случаях достаточно велики: объективность, достигаемая за счет ослабления влияния человеческого фактора, возможность проведения оценки в режиме online с мгновенным пересчетом стоимости при появлении новых рыночных данных, относительно низкая стоимость внедрения по сравнению с процедурами индивидуальной оценки.

При управлении муниципальным имуществом, например при заключении договоров его аренды, законодательство требует обязательного проведения индивидуальной оценки. Однако в условиях, когда ежегодно необходимо определять арендные ставки и цены продажи десятков тысяч объектов, индивидуальная оценка является чрезвычайно затратным инструментом с точки зрения денежных средств и временного ресурса. Более того, точность индивидуальной оценки будет в этом случае достаточно низкой, так как оценщик не способен с помощью рутинного инструментария подробно изучить за ограниченное время семантические и локальные географические особенности каждого из тысяч объектов недвижимости2.

Типичная погрешность моделей массовой оценки - 20%. Хотя при тщательном проведении индивидуальной оценки ее точность (которая, впрочем, не указывается в отчетах) может быть существенно выше, в рассматриваемой ситуации большого объема работы она может уступать массовой оценке по качеству. Кроме того, даже в ситуациях, когда проведение индивидуальной оценки обязательно, эффективность управления существенно повышается при наличии внутренней системы

2 Под семантическими характеристиками мы понимаем здесь свойства объекта недвижимости, влияющие на его инвестиционную привлекательность (без учета расположения), - состояние помещения, наличие охраны и т.п.

принятия оперативных решений, контроля оценщиков и арендаторов, прогнозирования доходов и бюджетирования на основе моделей массовой оценки.

В данной работе мы рассмотрим подходы к моделированию рыночной стоимости и справедливых арендных ставок нежилой недвижимости (офисов, магазинов и помещений складского и производственного назначения) нейросетевыми методами. В задачах массовой оценки впервые применяются обобщенно-регрессионные нейронные сети (GRNN). Сравнение с традиционными нейронными сетями показывает более высокую точность моделей GRNN и их релевантность управленческим задачам.

Автоматизированная система массовой оценки на основе рассмотренной модели была разработана специалистами ООО «Институт управления стоимостью» и ЗАО «Производственно-коммерческая дирекция» и успешно внедрена в Департаменте имущества г. Москвы в 2008 г. Построение моделей производилось с использованием математического пакета MATLAB R2006a, интегрированного с базой исходных данных в СУБД Oracle. Программной оболочкой системы стал веб-сервис, за счет чего загрузка серверов распределялась между обработкой запросов пользователей (как внутренних, так и из сети Интернет) и расчетами по модели в MATLAB.

1. ПРЕИМУЩЕСТВА И ПРОБЛЕМЫ НЕЙРОСЕТЕВОГО МОДЕЛИРОВАНИЯ

Массовая оценка недвижимости является одной из наиболее классических для сферы экономики задач, в которых успешно применяются нейронные сети (Аналитические технологии..., 2005). К другим из них можно отнести оценку кредитного риска и прогнозирование банкротства, стоимости производных финансовых инструментов, прогнозирование денежных потоков, в меньшей степени - прогнозирование доходностей финансовых инструментов

и построение торговых стратегий (см. (Бэстенс и др., 1997; Leung at al., 2000). Размерность факторного пространства высока, выборки достаточно объемны, зависимости цен от факторов нелинейны и их форма неизвестна заранее - идеальные условия для нейросетевого моделирования. Обычные эконометрические модели (например, линейные или мультипликативные) в этом случае работают достаточно плохо: к примеру, в работе (Бывшев и др., 2008) аддитивная эконометрическая модель, полученная в результате редукции незначимых факторов, предполагает, что офисы (и объекты других назначений) класса B и класса D имеют одинаковую справедливую арендную плату.

Однако построение нейросетевых моделей связано с рядом принципиальных проблем.

1. Проблемы выборки. В отличие от ряда развитых стран (например, США, за исключением нескольких штатов, см. (Berrens, McKee, 2004)), в России отсутствует система обязательного публичного раскрытия информации о сделках с недвижимостью, при которой сумма сделки и основные характеристики помещения, подлежащего продаже или сдаче в аренду, предоставляются в форме анкеты в соответствующие органы и агрегируются на открытых веб-сайтах.

В связи с этим достоверная информация о сделках с недвижимостью крайне ограничена даже в Москве, а тем более в остальных городах России. Источниками информации (прямыми или опосредованными через риэлтерские базы данных) являются объявления о продаже или сдаче в аренду недвижимости в специализированных газетах или в сети Интернет. В отличие от заключенных сделок цены в таких объявлениях являются предварительными, и практика показывает, что многие из объявлений не актуальны, а цена в них заведомо искажена. Фактически каждый элемент выборки, объем которой может насчитывать десятки тысяч титулов, должен быть проверен путем обзвона и (или) выезда на местность.

Кроме искажений, типичный размер которых составляет до 20-30% цены, выборка

содержит заметную долю явных выбросов, для которых ошибка превышает истинное значение цены или арендной ставки. Эти наблюдения необходимо выявлять и исключать или исправлять.

Не только достоверное определение цены представляет сложность. Если в любой риэлтерской базе данных имеются данные по расположению и площади помещения, то необходимая информация о наличии охраны, парковки, состоянии помещений и прочих факторах доступна лишь в отдельных случаях. Эту информацию необходимо выявлять дополнительно либо заменять пропуски средними (для качественных признаков - модальными) значениями.

Для решения вышеперечисленных проблем разработано и апробировано несколько методов, которые позволяют существенно повысить точность исходных данных без существенного роста затрат на формирование выборки. Первым из этих методов является применение семантических анализаторов, основанных на регулярных выражениях. Они применяются для обработки объявлений о продаже или аренде недвижимости и выявления регулярных (устойчивых слов или словосочетаний), которые позволяют привести текст объявления к стандартному виду анкеты, предназначенной для анализа. Особую важность приобретает применение данного метода при анализе поля «Адрес», поскольку вариантов написания названия одной улицы существует достаточно много, а используемые базы данных это поле редко стандартизируют. Вторым методом нам служит набор решающих правил, которые позволяют исключить заведомо абсурдные анкеты, содержащие нереальное сочетание различных признаков объекта недвижимости, например класс А и стихийная парковка. Третьим методом выступают матрицы граничных условий, составленные на основе эмпирических данных рынка недвижимости, содержащие достаточно широкие значения стоимостных диапазонов для того, чтобы, не ухудшая качество анализа, отсекать объявления с заведомо недостоверными дан-

ными, возникающими за счет ошибок ввода. Такими ошибками обычно являются лишние нули, перепутанные ставки аренды и цены продажи, а также валюты, использованные в объявлении. И наконец, четвертый, классический метод состоит в использовании квалифицированных сотрудников колл-центра, проверяющих объявления и заполняющих анкеты вручную. Использование комплекса данных методов позволяет собирать достаточно достоверную информацию, причем не только на относительно насыщенном московском рынке, но и в регионах.

2. Проблемы факторов. Классические приемы математического моделирования экономических процессов лучше всего работают в случае, когда все зависимые факторы являются количественными. В задаче определения цены объекта недвижимости факторное пространство устроено весьма сложно. Во-первых, большинство семантических факторов является качественными: неупорядоченными категориями (например, назначение помещения), бинарными признаками (признак аренды или продажи) или упорядоченными категориями (состояние помещения - от аварийного до отличного).

Во-вторых, для некоторых семантических характеристик отсутствуют единые шкалы измерения. Класс помещения (от F до А) определяется его владельцем самостоятельно без четких критериев, поэтому один и тот же объект может быть отнесен к различным классам.

Наконец, важнейшую роль играет расположение объекта - географический фактор, кодирование которого в виде набора качественных и количественных характеристик представляет собой нетривиальную задачу. Простое использование географических координат не является решением проблемы, так как ценообразующими факторами здесь выступают не они, а, например, близость здания к станциям метро и автомагистралям, престижность района и т.п.

3. Проблемы динамики цен. Любая оценка стоимости предполагает фиксированную дату

оценки. Однако модели массовой оценки являются кросс-секционными: они изучают различия в ценах и арендных ставках между помещениями с различными характеристиками, а не характеристики цены как временного ряда, ее динамику.

Выборка исходных данных включает сделки, осуществленные в течение определенного периода, который для расширения выборки было бы желательно сделать достаточно длинным. Однако с учетом достаточно быстрого изменения цен на рынке недвижимости в условиях мирового финансового кризиса использование устаревших данных (более нескольких месяцев) недопустимо.

2. ВЫБОР ФАКТОРОВ И ПОДГОТОВКА ИСХОДНЫХ ДАННЫХ

Для того чтобы решить описанные в предыдущем разделе проблемы, необходимо тщательно подготовить исходные данные. Выбор факторов и предобработка данных являются первым этапом моделирования, играющим важнейшую роль. Первичный набор факторов, определявшийся экспертным путем с учетом наличия достаточного количества информации в основных риэлтерских базах, составил:

• выходная переменная: цена аренды или продажи объекта недвижимости;

• количественные факторы: общая площадь помещения (м2);

• бинарные факторы: тип операции (аренда или продажа);

• неупорядоченные категории: назначение помещения (офисное, торговое, складское);

• упорядоченные категории: класс, состояние помещения, характеристика парковки и охраны, этажность3;

3 Этажность отнесена к качественным факторам, поскольку задается скорее своим текстовым описанием, чем числом. К значениям этого фактора могут относиться такие уровни, как «здание целиком», «со второго по четвертый» и т.п.

• географические факторы: расположение объекта.

Количественные факторы (с учетом преобразований, которые будут рассмотрены ниже) используются в модели в неизменном виде. Бинарные факторы задаются переменными-признаками: для типа операции «продажа» переменная была принята за единицу, а «аренда» - за ноль. Неупорядоченные категории преобразуются в набор бинарных переменных, соответствующих всем уровням, кроме базового. В качестве базового назначения было выбрано складское (производственное).

Преимущество нейронных сетей перед моделями множественной регрессии состоит в том, что нет необходимости преобразовывать упорядоченные категории в набор бинарных переменных, теряя порядок значений, обусловленный экономическими причинами. Так как зависимости в нейронных сетях нелинейны, достаточно указать произвольные числовые значения, монотонно связанные с уровнями фактора, например последовательные целочисленные значения или усредненные значения цены в разрезе соответствующих категорий.

Расположение объекта было задано следующим набором потенциально ценообразу-ющих факторов:

• престижность округа (неупорядоченная категория);

• расположение здания: на автомагистрали, оживленной или удаленной улице (упорядоченная категория);

• расстояние до центра Москвы (измеряется от центра здания, в котором находится помещение);

• расстояние до ближайшей станции метро;

• расстояние до Третьего транспортного кольца;

• расстояние до ближайшей автомагистрали (крупного проспекта или кольца).

Использование среднего значения цены в разрезе качественного фактора допустимо не только для упорядоченных категорий, но и для других качественных факторов. В со-

ответствии с этим подходом престижность округа кодировалась с помощью его «рейтинга», который был рассчитан по формуле

Я, = £(а/ - а )5 3,

3=о

где г - номер округа; j - тип операции (0 -аренда, 1 - продажа); У - доля аналогов с типом операции у; а{ - средний логарифм суммы сделок в данном округе с данным типом операции; а] - его среднее значение по всем округам. В итоге равен среднему относительному превышению цен аренды или продажи в данном округе над средними ценами по Москве.

В приложении А приведена таблица факторов с указанием числовых значений, соответствующих каждому из их уровней. Отметим, что пропуски в данных заменялись модальными или средними значениями фактора и кодировались числом 0.

Подготовка исходных данных включала в себя несколько этапов:

• агрегирование информации из различных источников в единую базу данных;

• исключение повторяющихся наблюдений - исключались точные повторы записей, попавшие из различных источников информации;

• индексация цен с использованием экзогенных индексов, описывающих тренды в ценах на недвижимость (в данной работе не проводилась);

• функциональное преобразование факторов - к ценам и площади помещения было применено логарифмическое преобразование. Кроме того, чтобы избежать разделения выборки на отдельные группы по аренде и по продаже, к арендным ставкам был применен коэффициент капитализации 1/г, где г = 12% -типичное значение валового рентного мультипликатора;

• исключение выбросов;

• нормирование факторов путем вычитания минимального значения и деления на размах вариации фактора.

Для исключения выбросов были использованы матрицы граничных значений (МГЗ): по каждому типу операции и назначению помещения определены границы допустимых цен, за пределами которых наблюдение признавалось заведомо ошибочным и исключалось. Для вычисления матриц граничных значений применялись два способа: экспертный и способ на основе межквартильного промежутка. Последний состоит в том, что если Q1 и Q3 - нижняя и верхняя квартили распределения логарифмированных цен, то выбросом можно считать наблюдение, для которого логарифм цены лежит вне интервала Q - IQR; Q3 + IQR], где IQR = Q3 - Qx - межквартиль-ный промежуток (см. (Moore, McCabe, 1999)). В итоге матрицы, полученные двумя способами, оказались достаточно близки. Результирующая матрица приведена в таблице.

Выборка составила суммарно 18 182 наблюдения, распределение которых по основным факторам приведено на рис. 1. Выборка была случайно разделена на обучающую (80%), валидационную (10%) и тестовую (10%).

3. АРХИТЕКТУРА НЕЙРОННОЙ СЕТИ: СЕТИ MLP И GRNN

В предыдущем разделе мы подробно рассмотрели исходные данные, которые легли в основу построения моделей массовой оценки нежилой недвижимости. Перейдем теперь к рассмотрению этих моделей.

В силу описанных выше причин методом моделирования стали искусственные нейронные сети. Они являются мощным инструментом для решения различных задач - распознавания, кластеризации, прогнозирования и др. Для каждой из этих задач существуют различные архитектуры нейронных сетей (виды нейронов, связей между ними, структуры сети), способы обучения сети и критерии оценки качества модели.

В задаче выявления зависимостей между переменными (регрессии) наиболее часто

Таблица 1

Матрица граничных значений для арендных ставок (долл./м2 в год) и цен продажи (долл./м2) нежилой недвижимости г. Москвы

Тип операции Назначение помещения Границы допустимых значений

Аренда Офисное Торговое Складское 354.7 382.8 144,4 1817,1 3110,8 511,5

Продажа Офисное Торговое Складское 2844,7 2563,5 676,1 21 786,0 30 680,5 6889,9

1657 / 64261 Л 13 105 Х^^ // /10 099

ПАреда ППродажа П Офисное ^Торговое П Складское

Рис. 1. Распределение выборки исходных данных по типам операции и назначению помещения

используются многослойные персептроны (multi-layer perceptron, MLP). Сети MLP состоят из входного слоя, на который подаются значения факторов, скрытого слоя и выходного слоя, на котором формируется результат. Настройка нейронной сети происходит путем оптимизации коэффициентов связи между нейронами с целью снижения средней относительной погрешности прогноза. Многослойные персептроны близки идеологии массовой оценки, так как позволяют выявлять глобальные закономерности в данных. Они являются нелинейными параметрическими моделями -обобщением регрессионных моделей.

Важной альтернативой сетям MLP являются обобщенно-регрессионные нейронные сети (GRNN, general regression neural network) (Specht, 1991), основанные на радиально-базисной функции (RBF). Такие сети успешно

применялись в различных технических задачах, однако достаточно редко в сфере финансово-экономических исследований. К таковым можно отнести работу (Leung at al., 2000), в которой GRNN использовались для прогнозирования обменных курсов валют, а также работы (Wittkemper, Steiner, 1996, 1997), посвященные оцениванию систематического риска вложения в акции и оптимизации портфеля.

В задачах оценки рыночной стоимости недвижимости, насколько известно авторам, обобщенно-регрессионные сети ранее не применялись. В то же время архитектура сетей GRNN (сильно отличающаяся от MLP) близка по идеологии к сравнительному подходу в индивидуальной оценке.

Сеть имеет один скрытый слой, и количество нейронов в нем совпадает с количеством наблюдений в обучающей выборке -сеть фактически запоминает выборку внутри себя. Оценка стоимости рассчитывается как средневзвешенное значение выходного фактора (цены) по выборке, где веса определяются расстоянием между объектом оценки и нейроном. Чем ближе объект оценки к некоторому наблюдению из обучающей выборки, тем больший вес имеет соответствующий нейрон. Таким образом, обобщенно-регрессионные сети GRNN являются адаптивным и автоматизированным обобщением метода ближайших соседей, активно используемого в индивидуальной оценке. Сети позволяют оценивать стоимость объекта недвижимости на основе локальных особенностей факторного пространства, отдавая предпочтение близким аналогам, но используя информацию всей выборки.

Еще одно важное преимущество сетей GRNN в управленческих задачах состоит в возможности определения и визуализации на карте объектов-аналогов, повлиявших сильнее всего на результат оценки. Это дает возможность проверки адекватности модели4 и интерактивного повышения ее точности. К приме-

4 К примеру, в сети GRNN можно убедиться, что расчет для склада на окраине не основывается на информации о магазине в центре Москвы.

ру, если сеть MLP для некоторого объекта дает неправдоподобный с экономической точки зрения результат, практически отсутствуют механизмы выявления причины и дополнительного улучшения модели. В сети же GRNN будет понятно, какой именно аналог (являющийся, скорее всего, выбросом) стал причиной ошибки, и его можно будет легко исключить.

Более подробное сравнение двух видов сетей приведено в приложении Б (см. также (Осовский, 2002, с. 157-158)). Из него следует, что, хотя сети GRNN более релевантны управленческим задачам, априорно предпочесть GRNN и отказаться от MLP нецелесообразно. Каждая архитектура имеет свои преимущества и недостатки, поэтому выбор между моделями следует осуществлять на основе сравнения количественных критериев качества.

4. КАЧЕСТВО МОДЕЛЕЙ И ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Критерием качества моделей использовались среднеквадратические относительные ошибки (СКОО) прогноза на тестовом множестве. Так как выборка (даже после предобработки данных) потенциально содержит определенную долю выбросов, для вычисления СКОО необходимо использовать робастные оценки. В противном случае можно не только получить недостоверное представление о точности модели, но и снизить ее, так как оптимизация параметров сети будет нацелена в большей мере на сглаживание выбросов, а не на повышение истинной точности прогноза.

В качестве оценки точности использовался нормированный межквартильный промежуток:

где в j и s3 - нижний и верхний квартили относительных ошибок прогноза, а 1,349 - нормировочный коэффициент (Interquartile range).

IQRS - один из робастных критериев, рекомендованных Стандартом по анализу соотношения стоимостей (Стандарт..., 2003, п. 5.4.2).

Сети MLP настраивались на обучающем множестве для различного количества нейронов, после чего оптимальный размер скрытого слоя определялся путем сравнения IQRS на валидационном множестве. Наилучшая модель MLP содержала 36 нейронов скрытого слоя (рис. 2), ее средняя относительная ошибка составила 30,5%.

Аналогично сеть GRNN запоминала обучающее множество, а затем проводилась оптимизация масштабирования факторов в целях снижения СКОО на валидационном множестве. Средняя относительная ошибка наилучшей модели GRNN составила 20,0%.

Для сравнения между архитектурами сетей (GRNN и MLP) использовался критерий IQRS для ошибок на тестовом множестве. Сравнение показало, что точность сети GRNN (как и на валидационном множестве) существенно выше: 20% против 35%.

Отметим, что линейная модель множественной регрессии (см. приложение В) позволяет достичь наименьшей погрешности 37,1% на обучающем множестве (на тестовом множестве ошибка возрастает еще сильнее), хотя все коэффициенты значимы и их знаки соответствуют экономической интуиции. Бо-

Количество нейронов скрытого слоя

Рис. 2. Зависимость СКОО сети MLP от количества нейронов скрытого слоя

лее того, добавление в модель статистически значимых квадратов факторов и их попарных произведений позволяет снизить СКОО лишь незначительно (до 36,2%). При этом для обеих моделей (как до включения нелинейных по экзогенным переменным членов, так и после их добавления) RESET-тест Рамсея (Ramsey, 1969) отвергает гипотезу о верной спецификации модели. Это говорит о наличии существенной нелинейности в связях между эндогенной и экзогенными переменными.

Таким образом, регрессионные модели могут использоваться для верификации нейросетевых моделей, чтобы убедиться, что полученные взаимосвязи действительно имеются и носят нелинейный характер, а не являются результатом простой подгонки большого количества свободных коэффициентов синаптических связей нейронной сети. В то же время высокая погрешность регрессионных моделей не позволяет применять их на практике.

Напротив, полученная погрешность в модели GRNN (20%) удовлетворяет Стандарту по автоматизированным оценочным моделям (Стандарт..., 2003, п. 8.4.5) и Стандарту по анализу соотношения стоимостей (Standard on Ratio Studies., 2007, табл. 1-3) Международной ассоциации налоговых оценщиков.

Следует отметить, что разница в качестве MLP и GRNN может быть связана с тем, что помещения зачастую сдаются группами из похожих лотов, например несколько офисов на разных этажах одного здания. Если один объект из такой группы попадет в обучающую выборку, а другой - в валидационную или тестовую, локальное взвешивание аналогов в сети GRNN покажет мнимую высокую точность. В то же время глобальный характер обобщения в сети MLP может лучше описывать зоны факторного пространства, в которых наблюдений меньше. Возможно, было бы целесообразно комбинировать модели с различными архитектурами сети: при наличии достаточного количества близких аналогов использовать GRNN, а при их отсутствии -MLP.

На рис. 3 приведены результаты массовой оценки арендных ставок торговых помещений в зависимости от расположения на территории г. Москвы. Остальные характеристики зафиксированы на стандартном уровне: арендные ставки соответствуют помещению класса D площадью 150 м2 в хорошем состоянии на первом этаже здания, без охраняемой парковки.

ЗАКЛЮЧЕНИЕ

В данной работе рассмотрены подходы к осуществлению массовой оценки нежилой недвижимости - офисных, торговых и складских помещений. С учетом большого количества ценообразующих факторов их сложной структуры, а также нелинейной зависимости между ценами и влияющими факторами, в качестве метода моделирования были выбраны нейронные сети. Настройка моделей на осно-

ве базы данных по сделкам с недвижимостью показала, что наилучшее качество показывает обобщенно-регрессионная нейронная сеть (GRNN). Этот результат согласуется с выводами работы (Leung at al., 2000), в которой проводится сравнение различных моделей для прогнозирования обменных курсов валют.

Среднеквадратическая относительная ошибка прогноза по модели составляет 20% -это типичная точность для моделей массовой оценки. Построенная модель позволяет повысить эффективность управления комплексами недвижимости в масштабах города или крупной корпорации и сделать этот механизм более прозрачным.

В то же время существует ряд направлений совершенствования модели, прикладную ценность которых предстоит изучить в дальнейшем. Среди них можно выделить:

• включение в модель временного фактора для учета и прогнозирования трендов на рынке недвижимости;

• точную географическую привязку объекта оценки путем включения в модель

Карта подготовлена с использованием программного обеспечения ГИС «Геокибернетика» на картографической основе ГУП «Мосгоргеотрест», а также адресной базы данных ГУП «МосгорБТИ».

Рис. 3. Ценовые поверхности для аренды торговых помещений в г. Москве

географических координат объекта в некоторой (например, полярной) системе;

• разработку механизма интерпретации результатов и определения основных аналогов, повлиявших на результат оценки, при использовании сети MLP;

• поиск оптимального комбинирования сетей MLP и GRNN в целях снижения общей погрешности;

• обобщение результатов и их распространение на другие города России с учетом их особенностей и создание единой системы массовой оценки недвижимости в масштабах страны. При одновременном внедрении обязательного публичного раскрытия информации о сделках по аренде и продаже это позволит перейти к налогу на недвижимость с его рыночной стоимости, о перспективах создания которого говорил Г.О. Греф (Налог на дорогую недвижимость.).

Литература

Аналитические технологии для прогнозирования и анализа данных: Учебник // Нейропроект. 2005 // http://www.neuroproject.ru/practice.htm.

Бывшев В.А., Богомолов А.И., Костюнин В.И. Оптимальное комбинирование прогнозов различных моделей массовой оценки стоимостных показателей объектов недвижимости // Актуальные проблемы математического моделирования в финансово-экономической области: Сборник научных статей / Под ред. д.т.н., проф. В.А. Бывшева. Вып. 7. М.: Финакаде-мия, 2008. С. 23-37.

Бэстенс Д.-Э., ван ден Берг В.-М., Вуд Д. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. М.: ТВП, 1997.

Налог на дорогую недвижимость может быть введен после 2010 года // РИА Новости, http://rian.ru/ ро1Шс8/20070330/62824307.Ыт1.

Осовский С. Нейронные сети для обработки информации: Пер. с польского И.Д. Рудинского. М.: Финансы и статистика, 2002.

Стандарт по автоматизированным оценочным моделям. Международное общество налоговых оценщиков, 2003.

Berrens R.B., McKee M. What price nondisclosure? The effects of nondisclosure of real estate sales prices // Social Science Quarterly. 2004. Vol. 85. № 2. Р. 509-520.

Interquartile range. Help for Statistics Toolbox in MATLAB // http://www.mathworks.com/access/ helpdesk/help/toolbox/stats/iqr.html.

Leung M. T., Chen A., Daouk H. Forecasting exchange rates using general regression neural networks // Computers & Operations Research. 2000. № 27. Р. 1093-1110.

Moore D.S., McCabe G.P. Introduction to the Practice of Statistics. 3rd ed. N.Y.: W.H. Freeman, 1999.

Ramsey J.B. Tests for specification errors in classical linear least-squares regression analysis // Journal of the Royal Statistical Society. Series B (Methodological). 1969. Vol. 31. № 2. Р. 350-371.

Specht D.F. A general regression neural network // IEEE Transactions on Neural Networks. 1991. Vol. 2. Issue 6. Р. 568-576.

Standard on Ratio Studies. International Association of Appraisal Officers, 2007 // http://www.iaao.org/ uploads/StandardOnMassAppraisal.pdf.

Wittkemper H., Steiner M. Using neural networks to forecast the systematic risk of stocks // European Journal of Operational Research. 1996. № 90. Р. 577-589.

Wittkemper H., Steiner M. Portfolio optimization with a neural network implementation of the coherent market hypothesis // European Journal of Operational Research. 1997. № 100. Р. 27-40.

ПРИЛОЖЕНИЕ А. ВХОДНЫЕ ФАКТОРЫ МОДЕЛИ

Фактор Уровень Значение

Площадь (Количественный) м2

Тип операции Аренда 0

Продажа 1

Класс помещения А +3

В +2

С +1

Б или нет данных 0

Е -1

F -2

Расположение здания Автомагистраль +1

Оживленная улица или нет данных 0

Удаленная улица -1

Состояние помещения Отличное +2

Хорошее +1

Удовлетворительное или нет данных 0

Требует ремонта -1

Аварийное -2

Наличие охраны Имеется 1

Отсутствует или нет данных 0

Наличие лифта Имеется 1

Отсутствует или нет данных 0

Этажность 1-й этаж или несколько, включая первый +2

2-й этаж или выше второго +1

Нет данных 0

Цоколь -1

Подвал -2

Округ ЦАО +0,59

ЗАО +0,21

ЮЗАО +0,10

СВАО -0,14

САО -0,15

СЗАО -0,20

ЮАО -0,33

ВАО -0,38

ЮВАО -0,55

Расстояние до центра Москвы (Количественные) м

Расстояние до ближайшей станции метро

Расстояние до ТТК

Расстояние до ближайшей автомагистрали

ПРИЛОЖЕНИЕ Б. СРАВНЕНИЕ СЕТЕЙ MLP И GRNN

Характеристика Сеть с архитектурой MLP Сеть с архитектурой GRNN

Связь с методологией оценки Ближе к методологии массовой оценки Ближе к методологии индивидуальной оценки

Класс статистических методов Обобщение параметрических регрессионных моделей Обобщение непараметрических методов ближайших соседей

Способ прогнозирования Выявляет глобальные нелинейные зависимости Выявляет локальные зависимости

Робастность по отношению к аналогам-выбросам Выбросы влияют на многие объекты оценки, но слабо Выбросы влияют только на близкие к ним аналоги, но сильно

Возможность интерпретации результатов Низкая. Только с помощью анализа «что, если?». Прогноз стоимости является недетерминированным: настройка сети зависит от случайных начальных параметров. Малое изменение количества нейронов может привести к существенному изменению прогнозов Высокая. Архитектура не зависит от дополнительных параметров, стоимость однозначно и прозрачным образом определяется на основе выборки

Возможность выделения аналогов, повлиявших на оценку Отсутствует. Выборка не сохраняется сетью, используются только обобщенные зависимости Есть. Для каждого объекта оценки позволяет определить повлиявшие на результат аналоги и выявить источники погрешности

Вычислительные проблемы Возможно длительное время настройки Большой объем требуемой памяти. Имеются вычислительные проблемы, связанные с работой со сверхмалыми числами (весами нейронов в ситуации, когда для объекта оценки отсутствуют близкие аналоги)

Зависимость от метрики исходных данных Слабая. Сеть до некоторой степени способна самостоятельно масштабировать и монотонно преобразовывать исходные данные Сильная. Неправильная метрика приведет к чрезмерному вниманию к некоторым факторам и игнорированию других. Требуется тщательная настройка масштабирования исходных данных

ПРИЛОЖЕНИЕ В. ХАРАКТЕРИСТИКИ РЕГРЕССИОННОЙ МОДЕЛИ

В таблице приведены коэффициенты модели линейной множественной регрессии, полученные в статистическом пакете EViews. Объясняемой переменной служила логарифмированная цена аренды и продажи недвижимости, скорректированная при помощи коэффициента капитализации (см. основной текст). Объясняющие переменные описаны в приложении А.

Экзогенная переменная Коэффициент Среднеквадратиче-ская ошибка ^-статистика Р-значение

Константа 7,350085 0,057490 127,8508 0,0000

Площадь (логарифмированная) -0,050277 0,002878 -17,46855 0,0000

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тип операции 0,194254 0,009254 20,99092 0,0000

Назначение: офисное 0,768254 0,012764 60,19032 0,0000

Назначение: торговое 1,005748 0,013009 77,30991 0,0000

Класс помещения 0,056871 0,005678 10,01662 0,0000

Расположение здания 0,053298 0,005633 9,462557 0,0000

Состояние помещения 0,047184 0,005259 8,971299 0,0000

Этажность 0,038743 0,002380 16,27945 0,0000

Округ 0,296005 0,011787 25,11218 0,0000

Расстояние до центра Москвы -0,063908 0,006535 -9,779804 0,0000

Расстояние до метро -0,112989 0,004217 -26,79096 0,0000

Расстояние до ближайшей

магистрали -0,006815 0,003165 -2,153425 0,0313

СКОО построенной модели - 37,08%, коэффициент детерминации Я2 составляет 56,56% (исправленный Я2 - 56,51%).

Р-значение RESET-теста с четырмя включенными степенями расчетных значений эндогенной переменной менее 0,0001, т.е. линейная форма регрессионной зависимости отвергается.

Рукопись поступила в редакцию 08.07.2009 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.