№>5(11)2007
М.Г. Тиндова
Интеллектуальная обработка информации в области оценки недвижимости
Реализация национального проекта «Доступное и комфортное жилье — гражданам России» делает рынок недвижимости одной из наиболее динамично развивающихся сфер российской экономики. Значительный удельный вес активов юридических и физических лиц приходится на недвижимость, и это делает актуальной задачу определения ее стоимости. В статье предлагается расширение и уточнение традиционной концепции оценки недвижимости при помощи систем, основанных на интеллектуальных средствах обработки информации.
В рыночных условиях стоимость имущества зависит от влияния различных факторов, тенденций и изменений в экономике и жизни общества в целом.
Из всех существующих методов оценки недвижимости оптимальным в этом случае является метод сравнения, который состоит в сопоставлении цен недавних продаж аналогичных объектов недвижимости на эффективно функционирующем свободном рынке.
В 90-х годах появились пакеты прикладных программ, дающие возможность оценки недвижимости с помощью нейронных сетей. Один из наиболее развитых пакетов — Neural tools package фирмы «НейроОК». Эта программа представляет собой надстройку для электронной таблицы MS Excel. Данная программа реализует процесс оценки недвижимости в виде многослойного пер-септрона, в котором входными нейронами являются оцениваемые параметры модели. Персептрон — многослойная нейронная сеть, обучаемая по алгоритму обратного распространения ошибки. При этом возникает задача идентификации необходимого числа скрытых слоев и количества нейронов в каждом слое, а также ряд других, не менее важных параметров нейронной сети. Для каждого класса оценки исследователь сам определяет все эти параметры, что осложняет процесс построения модели.
Однако, несмотря на существование довольно внушительного теоретико-практического фундамента классических методов оценки объектов недвижимости, следует отметить, что применение в данном процессе современных инструментальных средств интеллектуальной обработки информации достаточно незначительно.
Традиционная концепция оценки недвижимости в данной статье расширяется и уточняется с помощью систем, основанных на интеллектуальных средствах обработки информации. Такое расширение включает в себя следующие этапы.
1. Сбор исходных данных.
2. Формирование базы масштабированных данных.
3. Создание математической модели оценки недвижимости.
4. Оценка параметров модели на основе непараметрических методов статистики.
5. Формулировка задачи в нейросете-вом базисе.
6. Анализ параметров математической модели оценки недвижимости, основанный на результатах обучения нейронной сети.
7. Выбор архитектуры и обучение карт Кохонена.
8. Составление информационного атласа на основе синтеза карт Кохонена и ГИС-карт города.
li95(11)2007
9. Создание базы знаний в форме лингвистических правил управления на основе анализа карт Кохонена и математической модели оценки недвижимости.
Предлагаемый подход к оценке объектов недвижимости позволяет расширить круг решаемых оценочных задач. В этом случае в математической модели учитывается субъективность, и тем самым повышается точность расчетов и снижаются затраты на их корректировку с течением времени.
Программная реализация описанного расширения классической схемы оценки недвижимости представляет собой интеграцию известных программных средств.
Начальный этап — составление базы данных — осуществляется в Exсel. Здесь данные сохраняются в виде таблицы, в строках которой располагаются объекты недвижимости, в столбцах — характеристики, влияющие на стоимость. Поскольку многие из характеристик являются качественными, £ то одновременно с составлением базы дан-g ных проводится ее ранжирование. Ц Следующий шаг — статистическая обра-¡5 ботка — проводится с помощью программ-| ного продукта STATISTICA. При этом обра-| батываются данные, составленные в Exсel. ® Целью подобной обработки является опре-<3 деление взаимосвязи между выбранными характеристиками, т.е. определение коэффициентов Спирмена, значения которых § сохраняются в отдельном файле. ■1 Для построения и обучения нейронных сетей и карт автор использовала программ-i ную среду Matlab. Обучающей выборкой S при этом являлись данные, составленные Ц в Exсel, в качестве вектора начальных весов — файл данных, полученных после ста-| тистической обработки. г§ Этап визуализации ранее полученных ^ результатов автором осуществлялся с ис-[Ц пользованием возможностей MapInfo. При Й этом происходило наложение нейронных ss карт Кохонена на геоинформационные карты города Саратов.
4
Последний этап процесса оценки недвижимости на основе интеллектуальных средств обработки информации, состоящий в разработке нечеткой логической системы оценки, реализовывается в работе с использованием системы Anfis программной среды Matlab.
Работа пользователя с данной системой оценки недвижимости осуществляется в режиме «вопрос-ответ», задаваемых в среде Matlab.
Для построения модели оценки недвижимости и обучения нейронной сети была сформирована база данных. С этой целью был исследован рынок жилой недвижимости города Саратов за период с марта 2004 года по март 2005 года. Параметры, влияющие на ценообразование недвижимости: географические координаты (18 районов города) — X!; дата сделки — х2; этажность здания — х3; этаж квартиры — х4; число комнат — х5; площадь: жилая, общая, кухни — х6; расположение на первом или последнем этажах — х7; наличие балкона, лоджии — х8; планировка — х9; дата постройки — х10; состояние квартиры — х11.
Исходные данные по каждому объекту недвижимости образуют вектор входных параметров модели. База данных рассматривается как признаковое пространство, состоящее из векторов вида:X; = (х1;,...,х11,,у,), где X — параметры исследования, у — цена объекта недвижимости.
Следующим этапом построения инструментального средства поддержки принятия решений в области оценки недвижимости является анализ построенной модели статистическими методами. Для этого строится уравнение линейной регрессии зависимости цены у от показателей х 1,...,х11. Это дает возможность проверить степень адекватности построенной модели на начальном этапе, т.е. определить значимость выбранных параметров исследования, их влияние друг на друга и на модель в целом, а также закладывает основу для дальнейшего анализа.
Статистический анализ показал, что наиболее значимыми параметрами при
№>5(11)2007
оценке недвижимости являются переменные хи х10 и х„.
На следующем шаге строится нейронная сеть Кохонена с количеством входов равным числу исследуемых параметров. Сеть Кохонена состоит из одного слоя нейронов, который организован в виде двумерной матрицы. Число входов каждого нейрона равно размерности входного образа. Данные, подаваемые на вход XI, представляют собой массив, в столбцах которого расположены объекты (объекты жилой недвижимости), в строках — их характеристики (исследуемые показатели).
Начальный вектор весов W! определяется исходя из анализа коэффициентов Спир-мена исследуемых параметров. Это позволит, во-первых, даже на начальном этапе обучения сети отразить ее структуру, и тем самым сократить время обучения сети; во-вторых, в один кластер будут отнесены сильно коррелированные объекты.
В результате обучения сети Кохонена векторы обучающего множества разбиваются на кластеры в 11-мерном пространстве, центрами которых являются векторы весов нейронов.
Для определения цены у нового объекта недвижимости на вход обученной сети подается вектор с координатами (х 1,...,х11). Сеть Кохонена оптимальным образом выберет кластер, к которому данный вектор можно отнести, и тогда в качестве у можно принять среднее значение для этого кластера.
Следующим этапом исследования является решение вопроса визуализации полученных результатов. Для этого в нашем исследовании предлагается использовать карту Кохонена, нейроны которой расположены в узлах прямоугольной сетки. В результате ее обучения узлы карты совпадут с расположением основных скоплений объектов в признаковом пространстве.
Полученную таким образом карту можно представить в виде «слоеного пирога», каждый слой которого — «раскраска», порожденная одной из компонент исходных дан-
ных. Например, для получения «раскраски» § по переменной у — цена, на входы обучен- ^ ной сети подаем последовательно условия Й у >1500, затем 1000 < у < 1500, 500 < у <1000 ^ и у<500. По отклику сети определяются ячейки таблицы, соответствующие данным объектам недвижимости. Следует отметить, что те ячейки, которые сеть ассоциирует с каждым из условий, будут окрашиваться в разные цвета.
Набор раскрасок используется для анализа закономерностей, имеющихся между компонентами набора данных. Полученные раскраски в совокупности образуют атлас, отображающий расположение компонент, связи между ними, а также относительное расположение различных значений компонент.
Для дальнейшего анализа построенной карты Кохонена следует рассматривать ее как информационный слой в ГИС-карте города [5]. В настоящее время имеются большие возможности использования разнообразной картографической информации для детального и всестороннего анализа оцениваемого объекта недвижимости с различных позиций — от картографической привязки и определения местоположения конкретного объекта до оценок градостроительной, транспортной, социально-экономической и других составляющих городской среды. Подобные возможности при оценке недвижимости связаны с внедрением в практику риэлтерской деятельности специализированных геоинформационных систем.
При наложении карты Кохонена на административную карту города оказалось, что ячейки, соответствующие нейронам с ценой больше 1500 тыс. руб., совпадают с Волжским районом, с центрами Кировского и Фрунзенского районов. Ячейки с ценой ниже 500 тыс. руб. соответствуют окраинам Ленинского и Заводского районов.
Полученные результаты можно спроецировать на каждый район города в отдельности. Так, например, центром локального влияния Заводского района является об-
li95(11)2007
ласть, которая, с одной стороны, есть административный центр района, а с другой — расположена ближе всего к центру города. Это обусловлено тем, что при исследовании в математической модели параметра «географические координаты», нами рассматривается не 6 районов, а 18, которые получаются делением каждого района на центр, середину и окраину.
Изучив наложения карты Кохонена на криминогенную карту Саратова, было замечено, что опасная криминогенная ситуация слабо влияет на цену объектов недвижимости. Так, например, район Набережной Космонавтов, являясь одним из самых дорогих и престижных районов города, с точки зрения владения недвижимостью, относится не к самым безопасным районам. А с другой стороны, поселок Юбилейный, находясь в достаточно спокойном районе, характеризуется умеренными ценами на недвижимость.
Наложение карты Кохонена на экологическую карту Саратова показывает, что экологическая обстановка района не суще-£ ственно влияет на цену объектов недвижи-| мости. Так, например, Октябрьский и Ки-Ц ровский районы относятся к районам с дос-¡5 таточно дорогой недвижимостью, и в то же ^ время они имеют плохое экологическое со-| стояние. Хотя экология Заводского района ® соответствует своей ценовой политике. <3 Следующим этапом анализа построенных карт является создание базы знаний ■а в виде набора правил вида «если Х, то У». § Основой для построения таких правил явля-■1 ется математическая теория нечетких мно-■Ц жеств, позволяющая описывать нечеткие ^ понятия и знания, оперировать этими зна-I ниями и строить нечеткие выводы. Ц Существенное преимущество использования теории нечетких множеств состоит | в том, что достаточно описать процесс управ-га ления, в то время как традиционный подход ^ требует наличия математической модели. ¡а Важным аспектом применения нечетких Ц правил логического вывода является то, что 5а в отличие от традиционной системы, здесь
работают все правила одновременно, но 6
с разной степенью влияния на выход. Принцип вычисления этого совместного влияния (суперпозиции) на окончательный результат лежит в основе управления системой.
Введем в нашей системе лингвистические переменные, в качестве которых рассмотрим параметры оценочной модели. Каждая лингвистическая переменная L характеризуется набором L = (T, U, G,M), где Т — множество значений термов; U — универсальное множество (область определения лингвистической переменной); G — синтаксическая процедура, позволяющая генерировать новые термы; М — семантическая процедура, позволяющая превратить каждое новое значение лингвистической переменной, образуемое процедурой G, в нечеткую переменную. Процесс формирования каждой лингвистической переменной включает в себя следующие этапы.
1. Определение множества термов Т лингвистической переменной L и его упорядочивание.
2. Построение числовой области определения U лингвистической переменной.
3. Построение функции принадлежности для каждого терма.
В классической теории построения лингвистических переменных, описание всех ее компонент реализуется на основе опросов экспертов. Особое внимание при этом уделяется построению функций принадлежности множеств, представляющих базовые термы. Недостатком такого подхода является субъективизм эксперта.
Другой подход — программная реализация формирования лингвистической переменной. Существует несколько программных продуктов, решающих эту задачу. К числу наиболее известных относится Rule Maket, являющийся расширением для пакета Cubi-Calc, который позволяет автоматически генерировать лингвистические переменные. Недостаток такого подхода — отсутствие контроля за процессом. Пользователь не только не может выбрать количество тер-
№>5(11)2007
мов у переменной, но и часто даже названия термов программа выбирает сама.
В статье предлагается проводить построение лингвистических переменных по алгоритму, который объединяет эти два подхода.
1. Из экспертного анализа базы данных определяются названия и количество лингвистических переменных.
2. Используя построенную карту Кохо-нена, определяется количество термов п для каждой переменной. В роли них будут выступать кластеры, на которые разбивается исходное множество.
3. Определяются границы универсального множества и. В качестве ит1„ принимаем наименьшее значение переменной, принадлежащей исходному множеству, а в качестве итах — наибольшее.
4. Центр каждого кластера принимается за вершину функции принадлежности. Внутри каждого класса вычисляем среднее квад-ратическое отклонение и откладываем его значение влево и право от вершины, тем самым получаем треугольную функцию принадлежности для каждого терма. Для термов Т и Тп аналогичным образом строим трапециевидные функции принадлежности.
В рамках нашей системы определяются следующие лингвистические переменные: Ц — цена квартиры; и2 — географические координаты; Ц — дата сделки; Ц — этажность здания; Ц— этаж квартиры; Ц— число комнат; Ц — площадь: жилая, общая, кухни; Ц — расположение на первом или последнем этажах; Ц — наличие балкона, лоджии; и10 — планировка; — дата постройки; и12 — состояние квартиры.
Следующим этапом построения системы нечеткого вывода в оценке недвижимости является составление базы знаний в форме лингвистических правил управления. Введение лингвистических переменных является первым этапом в построении этих правил. Дальнейший процесс обработки нечетких правил вывода состоит из следующих этапов.
вых частей правил, т.е. определение степени принадлежности входных значений нечетким подмножествам, указанным в левой части правил вывода.
2. Модификация нечетких подмножеств, указанных в правой части правил вывода в соответствии со значениями, полученными на первом этапе.
3. Объединение (суперпозиция) модифицированных подмножеств.
4. Скаляризация результата суперпозиции.
Для определения степени истинности левой части каждого правила вычисляется функция принадлежности нечетких подмножеств от соответствующих значений входных переменных.
Для выполнения модификации нечетких множеств традиционно используется один из методов: минимума (метод Мамдани) и произведения (метод Ларсена).
В первом случае функция принадлежности для множества, указанного в правой части правила, ограничивается значением истинности левой части. Во втором — значение истинности левой части используется как коэффициент, на который умножаются значения функции принадлежности.
Суперпозиция функций принадлежности нечетких множеств в этих случаях определяется как их объединение. Поскольку операция объединения для нечетких множеств вводится не единственным образом, то каждый исследователь самостоятельно выбирает способ суперпозиции. Мы придерживаемся определения, которое ввел Л. Заде:
цзит( Г) = тах{ц/(Г)}, / = 1, п,
где ц/ (Г) — функции принадлежности, соответствующие термам лингвистической
переменной Ц
Г — возможные значения, которые принимает каждый терм переменной и.
Завершающий этап обработки базы правил это переход от нечетких к конкрет-
7
1. Вычисление степени истинности ле- 5
И95(11)2007
ным скалярным значениям. Процесс преобразования нечеткого множества в единственное значение называется скаляризаци-ей, или дефазификацией (Се!и221Асайоп). Существует несколько способов проведения подобной операции. Наиболее часто применяется «центр тяжести» функции принадлежности нечеткого множества:
Е«
У = V-'
где а, — уровни «отсечения», соответствующие значениям термов Г(.
Правила нечеткого логического вывода моделируют функциональную зависимость у = f(х1,..., хп) между результирующей переменной у (переменной в правой части правила) и входными переменными х1,..., хп (переменные в левой части). В большинстве практических случаев аналитическое выражение подобной зависимости получить достаточно сложно (одна из причин — «зашумленность» данных), поэтому исследователи <3 ограничиваются аппроксимацией этой зави-| симости с заданной степенью точности. | Повысить точность можно, модифицируя ¡5 правила вывода и функции принадлежности [I для термов лингвистических переменных. ! Поскольку нечеткие системы вывода имити-® руют работу эксперта, то точность вычисле-« ний ограничивают 12-15%-й ошибкой.
Из списка лингвистических переменных « и их термов, основываясь на синтаксиче-§ ской процедуре, позволяющей генерировать новые термы, нами получены следую-■Ц щие правила. I
¡5 1. Если административный центр города, Ц то цена высокая.
2. Если середина города, то цена сред-
<§ няя. %
г§ 3. Если окраина города, то цена низкая.
^ 4. Если дом новый, то цена высокая.
^ 5. Если дом средний, то цена средняя.
К 6. Если дом старый, то цена низкая.
^ 7. Если состояние квартиры отличное, то
цена высокая.
8
8. Если состояние квартиры хорошее или нормальное, то цена средняя.
9. Если состояние квартиры плохое, то цена низкая.
10. Если дом новый, то состояние квартиры отличное.
11. Если дом средний, то состояние квартиры хорошее или нормальное.
12. Если дом старый, то состояние квартиры плохое.
13. Если площадь большая, то цена высокая.
14. Если площадь средняя, то цена средняя.
15. Если площадь маленькая, то цена низкая.
16. Если площадь кухни большая, то цена высокая.
17. Если дом новый, то площадь большая.
18. Если дом средний, то площадь средняя.
19. Если дом старый, то площадь маленькая.
20. Если дата сделки в конце календарного года, то цена высокая.
21. Если дата сделки в середине календарного года, то цена средняя.
22. Если дата сделки в начале календарного года, то цена низкая.
23. Если расположение квартиры на первом и последнем этажах, то цена низкая.
24. Если здание малоэтажное и новое, то цена высокая.
25. Если здание малоэтажное и старое, то цена низкая.
26. Если здание многоэтажное и среднее, то цена средняя.
27. Если этаж квартиры низкий, то цена высокая.
28. Если этаж квартиры высокий, то цена средняя.
29. Если квартира 1-комнатная и дом новый, то общая площадь большая.
30. Если квартира 2-комнатная, то площадь средняя.
31. Если квартира 3-комнатная и дом новый, то площадь кухни большая.
Не5(11) 2007
32. Если балкона или лоджии нет, то цена низкая.
33. Если планировка изолированная, то цена высокая.
34. Если планировка смежная, то цена средняя.
35. Если планировка изолированная, то площадь большая.
Так как для каждого терма из введенных нами лингвистических переменных существует правило, в котором он является посылкой, то построенная нами база знаний является полной.
Рассмотрим пример обработки построенных нами нечетких правил вывода. С учетом того, что нечеткие правила работают одновременно, для простоты рассуждений, ограничимся правилами 1-3 и рассмотрим, как нечеткая система определяет цену объекта недвижимости в зависимости от географического района. Пусть исследуемый нами объект недвижимости находится в середине Фрунзенского района, т.е. Г = 4,5 (рис. 1).
0 12 3 1 — Заводской район 2— Ленинский район 3 — Октябрьский район
4 4,5
4 — Фрунзенский район
5 — Волжский район
6 — Кировский район
и Т3 — окраина. Степень вхождения определяется путем вычисления значения функций принадлежности каждого из подмножеств от Г = 4,5:
мт ,(4,5) = 0;
М-Г2 (4,5) = 0,28;
МГэ (4,5) = 0,5.
Значения истинности левой части каждого правила используются для модификации нечеткого множества, указанного в его правой части. Модификация, проводимая методом произведений (метод Ларсена) представлена на рис. 2.
На следующем шаге нечеткая система обобщает результаты действия всех правил вывода, т. е. производит суперпозицию полученных нечетких множеств, используя операцию объединения (рис. 3).
Переход от суперпозиции множеств к скалярному значению (скаляризация) проводится методом «центра тяжести»:
0 ■ 500 + 0,28-1000 + 0,5-1500
Рис. 1. Расположение исследуемого объекта недвижимости
Система вывода должна определить истинность левых частей правил вывода при подстановке в них текущего значения. Для этого она находит степень вхождения Г = 4,5 в каждое из указанных слева нечетких подмножеств. В левых частях правил указаны три нечетких подмножества: Т — административный центр города, Т2 — середина
9
«о со
0
1
с
0 + 0,28 + 0,5 = 1320,51 тыс. руб.
Вычисленное значение является ценой объекта недвижимости, находящегося в середине Фрунзенского района Саратова.
При использовании всех правил цена для рассмотренного примера составит 1378,58 тыс. руб. Фактическое же значение средней цены объекта недвижимости, находящегося в середине Фрунзенского района Саратова, составляет 1557,8 тыс. руб. Таким образом, ошибка аппроксимации равна 13%. Поскольку наша нечеткая система имитирует работу эксперта, то 12-15%-я ошибка считается удовлетворительной.
Итогом проведенного исследования является разработка инструментального средства для интеллектуально-аналитической оценки объектов жилой недвижимости, которое включает алгоритмическое и программное описание данного класса задач методами искусственных нейронных сетей и возможностями ГИС-технологий, а также
Не5(11) 2007
1500 Цена, тыс. руб.
1500 Цена, тыс. руб.
1500 Цена, тыс. руб.
М-Д 1
0,5
и
I £
I
о
и
чЗ
0 со
1
I и
£
0
¡5 §
1
Б
1 Й
1
500
1500 Цена, тыс. руб. 0
500
1500 Цена, тыс. руб.
Рис. 2. Модификация
доказанная эффективность этого решения. Конструктивный взгляд на взаимоотношение современных интеллектуальных средств обработки информации и классических статистических методов заключается в том, что в общем случае они должны дополнять друг друга.
0,5-
0,28-
500
1000
1500 Цена, тыс. руб.
Рис. 3. Суперпозиция
Список литературы
1. ГрибовскийС.В., СивецС.А.,ЛевыкинаИ.А. Новые возможности сравнительного подхода при решении старых проблем // Вопросы оценки. 2002. № 4.
2. Сивец С.А., Левыкина И.А. Эконометриче-ское моделирование в оценке недвижимости. Запорожье: Полиграф, 2003.
3. Стерник Г.М. Рынок недвижимости России: закономерности становления и развития в условиях переходной экономики // Вопросы оценки. 1999. № 3.
4. Тарасевич Е.И. Современные принципы анализа рынка недвижимости // Вопросы оценки. 1999. № 3.
5. Тиндова М.Г. О возможности использования ГИС-технологий в решении задач оценки недвижимости // Экономический анализ: теория и практика. 2005. № 4.
10