Обоснование выбора оптимальных показателей обучения искусственных нейронных сетей, сформированных для определения кадастровой стоимости земель населенных пунктов

Киселев В.А.; Гринченко Станислав Сергеевич

B.А. Киселев

доцент кафедры инженерной геодезии национального минерально-сырьевого университета «Горный» (г. Санкт-Петербург)

C.С. Гринченко

специалист отдела земельно-имущественных вопросов Службы правового обеспечения управления имуществом ОАО «Ленинградская областная управляющая электросетевая компания», аспирант кафедры инженерной геодезии национального минерально-сырьевого университета «Горный»

(г. Санкт-Петербург)

Станислав Сергеевич Гринченко, [email protected]

Кадастровая стоимость земли - одна из основных составляющих оценки экономической эффективности использования земельных ресурсов. В настоящее время кадастровая стоимость определяется на базе методики государственной кадастровой оценки земель (далее - ГКОЗ), утвержденной приказом Министерства экономического развития и торговли Российской Федерации от 15 февраля 2007 года [3], и разъясняющих ее положения Технических рекомендациях [5]. В Технических рекомендациях для определения удельного показателя кадастровой стоимости земель (далее - УПКСЗ) по результатам работы оценщиков и (или) при рыночной оценке определенного количества земельных участков (опорные точки, опорные земельные участки) формируются статистические регрессионные модели. С помощью полученных моделей выполняется расчет значений УПКСЗ на всей оцениваемой территории.

Такого рода подход имеет ряд недостатков, одним из которых является то, что построенная регрессионная модель при ее применении в опорных точках дает значения, отличные от измеренных (в ряде случаев величина расхождения составляет 22-25 процентов). Это приводит к созданию неадекватной модели существующей реальности и, как следствие -к значительному снижению точности получаемых результатов. В связи с этим возникла необходимость внесения изменений в существующую методику расчета УПКСЗ. Основная цель вводимых изменений - повышение точности расчета значений УПКСЗ как в опорных точках, так и на всей территории населенного пункта. В качестве метода расчета предлагается использовать метод искусственных нейронных сетей. Выбор указанного подхода объясняется тем, что, помимо более высокой точности, он обеспечивает более низкую трудоемкость процесса обработки данных, обучаемость, обобщение и адаптивность под изменяемые исходные условия.

Искусственные нейронные сети (далее - ИНС) представляют собой математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей - сетей нервных клеток живого организма [2]. Составной частью ИНС является искусственный нейрон (далее - ИС), структура которого представлена на рисунке 1.

Wi ... Wi ... Wn

X - умножители (синапсы)

Б - сумматоры

F - нелинейный преобразователь

Wi - весовые коэффициенты синапса (і = 1...М)

5 - результат суммирования

кружками обозначен входной слой нейронов от 1 до N

Рис. 1. Структура искусственного нейрона В целом искусственный нейрон реализует скалярную функцию векторного аргумента:

6 = Цміхі + Ь; (1)

(2)

i =1

У = f(S),

где S - результат суммирования (sum); n - число входов нейрона;

W - весовые коэффициенты (weights) синапса, i = 1...n; x( - компонент входного вектора (входной сигнал), i = 1...n; b - значение смещения (bias); у - выходной сигнал нейрона;

f - нелинейное преобразование (функция активации).

Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, характеризующее силу связи (вес синапса). Сумматор выполняет сложение сигналов, поступающих по синапсическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента - выхода сумматора. Эта функция называется функцией активации, или передаточной функцией нейрона.

В практике создания и применения ИНС используется большое количество разнообразных функций активации. Однако для решения задач, в которых требуется обработка действительных значений, наиболее часто используются сигмоидальные кривые функций активации, например логистическая функция /(Б) = 1/(1 + е~аз) или гиперболический тангенс /(Б) = (еаз - е~аз)/(еаз + е~аз).

Логистическая функция является нелинейной усилительной характеристикой искусственного нейрона. Коэффициент усиления а вычисляется как отношение приращения

г - гиперболический тангенс

Рис. 2. Примеры активационных функций

величины f(S) к вызвавшему его небольшому приращению величины S. Он выражается наклоном кривой при определенном уровне возбуждения (см. рис. 2).

При уменьшении значения а сигмоида становится более пологой, и в пределе (при а = 0) вырождается в горизонтальную линию на уровне 0,5. При увеличении значения а сигмоида приближается к виду функции единичного скачка с порогом 0 (см. рис. 2 а).

Представленные свойства логистической функции позволяют одной и той же сети обрабатывать как слабые, так и сильные сигналы (например минимальные и максимальные значения кадастровой стоимости). Центральная область логистической функции, имеющая большой коэффициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах подходят для больших возбуждений. Таким образом, нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала.

Для получения требуемых преобразовательных характеристик нейронная сеть должна быть настроена. Процедура настройки заключается в подборе значений весов синапсов для заданной топологии сети. Такая настройка называется процедурой обучения, или тренировкой ИНС. Технически обучение заключается в нахождении весовых коэффициентов связей между нейронами. Наиболее распространенный метод обучения в теории ИНС -итерационная подстройка матрицы весов, последовательно уменьшающей ошибку в выходных векторах (Ф. Розенблатт) (см. [4]). Такой метод называется методом обратного распространения ошибки (error backpropagation) и представляет собой алгоритм градиентного спуска, минимизирующий суммарную квадратичную ошибку. Один из серьезных недостатков указанного алгоритма - слишком долгий процесс обучения. Этот недостаток устранен в способе эластичного распространения (Resilient Propagation (Rprop), который был предложен М. Ридмиллером (M. Riedmiller) и Г. Брауном (H. Braun) (см. [4]).

Еще одним параметром, влияющим на процесс обучения нейронной сети, а именно на его остановку, является ошибка отклонения нормированного программного значения от нормированного фактически измеренного (экспертного) значения. При этом цель задачи обучения ИНС - достижение минимума ошибки обобщения, определенной для всех возможных в будущем примеров, что позволит обеспечить наибольшую предсказательную способность. Однако в практике обучения ИНС могут возникать ситуации, при которых сеть, вместо того чтобы обобщить известные примеры, запоминает их. Этот эффект называется переобучением, и его следует избегать, контролируя процесс обучения.

Кроме перечисленных параметров, на результат обучения нейронной сети оказывает влияние объем обучающей и тестовой выборок, а также структура распределения ячеек обучающей выборки. В первом случае это объясняется тем, что при увеличении суммарного объема обучающей и тестовой выборок сеть становится менее гибкой для появления новых входных данных, несогласных предыдущему тренду. По этой причине возник вопрос об оптимальном отношении:

ь = ОобуЧ (или

где 0обу^ч - количество обучающих примеров (количество земельных участков, для которых значения кадастровой стоимости известны и принимались для обучения сети);

Отест - количество тестовых примеров (количество земельных участков, для которых значения кадастровой стоимости известны и принимались для тестирования полученной ИНС);

0общ - общий объем выборки.

Во втором случае характер пространственного размещения (случайное, структурное -сеть треугольников, кластерное) обучающих и тестовых точек оказывает значительное влияние на результат.

Таким образом, для получения работоспособной и эффективной ИНС необходимо установить оптимальное сочетание и определить оптимальные значения следующих характеристик:

• вид функции активации;

• значение коэффициента усиления а;

• используемый метод обучения;

• величина ошибки отклонения нормированного программного значения от нормированного фактически измеренного (экспертного) значения;

• объем обучающей и тестовой выборок;

• структура распределения точек обучающей выборки.

Для решения поставленной задачи требуется выполнить перебор всех возможных сочетаний указанных параметров с определением значений кадастровой стоимости земли и сравнение последних со значениями кадастровой стоимости в тестовой выборке. Оптимальным сочетанием показателей следует принять то, для которого будет наблюдаться минимальная разность величины кадастровой стоимости, рассчитанной по программе, и величины рыночной стоимости.

Однако такой подход не может являться приемлемым, так как большое количество сравниваемых показателей не позволяет дать ответ на вопрос, какой вариант сочетаний параметров ИНС является оптимальным. Вследствие этого авторы статьи предлагают ввести интегрированный показатель качества ИНС по аналогии показателя, характеризующего качество работы многомерного классификатора [1]. Суть предлагаемого подхода состоит в том, что на основе полного набора исходных данных выполняется обучение ИНС для всех возможных сочетаний вариантов, принимаемых показателями. Из полученных результатов по интегрированному показателю наибольшей площади под кривой кумуляты выбирается оптимальный вариант сочетаний.

Анализ информации методом построения ИНС проводится многими программными продуктами, каждый из которых имеет ряд преимуществ и недостатков для отдельных решаемых задач.

Подавляющее большинство продуктов представлено в виде моделирующего программного обеспечения. В ходе проектирования были рассмотрены основные программные про-

дукты, позволяющие моделировать искусственные нейронные сети, максимально адаптированные для кадастровой оценки.

Исходя из результатов анализа российского рынка экономико-аналитических программ и особенностей решаемой задачи было принято решение об использовании программы Deductor Studio от BaseGroup Labs.

Deductor является аналитической платформой - основой для создания законченных прикладных решений в области анализа данных. Программа предоставляет аналитикам инструментальные средства, необходимые для решения разнообразных аналитических задач (корпоративная отчетность, прогнозирование, сегментация, поиск закономерностей и других), где применяются такие методики анализа, как OLAP, Knowledge Discovery in Databases и Data Mining. Выбор программы Deductor Studio для проектирования обусловлен способностью формировать ИНС оптимально для экономических целей и удобным русскоязычным интерфейсом.

Для иллюстрации возможности применения ИНС для определения кадастровой стоимости земель населенных пунктов была решена задача по формированию и обучению ИНС для городов Кировска (Ленинградской области), Междуреченска и Мончегорска. Общие характеристики указанных городов представлены в таблице 1. В качестве исходных данных были взяты значения рыночной стоимости земли и значения влияющих факторов.

Для решения задачи определения кадастровой стоимости земельного участка была сформирована ИНС на основе архитектуры прямого распространения с одним скрытым слоем.

В первую очередь для определения оптимального объема обучающей и тестовой выборок был поставлен численный эксперимент, в котором были рассчитаны значения УПКСЗ. На базе полученных результатов построен график зависимости Dmax = f(b), где Dmax - максимальная разность между значениями, рассчитанными по программе, и значениями рыночной стоимости, определенными на практике для соответствующих значений b; b = Q^JQ^ -отношение между объемом обучающей выборки к общему объему выборки Qo6u..

Из графика (см. рис. 3) видно, что наилучшим является уровень b = 10%. Далее наблюдается резкое падение продуктивности сети, а возвращение к этому уровню происходит только на отметке 40 процентов. По этой причине для дальнейшей работы принят уровень 10 процентов. Полученная величина означает, что 10 процентов от общего количества участков следует использовать для обучения и столько же для тестирования работы сети.

Таблица 1

Показатели объектов исследования

Показатель Название населенного пункта

Кировск Междуреченск Мончегорск

Вид разрешенного использования исследуемых земельных участков Земельные участки для многоэтажного жилищного строительства

Классификация населенного пункта по численности населения в соответствии с Градостроительным кодексом Российской Федерации Малый (до 50 тыс. чел.) Средний (до 100 тыс. чел.) Малый (до 50 тыс. чел.)

Общее количество земельных участков, используемых для исследования 152 422 404

соотношение обучающего и общего множеств, %

Рис. 3. График зависимости максимальной ошибки йтах и количества обучающих примеров (Отах - максимальная разность между значениями, рассчитанными по программе, и значениями рыночной стоимости, определенными на практике для соответствующих значений Ь; Ь = 0обу1/0общ - отношение объема обучающей выборки

к общему объему выборки)

Используя определенное нами количество земельных участков, предназначенных для обучения, ИНС была обучена двумя способами (способом обратного распространения ошибки и способом эластичного распространения ошибки). По результатам каждого набора параметров обучения для каждого города были построены кумуляты, показывающие накопленное количество земельных участков, попадающих в определенный интервал значений. В статье приведены графики только для города Кировска Ленинградской области (см. рис. 4). Величины отклонений полученных результатов от исходных представляют собой разницу между значением УПКСЗ, рассчитанным по программе, и значением, установленным в соответствии с величиной рыночной стоимости.

В соответствии с положениями анализа качества многомерной классификации идеальная кривая кумуляты проходит через верхний левый угол графика [1]. В этом месте все значения, рассчитанные по программе, имеют 0 процентов отклонения от экспертных значений, а доля ошибочных примеров равна нулю. Другими словами, чем ближе кривая к верхнему левому углу, тем выше эффективность модели.

Анализ графиков кумулятивных кривых, построенных при кадастровой оценке земельных участков трех различных городов, расположенных в различных регионах Российской Федерации, позволяет сделать следующие выводы:

1) наиболее предпочтительным является равномерное распределение участков, используемых для обучения и теста;

2) наилучшей функцией активации для обработки выходных сигналов ИНС является сигмоида с коэффициентом усиления a = 4. Следующей по степени эффективности может быть принята функция гипертангенса с коэффициентом усиления a = 2;

3) в силу того, что при применении первого способа производится корректировка с опорой на общий объем выборки, получают лучший результат, чем при применении способа Back Propagation.

Таким образом, при построении ИНС для целей кадастровой оценки эти параметры являются оптимальными.

отклонение полученного результата от исходного, %

— - гипертангенс (а = 2), BackProp, структурное

сигмоида (а = 4), ResilientProp, структурное сигмоида (а = 4), ResilientProp, случайное

— - ■ гипертангенс (а = 2), BackProp, кластерное

— -гипертангенс (а = 0,5), ResilientProp, структурное

Рис. 4. Кумулятивные кривые, характеризующие эффективность работы ИНС, созданной для кадастровой оценки земельных участков для многоэтажного жилищного строительства города Кировска Ленинградской области (по вертикальной оси отложено количество значений, попавших в интервал отклонений от 0 до x (во всех случаях количество обучающих примеров 10, тестовых примеров 10), в легенде последовательно указаны функции активации, алгоритм передачи ошибок и способ размещения)

Для объективного сравнения методики регрессионного моделирования с методом ИНС был выполнен расчет значений УПКСЗ города Кировска Ленинградской области двумя указанными методами. В частности, по методике [3] было построено несколько регрессионных моделей, среди которых была выбрана наилучшая. Характеристики линейной модели приведены в таблице 2.

Далее были получены значения УПКСЗ всех земельных участков, и результаты регрессионного моделирования сравнили с результатами ИНС путем построения кумулятивных кривых (рис. 5).

Из графика (рис. 5) видно, что кадастровая оценка с использованием метода ИНС обеспечивает более точные результаты, чем регрессионная модель, поскольку кривая кумуляты расположена выше и левее кумуляты регрессионной модели. Кроме того, для корреляционно-регрессионной модели максимальные отклонения рассчитанных значений от значений в опорных точках составили 22 процента, то есть все полученные значения кадастровой стоимости отклоняются от идеальных в интервале от 0 до 22 процентов. Для модели ИНС отклонения составили 11 процентов, что соответствует отклонениям полученных значений от идеальных в интервале от 0 до 11 процентов.

Таблица 2

Характеристики линейной модели, выбранной для кадастровой оценки методом корреляционно-регрессионного анализа

Уравнение наилучшей модели Y = 3454,79 + 0,07Х1 + 0,67*,+ 1,52X3+ 0,82^+ 0,84X5

Критерий качества модели Значение критерия для обучающей выборки Допустимый диапазон для обучающей выборки Значение критерия для контрольной выборки Допустимый диапазон для контрольной выборки Соответствие модели качеству по критерию (да/нет)

Средняя относительная погрешность 4,62 < 40 процентов 6,99 увеличение в 1,5 раза, но не более 0,3 да

Коэффициент детерминации 0,82 > 0,65 0,83 > 0,5 да

Среднеквадратичная ошибка 6,2 > 25 процентов 10,9 < 0,3 да

Вывод о качестве модели Модель обладает приемлемым качеством

отклонение программного результата от экспертного, %

-----корреляционно-регрессионный анализ

-----искусственная нейронная сеть

Рис. 5. Кумулятивные кривые, характеризующие эффективность работы ИНС и регрессионной модели, созданных для кадастровой оценки земельных участков города

Кировска Ленинградской области

Таким образом, метод ИНС обеспечивает более высокую степень совпадения рассчитанных значений и значений, полученных от оценочных организаций, следовательно, обеспечивается более высокая точность построения аппроксимационной модели.

Также к достоинству предлагаемого подхода следует отнести обучаемость и обобщение, адаптивность под изменяемые исходные условия, низкую трудоемкость процесса

обработки данных. Последнее подтверждается тем, что для кадастровой оценки города Кировска Ленинградской области методом искусственных нейронных сетей было использовано 30 участков с известными параметрами, тогда как для оценки по методике [3] согласно требованиям нормативных документов - 40.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА И ИНФОРМАЦИОННЫЕ ИСТОЧНИКИ

1. Гринченко С. С., Киселев В. А. Выбор эффективной методики районирования геоди-намической опасности на основе анализа качества многомерной классификации // Маркшейдерский вестник. 2010. № 3 (77).

2. Мак-Каллок У. С., Питтс В. Логическое исчисление идей, относящихся к нервной активности : в сб. «Автоматы» / под ред. К. Э. Шеннона и Дж. Маккарти. М. : Издательство иностранной литературы, 1956.

3. Методические указания по государственной кадастровой оценке земель населенных пунктов : приказ Министерства экономического развития и торговли Российской Федерации от 15 февраля 2007 года № 39. URL: www.rg.ru

4. Пучков Е. B. Многослойный персептрон : лекция. URL: www.i-intellect.ru/lectures-of-neural-networks/2.html

5. Технические рекомендации по государственной кадастровой оценке земель населенных пунктов : приказ Федерального агентства кадастра объектов недвижимости от 29 июня 2007 года № П/0152. URL: www.garant.ru

6. Градостроительный кодекс Российской Федерации : Федеральный закон от 29 декабря 2004 года № 190-ФЗ.

* * *

УВАЖАЕМЫЕ ЧИТАТЕЛИ!

Предлагаем Вашему вниманию книгу кандидата юридических наук, юриста международной юридической компании DLA Piper Кропотова Л.Г. «Коммерческие инвестиции в объекты капитального строительства. Правовое регулирование», вышедшую в издательстве «Инфотропик Медиа»

Автор - практикующий юрист, четко представляя нужды бизнес-практики в сфере инвестирования, сформулировал теоретические основы инвестиционного права, на основании которых предложил практические рекомендации. Труд Л.Г. Кропотова представляет собой наглядное подтверждение тезиса: в правовой сфере решение практических проблем следует искать в хорошей теории.

Книга будет полезна корпоративным юристам, специалистам инвестиционного консалтинга, сотрудникам компаний, занимающимся вопросами инвестирования, а также студентам и аспирантам юридических и экономических вузов.

По вопросам приобретения издания обращаться в издательство «Инфотропик Медиа»: тел.: (495) 621-25-27, (495) 621-37-12, (903) 106-73-38, факс: (495) 621-76-80.

E-mail: [email protected] URL: http://infotropic.ru Приобрести книгу также можно в интернет-магазинах, книжных магазинах города Москвы и книготорговых оптовых компаниях.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Киселев В. А., Гринченко Станислав Сергеевич

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Киселев В. А., Гринченко Станислав Сергеевич

RATIONALE FOR SELECTION OF OPTIMAL PERFORMANCE STUDY OF ARTIFICIAL NEURAL NETWORKS, THE SPECIFIC CADASTRAL VALUE LAND SETTLEMENTS