УДК 519.7:004 ББК 22.17
МАССОВАЯ ОЦЕНКА МНОГОПАРАМЕТРИЧЕСКИХ ОБЪЕКТОВ ПРИ ДИАПАЗОННОМ ЗАДАНИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ
Корноушенко Е. К.1
(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)
Массовая оценка объектов в рамках статистического подхода проводится путем построения различных регрессионных моделей и использования итерационных процедур для нахождения коэффициентов этих моделей. Практическое применение таких моделей может быть сопряжено с определенными трудностями (прежде всего из-за слабой помехоустойчивости и моделей, и процедур). В данной работе рассматривается переход от непрерывной зависимой переменной регрессионной модели к дискретной (диапазонной), что не требует нахождения коэффициентов модели и повышает её помехоустойчивость. При этом вместо итерационных процедур можно применять любой алгоритм классификации. В работе предлагается несложный алгоритм классификации, обладающий рядом важных особенностей. Работа алгоритма показана на практическом примере массовой оценки квартир в различных районах г. Сочи.
Ключевые слова: регрессионная модель, массовая оценка, диапазонная целевая переменная, классификация.
1. Введение
Массовая оценка объектов используется в тех случаях, когда большое количество однотипных объектов с аналогичными признаками необходимо оценить с использованием того или иного критерия, а индивидуальный подход к анализу каждого объекта нецелесообразен (или невозможен) по экономическим
1 Евгений Константинович Корноушенко, доктор технических наук, главный научный сотрудник ([email protected]).
соображениям. Подобные ситуации возникают во многих практических задачах (маркетинговых, финансовых, экономических и т.д.). Типичнейшим примером в этом плане является массовая (кадастровая) оценка объектов недвижимости: каждый объект характеризуется совокупностью описывающих его признаков, а в качестве критерия оценки используется тот или иной стоимостный показатель (удельная или полная стоимость объекта, арендная плата и т.п.). В принципе, для оценки объектов недвижимости существует несколько подходов. При статистическом подходе используются регрессионные модели оценивания, что предусматривает наличие исходных выборок с рыночными данными на каждой оцениваемой территории. По каждой такой выборке строится регрессионая модель оценки того или иного типа, которая далее используется для оценки объектов на данной территории. Для нахождения коэффициентов модели применяется метод наименьших квадратов (линейный или нелине-ный в зависимости от типа модели), а также итерационные методы Ньютона и Левенберга—Маркуардта. Вопросы построения и анализа регрессионных моделей достаточно полно освещены в литературе.
Несмотря на отработанность технологий построения регрессионных моделей, доступных в различных статистических пакетах (SPSS, SAS, Matlab, NCSS и др.), регрессионным моделям присущ весьма важный недостаток: зависимость коэффициентов модели (и, соответственно, качества оценки) от возмущений, обусловленных
а) техническими причинами: неудовлетворительным качеством исходных данных, наличием помех, неполнотой рыночных данных и т.п.;
б) аналитическими причинами: отличием отображения значений признаков объектов в значения зависимой переменной, реализуемого построенной моделью, от аналогичного (неизвестного) отображения на оцениваемых объектах (такое отличие называется «смещением» (bias) выборки). Подобное отличие, неибежно присутствующее в практических ситуациях, подробно исследовано в работах [7, 8]; Для адаптации к «смещению» выборки при проведении массовой оценки в работе [3] в рамках регрессионного подхода предложен многомодельный подход
к массовой оценке с использованием нескольких регрессионных моделей. При этом вместо одного «эталонного» отображения, с которым сравниваются отображения оцениваемых на данной территории объектов, появляется несколько «эталонных» отображений. Множество оцениваемых объектов путем предварительной классификации разбивается на подмножества, на каждом из которых «работает» соответствующая регрессионная модель оценки, что позволяет полнее использовать доступную рыночную информацию;
в) экономическими причинами: в изменяющейся экономической ситуации стоимость объектов недвижимости зависит не только от «физических» ценообразующих факторов, но и от изменяющейся экономической ситуации, влияющей на состояние рынка недвижимости. В работах Л.Н. Ясницкого и его коллег [1, 6, 14] показано, как изменения за десятилетие (20052015 гг.) таких экономических факторов как цена на нефть, темп роста ВВП, соотношение рубль/доллар и др. влияли на стоимость недвижимости. Подобные факты говорят о том, что для повышенеия точности оценки в коэффициенты регрессионной модели целесообразно вводить функциональные зависимости влияния того или иного экономического фактора на стоимость оцениваемых объектов. В отличие от обычных («статических») регрессионных моделей модели с такими зависимостями предложено называть «динамическими».
Проведенная в РФ в последние годы регрессионная (кадастровая) оценка объектов недвижимости вызвала массу нареканий, что обусловлено прежде всего слабой развитостью рынков недвижимости в регионах РФ (и, соответственно, плохим качеством используемых регрессионных моделей оценки). В качестве одного из выходов из такой ситуации управляющими органами РФ рассматривается переход от индивидуальных оценок объектов к формированию так называемых ценовых зон1. Оценка объектов с точностью до попадания в ценовую зону существенно повыщает помехоустойчивость оценивания.
1 Важность такого перехода отражена в постановлении Минэкономразвития РФ (приказ от 7 июня 2016 г. №358).
Методологические вопросы организации и анализа ценовых зон рассмотрены, в частности, в [5]. В первом приближении ценовая зона представляет собой соответствующий участок карты территории с нанесенными на нее границами зоны по географическому признаку. Однако при более детальном анализе распределения цен внутри ценовых зон могут быть обнаружены факты недопустимого расхождения реальных цен объектов с граничными ценами для рассматриваемой «географической» зоны. Важность такого несовпадения весьма критична для (индивидуального) жилищного строительства и личных подсобных хозяйств. По этой причине приходится применять дополнительные меры для уменьшения разброса реальных цен внутри ценовой зоны: выделять внутри зоны особые участки, полнее учитывать рыночную информацию путем включения в регрессионные модели оценки дополнимтельных факторов влияния (см. выше), усложнять методологию построения моделей оценки (вплоть до использования нейросетевых технологий [6]). К сожалению, такие меры, требующие определенной квалификации оценщиков и соответствующей вычислительной базы, могут быть эффективно реализованы лишь на хорошо развитых рынках недвижимости.
В данной работе для уменьшения количества объектов с ценовыми «выбросами» внутри ценовой зоны предлагается ценовой диапазон каждой зоны определять по рыночной информации, собранной на рассматриваемом рынке недвижимости. Переход к дискретной (категориальной) зависимой переменной при проведении массовой оценки предусматривает замену регрессионных моделей каким-либо алгоритмом (алгоритмами) классификации. Практическая доступность такого подхода определяется, в частности, вычислительной сложностью используемого алгоритма классификации. В данной работе предлагается алгоритм классификации, описанный в [4] и характеризующийся рядом практически важных особенностей. Прежде всего, вместо операции сравнения векторов значений признаков объектов и использования понятия «ближайшей окрестности», на котором базируется большинство известных алгоритмов классификации, в данном алгоритме производится независимое попарное сравнение соответствующих значений
признаков сравниваемых векторов, что не требует предварительной нормализации этих векторов (и упрощает процедуру сравнения качественных признаков). Для значения каждого признака вводится понятие «допустимой близости» других значений этого признака. При этом вместо ближайшей (по выбранной метрике) окрестности классифицируемого объекта исследуется найденная для него совокупность объектов, в которой каждый из объектов «допустимо близок» к классифицируемому объекту по некоторому признаку (признакам). Такая совокупность больше, чем ближайшая окрестность классифицируемого объекта, и имеет больше «возможностей» для правильной классификации.
В качестве примера в рамках данного подхода с использованием диапазонов зависимой переменной рассматривается массовая оценка удельной стоимости квартир (данные 2013 г.) в многоквартирных домах в разных районах г. Сочи1. Полученная точность отнесения квартир к назначенным четырем ценовым зонам (точность классификации) равна 87,3%, что является неплохим результатом в шкале оценок алгоритмов классифика-ци и свидетельствует о практических перспективах данного подхода.
Замечание 1. В принципе, задача выбора диапазонов для значений зависимой переменной в регрессионной модели может быть решена с использованием соответствующей логистической модели (см., например, 13]), применяемой для классификации объектов. Нецелесообразность практического использования логистической модели при наличии качественных признаков в описаниях объектов обоснована в [12], где указываются осложнения, возникающие при переводе качественных признаков в соответствующие двоичные переменные. Основную трудность при этом представляет этап нахождения коэффициентов логистической модели. Известны различные итеративные процедуры для нахождения коэффициентов [10], и применение этих проце-
1 На примере этой выборки в [3] рассматривается преимущество многомодельного подхода к массовой оценке по сравнению с традиционным одномодельным подходом.
дур требует определенной подготовки у пользователя и наличия соответствующих вычислительных средств. Все это указывает на практическую нецелесообразность использования логистических моделей в массовой оценке.
2. Классификация объектов при диапазонном задании целевой переменной
2.1. ИСХОДНАЯ ИНФОРМАЦИЯ И ПОСТАНОВКА ЗАДАЧИ
Исходной информацией является обучающая выборка (ОВ) из n объектов и тестовая выборка (ТВ) из p объектов, причем каждый из объектов этих выборок имеет m признаков X1,X2, ...,Xm. Для краткости вектор значений признаков всякого объекта назовем описанием этого объекта. Признаки могут быть количественными (непрерывными, с интервалами возможных действительных значений) и качественными (дискретными, с конечными множествами значений - целочисленных, вербальных и т.п.). Качественные признаки могут быть номинальными, когда значения признака несравнимы, или ординальными, когда на значениях признака введено отношение порядка1. Для всех объектов выборки считаются известными соответствующие значения зависимой переменной, которую далее назовем целевой (target) переменной. Будем считать, что диапазон значений целевой переменной для объектов ОВ разбит на конечное число непересекающихся поддиапазонов, количество и размеры которых определяются спецификой решаемой задачи и требованиями пользователя (так что вопросы оптимизации вводимых разбиений здесь не рассматриваются). При введении того или иного разбиения желательно выполнение очевидных требований, чтобы каждый из поддиапазонов не был слишком «узким» и на нем наблюдалось заметное изменение целевой переменной. Таким образом, каждый объект ОВ однозначно принадлежит некоторому поддиапазону - блоку введенного на ОВ разбиения Яс®, и номер этого блока как метка (label) приписывается дан-
1 В данной работе все значения ординального признака рассматриваются как независимые номинальные признаки.
ному объекту. Разбиение яОВ индуцирует аналогичное разбиение яТВ целевой переменной на объектах ТВ путем сохранения одних и тех же значений целевой переменной, определяющих границы блоков в разбиении яьВ, для границ блоков разбиения яТВ. При этом блоки разбиений яьВ и яТВ с одними и теми же границами имеют одинаковый номер в этих разбиениях, хотя такие блоки могут содержать разное число объектов в ОВ и ТВ.
Рассматриваемая ниже задача классификации состоит в том, чтобы при использовании описаний объектов ОВ и ТВ и известного разбиения яОВ «вложить» каждый объект ТВ в некоторый блок разбиения яТВ таким образом, чтобы метка этого объекта как результат процедуры классификации совпадала с номером блока разбиения яТВ, содержащего этот объект.
2.2. СУТЬ ПРЕДЛАГАЕМОГО АЛГОРИТМА КЛАССИФИКАЦИИ
Как уже сказано во введении, отличие используемого ниже алгоритма от известных алгоритмов классификации состоит в том, что вместо использования понятия «ближайшей окрестности» для тестового объекта для каждого значения признаков в тестовом объекте вводится понятие «допустимой близости» значений соответствующих признаков у объектов ОВ. Два действительных значения х и х2 назовем допустимо близкими, если расстояние между ними не больше некоторой заданной величины d (о выборе значения d см. далее). Для каждого значения х каждого признака Х объекта Z из ТВ определяется множество V(x) допустимо близких значений признака Х у объектов ОВ. При этом объекты ОВ, у которых значения признака Х принадлежат множеству V(x), образуют совокупность W(x). Поскольку каждый объект из ОВ имеет однозначно определенную метку, множество меток объектов, входящих в W(x), образует совокупность С(х), что для наглядности можно отобразить как х ^ V(x) ^ W(x) ^ С(х). Подобная процедура повторяется для всех значений всех признаков классифицируемого объекта Z из ТВ, так что объекту Z с описанием ^х, ..., xm) сопоставляется ансамбль меток {С^), ..., С^)}, по которому определенным образом строится матрица весов размера ^ х m) для объекта Z,
где К - число классов в разбиении яов. К строкам этой матрицы применяется нелинейная монотонная свертка (о чем сказано ниже), и номер строки с наибольшим значением такой свертки интерпретируется как метка класса, к которому относится тестовый объект Ъ из ТВ.
2.3. ЭТАПЫ АЛГОРИТМА КЛАССИФИКАЦИИ
А. Определение понятия допустимой близости значений количественных признаков. Для каждого количественного признака Хк определяются его максимальное Хктах и минимальное Хктт значения по всем объектам ОВ и ТВ. Разность этих значений делится на некоторое выбираемое число к (о выборе значения к см. ниже - п. В). Обозначим АХк = Хктах -Хктп и 4к = ДХк/к. Два значения признака Хк назовем 4к-близкими, если модуль их разности не больше 4к. Выбор значения1 к существенно влияет на качество алгоритма классификации. В данном алгоритме используется простейший вариант - независимость к от к. Качественные признаки здесь рассматриваются как номинальные, т.е. при сравнении двух значений всякого качественного признака Хч эти значения могут либо не совпадать, либо совпадать (при этом йк = 0 не зависимо от к).
Б. Построение матрицы весов для тестового объекта 2 из ТВ. Пусть 02 - описание тестового объекта 2, х2] — численное значение признака Х}- (количественного или качественного) в описании 02, а 4 - заданная величина допустимой близости для значений признака X]. Совокупность значений признака X] в описаниях объектов ОВ, таких, что эти значения 4-близки к значению х2], назовем 4]-окрестностью значения х2] и обозначим эту совокупность как У(х2;, 4), а совокупность объектов из ОВ, у которых значение признака Х}- принадлежит У(х2], 4), - как Щхг], 4). Пусть Мг]У — число объектов из Щхг], 4), входящих в блок С разбиения яъВ. Сопоставим значению х2] число 12р = М2р/(\Ж(х2], 4)|| Су\), где 1Щх2], 4)| и \Су\ - соответственно
1 В принципе, для каждого признака Хк можно выбирать свое кк, но это ведет к значительному увеличению вычислительной сложности алгоритма.
количество элементов в множествах Wfaj, dj) и Cv 1 < v< K. Найденное число Iz,v будем рассматривать как вес метки v в множестве меток объектов из W^/ dj). Структура числа Iz,v имеет две особенности:
а) отношение MZjV/|W(хZj, dj)| является, по существу, показателем доверия (confidence1) к утверждению, что всякий объект из ОВ со значением признака Х/ , d, -близким к х, относится к
2 S-!
классу Cv;
б) показатель доверия для класса Cv взвешивается с множителем 1/|Cv|. Такое взвешивание показателей доверия для разных меток объектов из W^^, dj) введено для коррекции весов IZ/г соответствующих меток, относящихся к классам различной мощности3.
Подобным образом сформируем множества MZ,M для объектов из ОВ, содержащих значения признака X/, dj-близкие к значению х^, но принадлежащих другим классам Сг, ¡Ф v, и определим соответствующие числа IZ,M. Сформируем K-столбец весов HZj = (IZ/i, IZ/2, ..., IZ/K)T. Заметим, что все координаты в HZ, неотрицательные и не большие единицы. Аналогичным образом рассмотрим другие множества MZs/J, где xZs — значение признака Xs в описании OZ тестового объекта Z, и найдем для значений признаков, содержащихся в OZ, соответствующие вектора-столбцы Hzs = (Izsi, Izs2, Izsk)t, s = 1, m. Сформируем матрицу Mz = (HZb HZ2, ..., HZm), в которой m столбцов (по числу признаков в OZ) и K строк (по числу классов в разбиении яоВ). Назовем Mz матрицей весов объекта Z. Элементы каждой стро-
1 Понятие «confidence» используется во многих алгоритмах классификации (см., например, [9, 15]), где подчеркивается важность использования данного понятия для повышения точности классификации.
2 Другими словами, это означает степень «доверия» к утверждению, что класс Cv содержащий некоторые объекты из ОВ, входящие в W(KZj, dj), содержит и тестовый объект Z в разбиении лТВ.
3 Как показывают многочисленные эксперименты, подобное взвешивание показателей «доверия» способствует повышению точности классификации данного алгоритма.
ки М2и, 1 < и< К, матрицы М2 неотрицательны и не большие единицы. При этом значения ненулевых элементов в каждой её строке М2и пропорциональны значениям М2и, я = 1, ..., т, а распределение ненулевых элементов по строке М2и характеризует распределение метки класса Си по признакам объекта 2. Это позволяет рассматривать строку М2и как совокупность локальных классификаторов для объекта 2, «настроенных» по каждому признаку на метку и- В работах [2, 11] говорится о том, что классифицирующая способность совокупности локальных классификаторов может быть усилена путем введения какой-либо монотонной нелинейной функции агрегирования. Согласно этой рекомендации применим к каждой строке М2и = (Няи, Н22и, ..., Н2ти) следующую монотонную нелинейную функцию агрегирования:
т
(1) Е(Ми) = (-£ Нам 1ов2(И2и)\И2и > 0),1 <и< К.
6=1
Поскольку значения Н2и не являются в общем случае вероятностными величинами1, выражение (1) назовем псевдоэнтропией строки М2и. Результатом применения свертки (1) к каждой строке матрицы М2 является вектор 02 = (Е(М21), ..., Е(М2К)), который назовем классифицирующим вектором для объекта 2. Номер координаты вектора 02 с наибольшим значением принимается в качестве искомой метки, приписываемой объекту 2. Аналогичным образом производится классификация остальных объектов ТВ (а также объектов, требующих оценки).
Точность алгоритма классификации определяется как отношение числа правильно классифицированных объектов к длине ТВ.
В. Выбор величины И, определяющей величину допустимой близости значений количественных признаков. Этот этап является очень важным, поскольку от выбора значений допустимой
т
1 Условие нормировки ^ Ий = 1 для переменных Иможет не
6=1
выполняться.
близости зависит точность классификации предлагаемого алгоритма. Как уже сказано в п. А, величина dj допустимой близости значений признака X/ определяется как d, = AX,/к, j = 1, ..., m1. Независимость h от признаков позволяет определять приемлемое значение к при достижении приемлемой точности классификации в виде простейшей процедуры одномерного поиска. Как показано в приводимом ниже примере, несмотря на простоту нахождения к, результирующая точность классификации может оказаться весьма неплохой. Таким образом, данный алгоритм следует отнести к алгоритмам, в структуре которых принципиальным образом используется обратная связь по точности классификации (wrapper approach).
Вычислительная сложность алгоритма определяется как O(n2m). Структура алгоритма содержит лишь циклы, на которых определены соответствующие арифметические вычисления, управляемые условными операторами. Это позволяет реализовать алгоритм в пакете Excel без привлечения более сложных компьютерных средств, что упрощает его практическое использование.
3. Пример: массовая оценка квартир в разных районах г. Сочи при диапазонном задании стоимостей
Исходной информацией является выборка с описаниями квартир в многоквартирных домах, расположенных в разных районах г. Сочи. В качестве ценообразующих признаков выбраны следующие признаки: 1 - площадь квартиры; 2 - район местоположения дома с оцениваемой квартирой; 3 - расстояние от такого дома до делового центра; 4 - расстояние до ж.-д. станции; 5 - расстояние до положительного центра притяжения (рекреации); 6 - расстояние до берега моря. В качестве целевой переменной рассматривается удельная стоимость квартир (дан-
1 Для качественных признаков, рассматриваемых здесь как номиналь-
ные признаки, полагаем й = 0.
ные 2013 г.). ОВ содержит 101 квартиру с известной рыночной стоимостью, а ТВ — 401 квартиру.
При назначении диапазонов стоимости для объектов ОВ известные значения удельной стоимости объектов ОВ сортировались по возрастанию, и на результирующей кривой были выбраны 4 диапазона удельной стоимости (руб/кв.м) (ниже после номера диапазона указаны границы удельной стоимости для этого диапазона, а в скобках - число квартир из ОВ, попадающих в этот диапазон): 1 - не более 50 000 (16 квартир); 2 - (50 000, 65 000] (22 квартиры); 3 - (65 000, 80 000] (37 квартир); 4 - более 80 000 (26 квартир).
Работа описанного выше алгоритма классификации начинается с определения величины И (см. пп. А, В) для случая независимости И от признаков. При применении процедуры одномерного поиска используется эвристическое предположение (неоднократно подтверждающееся на практике), что функция, описывающая зависимость точности классификации от И, унимодальна «в большом»1. В таком случае поведение значений точности классификации в зависимости от И на выбранном интервале указывает направление выбора следующего (суживающегося) интервала. В результатом такого поиска было найдено значение И = 8, при котором точность классификации, равная 87,3%, считалась приемлемой2.
Важной характеристикой всякого алгоритма классификации является его «способность» правильно классифицировать объекты разных классов, несмотря на существенные отличия их мощности. Результаты классификации объектов ТВ и их распределение по диапазонам приведены в таблице 1.
Приведенные характеристики алгоритма свидетельствуют о его практической пригодности для решения задач массовой оценки при задании (или выборе) диапазонов значений целевой переменной.
1 То есть нарушения монотонности на каждой из ветвей этой унимодальной функции при некоторых И носят локальный характер.
2 В принципе, поиск можно продолжить вокруг точки И =8 и т. д.
Управление большими системами. Выпуск 69 Таблица 1. Распределение объектов ТВ по диапазонам
до и после классификации
Диапазоны 1 2 3 4
До классификации 24 96 228 53
После классификации 0 74 225 51
% заполнения диапазона на ТВ 0 77,1 98,7 96,2
Литература
1. АЛЕКСЕЕВ АО., ХАРИТОНОВ В.А., ЯСНИЦКИЙ В.Л.
К вопросу об интеллектуальном анализе, массовой оценке и управлении рынком недвижимости регионов России // Прикладная математика и вопросы управления. - 2017. - №1. -С.87-99.
2. ВОРОНЦОВ К.В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / Под ред. О.Б. Лупанова. - М.: Физматлит, 2004. - Т. 13. - С. 5-36.
3. КОРНОУШЕНКО Е.К. Многомодельный подход в массовой оценке многопараметрических объектов // Проблемы управления. - 2014. - №5. -С. 42-49.
4. КОРНОУШЕНКО Е.К. Алгоритм классификации путем парного сравнения признаков // Автоматика и телемеханика. - 2017. - №11 (в печати).
5. МИТИН НА., НЕЙМАН Е.И., СМОЛЯК А.С., ФИНГЕРТ А.Б. Применение когнитивных технологий для оценки недвижимости // Препринт ИПМ им. М.В. Келдыша РАН. - 2015. - №112.
6. ЯСНИЦКИЙ Л.Н., ЯСНИЦКИЙ В.Л. Разработка и применение комплексных нейросетевых моделей массовой оценки и прогнозирования стоимости жилых объектов на примере рынков недвижимости Екатеринбурга и Перми // Имущественные отношения в Российской Федерации. - 2017. -№3(186). - С. 68-84.
7. Biased Sampling and Extrapolation. - URL: https://www.ma.utexas.edu/users/mks/statmistakes/ biasedsampliing.html (дата обращения: 8.09.2017).
8. BREIMAN L. Arcing Classifiers // Annals of Statistics. - 1998. -Vol. 26, No. 3. - P. 801-849. - URL: www.cs.iastate.edu/ ~honavar/boost4.pdf (дата обращения: 8.09.2017).
9. JING LEI Classification with Confidence - URL: www.stat.cmu.edu/~jinglei/conf_class_R2.pdf (дата обращения: 8.09.2017).
10. The Logistic Regression Analysis in SPSS. - URL: www.statisticssolutions.com/the-logistic-regression-analysis-in-spss/ (дата обращения: 08.09.2017).
11. SPIRIN N., VORONTSOV K. Learning to Rank with Nonlinear Monotonic Ensemble. - URL: www.machinelearning.ru/ wiki/images/9/96/Voron11spirin-eng.pdf (дата обращения: 8.09.2017).
12. SRINIVASAN M. Is logistic regression really a good choice for categorical variables? - URL: www.quora.com/Is-logistic-regression-really-a-good-choice-for-categorical-variables (дата обращения: 8.09.2017).
13. URALSKY D., MARTIN J.H. Logistic Regression as a Classifier // Speech and Language Processing. Draft. - 2015. -423 p. - URL: https://web.stanford.edu/~jurafsky/slp3/7.pdf (дата обращения: 08.09.2017).
14. YASNITSKY L.N., YASNITSKY V.L. Technique of design of integrated economic and mathematical model of mass appraisal of real estate property by the example of Yekaterinburg housing market // J. of Applied Economic Sciences. - Winter 2016. -Vol. XI. - Iss. 8 (46). - P. 1519-1530.
15. ZARAGOZA H., D'ALCHE-BUC F. Confidence Measures for Neural Network Classifiers. - URL: www.hugo-zaragoza.net/ academic/pdf/hugoz_ipmu98.pdf (дата обращения: 8.09.2017).
MASS APPRAISAL OF MULTIPARAMETER OBJECTS WITH RANGE DEPENDENT VARIABLE
Eugeny Kornoushenko, Institute of Control Sciences of RAS, Moscow, Doctor of Science, (Moscow, Profsoyuznaya st., 65, (495) 334-90-00).
Abstract: Statistical mass appraisal of objects is carried out by constructing various regression models and using iterative procedures to find the coefficients of these models. Practical application of suck models can be fraught with certain difficulties (first of all, due to weak noise immunity of these models). In this paper, it is proposed in mass appraisal to move from a continuous dependent variable of regression model to a discrete one, which does not require finding the coefficients of the model and increases its noise immunity. Instead of iterative procedures, any classification algorithm can be used in this case. In comparison with the regression model, classification is a more convenient tool in practical applications, because various information processing mechanisms implemented in appropriate algorithms can be used. In connection with the unsatisfactory quality of the cadastral valuation of real estate conducted earlier in the Russian Federation, a course has been chosen by the Ministry of Economic Development to form and evaluate so called price zones. The value of the price range within the zone depends on the properties of the objects entering the zone. In this regard, the choice a discrete dependent variable in models can be practically used in the formation of price zones. In paper, we offer a simple classification algorithm for the formation of price zones. Application of the algorithm is shown by the practical example of a classification of apartments in various districts of Sochi.
Keywords: regression model, mass appraisal, range target variable, classification.
Статья представлена к публикации членом редакционной коллегии Д.А. Новиковым.
Поступила в редакцию 02.04.2017.
Опубликована 30.09.2017.