У
правление в социально-экономических системах
УДК 519.25
РЕГРЕССИОННЫЙ ПОДХОД К МАССОВОЙ ОЦЕНКЕ ОРИ НАЛИЧИИ НЕНАБЛЮДАЕМОЙ СОСТАВЛЯЮЩЕЙ В ЗАВИСИМОЙ ПЕРЕМЕННОЙ
Е.К. Корноушенко
Предложен новый подход к массовой оценке в предположении, что зависимая переменная модели оценки содержит ненаблюдаемую составляющую, обусловленную, в частности, слабой развитостью рынка оцениваемых объектов. Подход включает в себя несколько важных этапов: построение двух моделей с требуемым качеством оценки, определенных на соответствующих непересекающихся множествах (классах); отнесение объектов, требующих оценки, к тому или иному из этих множеств (классификация); выбор соответствующей модели для оценки каждого из таких объектов. Показано, что данный подход позволяет полнее использовать рыночную информацию и существенно улучшить качество массовой оценки.
Ключевые слова: регрессионная модель, ¿-близость, классификация, точность, надежность, массовая оценка.
ВВЕДЕНИЕ
В практических целях регрессионное оценивание (чаще употребляется термин массовая оценка) применяется для оценки больших массивов объектов, когда индивидуальный подход к оценке каждого объекта нецелесообразен по экономическим соображениям. Для конкретности далее под массовой оценкой будем понимать массовую (кадастровую) оценку объектов недвижимости. Массовая оценка начинается со сбора рыночной информации на рассматриваемой территории. Рыночная информация должна содержать данные: о характеристиках объекта, его местоположении административной принадлежности и др., а также какую-либо информацию о стоимости объекта (например, цену предложения, цену сделки, цену аренды и т. п.). Далее, для краткости, будем пользоваться термином стоимость, (конкретный вид стоимости уточняется в каждом конкретном случае). Эта информации используется для формирования рыночной выборки (РВ), по которой строится регрессионная модель, применяемая далее для оценки объектов на рассматриваемой территории. В качестве зависимой переменной такой модели используется конкретный вид стоимости объектов
из рыночной информации. В общем случае значения стоимости могут зависеть от некоторых не учитываемых при оценке факторов, от неразвитости рынка и пр., что обусловливает наличие ненаблюдаемой составляющей в рыночных значениях стоимости. Ошибка регрессионной модели оценивания будет состоять из двух слагаемых: собственной ошибки регрессионной модели и ошибки, обусловленной наличием ненаблюдаемой составляющей в зависимой переменной. Если коэффициенты строящейся модели вычисляются с помощью какого-либо из методов наименьших квадратов (линейного или нелинейного), наличие ненаблюдаемой составляющей в зависимой переменной приводит, согласно работе [1], к несостоятельности этих коэффициентов. Но тогда для построения регрессионной модели с хорошим качеством оценивания необходима «жесткая» фильтрация1 РВ путем последовательных удалений из нее «забракованных» объектов, влияющих на качество модели (своеобразный аналог пошаговой регрессии с удалением объектов). При достижении
1 Можно предположить, что такая фильтрация неявно означает, что из РВ удаляются, прежде всего, объекты с большими ненаблюдаемыми составляющими в зависимой переменной.
требуемого качества оценки в РВ остается определенное количество «забракованных» объектов, «не вошедших» в результирующую модель. Удаление объектов из РВ, особенно при ее небольших размерах, является негативным моментом, ухудшающим репрезентативность результирующей выборки, и в силу этого — ухудшение статистических свойств построенной модели.
Построение модели с хорошим качеством оценивания особенно важно при массовой оценке, когда построенная модель применяется для оценки больших массивов объектов. Если в процессе построения модели в РВ осталась некоторая доля «забракованных» объектов, не вошедших в модель, и если в РВ отражены основные свойства объектов
оцениваемого далее массива2, то справедливо предположить, что в общем случае примерно такая же доля объектов массива может быть отнесена к «забракованным» объектам, и оценка таких объектов используемой моделью будет характеризоваться большими ошибками оценивания.
При проведении массовой оценки за рубежом широко применяются электронные карты территории [2], позволяющие сделать привязку оцениваемых объектов к конкретному местоположению. Подобная привязка позволяет по рыночной информации строить так называемые оценочные зоны с тем или иным диапазоном рыночных цен и относить оцениваемый объект к той или иной оценочной зоне (после чего начинается учет остальных характеристик объекта). В России, к сожалению, в большинстве периферийных регионов с неразвитыми рынками массовая оценка земель и объектов недвижимости проводится либо без применения электронных карт, либо их применение только-только начинается.
Суть данной работы состоит в описании многомодельного (в частности, двухмодельного) подхода к массовой оценке, при котором объекты оцениваемого массива разбиваются на несколько классов (в частности, на два) и для каждого из этих классов по РВ строится своя модель оценки. Каждый из оцениваемых объектов относится вначале к тому или иному классу (с помощью предложенного далее алгоритма классификации), после чего этот объект оценивается соответствующей моделью. Такая дифференцированная оценка позволяет существенно улучшить качество массовой оценки, т. е. получить более точную информацию об оценках объектов массива по сравнению с довольно общими, как правило, замечаниями экспертов.
2 Здесь имеется в виду, прежде всего, близость описаний объектов РВ и оцениваемого массива (подробнее см. § 3).
Для иллюстрации этого подхода приводится
3
практический пример массовой оценки промышленных объектов в сельских населенных пунктах Калужской области.
1. ИТЕРАЦИОННАЯ ПРОЦЕДУРА ПОСТРОЕНИЯ МОДЕЛЕЙ ДЛЯ МАССОВОЙ ОЦЕНКИ
Перед построением регрессионной модели для массовой оценки из РВ предварительно удаляются объекты с явными выбросами в значениях стоимости и в значениях факторов стоимости. Пусть оставшаяся часть РВ содержит п объектов. Для простоты изложения в качестве регрессионной модели для массовой оценки рассмотрим линейную модель с т, т < п, факторами стоимости:
¥ = Хр + е, (1)
¥* = ¥ + А¥ (2)
Здесь ¥ — «истинная4» стоимость (зависимая переменная), X — (п х т + 1)-матрица преобразованных значений5 факторов стоимости объектов из РВ (содержащая столбец из единиц для учета свободного члена модели), в — (т + 1)-вектор коэффициентов модели, е — п-вектор ошибок модели. В нашем случае положение осложняется тем, что вместо «истинных» значений ¥ для измерений доступна лишь сумма (2) с ненаблюдаемыми значениями ¥ и А У; вектор А У = ¥* — ¥ называется [1] ошибкой выборки. Невязка модели (1), (2) е = ¥* — Хр = ¥ — Хр + А¥ Наличие ненаблюдаемой составляющей А¥ обусловливает гетероске-дастичность модели (1), (2), при этом оценки коэффициентов р, находимые с помощью обычного метода наименьших квадратов, становятся несостоятельными [1]. Отсюда следует некорректность применения статистических критериев значимости модели и качества оценки6. В таких условиях
3 Соответствующая рыночная информация была предоставлена автору организацией, проводившей массовую оценку объектов недвижимости.
«Истинное» значение стоимости можно понимать как такое ее значение, к которому стремились бы значения стоимости объектов с одинаковым описанием при увеличении количества таких объектов на рассматриваемом рынке.
Считаем, что при построении модели используются известные процедуры, улучшающие качество модели (см., например, работу [3]): нелинейное кодирование значений номинальных факторов (приписывание меток), обеспечение однонаправленности влияний количественных факторов на зависимую переменную и т. д.
6 Показано, как можно оценить коэффициенты модели с помощью метода максимума правдоподобия в случаях, когда дисперсии ошибок выборки для объектов постоянны либо пропорциональны с некоторым неизвестным коэффициентом пропорциональности [1]. Оба этих предположения нереальны в условиях массовой оценки.
Таблица 1
Псевдокод итерационного процесса построения по РВ моделей с требуемым качеством оценки
Задание начальных условий: РВ, m, Smax. Построение модели М0 на РВ: классы С° , С° . i-я итерация: классы Сг _ 1, Сг _ 1. Построение модели М. на С°_ 1.
Удаление из С°_ 1 объектов O° , для которых S > Smax.
Добавление в С°_ 1 объектов O1 е C}_ 1, для которых
S < S .
max
Формирование классов С° = O1 u С°_ 1 \ O° , C1 = O° u С1-1 \ O1.
Проверка условия С1к = С1 (или С0 = С0) для некоторого к > i.
При выполнении — стоп.
Искомая модель есть модель Мк. При этом класс
K0 = _ 1, а класс = С10 _ 1 — результирующее множество «забракованных» объектов. При выполнении условия KJm > 3 запускается аналогичный итерационный процесс для множества Ky
один из путей построения практической модели оценки заключается в последовательной фильтрации РВ с помощью итерационной процедуры, псевдокод которой показан в табл. 1. Здесь 8тах — предельно допустимое значение относительной погрешности оценки (ОПО), которое выбрано как
критерий качества оценки. По исходной РВ строится начальная модель М0, которая разбивает РВ
на два класса: класс с0 объектов, ОПО которых
моделью М0 не превышает 8тах, и класс О,1 «забракованных» объектов. Затем запускается итерационный процесс, представленный в табл. 1. Заметим, что множество наименований факторов стоимости одно и то же для всех моделей на всех итерациях, тогда как множество значений факторов стоимости может изменяться от модели к модели.
В каждой итерации верхний нулевой индекс у множеств обозначает «пригодные» объекты (относительно модели, построенной на данной итерации), а единичный индекс — «забракованные». В силу конечности РВ этот процесс можно пред-
ставить как функционирование конечного автомата, состояние которого на каждом такте итерации определяется парой множеств «пригодных» и «забракованных» объектов, а функция переходов зависит от построенной текущей модели. Поскольку число состояний такого автомата конечно, он в итоге «зациклится», т. е. его состояния (или состояние) будут повторяться. При этом в силу построения модели с верхними нулевыми индексами, построенные для одного и того же состояния такого автомата в разные моменты времени, будут совпадать. Аналогичное утверждение справедливо для моделей с верхними единичными индексами. (Заметим, что в приводимом далее примере такой автомат приходит в устойчивое состояние на 10-й итерации.) В итоге все объекты исходной РВ разбиваются на два класса: класс К0 объектов, на которых построена результирующая модель М0рез, удовлетворяющая заданным требованиям на качество оценки, и класс К1 «забракованных» объектов.
о
В принципе, для достаточно мощного класса К, можно построить модель М1, разбивающую его на множество Кп объектов, ОПО которых моделью М, не превышает 8 и множество К-> «за-
1 тах 12
бракованных» объектов и запустить аналогичный итерационный процесс. Результатом этого процесса будет результирующая модель М1рез с требуемым качеством оценки и класс К2 объектов, «забракованных» этой моделью. Использование модели М1рез в дополнение к модели М0рез позволяет полнее учитывать информацию, содержащуюся в РВ, и уменьшить результирующее множество изначально «забракованных» в РВ объектов. Заметим также, что на любом шаге итерации процесс можно остановить при приемлемом для оценщика соотношении между множествами «пригодных» и «забракованных» объектов.
Замечание. При достаточно длинной РВ можно запустить итерационный процесс и для класса К2, и т. д. Препятствуют такому продолжению два обстоятельства. Первое — экономическое: малые длины РВ, получаемые со слабо развитых российских периферийных рынков. Второе — методологическое: задачи классификации при наличии более двух классов намного сложнее, чем при наличии двух классов, их практическое решение потребует гораздо больших затрат, чем получаемая до-
7 Дело в том, что ОПО тесно связана с отношением стоимостей, определяемым как отношение модельной стоимости объекта к его рыночной, и рядом других коэффициентов, базирующихся на отношении стоимостей и характеризующих качество оценки.
Поскольку, как уже сказано, в силу несостоятельности коэффициентов модели мы не можем пользоваться понятием репрезентативности выборки, под «достаточной мощностью» класса К1 будем (для конкретности) понимать выполнение условия |К1|:т > 3. На этом условии базируется двухмодельный подход к массовой оценке. Оно выполняется, в частности, в приводимом далее примере.
полнительная информация об оценке. Поэтому в данной работе мы ограничимся рассмотрением двух классов — Х0 и Хр а объекты класса Х2 удаляем из РВ, так что класс Х2 не участвует в классификации объектов оцениваемого массива МОО. В практических задачах результирующие «забракованные» объекты могут иметь какие-либо характерные признаки, которые использует оценщик при выделении и оценке таких объектов в массиве МОО. ♦
Для классификации объектов из массива МОО в данной работе используются описания объектов в разрезе факторов стоимости, характеризующих модели М0рез и М1рез. Разбиение объектов РВ на классы Х и Х1 рассматривается как эталонное, а отнесение каждого объекта из массива МОО к какому-либо из этих классов производится с помощью описываемого далее алгоритма классификации.
2. ОСОБЕННОСТИ КЛАССИФИКАЦИИ ОБЪЕКТОВ РЫНОЧНОЙ ВЫБОРКИ
2.1. Характеристика классов К0 и К1 объектов рыночной выборки
Справедливо предположить, что случайный или неслучайный характер состава классов Х0 и Х1 зависит от размеров ненаблюдаемой составляющей в стоимости объектов из РВ и, конечно же, от описаний объектов в разрезе факторов стоимости. О возможности неслучайного характера состава классов Х0 и Х1 говорят результаты представленного далее практического примера. Предполагается, что в РВ всякое значение фактора стоимости может принадлежать объектам из класса Х0 и объектам из класса Х1. В такой ситуации можно считать, что принадлежность объекта к классу Х0 или Х1 определяется той или иной комбинацией значений факторов стоимости, причем каждый класс характеризуется некоторой совокупностью «допустимых» для него комбинаций. На выявление таких комбинаций и направлен описываемый далее алгоритм классификации.
Отметим, что необходимо:
1) все используемые в модели факторы стоимости представлять в количественном виде; подобные преобразования факторов стоимости (практикуемые оценщиками для улучшения качества строящейся модели — см. сноску 5) должны быть сделаны на этапе построения модели М0;
2) чтобы все количественные значения факторов стоимости были положительными; к нулевым значениям двоичных факторов прибавлять некоторую положительную константу (скажем, 2).
Ключевым в алгоритме является понятие С-бли-зости значений факторов. Значение а1 некоторого количественного фактора а называется сС-близ-ким (С > 0) к значению а2, если справедливо \а2 — а11 < Са2. Отношение С-близости в общем случае несимметрично. При ограниченной длине выборки РВ число С-близких к а2 значений фактора а пропорционально значению кумулятивной вероятностной функции для а2 в точке, удаленной от а2 на С.
2.2. Классификация объектов рыночной выборки с помощью предлагаемого алгоритма
Кратко опишем основные этапы алгоритма классификации и определим его основные характеристики.
Использование понятия ^-близости при рассмотрении значений факторов стоимости объектов РВ.
Каждый из объектов РВ выбирается независимо, и с его описанием сравниваются описания остальных объектов РВ. Обозначим через ВО очередной выбираемый объект. Описание ВО в разрезе преобразованных значений (см. в п. 2.1 условия 1 и 2) факторов стоимости сравнивается с описанием каждого из объектов РВ. Последовательно выполняются следующие этапы:
1) для значения х.. фактора X, 1 < / < т, из описания ВО находится совокупность S(x■■, С..) объектов из РВ с С..-близкими к х.. значениями фактора X; показатель С..-близости выбирается таким,
I .
чтобы число объектов РВ в совокупности £(х., С.) было не меньше задаваемого числа С (о выборе значения С будет сказано далее);
2) по совокупности £(х., С.) определяются показатели: к,(х., С.) — число С..-близких к х.. значе-
1 У У " "
ний фактора X, входящих в описания объектов из класса Х1, и к0(х., С.) — аналогичное число для объектов из класса Х0;
3) эти показатели нормируются на соответствующие количества объектов |Х1| и |Х0| в каждом из классов Х1 и Х0. В результате получаем величины рДх., С.) и р0(х., С.), пропорциональные частотам вхождения значений фактора X, С..-близких к зна-
I .
чению х., в классы Х1 и Х0;
4) поскольку мощность множества £(х., С.) есть монотонно возрастающая функция от значений С., возрастающих с шагом АС., обозначим через С,.(б) значение С.. при первом выполнении ус-
I .
ловия |Я(х,■•, С..)| > С;
5) на интервале £(/, С) = [0, Сг(С)] строим графики значений показателей рДх., С.) и р0(хгр С.),
которые пропорциональны значениям соответствующих кумулятивных вероятностных функций;
6) по этим графикам определяется значение
й* = тах \рл(хт й ]) — р0(х.., й..)| и находятся знай е В(1, О) 1 11 1 1
чения рДХ]., й*) и Ро(Х], й*).
Классифицирующая матрица. Для каждого фактора X, I = 1,..., т, пара показателей р1(Х]., й*) и р0(Х]., й*) образует 1-й столбец так называемой классифицирующей матрицы (КМ). Таким образом, КМ, строки которой соответствуют классам К1 и К0, имеет размер (2 х т).
Критерий классификации (дискриминантная функция). Пусть КВО — номер класса, к которому будет отнесен ВО. Дискриминантная функция имеет вид: КВО = тах(Е10, Е0), где Е1 и Е0 — суммы элементов соответствующих строк КМ, а Q — параметр настройки алгоритма. Значение О выбирается из условия: отношение числа Л1 объектов, классифицируемых алгоритмом как объекты класса К1, к числу Л0, определяемому аналогичным образом, должно быть близким (или совпадать) с отношением |К1|/|К0|. В практических задачах поиск приемлемого значения параметра О не вызывает трудностей: поскольку точного совпадения с отношением |К1|/|К0| не требуется, для поиска приемлемого значения р достаточно нескольких пробных значений О, приводящих к значениям отношения Л1/Л0, большим и меньшим значениям отношения |К1|/|К0|. Простота процедуры нахождения приемлемого значения О обусловлена очевидной монотонностью изменения значений соответствующих кумулятивных вероятностных функций в зависимости от показателей й-близости при изменении значения Q.
Предварительная настройка алгоритма. Описываемый алгоритм весьма чувствителен к выбору значения Б. Дело в том, что для выполнения условия |£(х., й. )| 1 Б при увеличении Б монотонно 1 1
увеличивается и наибольшее значение й в каждом из множеств Б(х], й). Но при этом в каждый класс начинают попадать объекты другого (смежного) класса, становящиеся й-близкими к х.. для боль-
ших9 й, т. е. «избирательная способность» й-бли-зости падает. Таким образом, зависимость классифицирующей способности алгоритма от Б имеет максимум при некотором значении Б *, для поиска которого достаточно также нескольких пробных шагов.
9
А при очень больших d¡¡ в один класс могут попасть все
объекты РВ.
2.3. Особенности предлагаемого алгоритма классификации
Из огромного множества алгоритмов классификации выберем лишь те, которые концептуально близки к описанному алгоритму, и покажем, что данный алгоритм отличается от подобных ему известных алгоритмов следующими особенностями. • Концептуально наиболее близким к данному алгоритму можно считать алгоритмы САЕР (Classification Algorithm with Emerging Patterns) [4] и JEP-Classifier [5], разработанные Г. Донгом и его коллегами и базирующиеся на понятии мерцающих образов (emerging patterns, EPs). «Мерцающий образ» в приложении к РВ — это такая комбинация значений факторов в описаниях объектов из РВ, частота вхождения которой в описания объектов из разных классов, заданных на РВ, существенно разная. В САЕР эти частоты вычисляются для каждого EP, затем в каждом классе агрегируются (суммируются) соответствующие частоты. В итоге для каждого класса определяется совокупность EPs, суммарная частота появления которых в данном классе больше, чем их появление в другом классе. Таким образом, в алгоритме САЕР каждый класс в итоге характеризуется соответствующей совокупностью EPs. Однако в нашем случае ситуация сложнее, чем в работе [4], потому что:
— описания классифицируемых объектов массива МОО (объектов оценки, ОО), как правило, отличаются от описаний объектов РВ — именно этим и обусловлен переход к понятию d-близости. Для каждого значения фактора из описания ОО алгоритм выделяет подмножество объектов из РВ со значениями этого фактора, d-близкими к рассматриваемому значению. Разбиение этого подмножества на классы существенно зависит от рассматриваемого значения фактора. Это означает, что
в данном случае определение ЕР условное (EP\x..),
и
зависящее от рассматриваемого значения хи фак-
и
тора X ОО (а не от выборки РВ, как в работе [4]). Поскольку для другого значения аналогичные разбиения будут другими, в контексте алгоритма ЕР-Classifier [5] можно сказать, что в роли EPs в предложенном алгоритме выступают значения факторов стоимости из описаний каждого ОО, которые можно назвать «jumping EPs»;
— при описании алгоритма САЕР отмечается, что нахождение совокупностей EPs, являющихся представителями классов, — довольно трудоемкая процедура. В предлагаемом алгоритме эта процедура заменена несложной процедурой нахождения d-близких значений и использованием максимальных разностей в значениях, являющихся представителями разных классов;
— применяемое в алгоритме правило классификации (идентификатор класса) аналогично при-
меняемому в алгоритме САЕР: наибольшая строчная сумма элементов в КМ аналогична наибольшей сумме вхождений ЕРз в тот или иной класс.
• Другая особенность алгоритма — его адаптивность: при классификации очередного ОО внутренние параметры алгоритма (порядок выбора факторов стоимости, значения йи, структуры КМ) «подстраиваются» под классифицируемый ОО.
• Еще одна особенность связана с количественными факторами. Известны «неприятности», которые доставляют непрерывные (количественные) факторы при построении классификационных деревьев [6] или подсчете ЕРз [4, 5]. Традиционный путь — к разбиению непрерывных диапазонов значений таких факторов на конечное число интервалов, т. е. переход к дискретизированным факторам, причем процесс дискретизации также влечет сопутствующие неприятности [7]. В предлагаемом алгоритме эти неприятности «обойдены» с введением понятия С-близости и рассмотрением для каждого фактора конечных подвыборок длины, не меньшей Б.
2.4. Оценка надежности классификации
Обозначим через п = (п0, результирующее разбиение РВ на классы К0 и К1, причем блоками разбиения п служат либо мощности этих классов, либо состав классов (там, где такая двойственность не вызывает непонимания). После «пропускания» РВ через алгоритм классификации для ряда объектов поменяется номер класса, к которому они будут принадлежать согласно классификации, т. е. на РВ будет определено другое разбиение п' = (п0, п'). Обозначим через п00 совокупность объектов РВ, для которых номера классов в разбиениях п и п' совпадают и равны нулю, аналогично определяются совокупности пп, п10 и п01. Тогда результат классификации объектов РВ можно представить в виде табл. 2.
В нашем случае ситуация предельно простая: два номинальных класса, конечное число классифицируемых объектов и признаков (факторов стоимости). В этом случае общий подход к определе-
Таблица 2
Представление результатов классификации объектов рыночной выборки
П п'
п0
п0 П1 п00 п10 П01 П11
нию вероятностей (не)правильной классификации (описанный в частности, в работе [8]) с помощью скользящего (парзеновского) окна и вероятностной меры (не)правильной классификации сводится к непосредственному подсчету соответствующих вероятностей и выборочных частот. В итоге вероятности правильной (рпр) и неправильной (рн) классификации определяются как
Рпр = (п00 + п11)/пРВ, Рн = (п01 + п10)/пРВ, (3)
где прв = п — |К2| — число классифицируемых объектов в РВ.
Рассмотрим проблему оценки надежности классификации под углом оценки надежности «согласия» двух классификаторов: первый классифицирует объекты РВ с помощью разбиения п, а второй — с помощью разбиения п'. Для корректности принятой постановки должны выполняться определенные условия, совпадающие по сути с аналогичными условиями, необходимыми при оценке так называемого каппа-коэффициента (см., например, работу [9]), и адаптируемые к нашему случаю:
— классифицируемые объекты не зависимы друг от друга;
— каждый объект классифицируется независимо;
— разбиения п и п' образуют полное множество (других разбиений на РВ нет).
«Согласие» классификаторов характеризуется вероятностью рпр, а «несогласие» — вероятностью рн. Тогда надежность классификации можно оценить (по аналогии с каппа-коэффициентом) с помощью коэффициента
^РВ = (Рпр - Рн)/(1 - Рн).
(4)
В нашем случае справедливо рпр + рн = 1. Но тогда10 при Рн < 0,5; ЯРВ = 2 - 1/рпр > 0.
Значения ЛРВ, принадлежащие интервалу [0, 1], считаются допустимыми. Нулевое значение свидетельствует об отсутствии классифицирующей способности алгоритма по отношению к данной РВ. И чем ближе значение ЛРВ к единице, тем выше и классифицирующая способность и надежность алгоритма классификации.
К. Гвет в работе [10] показал, что оценки вида (4) (где рпр = х и рн = у — некоторые переменные из интервала [0, 1]) могут быть использованы лишь при у < 0,5, в противном случае при «хороших» значениях х. эти оценки принимают необъяснимые малые значения. В нашем случае условие рн > 0,5 свидетельствует о плохой классифицирующей способности алгоритма и служит сигналом к прекращению дальнейшего рассмотрения.
3. ПРИМЕНЕНИЕ АЛГОРИТМА КЛАССИФИКАЦИИ К ДИФФЕРЕНЦИРОВАННОЙ ОЦЕНКЕ КЛАССИФИЦИРУЕМЫХ ОБЪЕКТОВ
Рассмотрим теперь основной аспект данной работы — дифференцированную оценку объектов массива МОО. Суть дифференцированной оценки представлена кратко во Введении при описании целей настоящей работы. Согласно п. 2.4, на РВ определено разбиение п = (п0, лх). Алгоритм классификации каждому ОО е МОО, рассматриваемому независимо от остальных, приписывает номер класса 0 или 1, в итоге на множестве МОО получаем разбиение т = (т0, Tj). Встает вопрос о качестве классификации объектов из МОО, т. е. о составе классов разбиения т = (т0, тх). Положение осложняется тем, что на множестве МОО нет исходных классов K0 и K1, с помощью которых можно было бы определить качество классификации. Повторная классификация ОО при менее чем 100 %-й точности классификации применяемого алгоритма лишь увеличит степень неуверенности в результатах такой классификации.
Известны работы, где регрессионная модель, построенная по обучающей выборке, применяется для оценки объектов на тестовой выборке, на которой условные вероятности зависимой переменной от значений предикторов модели отличны от аналогичных распределений на обучающей выборке. Подобное отличие приводит к эффекту, называемому биением выборки (sample selection bias) (см., например, работу [11], где предлагается один из вариантов борьбы с биением выборки). В нашем случае эффект биения выборки сказывается в том, что в силу отличия описания объектов из массива МОО от описания объектов РВ условные вероятности того или другого класса от значений факторов стоимости могут быть различными для РВ и массива МОО. С учетом этого факта при классификации объектов из массива МОО алгоритм следует подстраивать (в плане выбора значений Q и G) к массиву МОО. Условия, при которых классифицируются ОО, можно рассматривать как простейшие аналоги соответствующих условий из работы [11]:
— соответствующие диапазоны значений факторов стоимости объектов из РВ и МОО «не сильно» различаются;
— значения Q (при прежнем значении G) выбираются с учетом выполнения условия
Таблица 3
Результаты классификации объектов оценки
т'
т
т0
т0 Т00 Т01
Т1 Т10 Т11
OO
I п1| IPBI
(5)
В качестве коррекции результатов классификации ОО, повышающей достоверность результатов, рассмотрим выборку № = [РВ, МОО], на которой определены два разбиения п (на РВ) и т (на МОО), образующие исходное разбиение х = (х0, %х) на выборке Ж. х0 = п0 и т0, = и тг Алгоритм классификации применяется к выборке №, при этом разбиение х изменяется до разбиения %', в итоге получаем таблицу для разбиения х, аналогичную табл. 2. Из сравнения элементов, входящих в блоки разбиения т с этими же элементами, входящих в блоки разбиения х', получаем табл. 3, характеризующую качество классификации объектов массива МОО. Здесь т' — совокупности элементов разбиения т, входящие в тот или иной блок разбиения х', полученного «пропусканием» выборки № через алгоритм классификации. Конечная цель данного подхода состоит в оценке надежности классификации, представленной табл. 2 (по аналогии с тем, как это делалось в п. 2.4). Табл. 3 является интегральной оценкой правильности отнесения каждого из ОО к соответствующему классу К0 или Кг
В приводимом далее практическом примере массовой оценки показаны основные этапы предлагаемого подхода к массовой оценке.
4. ПРИМЕР: МАССОВАЯ ОЦЕНКА ОБЪЕКТОВ ПРОМЫШЛЕННОГО НАЗНАЧЕНИЯ В СЕЛЬСКИХ НАСЕЛЕННЫХ ПУНКТАХ КАЛУЖСКОЙ ОБЛАСТИ
Исходной информацией, предоставленной автору, служит РВ из 197 указанных в заголовке примера объектов. В роли решающего показателя качества оценки использовалась ОПО с допустимыми предельными значениями 8 < 12 %.
Итерационный процесс построения моделей. На РВ была построена линейная регрессионная модель (см.
сноску 5) Мд с 12-ю факторами стоимости, которая разбила РВ на два класса: класс С0 «пригодных» объектов, содержащий 119 объектов, и класс С1 — «забракованных» объектов, содержащий 78 объектов (78:197 я 40 % РВ). Затем для класса С0 запускался итерационный процесс (см. табл. 1). На рис. 1 показан график изменения мощности класса «пригодных» объектов на каждой итерации.
Видим, что на 10-й итерации процесс пришел в устойчивое состояние с неизменными далее множествами
т
Рис. 1. Мощность класса «пригодных» объектов на каждой итерации
О0о и О|0 соответственно «пригодных» и «забракованных» объектов. В этом состоянии для каждого из объектов множества из 139 объектов ОПО относительно модели на этом шаге итерации удовлетворяет требованию 8; < 12 %, и ни один объект к множеству О°9 не добавляется и из него не исключается. Теперь на множестве О110 из 58 «забракованных» объектов строим регрессионную линейную модель М0 и запускаем итерационный процесс для множества О110. На первом же шаге итерации процесс пришел в устойчивое состояние: число «пригодных» относительно модели м\ объектов равно 45, и далее это число не изменяется. При этом мощность класса К2 «окончательно забракованных» объектов равна 13.
В табл. 4 приведены значения показателей качества (для наглядности приведены также соответствующие значения коэффициента детерминации Я ) для моделей М°, М°0 и м\ . Поскольку модели М°0 и м\ — результирующие для соответствующих итерационных циклов, это означает, что объекты РВ, не вошедшие в класс К2, будут оцениваться соответствующими моделями с ОПО, не превышающей 12 %.
Настройка алгоритма классификации на РВ и определение надежности классификации. В результате предыдущего этапа на РВ определено разбиение п с блоками п0 (139 объектов) и п1 (45 объектов). При классификации
объектов РВ значение 0 выбирается из условия п1 £ п\, при этом 0 = 0,83, а параметр С = 10. Результаты классификации объектов РВ с помощью алгоритма с указанными настройками приведены в табл. 5.
Согласно выражению (3) вероятность правильной классификации рпр = (116 + 20)/184 = 0,7391 > 0,5, что
вполне приемлемо для решаемой задачи, а надежность классификации согласно формуле (4) Ярв = 2/0,7391 = = 0,6470, что в качественной шкале надежности классификации считается «высокой».
Классификация объектов массива МОО. Применим теперь алгоритм к классификации объектов массива МОО, содержащего 100 ОО. В нашем случае при 0ОО = 0,79 имеем: т1 = 25, п1 = 45, так что в соответствии с условием (5) 25/100 « 45/184 = 0,2446. Для коррекции результатов классификации формируем выборку Ж = [РВ, МОО], и после подстройки алгоритма классификации под выборку Ж ( = 0,85) классифицируются объекты выборки Ж Это позволяет извлечь необходимую информацию о вхождении каждого из объектов в тот или иной блок разбиения т' = (т0, т1). В итоге получаем табл. 6, отражающую связь между разбиениями т и т'.
При этом коэффициент Я00, определяемый по аналогии с величиной Ярв и характеризующий надежность классификации, равен 0,9247, что можно считать высоким значением надежности классификации объектов. С учетом сказанного ранее о табл. 3 можно заключить, что (72 + 4) объекта «пригодные» для их оценки моделью м{0 , а (3 + 21) объекта — моделью м\ . Оказалось, что в массиве МОО присутствуют три объекта, для которых модель м00 дала резкие выбросы в отрицательную
Таблица 4
Показатели качества оценки для разных моделей, построенных на «пригодных» объектах рыночной выборки
Показатели качества оценки V % Я2
Исходная модель м° на классе С0 Модель м00 на классе С00 Модель м на классе С 6,13 5,91 5,84 0,9440 0,9405 0,9109
Таблица 5
Результаты классификации объектов рыночной выборки
п п'
141 43
139 45 116 25 23 20
Таблица 6 Результаты классификации объектов из массива М00
т т'
76 24
75 25 72 4 3 21
ю
i о
8000 7000 6000
g 5000
л
5
| 4000
£
3000
2000
m
. . л'»
20 40 60 80 Номер объекта массива М0о
100
Рис. 2. Результаты оценки 97 объектов массива МОО: сплошная — дифференцированная оценка ОО с помощью моделей M11o и M11 , пунктир — оценка тех же объектов первоначальной моделью м0
область. В то же время эти три объекта принадлежат множеству объектов, «пригодных» для модели м[ . Таким образом, с помощью моделей м 00 и м оцениваются (с высокой надежностью) все объекты массива МОО. На рис. 2 приведены результаты дифференцированной оценки 97 объектов с помощью моделей м 0 и м . Для сравнения приведены результаты оценки этих же объектов первоначальной моделью м10 .
Видим, что дифференцированная оценка объектов позволила скорректировать значения стоимостей многих ОО, полученных с помощью первоначальной модели м0. Средняя относительная ошибка между этими
графиками в данном случае составляет 8,4 %. Степень подобной коррекции существенно зависит от объектов массива МОО.
ЗАКЛЮЧЕНИЕ
Предложен новый (двухмодельный) подход к массовой оценке объектов, позволяющий:
• с помощью итерационного процесса построения моделей полнее использовать информацию, содержащуюся в рыночной выборке;
• осуществлять дифференцированную оценку объектов, путем:
— построения отдельных моделей для «пригодных» и «забракованных» объектов рыночной выборки;
— классификации объектов на «пригодные» и «забракованные»;
— выбора соответствующей модели при оценке каждого объекта.
Дополнение существующей процедуры массовой оценки построением второй модели и этапом классификации объектов позволяет существенно улучшить точность массовой оценки. В настоящее время о точности массовой оценки зачастую судят по значениям некоторых интегральных показателей (типа среднего значения, максимальной или минимальной стоимости и т. п.), не опускаясь до оценки отдельных объектов.
ЛИТЕРАТУРА
1. Lewis J.B., LinzerD.A. Estimating Regression Models in Which the Dependent Variable Is Based on Estimates// Political Analysis. - 2005. - Vol.13. - P. 345-364. URL: http://www. sscnet.ucla.edu/polisci/faculty/lewis/#a_prereprint (дата обращения 04.06.2013).
2. Ward R.D., et al. Improving CAMA Models Using Geographic Information Systems/Response Surface Analysis Location Factors// Assessment Journal. — 1999. — Vol. 31, N 1.
3. Корноушенко Е.К. Методологические аспекты практического регрессионного оценивания // Проблемы управления. - 2008. - № 2. - С. 34-41.
4. Dong G., et al. CAEP: Classification by Aggregating Emerging Patterns // Discovery Sci. 99, LNAI 1721, Tokyo, Japan, 1999. URL: www.citeseerx.ist.psu.edu/viewdoc/summary?doi= 10.1.1.37.3226 (дата обращения 07.06.2013).
5. Li J., еt al. Making Use of the Most Expressive Jumping Emerging Patterns for Classification // Proc.of Pacific Asia Conference on Knowledge Discovery in Databases (PAKDD), Kyoto, Japan, 2000. URL: www.citeseerx.ist.psu.edu/viewdoc/ summary?doi=10.1.1.36.9640 (дата обращения 07.06.2013).
6. Kohavi R., Quinlan J.R. Improved Use of Continuous Attributes in C4.5 // Journal of Artifical Intelligence Research. -1996. - N 4. - P. 77-90. www.citeseerx.ist.psu.edu/viewdoc/ summary?doi=10.1.1.46.3240 (дата обращения 08.06.2013).
7. Fayyad U.M., Irani K.B. Multi-Interval Discretization of Continuous-Valued Attributes for Classification Learning. - URL: www.yaroslavvb.com/papers/fayyad-discretization.pdf (дата обращения 04.06.2013).
8. McDermott E. and Katagiri Sh. A Parzen Window Based Derivation of Minimum Classification Error from the Theoretical Bayes Classification Risk. - URL: www.citeseerx.ist.psu.edu/ viewdoc/summary?doi=10.1.1.13.8450 (дата обращения 07.06.2013).
9. Sim J., Wright C.C. The Kappa Statistic in Reliability Studies: Use, Interpretation, and Sample Size Requirements // Phys. Ther. - Vol. 85. - P. 257-268. www.physther.org/content/ 85/3/257.full (дата обращения 04.06.2013).
10. Gwet K. Kappa Statistic is not Satisfactory for Assessing the Extent ofAgreement Between Raters // Statistical Methods For Inter-Rater Reliability Assessment. - April 2002. -N 1. URL: www.agreestat.com/.../kappa_statistic_is_not_ satisfactory.pdf (дата обращения 07.06.2013).
11. Huang J., еt al. Correcting Sample Selection Bias by Unlabeled Data. - URL: www.enpub.fulton.asu.edu/cseml/07spring/ Sample.pdf (дата обращения 07.06.2013).
Статья представлена к публикации членом редколлегии Р.М. Нижегородцевым.
Евгений Константинович Корноушенко - д-р техн. наук, гл. науч. сотрудник, Институт проблем управления им. В.А. Трапезникова РАН, г. Москва, ® (495) 334-90-00, И [email protected].