Известия Тульского государственного университета Естественные науки. 2012. Вып. 3. С. 132-141 = ИНФОРМАТИКА
УДК 519.256
Алгоритм многоклассовой монотонной Парето-классификации с выбором
5к
признаков *
М. М. Медведникова, В. В. Стрижов, М. П. Кузнецов
Аннотация. Предложен метод нахождения монотонной функции, определенной на декартовом произведении множеств, на которых заданы отношения линейного порядка. В основе метода лежат процедуры монотонизации функции дискретного аргумента и нахождения Парето-оптимального фронта. Рассмотрена задача выбора наиболее информативных признаков. Работа проиллюстрирована задачей прогнозирования статуса редких видов, включенных в Красную книгу РФ.
Ключевые слова: многоклассовая классификация, порядковые шкалы, монотонная функция, Парето-оптимальный фронт, выбор признаков.
Введение
Решаемая ниже задача является задачей построения интегральных индикаторов в ранговых шкалах [1, 2]. В качестве практического приложения к поставленной ниже задаче рассматривается проблема ревизии статуса угрожаемых видов животных, входящих в список Красной книги РФ [3, 4]. В настоящее время Красная книга включает более четырехсот видов (таксонов) животных. Каждому таксону присваивается один из шести статусов: 0 — вероятно исчезнувшие; 1 — находящиеся под угрозой исчезновения; 2 — сокращающиеся в численности; 3 — редкие; 4 — неопределенные по статусу; 5 — восстанавливаемые и восстанавливающиеся.
Согласно законодательству [5] Красную книгу необходимо пересматривать не реже одного раза в десять лет с целью ревизии статуса таксонов. Назначение статуса таксонов группой экспертов может быть выполнено следующими способами.
(1) Прямое назначение методов согласования экспертных оценок, например, методом Дельфи [6].
* Работа выполнена при финансовой поддержке РФФИ (проект № 10-07-00422).
(2) Вычисление статуса таксона исходя из его развернутого описания с помощью предложенной аналитиками модели.
Недостаток первого способа — высокие требования к составу экспертного совета; в частности, предполагается, что каждый член совета владеет детальной информацией по всему списку таксонов [7]. Недостаток второго способа — чувствительность модели, согласно которой вычисляется статус. Вышеприведенные проблемы можно назвать проблемами формализации знаний экспертов и аналитиков [8].
Поэтому, предполагая, что текущая версия Красной книги РФ составлена «в целом» непротиворечиво, то есть существует соответствие между описанием таксона и его статусом, найдем такое отображение множества описаний таксонов в множество их статусов из текущей Красной книги, которое бы наиболее точно прогнозировало бы статус некоторого таксона, не включенного в Красную книгу. Это отображение далее будем называть моделью — функцией дискретного аргумента, определенной на декартовом произведении линейно-упорядоченных множеств экспертных оценок и принимающей значение на линейно-упорядоченном множестве статусов таксона.
Для построения модели используются описания таксонов — экспертные оценки различных критериев их состояния. Каждый представленный в анкете критерий принимает значения из множества, на котором задан линейный порядок. Искомая модель строится следующим образом. Выполняется двухклассовая классификация таксонов (далее — элементов выборки). При этом для каждой смежной пары классов выбирается пара парето-оптимальных фронтов, задающих монотонную функцию.
Прогнозирование состояния вида выполняется в два этапа: построение модели и классификация. Для построения модели требуется отыскать множество непересекающихся Парето-оптимальных фронтов. Так как в общем случае обучающая выборка является выпукло-неразделимой, то для отыскания таких Парето-оптимальных фронтов необходимо разделить классы путем удаления из выборки дефектных пар объектов, доминирующих объекты чужих классов. Классификация проводится по принципу ближайшего соседа. После решения всех подзадач бинарной классификации определяется один из 6 классов, к которому относится прогнозируемый объект. Для контроля качества классификации и классификации используется модифицированное применительно к порядковым шкалам расстояние Хэмминга.
1. Парето-классификация для случая двух классов
Дано множество пар Э = {(хг,уг)}, г е! = {1,...,ш}, состоящее из объектов х = [х1,..., Хз, ■ ■ ■, Х^\Т, .] е 3 = {1,..., (I}, описанных в ранговых шкалах, Хз е = {1к : 1\ У ... У ^}, и меток классов у е {0,1}. Каждый признак Хз принимает значение из множества , на элементах которого
задано отношение линейного порядка. Для наглядности будем считать, что элементы из тождественны элементам подмножества натуральных чисел: Іі = 1,..., 1к2 = kj. На множестве ¥ = {0,1} меток классов у также задано отношение порядка: 0 -< 1.
Для решения задачи двухклассовой классификации предлагается построить монотонную функцию /: х м у, определенную на всем множестве
X = Ьі х ... х Ьа, (1)
X э х, и принимающую значения из множества ¥. Эта функция должна доставлять минимум функции ошибки
«(/ ) = т Е у=X], (2)
ЇЄІ
где [•] — индикаторная функция:
г |0, если у = у;
[Уі = У] = < 1
и, если у = у.
Решим задачу нахождения функции / (х) с помощью разделимой выборки Э: предполагается, что каждому из классов у соответствует выпуклая оболочка РОЕ, заданная отношением доминирования ««У» элементов, и эти оболочки не пересекаются. Искомая функция / будет сначала определена (3) на множестве элементов {хі : і єХ} с индексами і єX СХ, а затем доопределена (1) на всем множестве X.
Введем на элементах каждого из классов отношение доминирования. Разобьем множество индексов Х элементов выборки Э на два подмножества Х = М[_\Р так, что уп = 0, а ур = 1, п є N,р єР. Введем на множествах {х« : п Є М} и {хр : р є Р} отношения доминирования У п и У р. Элемент хп п-доминирует элемент хі, если справедливы неравенства:
хп У пхі, если Хщ ^ х^ для всех і є J.
Аналогично, элемент хр р-доминирует хі, если справедливы неравенства:
хр У рхі, если Хpj ^ х^ для всех і є J.
Будем считать, что элемент не доминирует сам себя ни в одном из смыслов:
х ^п х, х ^р х.
Парето-оптимальный фронт РОЕп — такое множество элементов хп,п є є N, для каждого элемента которого хп є РОЕп не существует ни одного элемента х такого, что х У пхп. Парето-оптимальный фронт РОЕр — такое множество элементов хр,р є Р, для каждого элемента которого хр є РОЕр не существует элемента х, такого, что х У рхр.
Рассмотрим процедуру нахождения множества Х, на котором функция /: х м X монотонна. Рассмотрим мощность ц доминируемого элементом хі
множества элементов другого класса, которая задана для элементов хп и хр следующим образом:
где знак $ означает число элементов множества. Для нахождения множества 1 будем последовательно удалять из выборки Э элементы с индексом г такие, что
до тех пор, пока в выборке Э есть элементы х^ с индексом г € I такие, что Мхг) > 0.
2. Прогнозирование для случая двух классов
Метка класса у ставится в соответсвие произвольному вектору х найденной функцией f: х ^ у. При этом, если найдутся некоторые векторы хп или хр, где п,р € I которые находятся с х в отношении доминирования, то
Если таких элементов не найдется, то функция / доопределяется до множества X (1) согласно правилу ближайшего множества РОЕ:
где выпуклые множества РОРп, РОРр однозначно заданы ранее найденными множествами N, 11 индексов элементов х^ € X. Функция р является модифицированным применительно к порядковым шкалам расстоянием Хэмминга и задана как сумма модулей разностей элементов х, X векторов х, х;, то есть
і = ащшах ц(хі),
ієх=Яи р
Х = х\{Х}, N = М\{Х}, Р = Р\{Х
(3)
/ (х) = / (р( х х0)
а
(4)
j=l
3. Монотонная классификация
Рассмотрим случай с более чем двумя классами; на множестве меток задано отношение линейного порядка. Пусть задано множество
меток классов {1 -< ... -< u -< v -< ... -< z} = Z. Для каждой смежной пары классов u, v выше была определена монотонная функция fuv : x ^ у е {0,1}, x е X. Монотонный классификатор <^(x) = ф(^2,..., f(z-i)z)(x), функция ф: X ^ Z, задан следующим образом:
u = max u, если fuv (x) = 0;
/ ч f u,v£Z
^(x) = ’• / ( ) 1
u = mm v, если fuv (x) = 1.
u,vEZ JUvK ’
Функции fuv, входящие в классификатор ф, строятся на множествах {xn: n Е
Е Nu} и {xp: p Е Pv}, содержащих, соответственно, те элементы пар (x, у),
в которых индекс
n Е N, если уп ^ и и p Е P, если v ^ yp.
Классификатор ф будем называть допустимым, если для всех входящих в него функций fuv соблюдается условие транзитивности:
если fuv(x) = 0, то f(u-s)(v-s) =0 для всех s :(u - s) ^ 1, (5)
если fuv(x) = 1, то f(u+s)(v+s) = 1 для всех s: (v + s) ^ z. ()
Условие транзитивнсти с необходимостью выполняется тогда, когда не пересекаются выпуклые оболочки POF:
POFn(u) U POFn(u +1) = 0 и
POFp(v) U POFp(v +1) = 0, (6)
где u = 1,... ,z — 1, v = u + 1.
Функция ошибки при монотонной классификации задана, как и выше (2), расстоянием Хэмминга, нормированным числом элементов выборки:
л m
Б(ф)=т^ У — Ф^1 (7)
i=l
4. Выбор признаков при классификации
Так как число объектов в данной задаче определено составом Красной книги РФ и сопоставимо с числом признаков — критериев описания объектов, необходимо выбрать наиболее информативные признаки. Множество индексов признаков, включенных в модель ф, назовем активным набором и обозначим Л^ J.
Поставим задачу выбора наиболее информативных признаков следующим образом. Разобъем выборку Э на две подвыборки, обучающую и тестовую. Обозначим индексы элементов этих подвыборок сооветственно СиТ = I. Для некоторого активного набора признаков Л
найдем на обучающей подвыборке Эс оптимальные, согласно заданной функции ошибки 5, функцию Фа,
Фа = ащ шт Б(фа\Эс), (8)
<ра^-Ъа
где £а — множество допустимых монотонных функций, определенных
на множестве х Ь7-; знаком х здесь обозначено декартово произведение 7еА
множеств.
Затем выберем наиболее информативные признаки — активный набор Л по всем поднаборам индексов признаков Л ^ 3, доставляющий на тестовой выборке Эс минимум функции ошибки:
Л = а^шш 5(<Фа\Эт)- (9)
Так как сложность алгоритма поиска наиболее информативных
признаков методом полного перебора равна 2п — 1, где п — наибольшее
количество признаков, предложим алгоритм сокращенного перебора:
1) взять набор случайных бинарных векторов {&1,..., ар}, а £ {0,1}п;
2) выбрать из набора два вектора ар, ад, р,д £ {1,... ,Р};
3) выбрать случайным образом номер V £ {1,... ,п — 1};
4) разбить оба выбранных вектора на две части и поменять фрагменты
местами:
[йрД, . . . , йр,и, ад,и+1у . . . , ад,п] 1 ^ а р,
[йд,1, . . . , йд,и, ар,и+1, . . . , ар,п] 1 ^ а д 5
5) выбрать случайные номера пі, ■ ■ ■ ,ПЯ Є {1, ■ ■ ■ ,п};
6) инвертировать компоненты пі, ■ ■ ■ ,ПЯ векторов а;р, а'д;
7) по каждому вектору а построить активный набор А, соответствующий набору классификатор (а и вычислить функцию ошибки Б(р|Эт); если классификатор р не удовлетворяет требованию транзитивности (5), отвергнуть набор А;
8) повторить пункты 2)—7) Р/2 раз; выбрать из функций ошибок Бі, ■ ■ ■ ..., Б2Р Р наилучших; использовать соответствующие этим значениям векторы, переобозначим их {аі,^, ар}, для дальнейшего поиска оптимальных наборов.
Вышеописанный алгоритм повторяется до стабилизации функции ошибки Б(р|®т) либо до стабилизации значений элементов А = {аі, ■ ■ ■, ар}, но не более чем заданное число раз. Набор А считается стабильным, если его энтропия Н(А) не превосходит некоторого заданного порога. Здесь Р, являются параметрами алгоритма.
Для определения стабилизации предлагается найти энтропию
р
Н(А) = — ^ р(а7 — а7) 1п р(а7 — а7),
7=1
множества попарных нормированных расстояний Хэмминга между элементами наборов А = {а1,..., ар} и А' = {а'1,..., ар}, полученными на двух соседних итерациях алгоритма выбора признаков.
Элементы а £ А и а' £ А' ставятся в соответствие друг другу для вычисления наименьшего расстояния р(а7, а'7) между парой векторов следующим образом. Рассмотрим матрицу расстояний К = {р(а7, а'д.)}, j,k £ Р на упорядоченных парах декартова произведения множеств А х А'. Переставим столбцы матрицы К таким образом, чтобы сумма диагональных элементов р(а7, а'7) была минимальна.
5. Вычислительный эксперимент
Проиллюстрируем вышеописанный алгоритм двумя наборами данных: синтетической выборкой и выборкой, состоящей из экспертных оценок видов Красной книги РФ. Синтетическая выборка представлена на рис. 1, левый график. Она включает объекты трех классов, обозначенные маркерами разной формы. Объекты описываются двумя признаками. На рис. 1 справа линиями показан результат работы алгоритма: две пары множеств РОЕ; можно увидеть, что дефектные объекты удалены из выборки.
•..
...•
•..А...
4...•..•
п 1. < п —•
-4
Рис. 1. Синтетическая выборка и полученные множества РОР
Данные экспертных оценок видов из Красной книги РФ включали 117 объектов, описанных 101-м признаком. Экспертные оценки выставлены в ранговых шкалах. Метка класса, состояние вида также выставлена в ранговой шкале согласно [3].
Результаты работы алгоритма сравнивались с результатами алгоритма криволинейной регрессии на различных подмножествах признаков 31,..., 3ч. Алгоритм криволинейной регрессии представляет собой трехшаговый итеративный алгоритм оценки корректирующих параметров и весов
2
4
6
2
4
6
8
признаков. На первом шаге этого алгоритма оцениваются веса признаков, согласно стандартному правилу линейной регрессии. На втором и третьем шаге происходит монотонная коррекция корректирующих параметров признаков и меток классов.
Номера признаков, включенных в множества 31,..., 37, и результаты сравнения показаны в таблице ниже. Для оценки качества классификации на реальных данных использовалась функция ошибки (7), включающая расстояние Хэмминга (4) между статусом объекта у и результатом классификации ф = <^(х)
Таблица 1
Результаты классификации, сравнение двух алгоритмов
Набор Индексы признаков, Л С 3 Криволинейная регрессия, 5ьоо Предложенный алгоритм, 5ь00
Зі 1, 2, 3, 5, 10, 11, 33, 64 0.8261 0.8333
1, 3, 4, 5, 6, 8 0.7500 «НТ»
з 11, 13, 15, 16, 21, 22 0.8500 0.7917
3 42, 66, 70, 75, 80, 95 0.7917 «НТ»
35 1, 3, 15, 16, 80, 95 0.8167 0.7083
3е 5, 6, 13, 21, 42, 66 0.8330 0.8750
3 1, 16, 22, 70, 33, 42 0.7650 «НТ»
Критерием сравнения алгоритмов является значение функции ошибки, вычисленной по схеме Ьеауе-Опе-Ои^ где функции (8) и (9) для фиксированного набора признаков Л определены следующим образом:
л т
5ьоо = — У2 5 (фд (х;)) , где = а^ шт 5(^а\Эх \ {*}).
г=1
Здесь обозначение Эх \ {г} означает, что используются все элементы выборки, кроме г-го.
В табл. 1 символом «НТ» обозначено нарушение транзитивности (5): в случае нарушения отношения транзитивности объекты классов с более предпочтительными значениями меток при бинарной классификации ошибочно относятся к классам с менне предпочтительными значениями меток, и наоборот.
Заключение
Предложен алгоритм многоклассовой монотонной классификации с выбором признаков, отличительной особенностью которого является применимость к ранговым шкалам. Отбор признаков проводится с учетом минимизации введенной функции ошибки и сохранения между объектами отношения транзитивности. Проведено сравнение качества работы данного
алгоритма с алгоритмом криволинейной регрессии. Рассматриваемый в статье алгоритм позволяет выявить наборы признаков с нарушениями транзитивности.
Список литературы
1. Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов. 2006. Т.72, №7. C.59-64.
2. Integral indicator of ecological impact of the Croatian thermal power plants / V. Strijov [et al.] // Energy, 2011. V.36, №7. P.4144-4149.
3. Красная книга Российской Федерации. М.: Институт проблем экологии и эволюции имени А. Н. Северцова РАН / Под ред. В. И. Данилов-Данильян и др. http://www.sevin.ru/redbook/ (31.07.2012).
4. Красная книга Российской Федерации (животные). М: АСТ Астрель, 2001.
5. Законодательство в сфере охраны животного и растительного мира: Российская Федерация http://oopt.aari.ru/rbdata/900 (31.07.2012).
6. Литвак Б.Г. Экспертная информация: Методы получения и анализа. М.: Радио и связь, 1982. С.69-88.
7. Орлов А.И. Организационно-экономическое моделирование. Ч 2. Экспертные оценки. М: МГТУ им. Н.Э. Баумана, 2011. 486 с.
8. Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов. 2011, Т.77, №7. С.72-78.
Медведникова Мария Михайловна ([email protected]), студент, Московский физико-технический институт.
Стрижов Вадим Викторович ([email protected], http://strijov.com), к.ф.-м.н., н.с., Вычислительный центр Российской академии наук, Москва.
Кузнецов Михаил Павлович ([email protected]), студент, Московский физико-технический институт.
Algorithm of multiclass monotonous Pareto-classification M.M. Medvednikova, V. V. Strijov, M.P. Kuznetsov
Abstract. The authors propose a method to search a monotonous function, which is defined on the cartesian product of the linearly-ordered sets. The method is based on the procedures of monotonization of the discrete-argument function and Pareto-optimal front slicing. The feature selection problem investigated. The problem illustrated with the problem of forecasting of the Red Book of Russian Federation rare-spices statuses.
Keywords: multiclass classification, ordinal scales, monotonous function, Pareto-optimal front, feature selection.
Medvednikova Mariya ([email protected]), student, Moscow Institute of Physics and Technology.
Strijov Vadim ([email protected], http://strijov.com), candidate of physical and mathematical sciences, researcher, Computing Center of the Russian Academy of Sciences, Moscow.
Kuznetsov Mikhail ([email protected]), student, Moscow Institute of Physics and Technology.
Поступила 17.09.2012