УДК 004.67, 004.93'14
И. А. Шпехт
АЛГОРИТМ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ЛИНЕЙНО НЕРАЗДЕЛИМЫХ ДАННЫХ В НЕПРЕРЫВНОМ ПРИЗНАКОВОМ ПРОСТРАНСТВЕ ПРИ ОГРАНИЧЕННОМ ОБЪЕМЕ ПРЕЦЕДЕНТОВ
I. A. Shpekht
ALGORITHM OF AUTOMATIC CLASSIFICATION OF LINEARLY INSEPARABLE DATA IN CONTINUOUS ATTRIBUTE SPACES WITH LIMITED PRECEDENT
Предложен новый алгоритм автоматической классификации многомерных линейно неразделимых данных с применением человеческих критериев классификации («человекообразна») таксономия) и спроектированный на его основе программный комплекс классификации многомерных данных с гибкой системой обработки информации, который облегчает работу системных исследователей при моделировании организационных процессов и процедур принятия решений. Полученные результаты могут использоваться при построении решающих правил в задачах принятия решений в трудноформализуемых технических и информационных системах.
Ключевые слова: классификация, многомерные данные, линейно неразделимые образы.
The new algorithm for automatic classification of multidimensional linearly inseparable data using human classification criteria ("humanoid" taxonomy) and designed on its basis software package of classification of multidimensional data with flexible information processing system, which facilitates the work of researchers in modeling of organizational processes and decision-making procedures, are offered. The obtained results can be used in the construction of decision rules in decision-making problems in hard forming technical and information systems.
Key words: classification, multidimensional data, linearly inseparable images.
Введение
Теория распознавания образов на современном этапе развития информационных систем является мощным методологическим комплексом познания и решения трудноформализуемых задач управления различного назначения с интеллектуальными системами накопления и анализа данных об объектах исследования. К трудноформализуемым обычно относят задачи, в которых практически невозможно точно описать все внутренние и внешние количественные взаимосвязи объектов исследования, определяющие в итоге свойства и характеристики самих объектов.
По мере развития теории распознавания образов, начиная от ее истоков, сформировались два специфических подхода, имеющие общеметодологическое значение, такие как распознавание и классификация образов с учителем и без учителя (самообучение).
Группировка объектов по похожести их свойств (часто употребляют также термины «самообучение), «автоматическая классификация), «кластеризация), «таксономия)) упрощает решение многих практических задач анализа данных. Так, если объекты описаны свойствами, которые влияют на общую оценку их качества, то в одну группу (таксон, класс, кластер) будут собраны объекты, обладающие приблизительно одинаковым качеством. И вместо того, чтобы хранить в памяти ЭВМ данные обо всех объектах, достаточно сохранить описание типичного представителя каждого таксона (прецедента), перечислить номера объектов, входящих в данный таксон, и указать максимальное отклонение каждого свойства от его среднего значения для данного таксона. Этой информации обычно бывает достаточно для дальнейшего анализа изучаемого множества объектов [1].
В настоящее время существует ряд алгоритмов и программных комплексов, позволяющих решать разнообразные типичные задачи классификации, однако в данной области все еще остается много нерешенных проблем [1-3]. Одной из них является задача классификации линейно неразделимых данных.
В качестве примера можно привести следующую задачу: имеется набор данных, содержащий координаты звезд кольцевидной галактики с ядром в центре, такой, например, как «объект Хога» (рис. 1).
Рис. 1. Объект Хога - кольцеобразная галактика в созвездии Змеи
Необходимо отделить звезды, относящиеся к кольцевой области, от принадлежащих ядру. Большинство современных алгоритмов классификации в приведенной задаче отнесут все звезды к одному классу, т. к. линейно они неразделимы, хотя при «ручной» классификации человеком набор данных, очевидно, будет разделен на два класса. Существуют подходы, способные решать подобные задачи, например алгоритмы на основе метода опорных векторов, гипотезы 1, использующие графы, но они сложны в восприятии и не всегда применимы на практике.
Постановка задачи
В результате анализа предметной области и изучения существующих алгоритмов, методов классификации многомерных данных и программных комплексов, реализующих эти методы, были выявлены следующие недостатки:
- для корректного толкования результатов классификации требуется априорная информация о структуре данных, например количество ожидаемых таксонов (классов);
- большинство современных подходов к анализу данных являются слишком сложными в практическом применении;
- специализированных пакетов для классификации многомерных данных на рынке немного, и они, как правило, предназначены для применения в определенных областях и решают только узкий круг задач.
Таким образом, разработка алгоритма автоматической классификации многомерных линейно неразделимых данных с применением человеческих критериев классификации («человекообразная» таксономия) и проектирование на его основе программного комплекса классификации многомерных данных с гибкой системой обработки информации облегчат работу системных исследователей при моделировании организационных процессов и процедур принятия решений.
Практический алгоритм выделения классов в непрерывном признаковом пространстве при ограниченном объеме прецедентов
Как говорилось выше, в рассмотрении трудноформализуемых задач одно из определяющих положений занимает теория распознавания образов, которая распространилась на область задач с различными закономерностями изменения характеристик и свойств объектов исследования.
Применение методов распознавания образов предполагает существование исходных эмпирических данных об изучаемом множестве объектов-прецедентов W = (Щ, W1,... )
в системе их признаков {Х1, X2,... Хп}.
В общем виде они могут быть представлены в виде матрицы W размерностью N х п , где N - количество объектов (экспериментальных точек), ап - количество признаков (свойств, характеристик и факторов), характеризующих данное множество объектов:
' ^12 ... ^1п "
= ^21 ^22 ... ^2п
ч^N1 wN2 ... wNn ,
В таком случае каждый объект геометрически можно представить в виде точки в п-мерном пространстве признаков, а под классом, или образом, будем понимать множество объектов или явлений, близких между собой в некотором смысле, где «мера близости» между объектами одного класса больше, чем между объектами разных классов. Понятие «мера близости» для объектов исследования основана на эмпирической гипотезе, известной в литературе по распознаванию образов как «гипотеза компактности». Ее суть заключается в следующем: объекты одного и того же образа в признаковом пространстве образуют геометрически близкие точки, т. е. компактные «сгустки». Большинство подходов в распознавании образов основано именно на этой гипотезе.
Следует отметить, что гипотеза компактности подтверждается не всегда, например для случаев, когда распределение объектов в классе имеет несферическую форму или когда классы образуют линейно неразделимые множества. В таких случаях эффективными являются подходы, основанные на создание алгоритмов распознавания и классификации объектов с применением человеческих критериев классификации («человекообразная» таксономия).
В настоящее время разработано множество алгоритмов решения основных задач распознавания и классификации образов, что является следствием самой сущности таких задач -попытки моделировать способность человека решать широкий круг трудноформализуемых задач, пользуясь «рассуждениями по аналогии», «интуицией» и т. п. [1, 2]. Здесь нужно отметить, что не существует жесткой границы между алгоритмами решения разных типов задач распознавания и классификации (например, предназначенные для формирования групп объектов алгоритмы таксономии можно успешно применять для выбора информативной группы признаков) и дать априорную оценку преимуществ того или иного алгоритма для решения определенного круга прикладных задач достаточно трудно. Выбор того или иного алгоритма или их комбинации для решения конкретной задачи диктуется соображениями как содержательного, так и организационного характера (объем исходной информации, конкретные специализированные гипотезы и ограничения, цель исследования, характер измерения и количество признаков, наличие программ и возможность их реализации на ЭВМ, опыт и предпочтение исследователя и т. п.).
В статье представлен разработанный нами алгоритм «человекообразной» таксономии для решения задач распознавания и классификации применительно к трудноформализуемым объектам исследования для случая непрерывнозначных переменных (признаков).
Алгоритм классификации многомерных данных «ЛОТОС»
Суть алгоритма классификации заключается в одновременном построении гиперсфер вокруг всех объектов, представленных в виде точек с нормированными координатами в многомерном признаковом пространстве, и пошаговом увеличении их радиусов с определенной начальной скоростью. Далее на каждом шаге при увеличении начального радиуса проверяется условие пересечения между собой гиперсфер. Если произошло пересечение определенных групп гиперсфер, то данные объекты считаются принадлежащими к одному классу и дальнейшее увеличение радиусов гиперсфер таких объектов происходит с большей скоростью, зависящей от количества объектов в классе. Изменение же радиусов непересеченных (одиноких) гиперсфер продолжается с прежней скоростью.
Таким образом, получаем процесс организованной группировки объектов в классы с разными скоростями увеличения радиусов гиперсфер, построенных вокруг них, указывающих на мощность каждого класса. Иллюстрация работы алгоритма для двумерного случая показана на рис. 2.
На рис. 2, а изображено первоначальное расположение классифицируемых объектов на координатной плоскости, а на рис. 2, б и в представлены объекты после выполнения первого и второго шагов, где радиусы всех гиперсфер все еще остались равными, т. к. пересечения от-
сутствуют. Ситуация после четвертого шага, где радиусы объектов уже изменились со скоростями, зависящими от количества пересеченных сфер, представлена на рис. 2, г.
• • • • 0® ®
• • а б
о о Щ
% в % г
Рис. 2. Принцип работы алгоритма «ЛОТОС» в двумерном случае
Из-за сходства полученной картины представления данных с цветком лотоса данный алгоритм получил название «ЛОТОС».
Приведем пошаговое описание алгоритма.
1. На вход подается массив данных в виде
w ={w},
где i - номер объекта (точки), i = 1, N, N - количество объектов; j - номер признака, j = 1, n , n - количество признаков.
2. Производится нормирование координат точек исследования. Для этого:
- вычисляется коэффициент нормирования по признакам
Q={ qj} •
где q = ymax(X ) - коэффициент нормирования j-го признака; max(X ) - максимальное значение j-го признака (j = 1, n);
- создается массив нормированных данных:
W = W■ Q ={w. ■ q }, (i = 1N ,j = 1~П).
norm [ijj\
3. В каждой точке задается гиперсфера с начальным радиусом, равным среднему всех коэффициентов нормирования по признакам ( q ):
П
1 q}
r = q=*^—.
1 n
4. Каждой точке присваивается номер класса, равный ее номеру:
ci = i; i = 1, N .
5. Увеличивается радиус для каждой точки по итерационному обучающему алгоритму:
(п)м=( г1)1 +щ (^], >■=п*, (I)
где к - номер шага итерационного обучения; ^ - коэффициент регулирования скорости обучения, ^е[0,1]; Я - среднеарифметический коэффициент нормирования; N - количество точек
(объектов); 8/ - количество гиперсфер, пересекающихся с гиперсферой с/ (количество точек, относящихся к тому же классу, что и /-я точка), изначально равное 1.
6. Проверяется наличие пересекающихся гиперсфер (попадание точек в один класс). При наличии пересечения радиус соответствующей гиперсферы увеличивается в соответствии с формулой (1), в противном случае продолжается увеличение радиуса с прежней скоростью.
Способы остановки поиска выявления классов
В алгоритме «ЛОТОС» реализованы три способа остановки процесса классификации.
1. Остановка после выполнения указанного числа итераций.
2. Остановка после того, как для каждого будет выполнено условие > 2, что означает пересечение каждой гиперсферы хотя бы раз с другой и, как следствие, объединение соответствующих точек в один класс.
3. Взвешенная остановка поиска классов. Суть способа заключается в следующем: априори задается среднее количество шагов по увеличению радиуса гиперсферы (порог отклонения поиска класса), приводящему к попаданию новых точек в класс, и таким образом организуется остановка процесса классификации после определенного количества безрезультатных шагов.
Исключение фоновых точек
Алгоритм «ЛОТОС» предназначен для выявления линейно неразделимых классов при наличии в массиве данных случайных или неверных, не подающихся классификации точек. Примером подобной задачи может служить выявление созвездий на звездной карте.
Алгоритм исключения указанных фоновых точек из общей задачи классификации реализован с использованием приемов алгоритма «КОЬЬАР8» [2] и заключается в следующем. Все объекты в начале классификации входят в отдельные уникальные классы, содержащие только данный объект. После завершения определенного количества шагов, если определены классы, содержащие меньше заданного количества объектов (порог фоновой картинки), данные классы считаются фоновыми, исключаются из дальнейшего рассмотрения, а по завершении классификации указанные объекты представляются отдельным классом.
Заключение
Для реализации предложенного алгоритма классификации многомерных линейно неразделимых данных «ЛОТОС» был разработан программный комплекс, предназначенный для решения задач естественной таксономии многомерных данных в трудноформализуемых системах с выделением произвольного количества классов. Исходными данными для программы являются таблицы с нормированными значениями непрерывнозначных признаков представления объектов классификации. Программа позволяет с помощью алгоритма неравномерного включения соседних объектов в общий класс производить укрупнение множеств данных в виде классов до тех пор, пока каждый объект не войдет в один из классов. Программа обеспечивает выполнение следующих функций: ввод исходных данных, как вручную, так и с помощью прикрепления электронных таблиц, выявление как выпуклых, так и невыпуклых классов с наименьшим включением в их орбиту неопределенных областей, а также, при необходимости, исключение из рассмотрения фоновых объектов (данных).
Результаты классификации и интерфейс программного продукта представлены на рис. 3.
'ВЫБОР ГИНЕИ 0ВЕЙБ01КИ ДАННЫХ
Рис. З. Интерфейс программного комплекса «ЛОТОС»
Работоспособность алгоритма «ЛОТОС» была подтверждена на примере гипотетического массива многомерных данных, подобного «объекту Хога».
СПИСОК ЛИТЕРАТУРЫ
1. ЖуравлевЮ. И. Распознавание образов // Избр. науч. тр. - М.: Магистр, 1998. - 415 с.
2. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд-во Ин-та матема-
тики, 1999. - 270 с.
3. Пакет прикладных программ ОТЭКС (для анализа данных) / Загоруйко Н. Г., Ёлкина В. Н., Емелья-
нов С. В., Лбов Г. С. - М.: Финансы и статистика, 1986. - 160 с.
Статья поступила в редакцию 25.10.2011 ИНФОРМАЦИЯ ОБ АВТОРЕ
Шпехт Ирина Александровна - филиал Российского государственного социального университета в г. Анапе; канд. техн. наук, доцент; доцент кафедры «Информатика и математика»; [email protected].
Shpekht Irina Aleksandrovna - Anapa Branch of Russian State Social University; Candidate of Technical Science, Assistant Professor; Assistant Professor of the Department "Informatics and Mathematics"; [email protected].