К вопросу об эффективной организации систем классификации данных

Дорошенко А.Ю.; Довгаль В.М.

УДК 005

К ВОПРОСУ ОБ ЭФФЕКТИВНОЙ ОРГАНИЗАЦИИ СИСТЕМ КЛАССИФИКАЦИИ ДАННЫХ

1 аспирант кафедры программного обеспечения и администрирования информационных систем e-mail: [email protected], 2докт. техн. наук, профессор кафедры программного обеспечения и администрирования информационных систем e-mail: [email protected]

Курский государственный университет

В настоящей работе представляется метод организации систем классификации с использованием дополнительного более простого классификатора. Предпринимаемая с помощью него для каждого объекта выборки попытка идентификации, в ряде случаев позволяет получить результат без использования основного классификатора, что, за счет малого количества выполняемых итераций, приводит к повышению эффективности системы в целом. Предлагаемый метод основан на применении выровненных по осям ограничивающих прямоугольников (Axis-Aligned Bounded Boxes), обобщенных на пространство произвольной мерности.

Ключевые слова: классификация, AABB-прямоугольник, основной классификатор, вспомогательный классификатор.

Область применения алгоритмов классификации данных включает различные задачи, время решения которых является одним из основных критериев, определяющих важность получаемых результатов. К таковым можно отнести наблюдение сейсмической активности [Goh 1994; Samui 2007], защиту компьютерных информационных сетей [Mukkamala, Sung., Abraham, Ramos 2004], обнаружение стеганографических сообщений в цифровых изображениях [Lyu 2003], категоризацию текстов [Joachims 1998; Павлов, Добров 2009], распознавание объектов [Muralidharan 2014]. Эти и подобные примеры ориентированы на оперативную обработку больших объемов данных, и при увеличении скорости работы используемого классификатора, соответственно возрастает полезность системы в целом. Поэтому, несмотря на эффективность существующих подходов, задача их оптимизации актуальна.

Большинство систем классификации используют единое правило для распознавания всех предъявляемых объектов. Такое обобщение может приводить к излишним вычислениям, так как в некоторых случаях (в основном для элементов, удаленных от межклассовой границы) результат с той же точностью может быть получен с помощью более простых, «грубых» алгоритмов. Учитывая эти соображения, систему можно построить как совокупность двух классификаторов, когда более сложный (далее - основной) из них используется при неоднозначности, возникающей при распознавании более простым (далее -вспомогательный). Очевидно, что условиями для эффективного применения подобной схемы будут существенное различие в вычислительной сложности используемых алгоритмов и хотя бы частичное соответствие предъявленной выборки целевой направленности вспомогательного метода. Поэтому предлагаемый в настоящей работе подход более ориентирован на оптимизацию вычислительно затратных методов, которые обычно используются при классификации линейно неразделимых данных, но в некоторых случаях может быть использован и для линейных классификаторов (за счет второго указанного условия). Цель данной статьи заключается в повышении качества распознавания образов путем создания ансамбля алгоритмов - основного и вспомогательного, работающих на подмножествах исходных данных.

Для удобства дальнейшего изложения задача классификации формулируется в рамках геометрического подхода к ее решению. В Евклидовом ¿/-мерном пространстве Ed, где каждое измерение иг, ...,ud соответствует признаку, заданы классы Аг,...,Ат, как наборы точек вида р = {щ(рХ ...,iid(p)}. Исходя из знаний о принадлежности части объектов (обучающая выборка), требуется найти правило, которое позволит отнести новые произвольные точки к классам с минимальной ошибкой. Решением такой задачи обычно является разбиение пространства таким образом, что каждый отдельный получившийся регион содержит элементы только одного из классов.

В качестве вспомогательного классификатора предлагается использовать ¿/-мерные многогранники минимального размера с параллельными координатным осям сторонами, включающие все заданные точки класса. Задача идентификации нового объекта при этом сводится к анализу вхождения в них распознаваемой точки. Такие структуры активно используются при определении пересечений геометрических фигур при физическом моделировании в двух и трех измерениях, и, в соответствующих статьях, такие многогранники называются выровненными по осям ограничивающими объемами [Захаров, Садыков 2003], а в оригинальной английской литературе [Cohen, Lin, Manocha, Ponamgi 1995; Bergen 1997] -«Axis-Aligned Bounded Boxes (AABB)y>. В дальнейшем изложении будет использоваться обозначение ААВВ-прямоугольник, подразумевающее его обобщение на произвольное d-мерное пространство.

Если классам А1,...,Ат сопоставлены ААВВ-прямоугольники В1,...,Вт соответственно, то решающее правило классификации произвольной точки w можно сформулировать в следующем виде:

где / - индекс класса в наборе (1 < / < т), д - решающая функция основного классификатора. Однозначная идентификация точки выполняется тогда, когда она принадлежит только одному ААВВ-прямоугольнику. В любом другом случае, если точка находится внутри сразу нескольких ААВВ-прямоугольников или не входит ни в один из них, используется основной классификатор. На рисунке 1 изображен соответствующий пример для трех классов в двух измерениях, где заштрихованные части прямоугольников обозначают область однозначной классификации элементов.

Рис. 1. Графическое отображение ААВВ-прямоугольников для трех классов объектов

Ввиду такой организации процесса распознавания, решение о принадлежности объекта вспомогательным классификатором принимается только при возможности его линейной

->

и2

Auditorium. Электронный научный журнал Курского государственного университета. 2016 №4(12)

Дорошенко А. Ю., Довгаль В. М. К вопросу об эффективной организации

систем классификации данных

идентификации, где соответствующими разделительными d-мерными плоскостями являются стороны AABB-прямоугольника.

Для представления AABB-прямоугольника используются две точки с минимальными и максимальными координатами. Их вычисление сводится к последовательному просмотру всех заданных точек класса. Сложность подобного построения линейна и при суммарном количестве элементов классов п в d-мерном пространстве составляет 0(nd).

Определение вхождения произвольной точки w в AABB-прямоугольник В, заданный двумя вершинами р и q, производится за 2d операций сравнения - w £ В, если для всех i = 1,..., d верно, что щ(р) < u¿(w) < и¿(q). При наличии п классов попытка классификации потребует 2nd операций сравнения, на основании чего можно рассчитать приблизительную оценку минимально необходимых условий, при которых целесообразно применять предлагаемый подход. Пусть здесь и далее к (0 < к < 1) обозначается часть общего количества элементов, которая может быть распознана вспомогательным классификатором, а х - количество операций сравнения, выполняемых основным. Тогда в среднем для одного распознаваемого объекта система классификации на основе предлагаемой схемы будет совершать 2 ndk + (1 — к) (2nd + х) операций, а базируясь только на основном классификаторе, - х операций. Очевидно, что применение вспомогательного классификатора обосновано, если

2ndk + (1 — fc) (2nd + х) < х,

откуда

2nd < кх. (1)

Для примера, пусть предлагаемый метод используется в совокупности с линейным классификатором для двух классов, представленным d-мерной гиперплоскостью (например, персептрон, метод опорных векторов с линейным ядром). Классификация точки w выполняется по правилу

!

f(w) = sign(Ai Ui(w)) + Ad+1), ¿=i

где At,..., Ad+1 - числовые коэффициенты гиперплоскости. При вычислении производится х = (2d + 1) операций, если принять, что все арифметические операции и операция сравнения выполняются за одно время. Согласно (1) получается следующее соотношение:

4d < (2d + 1 к, 4 d

2d+l > к'

что не может быть выполнено, так как к = [0,1], d > 0, d принадлежит множеству натуральных чисел. Получается, что согласно данному примеру применение предлагаемого метода не обосновано для линейных классификаторов. Но, принимая во внимание фактическую разницу в сложности вычисления арифметических операций и операции сравнения, на практике такое его использование возможно.

Для тестирования предлагаемого алгоритма были выбраны популярные реализации LIBSVM [Chang, Lin 2011], JavaML [Abeel, de Peer, Saeys 2009] наиболее эффективных и широко используемых на настоящий момент нелинейных классификаторов - метода опорных векторов (англ. - support vector machine) [Vapnik 1995, 1998; Boser, Guyon, Vapnik 1992] и метода ближайших соседей (англ. - k-nearest neighbors), а также NeuroPH [Schaeffer, Goloskokovic, Tait, Morgan, Carter-Greaves 2010] - для линейного классификатора персептрона

[Я^епЫай 1960]. Основной его целью являлся анализ показателей быстродействия и количества допускаемых ошибок вышеперечисленными классификаторами с использованием ЛЛВБ-прямоугольников и без них.

Для всех проведенных тестов обучающая и контрольная выборка состояли из 10 000 элементов. Для метода опорных векторов в качестве ядра использовалась радиальная базисная функция Гаусса (ЯВЕ).

Первоначально для проводимых экспериментов ставилась задача определения зависимости времени выполнения классификации с использованием предлагаемого вспомогательного метода от параметра к (часть элементов выборки, которую он может однозначно распознать). В качестве итогового значения для времени работы тестируемого метода использовались усредненные по результатам шести попыток данные.

В таблице 1 отражены полученные значения времени классификации для вышеперечисленных алгоритмов без использования ЛЛВБ-прямоугольников и с их применением - название помечено «*», а Д обозначена соответствующая разность полученных значений, выраженная в процентном соотношении.

Таблица 1

Сравнительные данные времени, затрачиваемого на классификацию, при изменении параметра к (тестовая выборка 10 000 элементов)

к = 0,9 к = 0,8 к = 0,7 к = 0,6 к = 0,5 к = 0,4 к = 0,3 к = 0,2 к = 0,1

KNN 23,11с 16,22с 15,69с 14,54с 14,35с 14,58с 14,65с 16,57с 15,59с

KNN* 2,09с 2,90с 4,25с 5,62с 6,89с 9,24с 9,97с 13,57с 13,26с

Д 82,09% 72,91% 61,31% 51,94% 36,64% 31,96% 82,09% 18,13% 14,91%

SVM 0,21с 0,20с 0,24с 0,27с 0,31с 0,39с 0,41с 0,49с 0,48с

SVM* 0,02с 0,04с 0,08с 0,11с 0,15с 0,23с 0,29с 0,42с 0,43с

д 79,87% 67,18% 60,18% 50,19% 40,51% 29,86% 79,87% 14,91% 10,90%

Персептрон 0,22мс 0,20мс 0,22мс 0,20мс 0,16мс 0,13мс 0,14мс 0,13мс 0,13мс

Персептрон* 0,14мс 0,11мс 0,11мс 0,15мс 0,10мс 0,12мс 0,14мс 0,15мс 0,17мс

Д 38,58% 43,09% 47,80% 24,04% 37,87% 10,35% -0,91% -19,33% -31,47%

Как видно из приведенных данных, преимущество во времени классификации тестовой выборки для нелинейных классификаторов с использованием предлагаемого метода составило Д« (100^)%. В случае линейной разделимости (персептрон), при малых значениях параметра к (меньше 0,3) эффективность системы с ЛЛББ-прямоугольниками снижалась за счет неуспешной классификации вспомогательным алгоритмом. Поскольку на практике такие случаи маловероятны, то в целом их применение целесообразно и в таком варианте. Важно заметить, что использование предлагаемого классификатора не влияло на количество допускаемых ошибок распознавания, и для многих применяемых выборок данных точность системы даже возрастала. Данная величина изменялась в пределах от -0,16% до 0,02% для нелинейного случая, что отражено в таблице 2. Линейно разделимые данные классифицировались без ошибок.

Auditorium. Электронный научный журнал Курского государственного университета. 2016 № 4 (12)

Дорошенко А. К)., Довгаль В. М. К вопросу об эффективной организации

систем классификации данных

Таблица 2

Количество допускаемых ошибок классификации, при изменении параметра к (тестовая выборка 10 ООО элементов)

к = 0,9 к = 0,8 к = 0,7 к = 0,6 к = 0,5 к = 0,4 к = 0,3 к = 0,2 к = 0,1

КМчГ 119 137 147 161 172 192 205 236 273

104 121 134 151 167 186 197 231 269

д -0,15% -0,16% -0,13% -0,10% -0,05% -0,06% -0,08% -0,05% -0,04%

8УМ 31 41 48 58 81 63 95 114 129

8УМ* 31 37 47 58 82 65 95 114 129

Д 0,00% -0,04% -0,01% 0,00% 0,01% 0,02% 0,00% 0,00% 0,00%

Персептрон 0 0 0 0 0 0 0 0 0

Персептрон* 0 0 0 0 0 0 0 0 0

Д - - - - - - - - -

Недостатком описываемого в настоящей работе метода является увеличение времени настройки системы. Данный параметр характеризуется линейной сложностью вычисления, и не является критичным, поскольку подобные системы ориентированы на потоковое распознавание объектов, а обучение проводится заранее и единожды. Зависимость времени обучения от размера выборки и от количества измерений отражена в таблицах 3 и 4, где мс обозначены миллисекунды.

Таблица 3

Соответствие времени обучения количеству элементов

Количество элементов п 10000 15000 20000 25000 30000 35000 40000 45000 50000

Время обучения, мс 10,50 15,12 20,14 24,88 30,68 34,21 39,70 44,07 49,13 Таблица 4

Соответствие времени обучения количеству измерений

Количество признаков ё. 2 3 4 5 6 7 8 9 10

Время обучения, мс 10,18 10,79 10,89 11,88 12,19 12,83 13,43 14,54 16,16

На соответствующих таблицам 3 и 4 графиках, изображенных на рисунке 2, наглядно прослеживается линейная зависимость.

10000 20000 30000 40000 50000

Количество элементов обучающей выборки (п)

Рис. 2. Графики роста времени обучения классификатора при увеличении количества элементов обучающей выборки (слева) и количества признаков (справа)

Предлагаемый метод описывался авторами в работе [Дорошенко 2015] в контексте применения совместно с нечёткими системами. Приведенная в настоящей статье экспериментальная часть показывает целесообразность его применения с другими методами классификации, в том числе предназначенными и для линейно разделимых данных.

Библиографический список

Дорошенко А.Ю. Об одном подходе к решению задач различения и отождествления кортежей признаков // Auditorium. Электронный научный журнал Курского государственного университета. 2015. Вып. №3(7). URL: auditorium.kursksu.ru/pdf/007-010.pdf (дата обращения: 15.10.2016)

Захаров А.А., Садыков С.С. Алгоритм определения пересечений полигональных объектов с использованием ориентируемых ограничивающих объемов // Вычислительные методы и программирование. 2003. Т. 4. № 2, С. 195-200.

Павлов А.С., Доброе Б.В. Метод обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009, С. 311— 317.

Abeel T., de Peer Y.V., Saeys Y. Java-ML: A Machine Learning Library // Journal of Machine Learning Research. 2009. 10. Р. 931—934.

Bergen G. Efficient Collision Detection of Complex Deformable Models using AABB Trees // Journal of Graphics Tools. 1997. 2(4): 1—13.

Boser B.E., Guyon I.M., Vapnik V.N. A training algorithm for optimal margin classifiers, Proceedings of the fifth annual workshop on Computational learning theory, ACM, 1992, Р. 144— 152.

Chang C.C., Lin C.J. LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1—27:27, 2011. URL: http://www.csie.ntu.edu.tw/~cjlin/libsvm (дата обращения: 20.09.2016).

Cohen J. D., Lin. M. C., Manocha D., Ponamgi M.K. (1995) I-COLLIDE: an interactive and exact collision detection system for large-scale environments // Proceedings of the 1995 ACM Symposium on Interactive 3D graphics (I3D '95). Р. 189-196, doi:10.1145/199404.199437.

Goh A. (1994). Seismic Liquefaction Potential Assessed by Neural Networks // J. Geotech. Engrg., 10.1061/(ASCE)0733-9410(1994)120:9(1467), 1467—1480.

Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features, 1998, Р. 137—142.

Lyu S., Farid H. Detecting Hidden Messages Using Higher-Order Statistics and Support Vector Machines, 2003, Р. 340—354.

Mukkamala S., Sung A. H., Abraham A., Ramos V. (2004) Intrusion Detection Systems using Adaptive Regression Splines. Kluwer Academic Press.

Muralidharan R. Object Recognition Using K-Nearest Neighbor Supported By Eigen Value Generated From the Fetures of an Image // Internagtional Journal of Innovative Research in Computer and Communication Engineering. 2014. Vol. 2. Issue 8, August. Р. 2320—9801.

Rozenblatt F. On the Convergence of Reinforcement Procedures in Simple Perceptrons // Cornell Aeronautical Laboratory Report VG-1196-G-4, Buffalo, NY, 1960. Р. 72.

Samui P. Seismic liquefaction potential assessment by using Relevance Vector Machine, Earthq. Eng. Eng. Vib. (2007) 6: 331. doi:10.1007/s11803-007-0766-7

Sevarac Z., Goloskokovic I., Tait J., Morgan A., Carter-Greavec L. Neuroph. Retrieved June 5, 2010. URL:http://neuroph.sourceforge.net/.

Vapnik. V.N. Statistical Learning Theory. New York: Wiley, 1998, 768 p.

Vapnik V.N. The nature of statistical learning theory. New York: Springer-Verlag, 1995.

332 p.

Auditorium. Электронный научный журнал Курского государственного университета. 2016. № 4 (12)

К вопросу об эффективной организации систем классификации данных Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дорошенко А. Ю., Довгаль В. М.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дорошенко А. Ю., Довгаль В. М.

Текст научной работы на тему «К вопросу об эффективной организации систем классификации данных»