Научная статья на тему 'Метод бинарной классификации многомерных объектов'

Метод бинарной классификации многомерных объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
215
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИНАРНАЯ КЛАССИФИКАЦИЯ / МНОГОМЕРНЫЕ ОБЪЕКТЫ / АЛГОРИТМ CORELS / МЕТОД ВЕТВЕЙ И ГРАНИЦ / BINARY CLASSIFICATION / MULTIDIMENSIONAL OBJECTS / CORELS ALGORITHM / BRANCH-AND-BOUND METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гусев М.А., Майков К.А.

В статье предложено практическое решение задачи поиска правила бинарной классификации многомерных объектов. Проведен сравнительный анализ и построена классификация известных методов решения данной задачи. Разработан метод бинарной классификации многомерных объектов, включающий этап предварительной обработки данных и этап поиска правила классификации на основе подготовленных данных. Реализована модификация алгоритма CORELS применительно к этапу поиска правила разработанного метода классификации многомерных объектов. Разработанное решение позволяет получать правила бинарной классификации многомерных объектов на небинаризованных данных, а также повысить точность и полноту получаемых решений с помощью управляемых переменных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Multidimensional Objects Binary Classification Method

This article considers the problem of obtaining classification rules for multidimensional objects. It gives a classification of known solutions for this problem. It describes developed method of binary classification of multidimensional objects. This method consists of two stages: data preprocessing and obtaining of classification rules. CORELS algorithm is modified for usage on stage two of developed method. Developed solution allows to obtain binary classification rules for multidimensional objects on non-binarized data and increase precision and recall of obtained rules using controlled variables.

Текст научной работы на тему «Метод бинарной классификации многомерных объектов»

Cloud of Science. 2019. T. 6. № 4 http:/ / cloudofscience.ru

Метод бинарной классификации многомерных

объектов

М. А. Гусев, К. А. Майков

Московский государственный технический университет им. Н. Э. Баумана 105005, Москва, 2-я Бауманская ул., 5, стр. 1

e-mail: vfc17@yandex.ru, maikov@bmstu.ru

Аннотация. В статье предложено практическое решение задачи поиска правила бинарной классификации многомерных объектов. Проведен сравнительный анализ и построена классификация известных методов решения данной задачи. Разработан метод бинарной классификации многомерных объектов, включающий этап предварительной обработки данных и этап поиска правила классификации на основе подготовленных данных. Реализована модификация алгоритма CORELS применительно к этапу поиска правила разработанного метода классификации многомерных объектов. Разработанное решение позволяет получать правила бинарной классификации многомерных объектов на небинари-зованных данных, а также повысить точность и полноту получаемых решений с помощью управляемых переменных.

Ключевые слова: бинарная классификация, многомерные объекты, алгоритм CORELS, метод ветвей и границ.

1. Введение

Целью работы является разработка метода решения задачи бинарной классификации многомерных объектов.

Задача бинарной классификации многомерных объектов актуальна для служб обеспечения безопасности различных сегментов цифровой экономики. Научная актуальность данной задачи обусловлена тем, что известные методы ее решения либо имеют низкую интерпретируемость, либо неприменимы для небинаризованных данных, либо построены на «жадных» алгоритмах, что негативно влияет на качество получаемых решений.

Статья состоит из шести разделов. В первом разделе, введении, описана цель работы и обусловлена ее практическая и научная актуальность. В втором разделе выполнена постановка задачи бинарной классификации многомерных объектов. В третьем разделе приведена классификация известных методов решения данной задачи. В четвертом разделе описан разработанный метод. В пятом разделе представлены качественные характеристики разработанного метода. В шестом разделе приведены выводы по работе.

2. Постановка задачи

Определение 1. Многомерный объект — объект, описанный некоторым множеством признаков.

В условиях описанной ранее практической задачи примером объекта может служить совокупность данных о пользователе интернет-сервиса, представленная в виде кортежа признаков — вещественных чисел. Выбор вещественных чисел как множества допустимых значений признаков обусловлен областью практического применения задачи, т. к. всю релевантную задаче информацию можно представить на этом множестве.

Определение 2. Бинарная классификация — отнесение объекта к одному из двух классов.

В условиях описанной ранее практической задачи это классы «обычный», обозначаемый меткой «0», и «мошенник», обозначаемый меткой «1».

Пусть имеется конечный набор кортежей вещественных признаков Х1, ..., Хп. Кортеж X является набором значений признаков (хп, ..., х{п), описывающих 7-й объект из выборки.

Пусть помимо кортежей признаков дана также каноническая классификация объектов из этой выборки у, ..., у, где у описывает класс, к которому отнесен 7-й объект из выборки, причем из условия бинарности классификации у е{0, 1}, г = 1, п.

Необходимо на основе вышеприведенных данных выработать правило классификации объектов с хорошей интерпретируемостью. Необходимость интерпретируемости определяется спецификой решаемой практической задачи. Требуется, чтобы аналитик, пользующийся методом, на основе экспертных знаний мог дать оценку сформированному правилу и принять решение о его практической реализации.

Правила должны быть представлены в виде совокупности условий о превышении или непревышении значением отдельного признака какого-либо уровня и соответствующей этому условию классификации.

Пример. Пусть объекты описаны признаками /, /2, /. Тогда пример полученного правила имеет вид: если / > 20, то 0 иначе если /2 < 15, то 1 иначе 0.

3. Классификация известных методов решения задачи

В результате проведенного сравнительного анализа предметной области предложена классификация известных методов решения поставленной задачи.

Методы с повышенной точностью и пониженной интерпретируемостью (линейная регрессия [1], искусственные нейронные сети [2]).

Методы с повышенной интерпретируемостью и пониженной точностью (CART [3], бустинг [4, 5], CORELS [6]).

Решаемая задача требует высокой интерпретируемости результатов, поскольку ее практическая область применения связана с финансовыми операциями. Каждое сформированное правило требует экспертной оценки и принятия решения о его применении. В связи с этим методы первой группы являются практически неприменимыми.

Представленные методы второй группы имеют одинаковую интерпретируемость получаемого решения, однако, CART и бустинг основаны на «жадном» методе решающих деревьев, в отличие от CORELS, использующего метод ветвей и границ [7], который не является «жадным» и гарантированно дает наилучшее решение на тех же входных данных. В то же время при повышении точности классификации возрастают требования к аппаратным ресурсам платформы по сравнению с бустингом и CART, однако правила классификации не требуется вычислять в реальном времени, поэтому в условиях данной практической задачи этим недостатком можно пренебречь.

Недостатками CORELS являются:

- невозможность работы с небинаризованными данными;

- функция ошибки не позволяет качественно классифицировать объекты в случае, если количество объектов какого-то из классов в выборке значительно превышает количество объектов другого класса.

Исходя из требований к решению задачи, целесообразно выбрать в качестве базового алгоритм CORELS и выполнить его модификацию, устраняющую указанные недостатки.

4. Разработанный метод

Метод состоит из двух этапов: этапа предварительной обработки данных и этапа поиска правила бинарной классификации. На рис. 1 приведена концептуальная схема предложенного метода, где первый этап представлен блоками A1-A3.

Рисунок 1. Концептуальная схема разработанного метода в нотации IDEF0

Блок А1 представляет разделение выборки на обучающую и тестовую. На первой происходит поиск правила, на второй - расчет точности и полноты классификации полученным правилом. Блок А2 представляет определение значимости признаков для последующей фильтрации по заданному оператором уровню значимости или общему числу признаков, что необходимо для ускорения метода посредством начального усечения пространства потенциальных решений. В конкретной реализации данная операция может производиться как на основе экспертных оценок, так и с помощью сторонних программных средств. В разработанном прототипе использована библиотека Са1;Ьоо81 [7]. Блок А3 представляет бинаризацию признаков и фильтрацию их по значимости на основе полученных в блоке А2 данных. Блок А4 реализует этап поиска правила бинарной классификации с помощью модифицированного алгоритма СОКЕЬ8.

Недостатком алгоритма-прототипа является функция вычисления ошибки классификации:

Е = 1-Ас + Ьг • Я, (1) где Е — ошибка классификации; А с — точность [9] классификации; Ь г — длина правила классификации (количество условий в правиле); К--коэффициент регуляризации.

Предложенная модифицированная функция ошибки имеет вид:

Е = ^ • ЕР + Ж, • ЕЫ + Ьг • Я, (2)

где — вес ложноположительной классификации; — вес ложноотрицатель-ной классификации; ЕР — доля ложноположительно классифицированных объектов в выборке; ЕЙ — доля ложноотрицательно классифицированных объектов в выборке. Предложенная в (2) формализация функции ошибки позволяет с помощью управляемых переменных и влиять на качество получаемого правила с учетом требований решаемой практической задачи.

Замечание 1. Формула (2) преобразуется в (1) при Жр = 1, следовательно, качественные характеристики модифицированного алгоритма не уступают прототипу. Качественные характеристики прототипа детально рассмотрены в [10].

Аналогично функции ошибки модифицирована функция вычисления нижней границы ошибки:

1Ь • ЕР, + Жп • ЕК, + Ьг • Я, (3)

где Ер и ЕЫ1 — оценки доли ложноположительно и ложноотрицательно классифицированных объектов «снизу», т. е. без учета классификации по умолчанию (правила классификации объектов, неудовлетворяющих ни одному из условий правила). Укрупненная схема модифицированного алгоритма СОКЕЬ8, а также схема основного цикла алгоритма представлены на рис. 2 и 3 соответственно.

Рассчитать начальное значение минимума ошибки гтмпЕ

1

Создать очередь О 1

Положить в очередь 0 пустое правило (0.0. РО) 1

Основной цикл алгоритма

I

Рисунок 2. Укрупненная схема модифицированного алгоритма CORELS

После получения значений управляемых переменных создается очередь, в которую помещается пустое правило.

Начало

Начало цикла 1. Пока 0 не пустая

Извлечь из 0 правило

Рисунок 3. Схема основного цикла модифицированного алгоритма

На рис. 3 обозначения (*), (**) и (***) указывают на модификацию базовых фрагментов алгоритма.

Пока очередь непустая, из нее извлекается очередное правило классификации и последовательно расширяется еще не присутствующими в нем разбиениями. Для каждого из полученных расширенных правил производится расчет нижней границы ошибки . В случае, если нижняя граница меньше текущего минимума, данное расширенное правило помещается в очередь для рассмотрения его дальнейших расширений. Затем рассчитывается значение ошибки Е и, при необходимости, обновляется текущий минимум ошибки. При обновлении минимума ошибки производится расчет Рг (точности) и К е (полноты) [11] классификации полученным пра-

вилом тестовой выборки и вывод полученных значений Рг и Яе, а также полученного правила оператору.

5. Качественные характеристики разработанного метода

С помощью разработанного на С++ программного обеспечения, реализующего данный метод, проведен машинный эксперимент. В качестве входных данных использована выборка из 30 тысяч объектов, описанных 1300 признаками.

В результате сформирована зависимость точности и полноты получаемых решений от отношения весов ложноположительной и ложноотрицательной классификации, представленная на рис. 4.

0.4

0 0.5 1 1,5 2 2.5 3 3,5 4 4,5 Wfp / Win

Рисунок 4. Зависимость точности и полноты получаемых решений от отношения величин

управляемых переменных W^ и Wfn

Полученная зависимость показывает, что при увеличении веса ошибки ложно-положительной классификации относительно веса ошибки ложноотрицательной классификации растет точность получаемых решений при снижении их полноты, в противном случае происходит обратное. Таким образом, результаты эксперимента подтверждают, что модифицированный алгоритм, в отличие от прототипа, позволяет управлять точностью и полнотой получаемых решений. Данное свойство алгоритма имеет практическое значение для решения задач, предъявляющих повышенные требования к качеству их решения.

6. Выводы

В статье предложено решение задачи поиска правила бинарной классификации многомерных объектов, построена классификация известных методов бинарной

классификации, разработан метод бинарной классификации многомерных объектов на основе модифицированного алгоритма CORELS. Анализ результатов выполненных численных экспериментальных исследований подтвердил работоспособность предложенного метода.

Разработанный метод, в отличие от прототипа, позволяет сформировать правила бинарной классификации многомерных объектов на небинаризованных данных, а также с помощью управляемых переменных повысить точность и полноту получаемых решений.

Дальнейшее развитие предложенного метода в целях дальнейшего повышения качества решения предусматривает разработку модифицированных мер ошибки, минимизируемых модифицированным алгоритмом CORELS, а также уменьшение времени обхода пространства потенциальных решений.

Литература

[1] Rouaud M. Probability, Statistics and Estimation. Ch. 2: Linear Regression, Linear Regression with Error Bars and Nonlinear Regression. — Morrisville: Lulu Press, 2013. P. 58-75.

[2] Bhadeshia H. K. D. H. Neural Networks in Materials Science // ISIJ International. 1999. Vol. 39. No.10. P. 966-979.

[3] Quinlan J. R. Induction of decision trees //Machine Learning. 1986. Vol. 1. No. 1. P. 81106.

[4] Friedman J. H. Greedy Function Approximation: A Gradient Boosting Machine // The Annals of Statistics. 2001. Vol. 29. No. 5. P. 1189-1232.

[5] Mason L., Baxter J., Bartlett P. L., Frean M. Boosting Algorithms as Gradient Descent // Proceedings of the 12th International Conference on Neural Information Processing Systems NIPS'99. 1999. P. 512-518.

[6] Angelino E., Larus-Stone N., Alabi D., Seltzer M., Rudin C. Learning Certifiably Optimal Rule Lists for Categorical Data. // The Journal of Machine Learning Research. 2017. Vol. 18. No. 1. P. 8753-8830.

[7] Catboost - Технологии Яндекса [Электронный ресурс] 2019. URL: https://yandex.ru/dev/ catboost/

[8] Clausen J. Branch and Bound Algorithms — Principles and Examples. — Copenhagen : University of, 1999. P. 4-20.

[9] Classification: Accuracy [Электронный ресурс]. 2019. URL : https://developers. google.com/machine-learning/crash-course/classification/accuracy

[10] Larus-Stone N. Learning Certifiably Optimal Rule Lists: A Case For Discrete Optimization in the 21st Century: Senior thesis. — Harvard University Cambridge, 2017.

[11] Powers D. M. W. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation // Journal of Machine Learning Technologies. 2011. Vol. 2. No. 1. P. 37-63.

Авторы:

Михаил Андреевич Гусев — магистрант кафедры «Программное обеспечение ЭВМ и информационные технологии», МГТУ им. Н. Э. Баумана

Константин Анатольевич Майков — доктор технических наук, профессор кафедры «Программное обеспечение ЭВМ и информационные технологии», МГТУ им. Н. Э. Баумана

Multidimensional Objects Binary Classification Method

M. Gusev, K. Maikov

Bauman Moscow State Technical University, 5, 2-nd Baumanskaya st., Moscow, Russia, 105005 email: vfc17@yandex.ru maikov@bmstu.ru

Abstract. This article considers the problem of obtaining classification rules for multidimensional objects. It gives a classification of known solutions for this problem. It describes developed method of binary classification of multidimensional objects. This method consists of two stages: data preprocessing and obtaining of classification rules. CORELS algorithm is modified for usage on stage two of developed method. Developed solution allows to obtain binary classification rules for multidimensional objects on non-binarized data and increase precision and recall of obtained rules using controlled variables.

Keywords: binary classification, multidimensional objects, CORELS algorithm, branch-and-bound method.

References

[1] Rouaud M. (2013) Linear Regression, Linear Regression with Error Bars and Nonlinear Regression. In Probability, Statistics and Estimation (Morrisville, Lulu Press), pp. 58-75.

[2] BhadeshiaH. K. D. H. (1999) ISIJInternational, 39(10):966-979.

[3] Quinlan J. R. (1986)Machine Learning, 1(1):81-106.

[4] Friedman J. H. (2001) The Annals of Statistics, 29(5): 1189-1232.

[5] Mason L., Baxter J., Bartlett P. L., Frean M. (1999) Boosting Algorithms as Gradient Descent. In Proc. NIPS'99, pp. 512-518.

[6] Angelino E., Larus-Stone N., ..., Rudin C. (2017) The J. ofMachine Learning Research, 18:8753-8830.

[7] https://yandex.ru/dev/catboost/

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[8] Clausen J. (1999) Branch and Bound Algorithms — Principles and Examples, pp. 4-20.

[9] https://developers.google.com/machine-learning/crash-course/classification/accuracy

[10] Larus-Stone N. (2017) Learning Certifiably Optimal Rule Lists: A Case For Discrete Optimization in the 21st Century. Senior thesis (Harvard University Cambridge).

[11] PowersD. M. W. (2011) Journal ofMachine Learning Technologies, 2(1):37-63.

i Надоели баннеры? Вы всегда можете отключить рекламу.