Научная статья на тему 'Байесовский классификатор в машинном обучении'

Байесовский классификатор в машинном обучении Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
42
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / байесовская классификация / сравнение алгоритмов / наивный байесовский классификатор / machine learning / bayesian classification / algorithm comparison / naive bayesian classifier

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сабуров Вадим Сергеевич

В данной статье рассматриваются основы работы байесовского классификатора, включая описание необходимых элементов теории вероятностей и теоремы Байеса, а также сам алгоритм наивного байесовского классификатора. В ходе исследования были выявлены основные достоинства и недостатки данного классификатора, а также выполнено сравнение точности и быстродействия алгоритма с другими методами машинного обучения. В результате работы выявлено превосходство рассматриваемого алгоритма по времени обучения при сопоставимых результатах точности, а также сделан вывод о предпочтительности использования данного метода в задачах, где важна быстрота изменения модели по мере добавления новых данных. В дальнейшем рекомендуется провести дополнительные исследования в сравнении применения наивного байесовского классификатора с более сложными неглубокими моделями.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сабуров Вадим Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Bayesian classifier in machine learning

This article covers the basics of how a Bayes classifier works, including a description of the necessary elements of probability theory and Bayes’ theorem, as well as the Naive Bayes classifier algorithm itself. The study identified the main advantages and disadvantages of this classifier, and also compared the accuracy and performance of the algorithm with other machine learning methods. As a result of the work, the superiority of the considered algorithm in terms of training time with comparable accuracy results was revealed, and it was also concluded that it is preferable to use this method in tasks where the speed of changing the model as new data is added is important. In the future, it is recommended to conduct additional research comparing the use of a naive Bayes classifier with more complex shallow models

Текст научной работы на тему «Байесовский классификатор в машинном обучении»

Шаг в науку • № 1, 2024

УДК 519.23

БАЙЕСОВСКИЙ КЛАССИФИКАТОР В МАШИННОМ ОБУЧЕНИИ

Сабуров Вадим Сергеевич, студент, специальность 10.05.01 Компьютерная безопасность, Оренбургский государственный университет, Оренбург e-mail: byzantineglory 1025@gmail.com

Научный руководитель: Влацкая Ирина Валерьевна, кандидат технических наук, доцент, заведующий кафедрой компьютерной безопасности и математического обеспечения информационных систем, Оренбургский государственный университет, Оренбург e-mail: mois@mail.osu.ru

Аннотация. В данной статье рассматриваются основы работы байесовского классификатора, включая описание необходимых элементов теории вероятностей и теоремы Байеса, а также сам алгоритм наивного байесовского классификатора. В ходе исследования были выявлены основные достоинства и недостатки данного классификатора, а также выполнено сравнение точности и быстродействия алгоритма с другими методами машинного обучения. В результате работы выявлено превосходство рассматриваемого алгоритма по времени обучения при сопоставимых результатах точности, а также сделан вывод о предпочтительности использования данного метода в задачах, где важна быстрота изменения модели по мере добавления новых данных. В дальнейшем рекомендуется провести дополнительные исследования в сравнении применения наивного байесовского классификатора с более сложными неглубокими моделями.

Ключевые слова: машинное обучение, байесовская классификация, сравнение алгоритмов, наивный байесовский классификатор.

Для цитирования: Сабуров В. С. Байесовский классификатор в машинном обучении // Шаг в науку. -2024. - № 1. - С. 78-81.

BAYESIAN CLASSIFIER IN MACHINE LEARNING

Saburov Vadim Sergeevich, student, specialty 10.05.01 Computer Security, Orenburg State University, Orenburg e-mail: byzantineglory1025@gmail.com

Research advisor: Vlatskaya Irina Valeryevna, Candidate of Technical Sciences, Associate Professor, The Head of the Department of Computer Safety and Software Support of IT Systems, Orenburg State University, Orenburg e-mail: mois@mail.osu.ru

Abstract. This article covers the basics of how a Bayes classifier works, including a description of the necessary elements of probability theory and Bayes' theorem, as well as the Naive Bayes classifier algorithm itself. The study identified the main advantages and disadvantages of this classifier, and also compared the accuracy and performance of the algorithm with other machine learning methods. As a result of the work, the superiority of the considered algorithm in terms of training time with comparable accuracy results was revealed, and it was also concluded that it is preferable to use this method in tasks where the speed of changing the model as new data is added is important. In the future, it is recommended to conduct additional research comparing the use of a naive Bayes classifier with more complex shallow models.

Key words: machine learning, bayesian classification, algorithm comparison, naive bayesian classifier.

Cite as: Saburov, V S. (2024) [Bayesian classifier in machine learning]. [Step into science]. Vol. 1, рр. 78-81.

Машинное обучение - группа методов искусственного интеллекта, ключевой особенностью которых является решение задач путём формирования модели через так называемое «обучение», а не через прямые инструкции. Поскольку для обеих задач необходимы поиск данных, поиск шаблонов и корректировка дей-

ствий программы в соответствии с полученными данными, процессы, связанные с машинным обучением, можно назвать схожими с интеллектуальным анализом данных и прогнозным моделированием [5].

Среди задач машинного обучения обычно выделяют три основных класса: обучение с учителем,

78 Контент доступен под лицензией Creative Commons Attribution 4.0 International License.

This work is licensed under a Creative Commons Attribution 4.0 International License. © В. С. Сабуров, 2024

обучение без учителя и обучение с подкреплением. При обучении с учителем в наборах данных для обучения характерно наличие целевого признака. В этом случае, целью формируемой модели является нахождение зависимостей на обучающей выборке и их применение для вычисления значений целевого признака на новых, неразмеченных данных. Примерами методов обучения с учителем являются классификация и регрессия. Методы обучения без учителя не требуют наличия целевого признака и используются для поиска зависимостей между объектами. К таким методам относятся: кластеризаци и уменьшение размерности. Что оаснзяся обучемия е неркизнлееееьу то ятеличме отзтщмрммых замач оОучешыс умемелем н Сиз рмлтсяя, тморямся моммч ммщнмитр - азот, оел-смядействующий с скрутающес средни. Пем этом, дансмя сз>еесч: с ямою метеоре, гокреммир^с пожонн-ние агенту соя-гём 1нтздд<Ссом со нмми^;ид. Примерчмч и-у пользования обучения с подкреплением могут быть

задачи принятия решений в реальном времени [1] .

Задача классификации является одной из самых популярных задач машинного обучения [6]. Цель этого метода классифицировать объекты по заранее известному признаку, то есть отнести объекты к одному из нескольких классов. Такие задачи окружают человека во многих сферах его жизни, к примеру, решение задач классификации необходимо для отделения спама от полезных электронных писем, распознавания лиц, распределения контента в новостной ленте, разработки рекомендательных систем, приня-тияpсшeдий,кйpимepр, оеыдаче человеку кредита СИ], а таджс мен иешели-ним есследотенил в сфере естесмвемкых наук[0].Тскимез наиболее простых м пчтмнмлетон методте уеттыис задан юссснфикации яохжатсяНийеяосаон классифкнатор - вид классифи-дaчaсм мтшийнмзт oаoнeтссм, конырыТ осчаван на при-ментшш Сс<ам>oатиая- Бтйнсл м мд кн ттрогим предположением о независимости входных данных [8]:

Р(В | 'А) = Р 4В) рР (В)1В ) Р (Л)

Для того, чтобы понять принципы работы данного классификатора, следует обратиться к байесовской интерпретации понятия «вероятность». Байесовская вероятность - это интерпретация понятия вероятности, используемая в байесовской теории. Вероятность определяется как степень уверенности в истинности суждения. Формула Байеса позволяет «переставить причину и следствие»: по известному факту события вычислить вероетномть тоио, что о но ткнуо тынвонм иданной причиной. Таким образом, формула Байеса может быть использоваоа для разработки алгоритмов класстфикажии. Рептре cоeч]TPч сынзмтх от рытиоииыи иапостериорных суждениях.

Пртдиоловинн, нрьадткимo укничт значендё некоторой неизвестной величины. При этом имеются некоторые ониним, aтоyч-нныо до наСхподеоиоТэксдсри-мента. в: применю, мндeйсныч ннпотены, ожидания о-тн опыт прошлыхнлблпдвний. В щсоцессе наблыдений пороесьнысо ьостспенной норрекоиров-

ке. После наблюдений/эксперимента будут сформи-срованы новые знания о явлении. Будем считать, что необходимо оценить неизвестное значение величины Р(А\В) посредством наблюдений некоторых ее косвенных характеристик (гипотез). В зависимости от уровня вероятности можно принять или отвергнуть имеющуюся гипотезу. Если существует значительное количество событий, то предполагается, что они не-оатыыилы ьфуя оу роуён. Нм1ьиме0янрекпоныгалось, что процесс вытаскивания шара из урны не зависит от цвета шара. В связи с таким допущением алгоритм е:ыёы1!а^ыуи ии наыоныи».

Опишем сам алгоритм наивного байесовского ыоксенВижотор ал

1. По обучаощей выборке необходимо рассчи-твтт одиорныевероятностир(у = Со), о=1,2,...т.

В. ЫРля сыменкты ттбъекоо т. ис тестиоуемой выборки неыбмкдимо расмчспывь условные вероятности то формвле (0):

отк30 со Ь, п К-Н к зтё^)з0-]~ т.и' ~ ^уИ . (0)

3. Рассчитать апостериорные вероятности принадлежности события Е (т. е. события объекта п) к каждому из классов по формуле (3):

^^с[тз:^l^;)^lfосС:сь-]еммчБaй!o^. (3)

нМО

Штг в нтучи р ёё Ж MH)СТ

79

Сабуров В. С.

4. Объект п. классифицируется к тому классу, условная вероятность которого максимальна.

Следует отметить достоинства и недостатки дан-ногоаассофиватсоа. РВщесовеанымидоотогнства-ми является неплохая производительность в сравнении с другими простыми методами классификации машинного обучения, простота реализации, а также хорошая работа с категориальными признаками. Что касается недостатков, то если в тестовом наборе данных присутствует некоторое значение категориального признака, которое не встречалось в обучающем наборе данных, тогда модель присвоит нулевую вероятность этому значению и не сможет сделать прогноз. Это явление известно под названием «нулевая

age workclass education marital status occupation

39 State-gov Bachelors Never-married Adm-clerical

50 Self-emp-not-inc Bachelors Married-civ-spouse Exec-managerial

38 Private HS-grad Divorced Handlers-cleaners

53 Private 11th Married-civ-spouse Handlers-cleaners

28 Private Bachelors Married-civ-spouse Prof-specialty

37 Private Masters Married-civ-spouse Exec-managerial

49 Private 9th Married-spouse-absent Other-service

52 Self-emp-not-inc HS-grad Married-civ-spouse Exec-managerial

31 Private Masters Never-married Prof-specialty

42 Private Bachelors Married-civ-spouse Exec-managerial

Рисунок 1. Образец исследуемых данных (фрагмент

Инточнлк: нан]саоттант алдасртм

Даллт будвт оыволнсно сртооеоия нвскольких алгоритмов машинного обучения: наивный байесов-снвУклоссвфикотор,логкстиьасная регрессия и де-

ТР+ТЫ

- ассигасу = -;

ТР + ТЫ+

ТР

- рг есшоп =_;

ТР+РР

- гппаП = ^ ;

ТР+РМ

- п-мерп = 2 ргеа5юп*геса11 ,

ргейБюп+гесаИ

частота» [3]. Также стоит учесть, что ограничением олоовиокл глюетня гфтдположвние о независимости признаков, хотя в реальных задачах полностью неза-васимые признаки встречаются крайне редко.

Стоит также учитывать, что в настоящее время помимо рассматриваемого классификатора существуют и другие методы машинного обучения, поэтому необходимо сравнить их эффективность в решении реальных задач. Возьмём набор, содержащий данные сотрудников различных компаний и их доходы1. Данные первых десяти сотрудников представлены на рисунке 1. Задача исследователей - определить зависимости доходов от различных факторов (пол, возраст и т. д.) и построить предсказательную модель.

relationship race sex hours per week native country income

Not-in-family White Male 40 United-States <=50K

Husband CffifiB Male 13 United-States <-50K

Not-En-family Male 40 United-States <-50K

Husband Black Male 40 United-States <-50K

Wife Black Female 40 Cuba <=50K

Wife White Female 40 United-States <-50K

Not-En-family Black Female 16 Jamaica <-50K

Husband White Male 45 United-States >50K

Not-in-family White Female 50 United-States >50K

Husband White Male 40 United-States >50K

вывода программы)

отвоя ушеоий. Помиао cкнврeнив па оремени обучения, сравнения также выполнено по следующим метрикам:

ТР - верно предсказанный положительный класс; ТЫ -вернопредсказанныйотрицательныйкласс; ЕР - ошибочно предсказанный положительный класс; ЕЫ -ошибочнопредставленныйотрицательныйкласс[7].

1 Adult Datas et. - URL: https://www.kaggle.com/datasets/qizarafzaal/adult-dataset (дата обращения: 29.03.2023).

Данные метрики изначально приспособлены для После обучения алгоритмы показали результаты, оценки бинарной классификации, однако их легко представленные в таблице 1. можно адаптировать и для многоклассовой.

Таблица 1. Сравнение метрик алгоритмов

accuracy precision recall F1-мера Время обучения (сек.)

Наивный байесовский классификатор 0.8083 0.8099 0.9281 0.865 0.057

Логистическая регрессия 0.8465 0.9290 0.8760 0.9017 0.5598

Деревья решений 0.8102 0.8681 0.8760 0.9034 0.2825

Источник:разработано автором

Исходя из данных значений видно, что наивный байесовский классификатор при сопоставимых значениях метрик точности показывает значительно меньшее время обучения. Таким образом, можно сделать вывод о том, что наивный байесовский классификатор будет предпочтителен в задачах, где важна быстрота изменения модели по мере добавления новых данных.

Примером такой задачи может быть классификация 1Р-пакетов при реализации систем обнаружения сетевых вторжений. В дальнейшем рекомендуется провести дополнительные исследования в сравнении применения наивного байесовского классификатора с более сложными неглубокими моделями, как например, ансамблевыми методами.

Литература

1. Анализ технологий глубокого обучения с подкреплением для систем машинного зрения / И. Б. Широков [и др.] - URL: https://cyberleninka.ru/article/n/analiz-tehnologiy-glubokogo-obucheniya-s-podkrepleniem-dlya-sistem-mashinnogo-zreniya (дата обращения: 26.04.2023).

2. Арбатский М. С., Ефименко А. Ю. Применение методов машинного обучения и системной биологии в анализе данных транскриптома одиночных клеток - URL: https://cyberleninka.ru/article/n/primenenie-metodov-mashinnogo-obucheniya-i-sistemnoy-biologii-v-analize-dannyh-transkriptoma-odinochnyh-kletok (дата обращения: 26.04.2023).

3. Ницын Д. А. Модель представления признаков в байесовском классификаторе медицинских изображений - URL: https://cyberleninka.ru/article/n/model-predstavleniya-priznakov-v-bayesovskom-klassifikatore-meditsinskih-izobrazheniy (дата обращения: 26.04.2023).

4. Перстенева Н. П., Скрылева Д. Д. Актуальные вопросы применения методов машинного обучения в экономике - URL: https://cyberleninka.ru/article/n/aktualnye-voprosy-primeneniya-metodov-mashinnogo-obucheniya-v-ekonomike (дата обращения: 26.04.2023).

5. Полетаева Г. Н. Классификация систем машинного обучения - URL: https://cyberleninka.ru/article/n7 klassifikatsiya-sistem-mashinnogo-obucheniya (дата обращения: 26.04.2023).

6. Станевич А. Классификация текста при помощи модуля LingPipe - URL: https://newtechaudit.ru/ klassifikacziya-teksta-pri-pomoshhi-modulya-lingpipe/ (дата обращения: 29.03.2023).

7. Ткаченко А. Л. Решение задачи классификации документов вуза на основе методов интеллектуального анализа - URL: https://cyberleninka.ru/article/n/reshenie-zadachi-klassifikatsii-dokumentov-vuza-na-osnove-metodov-intellektualnogo-analiza (дата обращения: 26.04.2023).

8. Тютрин С. Г. Анализ эксплуатационных напряжений деталей машин с помощью теоремы Байеса - URL: https://cyberleninka.ru/article/n/analiz-ekspluatatsionnyh-napryazheniy-detaley-mashin-s-pomoschyu-teoremy-bayesa (дата обращения: 26.04.2023).

Статья поступила в редакцию: 15.05.2023; принята в печать: 06.03.2024.

Автор прочитал и одобрил окончательный вариант рукописи.

i Надоели баннеры? Вы всегда можете отключить рекламу.