УЛУЧШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ С НЕСБАЛАНСИРОВАННЫМИ ДАННЫМИ

Сааков Д.В.

Улучшение производительности алгоритмов машинного обучения с несбалансированными данными

Сааков Даниил Владимирович

студент бакалавриата, кафедра «Технологии и системы автоматизированного проектирования металлургических процессов», Московский авиационный институт, dan446513@yandex.ru

В данной статье подробно рассматривается актуальная проблема несбалансированных данных в машинном обучении, основные причины их возникновения, а также влияние на качество и производительность моделей. В статье проводится анализ проблемы с точки зрения возможных негативных последствий для различных областей применения машинного обучения. Описываются и сравниваются разнообразные подходы к балансировке данных, такие как перевзвешивание классов, синтетическая генерация данных с использованием метода SMOTE и другие техники. Приводятся примеры успешного применения этих методов в различных отраслях, таких как медицинская диагностика, финансовый сектор и обнаружение мошенничества. Статья также содержит таблицы сравнения различных методов предобработки данных и методов балансировки данных, что облегчает выбор подходящего метода для конкретной задачи. Ключевые слова: машинное обучение, несбалансированные данные, балансировка данных, перевзвешивание классов, синтетическая генерация данных, SMOTE, медицинская диагностика, финансовый сектор.

Введение

Машинное обучение - это раздел искусственного интеллекта, который позволяет компьютерам обучаться и адаптироваться к данным без явного программирования [1, 2]. Важность и актуальность машинного обучения продолжает расти, поскольку оно используется в самых разных областях, от медицины и финансов до автономных транспортных средств и рекомендательных систем. Однако, несмотря на успехи и развитие машинного обучения, существуют определенные проблемы и недостатки, которые могут снижать производительность алгоритмов. Цель данного исследования - проанализировать одну из таких проблем, а именно проблему несбалансированных данных, и предложить решения для улучшения производительности алгоритмов машинного обучения, рассмотреть ключевые аспекты машинного обучения, включая основные типы (обучение с учителем, обучение без учителя, обучение с подкреплением), а также разнообразие задач, которые могут быть решены с помощью машинного обучения (классификация, регрессия, кластеризация и др.) [3].

Кроме того, стоит подчеркнуть, что качество моделей машинного обучения во многом зависит от данных, на которых они обучаются, и насколько эти данные репрезентативны для решаемой задачи. Однако, в реальной жизни, данные зачастую имеют несовершенства, такие как пропущенные значения, шум или несбалансированность классов. Эти несовершенства могут заметно снижать производительность алгоритмов машинного обучения и приводить к ошибкам в их предсказаниях [5].

Исследование проблемы несбалансированных данных является особенно актуальным, поскольку многие реальные задачи машинного обучения сталкиваются с этим явлением. Несбалансированные данные могут негативно сказываться на работе классификаторов и вести к смещению в сторону преобладающего класса, что в свою очередь может привести к низкой чувствительности модели к объектам меньшего класса и ошибочным предсказаниям.

В рамках данного исследования мы опишем основные проблемы, возникающие из-за несбалансированных данных, проанализируем их влияние на производительность алгоритмов машинного обучения и предложим решения для снижения негативных последствий этой проблемы. Эти решения будут ориентированы на балансировку данных с использованием различных методов, таких как перевзвешивание классов и синтетическая генерация данных, что может способствовать улучшению качества моделей машинного обучения и достижению

О *

О X

о

3

S *

и

с т ■и о s т о а г

о т

09 8)

(О

сч

0

сч *

01

более точных и надежных результатов в реальных приложениях [6].

Обзор литературы

С развитием машинного обучения, число исследований, посвященных этой области, значительно возросло. Исследователи разрабатывают различные алгоритмы и методы, такие как метод опорных векторов, решающие деревья, случайный лес, градиентный бустинг, нейронные сети и другие, которые применяются для решения самых разных задач, таких как классификация, регрессия, кластеризация, уменьшение размерности и др.

Однако, помимо разработки алгоритмов, большое значение приобретает предобработка данных, поскольку качество моделей машинного обучения во многом зависит от того, насколько хорошо данные подготовлены. В литературе по машинному обучению освещаются различные аспекты предобработки данных, такие как:

1. Очистка данных: удаление аномалий, исправление ошибок, заполнение пропущенных значений и устранение шума.

2. Выбор признаков: отбор наиболее важных и информативных признаков, которые оказывают наибольшее влияние на целевую переменную, и исключение избыточных или нерелевантных признаков.

3. Трансформация данных: преобразование данных в более подходящий для анализа формат, например, нормализация, стандартизация или кодирование категориальных переменных.

4. Проблема несбалансированных данных: разработка методов для справления с несбалансированными данными, которые могут исказить результаты модели машинного обучения.

В литературе представлены множество методов для борьбы с несбалансированными данными, среди которых можно выделить следующие основные группы:

1. Перевзвешивание классов: методы, которые учитывают различия в количестве объектов классов при обучении модели, присваивая разные веса классам.

2. Синтетическая генерация данных: методы, основанные на создании синтетических объектов меньшего класса, чтобы сбалансировать набор данных. Примером такого метода является SMOTE (Synthetic Minority Over-sampling Technique).

3. Комбинированные подходы: методы, которые одновременно применяют и перевзвешивание классов, и синтетическую генерацию данных, чтобы добиться наилучшего эффекта в балансировке данных. Например, адаптивный синтетический метод (ADASYN) генерирует синтетические объекты меньшего класса, пропорционально их количеству, и одновременно учитывает распределение объектов преобладающего класса.

4. Кост-чувствительные методы: эти методы включают в себя модификацию алгоритмов машинного обучения, чтобы учитывать разные затраты на ошибки классификации для разных классов. Таким

образом, модель будет стремиться минимизировать общие затраты, а не просто число ошибок.

5. Ансамблевые методы: использование ансамблевых методов, таких как бэггинг, бустинг или сте-кинг, может помочь улучшить производительность модели на несбалансированных данных, поскольку они комбинируют предсказания нескольких базовых моделей, что может улучшить их обобщающую способность.

Важно отметить, что нет универсального решения для проблемы несбалансированных данных, и выбор подхода должен зависеть от конкретной задачи и характеристик данных. В некоторых случаях, комбинация различных методов может привести к лучшим результатам.

Таблица 1

Сравнение методов предобработки данных и их влияние на ка-

№ Метод предобработки данных Особенности Влияние на качество моделей машинного обучения

1 Очистка данных Удаление аномалий, исправление ошибок, заполнение пропущенных значений,устранение шума Улучшение точности и надежности модели

2 Выбор признаков Отбор наиболее важных и информативных признаков, исключение избыточных или нерелевантных признаков Улучшение обобщающей способности модели

3 Трансформация данных Нормализация, стандартизация, кодирование категориальных переменных Улучшение производительности модели

4 Методы борьбы с несбалансированными данными Перевзвешивание классов, синтетическая генерация данных, ансамблевые методы и другие Улучшение производительности модели на не-сбалансированных данных

Таблица 1 представляет собой обзор различных методов предобработки данных, иллюстрируя их особенности и влияние на результаты моделей машинного обучения. Из этой таблицы можно сделать вывод о том, какой метод предобработки данных наиболее подходит для конкретной задачи, а также оценить потенциальные преимущества и недостатки каждого метода в контексте улучшения качества модели.

Проблема: несбалансированные данные

Проблема несбалансированных данных возникает, когда в наборе данных один класс (или несколько классов) значительно превосходит другие по количеству объектов. В таких случаях, модель машинного обучения может обучиться таким образом, что она будет сильно смещена в сторону преобладающего класса, игнорируя меньший класс. Это происходит потому, что большинство алгоритмов машинного обучения стремятся минимизировать общую ошибку, и, следовательно, предпочитают «угодить» более распространенному классу.

Причины возникновения проблемы несбалансированных данных могут быть различными: естественное распределение классов в реальных данных, выборочная ошибка при сборе данных или другие факторы. В любом случае, несбалансированные данные могут негативно сказаться на качестве моделей машинного обучения.

Основные проблемы, связанные с несбалансированными данными, включают:

1. Снижение производительности модели: модель может показывать высокую точность в целом, но при этом низкую производительность на меньшем классе, что может привести к плохим результатам в реальных сценариях использования.

2. Низкая чувствительность и специфичность: модель может неадекватно определять объекты меньшего класса, что приводит к высокому уровню ложноположительных или ложноотрицательных результатов.

3. Искажение оценок модели: метрики качества, такие как точность, могут быть введены в заблуждение из-за доминирования преобладающего класса, что затрудняет адекватную оценку производительности модели.

4. Недостаточное обучение на меньшем классе: модель может не "увидеть" достаточно объектов меньшего класса для корректного обучения, что снижает ее способность адекватно обобщать на новых данных.

Для борьбы с этими проблемами исследователи разрабатывают различные методы, такие как перевзвешивание классов, синтетическая генерация данных, комбинированные подходы, кост-чувстви-тельные методы и ансамблевые методы, которые были упомянуты ранее. Важно заметить, что выбор подходящего метода зависит от конкретной задачи и характеристик данных. В некоторых случаях, комбинация различных методов может привести к лучшим результатам.

Борьба с проблемой несбалансированных данных важна не только для повышения качества моделей машинного обучения, но и для обеспечения справедливости и недискриминации в решениях, основанных на данных. В ряде приложений, таких как медицина, финансы или правоохранительная деятельность, ошибки классификации могут иметь серьезные последствия для людей, и поэтому важно уделить особое внимание качеству моделей и их производительности на всех классах.

Примеры проблем, связанных с несбалансированными данными, включают диагностику редких заболеваний, предсказание банкротства компаний, обнаружение мошенничества или нарушений безопасности и т.д. В этих случаях, объекты меньшего класса могут быть критически важны, и их неправильная классификация может иметь серьезные последствия.

Анализ проблемы

Анализ проблемы несбалансированных данных должен учитывать следующие аспекты:

1. Влияние на производительность модели: Несбалансированные данные могут привести к тому,

что модель обучается на преобладающем классе, что в свою очередь ведет к снижению производительности на объектах меньшего класса. Это означает, что модель будет демонстрировать высокую точность на преобладающем классе, но низкую чувствительность к меньшему классу. В итоге, это может привести к искажению результатов модели, особенно в тех случаях, когда объекты меньшего класса имеют большую важность.

2. Метрики качества: Несбалансированные данные могут затруднить оценку производительности модели, поскольку стандартные метрики, такие как точность, могут быть введены в заблуждение. В таких случаях, использование более подходящих метрик, таких как F1-мера, АиС^ОС, или матрица ошибок, может быть более информативным и помочь оценить, насколько хорошо модель справляется с объектами обоих классов.

3. Биасы и дискриминация: Если модель машинного обучения обучается на несбалансированных данных, это может привести к неравномерному распределению ошибок между классами. В результате, меньший класс может страдать от более высоких ошибок классификации, что может привести к дискриминации или неравному обращению с определенными группами людей, особенно в областях, где решения модели машинного обучения влияют на жизнь и благосостояние людей, таких как медицина, финансы, или правоохранительная деятельность.

4. Выбор алгоритма и настройка параметров: В зависимости от характеристик данных и требований к задаче, различные алгоритмы машинного обучения могут быть более или менее устойчивыми к несбалансированным данным. Важно провести исследование и выбрать алгоритмы, которые лучше справляются с такими данными, и определить оптимальные параметры модели для улучшения производительности на меньшем классе.

5. Взаимодействие с другими проблемами предобработки данных: Несбалансированные данные могут также влиять на другие аспекты предобработки данных, такие как обработка пропущенных значений, выбор признаков и трансформация данных. Важно учесть, как взаимодействуют различные проблемы предобработки данных, чтобы разработать эффективный план для улучшения производительности модели машинного обучения.

6. Влияние на время обучения и ресурсы: Решение проблемы несбалансированных данных может требовать больше времени на обучение и дополнительных вычислительных ресурсов. Например, синтетическая генерация данных может увеличить размер набора данных, что в свою очередь увеличивает время обучения и требуется больше памяти для хранения данных. Важно учитывать эти факторы при выборе методов борьбы с несбалансированными данными, особенно при работе с ограниченными ресурсами.

В общем, анализ проблемы несбалансированных данных включает понимание того, как они влияют на производительность модели, выбор метрик качества, алгоритмы машинного обучения и другие аспекты предобработки данных. Он также включает

О *

О X

о

3 *

8)

с т ■и о

5

т о а г

о т

09 8)

(О

сч

0

сч *

01

учет факторов, связанных с временем обучения и ресурсами, для разработки оптимальных решений для улучшения производительности модели машинного обучения на несбалансированных данных.

Решение: методы балансировки данных

Для решения проблемы несбалансированных данных существует несколько подходов, включая:

1. Методы перевзвешивания классов (class weighting) учитывают различия в количестве объектов классов при обучении модели, присваивая больший вес объектам меньшего класса. Таким образом, алгоритм машинного обучения будет больше фокусироваться на редких классах, что может улучшить его производительность.

2. Методы синтетической генерации данных, такие как SMOTE (Synthetic Minority Over-sampling Technique), создают синтетические объекты меньшего класса, основываясь на имеющихся примерах. Это позволяет сбалансировать количество объектов классов и обучить модель на более репрезентативных данных.

3. Комбинированные подходы объединяют методы перевзвешивания и синтетической генерации данных для достижения оптимального баланса. Например, ADASYN (Adaptive Synthetic Sampling) генерирует синтетические объекты меньшего класса, учитывая их распределение, и одновременно использует веса классов для учета преобладающего класса. Такой подход позволяет создать более сбалансированный набор данных, который может повысить производительность модели.

4. Кост-чувствительные методы (cost-sensitive methods) модифицируют алгоритмы машинного обучения таким образом, чтобы они учитывали различные затраты на ошибки классификации для разных классов. Так, модель будет стремиться минимизировать общие затраты, а не просто число ошибок. Это особенно важно в задачах, где стоимость ошибки для одного класса значительно превышает стоимость ошибки для другого класса, например, в медицинской диагностике или финансовом анализе.

5. Ансамблевые методы (ensemble methods) используют комбинации предсказаний нескольких базовых моделей, чтобы улучшить обобщающую способность и производительность модели на несбалансированных данных. Такие методы, как бэггинг (bagging), бустинг (boosting) или стекинг (stacking), могут учитывать различные аспекты данных и компенсировать смещения, связанные с несбалансированными классами.

Важно отметить, что не существует универсального решения для проблемы несбалансированных данных. Выбор подхода должен зависеть от конкретной задачи, характеристик данных и требуемой производительности модели. В некоторых случаях, комбинация нескольких методов может дать лучшие результаты. Также стоит учитывать, что некоторые методы могут требовать больше времени на обучение и дополнительных вычислительных ресурсов, что может быть ограничивающим фактором в зависимости от ситуации.

Примеры применения решений

В медицинской диагностике использование методов балансировки данных позволило значительно улучшить точность и чувствительность моделей, что является критически важным для своевременного обнаружения и лечения редких заболеваний. Решения, такие как перевзвешивание классов и синтетическая генерация данных, помогли моделям машинного обучения лучше справляться с несбалансированными данными, обеспечивая более точные и своевременные диагностики.

В финансовой сфере использование этих методов позволило банкам и другим финансовым учреждениям более эффективно обнаруживать и предотвращать мошенничество, такое как мошенничество с кредитными картами или злоупотребление счетами. Применение методов балансировки данных позволило уменьшить количество ложных срабатываний и сократить потери от мошенничества, что существенно повышает эффективность систем безопасности финансовых учреждений.

В целом, применение методов балансировки данных в различных областях машинного обучения и искусственного интеллекта позволяет создавать более точные, чувствительные и устойчивые модели, которые могут успешно справляться с несбалансированными данными. Это обеспечивает лучшие результаты в решении реальных проблем и приводит к значительным преимуществам для отраслей, в которых такие модели используются.

Результаты и обсуждения

Таблица 2

Сравнение методов балансировки данных в машинном обучении

№ Метод Описание Преимущества Недостатки

1 Перевзвешивание классов Присваивание разных весов классам в зависимости от их количества объектов Простой и эффективный метод для некоторых алгоритмов Не всегда эффективен для всех алгоритмов машинного обучения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2 Синтетическая генерация данных (SMOTE) Создание синтетических объектов меньшего класса на основе имеющихся примеров Увеличение количества объектов меньшего класса, улучшение производительности Может привести к переобучению модели

3 Комбинированные подходы Применение и перевзвешивания классов, и синтетической генерации данных одновременно Максимизация эффекта в балансировке данных Сложнее в реализации и настройке, может потребоваться больше времени

4 Кост-чувстви-тельные методы Модификация алгоритмов машинного обучения для учета разных затрат на ошибки классификации разных классов Улучшение производительности модели с учетом затрат ошибок Требует определения затрат для каждого класса и алгоритма

5 Ансамблевые методы Использование ансамблевых методов, таких как бэггинг, бустинг, стекинг, для работы с несбалансированными данными Улучшение обобщающей способности модели Сложнее в реализации, требует настройки параметров ансамблей

Таблица 2 сравнивает методы балансировки данных в машинном обучении, отражая их особенности, преимущества и недостатки. Из таблицы можно сделать вывод о том, какой метод лучше подходит для конкретной задачи, учитывая его эффективность и применимость к различным алгоритмам машинного обучения.

Из результатов, представленных в таблице, можно сделать выводы о применимости разных подходов в зависимости от задачи и характеристик данных. Например, методы перевзвешивания классов могут быть эффективными для некоторых задач, но могут не справляться с другими, в то время как синтетическая генерация данных может дать лучшие результаты в определенных сценариях. Также стоит учитывать возможность комбинации различных методов для достижения наилучшего результата.

Заключение

В данной статье мы рассмотрели проблему несбалансированных данных и ее влияние на производительность моделей машинного обучения. Мы изучили различные методы балансировки данных, такие как перевзвешивание классов, синтетическая генерация данных и их комбинации, а также привели примеры успешного применения этих методов в разных областях.

Обсуждение результатов исследования позволяет сделать вывод о том, что нет универсального решения для проблемы несбалансированных данных. Оптимальный подход зависит от специфики задачи и характеристик данных. Важно проводить эксперименты с различными методами и их комбинациями, чтобы найти наиболее подходящий вариант для конкретной ситуации.

В заключение, стоит отметить, что успешное преодоление проблемы несбалансированных данных может существенно улучшить производительность моделей машинного обучения и их обобщающую способность, что, в свою очередь, позволит достичь лучших результатов в решении реальных задач и приложениях.

Литература

1. Андреас, Мюллер Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными: моногр. / Мюллер Андреас. - М.: Альфа-книга, 2017. - 697 с.

2. Барский, А.Б. Логические нейронные сети / А.Б. Барский. - М.: Бином. Лаборатория знаний / Интернет-Университет Информационных Технологий (ИНТУИТ), 2017. - 336 с.

3. Домингос, П. Верховный алгоритм. Как машинное обучение изменит наш мир / П. Домингос. -М.: Манн, Иванов и Фербер, 2016. - 190 с.

4. Домингос, Педро Верховный алгоритм: как машинное обучение изменит наш мир / Педро Домингос. - Москва: Гостехиздат, 2015. - 989 с.

5. Круглов, В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов, В.В. Борисов. - М.: Горячая линия - Телеком; Издание 2-е, стер., 2002.

- 382 с.

6. Нейронные сети. Statistica Neural Networks. Методология и технологии современного анализа данных. - М.: Горячая линия - Телеком, 2008. - 392 с.

7. Плас, Джейк Вандер Python для сложных задач. Наука о данных и машинное обучение. Руководство / Плас Джейк Вандер. - М.: Питер, 2018. -527 с.

8. Себастьян, Рашка Python и машинное обучение / Рашка Себастьян. - М.: ДМК Пресс, 2017. - 809 с.

9. Татузов, А. Л. Нейронные сети в задачах радиолокации / А.Л. Татузов. - М.: Радиотехника, 2009.

- 432 с.

10.Шибзухов, З.М. Конструктивные методы обучения сигма-пи нейронных сетей / З.М. Шибзухов. -М.: Наука, 2006. - 297 с.

Improving Machine Learning Algorithm Performance with Imbalanced

Data Saakov D.V.

Mosoow Aviation Institute

This artiole provides a oomprehensive examination of the pressing issue of imbalanoed data in machine learning, the main reasons for their occurrence, and their impact on the quality and performance of models. The paper analyzes the problem from the perspective of potential negative consequences for various fields of machine learning app^a^on. Various approaches to data balancing, such as dass reweighting, synthet^ data generation using the SMOTE method, and other techniques are described and compared. Examples of successful appl^ation of these methods in different industries, such as medbal diagnoses, the financial sector, and fraud detection, are provided. The artide also indudes tables comparing various data preprocessing methods and data balancing methods, whbh facilitates the selection of the appropriate method for a specific task. Keywords: machine learning, imbalanced data, data balancing, dass reweighting, synthet^ data generation, SMOTE, medbal diagnoses, finai-raal sector, fraud detection. References

1. Andreas, Müller Introduction to Machine Learning with Python. A guide for

data scientists: monograph. / Müller Andreas. - M.: Alfa-kniga, 2017. - 697 p.

2. Barsky, A.B. Log^al neural networks / A.B. Barsky. - M.: Binom. Knowledge

Laboratory / Internet University of Information Technologies (INTUIT), 2017. - 336 p.

3. Domingos, P. Master algorithm. How machine learning will change our world

/ P. Domingos. - M.: Mann, Ivanov and Ferber, 2016. - 190 p.

4. Domingos, Pedro The Master Algorithm: How Machine Learning Will Change

Our World / Pedro Domingos. - Moscow: Gostekhizdat, 2015. - 989 p.

5. Kruglov, V.V. Artifbial neural networks. Theory and practice / V.V. Kruglov,

V.V. Borisov. - M.: Hotline - Tetom; Edition 2, ster., 2002. - 382 p.

6. Neural networks. Statistba Neural Networks. Methodology and technologies

of modern data analysis. - M.: Hot line - Telecom, 2008. - 392 p.

7. Plas, Jake Vander Python for complex tasks. Data Science and Machine

Learning. Manual / Plas Jake Vander. - M.: Piter, 2018. - 527 p.

8. Sebastian, Rashka Python and machine learning / Rashka Sebastian. - M.:

DMK Press, 2017. - 809 p.

9. Tatuzov, A.L. Neural networks in radar problems / A.L. Tatuzov. - M.: Radio

engineering, 2009. - 432 p.

10. Shibzukhov, Z.M. Constructive learning methods for sigma-pi neural networks / Z.M. Shibzukhov. - M.: Nauka, 2006. - 297 p.

О *

о

X

о

s

s *

8)

с т ■и о s т о а г

о т

09 8)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сааков Д. В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сааков Д. В.

IMPROVING MACHINE LEARNING ALGORITHM PERFORMANCE WITH IMBALANCED DATA

Текст научной работы на тему «УЛУЧШЕНИЕ ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ С НЕСБАЛАНСИРОВАННЫМИ ДАННЫМИ»