Научная статья на тему 'Исследование методов классификации при несбалансированности классов'

Исследование методов классификации при несбалансированности классов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
270
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / БОЛЬШИЕ ДАННЫЕ / АЛГОРИТМЫ / ДИСБАЛАНС

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Махсотова Цагана Валентиновна

В статье анализируются различные подходы к обработке данных с несбалансированными классами, а также выясняется эффективность применения различных стратегий для наиболее точной классификации данных подобного типа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Махсотова Цагана Валентиновна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование методов классификации при несбалансированности классов»

срЩ = 26.113 + 0.435 -10-2 -Т.и -0.033 -10"5 • Т.2 (6) срсиъон = 19.038 + 9.145-10-2-Тт -1.218-10-5 •Т2п -8.034-10-9 • Т^п (7)

Уравнение скорости реакции:

Г = к-Соо'СН22 (8) Для моделирования работы реактора была составлена программа расчета в специальной среде математического моделирования МаНаЬ.

Программа определяет необходимое значение объема смеси для достижения определенного значения конверсии и наоборот. В результате работы программы в качестве примера для объема реакционной смеси 500 литров было получено значение конверсии 41%.

Список литературы

1. Умергалин Т.Г. Математическое моделирование основных химико-технологических процессов. Уфа: Издательство УГНТУ, 2001. 61 с.

2. Умергалин Т.Г., Искакова З.М. Компьютерное моделирование и оптимизация производственных технологических установок: Известия ЮФУ. Технические науки, 2005. № 1 (45). 43-44 с.

3. Кравцов А.В., Попок Е.В., Юрьев Е.М. Математическое моделирование процесса синтеза метанола с помощью квантово-химических методов расчета. Т. 320. № 3 изд. Уфа: Известия Томского политехнического университета, 2012. С. 73-78.

ИССЛЕДОВАНИЕ МЕТОДОВ КЛАССИФИКАЦИИ ПРИ НЕСБАЛАНСИРОВАННОСТИ КЛАССОВ Махсотова Ц.В.

Махсотова Цагана Валентиновна — студент магистратуры, кафедра компьютерных интеллектуальных технологий, Санкт-Петербургский политехнический университет им. Петра Великого, г. Санкт-Петербург

Аннотация: в статье анализируются различные подходы к обработке данных с несбалансированными классами, а также выясняется эффективность применения различных стратегий для наиболее точной классификации данных подобного типа. Ключевые слова: классификация, большие данные, алгоритмы, дисбаланс.

Проблема несбалансированных данных обычно относится к задаче с проблемами классификации, где классы не представлены в равной степени.

Данная проблема имеет большое значение в современных исследованиях обработки больших данных, т.к. несмотря на достаточное количество алгоритмов, реализующих классификацию подобного типа данных, существует проблема в погрешностях, что приводит к неточным результатам классификации.

К основным методам при обнаружении несбалансированности классов можно отнести следующие методы:

1. Сбор дополнительных данных.

2. Сбалансирование тестового набора данных одним из следующих способов:

a. Дублирование экземпляров класса меньшинства.

b. Удаление экземпляров класса большинства.

c. Синтезирование новых классов меньшинств.

3. На уровне алгоритма:

a. Регулирование веса класса (расходы ошибок классификации).

b. Регулирование порога принятия решения.

c. Изменение существующего алгоритма с целью повышения чуствительности к редким классам.

4. Создание совершенно нового алгоритма.

Примеры алгоритмов для решения проблемы несбалансированных классов:

35

1. Дублирование и удаление.

2. Правило «очищающего» соседа.

3. Синтетический метод увеличения числа примеров миноритарного класса.

4. Изменение веса класса.

5. Кластеризация.

Рассмотрим пример использования одного из классических методов предобработки данных для последующей классификации: случайное удаление примеров класса большинства.

Для того чтобы осуществить данную стратегию, необходимо рассчитать количество экземпляров класса большинства, которое необходимо удалить для того, чтобы посчитать необходимый уровень соотношения различных классов. Затем случайным образом отбираются экземпляры данного класса большинства и удаляются из набора данных.

В таких случаях часто возникает проблема абсолютного меньшинства.

Проблема «Абсолютного меньшинства» относится к набору данных, где проблема дисбаланса усугубляется недостаточным количеством обучающих примеров, которые не подходят для обобщения [1].

Влияние размера набора тестовых данных для проблемы несбалансированных классов: исследование 26 несбалансированных наборов данных показал, что наиболее существенное влияние на производительность классификатора является количество обучающих выборок. Это важный вывод, поскольку это свидетельствует о том, что отсутствие данных в «Абсолютном меньшинстве» усиливает проблему дисбаланса. По мере того как количество учебных примеров увеличивалось, частота ошибок, вызванные дисбалансом уменьшились и классификаторы стали менее чувствительны к дисбалансу между классами.

В данном случае более целесообразно будет использование так называемых бустинговых алгоритмов. Бустинговые алгоритмы на основе трансферного обучения применяют ансамблевые методы как для набора данных источника, так и для целевого набора данных. Действует на основе механизма обновления, который включает в себя только те экземпляры источника, которые полезны для классификации целевого экземпляра. Эти методы выполняют процедуру следующим образом, давая больше веса экземплярам источников, которые улучшают целевое обучение и снижают веса экземпляров для тех случаев, которые вызывают негативную отдачу. Для того, чтобы алгоритм работал, необходимо определить так называемые «слабые» обучающие параметры, готовить базовый классификатор по методу источника и цели, представленной итеративным способом. После каждой итерации, которая повышает вес неправильной классификации целевых экземпляров, увеличиваются веса правильно классифицированных целевых экземпляров. Проблемы возникают в случае, если:

1. Обнаружено несоответствие весов, когда количество экземпляров источника гораздо больше, чем у целевых экземпляров.

2. Могут появиться случаи, когда окончательный классификатор, всегда прогнозирует одну и ту же метку для всех экземпляров, когда он применяет различные веса в несбалансированном наборе данных.

В таком случае можно улучшить производительность данного алгоритма следующим образом: использование концепции передачи обучения для улучшения классификации путем включения дополнительного источника знания для целевого домена.

Эффективность описанных методов была изучена на основе реальной наборов данных. В будущем могут быть предложены возможные расширения описанных алгоритмов, изучая существующие социальные и финансовые проблемы.

Список литературы

1. Al-Stouhi Samir, Reddy Chandan K.. Transfer leaming for class imbalance problems with

inadequate data. Knowl Inf Syst, 2015. 32 p.

2. Abbas Safia. Deposit subscribe Prediction using Data Mining Techniques based Real Marketing

Dataset - International Journal of Computer Applications (0975 - 8887). Volume 110. № 3,

January 2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.