Научная статья на тему 'АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ГРАНУЛЯЦИИ ДЛЯ ГЕНЕТИЧЕСКОЙ НЕЧЕТКОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ DBSCAN'

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ГРАНУЛЯЦИИ ДЛЯ ГЕНЕТИЧЕСКОЙ НЕЧЕТКОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ DBSCAN Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
классификация / нечеткая логика / генетический алгоритм / DBSCAN / classification / fuzzy logic / genetic algorithm / DBSCAN

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Т.С. Плешкова, В.В. Становов

Предложен алгоритм классификации данных с помощью генетической нечеткой системы, позволяющий интерпретировать процесс принятия решений на понятный человеку язык с автоматическим определением количества термов при помощи библиотеки DBSCAN.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC GRANULATION DETECTION FOR GENETIC FUZZY SYSTEM USING DBSCAN

An algorithm for classifying data using a genetic fuzzy system is proposed, which allows interpreting the decision-making process in a human-understandable language with automatic determination of the number of terms using the DBSCAN library.

Текст научной работы на тему «АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ГРАНУЛЯЦИИ ДЛЯ ГЕНЕТИЧЕСКОЙ НЕЧЕТКОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ DBSCAN»

УДК 519.87

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ГРАНУЛЯЦИИ ДЛЯ ГЕНЕТИЧЕСКОЙ НЕЧЕТКОЙ СИСТЕМЫ С ИСПОЛЬЗОВАНИЕМ DBSCAN

1*

Т. С. Плешкова Научный руководитель - В.В. Становов

1 Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 82А 2Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

*E-mail: tatyana.pleshkova2310@gmail.com

Предложен алгоритм классификации данных с помощью генетической нечеткой системы, позволяющий интерпретировать процесс принятия решений на понятный человеку язык с автоматическим определением количества термов при помощи библиотеки DBSCAN.

Ключевые слова: классификация, нечеткая логика, генетический алгоритм, DBSCAN

AUTOMATIC GRANULATION DETECTION FOR GENETIC FUZZY SYSTEM USING

DBSCAN

T.S. Pleshkova1* Scientific supervisor - V.V. Stanovov2

'Siberian Federal University Russian Federation, 660041, Krasnoyarsk, Svobodnyy Ave, 82А 2Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: tatyana.pleshkova2310@gmail.com

An algorithm for classifying data using a genetic fuzzy system is proposed, which allows interpreting the decision-making process in a human-understandable language with automatic determination of the number of terms using the DBSCAN library.

Keywords: classification, fuzzy logic, genetic algorithm, DBSCAN

Классификация - это метод группировки объектов по классам в соответствии с их общими признаками. Классификация является одним из важных инструментом анализа данными, но приоритеты использования определенных методов классификации над другими не всегда объясняются их эффективностью, а скорее тенденциями современного мира - тяготением к использованию методов искусственного интеллекта. Так, классификация с использованием алгоритмов машинного и глубокого обучение имеет большую популярность и используются чаще, а нечеткая логика часто игнорируется, несмотря на недостаток большинства алгоритмов машинного и глубокого обучения - свойство быть «черным ящиком» -проводить процесс классификации без предоставления информации о том, какие характеристики повлияли на определение классов. В то время, как методы нечеткой логики позволяют понять, какие именно факторы привели к классификации, предоставляя

Актуальные проблемы авиации и космонавтики - 2021. Том 2

объяснения предсказаний [1], которые обеспечивают лучшее понимание результатов моделей, другие - нет.

В статье основной упор будет на автоматическом определении нечеткой грануляции методом DBSCAN (Density-based spatial clustering of applications with noise) [2] для алгоритма классификации данных с помощью генетической нечеткой системы. Вариация данного алгоритма была рассмотрена в [3].

В разработанном алгоритме классификации данных, реализованном на языке C# с помощью интегрированной среды разработки Visual Studio, применена нечеткая логика, которая позволяет описать ассоциативное мышление человека с помощью лингвистической переменной. Важным критерием лингвистической переменной является определение нечеткой грануляции, используя которую алгоритм устанавливает соответствие между нечетким термом и значениями описываемой величины. Проведя перебор различных нечетких грануляций на разных данных, можем сказать, что существует зависимость количества термов и точности классификации. Результаты экспериментов представлены в табл. 1. Важно понимать, что проводилось тестирование алгоритма при различных значениях параметров, произведен подбор таких параметров, как количество правил, количество термов и количество поколений. Алгоритм запускался при следующих значениях различных величин: количество индивидов - 100, процент разбиения выборки - 80/20, разбиение было случайным, не стратифицированным. На каждые 100 поколений замерялась точность, то есть качество классификации (процент верно классифицированных объектов на тестовой выборке),

с 10 запусков подсчитывалось среднее значение.

Таблица 1

Данные Iris Australian Ionosphere Seeds dataset Glass

Кол-во правил 6 4 3 12 7

^\Кол-во "в\термов Кол-во ^^ поколений 2 6 2 3 3 2 3 2 3

100 0.590 0.860 0.688 0.777 0.663 0.719 0.671 0.400 0.36

200 0.823 0.863 0.769 0.785 0.782 0.786 0.755 0.658 0.696

300 0.820 0.863 0.768 0.781 0.785 0.793 0.805 0.702 0.704

400 0.820 0.863 0.768 0.781 0.787 0.795 0.805 0.702 0.727

500 0.820 0.863 0.769 0.783 0.787 0.805 0.805 0.702 0.729

600 0.823 0.863 0.769 0.783 0.790 0.807 0.805 0.704 0.729

700 0.823 0.863 0.769 0.783 0.790 0.805 0.805 0.704 0.729

800 0.823 0.863 0.769 0.783 0.792 0.805 0.805 0.709 0.729

В данной работе предлагается использовать для определения нечеткой грануляции метод БББСАК, который позволяет проводить кластеризацию данных с использованием двух параметров — радиуса £-окрестности и количества соседей. По окончанию работы метода получается число кластеров, которое и будет соответствовать предполагаемому количеству термов. Следовательно, для применения данного метода необходимо автоматически подбирать параметры для различного набора данных.

Для автоматического определения количества соседей возьмем 50% от числа объектов класса, содержащего наименьшее количество объектов. Второй параметр, радиус £-окрестности, будем генерировать по нормальному распределению со средним значением равным среднему евклидову расстоянию в одном столбце, а стандартное отклонение равным стандартному отклонению расстояний в этом же столбце. Поиск продолжается в течение 150 итераций, если следующие условия соблюдаются, то найденное число добавляется в список:

1. Количество кластеров может быть не менее 2 и не более 7;

2. Шум, то есть не распределенные по кластерам объекты, должны составлять не более 20% от общей выборки.

После заполнения списка найденными значениями числа кластеров необходимо взять среднее значение по списку с округлением в большую сторону, чтобы получить величину грануляции.

Метод определения нечеткой грануляции реализован на языке python и подключен к основному алгоритму классификации данных. Результаты экспериментов представлены в табл. 2, их необходимо сопоставить с параметрами в табл. 1 (кол-во правил, поколений).

Таблица 2

Данный метод позволяет существенно сократить время работы основного алгоритма на подбор нечеткой грануляции за счет отсутствия необходимости многократного запуска. В последующих работах будет предложен метод определения количества правил.

Библиографические ссылки

1. Д. Рутковская, М. Пилиньский, Л. Рутковский Нейронные сети, генетические алгоритмы и нечеткие системы М. : Горячая линия-Телеком, 2004.

2. Scikit learn [Электронный ресурс]. URL: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html (дата обращения: 03.03.2021).

3. Становов В.В. Самонастраивающиеся эволюционные алгоритмы формирования систем на нечеткой логике : диссертация на соискание ученой степени кандидата технических наук, Красноярск : СибГУ им. М.Ф. Решетнева, 2016.

© Плешкова Т.С., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.