Научная статья на тему 'О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа спутниковых изображений'

О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа спутниковых изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
91
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ИЗОБРАЖЕНИЙ / IMAGE ANALYSIS / КЛАССИФИКАЦИЯ / CLASSIFICATION / ОПТИМИЗАЦИЯ ПАРАМЕТРОВ / PARAMETERS OPTIMIZATION / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / GENETIC ALGORITHM / НАСТРОЙКА / SETTINGS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Митрофанов С.А.

Рассматривается выбор настроек для генетического алгоритма, который оптимизирует параметры классификаторов в задачах определения типа почвы по спутниковым снимкам с использованием системы RapidMiner. Представлены оценки эффективности используемых методов классификации и их оптимизированных вариантов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Митрофанов С.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT A CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM IN CLASSIFIER PARAMETERS OPTIMIZATION FOR SATELLITE IMAGES ANALYSIS

The paper considers the choice of settings for a genetic algorithm that optimizes classifiers parameters in the problem of soil types determination from satellite images using Rapid Miner system. The effectiveness of classification methods and their optimized variants is presented.

Текст научной работы на тему «О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа спутниковых изображений»

Секция ««Математические методы моделирования, управления и анализа данных»

УДК 519.87

О ВЫБОРЕ ЭФФЕКТИВНЫХ НАСТРОЕК ГЕНЕТИЧЕСКОГО АЛГОРИТМА

ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧАХ АНАЛИЗА

СПУТНИКОВЫХ ИЗОБРАЖЕНИЙ

С. А. Митрофанов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: markus1995@mail.ru

Рассматривается выбор настроек для генетического алгоритма, который оптимизирует параметры классификаторов в задачах определения типа почвы по спутниковым снимкам с использованием системы RapidMiner. Представлены оценки эффективности используемых методов классификации и их оптимизированных вариантов.

Ключевые слова: анализ изображений, классификация, оптимизация параметров, генетический алгоритм, настройка.

ABOUT A CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM IN CLASSIFIER PARAMETERS OPTIMIZATION FOR SATELLITE IMAGES ANALYSIS

S. A. Mitrofanov

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: markus1995@mail.ru

The paper considers the choice of settings for a genetic algorithm that optimizes classifiers parameters in the problem of soil types determination from satellite images using Rapid Miner system. The effectiveness of classification methods and their optimized variants is presented.

Keywords: image analysis, classification, parameters optimization, genetic algorithm, settings.

Распознавание изображений - одно из самых интенсивно развивающихся направлений в области информационных технологий. Необходимость в таком распознавании возникает в самых разных областях - от военного дела и систем безопасности до оцифровки аналоговых сигналов и медицинской диагностики. В общем случае распознавание изображений - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных. Частным случаем распознавания изображений является задача анализа изображений на спутниковых снимках [1]. Задача заключается в классификации типа почвы по снимкам со спутника.

В работе исследована эффективность пяти методов классификации, реализованных в системе RapidMiner [2], которая без оптимизации параметров классификаторов составляет: нейронная сеть (NN, [3]) - 89,56; метод k-ближайших соседей (k-NN, [4]) - 90,71; деревья решений (DT, [5]) - 83,08; индуктивный вывод правил (RI, [6]) - 85,5; случайный лес (RF, [7]) - 68,73.

Хорошо известно, что эффективность работы классификаторов зависит от выбора их параметров. Так как вручную выбрать параметры для оптимальной работы классификатора практически не возможно, то необходимо применять формальные процедуры оптимизации. В данной работе применен генетический алгоритм (ГА, [8]), встроенный в систему RapidMiner. ГА является методом случайного поиска, имитирующим процессы эволюции, и обладает целым набором собственных параметров и настроек. Работа ГА существенно зависит от их выбора.

Если использовать все комбинации настроек ГА, то возможны более 100 различных его реализаций. Исследовать эффективность каждой из них непосредственно в программе RapidMiner в ходе решения реальной задачи не представляется возможным. Поэтому автором была выполнена

Актуальные проблемы авиации и космонавтики - 2016. Том 1

программная реализация ГА с возможностью исследования эффективности путем перебора возможных настроек на тестовых функциях, отображающих возможные свойства целевых функций реальных задач. Программная система реализована на языке программирования С++ в среде Embarcadero RAD Studio. Для теста были взяты квадратичная функция, функция Растригина и функция «Лисьи норы» Шекеля [9]. После выполнения исчерпывающего анализа результатов работы ГА на тестовых функциях при всех возможных комбинациях настроек для дальнейшего исследования были выбраны варианты соответствующие наилучшей, средней и наихудшей эффективностям работы алгоритма.

В системе RapidMiner выбранные классификаторы были оптимизированы генетическим алгоритмом со следующими настройками:

1. «Лучшая»: селекция - турнирная с размером турнира 9; скрещивание - равномерное с вероятностью 0,95; мутация - средняя.

2. «Средняя»: селекция - ранговая; скрещивание - равномерное с вероятностью 0,6; мутация -средняя.

3. «Худшая»: селекция - пропорциональная; скрещивание - равномерное с вероятностью 0,6; мутация - сильная.

Показатели эффективности всех перечисленных методов классификации с оптимизацией тремя упомянутыми вариантами ГА и без оптимизации представлены в таблице.

Эффективность классификаторов (в % правильных ответов)

NN k-NN DT RI RF

Без оптимизации 89,56 90,71 83,08 85,5 68,73

«Лучшие» настройки 90,1 90,69 82,58 86,09 54,75

«Средние» настройки 90,15 91,11 82,97 86,25 52,63

«Худшие» настройки 89,82 91,02 82,81 85,87 54,70

В соответствии с полученными результатами можно сделать вывод, что оптимизация улучшила работу не всех алгоритмов. Эффективность работы оптимизированных алгоритмов не имеет статистически значимых различий по сравнению с не оптимизированными методами. «Лучшие» настройки генетического алгоритма оптимизации тестовых функций не являются «лучшими» для оптимизации методов интеллектуального анализа данных в задаче анализа изображений на спутниковых снимках. Таким образом, подход с использованием предварительного анализа эффективности ГА на тестовых задачах с последующим применением в пакете RapidMiner при решении реальных задач не может быть рекомендован. Возможно, это связано с недостаточно репрезентативным множеством тестовых задач. Однако основной проблемой, скорее всего, является непереносимость выбора эффективных настроек с множества тестовых задач на реальные. В этой связи следует изучить альтернативные подходы к выбору и настройке классификаторов, связанные с автоматической подстройкой адаптивных алгоритмов оптимизации в ходе решения реальной задачи анализа данных [10-12].

Библиографические ссылки

1. Митрофанов С. А. Сравнение эффективности различных методов интеллектуального анализа данных в задачах распознавания изображений // Инновационная наука. 2015. Вып. 12. С. 96-98.

2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 05.04.2016).

3. Горбань А. Н., Россиев Д. А. Нейронные сети на персональном компьютере. Новосибирск : Наука. Сиб. изд. фирма РАН. 1996. С. 123-144.

4. Soft k-nearest-neighbour classifiers / Bermejo, S. Cabestany, J. Adaptive // Pattern Recognition. 2000. Vol. 33. Pp. 1999-2005,

5. Quinlan J. R. Generating production rules from decision trees. In McDermott, John. Proceedings of the Tenth International Joint Conference on Artificial Intelligence (IJCAI-87). Milan, Italy. 1987. Pp.304-307.

6. Rule Induction as a Technique of Detecting Severity of Myocardial Infarction / Raquib Ridwan, Md Ibnea Sina Bony and Kamrul Hasan // 4th International Conference on Bioinformatics and Biomedical Technology. 2012. Pp. 34-39.

7. Hastie T., Tibshirani R., Friedman J. Chapter 15. Random Forests // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag, 2009.

Секция «Математические методы моделирования, управления и анализа данных»

8. Гладков Л. А., Курейчик В. В., Курейчик В. М. Генетические алгоритмы : учеб. пособие. М. : Физматлит, 2006.

9. Сергиенко А. Б. Тестовые функции для глобальной оптимизации ; Сиб. гос. аэрокосмич. ун-т. 2015. Vol. 1.32. С. 29-35, 91-95.

10. Stanovov V. V., Semenkin E. S. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. № 4(50). С. 148-152.

11. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // ICINCO 2014 - Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.

12. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ann-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.

© Митрофанов С. А., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.