Научная статья на тему 'АНАЛИЗ МЕТОДОВ И АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ ГРАФИЧЕСКИХ ДАННЫХ'

АНАЛИЗ МЕТОДОВ И АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ ГРАФИЧЕСКИХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / ГЛУБОКОЕ ОБУЧЕНИЕ / СЕМАНТИЧЕСКАЯ СЕГМЕНТАЦИЯ / РАСПОЗНАВАНИЕ ОБРАЗОВ / ИНТЕРНЕТ ВЕЩЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Камаева Анастасия Андреевна, Тепаева Юлия Евгеньевна, Ротанов Андрей Сергеевич, Васькин Вадим Александрович, Ямашкин Станислав Анатольевич

В статье описаны преимущества и недостатки существующих методов сегментации изображений; проанализирован ряд алгоритмов распознавания объектов, включая анализ дискриминантных функций, системы эластичного сравнения на графах, анализ геометрических характеристик объектов, сравнение эталонов, гибкие контурные модели объектов, скрытые марковские модели и алгоритмы машинного обучения.The article describes the advantages and disadvantages of existing image segmentation methods; a number of object recognition algorithms were analyzed, including the analysis of discriminant functions, elastic comparison systems on graphs, analysis of the geometric characteristics of objects, comparison of standards, flexible contour object models, hidden Markov models and machine learning algorithms.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Камаева Анастасия Андреевна, Тепаева Юлия Евгеньевна, Ротанов Андрей Сергеевич, Васькин Вадим Александрович, Ямашкин Станислав Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «АНАЛИЗ МЕТОДОВ И АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ ГРАФИЧЕСКИХ ДАННЫХ»

УДК 004.93

Информационные технологии

Камаева Анастасия Андреевна, магистр, Национальный исследовательский Мордовский государственный университет им. Н.П. Огарева Тепаева Юлия Евгеньевна, магистр, Национальный исследовательский

Мордовский государственный университет им. Н.П. Огарева Ротанов Андрей Сергеевич, магистр, Национальный исследовательский Мордовский государственный университет им. Н.П. Огарева Васькин Вадим Александрович, магистр, Национальный исследовательский Мордовский государственный университет им. Н.П. Огарева Ямашкин Станислав Анатольевич, кандидат технических наук, доцент кафедры автоматизированных систем обработки информации и управления, Национальный исследовательский Мордовский государственный университет

им. Н. П. Огарева

АНАЛИЗ МЕТОДОВ И АЛГОРИТМОВ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ ГРАФИЧЕСКИХ ДАННЫХ

Аннотация: В статье описаны преимущества и недостатки существующих методов сегментации изображений; проанализирован ряд алгоритмов распознавания объектов, включая анализ дискриминантных функций, системы эластичного сравнения на графах, анализ геометрических характеристик объектов, сравнение эталонов, гибкие контурные модели объектов, скрытые марковские модели и алгоритмы машинного обучения.

Ключевые слова: искусственные нейронные сети, глубокое обучение, семантическая сегментация, распознавание образов, Интернет вещей.

Abstract: The article describes the advantages and disadvantages of existing image segmentation methods; a number of object recognition algorithms were analyzed, including the analysis of discriminant functions, elastic comparison

systems on graphs, analysis of the geometric characteristics of objects, comparison of standards, flexible contour object models, hidden Markov models and machine learning algorithms.

Keywords: artificial neural networks, deep learning, semantic segmentation, pattern recognition, Internet of Things.

Введение

Важным направлением применения современной вычислительной техники является обработка графических данных. Обработка изображений является многоплановой задачей, включающей в себя функции шумоподавления, фокусировки, геометрической и градационной коррекции, увеличения контрастности, освещенности, резкости и прочее [1; 2; 3; 4]. Одним из ведущих направлений в работе с графической информацией можно считать распознавание образов, применяющееся сейчас во многих сферах человеческой деятельности от творчества до медицины.

1. Теоретические аспекты семантической сегментации

В настоящее время человечество живет в век стремительного развития технологий. Ежедневно разрабатываются новые технологические и программные решения с целью оптимизации любой человеческой деятельности. К подобным разработкам можно отнести и ряд методов семантического распознавания образов.

Семантическая сегментация изображений - это процесс выделения сегментов и одновременная их классификация по заранее заданному набору классов [12]. Каждая сегментная часть состоит из пикселей, имеющих одинаковые метки класса, что свидетельствует о принадлежности подобного сегмента к определенному классу, объединенному по каким-то общим особенностям.

Универсального способа реализации системы семантической сегментации пока не существует, любое решение характеризуется спецификой целевой предметной области.

2. Предметная область «умных» устройств

Под термином «Интернет вещей» (англ. IoT - Internet of Things) понимается синтез технологий, используемых для сбора, хранения, обработки и визуализации информации с автоматизированных устройств с целью дистанционного управления ими при помощи сети Интернет [6].

Оконечные устройства «Интернета вещей» могут иметь в своем составе разнообразные датчики, электромеханические исполнительные механизмы, микроконтроллеры для управления, устройства для передачи информации во всемирную паутину, источники и преобразователи питания. Область применения 1оТ-устройств очень широка - от повседневного использования дома до высокотехнологичного применения в промышленности, энергетике, агрокультуре, ритейле и даже в области здравоохранения [10].

Для разработки IoT-системы, отличающейся высокими показателями эффективности, безопасности и надежности работы, необходимо грамотно спроектировать архитектуру системы, детально распределить функции между локальным и серверным уровнем, а также учесть ряд вопросов безопасности и отказоустойчивости системы [8]. Поэтому разработка систем для «умных» устройств подразумевает под собой широкий комплекс компетенций в областях информационных технологий и программирования.

3. Теоретические аспекты нейронных сетей

Перед «умными» устройствами стоит очень широкий класс задач. Одни задачи легко решаются алгоритмически (например, включение электрической лампочки по зафиксированному с датчиков звуку или движению и, соответственно, ее выключение по таймеру), другие задачи решить традиционными аналитическими и расчетными методами не представляется возможным [5]. Идея создания нейронных сетей была предложена для решения сложно алгоритмизируемого типа задач.

Под нейронными сетями понимается математическое отображение биологической модели сети взаимосвязанных нейронов. Нейросетевая структура получает на вход некоторый набор данных и в процессе

корректировки своих параметров в результате формирует совокупность выходных сигналов [7].

Искусственные нейронные сети представлены большим числом взаимосвязанных нейронных элементов. Структура нейронной сети отображается направленным графом, представленным на рисунке 1, в котором вершины являются аналогами нейронов, а дуги представляют собой нечто вроде синаптических связей между нейронами. Дуга, направленная от нейронного элемента с номером I к нейрону с номером у, характеризуется весом wij.

о ^

и о

X

о

X ей

о ^

и о

X

о

■О

ей

Скрытые слои

Рисунок 1 - Модель искусственной нейронной сети

Для большинства нейросетевых моделей характерен процесс обучения. В контексте нейронных сетей, под термином обучение понимается такой подбор параметров, при котором сеть решает поставленную перед ней задачу наилучшим образом. Обучение является задачей многомерной оптимизации, и для ее решения существует большое количество алгоритмов [9].

Для обучения нейронной сети классификации объектов может использоваться как обучение с учителем, так и обучение без учителя. Метод обучения с учителем заключается в тренировке нейронной модели посредством примеров обучающего множества. Набор примеров содержит эталонные пары

«вход - выход». Механизм обучения производится итеративно, на каждом шаге выполняется вычисление метрик точности и потерь для определения векторов локальных градиентов. Рассчитанные локальные градиенты нужны для дальнейшей подстройки изменяемых параметров. Обучение может производится последовательно, когда корректировка параметров осуществляется после каждого обучающего примера, и пакетно, когда корректировка происходит после прогона нескольких обучающих примеров с вычислением суммы локального градиента [13]. Полный цикл обработки обучающего множества примеров с последующей коррекцией параметров называется эпохой.

4. Распознавание образов при помощи нейронных сетей

На данный момент самым популярным и эффективным методом для сегментации является полносверточная нейронная сеть (англ. Fully Convolutional Network - FCN). В статье «Fully Convolutional Networks for Semantic Segmentation» [14] описывается использование полносверточных сетей. Изначально кодировщик уменьшает при помощи слоев свертки размер входного изображения одновременно с этим увеличивая количество каналов. Далее полученный выход декодируется либо при помощи серии транспонированных сверток, либо через билинейную интерполяцию.

Подобная архитектура, несмотря на свою эффективность, обладает некоторыми недостатками. В частности, модель имеет низкую расширяющую способность по краям из-за потерь данных в процессе кодирования.

Для улучшения базовой FCN был разработан ряд решений, одним из которых является нейронная сеть U-Net. За счет skip-связей градиенты лучше распространяются и позволяют обрабатывать информацию с изображений различных масштабов. Информация с глубоких слоев нейронной сети помогает модели качественнее сегментировать объекты. В то время как информация с верхних слоев помогает нейросетевой модели точнее классифицировать.

5. Оценка альтернативных методов по распознаванию образов

Основной целью моделей семантической сегментации является

обнаружение и распознавание объектов. Несмотря на то, что методов для распознавания объектов и образов достаточно много, далеко не все они могут применяться на практике. В основном применение того или иного метода характеризуется непосредственно особенностями объектов на входящих изображениях, их ракурсов, освещенности, деформации и прочее [11].

Анализ методов и алгоритмов распознавания объектов представлен в таблице 1.

Таблица 1 - Сравнительная характеристика методов распознавания образов

Наименование метода Описание Недостатки метода

Анализ дискриминантных функций Накладывает проекцию пространства признаков на пространство изображений, чтобы уменьшить внутриклассовое расстояние и увеличить межклассовое. а) низкое качество при меняющихся условиях освещенности; б) высокая сложность работы с большой базой объектов; в) необходимость качественной предобработки входящих изображений.

Системы эластичного сравнения на графах Объект представляется в виде взвешенного графа, в котором набор коэффициентов характеризует локальную область объекта. На основании сравнения графов происходит процесс распознавания объектов. а) отсутствует механизм классификации; б) большая вероятность ошибки.

Анализ геометрических характеристик объектов Распознавание образов производится в процессе сравнения набора ключевых точек объекта. а) строгие требования к изображениям, подающимся на вход; б) отсутствие надежного механизма определения ключевых точек.

Сравнение эталонов Попиксельное сравнение с имеющимися эталонами объектов. а) строгие требования к входящим изображениям; б) большие ресурсы для хранения эталонов и пописксельного сравнивания.

Гибкие контурные модели объектов Распознавание на основе сравнения контуров объектов. а) сложность нахождения контуров; б) низкая точность.

Скрытые марковские модели Для каждого описанного класса (модели) определяется вероятность того, что образ, описываемый а) обладают низкой различающей способностью; б) невысокая надежность

последовательностью наблюдений, мог быть сгенерирован этой моделью. На основании максимальной полученной вероятности образ относят к классу._

Из проведенного сравнения методов и алгоритмов использующихся для распознавания образов на изображениях следует, что рассмотренные методы отлично справляются с частными задачами, особенно в условиях однотипной съемки в статичных условиях, однако в более широких областях и при изменяющихся условиях задачи так и остаются нерешенными.

Выводы

Внедрение нейросетевых моделей в «умные» устройства обусловлено широким классом исполняемых устройствами задач, которые не всегда легко алгоритмизировать (одной из таких задач является распознавание образов на изображениях и видеоданных).

Методы распознавания объектов, такие как, анализ дискриминантных функций, гибкие контурные модели объектов, системы эластичного сравнения на графах, анализ геометрических характеристик объектов, сравнение эталонов и скрытые марковские модели, отлично справляются с частными задачами, но в более широких областях показывают не очень хорошие результаты.

Полносверточная сеть является одной из самых легких и известных архитектур глубокого обучения, применяемой для семантической сегментации.

В результате полученных выводов было принято решение исследовать ряд нейронных сетей таких как U-Net, Mask R-CNN, Yola для решения задачи распознавания образов.

Библиографический список:

1. Аль-Астри, М. А. Вероятностная оценка качества изображений / М. А. Аль-Астри, С. А. Федосин, В. В. Афонин // Научно-технический вестник Поволжья. - 2018. - № 4. - С. 62-65. - DOI 10.24153/2079-5920-2018-8-4-62-65.

2. Афонин, В. В. Алгоритм и методика ранжирования группы

растровых изображений / В. В. Афонин, А. В. Савкина, В. В. Никулин // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. - 2021. - № 4. - С. 58-67. - DOI 10.24143/2072-9502-2021-4-58-67.

3. Афонин, В. В. Оценка устойчивости структурно-яркостных свойств при цифровой обработке изображений / В. В. Афонин, А. В. Савкина, В. В. Никулин // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. -2021. - № 2. - С. 39-46. - DOI 10.24143/2072-9502-2021-2-39-46.

4. Афонин, В. В. Цифровой анализ качества поверхности строительных материалов по отсканированным изображениям / В. В. Афонин, А. С. Бебрыш // Проблемы управления, обработки и передачи информации: сборник трудов IV Международной научной конференции : в 2 томах, Саратов, 22-25 сентября 2015 года. - Саратов: Райт-Экспо, 2015. - С. 79-84.

5. Джокела, Б. Слияние искусственного интеллекта и «Интернета вещей» // Control Engineering Россия. - 2019. - № 2(80). - С. 70-72.

6. Интернет вещей [Электронный ресурс] // wikipedia.org - свободная энциклопедия. - Режим доступа: https://ru.wikipedia.org/wiki/Интернет_вещей (дата обращения: 18.03.2022).

7. Камаева, А. А. Современное состояние искусственных нейронных сетей // Инновации. Наука. Образование. - 2020. - № 16. - С. 377-387.

8. Ли П. Архитектура интернета вещей // Litres - Москва, 2019. - 456

с.

9. Осовский, С. Нейронные сети для обработки информации [пер. с польского И. Д. Рудинского] - 2-е издание, перераб. и доп. - Москва: Финансы и статистика, 2017. - 448 с.

10. Преображенский, Ю. П. Анализ перспектив информационных технологий в сфере Интернет Вещей // Вестник Воронежского института высоких технологий. - 2020. - №1(32). - С. 43-45.

11. Романов, С. А. Анализ методов распознавания изображений

[Электронный ресурс] // Перспективы развития информационных технологий. -2010. - №2. - Режим доступа: https://cyberlemnka.ru/article/n/anaHz-metodov-raspoznavaniya-izobrazheniy (дата обращения: 07.06.2022).

12. Тарасов, А. С. Применение сверточных сегментационных нейронных сетей для экологического мониторинга земной поверхности // Известия Тульского государственного университета. Технические науки. -2021. - № 6. - С. 3-10.

13. Шолле, Франсуа Глубокое обучение на Python // Издательский дом «Питер» - СПб, 2018. - 400 с.

14. Long, Jonathan Fully Convolutional Networks for Semantic Segmentation [Электронный ресурс]: arxiv.org - URL: https://arxiv.org/abs/1411.4038 (дата обращения: 23.03.2022).

i Надоели баннеры? Вы всегда можете отключить рекламу.