ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №4(31), 2016, с. 317-329
УДК 519.682, 004.8
А. Е. Кирюшина
Выделение и классификация знаков пожарной безопасности с использованием нейронных сетей
Аннотация. В данной статье описывается метод распознавания знаков пожарной безопасности на фото и видео кадрах, полученных с камер, находящихся на борту беспилотного летательного аппарата или подвижного транспортного средства. В работе освещается алгоритм выделения знаков пожарной безопасности с использованием сканирующего окна; показаны результаты обучения и классификации знаков с помощью сверточной нейронной сети.
Ключевые слова и фразы: БПЛА, передвижное транспортное средство, масштабирование изображений, сверточная нейронная сеть, распознавание объектов, сканирующее окно, классификация объектов.
Введение
Беспилотные летательные аппараты (далее БПЛА) и наземные передвижные транспортные средства (далее ПТС) играют большую роль в условиях, опасных для человеческой жизни: террористические акты, массовые мероприятия и боевые действия. БПЛА могут быть использованы в труднодоступных регионах, горных массивах, болотистых местностях для доставки медикаментов и помощи при поисковых работах. Использование автономного средства поможет сократить расходы на пилотную авиацию при решении рутинных задач: мониторинга территории в течение долгого промежутка времени, прослеживания движущихся объектов, поиска объектов интереса. Используя в качестве ориентиров распознанные окружающие объекты, БПЛА и ПТС могут строить план помещения, маршрут облета территории.
Работа поддержана Министерством образования и науки РФ, соглашение №14.607.21.0012 (уникальный идентификатор RFMEFI60714X0012). © А. Е. Кирюшина, 2016
© Институт программных систем имени А. К. Айламазяна РАН, 2016 © Программные системы: теория и приложения, 2016
Применение подвижных технических средств позволяет добиться автоматизации и качества их решения. Примером выступают задачи, связанные с быстрым осмотром или обходом территории без присутствия человека, проникновением на недоступные или угрожающие жизни людей территории. Обход территории сопровождается составлением ее плана, нанесением на план точек интереса, распознавание найденных объектов, расцениваемых как:
• команды для дальнейшего движения технического средства,
• средство для оценки положения технического средства на местности без использования координат,
• сигналы для оператора.
Двигаясь по известному маршруту помещения или местности, техническое средство выделяет и распознает встречающиеся на пути объекты, тем самым создавая план помещения с нанесенными на него знаками, в качестве которых могут выступать особые объекты на местности, условные обозначения, нанесенные на стены, пол или потолок.
Особые знаки могут контролировать взлет, посадку БПЛА; старт, остановку, передвижение по местности для ПТС.
Например, в статье [1] распознавание объектов основано на контурном представлении изображений и измерении сходства этих контуров. Изначально входное изображение преобразуется в контурное бинарное изображение. Процесс сопоставления и вычисления меры сходства контурного эталона с текущим, преобразованном в дистантное изображение объекта, сводится к процедуре вычисления локальной суммы пикселей дистантного изображения, "накрытых" контурными пикселями эталонного изображения.
В работе [2] предложен и описан метод позиционирования БПЛА без использования систем спутниковой навигации, с применением данных, полученных с бортового фотовидео регистратора, и заранее загруженных данных о местности.
В статье [3] представлен быстрый алгоритм нахождения маркеров на изображениях. Данный алгоритм полезен при нахождении маркеров, которые имеют четкие границы с фоном, и устойчив к неравномерному освещению и деформации маркеров. Описанный подход основывается на нахождении границ: пограничные пиксели объекта формируют границу с помощью RANSAC. В качестве маркеров использованы DataMatrix, Maxicode and QR-код.
Рис. 1. Эвакуационные знаки
В работе [4] описывается система, которая является ассистентом для водителя. Система позволяет выделять разметку и границы дороги, тем самым корректируя движение автомобиля. Определение линий разметки не чувствительно к освещению и масштабу.
В данной работе представлен алгоритм автоматического поиска и распознавания особых объектов на фото и видеокадрах, получаемых с борта БПЛА и ПТС, совершающих обход помещения.
1. Постановка задачи
Описанный в статье метод основан на принципе ориентирования человека на местности относительно известных ему знаков, таблиц, предметов, зданий, благодаря чему БПЛА или ПТС без использования сигналов СРЯ/ГЛОНАСС могут передвигаться по заранее неизвестной территории с известными обозначениями, при потере данных о местоположении. Данный подход поможет решить задачу создания плана помещения или местности.
Основная идея метода ориентирования БПЛА или ПТС (далее ТС — общее обозначение для БПЛА и ПТС) заключается в позиционировании ТС за счет использования фото и видеокамер, установленных на борту. ТС получает фотографию или видео территории, ищет в кадре объекты, относит их к определенному классу, расценивает данный объект либо как ориентир для продолжения маршрута полета, либо как объект на местности, плане помещения.
Предварительно готовится информация о местности, характерных объектах и возможном маршруте движения ТС. Одним из примеров такой местности выступает помещение, имеющее план пожарной безопасности, в качестве характерных объектов — знаки, установленные на стенах, щитках, дверных проемах, лестницах. Опираясь на знаки, указывающие движение к выходу или запасному выходу в аварийных
Рис. 2. Знаки пожарной безопасности, предупреждающие и запрещающие знаки
ситуациях для людей, можно смоделировать передвижение технического средства. Алгоритм поиска и распознавания знаков на изображениях, получаемых с ТС для моделирования полета по помещению состоит из следующих шагов:
(1) выбор знаков. Например, знаки, нанесенные на план эвакуации здания. Они хорошо выделяются на фоне стены, имеют стандартный размер, яркий цвет, при масштабировании теряют минимум информации. Эвакуационные знаки, знаки пожарной безопасности, предупреждающие и запрещающие знаки (рис. 1 и 2) могут быть использованы для определения направления движения транспортного средства;
(2) предобработка изображений: устранения искажений, шума;
(3) предварительное создание обучающей выборки для сверточной нейронной сети (в наземных условиях): фотографии знаков, расположенных в помещении. Для этого знаки фотографируются с разных углов, с разной степенью освещенности;
(4) изменение размера изображения до 32 х 32 пикселя;
(5) применение классификатора — сверточной нейронной сети (далее СНС) в режиме обучения. Результат обучения — набор весовых коэффициентов;
(6) получение с борта ТС (или сохраненных на жестком диске компьютера) фотографии или видеокадра помещения, содержащих несколько известных СНС знаков. С использованием сканирующего окна происходит поиск и выделение участков изображения или кадра с потенциальными знаками. Будем считать, что камера ТС располагается на постоянной высоте. Каждый знак должен быть ориентирован, как шаблон для обучения;
(7) формирование тестовой выборки;
Рис. 3. Пример входного изображения
(8) запуск СНС в режиме распознавания. Результат распознавания — класс знака;
(9) выявление соответствия класса знака и команды для дальнейшего движения.
В данной статье более подробно описываются шаги поиска знака в кадре и использование СНС для обучения и классификации найденных знаков.
2. Выделение объектов с использованием сканирующего окна
Применительно к фото и видеокадрам (далее изображениям) используется подход на основе сканирующего окна (scanning window) [5]: окном поиска сканируется изображение, а затем применяется классификатор к каждому положению. Далее СНС выбирает положения с наиболее значимыми признаками (с наименьшей ошибкой классификации).
Алгоритм сканирования окна с признаками выглядит так:
(1) дано исследуемое изображение (рис. 3), выбрано окно сканирования размером 40 х 40 пикселей;
(2) далее окно сканирования начинает последовательно двигаться по изображению с шагом в одну ячейку окна (размер самого окна есть размер ячейки);
(3) сканирование производится последовательно для различных масштабов;
Рис. 4. Фрагменты со знаком пожарной безопасности, попавшие в сканирующее окно
Рис. 5. Точки А\, А2, Аз, А4 с известными значениями яркости. Значение в точке Р интерполировано
(4) масштабируется не само изображение, а сканирующее окно (изменяется размер ячейки: 70, 100, 130, 170, 210, 250, 300 пикселей);
(5) все найденные фрагменты на рис. 4 формируют выборку для обучения СНС, которая «выносит вердикт», к какому классу относится объект во фрагменте.
3. Сверточная нейронная сеть: архитектура, обучение и распознавание
3.1. Масштабирование изображений
Перед тем, как подать полученные на предыдущем шаге изображения для распознавания на вход нейронной сети, нужно привести их к размеру 32 х 32 пикселя с сохранением масштаба. Для этого используется метод билинейной интерполяции [6], который позволяет достичь высокого качества изображения. Пусть имеются значения яркости в четырех точках А\, А2, A3, A4. Требуется вычислить значение яркости точки Р (рис. 5).
Рис. 6. Масштабирование изображения методом билинейной интерполяции
Значение пикселя в точке Р вычисляется по следующей формуле билинейной интерполяции:
J , ) = f Qi ,У1) * (X2 - х)(У2 - y) + f (X2 ,yi) * Q - XX - y) + ' (X2 - Xi )(У2 - у) (X2 - Xi )(У2 - у)
+ f Qi ,У2) * (X2 - x)(y - yi) + f (X2 ,У2) * (X - Xi )(y - yi) (X2 - Xi )(У2 - У) (Ж2 - Xi )(У2 - у) '
Результат работы метода интерполяции продемонстрирован на рис. 6.
3.2. Описание архитектуры СНС и ее обучение
Для распознавания знаков использовалась сверточная нейронная сеть LeNet-5, созданная Я. Лекуном [7]. Она устойчива к шуму и повороту, что делает ее пригодной для распознавании образов. Но при этом сеть не гарантирует хорошей точности распознавания по сравнению с другими методами распознавания, ее главная цель — выполнить распознавание с наименьшими временными затратами. LeNet-5 состоит из входного слоя, четырех внутренних и выходного (рис. 7). Входной слой представляет собой изображение размером 32 х 32 пикселя. Выходной слой представлен девятью классами знаков пожарной безопасности, установленных в здании ИПС им. А.К. Айламазяна РАН (таблица 1).
После обучения LeNet-5 на базе Signs ошибка обучения на 500-ой эпохе составила 6.234% (93.766% изображений, верно отнесенных к соответствующим классам).
□
"Г1 ^ jf-j
Подвыборка □
Свертка Подвыборка Свертка
Рис. 7. Архитектура СНС LeNet-5 Таблица 1. Примеры классов знаков (выборка 1)
Номер класса Имя класса Кол-во образцов Образцы классов
0 arrow l 120
1 arrow r 131
2 camera 30
3 don't smoke 16
4 fire stopper 70
5 pk 73
6 red circle 74
7 running boy 47
8 yellow triangle 106
АДЛА
3.3. Экспериментальные исследования
Для проведения эксперимента по выделению и распознаванию знаков пожарной безопасности использовался экспериментальный образец программного комплекса обработки изображений и потоковых данных (ЭО ПК ОИПД) [8]. ЭО ПК ОИПД предназначен для решения задач обработки изображений и потоковых данных с использовани-
Рис. 8. Результат работы алгоритма поиска и распознавании знаков пожарной безопасности (2 — camera, 3 — don't_smoke, 6 —red_circle)
ем гетерогенных вычислительных систем и визуализации данных. Программно-инструментальный комплекс состоит из набора программных модулей, каждый из которых решает определенную задачу.
Для проведения экспериментов была составлена тестовая выборка изображений со знаками пожарной безопасности (выборка 2). Тестовые изображения отличаются от изображений обучающей выборки. Их размер также составляет 32 х 32 пикселей, количество изображений выборки — 335. Процент верно распознанных изображений составил 75, 52%.
Далее производилось тестирование описанного алгоритма. Он реализован в виде цепочки модулей, соединенных входными и выходными каналами для обмена данными и возможностью графического отображения блок-схемы алгоритма и результатов работы.
Считанное входное изображение поступает на вход модуля сканирующего окна. В результате получается набор изображений, соответствующих указанному размеру окон. Далее изображения проходят процедуру масштабирования и подаются на вход СНС для распознавания. После применения описанного алгоритма к изображению, на нем прямоугольниками отмечаются найденные знаки пожарной безопасности (рис. 3).
Так как нейронная сеть с ошибкой относит фрагменты изображения к определенному классу, то следует произвести фильтрацию на
Таблица 2. Результат распознавания знаков пожарной безопасности
Имя класса Количество распознанных объектов с ошибкой error rate <= 0, 9
arror l 14
arror r 17
fire stopper 4
pk 3
yellow triangle 14
всего распознано 52
Не распознаны (error_rate > 0, 9) 12
Таблица 3. Результат распознавания выборок
Название выборки Кол-во изображений % распознавания
Обучающая выборка 667 87,6
Тестовая выборка 335 75,52
Изображения, найденные 64 81 25
алгоритмом '
основе значения ошибки. Вычисляется это значение экспериментально, например, для входного изображения на рис. 8 максимальное значение ошибки error_rate, относительно которой происходит фильтрация равно 0, 9.
Всего на вход алгоритма было подано 25 фотографий, сделанных в естественных условиях в помещении. На каждой фотографии содержится несколько знаков пожарной безопасности. В результате было обнаружено 64 объекта, предварительно считающихся знаками пожарно безопасности (выборка 3). В таблице 2 показаны результаты распознавания объектов.
В результате работы алгоритма выделения сканирующим окном и распознавания с использованием СНС найдено 64 объекта, 81, 25% из которых были верно отнесены к соответствующим классам, 18, 75% изображений были распознаны с ошибкой error_rate больше 0, 9. В таблице 3 представлены результаты распознавания изображений.
Заключение
Разработанный метод распознавания знаков пожарной безопасности включает в себя метод выделения целевого объекта на изображении, метод масштабирования с сохранением пропорций, классификацию объектов. В качестве входных изображений используются фото и видео кадры, полученные с камер, находящихся на борту БПЛА или ПТС. Достигнутые результаты позволят техническим средствам перемещаться по заранее неизвестному помещению без использования сигналов GPS/ГЛОНАСС, строить план исследуемого помещения, использовать распознанные знаки пожарной безопасности в качестве направляющих команд движения.
Список литературы
[1] В. А. Павлова, С. Н. Крюков, Р. К. Каркаева, М. В. Созинова. «Автоматическое компьютерное распознавание наземных и морских объектов», Известия ЮФУ. Технические науки,, 2010, №3, с. 73-77. f 318
[2] К. С. Амелин. «Метод ориентирования сверхлегкого БПЛА при редком обновлении данных о его местоположении», Стохастическая оптимизация в информатике, 10:2 (2010), с. 3-14. f 318
[3] M. Hirzer. Marker Detection for Augmented Reality Applications, Technical Report ICG-TR-08/05, Inst. for Computer Graphics and Vision, Graz University of Technology, Graz, Austria, 2008, 27 p., URL: http: //studierstube.icg.tugraz.at/thesis/marker_detection.pdf f
[4] N. Arshad, K.-S. Moon, S.-S. Park, J.-N. Kim. "Lane Detection with Moving Vehicles Using Color Information", Proceedings of the World Congress on Engineering and Computer Science. V. 1, WCECS 2011 (San Francisco, USA, October 19-21, 2011), 2011, pp. 499-502, URL: http://www. iaeng.org/publication/WCECS2011/WCECS2011_pp499-502.pdf f 319
[5] Н. Н. Красильников, Цифровая обработка 2D- и SD-изображений, Учеб. пособие, БХВ-Петербург, СПб., 2011, 608 с. f 321
[6] К. С. Маркелов. «Модель повышения информативности цифровых изображений на базе метода суперразрешения», Инженерный вестник, 2013, №3, с. 525-542. f 322
[7] Y. Le Cun, T. Bengio. "Convolutional Networks for Images, Speech, and Time Series", The Handbook of Brain Theory and Neural Networks, second ed., ed. M. A. Arbib, MIT Press, Cambridge, 2002, pp. 276-279. f 323
[8] A. Kondratyev, I. Tishchenko. "Concept of Distributed Processing System of Images Flow in Terms of ^-Calculus", 18th Conference of Open Innovations Association and Seminar on Information Security and Protection of Information Technology (FRUCT-ISPIT 2016) (ITMO University, Saint Petersburg, Russia, 18-22 April, 2016), pp. 131-137. f 324
Рекомендовал к публикации д.ф.-м.н. С. В. Знаменский
Пример ссылки на эту публикацию:
А. Е. Кирюшина. «Выделение и классификация знаков пожарной безопасности с использованием нейронных сетей», Программные системы: теория и приложения, 2016, 7:4(31), с. 317-329.
URL: http://psta.psiras.ru/read/psta2016_4_317-329.pdf
Об авторе:
Анна Евгеньевна Кирюшина
Инженер-исследователь Лаборатории методов обработки и анализа изображений Института Программных Систем имени А. К. Айламазяна РАН
e-mail: [email protected]
Anna Kiryushina. Fire safety signs detection and classification by applying neural network.
Abstract. The paper describes a method for detection of fire safety signs, taken from a photo and a video which are received from cameras standing on board of an unmanned aerial vehicle or mobile device. An algorithm of fire safety signs allocation by applying a scanning window is highlighted. Also the paper gives the results of convolutional neural network studying and of characters classifying. (In Russian).
Key words and phrases: UAV, mobile vehicle, image scaling, convolutional neural network, object recognition, scanning window, object classification.
References
[1] V. A. Pavlova, S.N. Kryukov, R. K. Karkayeva, M. V. Sozinova. "Automatic Target Recognition (ATR) of Ground Based and Sea Objects", Izvestiya YuFU. Tekhnicheskiye nauki, 2010, no.3, pp. 73-77 (in Russian).
[2] K. S. Amelin. "A Method for Ultralight UAV Orientation with Rare Updates of its Location Data", Stokhasticheskaya optimizatsiya v informatike, 10:2 (2010), pp. 3-14 (in Russian).
© A. E. Kiryushina, 2016
© Ailamazyan Program Systems Institute of RAS, 2016 © Program systems: Theory and Applications, 2016
[3] M. Hirzer. Marker Detection for Augmented Reality Applications, Technical Report ICG-TR-08/05, Inst. for Computer Graphics and Vision, Graz University of Technology, Graz, Austria, 2008, 27 p., URL: http://studierstube.icg.tugraz.at/thesis/marker_detection.pdf
[4] N. Arshad, K.-S. Moon, S.-S. Park, J.-N. Kim. "Lane Detection with Moving Vehicles Using Color Information", Proceedings of the World Congress on Engineering and Computer Science. V. 1, WCECS 2011 (San Francisco, USA, October 19-21, 2011), 2011, pp. 499-502, URL: http://www.iaeng.org/publication/WCECS2011/WCECS2011_pp499-502.pdf
[5] N. N. Krasil'nikov, 2D- and 3D-Digital Image Processing, Ucheb. posobiye, BKhV-Peterburg, SPb., 2011 (in Russian), 608 p.
[6] K. S. Markelov. "A Model for Improving an Image Quality by Using a Method of Image Super-Resolution", Inzhenernyy vestnik, 2013, no.3, pp. 525-542 (in Russian).
[7] Y. Le Cun, T. Bengio. "Convolutional Networks for Images, Speech, and Time Series", The Handbook of Brain Theory and Neural Networks, second ed., ed. M. A. Arbib, MIT Press, Cambridge, 2002, pp. 276-279.
[8] A. Kondratyev, I. Tishchenko. "Concept of Distributed Processing System of Images Flow in Terms of ^-Calculus", 18th Conference of Open Innovations Association and Seminar on Information Security and Protection of Information Technology (FRUCT-ISPIT 2016) (ITMO University, Saint Petersburg, Russia, 18-22 April, 2016), pp. 131-137.
Sample citation of this publication:
Anna Kiryushina. "Fire safety signs detection and classification by applying neural network", Program systems: Theory and applications, 2016, 7:4(31), pp. 317-329. (In Russian).
URL: http://psta.psiras.ru/read/psta2016_4_317-329.pdf