Научная статья на тему 'Нейросетевое распознавание трехмерных объектов на основе информации о пространственных координатах точек поверхности'

Нейросетевое распознавание трехмерных объектов на основе информации о пространственных координатах точек поверхности Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
1217
178
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕХНИЧЕСКОЕ ЗРЕНИЕ / СТЕРЕОСКОПИЧЕСКАЯ СИСТЕМА / РАСПОЗНАВАНИЕ ОБЪЕКТОВ / НЕЙРОННАЯ СЕТЬ / MACHINE VISION / PATTERN RECOGNITION / NEURAL NETWORK

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Глазков В. П., Егоров И. В., Лачугин Д. В.

Рассматривается подход к распознаванию трехмерных объектов с использованием искусственной нейронной сети прямого распространения, на основе данных о пространственных () координатах точек, принадлежащих поверхностям объектов. Предложена конструкция высокоскоростной стереоскопической системы технического зрения, позволяющая производить восстановление пространственных координат поверхности в режиме реального времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Глазков В. П., Егоров И. В., Лачугин Д. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORK PATTERN RECOGNITION OF THREE DIMENSIONAL OBJECTS BASED ON THE SPATIAL COORDINATES OF SURFACE POINTS

An approach for pattern recognition of three dimensional objects based on the spatial (x,y,z) coordinates of surface points using artificial feed-forward neural network is considered. The structure of high speed stereoscopic machine vision system with ability of operation in real time is proposed

Текст научной работы на тему «Нейросетевое распознавание трехмерных объектов на основе информации о пространственных координатах точек поверхности»

В.П. Глазков, И.В. Егоров, Д.В. Лачугин

НЕЙРОСЕТЕВОЕ РАСПОЗНАВАНИЕ ТРЕХМЕРНЫХ ОБЪЕКТОВ НА ОСНОВЕ ИНФОРМАЦИИ О ПРОСТРАНСТВЕННЫХ КООРДИНАТАХ

ТОЧЕК ПОВЕРХНОСТИ

Рассматривается подход к распознаванию трехмерных объектов с использованием искусственной нейронной сети прямого распространения, на основе данных о пространственных ( x,у, z ) координатах точек, принадлежащих поверхностям объектов. Предложена конструкция высокоскоростной стереоскопической системы технического зрения, позволяющая производить

восстановление пространственных координат поверхности в режиме реального времени.

Техническое зрение, стереоскопическая система, распознавание объектов, нейронная сеть

V.P. Glazkov, I.V. Egorov, D.V. Lachugin

NEURAL NETWORK PATTERN RECOGNITION OF THREE DIMENSIONAL OBJECTS BASED ON THE SPATIAL COORDINATES OF SURFACE POINTS

An approach for pattern recognition of three dimensional objects based on the spatial (x,y,z) coordinates of surface points using artificial feed-forward neural network is considered. The structure of high speed stereoscopic machine vision system with ability of operation in real time is proposed.

Machine vision, pattern recognition, neural network

В ряде задач робототехники (управление мобильными роботами, сборочными манипуляторами, для автономной навигации объекта) возникает необходимость в распознавании объектов, находящихся перед роботом.

Процесс распознавания объектов часто состоит из следующих этапов: 1) получение изображения; 2) предварительная обработка с целью улучшения качества; 3) сегментация изображения, то есть отделение объектов от фона и от других объектов, подлежащих распознаванию; 4) построение формальной модели распознаваемого объекта;

5) сопоставление модели с набором известных эталонов и принятие решения о принадлежности к определенному классу. Наряду с формализованными алгоритмами в задачах распознавания образов успешно применяются искусственные нейронные сети, позволяющие сделать вывод о принадлежности объекта к некоторому известному классу без построения формальной модели распознаваемого образа, что полезно, когда невозможно выделить и формализовать набор признаков, характеризующих объект. Существенная особенность нейронных сетей заключается в их обучаемости, т.е. способности установить зависимость между входными и выходными данными на основе конечного множества примеров, формируемого экспериментально.

Зрительная информация об объектах заключается в различиях в яркости отдельных участках сцены и успешность распознавания зависит от степени контрастности объектов

167

по отношению к фону и друг другу. В случае распознавания пространственных объектов, результат радикально зависит от освещения. Затененные, или наоборот, избыточно освещенные участки способны существенно исказить наблюдаемую картину, сделав распознавание трудно-осуществимым. Решение вопроса о построении системы технического зрения, инвариантной к освещенности сцены, может быть найдено в отказе от использования яркостной составляющей сцены и переходе к анализу пространственных координат точек, находящихся на поверхности распознаваемых объектов.

Предлагается использовать две последовательно включенные многослойные нейронные сети (3-5 слоев) прямого распространения с числом нейронов в каждом слое от 100 до 300. Число входов первой нейронной сети равняется N х M, где N и M -размерность матрицы координат точек поверхности объекта по длине (х) и ширине (у), элементами которой являются нормализованные высоты (2), подаваемые на вход нейронной сети. Количество выходов первой нейронной сети равняется числу известных классов объектов. Значение величины каждого выхода характеризует в первом приближении степень соответствия распознаваемого образа конкретному классу. Полученные значения уточняются с помощью второй нейронной сети, входными значениями которой служат величины на выходе первой сети.

Нормализация высот осуществляется разворотом системы координат, связанной с объектом относительно осей базовой системы координат так, чтобы ось Ъ базовой системы координат проходила через две наиболее удаленные точки объекта. Для надежного распознавания объекта независимо от ракурса, под которым он наблюдается, необходимо при формировании обучающего множества для нейронной сети связывать объект с 10 - 15 различными вариантами его отображения.

Вопрос об определении пространственных координат объекта и рельефа его поверхности в настоящее время находится в состоянии решения. Существенным недостатком известных методов является потребность в значительных вычислительных ресурсах, необходимых для восстановления рельефа поверхности методом корреляционного анализа изображений, полученных при помощи двух пространственно разнесенных камер. Методы восстановления трехмерного рельефа поверхности, основанные на поиске точек изображения, находящихся в фокусе, используют методы пирамид и Фурье-анализа [1], также являющиеся затратными с вычислительной точки зрения. Существуют и применяются методы анализа многофокусных изображений и выявления их морфологических свойств [2], но они требуют значительного времени для выполнения, таким образом, не могут быть применимы для оперативного восстановления рельефа поверхности. Кроме этого, также являются требовательными к

производительности вычислительного узла.

В связи с этим актуальной является задача разработки устройства, способного в реальном времени восстанавливать рельеф поверхности, имея ограниченную производительность вычислительного узла, сравнимую с мощностью микроконтроллера среднего семейства, а также оно должно справляться с сегментацией сцены и впоследствии приниматв решения при распознавании объектов.

Предлагается осуществлять восстановление

пространственных координат на основе

стереоскопической системы технического зрения с лазерной подсветкой, обеспечивающей высокую

помехозащищенность и независимость вычисления

координат от отражающей способности поверхности.

Применение лазерной подсветки представляется лучшим решением по сравнению со специальной структурной, т.к. не требует изменения структурного освещения при изменении ориентации и положения объекта.

Рис. 1. Общий вид устройства

Высокое быстродействие системы обеспечивается аппаратным способом вычисления координат пятна подсветки в локальных системах координат стереокамер, позволяющим восстановить координаты пятна подсветки синхронно с его разверткой по сцене. В результате заметно снижается вычислительная сложность, сводимая к обычным арифметическим вычислениям трехмерных координат подсвеченной точки. Таким образом, достаточной становится производительность микроконтроллера среднего семейства PIC или AVR (программный код, реализующий необходимые вычисления, также умещается в память данных МК).

Устройство состоит из двух частей: передающего блока и приёмного (рис. 1).

Передающее устройство (рис. 2) включает полупроводниковый лазер, излучающий модулированный по амплитуде луч, и систему развертки на основе зеркальной призмы, вращающейся на оси электромотора (горизонтальная развертка), и качающегося зеркала, которое осуществляет вертикальную развертку.

Приёмное устройство имеет четыре оптических преобразователя «координата пятна подсветки - код» и блок интерфейса с получателем информации. Все четыре преобразователя идентичны по конструкции и каждая пара обслуживает горизонтальную и вертикальную координаты соответственно.

Оптическая часть приёмного устройства (рис. 3) представляет двухлинзовый телескоп, преобразующий расходящийся поток лучей от удаленного объекта в параллельный поток лучей, с цилиндрической линзой, превращающей пятно подсветки произвольной формы в узкую вытянутую полоску. Данное преобразование, растягивая луч по одной координате, сохраняет его положение по другой координате, которая считывается линейкой фотоприёмников, установленной позади транспаранта с кодовой шкалой.

Рис. 2. Схема передающего устройства Рис. 3. Схема принимающего устройства

За основу предложенной оптической системы взят рефрактор Кеплера. Он дает перевернутое изображение, но это не представляет серьезных затруднений; обеспечивает расширенное поле зрения и большую яркость получаемого изображения.

Плоскость изображения представлена в виде прямоугольной пластины, которая представляет транспарант с кодовой шкалой (маска с кодом Грея), чередование прозрачных и непрозрачных участков на которой соответствует определенному коду и положению луча на плоскости данного шаблона. Расположение темных и светлых участков соответствует п-разрядному коду Грея, использование которого позволяет повысить надежность системы.

Получаемый с выходов линеек фотоприемников цифровой сигнал поступает в микроконтроллер, где производится расчет координат подсвеченной точки по формулам [3]:

г = л-лв Ах2 - х1), (1)

где 1- фокусное расстояние; х1, х2— координаты точки на изображении относительно объектива 1 и 2; В - базовое расстояние (стереобаза).

Соответственно координаты (X) точки в пространстве вычисляются относительно системы координат первого и второго объектива по формулам:

X, = X, (Л-2)11 и Х2 = х2 (Л-2)/Л.

(2)

На рис. 4 показана зависимость ошибки восстановления координат для семи - (а) и восьми битной (б) линейки фотоприемников при величине стереобазы (расстоянии между центрами объективов видеокамер) равной 80 мм.

Колебательный характер графиков вызван дискретностью линейки фотоприемников. Информацию о величине ошибки несёт огибающая графика. При бесконечно большой разрядности процесс имеет монотонно возрастающий характер.

Из рис. 4 следует, что предлагаемая система имеет хорошую точность в пределах 1 м (при неизменной величине стереобазы). Дальнейшее расширение стереобазы для увеличения точности нецелесообразно, т.к. резко уменьшает поверхность сцены, видимую одновременно двумя камерами. Увеличение точности устройства возможно при использовании камер со скрещенными оптическими осями, что позволяет повысить точность на малых расстояниях, но сокращает глубину пространства, в котором возможно восстановление координат.

м б Рис. 4. Погрешность определения координаты Т при разрядности: а - 7 бит; б - 8 бит

На рис. 5 приведена схема принципа работы системы. Передающий блок устройства проводит сканирование поверхности, подсвечивая точки сцены. Отраженные лучи от каждой рассматриваемой точки воспринимаются стереоскопической системой и, проходя через систему линз, регистрируются на линейках фотоприемников. Таким образом, синхронно с разверткой подсвечивающего лазерного модулированного луча по поверхности сцены осуществляется получение двумерных координат этих точек в локальных системах координат стереокамер. На основе регистрируемых данных по формулам (1) и (2) вычисляется третья составляющая координат для каждой точки, осуществляя пространственную реконструкцию поверхности сцены. После трехмерной реконструкции картина восстанавливаемой поверхности представляет собой набор узловых точек, которые, объединяясь между собой с учетом третьей координаты (составляющей Z), образуют сетчатые поверхности рассматриваемых объектов. В результате этого полученная картина перед стереокамерой не зависит от освещенности (затененности), от показателей яркостей и отражающей способности поверхностей.

Рис. 5. Принцип работы системы

После реконструкции информация передаётся в предварительно обученную нейронную сеть, которая принимает решения о принадлежности объекта одному из классов.

Характеристики оптической части системы

Первый конденсор Второй конденсор Цилиндрическая линза

R1, мм 20 R1, мм 20 R1, мм -200

R2, мм -20 R2, мм -105 R2, мм -18

D, мм 16,5 D, мм 11,5 d, мм 2

L, мм 3,8 L, мм 1,3 f, мм 32

l0, мм 1,2 l0, мм 0,8 lx, мм 18

f, мм 15,3 f, мм 30 ly, мм 13

Габариты (ДхШхВ), мм 115х18х18

Диапазон рабочего расстояния, мм 300..1000

Таким образом, к основным отличительным особенностям предложенной системы можно отнести следующие: инвариантность вычисления координат от отражающей способности поверхности, изменения яркости и освещенности; высокое быстродействие, которое обеспечивается аппаратным способом восстановления пространственных координат (за счет оптической части системы); использование нейронной сети для распознавания трехмерных объектов; автономность (устройство может быть использовано как отдельно, так и в сочетании с другими средствами очувствления роботизированного комплекса).

Результаты моделирования показывают принципиальную работоспособность предлагаемого устройства. В табл. 1 представлены основные геометрические

характеристики линз, при которых реализуются приведенные параметры всей оптической системы в целом.

Разрядность цифрового сигнала определяется размерами устройства и

возможностями фокусировки луча лазера на транспаранте. Для вышеприведённых размеров системы возможные значения составляют 7 - 8 бит.

ЛИТЕРАТУРА

1. Nayar S.K. Technical Report of Computer Science Columbia University / S.K. Nayar, M. Watanabe, M. Noguchi // CUCS-028-94.

2. Захарченко А. А. Морфологические методы анализа многофокусных

изображений / А.А. Захарченко // Математические методы распознавания образов : сб. докл. 12-й Всерос. конф. М.: МАКС Пресс, 2005.

3. Ту Дж. Стереоскопия / Дж. Ту, Р. Гонсалес. М.: Мир, 1978.

Глазков Виктор Петрович -доктор технических наук, профессор, заведующий кафедрой «Системы искусственного интеллекта» Саратовского государственного технического университета

Егоров Игорь Владимирович -кандидат технических наук, доцент кафедры «Системы искусственного интеллекта» Саратовского государственного технического университета

Лачугин Дмитрий Вячеславович -студент Саратовского государственного технического университета

Статья поступила в редакцию 01.11.10, принята к опубликованию 15.11.10

i Надоели баннеры? Вы всегда можете отключить рекламу.