УДК 001.57; 004,942; 681.77
И.В. Егоров, Д.В. Лачугин ОПТИМИЗАЦИЯ ПАРАМЕТРОВ СИСТЕМЫ ТЕХНИЧЕСКОГО ЗРЕНИЯ НА БАЗЕ ТРЕХ КАМЕР
Предложена модель стереоскопической системы технического зрения, состоящая из трех камер и позволяющая уменьшить ошибку восстановления пространственных координат. Рассматривается способ расчета оптимального сочетания параметров стереоскопической системы, используя возможности генетических алгоритмов.
Техническое зрение, стереоскопическая система, оптимизация параметров
I.V. Egorov, D.V. Lachugin
METHOD OF CHOOSING THE OPTIMAL PARAMETERS COMBINATION OF MACHINE VISION SYSTEM BASED ON THREE CAMERAS
The model of stereoscopic machine vision system based of three cameras with the ability to reduce the error recovery of spatial coordinates is proposed. An approach for method calculating the optimal combination of parameters stereoscopic system based on the possibility of genetic algorithms is considered.
Machine vision, stereoscopic system, parameters optimization
Разработка роботов, способных действовать при наличии препятствий в рабочей зоне или на траектории движения требует построения информационных систем высокого разрешения, позволяющих выявлять наличие препятствий и классифицировать их. Особенно важна способность системы анализировать пространственное расположение объектов в области действия робота. В настоящее время активно развиваются два направления в построении информационных систем, позволяющих определить пространственные координаты компонентов сцены: локационные (ультразвуковые, лазерные, радиочастотные) и стереоскопические системы технического зрения (СТЗ). Лазерные локационные системы обеспечивают высокие разрешение точность измерений, однако имеют в своем составе прецизионные механические и оптические компоненты, и, следовательно, дороги. Достоинствами стереоскопических СТЗ являются относительно низкая стоимость и возможность работы в пассивном режиме. Особенностью стереоскопической системы технического зрения является наличие двух (и более) видеокамер, разнесенных на некоторое расстояние друг от друга. Наиболее распространены двухкамерные системы с фиксированным расположением камер друг, относительно друга. К недостаткам стереоскопических СТЗ следует отнести худшую, чем у лазерных локационных систем точность и наличие участков сцены, попадающих в поле зрения только одной камеры (слепых зон), в которых невозможно восстановление пространственных координат точек сцены.
Характеристики системы зависят от ряда параметров: числа камер, их фокусных расстояний, углов обзора и взаимного расположения камер. В [1] рассмотрен вариант системы, состоящей из двух камер, со скрещенными оптическими осями. Скрещивание осей камер, при неизменных прочих параметрах, сокращает глубину области стереоскопического зрения,
при одновременном уменьшении слепой зоны, минимизируя, таким образом, погрешность вычисления пространственных координат. В рассмотренном случае, погрешность не превышала 2%. В свою очередь, для компенсации уменьшения глубины поля зрения и увеличения рабочей области пространства использовалось сочетание двух систем камер. Однако увеличение числа пар камер пропорционально удорожает устройство. Подбор оптимальных параметров системы (числа камер, их разрешающей способности, углов скрещивания, фокусных расстояний, расстояния между центрами объективов камер) позволит получить максимальную точность определения пространственных координат при допустимой сложности и цене устройства.
Для минимизации числа камер представляется целесообразным использовать стереоскопическую СТЗ на базе трех разнесенных в пространстве камер (рис. 1). Каждая камера имеет смещение относительно начала координат (dx, dy), а также способна поворачиваться на определенный угол вокруг осей Хи Y (ак, (Ху ). Таким образом, достигается скрещивание осей камер.
Рис. 1. Схема модели стереоскопической СТЗ Рис. 2. Схема стереоскопической СТЗ
на базе трех камер со скрещенными осями пары камер
Областью наиболее точного восстановления координат является та часть пространства, которая находится в поле зрения всех трех камер и определяется как пересечение конусообразных областей поля зрения от каждой из камер (рис. 3).
Принципиальным отличием данной схемы является то, что в результате её использования получаем три системы из двух камер, наблюдающих объект исследования под разными углами обзора. Стереоскопическое зрение будет иметь место в тех областях пространства, которые попадают в поле зрения хотя бы двух камер. Таким образом, каждая из трех пар камер может определять пространственные координаты точек объекта со своей погрешностью, а общая ошибка определения координат снизится за счет усреднения по трем системам.
Каждая система из двух камер со скрещивающимися осями имеет схему, показанную на рис. 2. Относительно собственных систем координат камеры смещены вдоль оси X на рас-
Рис. 3. Пересечение полей зрения в системе трех камер
стояние (Ь /2) правая и (—Ь /2) - левая. Затем повернуты вокруг оси У на угол (а/2) - правая камера и на (—а/2) - левая. Каждая пара камер имеет слепые зоны - области пространства, точки в которых не регистрируются ни в одной из камер стереоскопической системы. Наиболее значимой является слепая зона непосредственно перед системой камер, между объективами.
Также при расчете необходимо учитывать глубину резко изображаемого пространства (глубину резкости), т.е. расстояние между ближней и дальней границами пространства, измеренное вдоль оптической оси, при нахождении в пределах которого объекты находятся в фокусе (на снимке получаются достаточно резко). Размеры пятен рассеяния образующих изображение, в частности, зависят от расстояния точек объекта до плоскости наведения. Чем больше диаметр такого пятна, тем полученное изображение объекта менее резкое. Однако, точки предметов, расположенных вне плоскости наведения, могут изображаться достаточно резко, если диаметры соответствующих пятен рассеяния не превышают определённых величин.
Для расчета глубины резкости применяются следующие формулы:
Я1 = Я/2 /[ /2 + К (Я — /) г], я 2 = Я/2 /[ /2 — К (Я — /) г], где Я1 - передняя граница резко изображаемого пространства, м; Я 2- задняя граница резко изображаемого пространства, м; Я - расстояние, на которое производится наводка на резкость, м; / - абсолютное фокусное расстояние объектива, м; К - число диафрагмы (знаменатель относительного отверстия объектива, в расчете принят равным 8); г - диаметр диска размытости (принимается равным 0,03-0,05 мм), м.
Таким образом, глубина резко изображаемого пространства определяется разностью между задней и передней границами резкости: Р = Я 2 — Я1. И можно сделать вывод, что глубина резкости тем больше, чем меньше величина главного фокусного расстояния и чем дальше расположена плоскость наводки (однако в данной системе требуется обеспечивать работоспособность на ближних расстояниях, поэтому данный параметр является ограничением). Также влияние оказывает размер светочувствительной матрицы и значение установленной диафрагмы.
В фокальной плоскости каждой камеры формируется двумерное изображение наблюдаемого объекта. Восстановление пространственных координат некоторой точки наблюдаемого объекта, попавшей в поле зрения пары камер, выполняется по формулам
х =— / ■ (*1 + *2)■(Ь — 2• / ■ 81и(а/2)) ;
2 ■ ((/2 + х1 ■ х2) ■ 8т(а) + / ■ ео8(а) ■ (х1 — х2)) ’
У = 2/ ■ х2 ■ у1 ■ 8т(а) + /2у1 ■ 8т(а) + Ь ■ у1 ■ (/ ■ (28т(а/2)2 — 1) — х2) _
= (/2 + х1 ■ х2) ■ 8т(а) + / (х2 — х1) ■ (28т(а/2)2 — 1) ;
= Ь/2 (ео8(а) +1) + 2/2 (х1 — х2) ео8(а/ 2) + Ь ■ х1 ■ х2 ■ (ео8(а) — 1) + 4/ ■ х1 ■ х2 ■ 81и(а/ 2) — Ь/(х1 + х2) 81и(а)
2 ■ ((/2 + х1 ■ х2) ■ 81и(а) + / ■ ео8(а) ■ (х1 — х2)) где X, У, X - координаты выбранной точки в базовой системе координат; х1, у1, х2, у2 - локальные координаты в системе координат первой и второй камер соответственно; Ь - величина стереобазы; / - фокусное расстояние камер; а - угол скрещивания осей камер. Использование вышеприведенных формул подразумевает, что сопоставление пар точек на изображении объекта в первой и второй камере уже выполнено, метод сопоставления находится за рамками данной статьи.
Итак, сформулируем задачу оптимизации: целью является подбор параметров камер стереоскопической системы, обеспечивающий наилучшее соотношение критериев (максимизация видимого пространства и минимизация слепого пятна при соответствии установленным критериям точности).
В качестве варьируемых параметров принято: смещение каждой камеры по осям X и У, величина фокусного расстояния и угол поворота оптических осей камер, относительно
осей координат X и У при наличии ограничений снизу на глубину резкости. В математическом смысле задача сводится к минимизации функции нескольких переменных.
К основным характеристикам оптической системы, которые не будут изменяться в процессе оптимизации параметров, относятся количество точек матрицы принимающего устройства и линейные размеры принимающей матрицы. В процессе расчетов эти значения приняты равными 128 точек и 2,34 см, соответственно.
Применительно к мобильному роботу, для обеспечения компактности системы камер, представляется целесообразным ограничить базовое расстояние между камерами стереопары 0,05 м на нижней границе диапазона и 0,5 м - на верхней. Для углов скрещивания камер частным случаем будет ситуация, когда оси объективов направлены параллельно, поэтому нижней границей диапазона будет угол 0°. В качестве верхней границы принято значение 60°. Диапазон изменения фокусного расстояния принят от 2 см до 10 см.
Для решения поставленной задачи использована целевая функция вида W№1, 1у 1, ах1, ау1, /1) = к1 • V (1x1, 1у 1, ах1, ау1, /1) - к2 • О(1х1, 1у 1, ах1, ау1, /1), где <1x1, 1у1 - смещение первой пары камеры по осям Х и У; ах1,ау1 - углы скрещивания; /1 - фокусное расстояние; О - глубина слепой зоны; V - объем видимой камерами области; к1, к2 - весовые коэффициенты, устанавливающие важность параметров V , 1П и их влияние на целевую функцию (подбираются из условия к1 + к 2 = 1). Развернутый вид целевой функции не приводится по причине крайней громоздкости.
При использовании в стереоскопической системе трех пар камер, целевая функция сохраняет свой вид. Отличие заключается в том, что ЦФ распространяется на большее количество переменных, чтобы охватить все пары камер.
Особенностью подобной функции многих переменных является большое количество локальных минимумов. В связи с этим, классические алгоритмы минимизации не дают должного эффекта. Представляется целесообразным применить двухэтапный алгоритм оптимизации, основанный на использовании генетических алгоритмов [2], совместно с классическим алгоритмом оптимизации. На первом этапе поиск минимума осуществляется при помощи генетического алгоритма, результатом его функционирования является набор локальных минимумов, расположенных вблизи глобального минимума. На втором этапе целевая функция минимизируется алгоритмом, имеющим хорошую сходимость для гладкой целевой функции. При этом значения целевых переменных, полученные на первом этапе, используются в качестве начальных приближений. Из полученных значений выбирается лучшее. Подобный подход позволяет получить лучшее приближение к глобальному минимуму, по сравнению с одноэтапной минимизацией целевой функции.
На рис. 4 представлен горизонтальный срез через середину области, наблюдаемой камерами стереоскопической системы, представляющий собой график погрешности определения пространственных координат. Из него видно, что система трех камер с оптимизированными параметрами на расстоянии от 1 до 2,5 метров обеспечивает относительную погрешность на уровне 1,5%. Для
Рис. 4. График точности определения пространственных координат в области видимой тремя камерами (горизонтальный срез)
сравнения, график погрешности восстановления координат системой на базе двух камер приведен на рис. 5. Из рисунка видно, что абсолютная погрешность находится на уровне
0,12 - 0,2 м, что соответствует 5-8% относительной погрешности. Рис. 6 отображает область пространства, находящейся в поле зрения всех камер, и объекты в которой способны резко изображаться системой.
3 -0.5
Рис. 5. График точности определения пространственных Рис. 6. Объем области, видимой
координат в области, видимой системой из двух камер системой из трех камер
Анализ результатов расчета позволяет сделать вывод, что СТЗ на основе трех камер со скрещенными осями позволяет добиться существенно лучшей точности восстановления координат по сравнению со стереоскопической СТЗ на базе двух камер, имея при этом существенно меньшую слепую зону.
ЛИТЕРАТУРА
1. Егоров И.В., Лачугин Д.В. О выборе оптимального сочетания параметров системы технического зрения на базе четырех камер. ММТТ-24 : сб. трудов XXIV Междунар. науч. конф. Т.6. Киев: Национ. техн. ун-т Украины «КПИ», 2011. С.144-146.
2. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы: Пер. с польск. И. Д. Рудинского. М .: Горячая линия - Телеком, 2006. 452 с.
Егоров Игорь Владимирович -
кандидат технических наук, доцент кафедры «Системы искусственного интеллекта» Саратовского государственного технического университета имени Гагарина Ю.А.
Лачугин Дмитрий Вячеславович -
аспирант кафедры «Системы искусственного интеллекта» Саратовского государственного технического университета имени Гагарина Ю.А.
Статья поступила в редакцию 16.02.12, принята к опубликованию 12.03.12