УДК 004
О ФОРМАЛИЗАЦИИ ПОНЯТИЙ И ТЕРМИНОЛОГИИ ПРИ АНАЛИЗЕ ИЗОБРАЖЕНИЙ ОБЪЕКТОВ
Е.П. Доморацкий,
д-р техн. наук, профессор,
Московский институт электроники и математики национального исследовательского университета «Высшая школа экономики» E-mail: [email protected]
Т.Н. Байбикова,
Московский институт электроники и математики национального исследовательского университета «Высшая школа экономики» E-mail: [email protected]
Аннотация. В статье рассматривается употребление терминов и понятий в области обработки изображений, а также выделяются основные группы признаков, используемых при распознавании изображений объектов и их образов.
Ключевые слова: объект, изображение, образ, распознавание образов, признаки изображений, параметры изображений, виды изображений.
Abstract. The paper studies the question of using terms in digital image processing and specifies main groups of characteristics used in recognition of objects and images of objects.
Keywords: object, image, image recognition, image features, kinds of images.
В настоящее время для получения точной и достоверной информации об объектах различной физической природы широко применяются информационные технологии получения, обработки и анализа их изображения. При этом употребляемые термины должны точно соответствовать их смыслу. Однако в различных областях знаний и соответствующей литературе часто используются одинаковые или взаимозаменяемые термины, имеющие иногда разный смысл. Это приводит к искажению смысла понятий, неоднозначности и путанице. Несоот-
ветствие терминов и их смысла особенно вредно в литературе учебного назначения.
В данной работе рассмотрены следующие ключевые понятия, определения и термины из области анализа изображения: объект; изображение; образ; распознавание образов; признаки изображений; параметры изображений; виды изображений.
ПОНЯТИЕ «ОБЪЕКТ»
Одно из определений объекта в словаре Т.Ф. Ефремовой: явление, предмет, на который направлена какая-либо деятельность [1].
В философском энциклопедическом словаре имеется следующее определение: объект (от лат. о^есШш - предмет) - в самом широком смысле то, на что направлено индивидуальное или коллективное сознание [2]. Объектом является все, что воспринимается, воображается, представляется или мыслится.
После И. Канта объектом часто называют то, что противостоит субъекту, его сознанию как часть внешнего мира, т.е. реальный объект [2].
В словаре компьютерных терминов: объект - одна из составных частей компьютерного графического изображения [3].
В области объектно-ориентированного программирования объект определяется как осязаемая реальность, проявляющая четко выделяемое поведение [4, с. 92]. С точки зрения восприятия человеком, объектом может быть [4, с. 92]:
■ осязаемый и (или) видимый предмет;
■ нечто, воспринимаемое мышлением;
■ нечто, на что направлена мысль или действие.
Далее выделяется важная особенность программного объекта: объект моделирует часть окружающей действительности и, таким образом, существует во времени или в пространстве (реальный объект занимает место в пространстве, программный объект занимает место в оперативной памяти).
Итак, понятие «объект» имеет тесную связь с понятием «предмет». Первоначально под объектом понималось нечто реально существующее, воспринимаемое с помощью органов чувств, занимающее место в пространстве, обладающее набором характерных для данного объекта признаков. Далее под объектом стали также понимать продукт мыслительной деятельности. С развитием технологий объектно-
ориентированного программирования данное понятие приобрело черты, присущие абстрактным понятиям, но в целом его семантика заключается в том, что объект - это то, на что направлена мысль или действие, то, что воспринимается мышлением, и т.п. Реальный объект занимает место в пространстве, программный объект занимает место в оперативной памяти, абстрактный объект воспринимается мышлением. Общим является то, что на объект направлено внимание, он выделяется каким-либо образом из окружающего мира, обладает набором характерных для него свойств (атрибутов, параметров).
С появлением и развитием компьютерных и цифровых технологий объект стал также пониматься как часть составного компьютерного графического изображения. Данное определение, по мнению авторов, является неточным, так как не дает представления о том, о какой части графического изображения идет речь, а также о том, по какому признаку выделяется часть изображения из целого.
Более понятным представляется понимание объектов (представленных с помощью цифровых технологий) как относительно небольших локальных (специфических) областей, появление которых может произойти в любой точке изображений [5, с. 602]. В данном случае говорят об объектах на изображениях.
Таким образом, объект (субъект, процесс) можно определить как существующую в природе реальность с набором определенных информационных многомерных признаков (свойств), характеристик (параметров), не зависящую от наличия систем получения (восприятия) этих признаков.
Принимая во внимание причинно-следственные связи, рассматриваемые ключевые понятия можно расположить в следующей логической последовательности: объект - система получения изображения - изображение - система обработки изображения - система анализа изображения - образ - распознавание образа - моделирование объекта (или какого-нибудь его свойства) как процедуры синтеза.
ПОНЯТИЕ «ИЗОБРАЖЕНИЕ»
Изображение - объект, образ, явление, в той или иной степени подобное (но не идентичное) изображаемому, или сам процесс их создания. Подобие достигается вследствие физических законов получения изображения (например, оптическое изображение) либо как результат
труда создателя изображения (например, рисунок, живопись, скульптура, сценический образ).
Изображение согласно Ефремовой Т.Ф. [1] - то, что изображено (рисунок, скульптура, фотография и т.п.).
Изображение согласно ГОСТ [6] - совокупность примитивов вывода и (или) сегментов, которая может быть одновременно выведена на поверхность визуализации. Здесь под термином сегмент понимается совокупность примитивов вывода, которой можно манипулировать как единым целым.
Закодированное изображение - представление изображения в форме, удобной для хранения и обработки при помощи ЭВМ.
Таким образом, в приведенных выше определениях изображения отобразились следующие аспекты данного понятия:
■ изображение представляет собой некое подобие реально существующего объекта, причем и сам объект, и его изображение могут восприниматься с помощью органов чувств (зрение, слух) или их технических аналогов. Созданное подобие физически может быть также объектом реального мира, а может быть представлено в абстрактном (виртуальном) виде.
■ изображение зависит от физической природы систем восприятия (регистрирующих систем) - таких, как глаза человека или регистрирующие датчики. В зависимости от системы восприятия (регистрирующей системы) изображение может быть сохранено и, следовательно, обработано и воспроизведено впоследствии или может восприниматься одномоментно, без возможности последующего сохранения, обработки и воспроизведения.
■ в области вычислительной техники под изображением, с одной стороны, понимают совокупность примитивов вывода, что принято в системах обработки векторной графики (машинной графики), т.е. в системах, работающих с графическими примитивами (точка, линия, полигон и т.п.); с другой стороны, под изображением понимают двумерное представление яркости и текстуры, что принято в системах обработки растровой графики (при обработке сложных объектов, которые нельзя воспроизвести достаточно реалистично только с применением графических примитивов). В этом случае объектом обработки являются оцифрованные фотографии, рисунки и т.п.
■ в зависимости от того, является ли само изображение также объектом (например, картина, скульптура могут изображать реально суще-
ствующие объекты), или изображение представлено в закодированном виде и должно воссоздаваться по какому-либо заранее предписанному правилу, изображение может иметь качественно различный набор свойств. В области вычислительной техники используются закодированные изображения, что позволяет представить их в форме, удобной для хранения, обработки и воссоздания при помощи ЭВМ. Таким образом, мы можем говорить о воссоздаваемых изображениях.
Компьютерное изображение - массив чисел [5. с. 13].
Предположим, что у нас имеется объект, освещенный источником света. На некотором удалении от объекта энергия светового излучения, отраженного объектом, будет распределена по закону, описываемому функцией: С(х1, х2, X), где х1 и х2 — пространственные координаты, а X - длина волны.
Так как фоторегистрирующая среда имеет конечные размеры, а формирующая система имеет определенные характеристики, то геометрические размеры формируемого изображения будут занимать некую прямоугольную область.
Так как и в том случае, когда объект наблюдается человеком, и в том случае, когда для регистрации объекта применяется видеодатчик, наблюдаемое изображение является результатом усреднения функции С(х1, х2, X) по диапазону волн с весовой функцией $(к), где $(к) описывает спектральную чувствительность зрения человека или видеодатчика. Таким образом, наблюдаемое изображение описывается следующим выражением:
где X = 0,35 мкм и Хтах = 0,78 мкм определяют чувствительность человеческого глаза к свету.
Функция_Дх1, х2) называется изображением [5, с.14].
Изображение - разновидность сигнала [8, с. 5]. Изображение как функция двух переменных представляет собой один из наиболее сложных видов сигналов, причем временной поток изображений позволяет в общем случае получить информацию как о расположении в пространстве окружающих объектов и их характеристиках, таких, как размеры, форма, поверхность, так и об их взаимных перемещениях.
Изображение согласно ГОСТ [7] - двумерное представление яркости и текстуры объекта в определенных условиях освещения.
В зависимости от используемых пространственных частот изображения можно разделить на следующие виды:
■ оптические изображения (визуально-оптические и фотографические);
■ оптико-электронные (телевизионные и инфракрасные);
■ радиоэлектронные изображения;
■ тепловые;
■ гидроакустические;
■ акустические и т.п.
ПОНЯТИЕ «ОБРАЗ»
Философское определение образа: результат и идеальная форма отражения предметов и явлений материального мира в сознании человека [9].
Одно из определений образа из словаря Т.Ф. Ефремовой: наглядное изображение какого-либо явления через другое, более конкретное; сравнение, уподобление [1].
Более подходящим в контексте данной работы представляется следующее определение. Образ - структурированное описание изучаемого объекта или явления, представленное вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих соответствующий объект.
В работе [7, с. 81] приводится аналогичное определение: любой физический объект обладает набором некоторых свойств, которые позволяют отличать один объект от другого. Совокупность свойств, описывающих конкретный объект, называется образом данного объекта.
В целом понятие образа носит более абстрактный характер, чем понятие изображения, т.к. образ может быть не только в виде реально существующего объекта, но и как отражение реального мира в сознании человека. Если для изображения характерно подобие, то для образа характерно уподобление, что подразумевает возможность не полного подобия. Таким образом, появляется возможность передать информацию об одном предмете через его сходство с другим. Данное различие нашло свое отражение и в определении понятия образа, применяемого
в вычислительной технике. Здесь понятие «образ» рассматривается как структурированное описание объекта или явления в виде вектора признаков.
Таким образом, хотя понятия «изображение» и «образ» имеют много общего, между тем, некоторые существенные различия в их семантике все же имеются.
Таким образом, термины изображение, образ, объект часто используются как взаимозаменяемые, что не всегда верно.
Следовательно, под образом целесообразно понимать структурированное описание изучаемого объекта или явления, представленное вектором признаков, каждый элемент которого представляет числовое значение одного из признаков, характеризующих соответствующий объект [1].
Таким образом, изображение является вторичным по отношению к объекту и отражает только часть его свойств, которые определяются возможностями системы получения изображений (решение прямой задачи). А образ - это представление каких-либо свойств объекта, полученных на основе обобщения свойств изображений. В логическом смысле это процедура синтеза (решение обратной задачи). Например, получение трехмерного геометрического изображения объекта по его проекциям (томография).
ПОНЯТИЕ «РАСПОЗНАВАНИЕ ОБРАЗОВ»
Распознавание образов - установление принадлежности некоторого объекта (предмета, процесса, явления, ситуации, сигнала) к одному из заранее выделенных классов объектов (образу) [10]. Процесс распознавания основан на сопоставлении признаков, характеристик исследуемого объекта с признаками, характеристиками других известных объектов, в результате чего делается вывод о наиболее правдоподобном их соответствии.
Распознавание представляет собой информационный процесс, реализуемый некоторым преобразователем информации (интеллектуальным информационным каналом, системой распознавания), имеющим вход и выход [11]. На вход системы подается информация о том, какими признаками обладают предъявляемые объекты. На выходе системы отображается информация о том, к каким классам (обобщенным образам) отнесены распознаваемые объекты.
МОСКОВСКИЙ ФИНАНСОВО-ЮРИДИЧЕСКИЙ УНИВЕРСИТЕТ МФЮА
В некоторых задачах изображение рассматривается как источник информации (в медицине, криминалистике и т.п.) [5, с. 251]. В этих случаях образом является само изображение. По этой причине термины «распознавание образов» и «распознавание изображений» стали использоваться как синонимы, что часто приводит к неточному пониманию излагаемого материала, т.к. по существу эти понятия не являются полными синонимами.
При этом распознавание образов заключается в классификации изображений на основе определенных требований.
Распознавание - отнесение предъявляемых объектов к определенным классам с помощью применения известных правил классификации [12]. Это наиболее типичная задача систем распознавания. Перед тем как система сможет выполнить данную функцию, предполагается ее обучение на множестве примеров - обучающей выборке объектов распознавания. При этом применяется процедура т.н. обучения с учителем.
Здесь появляется термин «класс». Под классом понимается обобщенный образ группы объектов, объединенных по определенным признакам.
Термин «класс» - некоторая совокупность образов, называемых элементами класса, обладающая рядом близких свойств [8, с. 81]. Измеряемые или вычисляемые свойства объектов, позволяющие отличить классы друг от друга, называются признаками.
Классификация (таксономия) - разбиение множества объектов на непересекающиеся классы по их формализованным описаниям [12]. Данная задача решается в тех случаях, когда от системы не требуется отнесения входных образов к каким-либо определенным классам, а требуется лишь способность различать их каким-либо способом по определенным признакам. Можно говорить об оперировании безымянными классами объектов. Для обеспечения решения задачи классификации часто используется процедура обучение без учителя.
Результатом распознавания каждого объекта является распределение или список всех классов распознавания в порядке убывания степени сходства распознаваемого объекта с этими классами.
Таким образом, в приведенных выше определениях понятий «распознавание» и «распознать» отобразились следующие аспекты данных понятий:
■ распознать - значит сопоставить (сравнить) объект, имеющий определенные признаки, с группой других объектов (с признаками дру-
гих объектов). При этом необходимо принять решение о том, идентичны они или нет;
■ информация о признаках может быть известна заранее или извлекаться на этапе предварительной обработки.
В работе [8, с. 99] говорится о распознавании объектов по их изображениям, а в работе [5, с. 601] то же понятие обозначается как распознавание объектов на изображениях.
В целом распознавание на изображениях подразделяется на две группы задач [5, с. 601]:
■ распознавание или классификация изображений;
■ поиск (обнаружение) и распознавание объектов на изображениях.
В первой группе распознавание или классификация производятся
для всего изображения целиком.
В задачах второй группы производится поиск распознаваемых геометрических объектов на всей области наблюдения. Под объектами понимаются относительно небольшие локальные области, появление которых может произойти в любой точке изображений [5, с. 602].
В области программирования под изображением преимущественно понимается отображение объектов реального мира, представленных в виде рисунков, графиков, фотографий и т.п. и хранимых в оцифрованном виде в памяти ЭВМ. Для хранения данного вида графической информации используются такие форматы файлов, как bmp, jpg, gif и т.п. Таким образом, мы имеем оцифрованное изображение в каком-либо графическом формате.
Изменение или интерпретация уже существующих изображений, таких, как фотография, рисунок (или, к примеру, видеопленки), называются обработкой изображений. Методы обработки изображений применяются для улучшения качества фотографии или рисунка, для их анализа, распознавания визуальных шаблонов и т.п. [13, с. 69].
Компьютерная обработка изображений включает в себя получение дискретного изображения, его передачу, хранение, преобразование и отображение [8, с. 9], а также синтез (генерирование) изображений. Изображения по способам получения можно разделить на два основных класса - изображения реальных сцен и синтезированные изображения. Синтезированные (генерированные) изображения иногда делят на графические (графики, чертежи, картинки, рисованные мультфильмы) и квазиреальные (статический и динамический виртуальные миры). Такое изображение должно быть описано определенным образом, а за-
тем создано по его описанию. Причем предполагается создание максимально приближенного к реальности изображения на основе некоторой модели виртуального мира с учетом формы, геометрических размеров и характеристик поверхности объектов, составляющих сцену, а также расположения и свойств источников освещения.
Для получения синтезированных изображений используются различные графические среды. Для получения изображения реальных сцен используют цифровые фото- и видеокамеры, а также такие устройства, как сканеры, которые позволяют вводить в компьютер изображения с плоских носителей, например, с бумаги.
Синтезированные и реальные изображения отличаются способом их представления в памяти компьютера. Первые хранятся в векторной форме, для которой указываются свойства отдельных примитивов, составляющих изображение, а вторые - в растровой форме, для которой указывается код цвета каждой точки изображения. Для изображений, хранящихся в растровой форме, применимы методы растровой компьютерной графики.
Поскольку алгоритмы обработки изображений являются составной частью алгоритмов распознавания изображений, то во многом их методы схожи.
Несмотря на то, что области обработки векторных и растровых изображений связаны с фундаментально различными действиями (обработка существующего изображения и создание нового), методы, которые применяются в данных случаях, довольно часто пересекаются.
При решении задач распознавания необходимо уметь выделять признаки, характерные для того или иного объекта и для его образа.
ОСНОВНЫЕ ГРУППЫ ПРИЗНАКОВ, ИСПОЛЬЗУЕМЫХ
ПРИ РАСПОЗНАВАНИИ ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ
Для описания и распознавания изображений используется ряд признаков [5, с. 269-275; 8, с. 106-109]:
1. Геометрические признаки.
В том случае, если на изображении представлены геометрические объекты, то можно выделить:
■ геометрические размеры объекта по горизонтали или по вертикали;
■ число пикселей в каждой строке и столбце;
■ расстояние между наиболее удаленными точками;
■ периметр объекта (длина контура изображения в пикселях);
■ площадь объекта (число пикселей на изображении, которые отнесены к объекту, например, на этапе сегментации);
■ компактность объекта (соотношение между его площадью и периметром);
■ параметр формы изображения: к = L2 /Б, где L - длина контура, Б - площадь;
■ числовые характеристики описанных вокруг объекта или вписанных в объект фигур (окружности, прямоугольники и т.д.);
■ признаки, связанные с представлением геометрии контура объекта.
Достоинства: инвариантность к преобразованиям подобия.
Недостатки: низкая помехоустойчивость.
2. Топологические признаки.
Под топологическими свойствами объекта понимаются свойства, инвариантные к топологическим или гомеоморфным отображениям.
Примеры топологических характеристик:
■ число экстремальных точек контура;
■ число связных компонентов объекта - таких компонентов, составляющих объект, в каждом из которых любые две точки можно соединить линией, полностью принадлежащей компоненту;
■ число отверстий и их взаимное расположение;
■ число Эйлера - находится как разность между числом связных компонентов объекта и числом отверстий.
Топологические признаки инвариантны к таким геометрическим преобразованиям, как преобразования подобия, аффинные преобразования и др.
Достоинства: инвариантность к геометрическим преобразованиям.
Недостатки: чувствительны к искажениям. Данные признаки неинформативны к различиям в геометрической форме объекта, а также сложны в нахождении.
3. Вероятностные признаки.
При описании функции яркости на изображении ее рассматривают как реализацию случайного (стационарного) процесса или процессов (для случайных изображений).
Признаками изображения являются числовые характеристики случайного процесса.
К данной группе признаков относят:
■ яркостные характеристики. Такие, как гистограмма распределения значений яркости на изображении, начальные и центральные моменты функции яркости; среднее значение функции яркости.
■ текстурные характеристики изображения. Характеристики случайного процесса, определяющие его корреляционные свойства: коэффициент корреляции на изображении, корреляционная функция изображения и т.д.
■ энергетические характеристики изображения. Сюда входят отсчеты энергетического спектра.
■ признаки стохастической геометрии.
Данные признаки характеризуют случайные величины, связанные с наступлением каких-либо геометрических событий. Например, если на плоскость изображения поместить прямую линию случайным образом, то такими признаками могут быть число пересечений линии (линий) с контуром объекта. Максимальная или минимальная длина отрезка линии, попадающего внутрь объекта, и т.п.
Достоинства:
■ инвариантность к смещениям и положению изображения, а в некоторых случаях может быть достигнута инвариантность к масштабу;
■ высокая помехоустойчивость;
■ достаточно простая автоматизация процесса наращивания таких признаков.
Недостатки:
■ высокая вычислительная сложность расчета;
■ отсутствие явной геометрической интерпретации получаемых значений признаков.
4. Спектральные признаки.
В данную группу признаков входят признаки, процесс получения которых использует спектральную модель преобразования изображений.
В [5, с.271] выделены следующие основные преобразования:
■ разложение Карунена-Лоэва;
■ Фурье-преобразование (Фурье-признаки изображения) позволяет получить спектр изображения, характеризующий его на различных пространственных частотах;
■ косинусное преобразование (косинусные признаки);
■ преобразование Радона. Позволяет перевести линейные объекты, присутствующие на изображении, в точечные объекты в пространстве признаков (в образ);
■ полиноминальные моменты и т.п.
ВЫВОДЫ
Имеется определенная связь между изображением и образом. Изображение может содержать в себе один или более образов. Также возможна ситуация, когда изображение не содержит в себе ни одного образа.
Понятие изображения является более общим, более широким, чем понятие образа. Методы обработки образов являются подмножеством методов обработки изображений. Методы обработки изображений являются более широким набором методов, чем методы обработки образов.
Образ содержит количественную информацию, уже измеренную определенным способом. Изображение содержит:
■ качественную информацию, которую можно измерить при необходимости нахождения образа;
■ изображение создается для отображения информации об образе по уже известным характеристикам образа.
Выбор алгоритма распознавания образов зависит как от самого образа, так и от наличия информации о распознаваемом образе.
В том случае, если известно заранее, что распознаваемое изображение может содержать информацию, относящуюся к определенной предметной области, то встает задача формализации данной предметной области.
В том случае, если область является формализуемой, возможны выделение обобщенных классов объектов, принадлежащих данной предметной области, и выделение существенных признаков объектов, которые в нее включены.
Таким образом, задача распознавания может быть сведена к тому, что распознаваемое изображение проверяется на наличие определенных признаков или их комбинации, после чего принимается решение, к какому классу отнести данное изображение, и, в случае принятия решения, задача распознавания считается завершенной.
На выходе системы может быть предложен ряд классов, к которому возможно отнести объект, с указанной вероятностью того, что объект принадлежит этому классу.
Таким образом, рассмотренные термины в области анализа изображения должны соответствовать понятиям, рассмотренным выше.
ЛИТЕРАТУРА
1. Ефремова Т.Ф. Толковый словарь словообразовательных единиц русского языка. - М., 1996.
2. Философия: Энциклопедический словарь / Под ред. А.А. Иви-на. - М., 2004.
3. Словарь компьютерных терминов [Электронный ресурс]. URL: http://computer.slovaronline.com.
4. Буч Г. Объектно-ориентированный анализ и проектирование с примерами приложений на C++. - М.; СПб., 2001.
5. Методы компьютерной обработки изображений / Под ред. В.А. Сойфера. - 2-е изд., испр. - М., 2003.
6. ГОСТ 27459-87. Системы обработки информации. Машинная графика. Термины и определения.
7. ГОСТ Р ИСО/МЭК 19794-5 - 2006. Автоматическая идентификация. Идентификация биометрическая. Форматы обмена биометрическими данными. Часть 5. Данные изображения лица.
8. Ерош И.Л., Сергеев М.Б., Соловьев Н.В. Обработка и распознавание изображений в системах превентивной безопасности: Учебное пособие. - СПб., 2006.
9. Ожегов С.И., Шведова Н.Ю. Толковый словарь русского языка: 80000 слов и фразеологических выражений. - М., 1996.
10. Большой российский энциклопедический словарь. - М., 2006.
11. Симанков В.С., Луценко Е.В. Адаптивное управление сложными системами на основе теории распознавания образов. Монография (научное издание). - Краснодар, 1999.
12. Журавлев Ю.И. Распознавание образов и распознавание изображений. Распознавание. Классификация. Прогноз. Математические методы и их применение. Вып.2. - М., 1989.
13. Дональд Херн, М.Паулин Бейкер. Компьютерная графика и стандарт OpenGL. - М., 2005.