15. Fedotov, N.G. Recognition of images with complex half-tone texture / N.G. Fedotov, D.A. Mokshanina [Text] // Measurement Techniques. - 2011. - Vol. 53. - № 11. - P. 1226-1232
УДК 004.89: 004.93
Федотов1 Н.Г., Сёмов2 А.А., Моисеев3 А.В.
гФГБОУ ВО «Пензенский государственный университет», Пенза, Россия 2ООО «Комхэлф», Пенза, Россия
3ФГБОУ ВО «Пензенский государственный технологический университет», Пенза, Россия
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ 3D ИЗОБРАЖЕНИЙ: ПОСТАНОВКА ПРОБЛЕМЫ, ОПИСАНИЕ ПОДХОДА И НОВЫЕ ИДЕИ
В статье представлен общий обзор проблемы распознавания изображений. Рассматриваются практические задачи, для решения которых необходимо применение методов интеллектуального анализа и распознавания 3D образов. Представлено краткое описание гипертрейс-преобразования, описана его математическая модель. Впервые для анализа и распознавания 3D изображений предложен подход на основе стохастической геометрии и функционального анализа. Благодаря построению признаков, инвариантных к группе движений и масштабированию разработанный на его основе метод позволяет повысить надежность и универсальность распознавания. Проанализированы интеллектуальные возможности гипертрейс-преобразования. Предложен новый подход для развития идей интеллектуального анализа 3D изображения. Приведены конкретные примеры Ключевые слова:
3D изображение, гипертрейс-преобразование, инвариантное распознавание, интеллектуальный анализ, стохастическая геометрия
Введение
Важную часть в области искусственного интеллекта занимает автоматическое планирование или принятие решений в системах, которые могут выполнять механические действия, такие как перемещение робота через некоторую среду. Этот тип обработки обычно нуждается во входных данных, предоставляемых системами компьютерного зрения, действующими как видеосенсор и предоставляющими высокоуровневую информацию о среде и роботе. Другие области, которые иногда описываются как принадлежащие к искусственному интеллекту и которые используются относительно компьютерного зрения, - это распознавание образов и обучающие методы. В результате, компьютерное зрение иногда рассматривается как часть области искусственного интеллекта или области компьютерных наук вообще [1, 2].
Одной из важных проблем распознавания образов является разработка универсального метода, который позволял бы машинной системе за время, сравнимое со временем решения аналогичной задачи человеком, проанализировать, распознать и сделать интерпретацию изображений с различными характеристиками (освещение, цвет, текстура, контур и тому подобное) [3, 4].
Следует заметить, что существует много научных школ, работающих над решением проблем распознавания образов. Однако единого подхода к оценке качества распознавания до сих пор нет [5]. Таким образом, на сегодняшний момент нет единого универсального подхода к распознаванию образов для 2D изображений, не говоря уже о 3D изображениях.
Неправильное распознавание и понимание машиной изображения в основном возникает из-за относительно низкого интеллектуального уровня машинного зрения. Интеллектуальные возможности машины отличаются от человеческих способностей тем, что машина неспособна мыслить «свободно» и отойти от заложенного алгоритма [6]. Значение проблем распознавания образов тесно связано с более фундаментальными вопросами развития идей кибернетики: «Что принципиально может и не может делать машина? В какой степени способности машины могут быть приближены к возможностям человеческого мозга?».
В связи с этим возникает вопрос: «Может ли машина развить в себе способность производить действия в зависимости от ситуаций, понимая контекст решаемой задачи, аналогично возможностям человека?». Если компьютерные модели будут пытаться имитировать процесс обработки мозгом визуальной информации, то будут ли искусственные имитаторы мозга обмануты зрительной иллюзией, которой может быть обманут человек? Решение данной проблемы невозможно без развития методов интеллектуального и когнитивного анализа данных машиной [7].
Анализ и распознавание ЭБ изображений: общий обзор
Распознавание образов - это процесс отнесения конкретного объекта, представленного значениями его свойств (признаков), к одной из фиксированного перечня категорий (классов) по определённому решающему правилу в соответствии с поставленной целью. Другими словами, суть задачи распознавания состоит в том, чтобы установить, обладают ли изучаемые объекты фиксированным конечным набором признаков, позволяющим отнести их к определенному классу.
С математической точки зрения постановка задачи распознавания заключается в следующем. Пусть имеется множество Х объектов x, относительно которых нужно произвести классификацию. Объекты задаются значениями некоторых признаков fir i = 1, ..., n, наборы которых одинаковы для всех объектов. Таким образом, описание Info каждого объекта будет иметь вид Info(x) = (fi(x), f2(x), ..., fn (x)).
Множество Х допускает разбиение на подмноже-
т
ства Ki, ..., Кп, называемые классами: Х= U К..
7=1
Данное разбиение осуществляется на основе некоторой априорной информации. По какому-либо алгоритму формируется описание классов Info(Kj), j = 1, ..., m, например, как усреднённая характеристика признаков объектов внутри соответствующего класса.
Задача распознавания состоит в том, чтобы для каждого объекта x, о котором неизвестно к какому из классов Ki, ..., Kn он принадлежит, по известной информации Info(K) и Info(X) установить значение
предиката р = (X е Kj^ .
Ниже перечислены основные типовые задачи распознавания образов:
Задача идентификации.
Заключается в том, чтобы выделить конкретный объект среди ему подобных (например, узнать среди других лиц определённое лицо). Два объекта, отличающиеся друг от друга только масштабом, могут считаться как одинаковыми, так и разными, в зависимости от поставленной задачи.
Возникает, например, в поисковых системах, когда по запросу пользователя нужно найти то или иное изображение.
Задача отнесения объекта к тому или иному классу (классификация с учителем).
Заключается в том, чтобы классифицировать объекты по классам, при этом однородные и похожие объекты должны быть отнесены к одной и той же категории. Применяется тогда, когда имеется достаточно много данных для классификации изображений (обучающая выборка), например, собранных на основе опыта прошлых лет. Процедура обучения состоит в многократном предъявлении машинной системе различных объектов с указанием их классов на основе заданной меры сходства между ними. Качество обучения определяется путем тестирования
распознающей системы на новых объектах, о принадлежности которых к какому-либо классу системе не указывается.
Возникает, например, в тяжелой промышленности при осуществлении дефектоскопии сварочных работ - поиск и классификация дефектов в технических деталях с указанием их размеров и положений в объекте.
Задача автоматической классификации (классификация без учителя).
Заключается в разделении заданного набора объектов на классы, которые схожи между собой по тем или иным критериям. Применяется тогда, когда априорной информации недостаточно, чтобы машинная система дала заключение о принадлежности предъявленного объекта к какому-либо классу. В этом случае системе распознавания даётся набор правил, в соответствии с которыми она сама на стадии самообучения разрабатывает классификацию.
Возникает, например, в химической медицине и фармакологии при разработке новых лекарств - поиск активных соединений среди молекул в химическом пространстве вещества.
Задача анализа и интерпретации изображения.
Заключается в идентификации объекта, представленного на изображении, и определении его различных геометрических характеристик, а также анализа его формы и поверхности. В зависимости от решаемой задачи пользователю может быть необходима 3D визуализация изображения исходного объекта с возможностью его вращения, масштабирования и выделения каких-либо частей.
Возникает, например, в задачах медицинской диагностики при анализе размеров и интерпретации объекта на изображении, получаемого с помощью магнитно-резонансной или позитронно-эмиссионной томографии.
Интеллектуальный анализ 3D изображений: постановка задачи
В настоящем работе предлагается новый универсальный подход к распознаванию 3D объектов, основанный на аппарате стохастической геометрии и функционального анализа. Он основан на анализе объекта как трехмерной модели, а не его проекций. Использование в анализе данных формы объекта заметно повышает информативность извлекаемых признаков, и, как следствие, повышает надежность распознавания 3D объектов.
Пусть ¥ - исходная трехмерная модель. Опре-
делим плоскость
B ¡, г ) = {
x|xT -¡ -
как каса-
тельную к сфере центром в начале координат и с радиусом r, проходящую через заданную точку X и на расстоянии r от начала координат с заданными
углами q и ф, где ¡ = \cos®- sin^, sin®- sin^, cos^] -
единичный вектор в R3, q - угол между осью 0х и проекцией отрезка OX на плоскость 0ху, ф - угол между осью 0z и отрезком OX.
Его суть состоит в следующем [8-10]. Исходный объект F сканируется сеткой параллельных плоскостей B(¡п(®,Ф),г) под различными углами q и ф
до завершения оборота обхода вокруг него в 2п радиан по каждому углу с дискретным шагом Д между сканирующими плоскостями. Результат G пересечения плоскости B¡п(ю,ф),г) и объекта F вычисляется
при помощи функционала HyperT. Множество таких чисел G формирует гипертрейс-матрицу 3TM, у которой ось 0а направлена горизонтально, ось 0^ -вертикально, ось 0r - вглубь.
Обрабатывая строки и столбцы матрицы 3TM при помощи функционалов Hyper&, HyperQ и HyperP, вычисляется признак Res(F) исходного 3D объекта:
Res (F) = Hyper® о /lyperí i o HyperV o HyperT (Fsect )
Рисунок 1 - Сканирование 3D изображения сеткой параллельных плоскостей (слева) и получаемая трёхмерная гипертрейс-матрица, отображенная в единичной кубе (справа)
Признаки получившихся в сечении фигур Гвесс извлекаются при помощи 2D трейс-преобразования, которое состоит в сканировании 2D изображения сеткой параллельных прямых под различными углами
[11-13]. Признак 2D изображения П(.Р5ес имеет
структуру в виде композиции тр>ех функционалов:
П(Р5ес4) = НурегТ(¥5еа) = © о Р о 7,(Р5ес4 (4(0,р)) ,
где р и 8 - полярные координаты прямых в плоскости сечения ¥вес1.
Данный метод обладает определенной универсальностью, так как схема сканирования не привязана к геометрическим особенностям исходной модели, а благодаря большому числу используемых видов функционалов и их композиционной структуре можно подбирать и конструировать различные признаки [14], которые будут наиболее эффективны
при распознавании заданной базы объектов. Предлагаемая методика ориентирована на объекты любой сложности и конфигурации.
Также гипертрейс-преобразование позволяет в режиме автоматической генерации формировать большое количество (десятки тысяч) информативных признаков изображений - гипертриплетных признаков, что повышает надежность анализа и распознавания изображений. Характерной особенностью гипертриплетных признаков является их структура в виде композиции функционалов. Функционалы выбираются из различных областей математики: теории вероятностей и статистики, фрактальной геометрии, стохастической геометрии и т.п., благодаря чему гипертриплетные признаки, построенные на их
основе, несут следы генезиса соответствующих областей математики и придают гибкость и универсальность алгоритмам распознавания.
В частности, при надлежащем выборе функционалов, входящих в структуру признаков, можно получать признаки инвариантные по отношению к движению и линейным деформациям 3D объектов, что очень важно при распознавании различного рода изображений, так как повышает надежность распознавания.
Также стоит отметить, что обработка, сканирование и анализ изображения осуществляется в одной технике благодаря специфичной структуре формируемых признаков, что позволяет ускорить время работы распознающей системы.
Интеллектуальный анализ 3D изображений: описание подхода
Следует отметить, что гипертрейс-преобразо-вание имеет уникальную способность, аналогичную возможности человеческой зрительной системы, когда при достаточно беглом и быстром взгляде человек может различить 3D объекты. Данное свойство отчетливо видно при конструировании 2D и 3D признаков, принципы формирования которых авторы разделили на две категории: принцип фальсификации и принцип верификации. Принцип фальсификации означает, что если равенство по признакам не наблюдается, то исходные фигуры точно разные; если же равенство достигнуто, то исходные объекты могут быть как одинаковыми, так и разными. Принцип верификации означает, что если равенство по признакам наблюдается, то исходные фигуры точно одинаковые; равенство не может быть достигнуто только для почти похожих фигур, согласно принятому аналитиком критерию схожести объектов (порог отсечения).
Данное преимущество гипертрейс-преобразова-ния проявляется в возможности быстрого вычисления признаков фальсификации в одной технике сканирования, когда уже на этапе сканирования возможно формирование признаков Res(F) исходного объекта. Покажем, как это может быть достигнуто.
Исследуемый 3D объект F может быть очень быстро просканирован под одним углом наклона сетки плоскостей и одним углом наклона сетки прямых в плоскости сечения для нахождения, например, объема объекта V(F) или площади поверхности тела S(F) . В этом случае будет использована только одна пара (о, ср) углов наклона сетки секущих параллельных плоскостей и будет вычислен только одна глубинная строка гипертрейс матрицы 3ТМ. Если сформированный таким образом вектор признаков фальсификации с учётом масштаба для быстро просканированного исследуемого объекта будет сильно отличаться от другого вектора признаков быстро просканированного объекта эталонной базы, то эталонный объект не имеет смысла полностью сканировать, и программная система переходит к следующему эталонному объекту.
Признаки фальсификации имеют сокращенную форму композиции гипертриплетных и триплетных признаков для более быстрого их вычисления, т.к. сканирование большого числа объектов сеткой плоскостей со всех сторон и обработка сечений сеткой прямых со всех сторон достаточно емко по времени :
Res (F) = HyperР о HyperT{Р о Т)
Как видно из приведенной выше формулы здесь опущены функционалы 0, HyperQ и Hypere которые отвечают за сканирования изображений 3D и 2D со всех сторон и влияют главным образом на инвариантность к повороту. Поэтому композиционная структура оставшихся функционалов должна характеризовать свойства объекта, которые не изменяются при его повороте, или должны использоваться функционалы, инвариантные к повороту, или функционалы, описывающие усредненные свойства объекта с допустимым диапазоном варьирования.
Указанные выше три класса формирования признаков фальсификации позволяют заметно увеличить их количество, что повысит и скорость работы сканирующей системы (большое число кандидатов
исключается сразу), и её надежность. Так, в качестве примеров признаков фальсификации можно привести объем тела, площадь поверхности, количество составных частей, наличие пустых полостей, средняя площадь сечения и др. Последние два признака следует вычислять для лучшей точности распознавания при 3-4 случайных сканирований объекта с разных сторон, после чего полученные значения усредняются.
Признаки фальсификации будет особенно полезно использовать при одиночном online запросе пользователя для поиска соответствующего объекта и информации о нем в базах данных. Быстро осуществлять такой поиск будет возможно даже в тех случаях, когда поисковых баз очень много и/или данные базы очень часто дополняются и обновляются, т.к. данный метод при использовании принципа фальсификации не требует обязательного хранения вычисленных признаков объектов из проска-нированных баз данных.
В заключении подчеркнём разницу в использовании признаков фальсификации и верификации. Общее число признаков верификации как полного, так и неполного типов одинаково (т.к. эти признаки полностью идентичны по сути) и порядка тысяч, а признаков фальсификации - порядка сотен. Признаки верификации способны дать любую информацию об объекте, а признаки фальсификации - лишь небольшую часть информации. Признаки верификации, как правило, описывают индивидуальные свойства объектов (не только геометрические), а признаки фальсификации - как правило, общие свойства, характерные и для других объектов данного класса.
Признаки фальсификации вычисляются в десятки раз быстрее признаков верификации полного типа и в несколько раз быстрее признаков верификации неполного типа. Разные цели и области применения признаков верификации полного типа, признаков верификации неполного типа и признаков фальсификации. Первые могут использовать для решения любой задачи, вторые - в задачах классификации, а третьи - в задачах идентификации.
Заключение
Круг задач, которые могут решаться с помощью распознавания образов, достаточно обширен. Примерами таких областей могут служить системы распознавание текста и речи, отпечатков пальцев, зрение роботов, распознавание номеров автомобилей по фотографиям и прочее.
Использование признаков, инвариантных к группе движений и масштабированию, позволяет получать более информативные и устойчивые признаки, чем при способе нормализации положения объектов. Гипертриплетные признаки являются устойчивыми к линейным искажениям и координатному шуму не только из-за свойства инвариантности, отсутствия предварительной обработки изображения и большого выбора гиперфункционалов, обладающих различными свойствами, но и из-за применяемой техники сканирования. Так, искажения 3D модели по-разному выглядят с разных углов обзора, в связи с чем в гипертрейс матрице глубинные строки будут иметь разный уровень колебания численных значений признака среза сечений. Следовательно, подбирая разные виды гиперфункционалов для выделения разных глубинных строк матрицы 3ТМ, возможно получить гипертриплетные признаки 3D изображения, менее подверженные линейным искажениям и координатному шуму. Данное обстоятельство повышает надежность распознавания 3D объектов.
Интеллектуальные способности гипертрейс-ме-тода заключаются также в возможности конструирования описанных выше геометрических признаков, которые имеют строгую математическую модель и основаны не на интуиции аналитика, а на особенностях 3D объекта, которые сканирующая система выделяет сама в режиме автоматической компьютерной генерации.
Всей совокупностью перечисленных свойств не обладает ни один из известных на сегодняшний момент метод распознавания 3D изображений [15].
Данный метод авторы планируют развить для анализа дефектов и особенностей на поверхности трехмерных объектов, а также для анализа цветных и текстурированных 3D изображений. В последнем случае, возникает трудность совмещения параллельного анализа формы 3D объекта с его цветными
характеристиками и особенностями текстуры поверхности.
Работа выполнена при поддержке гранта РФФИ (проект №15-07-04484).
ЛИТЕРАТУРА
1. Witten, I.H. Data mining: practical machine learning tools and techniques (the Morgan Kaufmann series in data management systems) [Text] / I.H. Witten, E. Frank, M.A. Hall. - third edition. -Burlington, Massachusetts : Morgan Kaufmann, 2011. - 664 P.
2. Szeliski, R. Computer vision: algorithms and applications (texts in computer science) [Text] / R. Szeliski. - second edition. - London : Springer, 2011. - 832 P.
3. Федотов, Н.Г. Теория признаков распознавания образов на основе стохастической геометрии и функционального анализа / Н.Г. Федотов. - М.: Физматлит, 2010. - 304 С. - ISBN: 97 8-5-9221-0 9 9 6-3.
4. Wang, C. VFM: visual feedback model for robust object recognition / C. Wang, K.-Q. Huang // Journal of Computer Science and Technology. - 2015. - Vol. 30, Issue 2. - P. 325-339. - DOI: 10.1007/s11390-015-1526-1.
5. Садыков, С.С. Экспериментальное исследование алгоритмов распознавания бинарных изображений на тестовых проекциях трёхмерных объектов / С.С. Садыков, А.В. Терехин // Надежность и качество сложных систем. - 2014. - №4 (8). - С. 48-52.
6. Полтавский, А.В. Основы распознавания образов в текстовой информации / А.В. Полтавский, Е.Ю. Русяева, А.А. Бурба // Надежность и качество сложных систем. - 2016 - №3 (15). - С. 24-38.
7. Загоруйко, Н.Г. Когнитивный анализ данных [Текст] / Н.Г. Загоруйко. - Новосибирск : Академическое изд-во «ГЕО», 2012. - 203 C.
8. Fedotov, N.G. Trace transform of three-dimensional objects: recognition, analysis and database search [Text] / N.G. Fedotov, S.V. Ryndina, А.А. Semov // Pattern Recognition and Image Analysis. Advances in Mathematical Theory and Applications. - 2014. - Vol. 24. - No. 4. - Moscow: Pleiades Publishing, Ltd. - P. 566-574.
9. Сёмов, А.А. Различные виды пространственного сканирования 3D изображений [Текст] / А.А. Сёмов // Надежность и качество: труды Международного симпозиума. - 2015. - Т. 2. - Пенза: ПГУ. - С. 150153.
10. Fedotov, N.G. New Methods of Three-Dimensional Images Recognition Based on Stochastic Geometry and Functional Analysis / N.G. Fedotov, A.V. Moiseev, A.A. Syemov, V.G. Lizunkov, A.Y. Kindaev // IOP Conference Series: Materials Science and Engineering. - Bristol, 2017. - Vol. 177 : Mechanical Engineering, Automation and Control Systems (MEACS 2016) : International Conference, October 2729, 2016, Tomsk, Russia : [proceedings]. - [012047, 5 p.]. - DOI: 10.1088/1757-899X/177/1/012047.
11. Fedotov, N.G. The Theory of Image-Recognition Features Based on Stochastic Geometry [Text] / N.G. Fedotov // Pattern Recognition and Image Analysis. Advances in Mathematical Theory and Applications. -1998. - V. 8. - № 2. - Moscow: Pleiades Publishing, Ltd. - P. 264-266.
12. Федотов, Н.Г. Вопросы построения алгоритмов сокращения признакового пространства на основе селекции информативных признаков / Н.Г. Федотов, А.А. Сёмов, А.В. Моисеев // Надежность и качество: труды Международного симпозиума, под ред. Н.К. Юркова. - Пенза, Изд-во ПГУ. - 2016. - Т. 1. - С. 299-301.
13. Fedotov, N.G. Recognition of images with complex half-tone texture / N.G. Fedotov, D.A. Mokshanina [Text] // Measurement Techniques. - 2011. - Vol. 53. - № 11. - P. 1226-1232.
14. Федотов, Н.Г. Минимизация признакового пространства распознавания 3D изображения на основе стохастической геометрии и функционального анализа [Текст] / Н.Г. Федотов, А.А. Семов, А.В. Моисеев // Машинное обучение и анализ данных. - 2015. - T. 1. - №13. - Электронный журнал. - Издательство: Вычислительный центр им. А.А. Дородницына РАН (Москва). - C. 1796-1814.
15. Федотов, Н.Г. Анализ условий, влияющих на свойства конструируемых признаков 3D-изображений / Н.Г. Федотов, А.А. Сёмов, А.В. Моисеев // Компьютерная оптика. - 2016. - Т. 40, № 6. - С. 887894. - DOI: 10.182 87/2 412-617 9-2 016-4 0-6-8 87-8 94.