ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ

Дегтярев Ю.С.; Шпирюк К.С.

https://lenta.ru/articles/2014/11/20/silkroad/ - Silk Road Mirage - (Date of circulation: 19.12.2016)

УДК 004.93+004.8

Дегтярев Ю. С. студент магистратуры 2 курса факультет Элитного образования и магистратуры

Шпирюк К. С. студент магистратуры 2 курса факультет Элитного образования и магистратуры Омский государственный технический университет

Россия, г. Омск ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ

Аннотация:

В статье рассматривается современное состояние сферы компьютерного зрения. Выделены основные задачи и функции. Также рассмотрено понятие сверточных нейронных сетей, создаваемых похожими на человеческий мозг. Сначала сеть обучается основам реального мира, а затем начинает самостоятельно разбираться с новыми изображениями или видео. Описаны основные сферы применения компьютерного зрения в настоящее время.

Ключевые слова: компьютерное зрение, искусственный интеллект, нейронные сети, обработка изображений, сверточная нейронная сеть, интеллектуальные системы обработки изображений.

Degtyarev Y.S. student master

2 course, The faculty of elite education and magistracy

Omsk State Technical University

Russia, Omsk Shpiruk K.S. student master

2 course, The faculty of elite education and magistracy

Omsk State Technical University

Russia, Omsk

OVERVIEW OF THE CURRENT STATE OF THE SPHERE OF

COMPUTER VISION

Abstract:

The article considers the current state of the sphere of computer vision. The main objectives and functions are highlighted in it. The article also deals with the concept of extremely-precise neural nets that are created similar to human brain. First the net learns the basis of real world, and then it starts dealing with new images or video itself. The work describes the main scopes of the computer vision

application at the present time.

Keywords: computer vision, artificial intelligence, neural networks, image processing, convolutional neural network, intelligent image processing systems.

На сегодняшний день область компьютерного зрения является молодой, разнообразной и динамично развивающейся. Исследования в этой области стали проводиться после того, как компьютеры смогли управлять обработкой больших наборов данных, таких как изображения.

Компьютерное зрение применяется довольно широко как в относительно старых областях (например, управление мобильными роботами, промышленные средства наблюдения, военные приложения), так и в сравнительно новых (взаимодействие человек-компьютер, поиск изображения в цифровых библиотеках, анализ медицинских изображений и реалистичная передача смоделированных сцен в компьютерной графике.

К основным задачам компьютерного зрения относят:

1) распознавание - определение наличия некоторого характерного объекта на изображении;

2) движение - задача, связанная с оценкой движения, в которой последовательность изображений (видеоданные) обрабатываются для нахождения скорости каждой точки изображения или 3D сцены;

3) восстановление сцены - воссоздание трехмерной модели изображения из двух или более изображений сцены или видеоданных;

4) восстановление изображений - удаление шумов (шум датчика, размытость движущегося объекта и т.д.).

В настоящее время для многих систем компьютерного зрения характерны функции, представленные на рис. 1 [1].

Рис. 2. Функции систем компьютерного зрения В основе многих систем компьютерного зрения лежат сверточные нейронные сети. Нейронные сети созданы похожими на человеческий мозг и

работают по-детски. Это значит, что их нужно учить основам реального мира — как выглядит окно, стол, кот, что происходит на разных картинках, и так далее, — после чего сеть начинает самостоятельно разбираться с новыми изображениями или видео.

Простейшей операционной единицей нейронной сети является нейроподобный узел. Он принимает входные данные от одних узлов и отправляет выходные данные другим. Сотни тысяч или даже миллионы таких узлов упорядочены по иерархическим уровням. Схема сверточной нейронной сети представлена на рис. 2.

Рис. 3. Сверточная нейронная сеть

Исследовательская группа директора Стэнфордской лаборатории искусственного интеллекта Фей-Фей Ли и аспиранта Андрея Карпатного разработала самую большую базу данных изображений ImageNet (более 14 млн. изображений), пополняющуюся при помощи технологии краудсорсинга. В разрабатываемой ими модели анализа изображений, использующей обычную сверточную нейронную сеть, содержится 24 млн. узлов, 140 млн. параметров и 15 млрд. связей. При помощи современных микропроцессоров для обучения этой модели сверточная нейронная сеть позволила создать эффективную систему для получения новых многообещающих результатов в распознавании объектов при анализе изображений [2].

Система может идентифицировать происходящее в сложных сценах. Описание создается в форме, максимально приближенной к естественному человеческому языку [3].

На рис. 3 представлен результат работы системы - набор выделенных единиц-объектов и их описание.

Рис. 4. Результат работы сверточной нейронной сети

В данный момент система далека от совершенства и иногда выдает результаты, слишком далекие от истинных. Например, взрослая женщина, осторожно держащая огромный пончик, помечается как «Маленькая девочка, водящая феном над головой», а любопытный жираф называется собакой, выглядывающей из окна; весёлая пара с праздничным тортом в саду получает заголовок «Человек в зелёной рубашке рядом со слоном», и куст при этом выступает в роли слона, а торт в роли человека. Но в большинстве случаев такие расшифровки являются вторичными догадками. Например, наряду с описанием слона, программа также определяет пару с тортом как «Женщина, стоящая с краю и держащая кокосовый торт, на которую смотрит мужчина».

Другим ярким примером применения технологии компьютерного зрения является автомобильный компьютер Drive PX от компании Nvidia. По заявлениям разработчиков он включает глубокую нейронную сеть компьютерного зрения. Технология позволяет определять опасности во время езды, предупреждать о пешеходах, знаках, спецмашинах и других объектах [5]. Применение нейронной сети в данном случае значит, что Drive PX не требуются эталонные изображения каждого объекта: грубо говоря, если есть колёса, лобовое стекло, решётка радиатора, то это автомобиль, а если руки и ноги — человек. Большие автомобили — грузовые, а если сверху есть проблесковые маячки, то такую машину лучше пропустить.

Существующие в настоящее время интеллектуальные системы обработки изображений не позволяют обеспечить требуемое качество

анализа изображений. В связи с этим возникает проблемная ситуация, связанная с противоречием между возможностями современной компьютерной и оптоэлектронной техники и недостаточностью теоретической базы при ее использовании в системах анализа изображений.

Способность нейронных сетей к прогнозированию также активно сочетается с компьютерным зрением. В 2010 году состоялись первые тесты беспилотных автомобилей, и к апрелю 2011 в лондонском аэропорту Хитроу были запущены полностью автоматические маршрутные такси. Однако эти системы далеко не совершенны: беспилотные автомобили пока не в состоянии функционировать в плохих погодных условиях, и не могут отличать пешеходов от полицейских.

В области распознавания символов широко исследуемой в настоящее время задачей является распознавание рукописного текста. В данное время достигнутая точность даже ниже, чем для рукописного «печатного» текста. Более высокие показатели могут быть достигнуты только с использованием контекстной и грамматической информации.

Многообещающей выглядит концепция мультиспектральных систем машинного зрения, обрабатывающих изображения не только в области видимого человеком спектра, но и получаемых с помощью радарных или лазерных установок, а также инфракрасных камер. Основная помеха на этом пути развития машинного зрения - дороговизна и сложность эксплуатации соответствующих датчиков [4].

Важность развития сферы компьютерного зрения на сегодняшний день крайне высока. Одним из наиболее важных применений является обработка изображений в медицине. Эта область характеризуется получением информации из видеоданных для постановки медицинского диагноза пациентам.

Другой прикладной областью компьютерного зрения является промышленность. Здесь информацию получают для целей поддержки производственного процесса.

Военное применение является самой большой областью компьютерного зрения. Современное военное понятие, такое как «боевая осведомленность», подразумевает, что различные датчики, включая датчики изображения, предоставляют большой набор информации о поле боя, которая может быть использована для принятия стратегических решений.

Одними из новых областей применения являются автономные транспортные средства, включая подводные, наземные (роботы, машины), воздушные. Уровень автономности изменяется от полностью автономных (беспилотных) до транспортных средств, где системы, основанные на компьютерном зрении, поддерживают водителя или пилота в различных ситуациях. Полностью автономные транспортные средства используют компьютерное зрение для навигации, то есть для получения информации о месте своего нахождения, для создания карты окружающей обстановки, для обнаружения препятствий.

Исследования в сфере компьютерного зрения в настоящее время очень актуальны, поскольку с его помощью может быть решен целый спектр задач в различных областях жизнедеятельности человека.

Использованные источники:

1. Цуканов М.А. Автоматизированное распознавание нетипичного поведения на основе визуальнооптического мониторинга как одна из проблем компьютерного зрения // XII Всероссийское совещание по проблемам управления ВСПУ-2014: Сб. научных статей / ИПУ РАН. - М., 2014. С. 4041-4047.

2. Fei-Fei Li How we're teaching computers to understand pictures / Fei-Fei Li. Режим доступа: [http://www.ted.com/talks/fei_fei_li_how_we_re _teaching_computers_to_understand_ pictures/transcript?language=en].

3. Fei-Fei Li Deep Visual-Semantic Alignments for Generating Image Descriptions // CVPR 2015. - Boston, 2015. P. 183-200.

4. Комков В.С. Проблемы и особенности исторических этапов развития компьютерного зрения // Молодежь и системная модернизация страны: Сб. трудов конференции / ЮЗГУ. Курск, 2016. С. - 39-44.

5. Лисовицкий А. Под присмотром нейронной сети: куда движется компьютерное зрение [Электронный ресурс] / А. Лисовицкий. URL: http://holographica.space/articles/pod-prismotrom-nejronnoj-seti-kuda-dvizhetsya-kompyuternoe-zrenie-569

УДК 004.051

Дегтярев Ю.С. студент магистратуры 2 курса факультет Элитного образования и магистратуры

Шпирюк К. С. студент магистратуры 2 курса факультет Элитного образования и магистратуры Омский государственный технический университет

Россия, г. Омск

СРАВНИТЕЛЬНЫЙ АНАЛИЗ СОВРЕМЕННЫХ СИСТЕМ ПОИСКА

ГРАФИЧЕСКОЙ ИНФОРМАЦИИ

Аннотация:

В статье рассмотрено понятие поисковой системы и ее основные задачи. Выделены методы поиска, на которых основываются системы поиска графической информации. Построена развернутая модель гомеостата, позволяющая рассматривать различные способы поиска изображений. Также построена универсальная схема взаимодействия, показывающая процесс оценки эффективности сравниваемых поисковых систем. Результатом статьи является сравнительный анализ систем поиска графической информации.

Ключевые слова: поисковая система, поиск изображений, поиск графической информации, контекстный поиск, контентный поиск

ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дегтярев Ю.С., Шпирюк К.С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дегтярев Ю.С., Шпирюк К.С.

OVERVIEW OF THE CURRENT STATE OF THE SPHERE OF COMPUTER VISION

Текст научной работы на тему «ОБЗОР СОВРЕМЕННОГО СОСТОЯНИЯ ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ»