Научная статья на тему 'Построение модели изображения и ее применение в задачах детектирования объектов'

Построение модели изображения и ее применение в задачах детектирования объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
197
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАФИЧЕСКИЕ ОБЪЕКТЫ / МЕТОД МАШИННОГО ОБУЧЕНИЯ / MACHINE LEARNING METHOD / АЛГОРИТМ ИНФОРМАТИВНОГО ПОДМНОЖЕСТВА / ALGORITHM OF INFORMATIVE SUBSET / ТЕХНИКА СКОЛЬЗЯЩЕГО ОКНА / SLIDING WINDOW TECHNIQUE / GRAPHIC OBJECTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Копылов Иван Владимирович, Малыгин Леонид Леонидович

Эффективность и надежность систем компьютерного зрения часто в значительной степени определяется способом представления и качеством признакового описания представленных изображений. Существует множество подходов к заданию пространства признаков для изображения, а также множество алгоритмов, которые исследуют заданное пространство, выбирая наиболее информативные из них. В данной статье дано описание нового представления изображения (модели изображения) с ассоциированным признаковым пространством. Рассматривается подход к формированию наиболее информативного подмножества признаков и машинного обучения для задачи обнаружения объектов на изображении.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Копылов Иван Владимирович, Малыгин Леонид Леонидович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение модели изображения и ее применение в задачах детектирования объектов»

Таблица 3

Оценка количества теплоты, уходящей от заготовки в районе кристаллизатора, ЗВО и на воздухе

Участки охлаждения Скорость разливки

0,8 м/мин. 1,2 м/мин.

Тепловой поток, МВт Доля, % Тепловой поток, МВт Доля, %

Кристаллизатор 2,78 7 3,00 5,1

ЗВО 11,00 28 20,00 33,9

На воздухе 25,99 65 36,00 61

Итого 39,77 100 59,00 100

Доли теплоты, отводимой в кристаллизатор и в зоне охлаждения на воздухе, уменьшаются при увеличении скорости вытягивания. Доля теплоты, теряемой в ЗВО при увеличении скорости, наоборот, увеличивается.

Таким образом, разработана универсальная методика расчета статей баланса теплоты с использованием математической модели затвердевания и охлаждения заготовки на МНЛЗ. Полученные результаты расчета статей баланса согласуются с известными результатами, полученными на основе экспериментальных данных по толщине корки, температуре поверхности сляба, времени нахождения слитка в пределах ЗВО и др. Расчет статей баланса при моделировании затвердевания и охлаждения заготовки можно использовать для оценки погрешности результатов моделирования для реальных условий использования модели и установить параметры конеч-

но-разностной аппроксимации для достижения заданной точности моделирования.

Литература

1. Емельянов, В.А. Тепловая работа машин непрерывного литья заготовок / В.А. Емельянов. - М., 1988.

2. Кабаков, З.К. Исследование процесса охлаждения штабелей на холодном складе / З.К. Кабаков, Ю.В. Гриб-кова, Д.И. Габелая // Вестник Череповецкого государственного университета. - 2011. - № 1. - С. 81-86.

3. Колпаков, С.В. Энергосбережение в металлургии / С.В. Колпаков // Сталь.- 2004. - № 3.- С. 71-72.

4. Рутес, В.С. Теория непрерывной разливки / [В.С. Рутес и др.]. - М., 1971.

5. Самойлович, С.А. Тепловые процессы при непрерывном литье стали / [Ю.А. Самойлович и др.]. - М., 1982.

6. Щелоков, Я.М. Черная металлургия: проблемы, технологии, энергоемкость / Я.М. Щелоков. - Екатеринбург, 2012.

УДК 005

И.В. Копылов, Л.Л. Малыгин

ПОСТРОЕНИЕ МОДЕЛИ ИЗОБРАЖЕНИЯ И ЕЕ ПРИМЕНЕНИЕ В ЗАДАЧАХ ДЕТЕКТИРОВАНИЯ ОБЪЕКТОВ

Эффективность и надежность систем компьютерного зрения часто в значительной степени определяется способом представления и качеством признакового описания представленных изображений. Существует множество подходов к заданию пространства признаков для изображения, а также множество алгоритмов, которые исследуют заданное пространство, выбирая наиболее информативные из них.

В данной статье дано описание нового представления изображения (модели изображения) с ассоциированным признаковым пространством. Рассматривается подход к формированию наиболее информативного подмножества признаков и машинного обучения для задачи обнаружения объектов на изображении.

Графические объекты, метод машинного обучения, алгоритм информативного подмножества, техника скользящего окна.

Efficiency and reliability of computer vision systems is often determined by the way of presenting and the quality of attributive description of submitted images. There are many approaches to setting the space for images, as well as a lot of algorithms that explore a given space by choosing the most informative ones. This article describes the new view image (model), with an associated feature space. The paper considers an approach to building the most informative subsets of traits and machine learning for the detection of objects in the image.

Graphic objects, machine learning method, algorithm of informative subset, sliding window technique.

1. Введение

Получение признакового описания изображений является одним из главных этапов в задачах обнаружения, сопоставления, классификации объектов, представленных графическим образом. В этой связи немаловажную роль играют начальный набор возможных признаков и извлечение подпространства наиболее информативных признаков.

В зависимости от изображений объектов (к примеру, лиц людей) существует множество способов признакового описания. В качестве признаков могут использоваться яркости пикселей, дифференциальные признаки, геометрические признаки и др.

Наибольшее внимание в данной статье будет уделено новому представлению изображения и признакам, получаемым из заданного представления, их исследованию. Прилагается алгоритм получения наиболее информативного подмножества признаков и метод машинного обучения, применимые для задачи обнаружения лиц на изображении. Кратко последовательность предлагаемых этапов выглядит следующим образом:

1. Для представления изображения выбран иерархический способ его разбиения. Данный способ заключается в формировании пирамиды прямоугольных участков изображения А0, А1, ... Ап, интенсивности которых/Ао, 1А1,..., /А . В итоге получается

пирамида интенсивностей участков изображения, которая и является новым его представлением.

2. Вид признаков, полученных из новой модели изображения, представляет собой линейную комбинацию интенсивностей , /А1,..., 1А :

/(/А IAl,..., /Ап ) = а0/А о +а1/А1 +... + аА

(1)

где а , I = 1, ... п, заданные или полученные коэффициенты.

3. После преобразования изображения и получения признакового пространства выбирается подмножество наиболее информативных признаков, упрощающее задачу машинного обучения. Способ отбора значимых признаков основан на полном их переборе. В данном подходе используется критерий уменьшения признакового пространства с помощью линейного дискриминанта Фишера [4], определение значимости каждого признака с помощью критерия Джини [2]. Отбор производится жадным алгоритмом.

4. Следующий этап - обучение детектора. Применяется алгоритм машинного обучения, основанный на многомерной аппроксимации и интерполяции [1].

5. Заключительный этап - экспериментальная часть.

1. Модель изображения и признаковое описание

Изначально рассматривается растровое полутоновое изображение, из которого формируется пирамида прямоугольных участков изображения Ао, А 1, ... Ап, интенсивности которых , /А1,..., 1А . В итоге получается пирамида интенсивностей участков изображения, являющаяся новым его представлением.

На вершине пирамиды нулевой уровень Ь0 соответствует изображению целиком Ао, суммарная интенсивность которого 1Ао. На первом уровне Ь1 участки изображения А1-4, получаются путем деления исходного изображения А0 пополам: сначала по горизонтали, затем по вертикали. Также находятся суммарные интенсивности данных участков: 1А1 .

Начиная со второго уровня, получение новых прямоугольных участков происходит следующим образом: участки с предыдущего уровня пирамиды делятся пополам вертикально, если они были получены путем горизонтального деления их родителя; делятся горизонтально, если они были получены путем вертикального деления их родителя (рис. 1 а, б). В результате формирования пирамиды будут появляться дублирующие участки, которые нет необходимости рассматривать в конечном представлении.

Элементом полученной модели изображения является интенсивность некоторого участка изображения.

В общем виде признаки формируются путем различных линейных комбинаций элементов пирамиды, что отражено в формуле (1).

Далее будет рассмотрен более простой вариант признаков, который позволит провести работу по их анализу:

/(1А , /А1 ) = а0/А1 +а1/А

(2)

где а0 =-, а значения функции

128

/(1Л, /а, ) е("2,2).

1.1. Интегральное изображение

Для упрощения вычислений, связанных с нахождением средней яркости участков изображения, необходимо работать с интегральным изображением.

В данном случае средняя яркость участка любого размера может быть вычислена за одинаковое количество операций [6].

и

—-

у . .

.1

1.2 ЬЛ

Ь<5

и

и

и

II

и 1А

т

1.5 Ьк

а)

б)

Рис. 1. Рассматриваемое представление изображения: пирамида прямоугольных участков изображения: а) иллюстрация получения участков изображения; б) иной вид представления пирамиды, предельный нижний слой пирамиды - само изображение

1.2. Связь с признаками Виолы и Джонса

Подход, представленный П. Виолой и М. Джонсом в 2001 г., использует в качестве признаков характеристики Хаара [6].

Под характеристикой Хаара понимается функция / от суммарной интенсивности 1А и 1В двух прямоугольных участков изображения А и В таких, что участок В вложен в участок А.

Виола и Джонс в своей работе представили несколько типов характеристик (рис. 2 а). В более поздних работах были добавлены новые характеристики (рис. 2 б). Также рассматривались более общие характеристики, где отходили от идеи четкого задания нескольких типов характеристик. Рассматривались характеристики с произвольным положением участка В внутри участка А [5].

Во всех таких подходах результирующее количество характеристик оказывается слишком большим. Так, например, при выборе характеристик с произвольным положением участка В внутри участка А на изображении размером 24*24 пикселя их число достигнет значения п = 308002500, что может затруднить задачу выбора небольшого числа наиболее информативных характеристик. Кроме того, имеется

ограничение на вложенность двух рассматриваемых участков [5].

дннше

а)

Ф Ф И В

б)

Рис. 2. а) характеристики угла, центра и линии; б) дополнительный набор характеристик Хаара

В предложенном представлении изображения и подходе к формированию признаков (2) количество последних изначально может исчисляться от нескольких сотен до нескольких десятков тысяч. Это позволит сократить время на получение подмножества информативных признаков.

Количество рассматриваемых областей зависит от начального числа уровней в пирамидальном представлении изображения (табл. 1).

Таблица 1

Количество областей на Ь уровне рассматриваемого представления изображения

Уровень 0 1 2 3 4 5 6 7 8

Количество областей на уровне 20 21 22 23 24 25 26 27 28

Получается, количество областей на уровне Ь:

Щ = 1 Ь 12Ь,

Ь = 2к +1, Ь = 2к,

к е N к е N

Количество областей на уровнях от 0 до Ь:

СЖЬ = 1 + £ Ж,., СЖЬ е N.

Количество признаков, сформированных по формуле (2), зависит от числа рассматриваемых областей; рассматриваются всевозможные комбинации по всем парам областей, без перестановок; учитывается связь областей на разных уровнях пирамидального представления изображения. Количество признаков в зависимости от выбранного числа уровней (табл. 2):

^ = С2Ж1 = 2 ■ CNRL \СККь -1).

Таблица 2

Количество признаков в зависимости от выбранного числа уровней

Число уровней 2 3 4 5 6 7 8 9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Количество признаков о ю т о о 3 о <ч ОО 5460 14196 90100 231540

1.3. Отбор признаков

Отбор признаков опирается на обучающие данные: строятся модели всех изображений объектов и шумов из обучающей выборки; далее каждый элемент обучающей выборки представляется набором всевозможных признаков (2).

Жадным алгоритмом отбирается заданное количество признаков, используя критерий Джини [2]. Сначала выбирается первый наилучший признак из всего множества признаков; для выбора второго признака учитывается первый, для выбора третьего признака учитываются первый и второй и т.д. Для того чтобы было возможно применить критерий Джини на этапе к, необходимо имеющееся мерное пространство признаков спроецировать на одномерное пространство с помощью линейного дискриминанта Фишера [4] и выбрать начальный порог разбиения данных. Качество разбиения оценивается по следующей формуле:

. .......^ Ш1П,

N { R2

где N - число примеров из обучающей выборки; Ь, R - число примеров справа и слева относительно вы-

а»,,,,, = N{' -Ь? (( + ))+

+тН' - тт (( + '2')

бранного порога разбиения; 4 г, - число экземпляров ,'-го класса слева и справа относительно порога разбиения.

2. Обучение детектора

Для обучения детектора использовался алгоритм, основанный на многомерной аппроксимации и интерполяции [1].

3. Экспериментальная часть

Для проверки эффективности детектора, основанного на признаках (2), полученных из нового представления изображения, была подготовлена выборка из 2517 фронтальных изображений лиц с различным освещением, мимикой. Также была подготовлена выборка из 16329 изображений без лиц. Все изображения имеют размер 48*48 пикселей. В формировании признакового описания и обучении детектора участвовала подвыборка из 400 изображений с лицами и 400 изображений без лиц. Тестирование детектора проводилось на 2117 изображений с лицами, 15929 изображений без лиц [3].

Рассматривались четыре варианта представления исходных изображений: с 4, 5, 6, 7 слоями. Для каждого представления выбиралось по 100 наиболее информативных признаков, в рамках алгоритма их отбора. В результате каждое изображение описывалось 100 признаками. Для сравнения также использовались непосредственно яркостные признаки и признаки, основанные на диаграммах градиентов яркостей пикселей. В первом случае изображение разбивалось по вертикали и горизонтали на 12 зон; в результате каждое изображение описывалось 144 признаками, где признаком являлась средняя яркость зоны. Во втором случае сначала получалось изображение градиентов яркостей пикселей, которое разбивалось на 4 зоны. Для каждой из зон строилась гистограмма для 32 двух направлений градиентов. В результате каждое изображение описывалось 128 признаками. Результаты работы алгоритма детектирования лиц в зависимости от выбранных признаков представлены на рис. 3.

4. Заключение

Таким образом, признаки, полученные из рассматриваемого пирамидального представления изображения, в целом показали лучше результаты по сравнению с яркостными и градиентными признаками.

В случае с детекторами объектов на изображении используется техника скользящего окна по изображению. В результате такого подхода окна различных размеров проходят (скользят) по изображению, и в каждой позиции окна делается попытка обнаружения объекта. Полученные признаки гарантированно будут вычисляться за одинаковое количество времени для различных размеров окон анализа, когда на время вычисления градиентных признаков размер рассматриваемой области влияет. Используя предложенные признаки можно сократить время обработки изображения.

,=1

Рис. 3. Сравнительные результаты качества работы алгоритма детектирования лиц в зависимости от выбранных признаков: 1) яркостные признаки; 2) градиентные признаки; 3) признаки (2), полученные из четырехуровневого представления изображения; 4) признаки, полученные из пятиуровневого представления изображения; 5) признаки, полученные из шестиуровневого представления изображения; 6) признаки, полученные из семиуровневого представления изображения

Сравнение яркостных, градиентных признаков и признаков [2) для различного количества уровней в пирамидальном представлении изображения

20_I_I_I_I_I_I_I_I_I_

0123456789 10

Процент ложного детектирования

Литература

1. Бахвалов, Ю.Н. Метод многомерной интерполяции и аппроксимации и его приложения / Ю.Н. Бахвалов. - М., 2007.

2. Критерий Джини. - URL: www.basegroup.ru/ library/ analysis/tree/math_cart_part1

3. Расположение выборок лиц и шума. - URL: https:// yadi.sk/d/FuWh5XJfd2N7m

4. Ту, Дж. Принципы распознавания образов / Дж. Ту, Р. Гонсалес. - М., 1974.

5. Южаков, Г. Расширенный набор характеристик Хаара / Г. Южаков // The 22nd International Conference on Computer Graphics and Vision, Russia, Moscow, October 0105, 2012. - М., 2012.

6. Viola, P. Robust Real-Time Face Detection, International Journal of Computer Vision 57(2) / P. Viola, M. Jones. -2004. - Р. 137-154

УДК 621.924

А.П. Сергиев, Д.А. Проскурин, А.В. Макаров

К ВОПРОСУ О ВОЛНОВОЙ ПРИРОДЕ МЕХАНИЗМА СЪЕМА МЕТАЛЛА ПРИ ВИБРОАБРАЗИВНОЙ ОБРАБОТКЕ

В статье приведено теоретическое обоснование и экспериментальное подтверждение формирования в сыпучей среде продольных волн сжатия-разряжения, показана возможность оптимизации процесса съема металла при настройке системы на формирование стоячей или бегущей волны.

Виброфиниш, продольная волна, гранулированная среда, зона сжатия и разряжения, бегущая волна, оптимизация.

i Надоели баннеры? Вы всегда можете отключить рекламу.