Научная статья на тему 'ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ'

ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
361
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗОБРАЖЕНИЕ / СЕГМЕНТАЦИЯ ИЗОБРАЖЕНИЙ / МАРКОВСКИЕ СЛУЧАЙНЫЕ ПОЛЯ / СВЁРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / АЛГОРИТМЫ ВЫДЕЛЕНИЯ КОНТУРОВ / ЕМ АЛГОРИТМ / ГРАДИЕНТ / ПИКСЕЛЬ / ТЕКСТУРА / ГИСТОГРАММА / СЕГМЕНТАЦИОННАЯ КАРТА ИЗОБРАЖЕНИЯ / ОПЕРАЦИЯ СВЁРТКИ / ОПЕРАЦИЯ ПУЛИНГА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Князев Денис Викторович

Данная статья посвящена обзору нескольких современных методов решения задачи сегментации изображений. Все методы основаны на разных подходах к решению задачи, что обусловлено разнообразием предметных областей, в которых они используются. Также помимо обзора алгоритмов рассмотрены свойства изображения, как математической структуры и требования, предъявляемые к сегментированным изображениям.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Князев Денис Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A REVIEW OF SOME IMAGE SEGMENTATION ALGORITHMS

This article is devoted to an overview of several modern methods for solving the problem of image segmentation. All methods are based on different approaches to solving the problem, which is due to the variety of subject areas in which they are used. Also, in addition to the review of algorithms, the properties of the image, as a mathematical structure, and the requirements for segmented images are considered.

Текст научной работы на тему «ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ»

Троицкий Александр Николаевич, канд. техн. наук, доцент, antroitsky@;yandex. ru, Россия, Тула, Тульский государственный университет,

Пасько Алексей Николаевич, д-р техн. наук, проф., aleksey.n.pasko@mail.ru, Россия, Тула, Тульский государственный университет

OPTIMIZATION OF RAILWAY TRAFFIC FLOWS A.N. Troitsky, A.N. Pasko

The problem of energy optimization in the transportation of goods by rail is considered. Comparative calculations are carried out using the evolutionary method and the generalized reduced gradient method.

Key words: evolutionary method, generalized reduced gradient method.

Troitsky Alexander Nikolaevich, candidate of technical sciences, docent, an-troitsky@yandex.ru, Russia, Tula, Tula State University,

Pasko Aleksey Nikolaevich, doctor of technical sciences, professor, ale-ksey.n.pasko@mail.ru, Russia, Tula, Tula State University

УДК 004

DOI: 10.24412/2071-6168-2021-10-393-401

ОБЗОР НЕКОТОРЫХ АЛГОРИТМОВ СЕГМЕНТАЦИИ ИЗОБРАЖЕНИЙ

Д.В. Князев

Данная статья посвящена обзору нескольких современных методов решения задачи сегментации изображений. Все методы основаны на разных подходах к решению задачи, что обусловлено разнообразием предметных областей, в которых они используются. Также помимо обзора алгоритмов рассмотрены свойства изображения, как математической структуры и требования, предъявляемые к сегментированным изображениям.

Ключевые слова: изображение, сегментация изображений, марковские случайные поля, свёрточные нейронные сети, алгоритмы выделения контуров, ЕМ алгоритм, градиент, пиксель, текстура, гистограмма, сегментационная карта изображения, операция свёртки, операция пулинга.

Изображение - это в общем случае непрерывная функция f (x, у) двух аргументов x, у , которые определяют координаты на плоскости, а значением функции является показатель интенсивности для цветного изображения, либо уровень серого для изображения в градациях серого, то есть информация о цвете [1]. Значения, которые принимает функция должны быть дискретизированы, а координатная плоскость, на которой они представлены ограничена, так как непрерывные сигналы невозможно хранить в памяти компьютера. Если эти условия соблюдены, то изображение называется цифровым. Цифровое изображение состоит из конечного числа элементов, расположенных на координатной плоскости и содержащих в себе информацию о дискретизированных значениях функции f (x, у) . Подобные элементы обычно называют пикселями.

Цифровые изображения представляются, как правило, в виде двумерного массива (матрицы) m х п , где m - количество пикселей по вертикали, а п - количество пикселей по горизонтали. Каждый элемент такой матрицы содержит значения функции f (x, у) для пикселя, расположенного на координатах [x, у] . Размерность матрицы, то есть количество пикселей, которыми дискретизируется изображение, называется разрешением цифрового изображения.

При этом, чем выше эта величина, тем меньше происходит потерь при оцифровывании изображения, а значит объекты представленные на нем будет иметь более гладкие и четкие контуры, что повышает качество восприятия изображения, однако увеличивает с другой стороны скорость обработки изображения вычислительными средствами. Разрешение также можно задавать другими способами. Одним из таких способов является величина, выражающая количество пикселей на пространственную единицу [1]. Примером такой величины является dpi - количество пикселей на дюйм. Такие метрики являются более верным отображением разрешения изображения, так как зависят не только от количества пикселей, но и их размера.

Исходя из вышеописанной структуры цифрового изображения, можно сделать вывод о том, что изображение - это пространство объектов, обладающих определенными (цветовыми) характеристиками. Так как визуальная информация имеет большое значение в различных сферах жизни, задачи обработки изображений достаточно разнообразны. Одной из таких задач является сегментация изображений - разбиение изображения R на множество покрывающих его областей Ri..Rn [2]. При этом эти области должны удовлетворять определенным требованиям [1, 2, 3]:

1) Un=i R-i = R , то есть множество областей конечно, и объединением множества областей будет являться изображение

2) R П Rj = 0 , то есть область не могут пересекаться между собой

3) Смежные сегментированные области должны значительно отличаться друг от друга по значению характерного признака

4) Границы областей должны быть гладкими и не иметь разрывов

5) Сами области должны быть однородными и не могут содержать внутренних разрывов.

Другими словами сегментация изображений заключается в том, чтобы присвоить каждому пикселю метку, выражающую его принадлежность к какой - либо области изображения.

Задача сегментации встречается в различных сферах исследований и деятельности. Так как изображения могут иметь различные особенности, существует несколько вариантов решения проблемы сегментации изображений, каждый из которых основан на определенном принципе. В общем случае задача сегментации сводится к задаче кластерного анализа данных, которая заключается в разбиении векторов признаков на подмножества [2]. В случае сегментации происходит разбиение пикселей исходя из информации об их цветовых признаках без априорного знания об областях, сегментирующих изображение.

В основе разнообразия алгоритмов сегментации изображений лежит прежде всего то, что задача деления изображения на области возникает в различных ситуациях. Это приводит к разрыву между предметными областями, так как различаются как методы визуализации объектов, так и сами объекты, представленные на изображениях.

Достаточно часто встречается задача сегментирования текстурированных изображений. Такие изображения получаются, например, при аэрофотосъемке, изображениях со спутника, геологических и медицинских изображениях. Такие изображения имеют однородную структуру и отображают визуальные свойства объектов [4]. В источнике [5] представлен алгоритм составного сегментатора для текстурированных изображений с неизвестным заранее числом классов. Составной сегментатор основан на взвешенной комбинации нескольких карт сегментации, полученных для различных фрагментов Комбинирование различных карт сегментации происходит с использованием модифицированного правила суммы.

Предполагается, что входное изображение разбивается на M изображений меньшего разрешения. Текстура для каждого пикселя представляется 3-х мерной авторегрессионной моделью случайного поля следующего вида [6]:

Y = уХ + e

г 1 Г Г '

где Yr - восстанавливаемое значение для пикселя r, у -параметрическая матрица модели размера d х d/, d - число спектральных полос изображения, / - мощность множества соседних пикселей пикселя r, Xr - вектор, содержащий значения соседних пикселей, er -вектор белого шума с нулевым средним. Текстура для каждого пикселя задается 4 параметрическими векторами следующего вида:

уr [у'r , Уr , Уr , У r ] ,

где каждый вектор представляет собой оценки параметров распределения для соседних пикселей, которые берутся в разных направлениях (top-down(сверху вниз), Ьойот-ир(снизу вверх), rightward (вправо), leftward (влево)). После вычисления параметрического пространства распределения yr его необходимо сгладить и уменьшить размерность применением разложения

Карунена-Лоэва. Затем к вектору признаков добавляются средние спектральные значения Qr, и результирующее параметрическое пространство примет вид:

© = [Yr ¿Г ]T .

Полученное параметрическое пространство m-того фрагмента изображения можно представить в виде гауссовой смеси распределений следующим образом :

p (©(rm})=х"(m) p(m) p( ©m vm, к)

i

(&rm>-vm )T (£m )-1(&(rm>-vm)

p(&(rm)\vmt, Em ) = -=i-* 2

E4

~ d (2ж)2

Разделение представленной модели смеси происходит применением модифицированного EM алгоритма. Данный алгоритм инициализируется в 2 этапа: уточнение (refining direction) и укрупнение (coarsening direction). Каждый шаг уточнения инициализируется постепенно увеличиваемой тематической картой (изображение, разбитое на сегменты), полученной на предыдущем шаге укрупнения и оценивает уточненную тематическую карту. Результатом инициализации является оценка тематической карты, полученная на втором прохождении этапа укрупнения. Затем для каждой пары фрагментов изображения оценивается расстояние Кульбака-Лейблера. Пары с минимальным значением расстояния Кульбака-Лейблера объеди-

m ym

няются на шаге укрупнения и происходит пересчет параметрических компонент Vi i

выполнением ЕМ алгоритма. Алгоритм останавливается либо в случае достижения максимального количества итераций, либо если функция правдоподобия практически перестает изменяться.

Полученные вероятностные модели необходимо сопоставить с пространством изображения исходного разрешения. Результатом работы каждого сегментатора является вектор вероятностей принадлежности того или иного пикселя к какому либо из кластеров. Этот вектор вычисляется на основе компонентов смеси, полученных для каждого пикселя. Результаты сегментации полученные с фрагментов изображения невозможно комбинировать без знания взаимного соответствия между фрагментами изображения во всех сегментационных вероятностных картах различного разрешения. Для получения информации о взаимных соответствиях используется алгоритм Мункре. Затем пиксели распределяются по кластерам с использованием модифицированного правила суммы следующего вида:

Mp 2 p(Q(; )i j), E(m)))

j* = max j Z ( ---—) ,

" " ZP^J^),^)) i=\

se!r

где 0)s - фиксированные веса на основе расстояний, 1 r - прямоугольная окрестность пикселя r.

Площадь кластеров оценивается на этапе фильтрации тематической карты после обработки. Фрагменты со схожей статистикой объединяются. Фрагменты с площадью меньше порогового значения объединяются с наибольшим по площади соседним кластером.

Для нетекстурных изображений, содержащих композицию объектов, разработан метод [7], который основан на преобразовании результата работы контурного детектора, который выделяет контуры объектов на входном изображении, в иерархическое дерево областей. Для выделения контуров объектов на изображении в данной статье предлагается к использованию алгоритм gPb (globalized probability of boundary) [8]. Основной идеей данного алгоритма является вычисление ориентированного градиентного сигнала для изображения G(x, y, в, r) . На изображении вдоль предполагаемых границ объектов выделяются круглые множества радиусом r пикселей и центром в точке (x, y ). Данные множества делится на два равных подмножества-полукруга линией, которая наклонена под углом в. Для обоих подмножеств строится гисто-

грамма значений интенсивности пикселей, которые им покрываются. Величина градиента G( x, y,6, r) определяется расстоянием между двумя гистограммами двух полукруглых подмножеств g и h:

2i g (i) + h(i) .

На реальных изображениях границы объектов могут иметь сложные структуры гистограмм интенсивностей [9]. Вычисление ориентационной энергии [10] позволяет выявить на изображении подобные структуры. Это делается для нахождения оптимальных значений углов наклона 0 разделяющих линий. Вычисление ориентационной энергии происходит по формуле:

OEe a = (I * f0J + (I * f0J,

где f0a и f0a - это квадратурная пара четно и нечетно симментричных фильтров, которые вытянуты вдоль предполагаемой границы, для угла наклона 0 и масштаба о . Значение угла наклона выбирается оптимальным, если значение ориентационной энергии для него является максимальным.

После вычисления величины градиента G(x, y,0, r) к изображению применяется фильтр Савицкого-Голея [11] для сглаживания и усиления локальных максимумов и получения карты контуров изображения на основе полученных гистограмм. Затем для изображения вычисляются 4 градиентных сигнала путем преобразования входного изображения в 4 различных канала признаков. Первые три канала признаков соответствуют компонентам цветового пространства CIELAB, если входное изображение является цветным, а в случае с изображением в градации серого данный сигнал будет формироваться непосредственно интенсивностями пикселей без использования цветовых каналов. Четвертый канал - это канал текстур, который содержит идентификатор текстонов для каждого пикселя. Градиентные сигналы по каждому из признаковых каналов, которые рассчитываются независимо друг от друга. Результатом работы контурного детектора является комбинирование карт контуров, полученных для изображения на различных картах признаков.

После выполнения алгоритма выделения контуров gPb запускается алгоритм сегментации OWT - UCM [12], который строит иерархию областей на основе выходных данных любого контурного детектора изображения. Данный алгоритм состоит из двух основных этапов: ориентированное преобразование водораздела (Oriented Watershed Transform (OWT)) и построение ультраметрической контурной карты(Ultrametric Contour Map (UCM)). Первым этапом алгоритма является OWT. Он начинается с построения наилучшего разделения для областей, границы к которым имеют наибольший показатель градиента G(x, y) = max0 G(x, y, 0) . Для областей с минимальным значением градиента Р0 применяется морфологическое преобразование водораздела. В результате данного преобразования будут получены уточненные возможные положения границ К 0, которые являются дугами водораздела. Затем необходимо аппроксимировать вычисленные дуги водораздела К0 отрезками линий, и для всех пикселей, входящих в данную линию пересчитать значение градиента G(x, y, 0) с 0 равным углу наклона аппроксимирующей линии.

Завершающим этапом сегментации является построение ультраметрической контурной карты. Сегментация K изображения u - это конечное множество выпрямленных кривых Жордана [13], которые называются контурами. При этом существует ряд предположений о расположении контуров:

1) Контуры могут соприкасаться только на концах отрезков, которые их описывают

2) Каждый контур разделяет две разные области изображения

3) Точки, определяющие конец отрезка, обозначающего контур, являются общими по крайней мере для 3х контуров.

Именно этим требованиям должна соответствовать контурная модель изображения, для того чтобы отображать сегментацию.

Ультраметрическая контурная карта является представлением HSO (hierarchical segmentation operator(иерархический оператор сегментации)). В общем виде процесс построения иерархической сегментации изображения заключается в разделении графа

G = (Р0, К0,Ж (С)), где множество областей изображения Р0 - вершины графа; контуры изображения, разделяющие области К0 - ребра графа; мера различия между разделяемыми областями Ж (С) -веса ребер графа; выглядит следующим образом:

1) Выбор контура с наименьшим весом

С * = ащттсекоЖ (С)

2) Пусть Я,, Я2 - это области, разделенные контуром С . Произвести слияние этих

Я = Я, и Я2 двух областей в одну: Р0 ^ Р0 \{Я,, Я2} и {Я}

Ко ^ К0 \{С*}

3) Повторять, пока множество К0 не пустое

Этот процесс создает дерево областей, где листья являются начальными элементами Р0, корень-это исходное изображение, а области упорядочены отношением включения. Несходство между двумя соседними областями определяется как вес 0(X, у, в) их общей границы, вычисленными на завершающем этапе OWT. Поскольку на каждом шаге алгоритма все оставшиеся контуры должны иметь вес, больший или равный ранее удаленным, вес удаляемого в данный момент контура не может уменьшаться в процессе слияния. Таким образом, построенное дерево областей имеет структуру индексированной иерархии и может быть описано дендрограммой,

где высота Н^) каждой области R является значением несходства, при котором она впервые появляется. Иерархия также задает метрику на множестве Р0, причем расстояние между двумя областями задается высотой наименьшего содержащего сегмента:

Б(Я,, Я2) = шт{# (Я) : Я,, Я2 с Я}.

Это расстояние также удовлетворяет свойству ультраметрического пространства: Б(Я,,Я2) < шах(Б(Я,,Я),Б(Я2,Я)).

Таким образом такую иерархию можно представить в виде ультраметрической контурной карты, изображения, полученного путем взвешивания иерархической значимости контуров. Это изображение отвечает всем выдвинутым выше требованиям к сегментации, создавая набор замкнутых контуров, и по сути, отражая контраст между соседними областями.

Достаточно большим классом алгоритмов сегментации являются алгоритмы, основанные на кластеризации. В источнике [14] представлен алгоритм сегментации, основанный на генерации суперпикселей(небольшие кластеры пикселей, имеющих общие свойства) с использованием алгоритма кластеризации К-шеа^. Алгоритм имеет достаточно простую структуру, в основе которой лежит алгоритм кластеризации, единственным гиперпараметром для которого является к - количество примерно равных по размеру суперпикселей. На вход подается либо изображение в градациях серого, либо цветное изображение, преобразованное в цветное пространство CIELAB. Алгоритм начинается с начальной инициализации к центров кластеров Ci = ], которые располагают с интервалом пикселей друг от друга. Для получения

суперпикселей примерно равного размера интервал сетки задают как 5 = * — . Далее на этапе

V к

назначения каждый пиксель { ассоциируется с ближайшим центром кластера, область поиска которого перекрывает его местоположение, что приводит к сокращению вычислений. Площадь такого ограничивающего пространства равна 25 х 25 . Затем происходит уточнение центра полученного кластера и пиксели снова распределяются по кластерам по принципу ближайшего центра. Норма L2 используется для вычисления остаточной ошибки Е между новыми местоположениями центра кластера и предыдущими местоположениями центра кластера, если она ниже порогового значения, то это означает, что центры кластеров не пересчитываются, и, следовательно, кластеризация завершена. Метрикой расстояния между пикселями в данном алгоритме служит 1аЬху метрика в виду того, что изображение представляется в цветовом пространстве CIELAB. Так как применение простого вычисления евклидова расстояния на 5 мерном CIELAB пространстве сопряжено с проблемами (для суперпикселей большого размера пространствен-

ные расстояния перевешивают цветовую близость, придавая больше относительной важности пространственной близости, чем цвету, а для суперпикчелей малого размера ситуация обратна), необходимо нормализовать цветовую близость NC и пространственную близость NS по их соответствующим максимальным расстояниям внутри кластера следующим образом:

dc = V(i, -1 )2 + a - a )2 + (bj - b )2

ds = (x, - X )2 + (y, - y )2

D = /(-^)2 + (-^ )2, wwuN, = S, Nc = m = const

\Nc Ns s c

Исходя из вышеописанной структуры, можно переписать формулу расстояния следующим образом:

D = ^ d2 + (L± )2 г2

Определение метрики расстояния таким образом позволяет важность цветового сходства между пикселями и близость расстояния. Чем больше значение m тем большее влияние на значение расстояния будет оказывать пространственная близость, что будет делать результирующие суперпиксели более компактными. При малых значениях m будут лучше прилегать к границам изображения, но будут иметь неправильную форму. Для изображений в градации серого расчет расстояния будет выглядеть следующим образом:

D = 7(Xj - x, )2 + (yj - yt )2 + (ij - zt )2

В завершении алгоритма могут остаться пиксели, которые не вошли ни в один из суперпикселей. Для устранения этой проблемы такие пиксели присоединяют к ближайшему кластеру.

В последнее время приобрели высокую популярность методы сегментации, основанные на глубоком обучении, то есть применении нейронных сетей. В источнике [15] описывается использование методов, основанных на обучении свёрточных нейронных сетей. Свёрточные нейронные сети используются прежде всего для решения задач распознавания образов на изображениях, а в основе принципа ее работы лежит операция свёртки, которая заключается в том что изображение делится на фрагменты, каждый из которых в последствии умножается на ядро свертки (матрицу коэффициентов) поэлементно. Разделение изображения на фрагменты производится исходя из условия, которое гласит, что их размер должен совпадать с размером ядра свёртки. Затем полученные для каждого пикселя результаты умножения суммируются и записываются в соответствующие позиции выходного изображения. На вход такой нейронной сети подается трехмерный массив размерностью h х w х d , где h х w - это массив пикселей входного изображения, размерностью h х w , а d - это количество цветовых каналов, которыми описываются пиксели изображения. Свёрточные нейросети состоят из трех основных слоев: свёр-точного слоя, слоя активации и слоя объединения (подвыборки (pooling)). При этом архитектура предусматривает, что эти слои следуют друг за другом, а количество слоев определяется глубиной поиска признаков на изображении (чем больше слоев в такой сети, тем более мелкие особенности входного изображения будут определены на выходе). Преобразование пикселя x, , взятого с фрагмента входного изображения на любом из слоев выглядит следующим образом:

y j = fks (xs,+S,sj+Л 0 < Si, 8j < k,

где k - размер ядра свертки, s - коэффициент подвыборки fks - определяет тип слоя: матричное умножение для свертка, либо функция пуллинга, которая должна уменьшить пространственный размер изображения. Таким образом общая схема работы таких нейронных сетей выглядит следующим образом:

1) Применение операции свертки к входному изображению

2) Уменьшение размера изображения на слое подвыборки, которое заключается в уплотнении изображения, применением к нему нелинейной функции. Выходом этого слоя является так называемая карта признаков изображения меньшей размерности, которая подается на следующий слой свёртки. Таким образом на выходе нейронной сети формируется пирамидальная структура признаков изображения.

На выходе свёрточных нейронных сетей, как правило, добавляются классифицирующие слои, которые определяют класс объекта на изображении на основе признаков взятых с него. Однако это неприменимо для решения задачи сегментации изображения. Для решения задачи сегментации предложена FCN (Fully Convolution Neural network) архитектура сверточ-ной нейронной сети. Она основана на том, что для решения задачи сегментации необходимо просто согласовать выходную карту признаков изображения с исходным изображением. Другими словами, подобная нейронная сеть объединяет иерархию признаков изображения, полученных с разных слоев и уточняет пространственные характеристики данных признаков, таким образом согласуя «грубые» признаки, полученные с верхних слоев свертки с более точными признаками, полученными на глубоких слоях. Для этого к выходу свёрточной нейронной сети добавляются слои апсэмплинга для повышения дискретизации изображения. Согласование карт признаков расположенным в пространстве входного изображения проводится с применением к картам признаков интерполяции. Работа FCN выглядит следующим образом:

1) Входное изображение уменьшается до размеров 1/2, 1/4, 1/8, 1/16 и 1/32 последовательным проходом через 5 слоев свертки и пуллинга (pool 1, pool 2, pool 3, pool 4, pool 5). Результат полученный на 5 слое свертки подвергается операции повышения дискретизации, на выходе которого генерируется исходная сегментационная карта изображения - FCN-32s с повышенной в 32 раза частотой дискретизации. Однако данная сегментационная карта слишком разрежена. Поэтому для ее уточнения предлагается использовать выходы с 3-го и 4-го слоя свертки (pool 3 и pool 4).

2) Сегментационная карта изображения FCN-32s объединяется с выходом слоя pool 4, что дает шестнадцатикратное повышение частоты дискретизации. Результатом этапа обработки является сегментационная карта FCN-16s

3) Сегментационная карта изображения FCN-16s объединяется с выходом слоя pool 3, что дает восьмикратное повышение частоты дискретизации. Результатом этапа обработки является сегментационная карта FCN-8s, которая и является результирующей.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В источнике \16] описана похожая на FCN U-Net архитектура нейронной сети, решающей задачу сегментации изображения. Данная нейронная сеть состоит из двух частей сужающей и расширяющей. Сужающая часть представляет собой классическую свёрточную нейронную сеть, состоящую из двух слоев свертки с ядром ЗхЗ, с следующими за ними слоями пулин-га шагом 2 для понижения дискретизации. На каждом шаге понижающей дискретизации удваивается количество функциональных каналов. На расширяющей части как и в FCN сети происходит обратная свертке операция для повышения изображения. Каждый шаг на этой части сети состоит из слоя пуллинга, увеличивающего карту признаков и слоя увеличивающей свертки. Различием FCN U-Net является то, что U-Net сети проще в обучении, так как FCN сеть требует проведения минимум трех этапов обучения, а для U-Net достаточно 1.

Список литературы

1) Gonzalez R.C., Woods R.E. Digital Image Processing, 3rd edition//Pearson Educational International. 2008. P. 711-720.

2) Shapiro L.G., Stockman G.C. Computer vision, 3rd edition // Printice hall, Upper Sadle River, New Jersey. 2001. P. 362-364.

3) Haralick R.M., Shapiro L.G. Survey. Image Segmentation techniques // Machine Vision International. Academic Press Inc. 1985. P 100-132.

4) Haralick R.M., Shanmugam K., Dinstein I. Textural features for image classification // IEEE Transactions on systems, man and cybernetics. Vol.SMC 3. №6. 1985. P. 610-621.

5) Haindl M., Mikes S., Pudil P. Unsupervised Hierarchical Weighted Multi-segmenter // LNCS 5519. Springer-Verlag Berlin Heidelberg. 2009. P. 272-282.

6) Haindl M., Simberova S. A Multispectral Image Line Reconstruction Method // In: Theory & Applications of Image Analysis. World Scientific Publishing Co., Singapore. 1992. P. 306-315.

7) Arbelaez P., Maire M., Fowlkes C., Malik J. Contour Detection and Hierarchical Image Segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010. 33(5). P. 898916.

8) Martin D.R., Fowlkes C., Malik J. Learning to Detect Natural Image Boundaries Using Brightness and Texture. 2002. P. 1255-1262.

9) Perona P., Malik J. Detecting and Localizing Edges Composed of Steps, Peaks and Roofs // Perona, Pietro and Jitendra Malik. "Detecting and localizing edges composed of steps, peaks and roofs". Proceedings Third International Conference on Computer Vision, 1990. P. 52-57.

10) Morrone M., Burr D. Feature Detection in Human Vision: A Phase Dependent Energy Model // Proc. Royal Soc. of London B, 1988. Vol. 235. P. 221-245.

11) Savitzky A., Golay M. J. E. Smoothing and differentiation of data by simplified least squares procedures // Analytical chemistry. 1964. 36. P.1627-1639.

12) Arbelaez P., Maire M., Fowlkes C., Malik J. From contours to regions: An empirical evaluation. 2009. P. 2294-2301. 10.1109/CVPRW.2009.5206707.

13) Arbelaez P. Boundary extraction in natural images using ultrametric contour maps. 2006. 10.1109/CVPRW.2006.48.

14) Achanta R., Shaji A., Smith K., Lucchi A., Fua P., Susstrunk S. SLIC Superpixels Compared to State-of-the-Art Superpixel Methods // IEEE Transactions on PatternAnalysis and Machine Intelligence 34(11). 2012. P. 2274-2282.

15) Long J., Shelhamer E., Darrel T. Fully Convolutional Networks for Semantic Segmentation, 2015. [Электронный ресурс] URL: https://arxiv.org/pdf/1411.4038.pdf (дата обращения: 10.05.2021).

16. Ronneberger O., Fischer P., Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015. 39. [Электронный ресурс] URL: https://arxiv.org/pdf/1505.04597.pdf (дата обращения: 10.05.2021).

Князев Денис Викторович, аспирант, denis. denis-knyazev2018@,yandex. ru, Россия, Москва, Федерального исследовательского центра «Информатика и управление» Российской Академии Наук (ФИЦ ИУ РАН)

A REVIEW OF SOME IMAGE SEGMENTATION ALGORITHMS

D.V. Knyazev

This article is devoted to an overview of several modern methods for solving the problem of image segmentation. All methods are based on different approaches to solving the problem, which is due to the variety of subject areas in which they are used. Also, in addition to the review of algorithms, the properties of the image, as a mathematical structure, and the requirements for segmented images are considered.

Key words: image, image segmentation, Markov random fields, convolutional neural networks, edge detection algorithms, EM algorithm, gradient, pixel, texture, histogram, image segmentation map, convolution operation, pooling operation.

Knyazev Denis Viktorovich, postgraduate, denis.denis-knyazev2018@yandex.ru, Russia, Moscow, Federal Research Center «Informatics and Management» of the Russian Academy of Sciences (FRCIU RAS)

i Надоели баннеры? Вы всегда можете отключить рекламу.