ошибки) порог для сегментации изображения на два класса c0 и c1 (объекты и фон).
ni
Гистограмма строится по значениям pi =— . В данной формуле N - общее количество пикселей изображения с уровнем яркости i. Порог t представляет собой целое значение от 0 до L = max. При помощи гистограммы все пиксели разделяются на «полезные» (объектные») и фоновые. Каждому виду соответствуют относительные частоты W0 и W1:
W0(t) =
ZPo
t=i
W-
¿—¡i=t+1 Wi
УДК 004.932.4
Ефимов А.А., Кудрина М.А., Гордеева О.А.
ФГАОУ ВО «Самарский национальный исследовательский университет имени академика С.П. Королева» (Самарский университет), Самара, Россия
ИССЛЕДОВАНИЕ ВЛИЯНИЯ РАЗЛИЧНЫХ МЕТОДОВ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ИЗОБРАЖЕНИЙ НА КАЧЕСТВО РАСПОЗНАВАНИЯ ТЕКСТА
Предварительная обработка изображений является одним из основных этапов в задаче распознавания изображений. Для повышения качества распознавания применяется ряд функций, среди которых поворот, бинаризация, выравнивание, удаление шумов и др.
Для исследования влияния различных алгоритмов предварительной обработки на качество распознавания текста была разработана автоматизированная система. Данная система включает следующие алгоритмы предварительной обработки: бинаризация с нижним порогом, бинаризация с двойным ограничением, методы Оцу, Саувола и Брэдли, метод удаления шумов с помощью медианного фильтра. Для распознавания текста с обработанного изображения использовалась библиотека с открытым исходным кодом Tesseract.
Проведено распознавание текста с изображений с различного вида помехами, подсчитана точность распознавания текста с помощью расстояния Левенштейна. Приведены графики, наглядно показывающие, как различные виды бинаризации влияют на точность последующего распознавания текста с изображения.
Ключевые слова:
РАСПОЗНАВАНИЕ ТЕКСТА, БИНАРИЗАЦИЯ, ИЗОБРАЖЕНИЕ, УДАЛЕНИЕ ШУМОВ
Введение. Задача перевода информации с бумажных на электронные носители имеет большую актуальность в наши дни. Наиболее простым способом перевода информации в электронный вид является сканирование документов с помощью сканера. Несмотря на простоту этого способа, результат работы, графический файл, требует больших затрат на хранение и передачу информации. Более предпочтительным способом с практической точки зрения является перевод бумажных носителей в текстовый электронный документ.
На вход системы распознавания поступает растровое изображение документа. Для оптимальной работы алгоритмов желательно, чтобы изображение было как можно более высокого качества. Наличие шумов, размытости, низкой контрастности усложнит работу алгоритмов.
Поэтому перед распознаванием текста изображение проходит обработку, повышающую его качество. Она включает удаление шумов с изображения, повышение резкости и контрастности изображения и его бинаризация.
Результаты проведенного анализа позволяют выявить наиболее подходящий метод бинаризации для самых распространенных видов помех на изображении.
Бинаризация изображения. Процесс бинаризации - это перевод цветного (или в градациях серого) изображения в двухцветное черно-белое. Главным параметром такого преобразования является порог t - значение, с которым сравнивается яркость каждого пикселя. По результатам сравнения, пикселю присваивается значение 0 или 1. Основной целью бинаризации является уменьшение количества информации на изображении для упрощения последующей работы с ним.
Методы бинаризации можно разделить на две группы: глобальные (пороговые) и локальные (адаптивные) [1-3].
Глобальные методы бинаризации. В глобальных методах бинаризации работа происходит со всем изображением сразу. Определяется порог бинаризации t, величина которого остается неизменной в течение процесса работы алгоритма. К глобальным методам бинаризации относятся:
бинаризация с нижним порогом;
бинаризация с верхним порогом;
бинаризация с двойным ограничением;
метод Оцу.
Первые три метода основаны на применении заранее определенного порога к изображению. Яркость пикселя сравнивается с порогом и получает либо черный, либо белый цвет по результатам сравнения.
Метод Оцу работает иначе [1]. С помощью него вычисляется порог t, минимизирующий среднюю ошибку сегментации, т.е. среднюю ошибку от принятия решения о принадлежности пикселей изображения объекту или фону. Значения яркостей пикселей изображения можно рассматривать как случайные величины, а их гистограмму - как оценку плотности распределения вероятностей. Если плотности распределения вероятностей известны, то можно определить оптимальный (в смысле минимума
Р1 = 1-Ш0(1).
Ч=1+1
Далее вычисляются средние уровни для каждого вида изображения по формулам:
Далее ищется порог, который уменьшает дисперсию внутри вида пикселей, определяемую следующей формулой:
Следующим шагом определяется межклассовая дисперсия, по формуле, представленной ниже:
Ъ2Л(0 = ша(1)Ш1(1) • Ы*)-Ио(*))2.
Затем вычисляется максимальное значение для оценки качества деления изображения на две части, которое соответствует искомому порогу:
Г<(0
t) = max \
Достоинствами метода Оцу являются [1]: простота реализации;
адаптация к различного рода изображениям, при помощи выбора оптимального порога; быстрое время выполнения.
Локальные методы бинаризации. Операция сравнения яркости пикселя с неким пороговым значением является достаточно простой задачей. Важнее найти такое пороговое значение, которое позволит корректно отделить символы не только от фона, но и от шума, бликов, фона и другого информационного мусора различного вида.
Метод Брэдли. Часто для нахождения оптимального порогового значения используют математическую статистику. В данном методе для этого используются интегральные изображения.
Интегральное изображение - это инструмент, который помогает вычислить сумму яркостей пикселей в случайном прямоугольном секторе изображения, вне зависимости от того, имеются ли значения яркости для всех необходимых пикселей. Без интегральных изображений сумма яркостей пикселей вычислялась бы за линейное время для каждого пикселя прямоугольного сектора. Но если необходимо вычислить сумму для нескольких секторов изображения, можно использовать интегральное изображение и получить константное число операций для каждого сектора [2].
Интегральное изображение вычисляется так: для каждой точки интегрального изображения 1(х,у) вычисляется сумма яркостей пикселей левее и выше
данной точки. Формула вычисления каждой точки интегрального изображения имеет следующий вид:
1(х,у) = /(х,у) + !(х-1,у) + 1(х,у -1)-1(х-1,у-1).
Яркость любого пикселя случайного сектора исходного изображения с верхней левой точкой (х±,у±) и нижней правой точкой (х2,у2) вычисляется так:
тх1Т.Уу2=У1Г(х,у) = 1(Х2,У2) - К*2,У1 - 1) -1(*1 -
1,У2)+1(Х1-1,У1-1).
Суть метода Брэдли состоит в подсчете средней яркости пикселей в секторе хХх вокруг каждого пикселя изображения. Благодаря уже подсчитанному интегральному изображению, вычисление средней яркости вычисляется за линейное время. Если значение яркости пикселя на t процентов ниже среднего, ему присваивается черный цвет, иначе - белый. В методе Брэдли параметр х принимается за 1/8 ширины изображения, а t- за 15 [2].
1[Х + 2,У+2) + '{х-2,У-
Метод Саувола. В методе Саувола применятся обход всего изображения с помощью окна мХм. Для вычисления локального порога бинаризации Ь(х,у~) используются среднее значение яркостей пикселей т(х,у) и среднеквадратическое отклонение я(х,у) яркости пикселей в заданном окне вокруг пикселя (х,у). Вычисляется порог по следующей формуле:
1(х,у) = т(х,у)[1 + к(^-1)],
где К - это максимальное отклонение (К = 128 для изображения в оттенках серого), а к является параметром, который принимает значения в диапазоне [0.2,0.5] [3].
С помощью интегрального изображения среднее значение яркостей пикселей в окне ш Хм вычисляется по формуле:
т(х,у) =
Среднеквадратическое отклонение следующим образом:
W\ , ( , W W\ . ( w , w\
-2j-I{x+2,y-2j-I{x-2,y+2j
вычисляется
1
s2(x,y)=—2
^ ^ g2 (x, у) — m2 (x, y),
w
значением
яркости пикселя
где g2(i,j) является (i,i)-
Метод Саувола обычно применяется к изображениям, в которым яркость распределена неравномерно. Он хорошо работает для изображений, на которых присутствуют толстые линии и крупные объекты [3].
Проектирование и реализация автоматизированной системы.
Вышеуказанные методы были реализованы в автоматизированной системе, написанной на языке программирования Java с использованием фреймворка JavaFX. Разработанная система включает в себя следующие подсистемы:
1) подсистема работы с файлами, которая позволяет выбрать готовое изображение из памяти компьютера;
2) подсистема бинаризации изображения, которая позволяет сделать из цветного изображения черно-белое;
3) подсистема удаления шумов с изображения, которая позволяет удалить шумы с изображения для уменьшения ошибок при последующем распознавании;
4) подсистема распознавания текста, которая представляет распознанные символы с изображения в текстовом виде с использованием библиотеки;
5) подсистема исследования, которая позволяет получить статистику распознавания текста с изображений с разного рода помехами после применения каждого метода бинаризации;
6) подсистема визуализации, которая представляет результат распознавания и исходное изображение, а также представляет статистику, полученную в ходе работы подсистемы исследования, в виде графиков.
На рисунке 1 приведена структурная схема системы, а на рисунке 2 - диаграмма вариантов использования системы.
Для распознавания текста с изображения после его обработки используется Tesseract OCR. Tesseract - это программа с открытым исходным кодом, которая была выпущена в 200 6 году компанией Google. В ее основе лежит LSTM-сеть, которая позволяет с высокой точностью распознавать печатные тексты более, чем на 100 языках [4].
Для определения точности распознавания используется редакционное расстояние, или расстояние Левенштейна, - метрика, позволяющая определить «схожесть» двух строк - минимальное количество операций вставки одного символа, удаления одного символа и замены одного символа на другой, необходимых для превращения одной строки в другую [5].
Рисунок 1 - Структурная схема системы
Пусть
5,
две строки (длиной M{\displaystyle M}MM и W{\displaystyle ЩДО соответственно) над некоторым алфавитом, тогда редакционное расстояние (расстояние Левенштейна) 52) {\displaystyle {\™ ^}}^_{1}^_{2})} йй можно подсчитать по следующей рекуррентной формуле: й(5г,52) = й(М,Ы), где 0(1,])
0, i,
( D(i,j — 1) + 1, )
D(i — 1,j) + 1, }
[D(i — 1,j — 1) + m(SllilS2lil))
i = 0,j = 0, i > 0,j = 0, i = 0,j > 0,
i > 0,j > 0.
В качестве входных данных использовались фотографии печатного текста, которые подвергались различного рода помехам. Помехи были разделены по следующим группам: затенения и засветы; монохромный и цветной шум; помехи во время съемки; пуассоновский и лаплассовский шум; различная четкость и насыщенность; физические помехи.
Автоматизированная система позволяет также добавить другие группы помех и фотографии для проведения анализа, распознавать отдельные изображения, видеть результат применения различных методов бинаризации и распознанный текст на экране.
2
w
Лее Николаевич Толстой
АННА КАРЕНИНА
Рисунок 2
а)
Диаграмма вариантов использования системы
б)
Лев Николаевич Толстой
АННА КАРЕНИНА
п Ниноллрйич Толстой
АННА КАРЕНИНА
В)
ЧАСТЬ ПЕРВАЯ
ЧАСТЬ ПЕРВАЯ
ЧАСТЬ ПЕРВАЯ
в
чдетливые семьи похожи друг на друга, каждая -осгливая семья несчастлива по-своему, мешалось в доме Облонских. Жена уэнала. что р связи с бывшею в их доме францужеккою-«ткоА. и объявила мужу, что не может жить с ним доме. Положение это продолжалось уже третий »у«ительмо чувствовалось и самими супругами. I членами семьи, и домочадцами Все члены домочадцы чувствовали, что нет смысла в их ьстве и что на каждом постоялом дворе случай дшиеся люди более связаны между собой. ч«м сны семьи и домочадцы Облонских. Жена не
В
Лев Николаевич Толстой
АННА КАРЕНИНА
Г)
• •.■I г ли вые семьи похожи друг на друга, каждая
• .сглие-о семья несчастпива по-своему
• вешалось в доме Облонских Жена утала. что • в .«щи с бывшею в их доме фраииужеижов-
—..->1кои, и обьввилл мужу, что не может жись с ¡ни -. .м доме Положение это продолжалось умев трашА
* м\-хи.ельно чувствовалось и сити ^Вруфм^. #ми членами семьи, и дометит»». >и и домочадцы чувствовали, что и«? с
ельс*ве и что на каждом посомои| о^едши«« люди более сии
Лее Николаевич Толстой _ Ч
АННА КАРЕНИНА " '
- <».м-.и г .г ««..-и ару- н.- п:>','%> к. .и« ш^миго 1*0 СНО» м, ■ ЦОМ1 О*•10и'.»«« Лгии у I к'ИШсЛ И ИХ 4.ПМГ фРЛ'^У»*!
но гн>Пд(«|«<|Пи» (р^тии .•уясгьоЬа'Тч.ь и Самими Супругами г и лймО'.4Дивмй Все члены
• -уьС1Ви««чи. что не» смь»сяа к мх ••о <л«лпи посгояпом мворе случай ди N1-»» « вт<и»м мгжду собой, чем и |(и«<|<ч>Дк|)<| Облонских. Жен« не
Г- гг Н'ЖО-1>С9КЧ Толстой
КАРгнкн*
е)
ЧАСТЬ ПЕРВАЯ
ЧАСТЬ ПЕРВАЯ
ЧЛГIЬ ПЕРВАЯ
-и». <Г (сЧм* 1Ю«'ХИ Дру» ЧИ друг ж. »•'<аи| г.пя-.л. «.-мь*. ч^чл'п^М 1И> своему . .1'11К<- ■< диме О^понски« МРИ V ЧТО
не .и с Сыяи»е«п м ил доме ф*х»миу«ем*о«о-« «.'•'.»• %4ЬиП.. муку, что НС мО«ег ЖИ1» С Ним .-'»- П...лощение »го продолжалось уже (ретии .V .«-»по чувс'ьовклось и самими супругами. ■ ' |'||.1чи («гмьи. и домочадцами все «>лечы I' и.гили» *-уьс "вов^пи. что ме> смысла в их • в.- >и ч..«лом постоялом дворе случай
„•м- м л«ли более гвяины между собой, чем >ы семи- и димоч«даы Облонских Жена ме
В
, .^п^нвет семем« похожи друг на друга.хаждав -'•|.лгливич семвв несчастлива по-своему . < мешалось в доме Облоисхих Жена у 'нала. «по ны" р святи с бывшею в их доме фраиаужемхов ¡1.' -.Ь>1«К),М обьнви». мужу, что не может ХИЕ.С МММ ч .м доме Положение тго продол хл^с» уже трети ..а и мучи .ел.но чувствовалось и сними супругами, угм. членами семьи, и яомечадилни все члены 'ч.л и ЦОНЬЧИЛЦМ чувствовали, что мет смысла в их . х-1 ельстее и что на каждом постоялом дворе случай-I- со^едыиесв люди более еввтаны между собой, чем ни. члены семни и домочадцы ООлоисхих Жена не
ПрУа
■ с №
■ ■■ . 'Х>. " <1Л.н С*ЛСн- хм» .X» -.4 V». 4
. И» С Г.|....шехт н и.< -ЛНР II-- . на» V-.; УК' - .- И'чи м-.ает ч.'''
• -I •-•■ .-мкСИнн -1чЛ,- ПД'-ГЧ"« (■ \ . ГГ- .--• Л' • М О ч\~С .4^X14.. 1- I. .. . И Г , | ......
... н,- 1ЛН1..., и
................. ............................ч..и .-
-н- I ..г. ... « иктде... ![.»• ихвх .и .Г.» а
-г ...... и т.и'.'ч ....... »-С ■:• у т о.-о-т -ч
-II ит'ы н .1.4.■1|. (К*Т<.»Сч>*Х 1С-', не
Рисунок 3 - Результаты применения различны:-: методов бинаризации к исходному изображению
На рисунке 3 приведены результаты применения различных методов бинаризации к исходному изображению с помехами в виде монохромного шума и последующей его обработки медианным фильтром, где
исходное изображение;
результат применения бинаризации Оцу;
результат применения бинаризации с нижним порогом;
результат применения бинаризации с двойным ограничением;
результат применения бинаризации с помощью алгоритма Брэдли;
результат применения бинаризации с помощью алгоритма Саувола.
Для каждой группы помех были построены графики, изображенные на рисунке 4, показывающие точность распознавания текста после применения каждого из методов предварительной обработки. Согласно рекомендациям из РТМ, чтобы получить результаты исследований с доверительной вероятностью 0,95 нужно проводить 2 9 экспериментов с одинаковыми параметрами и выбирать наихудший вариант из них [6]. Результаты, отображенные на графиках, получены с учетом данных рекомендаций.
Тень справа и засвет
Сильный засвет всего изображения
Сильный засвет слева
Тень справа
Засвет слева
Рисунок 4
Бинаризация с нижним порогом. Нижний порог: 130.
Щ Бинаризация с двойным ограничением. Нижний порог: 130; Верхний порог: 170.
Точность распознавания текста после применения каждого из методов предварительной
обработки
Заключение. В работе описана разработанная автоматизированная система, которая позволяет производить распознавание текста с выбранного изображения после обработки его различными методами бинаризации, а также подсчитывать точность распознавания после применения каждого из этих методов и выводить результаты на графике. Это позволяет понять, какой метод бинаризации подходит для определенного вида искажений. Были рассмотрены различные виды методов бинаризации, приведены их формулы, также описан способ распознавания текста с обработанного изображения, способ подсчета точности распознавания. Автоматизированная система реализована на языке программирования Java с использованием фреймворка JavaFX для реализации пользовательского интерфейса. В данный момент система проходит этап тестирования и доработки интерфейса. В дальнейшем планируется реализовать автоматический выбор метода бинаризации в зависимости от искажения.
ЛИТЕРАТУРА
1. Кравцова Т.А. Сравнительное исследование методов адаптивной бинаризации в задаче автоматизированного анализа изображений клеток в иммуноцитохимии. - Молодежный научно- технический вестник, 2015. 8 с;
2. Брэдли, Д., Рот Г. Метод адаптивной бинаризации с использованием интегрального изображения. - Журнал графических инструментов, 2007, N 12. С. 13-21;
3. Исрафилов Х.С. Исследование методов бинаризации изображений. - Вестник науки и образования, 2017, N 6. С. 43-50;
4. Tesseract OCR / Github - репозиторий открытого программного обеспечения. 2008-2019. URL: https://github.com/tesseract-ocr/tesseract (дата обращения: 15.12.2019);
5. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. -Доклады Академий Наук СССР, 1965, т. 163, н.4. С. 845-848;
6. Методы нормирования метрологических характеристик, оценки и контроля характеристик погрешностей средств статистических измерений. - РТМ-25 139-74. Минприбор. 1974. С. 76.
УДК 681.2.084-192 Северцев Н.А., Савин Ю.А.
Федеральный исследовательский центр «Информатика и управление» Российской академии наук (ФИЦ ИУ РАН), Москва, Россия
ПРИНЦИПЫ ОЦЕНКИ ОСНОВНЫХ ПОКАЗАТЕЛЕЙ БЕЗОПАСНОСТИ ТЕКУЩЕГО СОСТОЯНИЯ СИСТЕМЫ
В данной статье приводятся основные понятия теории безопасности текущего состояния системы, такие как ущерб, надежность, живучесть, опасное состояние, инициирующее условие, а также показатели безопасности, такие как вероятность безопасности, период безопасности, стоимость ущерба, риск как количественная характеристика безопасности состояния системы. Под системой здесь понимается любая сложная техническая система, в том числе и робототехническая. Рассматривается математическая модель эволюции системы конечно-марковским процессом с непрерывным временем и приводятся принципы оценки основных показателей безопасности текущего состояния системы. Исследуются основные характеристики системы и показатели безопасности: весовая, переходная и спектральная функции, которые однозначно определяют качество и безопасность функционирования системы в текущих условиях. Выведены их математические формулы в виде выражений от вектора вычисленных значений весовой функции при реализации методов параметрической идентификации.
Ключевые слова:
СОСТОЯНИЕ СИСТЕМЫ, НАДЕЖНОСТЬ И ЖИВУЧЕСТЬ СИСТЕМЫ, БЕЗОПАСНОСТЬ СИСТЕМЫ, ПОКАЗАТЕЛИ БЕЗОПАСНОСТИ, ВЕРОЯТНОСТЬ БЕЗОПАСНОСТИ
Введение. Основные показатели безопасности В настоящее время внимание к безопасности сложных технических систем обусловлено техногенными авариями и катастрофами, количество которых возрастает в связи с быстрыми темпами развития машиностроения, массовым производством техники
различного назначения, стремительным ростом сложности машин, приборов и оборудования, насыщения ими сферы эксплуатации и технического обслуживания. Безопасность сложных технических систем стала важнейшей проблемой дальнейшего продвижения по пути научно-технического прогресса