Научная статья на тему 'SYSTEM FOR TEXT LOCALIZATION ON IMAGES USING CONVOLUTIONAL NEURAL NETWORK'

SYSTEM FOR TEXT LOCALIZATION ON IMAGES USING CONVOLUTIONAL NEURAL NETWORK Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
62
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛОКАЛіЗАЦіЯ ТЕКСТУ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Shymanskyi M.O., Kornaga Y.I., Barabash A.O.

Text processing on images is one of the greatest challenges for computer vision systems. Text localization is a major problem that must be solved for this task. Recent accomplishments in the field of artificial intelligence presented effective solutions for similar tasks in general object detection. Different configurations of convolutional neural networks presented themselves quite suitable for this kind of task. Such networks can be modified and optimized for usage in text localization task.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «SYSTEM FOR TEXT LOCALIZATION ON IMAGES USING CONVOLUTIONAL NEURAL NETWORK»

Shymanskyi M. O.

Master of Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikorsky

Kyiv Polytechnic Institute» Kornaga Y.I.

Candidate of Engineering Sciences, Associate Professor of the Department of Technical Cybernetics, National Technical University of Ukraine «Igor Sikorsky Kyiv Polytechnic Institute»

Barabash A.O.

Bachelor of Department of Technical Cybernetics,National Technical University of Ukraine «Igor Sikorsky

Kyiv Polytechnic Institute» Шиманський М.О.

Магiстр, Факультет тформатики та обчислюваног техтки, Нацюнальний mexui4Huu утверситет

Украти «Кшвський полiтеxнiчний iнститут iменi 1горя Сжорського»

Корнага Я. I.

кандидат техтчних наук, доцент кафедри теxнiчноi юбернетики Нацюнального теxнiчного утвер-ситету Украти «Кшвський полiтеxнiчний iнститут iменi 1горя Сторського»

Барабаш А. О.

Магiстр, Факультет тформатики та обчислюваног техтки, Нацiональний теxнiчний утверситет

Украти «Кшвський полiтеxнiчний iнститут iменi 1горя Сжорського»

SYSTEM FOR TEXT LOCALIZATION ON IMAGES USING CONVOLUTIONAL NEURAL

NETWORK

СИСТЕМА ЛОКАЛ1ЗАЩ1 ТЕКСТУ НА ЗОБРАЖЕННЯХ 13 ЗАСТОСУВАННЯМ КОНВОЛЮЦ1ЙНО1 НЕЙРОННО1 МЕРЕЖ1

Summary: Text processing on images is one of the greatest challenges for computer vision systems. Text localization is a major problem that must be solved for this task. Recent accomplishments in the field of artificial intelligence presented effective solutions for similar tasks in general object detection. Different configurations of convolutional neural networks presented themselves quite suitable for this kind of task. Such networks can be modified and optimized for usage in text localization task.

Key words: text localization, image processing, computer vision, neural networks, artificial intelligence.

Аннотащя: Обробка тексту на зображеннях е одним i3 найскладшших задач систем машинного зору. Локалiзацiя тексту на зображенш е вагомою шдзадачею, яка постае при виршенш такого роду завдань. Нещодавш досягнення в обласп штучного штелекту представили ефективш ршення для схожих задач загального пошуку об'екпв на зображенш. Рiзнi конф^раци конволюцшних нейронних мереж показали себе достатньо придатними для таких задач. Подiбнi нейромереж1 можить бути модифшоваш та ошгашзо-ваш для виршення задачi локалiзацil тексту на зображенш.

Ключовi слова: локалiзацiя тексту, обробка зображень, машинний зiр, нейроннi мереж1, штучний iн-телект.

Постановка проблеми

Текст е дуже поширеним вiзуальним об'ектом, який може зустрiчатись на цифровому зображеннi. Текст може зустрiчатись на вивiсках, дорожнiх знаках, рекламних щитах i т.п. Розшзнавання тексту на зображеннi може мати багато корисних застосу-вань: ввд збереження в цифровiй формi нотаток зроблених ввд руки та перекладу тексту на зображенш з шоземно! мови до геолокацп на основi зо-браження. Не дивлячись на схожють iз традицшним оптичним розпiзнаванням символiв, розпiзнавання тексту на повсякденному зображеннi ставить ряд нових проблем, яш потребують виршення. Текст на зображеннi у повсякденному житп може мати рiзний колiр та розмiр шрифту, вiн може бути руко-писним, що само собою означае, що написання може бути дуже варiативним по свош формi. Колiр фону та освiтлення також будуть вiдрiзнятись вiд зображення до зображення. Через невiд'емнi склад-ностi традицшш методи розпiзнавання тексту включають в себе багато крошв, на яких ввдбува-еться попередне опрацювання картинки для видь лення текстових кандидапв. Кожен такий метод за-

звичай потребуе значних зусиль для того, щоб правильно налаштувати параметри та сформувати ев-ристичнi правила для кожного конкретного випа-дку, але не дае ушверсального ршення для рiзнорi-дних зображень. Багатошаровi нейроннi мереж1 показали себе ефектившшими у вирiшеннi такого роду задач, оскшьки вони спецiально створеннi для пошуку закономiрностей у множинi рiзних можли-вих вхвдних даних для надання якомога точнiшого результату.

У данш роботi увага буде придiлена вирь шенню задачi пошуку текстових областей на зображенш за допомогою конволюцшних нейронних мереж. Пропонуеться пошук тексту на зображенш шляхом прямого передбачення прямокутних областей, що мiстять текст, за допомогою детектору на основi згортково1 нейронно1 мереж!. Цей детектор напряму видае координати текстових областей на дек1лькох шарах мереж! шляхом об'еднаного передбачення наявносл тексту i змiщення координат ввдносно стандартних прямокутних областей. Фша-льним виходом е об'еднання вах прямокутнишв, яке супроводжуеться стандартним процесом non-

maximum suppression. Для виршення проблеми pi-зномаштносп вiдношення висоти i ширини у словах пропонуеться декiлька вихвдних шаpiв нейро-меpежi, якi використовують одночасно piзнi ядра згортки та стандартш прямокутники. Цей детектор надае високу ефективнiсть роботи всього за один прохвд на зобpаженнi, без потреби у його багатора-зовому масштабуваннi. У данiй pоботi буде представлено модель конволюцшно1 нейронно1 меpежi для локалiзацiï тексту на зображенш, у результатах дослiдження будуть пpедставленнi статистика яко-стi розшзнавання.

Дослiдження науковц1в у галуз1 обробки тексту на зображенш

Очевидно, що завдання pозпiзнавання тексту на зображеннях можна подiлити на двi задачi: лока-лiзацiя тексту та безпосередне розшзнавання тексту у видшених областях. Перше завдання полягае у ви-дшенш тексту на зображенш, зазвичай у виглядi пpямокутникiв, як описують слова або текстовi рядки. Друга задача полягае у перетворенш видшених текстових областей зображення на символьш пос-лiдовностi, яш комп'ютер зможе iнтеpпpетувати як текст. В залежносп вiд вiд об'екпв, якi розтзна-ються iснуючi методи локалiзацiï тексту можна по-дшити на три категоpiï:

1) Посимвольна локалiзацiя: окpемi символи знаходяться, тсля чого вже групуються в слова [1, 2, 3, 4]. Наприклад у [1] автори знаходять символи за допомогою класифшацп екстремальних репошв. Пiсля цього знайденi лiтеpи групуються повним перебором.

2) Локалiзацiя по словам: слова напряму знаходяться схожим методом звичайного пошуку об'екпв [5, 6, 7]. У [5] пропонуеться ршення на ос-новi pегiонально-конволюцiйноï нейpомеpежi. Спочатку за допомогою неспецiалiзованого генератора формуються репони-кандидати, якi можуть мiстити слова. Попм кандидати обробляються кла-сифiкатоpом на основi алгоритму випадкового лiсу [8]. Останшм кроком е застосування конволюцшно1 нейpонноï меpежi для pегpесiï прямокутнишв, що описують областi, якi мютять слова.

3) Локалiзацiя по текстовим рядкам: Спочатку знаходяться цш рядки тексту, яш вже попм ро-збиваються на окpемi слова. Прикладом може слу-жити робота [9], в яшй пропонуеться детекщя ряд-кiв тексту, використовуючи 1'х симетpичнi характеристики. В подальшому у [6] текст локаль зуеться за допомогою повнютю конволюцiйних нейромереж.

На даний момент у галузi pозпiзнавання обра-зiв немае унiвеpсального якiсного ршення, яке б дозволяло ефективно розтзнавати текст на повсяк-денному цифровому зображенш. Значною части-ною ше1' проблеми е проблема локалiзацiï тексту, осшльки вiн дуже легко бути переплутаний системами машинного зору iз фоном та iншими класами об'ектiв.

Мета дослiдження: створення системи локаль зацiï тексту, яка здатна ефективно видшяти на зображенш текстовi областi.

Метод, представлений у данш pоботi пiдпадае пiд категорш локалiзацiï по словам. На ввдшну вiд пiдходу у [5], де поеднуються три кроки пошуку, кожен з яких включае в себе бшьше одного алгоритму, запропонований детектор представляе собою набагато проспший процес: необхiдне тренування лише одше1' меpежi. За основу меpежi взято SSD[10] - нещодавня розробка у галузi локалiзацiï об'ектiв на зображеннях, яка, на жаль, не шлком т-дходить для локалiзацiï ^в, якi можуть мати дуже специфiчнi спiввiдношення pозмipiв. Для вирь шення даного завдання у детектоpi тексту пропонуеться шар текстових блошв, що значно шдвищуе якiсть роботи системи.

Арх1тектура нейромереж1

Аpхiтектуpа нейpомеpежi зображена на рис. 1. Вона включае в себе ввдому архитектуру нейроме-pежi-класифiкатоpа VGG-16 [11]. Тут збережеш шари вiд конволюцiйного 11 до конволюцшного 4_3. Останнi два повнозв'язш шари VGG-16 пере-твореш в конволюцiйнi шляхом вiдфiльтpовування паpаметpiв [10]. За ними йдуть дешлька додаткових шаpiв згортки та пулшгу, а саме шари вiд конволюцшного 6 до пулшгового 11. Дешлька вихвдних ша-piв, якi можна назвати шарами текстових блошв, вставляються пiсля останнього, а також дешлькох пpомiжних конволюцшних шаpiв. ïх виходи збира-ються в один масив та пвддаються процесу nonmaximum suppression. Вихвдш шари також е конво-люцшними. Загалом дана мережа складаеться лише з шаpiв згортки та пулшгу, тому е повшстю згорт-ковою нейронною мережею. Вiдсутнiсть пов-нозв'язних шаpiв сприятливо впливае на швидшсть роботи i, що не менш важливо, тренування нейрон-но1' меpежi. Вхiднi зображення мають бути перетво-pенi таким чином, щоб 1'х pозмipи спiвпадали iз входами нейронно!' меpежi.

Зображення

VGG-16

Конв. 4 3

Конв. 6

Конв. 7

Конв. 8

Ко hb. 9

Конв. 10

Конв. 11

Шари текстовик блоюв

NMS

Рис. 1 Архтектура нейромережi. Штрихованими лтями позначено використання у шарах текстових блоюв ядра згортки розмiром 1x5, а суцшьною - 1x1

Шари текстових блошв е ключовим елементом детектору. Шар текстових блошв одночасно визна-чае присутшсть тексту 1 його розташування, в зале-жносп ввд вхвдних даних. У якост1 вход1в подаеться матриця яшсних характеристик, розрахованих на попередшх шарах нейромереж Для кожно! точки вх1дно! матриц шар текстових блошв розраховуе класифжацшну оцшку та змщення ввдносно в1дпо-вщного стандартного прямокутника. Припустимо, що розм1ри орипнального зображення та матриц характеристик е (щ,, йз) та (шм, йм) вщповвдно. У то-чщ матриц (¿,У), яка асоцшеться з1 стандартним прямокутником Ъ = (х0,у0, w, й), шар текстових

блошв в результат! обробки видае вектор значень (Дх, Ду, Дw, Дй, с), який вказуе на те, що прямокут-ник Ъ = (х, у, w, й) мютить текст 1з впевнешстю с,

де

х = х0 + w0Дx,

У = Уо+ йоД у, ж = w0 exp(Дw), й= й0ехр(Дй). Щд час тренування, розм1чеш прямокутники пор1внюються з1 стандартними за алгоритмом, представленим у [10]. Кожна точка на матриц характеристик ставиться у ввдповщшсть стандартним

Ul

блокам рiзного розмiру. Таким чином вони роздм-ють слова за рiзними сшвввдношеннями розмiрiв, дозволяючи локалiзатору заучувати коефiцiенти ре-греси та класифжацп, спрямованi на обробку ств схожого розмiру. Отже, розмiри стандартних пря-мокутник1в спецiалiзованi пiд конкретш задачi.

Слова на зображеннях можуть мати велике спiввiдношення ширини та висоти. Тому, до стан-

дартних блоков були включенi продовгуватi прямо-кутники. Конкретнiше, було сформовано 6 стандартних прямокутнишв зi сшввщношенням ширини i висоти 1, 2, 3, 5, 7 i 10. Для того, щоб прямокутники могли покривати б№шу область, кожен з них про-дубльований зi змщенням по вертикалi. Приклад взаемного розмщення стандартних прямокутник1в 3x3 та 1x5 зображено на рис. 2.

Рис. 2 Взаемне розмщення стандартних прямокутниюв

Шари текстових блоков використовують кон-волюцшш фiльтри 1x5 замiсть стандартних 3x3. Такий вид фiльтрiв, використаний у [12], створюе прямокутне рецептивне поле, яке краще шдходить продовгуватим словам i уникае шумiв, як були б створенi квадратним рецептивним полем.

Для тренування нейронно! мереж1 необхвдно сформувати придатну функцiю штрафiв за якою бу-дуть обчислюватись значения рiзницi м1ж отрима-ним та очшуваним результатом. Нехай X - матриця спiвпадiнь, с - значения впевненосп, I - мюцезна-ходження текстового блоку за вераею нейронно! мереж1 i д - точне мюцезнаходження блоку вiдоме для тренувальних даних. Якщо Х^ = 1, то стандар-тний прямокутник з iндексом I спiвпадае iз прямо-кутником у тренувальних даних з iндексом у. Хц = 0 в шшому випадку. Функцiя штрафiв мае такий ви-гляд:

ЦХ,с,1,д)= 1(1ВПевн (Х,с) + l,g)), де

N - це шльшсть стандартних прямокутник1в, як1 спiвпадають з тренувальними прямокутниками, а а прийнято за 1. Для ¿коорд використана гладка функщя [14], а для ¿впевн - функцiя soítmax.

Стабiльна локалiзацiя слiв з дуже малими або великими розмiрами та незвичайними сшвввдно-шеннями сторiн все одно е проблематичною. Для того щоб додатково тдвищити ефектившсть лока-лiзацi!, було використано рiзнi масштабоваш верси

входного зображення. Вхвдне зображення перетво-рюеться у п'ять масштабованих версш, як включа-ють так! сшввщношення ширини i висоти: 300 х 300, 700 x 700, 300 x 700, 500 x 700 i 1600 х 1600. Варто звернути увагу на те, що деяк верси зображення стиснут! горизонтально, що робить дуже довп слова коротшими. Таке масштабування зображення дае приркт у точносп, але потребуе до-даткових обчислювальних операцш, що зменшуе швидк1сть роботи системи.

Кожне слово на зображенш може дати на ви-ход! нейромереж1 велику шльшсть прямокутнишв з р!зними розм!рами та змщеннями, що створюе проблему оптимального вибору одного кандидата для кожного слова. Под!бна проблема зустр!чаеться у багатокласових детектор!в об'екпв, таких як YOLO [13]. Стандартним подходом до виршення тако! проблеми е використання алгоритму non-maximum suppression. Використання цього алгоритму виключити з набору вихщних результата дубль кати, що вказують на одну й ту ж саму текстову область.

Експеримент

Для тренування ! тестування системи було використано зображення !з баз даних ICDAR 2011 та ICDAR 2013. Дан! з цих виб!рок використовуються у змаганнях з локал!зацп, сегментаци та розшзна-вання тексту на зображеннях. Нейронна мережа була натренована на зображеннях розм!ром 300 х

300 з використанням rpaAiemHoro спуску. К1ль- кращим параметром для оцiнки системи е гармо-к1сть зображень у тренувальнш вибiрцi: 100000. нiйне середне мiж точнiстю i вiдrуком. Встановлена швидшсть навчання 10-4.

Корегуючи параметри системи можна пожерт-вувати точнiстю заради ввдгуку або навпаки. Тому

Таблиця 1.

Показники якосл роботи системи на тестових вибржах

ICDAR 2011 ICDAR 2013

P 0,85 0,86

R 0,8 0,81

F 0,82 0,83

У таблиц 1 наведенi показники якосп роботи нейромереж на тестових вибiрках. Яшсть ошню-еться за трьома показниками:

1. Точнiсть (P) - вщсоток правильно знайде-них текстових блошв з ycix знайдених текстових блошв.

2. Ввдгук (R) - вщношення кiлькостi правильно знайдених текстових блошв до шлькосп текстових блошв у тестовш вибiрцi.

3. Гармошйне середне мiж точнiстю i вщгу-ком (F = 2 .

Середня швидк1сть роботи на ПК з вщеокар-тою Titan X: 1,63 с.

Висновки

Запропонована система дозволяе стабiльнy ло-калiзацiю тексту на цифровому зображенш. В поед-наннi з юнуючими методами розпiзнавання тексту можна отримати повну систему розпiзнавання тексту, яка дозволяе видмти iз зображення текст i пе-ретворювати його у формат, придатний для машинно! обробки. Система може бути використана як для локалiзацil друкованого, так i рукописного тексту. Для спрощення задачi розпiзнавання до вихо-дiв знайдених текстових блоков можна застосову-вати класифiкатор, який може роздiлити текст на друкований i рукописний. Осшльки друкований i рукописний текст може значно в^^знятись, такий шдхвд може пiдвищити ефективнiсть обробки зображень iз рiзнорiдним текстом.

Список лггератури

1. Neumann, L., and Matas, J. 2012. Real-time scene text localization and recognition. In Proc. CVPR, 3538-3545.

2. Pan, Y.-F.; Hou, X.; and Liu, C.-L. 2011. A hybrid approach to detect and localize texts in natural scene images. IEEE T. Image Proc. 20(3):800-813.

3. Yao, C.; Bai, X.; Liu, W.; Ma, Y.; and Tu, Z. 2012. Detecting texts of arbitrary orientations in natural images. In Proc. CVPR, 1083-1090.

4. Huang, W.; Qiao, Y.; and Tang, X. 2014. Robust scene text detection with convolution neural network induced mser trees. In Proc. ECCV.

5. Jaderberg, M.; Simonyan, K.; Vedaldi, A.; and Zisserman, A. 2016. Reading text in the wild with con-volutional neural networks. IJCV 116(1):1-20.

6. Zhong, Z.; Jin, L.; Zhang, S.; and Feng, Z. 2016. Deeptext: A unified framework for text proposal generation and text detection in natural images. CoRR abs/1605.07314.

7. Gomez-Bigorda, L., and Karatzas, D. 2016. Textproposals: a text-specific selective search algorithm for word spotting in the wild. CoRR abs/1604.02619.

8. Breiman, Leo (2001). Random Forests. Machine Learning. c. 532. doi: 10.1023/A:1010933404324

9. Zhang, Z.; Shen, W.; Yao, C.; and Bai, X. 2015. Symmetrybased text line detection in natural scenes. In Proc. CVPR, 2558-2567.

10. Zhang, Z.; Zhang, C.; Shen, W.; Yao, C.; Liu, W.; and Bai, X. 2016. Multi-oriented text detection with fully convolutional networks. In Proc. CVPR.

11. Simonyan, K., and Zisserman, A. 2014. Very deep convolutional networks for large-scale image recognition. CoRR abs/1409.1556.

12. Szegedy, C.; Liu, W.; Jia, Y.; Sermanet, P.; Reed, S.; Anguelov, D.; Erhan, D.; Vanhoucke, V.; and Rabinovich, A. 2015. Going deeper with convolutions. In Proc. CVPR.

13. Redmon, J. and Farhadi, A. Y0L09000: better, faster, stronger. Computer Vision and Pattern Recognition (CVPR) (2017).

14. Girshick, R. B. 2015. Fast R-CNN. In Proc. ICCV.

i Надоели баннеры? Вы всегда можете отключить рекламу.