Научная статья на тему 'Исследование существующих подходов к распознаванию японских иероглифических символов'

Исследование существующих подходов к распознаванию японских иероглифических символов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
366
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СИМВОЛОВ / РАСПОЗНАВАНИЕ ОБРАЗОВ / ИЕРОГЛИФИЧЕСКОЕ ПИСЬМО

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бобылева Е.А.

В статье рассматриваются подходы к распознаванию японского иероглифического письма, предложенные в последние годы, представлено описание методов, выделены их достоинства и недостатки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование существующих подходов к распознаванию японских иероглифических символов»

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070

признаков: <10 хирагана распознавания 94,1%. для неполной азбуки

- разбиение на секторы хирагана

- создание вектора Показатель Чувствитель-ность к

уникальных признаков распознавания 93%. шуму изображения

символа 4 хирагана Метод инвариантен к повороту и размеру изображения

построение графа Инвариантен к Применимость только

<15 хирагана небольшому искажению формы иероглифа для азбуки хирагана

ядерный независимый Обладает высоким Большой вектор

компонентный анализ 68 кандзи (3755) быстродействи-ем Показатель распознавания 97,47%. признаков Применимость только для кадзи

Анализ данных в таблице 1 позволяет сделать следующие выводы:

1. При небольшой размерности вектора признаков ( < 10) возможно достижение 94% показателя распознавания при распознавании слоговой азбуки из 51 элемента.

2. Рассмотренные методы исследовались применительно к той или иной азбуке японского языка, что не дает возможности сделать выводы об их эффективности в случае применения ко всем азбукам.

3. Результат распознавания зависит от качества изображения символов. Список использованной литературы:

1. Barnes D. STRICR-FB, a Novel Size-Translation- Rotation-Invariant Character Recognition Method / D. Barnes, M. Man^ // 3rd International Conference on Human System Interaction. 2010. P. 163-168.

2. Das S. An Algorithm for Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Image, Graphics and Signal Processing (IJIGSP). 2015. Vol. 7(1). P. 9-15.

3. Das S. Survey of Pattern Recognition Approaches in Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Computer Science and Information Technologies. 2014. Vol. 5(1). P. 93-99.

4. Hayashi M. A Method of Generating Feature Graph for Handwritten Character Recognition of Japanese Historical Documents / M. Hayashi, S. Nishida, M. Nakata et al. // The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC). 2008. P. 305-308

5. Liu C. Online Japanese Character Recognition Using Trajectory Based Normalization and Direction Feature Extraction / C. Liu, X. Zhou // 10th International Workshop on Frontiers in Handwriting Recognition. 2006.

6. Zhiguo H. Research on Feature Extraction Method for Handwritten Chinese Character Recognition Based on Kernel Independent Component Analysis / H. Zhiguo, Y. Xiaoli // Research Journal of Applied Sciences, Engineering and Technology. 2013. Vol. 6(7). P. 1283-1287.

© Бобылева Е.А., 2017

УДК 004.93'1

Е.А. Бобылева, аспирант КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) Научный руководитель: А.В. Родионов, к.т.н., доцент КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) г. Калуга, Российская Федерация

ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ ПОДХОДОВ К РАСПОЗНАВАНИЮ ЯПОНСКИХ ИЕРОГЛИФИЧЕСКИХ СИМВОЛОВ

Аннотация

В статье рассматриваются подходы к распознаванию японского иероглифического письма,

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070_

предложенные в последние годы, представлено описание методов, выделены их достоинства и недостатки.

Ключевые слова

Распознавание символов, распознавание образов, иероглифическое письмо.

Одним из широко и активно развивающихся направлений в области компьютерного зрения является распознавание текста и в частности распознавание символов. В статьях последних лет большое внимание уделяется задаче распознавания печатных и рукописных символов таких языков как арабский [2, 3], китайский [7, 11, 14] и др. Языки восточной группы являются наиболее сложными, так как сам стиль их написания характеризуется большим количеством черт и схожестью многих символов, что усложняет задачу их классификации и распознавания. Одним из таких языков является японский язык, состоящий из 3 азбук: слоговых азбук кана - катаканы и хираганы, и иероглифов, относящихся к азбуке кандзи.

Исследование проблемы распознавания японских иероглифов началось ещё в 80-х годах прошлого века. Изначально алгоритмы и методы распознавания были направлены на анализ печатных символов, впоследствии - на распознавание рукописных символов, как в документах, так и в режиме реального времени. В настоящее время активно ведутся исследования алгоритмов и подходов, которые позволят распознавать как печатные, так и рукописные символы.

Первые работы по распознаванию печатных символов относятся к концу 50-х годов [10]. Большая часть исследований в этой области проводится японскими учеными, но также существуют работы американских, индийских, чешских и русских учёных. [1, 4, 8, 10, 13].

Первая система распознавания японских иероглифов появилась в 1977 году, разработкой занималась крупная фирма Toshiba. Система распознавала 2000 печатных символов кандзи, а в 1984 году появилась система, способная распознавать 2000 рукописных кандзи, а также катакану и хирагану. В последующие 2 года были выпущены 10 различных систем для распознавания рукописных, печатных и рукописно-печатных иероглифов и символов (таблица 1) [10]. Разработчикам удалось добиться высоких показателей распознавания: больше 99% для печатных символов и больше 98% - для рукописных [10].

Таблица 1

Характеристики первых приложений для распознавания японских иероглифов

Разработчик Год Распознаваемые символы Точность распознавания, %

Toshiba 1977 2000 кандзи одного шрифта 98,4

NTT 1985 4000 кандзи разного шрифта 99

Sanyo 1985 3000 рукописных кандзи 93

Sanyo 1986 3000 рукописных кандзи 93

NTT 1986 3176 рукописных кандзи 98

Sanyo 1986 3000 печатных кандзи >99

Matsushita 1986 2000 печатных и рукописных кандзи >95

Ricoh 1986 2000 рукописных и печатных кандзи >98(Р) >99(П)

Mitshubishi 1987 2416 рукописных кандзи 95

В 1997 году была разработана система CEDAR, которая совмещает в себе модули сегментации текстового и построчного анализатора, а также распознает более 3300 символов, включая кандзи, катакану, хирагану, числа и символы. На этапе выделения признаков применяются метод выделения локальных строк направления и метод построения градиентной карты для создания наборов градиентных, структурных и поверхностных признаков. Для классификации применялись классификатор на основе минимальной ошибки подпространства и классификатор на основе метода ближайшего соседа, скомбинированный с методом минимальной ошибки подпространства. Точность распознавания первого классификатора равна 96,59%, второго - 98,53%. Недостатком метода является плохое распознавание кандзи, в структуре которых есть одинаковые элементы.

В 2008 году была разработана программа NHOCR (NiHongo Optical Character Recognition), которая позволяет распознавать печатные японские символы и часть ASCII символов/знаков на изображении. Для выделения признаков в ней применяется метод периферийных локальных моментов, предложенный Хори в

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070_

конце 90-х годов.[6]

Последняя версия программы имеет ряд ограничений:

1. Возможность обработки только изображений, содержащих блок текста, так как в программе не предусмотрен анализ макета страницы;

2. Точность распознавания может ухудшиться при смешении широких и узких символы смешиваются или при использовании шрифтов разного размера;

3. Эффективность сегментации символов ограничена, так как используется алгоритм примитивной сегментации.

4. Точность распознавания ASCII-символов невысока.

5. Языковой постпроцессор является экспериментальным и работает только с текстами на японском

языке.

В 2012 году японскими учеными было разработано системное API [12], которое позволяет обнаруживать текст на фотоизображениях, распознавать его и проводить анализ, на основании чего производится перевод текста на несколько иностранных языков, в том числе на английский.

Методика разработанной системы заключается в передаче изображения с компьютера или камеры мобильного устройства на сервер, где оно подвергается обработке, состоящей из следующих этапов:

1. Анализ изображения с целью обнаружения областей, которые могут содержать иероглифический

текст;

2. Поэлементное распознавание символов и предварительный вариант перевода текста, основанный на комбинировании различных вариантов сочетаний распознанных символов;

3. Обработка лингвистической информации с применением словаря и корректировка предварительного варианта перевода путем интеллектуального перебора.

Работы системы обеспечивается в онлайн режиме, при этом необходимо постоянное интернет-соединение для отправки фотоизображений на сервер для последующего анализа и распознавания. Система распознает печатные символы и тексты.

В 2014 чешский ученый Я. Зденек разработал мобильное приложение, позволяющее распознавать печатные и рукописные символы японского языка[13].

Алгоритм распознавания состоит из следующих этапов:

1. Нормализация формы символа посредством метода моментов;

2. Выделение признаков с применением гистограммы градиентов (HoG);

3. Уменьшение размерности векторов признаков с помощью метода линейного дискриминантного анализа (LDA);

4. Применение квадратной дискриминантной функции (QDF) для классификации символа. Предложенный метод показал высокую степень распознавания японских символов: для печатных

символов из книг и газет - 99,91%, для рукописных - 99,38%. Недостатком приложения является отсутствие автоматического поиска текста на изображении.

В работе Даса и Банерджи [5], опубликованной в 2015 году, предложен геометрически-топологический метод распознавания японской азбуки хирагана. Метод состоит из следующих этапов:

1. Определение точек тяжести COG;

2. Нормализация изображения;

3. Выделение точек пересечения линий анализируемого символа;

4. Вычисление евклидового расстояния между точкой тяжести и точками пересечения;

5. Выполнение шагов 1-4 для эталонного изображения.

6. Сравнение полученных данных.

Эксперименты показали, что точность распознавания символов азбуки хирагана - печатных и рукописных - равна 94,1%. Недостатком распознавания является применение метода лишь к азбуке хирагана, исследование метода применительно к сложным иероглифам, относящимся к азбуке кандзи, не

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070_

проводилось.

В 2015 году на конференции была представлена работа японских ученых[9], в которой описывается мобильное приложение для людей с плохим зрением, разработанное на основе API, созданного в 2012 году [12]. Приложение применялось для распознавания печатного текста в меню. В результате исследований ученые установили, что точность распознавания зависит от степени и равномерности освещенности изображения, а также от соотношения между размером изображения и размером иероглифа: чем меньше соотношение, тем хуже распознавание (варьируется от 0 до 44%), что и является основными недостатками системы.

Все рассмотренные подходы к распознаванию японского иероглифического письма обладают своими достоинствами и недостатками, анализ которых позволит разработать улучшенную методику распознавания символов японского языка.

Список использованной литературы:

1. Ясинский Ф.Н. Распознавание большого количества образов при помощи нейронных сетей с использованием многопроцессорных систем / Ф.Н. Ясинский, А.С. Мочалов. // Вестник Ив.-го Гос. Тех. Унта. Иваново, 2011. № 2. С. 85-87.

2. Amara M. Arabic Character Recognition Based M-SVM: Review /M. Amara, K. Zidi, S. Zidi, K. Ghedira // Advanced Machine Learning Technologies and Applications. 2014. Vol. 488. P. 18-25.

3. Asebriy Z. Comparative systems of handwriting Arabic character recognition / Z. Asebriy, S. Raghay, O. Bencharef, Y. Chihab // Second World Conference on Complex Systems (WCCS). 2014. P. 90-93.

4. Das S. Survey of Pattern Recognition Approaches in Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Computer Science and Information Technologies. 2014. Vol. 5(1). P. 93-99.

5. Das S. An Algorithm for Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Image, Graphics and Signal Processing (IJIGSP). 2015. Vol. 7(1). P. 9-15.

5. Hori K. A study of feature extraction by information on outline of handwritten chinese characters : peripheral local outline vector and peripheral local moment / K. Hori, K. Nemoto, A. Itoh // The transactions of the Institute of Electronics, Information and Communication Engineers. 1999. Vol. 82(2). P. 188-195.

6. Luo Y. Offline Chinese Handwriting Character Recognition through Feature Extraction / Y. Luo, R. Xia, M. Abdulghafour // 13th International Conference on Computer Graphics, Imaging and Visualization (CGiV). 2016. P. 394-398.

7. Rjadland T. Classifying Glyphs. Comparing Evolution and Learning : master's thesis / T. Rodland. Trondheim, 2011.

8. Sakai T. A Mobile System of Reading out Restaurant Menus for Blind People / T. Sakai, T. Matsumoto, Y. Takeuchi et al. // Proceedings of International Conference on Enabling Access for Persons with Visual Impairmen. 2015. P. 176-180.

9. Srihari S. Research in Japanese OCR / S. Srihari, G. Sricantan, T. Hong, S. Lam // Handbook of Character Recognition and Document Image Analysis. USA : World Scientific Publishing Company, 2000. P. 357-380

10. Xu Y. A New Method for Chinese Character Strokes Recognition / Y. Xu, X. Huang, H. Chen, H. Jiang // Open Journal of Applied Sciences. 2012. Vol. 2(3). P. 184-187

11. Yamazoe T. Highly Accurate Character Recognition Technology / T. Yamazoe, T. Sumiya, A. Iwasaki // NTT DOCOMO Technical Journal. 2012. Vol. 14(1). P.40-44.

12. Zdenek J. Mobile Application for Recognition of Japanese Writing System: bachelor's thesis / J. Zdenek. Prague, 2014.

13. Zhanga X. Online and offline handwritten Chinese character recognition: A comprehensive study and new benchmark / X. Zhanga, Y. Bengiob, C. Liua// Pattern Recognition. 2017. № 61. P. 348-360

© Бобылева Е.А., 2017

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070_

УДК 624.012

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

М.Б. Бойченко, студент магистратуры Р.Г. Абакумов, к.э.н., доцент БГТУ им. В. Г. Шухова г. Белгород, Российская Федерация

СОВРЕМЕННЫЕ МЕТОДЫ УСТРОЙСТВА МОНОЛИТНЫХ БЕТОННЫХ КОНСТРУКЦИЙ ПРИ ОТРИЦАТЕЛЬНОЙ ТЕМПЕРАТУРЕ СРЕДЫ

Аннотация

В статье представлен обзор современных методов устройства монолитных конструкций при отрицательной температуре среды.

Ключевые слова

Бетонные конструкции, отрицательная температура.

В России за последние годы реализуются большие объемы строительства, которые требуют всесезонного непрерывного производства работ, однако в условиях зимнего периода, строительные процессы весьма усложняются, что сказывается в свое время и на расценках.

Наиболее проблемно возводить в таких условиях монолитные конструкции из железобетона. Проблема состоит в том, что замораживание бетона на ранней стадии твердения негативно влияет на его свойства и качество. Решая проблему обеспечения защиты от замораживания, необходимо получить высокие темпы нарастания прочности бетона.

Монолитный бетон и железобетон обладает рядом преимуществ по сравнению с другими конструктивными материалами, поэтому является основным строительным материалом.

Главной задачей современного строительства является увеличение темпов строительных процессов при возведении зданий и сооружений, так как требования заказчиков ужесточаются, в последние годы все больше и больше минимизируя сроки строительства.

В соответствие с нормами, при среднесуточной температуре ниже +5оС или минимальной температуре в течение суток ниже 0оС,условия производства работ считаются зимними, а это означает, что в России более 6 месяцев строительные процессы выполняются в зимних условиях.

При температуре ниже +5оС бетонная смесь значительно снижает набор прочности. Реакция гидротации замедляется, а при температуре ниже 0оС вода, которая присутствует в смеси становится льдом, увеличиваясь в объеме на 10%, таким образом в бетоне появляются внутренние напряжения, нарушающие его структуру. При потеплении, гидратация возобновляется, но бетон из-за нарушенной структуры не может набрать заданной прочности. Известно, что на процесс набора прочности бетонной смеси влияют условия твердения. Бетон набирающий 30% прочности от проектной, не поддается дальнейшим воздействиям отрицательных температур, не изменяя своих физико- механических свойств.

Ответственным этапом является правильный выбор способа выдерживания бетона, чтобы получить максимальную прочность. От продолжительности процессов по уходу за бетонной смесью в начальной стадии твердения, зависит и удорожание работ. Задача состоит в определении оптимального метода бетонирования, с сокращением сроков выдерживания бетона в опалубке, уменьшить затраты тепловой энергии, электроэнергии, расходных материалов и труда ,а также повышенной электроопасностью.

Для обеспечения необходимой прочности проводят мероприятия по подготовке и приготовлению бетонной смеси, подогревают, утепляют при транспортировке, применяют противоморозные добавки и ускорители набора прочности, утепляют конструкцию, ниже будут перечислены, самые эффективные современные методы.

Для нашей страны метод с применением противоморозных добавок представляет большой интерес.

i Надоели баннеры? Вы всегда можете отключить рекламу.