Научная статья на тему 'Исследование подходов к выделению признаков символов в задаче распознавания иероглифических символов'

Исследование подходов к выделению признаков символов в задаче распознавания иероглифических символов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
106
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СИМВОЛОВ / ВЫДЕЛЕНИЕ ПРИЗНАКОВ / ИЕРОГЛИФИЧЕСКОЕ ПИСЬМО

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бобылева Е.А.

В статье рассматриваются методы выделения характерных признаков японских иероглифических символов, представлено описание методов, проведен анализ их достоинств и недостатков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование подходов к выделению признаков символов в задаче распознавания иероглифических символов»

Видно, что в спектрах оптических потерь наблюдаются пики поглощения на длине волны 1382.. .1383 нм. В первом эксперименте «гидроксильный пик» составил 26,624 дБ/км, в то время как во втором эксперименте мы видим его увеличение примерно в 2 раза (52,256 дБ/км). Потери во втором окне прозрачности составили 6,936 дБ/км и 16,259 дБ/км соответственно, а в третьем окне прозрачности - 1,945 дБ/км и 1,897 дБ/км.

Проведенное исследование показало, что метод нанесения защитной фосфорсодержащей оболочки для уменьшения влияния примесей гидроксильной группы является достаточно эффективным методом снижения оптических потерь при изготовлении заготовок волоконных световодов. Так, увеличение содержания оксида фосфора P2O5 в 3 раза может уменьшить потери, характерные для «гидроксильного пика» на длине волны 1385 нм, практически вдвое.

Дальнейшее увеличение содержание оксида фосфора в защитном слое можно осуществить за счет роста его толщины. При этом, однако, следует учитывать проблему массоуноса P2O5 при увеличении продолжительности процесса нанесения защитного слоя на опорную кварцевую трубу. Список использованной литературы:

1. Ланин А.В., Голант К.М., Николин И.В. Взаимодействие молекулярного водорода с легированным кварцевым стеклом сердцевины оптических волокон при повышенных температурах // Журнал технической физики, 2004, т. 74, вып. 12. - С. 61-66.

2. Васильев С.А., Медведков О.И., Королев И.Г. и др. Волоконные решетки показателя преломления и их применения // Квантовая электроника, 2005, т. 35, № 12. - С. 1085-1103.

3. Ленардич Б., Исаев В.А. О параметрах современных световодов, изготовленных по технологии MCVD // Фотон-экспресс, 2005, № 8. - С 30-31.

4. Беспрозванных В.Г., Воробьев Я.С. Технологические аспекты автоматизированного контроля параметров изготовления заготовок кварцевых оптических волокон // Научные труды SWorld, 2013, т. 10, вып. 1. - С. 69-73.

5. Иванов Г.А. Волоконные световоды на основе высокочистого кварцевого стекла с высокой концентрацией легирующих элементов, полученные методом MCVD. Диссертация ... доктора химических наук. - М., 1998.

© Беспрозванных В.Г., Заднепровская В.В., Рогожников П.Ю., 2017

УДК 004.93'1

Е.А. Бобылева

Аспирант

КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) Научный руководитель: А.В. Родионов

К.т.н., доцент

КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) г. Калуга, Российская Федерация

ИССЛЕДОВАНИЕ ПОДХОДОВ К ВЫДЕЛЕНИЮ ПРИЗНАКОВ СИМВОЛОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ИЕРОГЛИФИЧЕСКИХ СИМВОЛОВ

Аннотация

В статье рассматриваются методы выделения характерных признаков японских иероглифических символов, представлено описание методов, проведен анализ их достоинств и недостатков.

Ключевые слова

Распознавание символов, выделение признаков, иероглифическое письмо. В настоящее время в задаче распознавания символов довольно широко исследуются различные методы

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №04-3/2017 ISSN 2410-6070_

и подходы к формированию признаков символов, так как это позволяет не только сокращать ресурсопотребление, но и осуществлять более эффективное распознавания за счет возможности применения простых, но действенных методик классификации.

Среди символов различных языков наибольшую сложность представляет рисуночное письмо, к которому можно отнести языки восточно-азиатской группы: арабский, корейский, китайский, японский.

В частности, в области распознавания японской иероглифической азбуки в последние годы были предложены метод выделения признаков, связанных с направлением элементов символа [5], методы выделения структурных признаков [1-3], метод построения графа [4], метод ядерного независимого компонентного анализа [6].

В исследовании [5] проводился анализ метода выделения признаков, который состоял из 2 этапов: разбиение траектории написания иероглифа на нормализованные поверхности направления и последующего их размытия с применением фильтра Гаусса, после чего каждую поверхность разбивали на подобласти с шагом 3 пикселя. Полученные значения пикселей составляли вектор признаков размерностью 64 элемента для каждой поверхности, общий же вектор признаков имел размерность 512 элементов. Данный подход позволил добиться высокой степени распознавания равной 90,8%. Недостатком метода является большой вектор признаков, а также применение методики только для распознавания азбуки кандзи.

В работе [2] выделение структурных признаков базируется на выделении символа, разбиении области его положения на 4 зоны, обнаружении концевых точек и точек пересечения линий символа. При применении этой методики результат распознавания составил 94,1%, однако, применимость метода оценивалась лишь для неполной азбуки хирагана.

В исследовании [1] предложен метод создания вектора уникальных признаков символа (character unique feature vector - CUFV). Сначала вычисляется центр гравитациии символа (Center of Gravitation - CoG), затем составляется сам вектор на основе 4 признаков символа: среднее значение, дисперсия, концентрация и смещение относительно CoG. Недостатком данного метода является вероятность неверного нахождения центра из-за шума изображения, который так же может привести к неверному значению концентрации темных пикселей.

Японскими учеными в 2008 году предложен метод выделения признаков, основанный на построении графа [4]. Вершинами графа являются концевые точки и точки пересечения, между которыми впоследствии вычисляются взаимозависимости, добавляются в граф точки, являющиеся промежуточными и описывающие кривые, из которых состоит символ. Недостатком метода является применимость к азбуке хирагана, а также узкий круг исследований, который не позволяет оценить эффективность данного подхода.

Метод, предложенный в 2013 году [6], основывается на применении ядерного независимого компонентного анализа (Kernel Independent Component Analysis - KICA), в котором используется целый ряд функций из репродуцируемого ядерного пространства Гилберта (Reproducing Kernel Hilbert Space - RKHS). Суть метода заключается в вычислении базового изображения Y, на основании которого строится любое другое изображение X, представляющее собой произведение базового изображения Y и вектора признаков X. Данное соотношение позволяет вычислить вектор признаков любого изображения. Результаты сравнительного анализа показали, что предложенный метод обладает высокой эффективностью - процент распознавания составил около 97,47%, однако исследованию подвергались иероглифы, являющиеся частью азбуки кандзи.

Характеристики рассмотренных методов представлены в таблице 1.

Таблица 1

Методы выделения признаков японских иероглифов

Метод Размерность вектора признаков Распознаваемая азбука Достоинства Недостатки

выделение признаков, связанных с направлением элементов символа 512 кандзи (2965) Показатель распознавания 90,8%. Очень большой вектор признаков Применимость только для кадзи

выделение структурных неполная азбука Показатель Применимость только

признаков: <10 хирагана распознавания 94,1%. для неполной азбуки

- разбиение на секторы хирагана

- создание вектора Показатель Чувствитель-ность к

уникальных признаков распознавания 93%. шуму изображения

символа 4 хирагана Метод инвариантен к повороту и размеру изображения

построение графа Инвариантен к Применимость только

<15 хирагана небольшому искажению формы иероглифа для азбуки хирагана

ядерный независимый Обладает высоким Большой вектор

компонентный анализ 68 кандзи (3755) быстродействи-ем Показатель распознавания 97,47%. признаков Применимость только для кадзи

Анализ данных в таблице 1 позволяет сделать следующие выводы:

1. При небольшой размерности вектора признаков ( < 10) возможно достижение 94% показателя распознавания при распознавании слоговой азбуки из 51 элемента.

2. Рассмотренные методы исследовались применительно к той или иной азбуке японского языка, что не дает возможности сделать выводы об их эффективности в случае применения ко всем азбукам.

3. Результат распознавания зависит от качества изображения символов. Список использованной литературы:

1. Barnes D. STRICR-FB, a Novel Size-Translation- Rotation-Invariant Character Recognition Method / D. Barnes, M. Man^ // 3rd International Conference on Human System Interaction. 2010. P. 163-168.

2. Das S. An Algorithm for Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Image, Graphics and Signal Processing (IJIGSP). 2015. Vol. 7(1). P. 9-15.

3. Das S. Survey of Pattern Recognition Approaches in Japanese Character Recognition / S. Das, S. Banerjee // International Journal of Computer Science and Information Technologies. 2014. Vol. 5(1). P. 93-99.

4. Hayashi M. A Method of Generating Feature Graph for Handwritten Character Recognition of Japanese Historical Documents / M. Hayashi, S. Nishida, M. Nakata et al. // The 23rd International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC). 2008. P. 305-308

5. Liu C. Online Japanese Character Recognition Using Trajectory Based Normalization and Direction Feature Extraction / C. Liu, X. Zhou // 10th International Workshop on Frontiers in Handwriting Recognition. 2006.

6. Zhiguo H. Research on Feature Extraction Method for Handwritten Chinese Character Recognition Based on Kernel Independent Component Analysis / H. Zhiguo, Y. Xiaoli // Research Journal of Applied Sciences, Engineering and Technology. 2013. Vol. 6(7). P. 1283-1287.

© Бобылева Е.А., 2017

УДК 004.93'1

Е.А. Бобылева, аспирант КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) Научный руководитель: А.В. Родионов, к.т.н., доцент КФ ФГБОУ ВПО МГТУ имени Н.Э. Баумана (НИУ) г. Калуга, Российская Федерация

ИССЛЕДОВАНИЕ СУЩЕСТВУЮЩИХ ПОДХОДОВ К РАСПОЗНАВАНИЮ ЯПОНСКИХ ИЕРОГЛИФИЧЕСКИХ СИМВОЛОВ

Аннотация

В статье рассматриваются подходы к распознаванию японского иероглифического письма,

i Надоели баннеры? Вы всегда можете отключить рекламу.