Научная статья на тему 'Описание метода автодополнения рукописного ввода иероглифов на основе правил каллиграфии'

Описание метода автодополнения рукописного ввода иероглифов на основе правил каллиграфии Текст научной статьи по специальности «Математика»

CC BY
188
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Горин Д.И., Строганов Ю.В.

В данной статье произведен анализ китайской письменности. Будет показано из каких базовых элементов состоят иероглифы. В том числе разобрана китайская каллиграфия: в каком порядке и как пишутся элементы иероглифов. Произведен обзор существующих способов ввода и предложен новый рукописный метод, в котором размерность входа будет уменьшена по сравнению с классическим рукописным вводом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Описание метода автодополнения рукописного ввода иероглифов на основе правил каллиграфии»

Описание метода автодополнения рукописного ввода иероглифов

на основе правил каллиграфии

Горин Д.И., Строганов Ю.В., МГТУ им. Н.Э. Баумана, каф. ИУ7 gorindi@student.bmstu.ru, stroganovyv@bmstu.ru

Аннотация

В данной статье произведен анализ китайской письменности. Будет показано из каких базовых элементов состоят иероглифы. В том числе разобрана китайская каллиграфия: в каком порядке и как пишутся элементы иероглифов. Произведен обзор существующих способов ввода и предложен новый рукописный метод, в котором размерность входа будет уменьшена по сравнению с классическим рукописным вводом.

1 Анализ предметной области

Китайское письмо — иероглифическая или идеографическая система записи, возникшая на территории Китая. Отличается от алфавитной тем, что каждому знаку приписано какое-то значение (не только фонетическое), и число знаков очень велико (десятки тысяч). В Китае различают две основные формы — старую (вэньянь) и современную (байхуа).

На первый взгляд, иероглиф кажется хаотичным набором различных черт и точек. Однако это не так. Существует несколько базовых элементов, из которых состоит иероглиф. Прежде всего, это черты, из которых состоят графемы. Графемы, в свою очередь, формируют более сложный знак.

Рис. 1. Иероглиф, разбитый на черты

1.1 Черты

Любой иероглиф состоит из определенного набора черт. Сами по себе черты не имеют лексического значения и чтения.

Всего существует четыре типа черт и более двух десятков их разновидностей1:

• Простые (основные) черты: горизонтальная, вертикальная, наклонные влево и вправо, откидные влево и вправо, специальные точки.

• Черты с крюком: горизонтальная, вертикальная (могут быть с крюком влево или крюком вправо), откидная вправо.

• Ломанные черты: линия изменяет направление один и более раза, имеет сложную конфигурацию.

• Ломанные черты с крюком.

В прошлом иероглифы состояли из большого числа черт, запомнить их было непросто. Поэтому одной из целей реформы письменности, осуществленной китайским правительством в 60-х годах XX века, было упрощение иероглифов путем уменьшения количества черт.

1.2 Графемы и ключи

Из черт формируются графемы - простые иероглифические знаки, обладающие устойчивыми лексическими значениями. Это базовые знаки китайской иероглифической письменности, из которых состоят китайские иероглифы. Они являются наиболее древними и выражают основные элементы окружающего мира и человека.

Примеры графем: человек А геп, женщина

£ пй, ребенок -?■ zl, солнце 0 п, небо ^ Нап,

земля (почва) ± Ш и т.д.

Помимо графем существуют ключи. Ключи - это основные классификационные знаки. Стандартный список ключей насчитывает 214 знаков. В него входят многие графемы и некоторые черты, не имеющие фиксированного

1 https://anashina.com/ieroglify/

значения. Таким образом, не все графемы являются ключами и не все ключи являются графемами.

Долгое время список из 214 ключей составлял так называемый иероглифический индекс, в соответствии с которым были упорядочены иероглифы в китайских словарях. Однако после того, как в КНР была введена упрощенная иероглифическая письменность, некоторые знаки подверглись либо частичному упрощению, либо структурным изменениям.

Важно понимать, что черта не является иероглифом. Иероглиф состоит из ключа (которые в свою очередь состоят из черт), и других черт.

1.3 Правила написания иероглифов

• Иероглиф необходимо писать сверху вниз и слева направо

• На одной высоте черты пишутся в таком порядке: горизонтальные - вертикальные - откидные. Точка справа всегда пишется последней.

Сначала пишутся охватывающие черты, затем охваченные.

Рис. 2. Иллюстрация к правилу написания черт на одной высоте

Если горизонталь заканчивается в правом нижнем углу, то она всегда пишется последней. Поэтому если графема охватывает иероглиф со всех сторон, то при написании она разрывается.

Рис. 3. Иллюстрация к правилу написания иероглифа с горизонталью, оканчивающейся в правом нижнем углу

Рис. 4. Иллюстрация к правилу написания иероглифа с горизонталью, оканчивающейся в правом нижнем углу

• Если в одном ряду находятся три составляющие, из которых две крайние симметричны и достаточно просты по отношению к центральной, первой пишется не левая, а центральная составляющая, а затем левая и правая.

Рис. 5. Иллюстрация к правилу написания симметричных черт

На рисунках 6-9 приведены правила написания некоторых черт с примерами их использования в иероглифах:

Рис. 6. Правило написания черты Ь

Рис. 7. Правило написания черты ^

Рис. 8. Правило написания черты, входящей в иероглиф Ш

Рис. 9. Правило написания черты <

5С/

У X ^

у V

-Sx(fu)

^(Chichi) папа

JSX.5 Л, ( oto: san) папа (чужой), обращение к своему папе

f u ) дедушка ( о своем дедушке)

Рис. 10. Порядок написания иероглифа на примере японской письменности

2 Существующие способы ввода китайских иероглифов

С переходом в область цифровых технологий ввод иероглифов стал проблемой, для решения которой было придумано несколько подходов.

2.1 Pinyin

Основан на фонетическом письме иероглифа. В поле ввода с помощью латинской раскладки вводится «произношение» иероглифа, и выводятся подходящие варианты, из которых пользователь выбирает нужный ему.

Это самый распространенный метод ввода в Китае. Достаточно знать произношение слова и помнить его начертание.

2.2 Цанцзе

В основе основе метода Цанцзе лежит простая геометрическая декомпозиция иероглифа, а не стандартный порядок написания черт и ключи. Базовые компоненты получили «радикалы». При этом в стандартной раскладке клавиатуры используются от 25 до 26 клавиш: клавиши «X» и «2» (либо только «X»)

кодируют иероглифы специальной группы Ж

/ ш «Коллизия»/«Сложные», а остальные 24

кодируют определённые радикалы, которые поделены на группы и ассоциированы с буквами латинского алфавита.

! @ 1$ 1% I" Ш I* |( ' N I= 14? |

Tab Q w ш 1 т Y и I О i ' I { M ' '

» ¥ И * □ ti ill Я A V [ ]

Caps

i z X X № S £ V * в Я N Щ M ш M á 1 i

etil 1)1 Alt cm

Рис. 12. Клавиатура Цанцзе 2.3 Stroke

Как было показано ранее, все иероглифы состоят из базовых черт, которые пишутся в определенном порядке. Данный способ ввода основан именно на этом.

Пользователь видит перед собой клавиатуру с клавишами, на которых нарисованы некоторые базовые для данного способа ввода черты, и печатает иероглиф по чертам.

1 1

« J - V L . Л » ►

- I ;

* — i Phrase О

123. Revocatior I о ' CH «—i

Рис. 11. Ввод пиньин

Рис. 13. Ввод методом stroke

2.4 Рукописный ввод

Пользователь взаимодействует с окном рисования иероглифа. Для того, чтобы ввести определенный иероглиф, человек должен его нарисовать, а программа выдаст список иероглифов, похожих на введенный.

Преобладающее большинство систем рукописного ввода иероглифов основаны на использовании нейронных сетей. Они хорошо справляются со своей задачей. Компания Fujitsu добилась успеха в распознавании рукописного китайского текста в 96.7% в 2015 году1. Однако, проблема нейронных сетей в данной области применения заключается в том, что в иероглифах встречаются мелкие детали, которые сети могут игнорировать при обучении, что в итоге приводит к сложности их обучения для достижения большей степени распознавания.

3 Описание разрабатываемого метода

Было показано что для черт и иероглифов есть определенные правила написания. Им учат на уроках китайской письменности в первую очередь, и правилам придерживаются все, кто имеет дело с китайской каллиграфией. Эти указания важно соблюдать, так как в иероглифах могут быть детали, неправильное написание которых существенно изменит

смысл написанного, например «А» и «А».

Также было разобрано, из чего и как образуются иероглифы. Основой иероглифа является ключ, который представляет собой набор черт. К ключу дописываются черты, и получается иероглиф.

То есть, обобщив вышесказанное:

• Иероглиф состоит из последовательности черт;

• количество черт ограничено;

• количество черт в иероглифе конечно;

• существует правило написания для каждой черты;

• черты пишутся в иероглифе строго в определенном порядке.

Можно сделать вывод, что по введенным чертам возможно определить иероглиф, причем определять его можно не по конечному

Источник: http://www.fu-

jitsu.com/global/about/resources/news/press-releases/2015/0917-01 .html

рисунку, а по последовательности введенных черт.

Распознавание по набору пикселей является ресурсоемкой задачей, так как на вход поступает множество данных, размерность которых велика. Но если уменьшить число характеристик, которые нужно будет анализировать, то время работы алгоритма уменьшится при сохранении достаточной степени распознавания. Но необходимо определить, насколько можно ограничить данный набор характеристик, например, ограничить его точками начала и конца каждой черты? Если это возможно, то поле ввода можно разделить как минимум на 2 типа:

• Поле, разбитое на равномерные квадраты

• Поле, на котором выделены зоны погрешности точек начала и конца каждой из черт

3.1 Разбиение поля ввода на равномерные квадраты

Если разбить поле ввода иероглифа на квадратные сегменты, то каждая из черт иероглифа будет начинаться и заканчиваться в определенном квадрате. То есть для каждого иероглифа достаточно будет хранить номера сегментов, где начинаются и заканчиваются его черты.

Однако, нужно быть внимательным с выбором количества сегментов. Если сделать их слишком мало, то под написанный иероглиф программа будет выдавать большое количество неправильных вариантов. Если слишком много, то для верного определения иероглифа его нужно будет писать с хирургической точностью. То есть, необходимо определить оптимальное разбиение поля, при котором шанс верного распознавания будет наибольшим.

3.2 Выделение зон погрешности написания черт

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

При написании черты человек всегда начинает и заканчивает ее в некоторых зонах, которые охватывают «идеальную» точку начала и конца, эти зоны и называются зонами погрешности написания. Пользователь не будет всегда начинать писать черту, которая должна начинаться в точке (110, 150), именно в этой точке. Он начнет писать ее в некоторой окрестности этой точки.

Выделение данных зон будет происходить автоматически при обучении программы. При вводе иероглифа пользователем программа будет проверять, вошли ли первые и последние точки черт в зоны погрешности соответствующих черт иероглифов. Если да, то, вероятно, пользователь ввел именно эти иероглифы.

3.3 Последовательность ввода

В обоих методах проверки на соответствие координат определенным областям будут производится последовательно для каждой черты. Например, предположим, что есть 2 иероглифа, которые состоят из 2 штрихов. Положим также то, что первый штрих первого иероглифа имеет те же конечные точки, что второй штрих второго иероглифа, и наоборот.

Тогда при вводе штриха, который имеет конечные точки первого штриха первого иероглифа, на пустое поле ввода, пользователю будет предложен именно первый иероглиф, а не второй, так как порядок ввода так же важен.

На рисунках 14-15 представлена данная ситуация: Черты на первом поле ввода имеют начальные и конечные точки такие же, как и черты на втором поле. Однако, конечные и начальные точки первой черты на первом изображении являются конечными и начальными точками второй черты на втором рисунке, и наоборот. При вводе первой черты с первого рисунка программа не будет выводить в подсказку иероглиф, который изображен на втором рисунке, поскольку в нем черта, ограниченная конечными точками вводимой черты, является второй, а не первой.

Рис. 14. Пример ввода, когда черта из верхних точек пишется первой

Рис. 15. Пример ввода, когда черта из нижних точек пишется первой

Список литературы

Софронов М. В., Китайское языкознание в 50—80-х гг.// Новое в зарубежной лингвистике, вып. XXII, Языкознание в Китае, М., 1989.

https://lingust.ru/chinese/chinese-lessons/hieroglvph-calligraphy

http://studvchinese. ru/iero glifika/361/

https://magazeta.com/2007/05/wubi-chinese-input-method/

https://habr.com/ru/post/160249/

http://shaoboke.blogspot.com/2011/04/cangiie.htmI

http: //nihon- go. ru/iero glif/image s/img03.png

i Надоели баннеры? Вы всегда можете отключить рекламу.