Научная статья на тему 'Информационные основы машинного перевода с китайского языка на русский'

Информационные основы машинного перевода с китайского языка на русский Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1185
222
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Федоров А.В.

В статье приводятся общие сведения о китайском языке и истории китайско-русской межъязыковой коммуникации в контексте разработки перспективных систем машинного перевода для данной языковой пары. Описано текущее состояние китайско-русского машинного перевода, проведено краткое сравнение доступных переводческих сервисов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационные основы машинного перевода с китайского языка на русский»

Информационные основы машинного перевода с китайского языка на русский

Федоров А.В., Академия ФСО России fedorovalexacc@gmail.com

Аннотация

В статье приводятся общие сведения о китайском языке и истории китайско-русской межъязыковой коммуникации в контексте разработки перспективных систем машинного перевода для данной языковой пары. Описано текущее состояние китайско-русского машинного перевода, проведено краткое сравнение доступных переводческих сервисов.

1 Введение

В древнем мире китайский язык имел статус местного и практически не использовался за пределами Китайской империи. Для переговоров с иностранными послами и торговцами Императорский двор приглашал представителей других народностей, не входивших в Китайскую империю. Китайские источники сообщают: «При Минской династии (1368-1643 гг.) Россия, будучи преграждена Великой степью, не имела сообщения с Китаем». История китайско-русского перевода начинается в XVII веке, когда возникли более тесные отношения между Россией и Китаем. Граница между Россией и Империей Цин проходила через Монголию, поэтому монгольский язык был необходим для осуществления приграничных контактов [Успенский, 2012]. В 1654 году в Китай была организована российская дипломатическая миссия. Знаний о китайском языке в России не было, поэтому переговоры велись на таких языках как монгольский, тюркский, маньчжурский. Также было невозможно переводить документы, которые получали торговцы и путешественники.

В 1700 году Петр I издал указ об изучении восточных языков, что способствовало укреплению отношений между Россией и Китаем. Наилучших успехов достиг исследователь Рассохин, который считается первым русским китаеведом и преподавателем китайского языка.

В XIX веке составляются китайско-русские словари. Появление китаеведов привело к

созданию образовательных учреждений. Впервые изучение Китая было перенесено в университетские условия, когда в 1837 г. на восточном факультете Казанского университета была открыта кафедра китайского языка [Петухова, 2014]. Во второй половине XIX века интерес к китайскому языку снижается. В 1855 г. восточный факультет в Казанском университете был закрыт.

«В последние десятилетия XIX в. интерес к Китаю в России окончательно приобрел практические черты С 1881 по 1895 годы Россия направила все возможные усилия на изучение Китая. Исследования ведутся во всех направлениях; ученые изучили Китай и знают о нем больше, чем сами китайцы. Знания русских о Китае наиболее полные и надежные, чем у какой-либо другой страны» [Петухова, 2014].

В XX веке на фоне укрепления отношений КНР и СССР повысился интерес к изучению китайского языка. «Особую роль в формировании представлений о России в Китае сыграли переводы русской художественной литературы на китайский язык. Многие представители китайской интеллигенции были увлечены гуманистическими идеями русских писателей» [Самойлов, 2010].

Сейчас Китай является активно развивающейся страной с наибольшим в мире населением (около 1,4 млрд. человек) и потрясающими темпами экономического роста. Неуклонно интенсифицируются процессы российско-китайского экономического, научного, военного и гуманитарного сотрудничества. Все это требует переводческой поддержки возрастающего документооборота. Действительно, по данным ресурса «Город переводчиков»2, доля заказов на китайско-русский и русско-китайский перевод возросла с 4,7% в 2014 году до 5,7% в 2017 году. В то же время китайский язык мало распространен вне КНР, так как является очень сложным [Булдыгерова, 2016].

Таким образом, актуальной является задача автоматизации межъязыковых преобразований между китайским и русским языком. В

2 http://www.trworkshop.net

данной статье предприняты усилия по описанию ситуации в данной предметной области, с тем, чтобы в дальнейшем обосновать направления перспективных прикладных исследований в области китайско-русского машинного перевода (МП).

2 Особенности китайского языка

В настоящее время функционирование китайского языка происходит при одновременном взаимодополняющем существовании двух форм письменности: иероглифической основной и буквенной вспомогательной. Алфавитное письмо - одно из самых величайших изобретений человечества, в качестве вспомогательного присутствует во всех современных словарях китайского языка, озвучивая слова этого языка или давая звуковой образ слов этого языка [Алексахин, 2008].

Иероглифы попадают в рубрику икониче-ских знаков, рис 1. Они могут обозначать слог, предмет или целое понятие, не обязательно конкретное. Так, иероглиф Щ ([та], лошадь/лошади) может обозначать мереоло-гический объект - совокупность лошадей, мыслимую как единое целое, или же относиться к какой-либо части этого объекта -отдельной породе, какой-то группе лошадей, к индивидуальной особи [Крушинский, 2012]. Если неизвестное слово состоит из нескольких иероглифов, то можно разбить его на известные части и переводить, зная перевод отдельных частей.

Рис. 1. Классификация письменных знаков

КНР - большое государство, в котором существует множество диалектов китайского языка. Таким образом, возникает такая ситуация: граждане, проживающие на юге страны, не понимают граждан проживающих на севе-

Табл. 1. Сра

ре страны. Существование богатого культурного наследия Китая, которое отражается в поговорках и фразеологических оборотах языка затрудняет переводы, так как основываются чаще всего на именах различных именитых людей.

Китайский язык - тоновый. Основной функцией тона является смыслоразличитель-ная [Кубарич, 2012]. Всего существует четыре тона (варианта изменения частоты гласной в процессе ее произношения) и около 500 слогов. Из-за такого обилия тонов и слогов наблюдается омонимия. Таким образом перевести правильно фразу, без смыслового контекста, сложно. Тон ставиться над иероглифом и только над гласной буквой слога при использовании системы Пиньинь [Алексахин, 2011].

Также перевод китайской фразы должен осуществляться с конца предложения, а не с начала, как в русском языке. Это связано с историей развития китайского языка. До середины XX века письменность осуществлялась справа налево сверху вниз, однако во второй половине столетия её сменили и стали писать на европейский манер - слева направо сверху вниз. Также в результате реформы были приняты упрощенные иероглифы, которые содержат значительно меньшее количество черт по сравнению с традиционными.

Таким образом, существуют три основные системы письма: традиционная и упрощенная иероглифические, а также буквенная, официально принятая в КНР в 1958 году [Алексахин, 2011]. Как подчеркивается китайскими лингвистами, «на письме в китайском языке применяется около 10000 иероглифов. После появления проекта звукобуквенного алфавита можно обходиться всего 25 буквами» табл. 1 [Алексахин, 2008].

В китайском языке отсутствует пунктуация, но для распознавания используются строгие конструкции языка. Также существует часть иероглифов выполняющих служебные функции на письме.

:ние представления информации в китайском языке

Представление Слово Иероглиф Буква

Отображение Звучание + значение Значение Звучание

Мощность ~ 68 000 ~ 13 000 25 букв + 5 диакритических знаков

Источник Нормативный иероглифический словарь современного китайского языка, 2005 г

3 Ввод текста в компьютер на китайском языке

Существует два основных способа ввода иероглифов в компьютер: на основе произношения и на основе начертания. Система на основе произношения использует записанные латиницей фонетические транскрипции для китайского языка. В данной системе набирается произношение, затем из предложенных иероглифов выбирается нужный, рис 2.

Рис. 2. Пример фонетического ввода (Pinyin)

Система на основе начертания использует тот факт, что количество черт в иероглифе ограничено. В данной системе набирается начертание иероглифа, затем из предложенных иероглифов выбирается нужный, рис. 3. Также на сенсорных устройствах распространен рукописный ввод, аналогично написанию на бумаге.

Рис. 3. Пример ввода начертаниями (Stroke)

В отличие от символов индоевропейской семьи языков, кодирование китайских символов невозможно осуществить однобайтовой кодировкой, поэтому используют двухбайтовые: Big-5, GB18030, UTF-8, табл. 2.

Табл. 2. Сравнение кодировок китайского языка

Название Символы Длина

Big-5 Традиционные 2 байта

GB18030 Традиционные, упрощенные 2 байта

UTF-8 Традиционные, упрощенные 2(4) байта

Двухбайтового кода достаточно для кодирования символов всех языков мира, в том

числе и китайских иероглифов [Хакимов, 2013].

4 Характеристика китайско-русской языковой пары

Анализ доступных публикаций по лингвистике и структурной типологии показывает глубокие различия между китайским и русским языками.

Односложные слова в китайском языке характеризуются грамматической законченностью и в соответствии со своими грамматическими свойствами. В русском языке выражение морфологических значений переводят лексему в ту или иную морфологическую форму слова за счет изменения её как таковой. Также присутствуют элементы аналитизма, которые выполняют преобразования за счет специальных слов [Даниленко, 2013].

Морфологические категории и грамматические формы, закрепленные в китайском языке, характеризуются следующей системой высказываний [Абдрахимов, 2016]:

— В китайском языке частично отсутствуют лексико-грамматические разряды, например, число есть у имен одушевленных существительных. В русском языке эта категория является обязательной. В китайском языке один глагол соответствует двум русским - личному и безличному, так как данная грамматическая категория в языке не выражена.

— В китайском языке нет определенных морфологических показателей, характеризующих каждую часть речи (в русском языке грамматические категории зависят от части речи). Одно и то же слово китайского языка выступает одновременно в роли имени существительного, прилагательного, глагола.

— К лексико-грамматическим трудностям, приводящим к появлению ошибок, можно отнести многозначность союзов, различие порядка слов в простом и сложном предложениях в китайском и русском языках.

— Лексическая семантика двух языков -китайского и русского - влияет на выбор грамматической формы слова: в русском языке от лексического значения зависят единичные и собирательные существительные, в китайском языке значения подобных слов не различаются.

Фонетическое и идеографическое письмо русского и китайского языка имеет в своей основе фундаментальные различия. С семан-

тической точки зрения это разграничение символа и иконы [Крушинский, 2012].Слово как основная структурно-семантическая единица языка наряду с прочими признаками характеризуется фонетической цельностью и оформлением, которые в русском языке обеспечивается за счет словесного ударения. Таким образом, «русский и китайский языки по

Табл. 3. Сравни

описанию фонетической цельнооформленно-сти слова оказываются несопоставимыми или несоизмеримыми» [Алексахин, 2014].

Также в отличие от русского, в китайском языке нет падежей, чисел и родов. Иероглифы не склоняются. Сравнительная характеристика языков приведена в таблице 3.

:ьная характеристика китайского и русского языков

Признак Китайский язык Русский язык

Морфологический тип Изолирующий, с элементами агглютинации Флективный, с элементами аналитизма

Порядок слов в предложении Строгий Свободный, грамматически не обусловлен

Письменность Иероглифическая Кириллица

Мощность алфавита и фонетика См. табл. 2 33 буквы, ~43 звука

Количество падежей 0 6 + 1 форма

Количество склонений существительных 0 3

Количество спряжений глаголов 0 3

5 Обзор систем и сервисов китайско-русского машинного перевода

В настоящее время для рассматриваемой языковой пары существует ряд различных систем машинного перевода. Среди наиболее известных и относительно самостоятельных систем МП, выполняющих перевод с китайского на русский язык, можно выделить следующие семь: Google Переводчик, Microsoft Translator, M-Translate, PerevodSpell, Translate.Ru, Тт^ё^ Яндекс.Переводчик.

Для составления первичного представления о возможностях данных систем сопоставим примеры переводов, выполненные человеком и вышеперечисленными системами. В качестве источника используется отрывок из статьи, представленной на интернет-портале китайского СМИ SINA1, а в качестве эталона -выполненный человеком перевод, представленный на ресурсе «ИноСМИ»2.

Ниже представлены исходные данные и полученные результаты. Явные ошибки в текстах переводов подчеркнуты.

Оригинальный текст:

fflÄÄffiWÄ&tf&teSoЙАШЛШ&ё

□ о

Эталон перевода человеком

Родившиеся в 1990 году Ким Ён А и Мао Асада неоднократно завоевывали титулы чемпионок на чемпионатах мира. Но с тех пор, как они завершили карьеру, в Азии больше не было фигуристок, достигших подобных успехов. Фактически, после того, как в 2015 году японка Сатоко Мияхара получила серебро, в женском одиночном фигурном катании началась эпоха «без Азии», и на двух следующих чемпионатах мира на пьедестале не было спортсменок из этого региона.

Google Переводчик3

На чемпионатах мира Ким Еон-и Асада Танака, оба родившиеся в 1990 году, несколько раз выигрывали титул. После того, как двое ушли на пенсию, Азия так и не смогла добиться того же успеха, что и два. Фактически, после победы в чемпионате мира по футболу в Мияхаре Мияко в 2015 году, синглы с фигурным катанием начали «внеазиат-скую эпоху». После этого ни один азиатский спортсмен не вышел на подиум после двух подряд чемпионатов мира.

1 http://www.sina.com.cn/ -

2 https://inosmi.ru/ 3 https://translate.google.com

Microsoft Translator1

На чемпионате мира, Na и Асада заметно, Родившийся в 1990 году, были коронованы несколько раз. С двух пенсионеров, Азия больше не может и двух народных достижений. В самом деле, с чемпионата мира 2015 года, японские спортсмены в первом занявший второе место, фигурное катание синглов начал "де-азиатской эры", после двух последовательных чемпионатов мира нет азиатских спортсменов на подиум.

«M-Translate»2

На чемпионатах мира Ким Еон-и Асада Танака, оба родившиеся в 1990 году, несколько раз выигрывали титул. После того, как двое ушли на пенсию, Азия так и не смогла добиться того же успеха, что и два. Фактически, выиграв второе место в чемпионате мира по футболу в Японии Мияхара Мияко в 2015 году, синглы с фигурным катанием начали «внеазиатскую эпоху», после чего азиатские спортсмены не вышли на подиум после двух подряд чемпионатов мира.

PerevodSpell3

В чемпионате мира, родились в 1990 году, дети Ким и Мао Асада имели несколько прирост короны. Так как вышел в отставку, и никто не может уже не два достижения году в Азии. На самом деле, игроки из чемпионатов мира 2015 в Японии Мияхаре знать ребенок, занявший второе место, женские одиночные фигурное катание начало ««от Азии эпохи», после двух последовательных чемпионатов мира азиатских игроков больше не подиум.

Translate.Ru

На чемпионатах мира, родился в 1990 году Ким детей и Мао Асада, уже несколько раз получили корону. Два человека, в отставку Азия jaya без исключения двое новых успехов. На самом деле на чемпионатах мира в 2015 году Япония Гунъюаньчжицзы второе место, чтобы получить после одиночных Игр начинается фигурное катание "и от времени", после двух сроков подряд на чемпионатах мира не азиатских игроков тогда посадкой подиум.

Transёr4

В чемпионатах мира NA и АСАДА заметно, родился в 1990 году, были коронованы с

1 https: //translator. microsoft.com/

2 http://www.m-translate.ru/

3 https://www.perevodspell.ru/

4 https://transer.org/

несколько раз. Начиная с двух пенсионеров, Азии уже не может и достижения двух людей. В самом деле, с 2015 года чемпионата мира, японские спортсмены в первой вице-мисс, фигурному катанию синглов начал «де азиатских эра», после двух подряд Чемпионат Азии спортсмены на подиум.

Яндекс.Переводчик

На Чемпионате Мира, родился в 1990 году Ю-на Ким и Асада уже несколько раз победила. Поскольку два человека после ухода, в Азии никогда никто не может двум людям достижениях за год. На самом деле, от Чемпионата Мира 2015 года японские игроки Дворец, ранее известный суб-про Фигурное катание женское одиночное стали"вне времени", после двух подряд чемпионатах мира тогда нет азиатских игроков взойти на подиум.

Автоматическое определение языка корректно выполнили 6 из 7 кандидатов. Сервис PerevodSpell не имеет возможности определять язык источника текста автоматически. Google Переводчик, при переводе третьего предложения, являющегося сложным, разбил его на два отдельных. Google Переводчик и M-Translate перевели первые два предложения идентично. Имена Ким Ён А и Мао Асада были переведены по разному, табл. 4. Интересно, что имя Мао Асада переведено большинством переводчиков достаточно узнаваемо. «Асада» упоминается в 7 из 7 переводов. Имя Ким Ён А, Microsoft Translator и Тт^ё^ в отличии от остальных систем, перевели кратко - Na.

Табл. 4. Сравнение переводов имен собственных

Смысл первого предложения данного отрывка был передан правильно не всеми системами. Деепричастный оборот про рождении спортсменок правильно выделили Google Переводчик, Microsoft Translator, M-Translate, Transёr. PerevodSpell и Translate.Ru не правильно перевели имя, при этом появилось слово «дети (детей)», которое искажает смысл текста.

ИноСМИ Ким Ён А Мао Асада

Google Переводчик Ким Еон- Асада Танака

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Microsoft Translator Na Асада

M-Translate Ким Еон- Асада Танака

PerevodSpell дети Ким Мао Асада

Translate.Ru Ким детей Мао Асада

Transer NA АСАДА

Яндекс.Переводчик Ю-на Ким Асада

Во втором предложении переводимого отрывка система Translate.Ru использует слово jaya, которое не относится к русскому языку. Смысл смогли передать лишь Google Переводчик и M-Translate, перевод которых совпал. Остальные системы перевода не справились с переводом.

Третье предложение переводимого отрывка достаточно объемное. Фразу эпоха «без Азии» адекватно перевели Google Переводчик, Microsoft Translator, M-Translate, Transёr. Смысл не смог передать не один из переводчиков.

В целом перевод данного отрывка не адекватен и отнимет много времени у человека, так как постредактура по сложности может оказаться не менее сложной, чем непосредственно перевод.

6 Заключение

По результатам изложенного материала представляется обоснованным сделать следующие выводы:

1. Китайский и русский языки имеют мало общей лексики, и коренным образом отличаются морфологически и синтаксически. Межъязыковые преобразования для китайско-русской языковой пары подразумевают решение множества проблем, требующих формальных решений.

2. Использование алфавита в китайском языке упрощает его представление и ввод в электронные устройства. Кроме того, фонетическое (алфавитное) представление китайского текста позволяет использовать конверсию систем письма в качестве вспомогательного способа при машинном распознавании и переводе имен собственных [Гращенко, 2010].

3. Машинный перевод, выполненный с китайского языка на русский язык современными системами, не адекватен и требует значительной правки переводчиком.

4. Выполненный в данной работе обзор позволяет перейти в ближайшей перспективе к разработке перечня требований для системы китайско-русского машинного перевода, а также охарактеризовать рассматриваемую языковую пару по системе показателей апробированных ранее показателей [Гращенко, 2011].

Список литературы

Абдрахимов, Л.Г. Контрастивные различия языковых систем китайского и русского языков // UNIVERSUM: Филология и искусствоведение : электрон. научн. журн. 2016. №5. 7 с.

Алексахин, А.Н. Алфавит китайского языка путунхуа. Буква. Фонема. Звук. Слог. - М.: АСТ: Восток-Запад, 2008. - 96 с.

Алексахин, А.Н. Современная политика КНР в отношении иероглифической и буквенной письменности // Вестник МНИМО Университета. 2011. С. 243-252.

Алексахин, А.Н. Принципы сравнения фонологической структуры слова русского и китайского языков // Вестник МНИМО Университета. 2014. С. 215-223.

Булдыгерова, Л.Н. История Китая : учебное пособие // Хабаровск: Изд-во ТОГУ, 2016. -168 с.

Даниленко, В.П. Синтетическая морфологиза-ция в китайском языке // Вестник Иркутского государственного лингвистического университета. 2013. С. 117-121.

Гращенко, Л. А. Математические основы автоматизированной таджикско-персидской конверсии графических систем письма: дис. ... канд. физ.-мат. наук. - Душанбе: ИМ АН РТ, 2010. - 115 с.

Гращенко, Л. А. Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа // Новые информационные технологии в автоматизированных системах. 2011. № 14. С. 92-106.

Крушинский, А. А. К проблеме методологических предпосылок адекватного перевода: стиль мышления китайцев и их языковая картина мира // Вестник РУДН. 2012. № 4. С. 57-76.

Кубарич, А.М. Семантика тона в китайском языке: экспериментальное исследование // Вестник КемГУ. 2012. С. 8-13.

Петухова, Н.В. Развитие китаеведения как науки в России в середине - второй половине XIX века // Вестник Санкт-Петербургского университета. 2014. С. 15-22.

Самойлов, Н.А. Россия и Китай в XVIII - Начале XX в.: Тенденции взаимодействия и взаимовлияния // Вестник Санкт-Петербургского университета. 2010. С. 3-15.

Успенский, В. Л. Из истории русско-китайских отношений в XVII в. (по новым документам на монгольском языке) // Новый исторический вестник. 2012. С. 10-17.

Хакимов, Р.Х. Стандартизация графических подсистем языков - выгоды и потери // Вестник Нижневартовского государственного университета. 2013. С. 2-6.

i Надоели баннеры? Вы всегда можете отключить рекламу.