Научная статья на тему 'Информационные основы польско-русского межъязыкового преобразования текстов'

Информационные основы польско-русского межъязыкового преобразования текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
546
114
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Гращенко Л. А., Пивоваров Н. Н.

В статье приводятся систематизированные сведения в области польско-русского межъязыкового преобразования текстов, выполнена сравнительная характеристика этих двух языков. Обоснована целесообразность и возможность применения конверсии графических систем письма в системах польско-русского машинного перевода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Информационные основы польско-русского межъязыкового преобразования текстов»

Информационные основы польско-русского межъязыкового

преобразования текстов

Гращенко Л.А., Пивоваров Н.Н. Академия ФСО России [email protected], [email protected]

Аннотация

В статье приводятся систематизированные сведения в области польско-русского межъязыкового преобразования текстов, выполнена сравнительная характеристика этих двух языков. Обоснована целесообразность и возможность применения конверсии графических систем письма в системах польско-русского машинного перевода.

1 Введение

Социально-политические процессы, затронувшие территорию Восточной Европы в VI-X вв. н.э., привели к разделению единой древнеславянской народности, а вместе с ней и единого древнеславянского языка. Процесс обособления языков славянской языковой группы не носил автономного характера. Более того, он не имел чётких территориальных границ: славянские языки, отдаляясь друг от друга, продолжали активно взаимодействовать как между собой, так и с языками других групп [Ходова, 1960]. В результате меняющегося во времени по характеру и интенсивности межъязыкового взаимодействия, в настоящее время славянские языки находятся в относительно когерентной языковой группе, что обуславливает существование проекта единого новославянского языка (см. rus .neoslavonic. org).

Характерным результатом такого взаимодействия являются русский (РЯ) и польский (ПЯ) языки, дивергенция (расхождение) которых в ходе исторической эволюции сменялась периодами конвергенции (сближения), приводя к межъязыковой интерференции. Так, вражда России и Польши на протяжении XVI-XVII веков, обусловленная желанием обоих государств расширить сферу своего влияния на соседние территории, привела к попытке насаждения польской культуры в России. А последующее ослабление Польского государства и вхождение его большей части в состав Российской Империи (Царство Польское) привело к попыткам принудитель-

ной «русификации» Польши со стороны нашего государства: пик этих попыток пришёлся на вторую половину XIX века. Дошло до того, что делопроизводство и преподавание в Польше велись исключительно на русском языке, а польский язык насильно вытеснялся из всех сфер жизни общества. В 186070 гг. активно прорабатывался проект перевода польского языка на кириллицу, для чего П. Дубровским была разработана система транслитерации [Сиесс-Кжишковский, 2007].

Обретя независимость лишь после Октябрьской революции в России, с 1945 по 1991 год Польша находилась в сфере влияния своего восточного соседа, будучи членом Организации Варшавского договора и Совета по экономической взаимопомощи.

Сегодня Россия и Польша - партнёры в таких областях как информационные и природоохранные технологии, энергетика, машиностроение, нефтехимия, туризм и фармацевтика. Ежегодно Польшу посещают около 2 млн. россиян, а Россию - примерно такое же число граждан Польши. Активно развивается культурное, научное и гуманитарное сотрудничество двух стран. С 2010 года функционирует Российско-польский центр диалога и согласия. По данным бюро переводов «Ркг^» (flarus.ru), наблюдается положительная динамика заказов на перевод между польским и русским языками, что отражает развитие отношений российских клиентов компании с партнерами из Польши.

Указанные обстоятельства требуют интенсификации межъязыковых преобразований текстов для рассматриваемой языковой пары. В связи с этим возникает ряд вопросов: Какие системы существуют сегодня и применимы в переводческой практике? Насколько они удовлетворяют требованиям времени? Учитывается ли ими близость русского и польского языков при осуществлении межъязыкового преобразования текстов? Как можно использовать свойство «когерентности» РЯ и ПЯ при разработке перспективных систем автоматизации перевода текстов? В статье предпринята попытка ответить на указанные во-

просы путем систематизации материалов доступных библиографических источников.

2 Обзор существующих систем

польско-русского межъязыкового преобразования текстов

До конца XX столетия лингвистические ресурсы поддержки перевода между русским и польским языками были представлены в основном традиционными бумажными словарями и руководствами по переводу. Значимым событием стало издание в 1967 году совместного проекта издательств «Советская Энциклопедия» (Москва) и «Ведза Повшех-на» (Варшава) - Большого польско-русского словаря объемом 80 тыс. статей.

Исторически вследствие близости польского и русского языков, а также длительного нахождения их носителей в составе единого общественно-политического образования, важным средством межъязыкового преобразования текстов помимо традиционного перевода выступала конверсия (графических) систем письма (КСП). В ГОСТ 7.79-2000 КСП определяется как представление текстов, составленных на одном языке, средствами системы письма, принятой для другого языка. Реализовать конверсию можно путем транскрипции (передача звучания) или транслитерации, когда исходный и принимающий языки пользуются различными графическими системами, но буквы этих языков можно поставить в соответствие друг другу [Гращенко, 2010]. Уже упомянутая система транслитерации П. Дубровского, разработанная в первой трети XIX столетия, в наше время была дополнена стандартами ГОСТ 7.0.34-2014 и Polska Norma PN-83/N-01201 (с расширенной кириллицы на расширенную латиницу). Стоит упомянуть такую разработку, как «цыры-лица польска» или «юсовица» (автор - Szymon Pawlas), использующую старославянский алфавит для передачи специфических звуков ПЯ1. Но вследствие ориентации данных систем на передачу звукового облика исходного языка, области их применения ограничены в основном конверсией имен собственных.

С развитием вычислительной техники и наступлением цифровой эры расширился перечень и объемы доступных лингвистических ресурсов. Словари стали электронными, а значит более удобными и быстро обновляе-

мыми. А в 2010-2012 гг. в Варшавском университете на основе художественных, юридических, религиозных текстов и публицистики был составлен двуязычный параллельный русско-польский корпус, насчитывающий около 30 млн. слов2.

Соответственно, расширились и возможности по автоматизации межъязыковых преобразований текстов между РЯ и ПЯ. Широкому кругу пользователей в XXI веке стали доступны различные online системы статистического машинного перевода (SMT), ведущие из которых разработаны компаниями Google и Yahoo. Менее распространены и используются в основном специалистами системы машинного перевода на основе правил (RBMT) и инструментарий для автоматизированного перевода текстов (CAT) на основе технологии Translation memory (TM), рис. 1.

Автоматизированное преобразование текстов между ПЯ и РЯ

Ь

Морфемный ^ преобразователь )

Рис.2. Подходы к автоматизированному межъязыковому преобразованию текстов для польско-русской языковой пары

Здесь следует упомянуть, прежде всего, такие разработки как Pragma3 и Translatica Office14, существующие в виде коробочных продуктов и веб-сервисов. Локальные приложения Kompas и XT2 Trio, созданные на базе электронных словарей объемом в несколько сотен тысяч слов и выражений, также доступны заинтересованным пользователям.

При этом автоматизация коснулась и транслитерации, которая оказалась востребованной и как отдельная функция, и как элемент систем машинного перевода в части касающейся преобразования имен собственных, калькирования терминов и т.д. Более того, разработанные в первой трети XX века системы практической транскрипции имен соб-

1 http://steen.free.fr/cyrpol/index.html

2 http://pol-ros.polon.uw.edu.pl

3 http://www.translate.ua

4 http://translatica.pl/

ственных между РЯ и ПЯ были адаптированы к новым реалиям машинной обработки [Клышинский, 2010]. В рамках проекта преобразования текстов между славянскими языками разработан online транслитератор и транскриптор, реализующий, в том числе, систему П. Дубровского1. Однако применение конверсии систем письма для русско-польской языковой пары на основе транскрипции или строгой (упрощенной) транслитерации сильно ограничивает сферу использования соответствующих приложений. Хотя известно, что методы КСП применимы, в том числе, для улучшения работы систем машинного перевода между языками с высокой долей общей лексики [Гращенко, 2010; Логачева, 2013].

В этой связи перспективным представляется разработка системы расширенной транслитерации между ПЯ и РЯ, ориентированной, прежде всего, на согласование графемного состава указанных языков. В отличие от строгой транслитерации, когда одной букве исходного языка ставится в соответствие одна буква принимающего языка, в расширенной транслитерации учитываются сочетания букв. Такая система КСП, занимая нижний уровень в иерархии межъязыковых преобразователей [Гращенко, 2011], вследствие близости ПЯ и РЯ, может быть расширена до уровня морфем, как это было показано в работе [Гра-щенко, 2011].

Проиллюстрируем применение различных методов КСП для польско-русской языковой пары на примере преобразования слова mitose (милость), табл. 1.

Табл. 1. Подходы к конверсии систем письма

1 http://steen.free.fr/interslavic/transliterator_extended.html

от фонетической, пользуется исключительно символами алфавита языка-приемника [Логачева, 2013]. Если воспользоваться транскрипцией, разработанной для передачи топонимов [Скрипниченко, 1975], то буквосочетание «ее» преобразуется в «сць». Такие варианты транскрипции реализованы, например, на упомянутом веб-ресурсе ТгатШвгМог. Несмотря на то, что получившиеся записи относительно точно передают звучание исходного слова, для русского человека они, что называется, «режут глаз».

При использовании строгой транслитерации по стандарту РК-83/К-01201 биграмма «ее» заменяется биграммой «шч», а при расширенной транслитерации - буквой «щ».

Если же разбить исходную словоформу на морфемы - корень «тй» и суффикс «оэе», то последнему в РЯ почти всегда можно сопоставить функциональный эквивалент «ость». Справедливости ради стоит заметить, что данное конкретное наблюдение отражено в известном варианте практической транскрипции [Ермолович, 2009], что строго говоря, не соответствует основной идее транскрипции -передаче исходного звучания. Так или иначе, полученное последним способом слово лучше воспринимается русскоязычным читателем.

Конечно, приведенный пример во многом условен и не является правилом, скорее отражая наивную надежду на то, что если переписать польский текст русскими буквами, то он непременно будет понятен носителю РЯ. Однако он позволяет выдвинуть предположение о возможности создания такой системы КСП, которая будет так преобразовывать тексты ПЯ в тексты РЯ, что сможет выступать упрощенной альтернативой машинному переводу, используя близость двух языков. При этом, конечно, правила разбиения исходных словоформ могут быть отличны от морфемного принципа.

Для проверки возможности использования данного предположения и дальнейшего обоснования выбора подходов к польско-русской конверсии графических систем письма необходимо всесторонне сравнить рассматриваемые языки.

3 Характеристика русско-польской языковой пары

Анализ доступных публикаций по компаративистике, эквивалентике и структурной типологии показывает, что наибольшее сход-

Подход Слово ПЯ Результат конверсии

Транскрипция география. milosc милосць

Практическая транскрипция милосьч

Транслитерация PN-83/N-01201 милощ / милошч

Морфемный конвертер милость

Так, при практической транскрипции поль-

ского слова milosc на русский язык буква «s» заменяется биграммой «сь» (эквивалент произношения), а «с» - буквой «ч» [Клышинский, 2010]. Практическая транскрипция, в отличие

ство русский и польский языки проявляют в фонетике, морфологии и синтаксисе, а наибольшие различия - в грамматических категориях. С точки зрения фонетики ПЯ и РЯ относятся к одному типу иерархичных полимодельных языков с низкой типизированностью [Данилина, 2011], близки по количеству и составу используемых звуков, хотя существует небольшой разброс мнений различных исследователей относительно их точного числа. Эти звуки на письме передаются в ПЯ 32 буквами расширенной латиницы, а в РЯ 33 буквами кириллицы. Морфологический и синтаксический типы обоих языков идентичны, табл. 2.

Частеречное сравнение РЯ и ПЯ показывает высокую схожесть языковых систем, что проявляется в наличии одинаковых частей речи и их грамматических категорий (рода, числа, одушевленности, падежа). Падежные формы обоих языков идентичны, а звательный падеж ПЯ в русском языке представлен звательной формой именительного падежа РЯ [Исаченко, 1963].

Но при схожести категорий родов между РЯ и ПЯ, встречаются случаи несовпадения в роде с русским языком при сходном звучании слов. Например, польские прилагательные характеризуются наличием особой словоизменительной грамматической категории мужского лица, наличием склонения у форм степеней сравнения, высокой степенью унификации падежно-числовых форм [Суслович, 2008]. Теоретико-множественное исследование славянских языков обнаружило значительное отличие русского языка от польского

Табл. 2. Сравн

по критерию формальной однородности. В частности, условных родов в русском языке насчитывается шесть, а в польском только пять [Ревзин, 1967]. Поэтому польско-русская языковая пара характеризуется существованием некоторого числа фраз, буквальный перевод которых, не нарушая нормы переводящего языка, может привести к изменению стилистики сообщения [Гасек, 2012].

Лексическое сходство двух языков проявляется в высоком проценте (77%) перекрытия базовой лексики по списку Сводеша [01Меш8, Ма2шП8, 1994]. Но помимо общей праславянской лексики высокое пересечение словарей РЯ и ПЯ объясняется историко-культурным соприкосновением двух народов (взаимные заимствования), а также схожим характером заимствований из языков, являвшихся в разное время олицетворением так называемой «языковой моды» (неславянские заимствования), табл. 2 [Ходова, 1960; Михаленко, 2009].

Однако при высокой схожести ПЯ и РЯ, существенное различие между ними наблюдается именно на лексическом уровне, где присутствует межъязыковая омонимия и па-ронимия. Словарь «ложных друзей переводчика», т.е. знакомых нам слов, имеющих совсем другое значение, по некоторым данным, может насчитывать до 1400 пар межъязыковых омонимов, это максимум среди всех славянских языков.

Указанные особенности двух языков необходимо учитывать при практической реализации перспективных систем КСП.

льная характеристика польского и русского языков

Признак Русский язык Польский язык

Морфологический тип Флективный, синтетический с элементами аналитизма

Порядок слов в предложении Свободный, грамматически не обусловлен

Письменность Кириллица Расширенная латиница

Мощность алфавита и фонетика 33 буквы, ~43 звука 32 буквы, ~43 звука

Количество падежей 6 + 1 форма 7

Количество склонений существительных 3 4

Количество спряжений глаголов 3 4

Основные заимствования Латинский, тюркские языки, английский, немецкий, французский.

Церковнославянский, польский, нидерландский, греческий. Чешский, восточнославянский, итальянский.

4 Опыт автоматизации польско-русской конверсии систем письма

Для проверки высказанных выше предположений начата разработка программного исследовательского стенда, в первой версии которого реализованы следующие возможности, рис. 2:

• транслитерация с польского на русский язык по стандарту Р1Ч-83/]Ч-01201 (Тл);

• практическая транскрипция с ПЯ на РЯ из работы [Клышинский, 2010] (ТР-1);

• межъязыковое польско-русское преобразование на основе КСП (ПРК);

• подсчет статистики обработки, в том числе верификация результата по словарю русского языка объемом 120 тыс. слов;

• редактирование пользовательских баз для экспериментов с расширенной транслитерацией.

За исходный вариант пользовательской КСП (ПРК) принята транскрипция ТР-1. В этом варианте межъязыкового преобразования в тексте сначала осуществляется поиск и замена стоп-слов (объем 90 слов) и омонимов («ложных друзей переводчика», объем 350 слов). К оставшимся словам применяются правила конверсии.

Рисунок 2 иллюстрирует, что получаемый даже в таком «облегченном» варианте конверсии текст может быть вполне понят русскоязычным пользователем. Более того, сам собой напрашивается для включения в поль-

зовательский вариант ПРК ряд правил замены, с помощью которых результирующий текст обретет большую «читабельность». Следующим шагом развития программы является нахождение и верификация этих правил, преимущественно статистическими методами.

Пока же была проведена серия пробных преобразований на начальных фрагментах польского частотного словаря разной длины во всех реализованных режимах, табл. 3.

В таблице режиму ТЛ-2 соответствует транскрипция с помощью онлайн сервиса Interslavic ТгатШегаЮг.

Как видно, предварительные результаты конверсии достаточно скромные, но в них не учтено словоизменение польских слов, т.к. производится некорректное сравнение частотного словаря с обычным. Поэтому дальнейшее совершенствование исследовательского инструментария связано с доработкой статистического модуля.

Табл. 3. Результаты пробной конверсии письма

Размер словаря ПЯ Совпадение со словарем РЯ, %

ТЛ ТС-1 ТС-2 ПРК

1000 6,6 9,3 10,0 16,8

2000 5,3 7,7 7,4 12,7

5000 4,3 6,0 7,2 8,3

10000 2,5 4,3 1,4 6,7

Павэл Солёх: - На пэвно агрэсывна политыка тэга крага, попарта розбудово можливосьчи милита ест для бэзпетшэньства Эуропы грозьна. Од тшасу войны из Грузе в 2008 р. Росл доконала глебо! модернизации армии и затшэнла проваджич агрэсывно и, як шие оказуе, тшэнсьчёво скутэтшно п ту на мыг! ли анэксе Крыму и но, который шие джиэе на всходжиэ Украины. До тэго доходжи npyi для глёбальнэй гры попшэз выслане своих войск для Сырии.

Рис. 3. Главное окно польско-русского конвертера графических систем письма

5 Заключение

По результатам изложенного материала представляется обоснованным сделать следующие выводы:

1. Существующие средства автоматизации польско-русского межъязыкового преобразования текстов относительно хорошо развиты, реализуют современные технологии машинного перевода, и в полной мере могут удовлетворить запросы широкой аудитории пользователей. Однако в них практически не используется свойство близости польского и русского языков, схожести языковой картины мира двух народов.

2. Нахождение польского и русского языков в одной «когерентной» группе, значительный пласт общей лексики, единство морфологического и синтаксического строя при различии в системах письма обуславливают возможность включения средств КСП в состав перспективных систем польско-русского машинного перевода текстов. За счет этого можно добиться существенного сокращения объемов словарных баз переводческих приложений; увеличить до 100% полноту обработки текстов при минимально гарантированном уровне точности; реализовывать автономные приложения, не требующие подключения к Интернету; создать основу для контроля качества переводов.

3. Проблематика польско-русской КСП включает такие аспекты как преодоление межъязыковой омонимии и паронимии, распознавание иноязычных слов в польском тексте, записанных латинским алфавитом.

4. Выполненный в данной работе обзор позволяет перейти в ближайшей перспективе к расширению функционала разработанного исследовательского стенда, и проведению статистических экспериментов в области польско-русской КСП. А далее - к нахождению такой системы правил расширенной транслитерации для польско-русской языковой пары, которая бы минимизировала различия в частотах употребления буквенных п-грамм конвертированных на русский язык польских текстов.

Список литературы

Гращенко, Л.А. Математические основы автоматизированной таджикско-персидской конверсии графических систем письма: дис. ... канд. физ.-мат. н. - Душанбе: 2010. - 115 с.

Гращенко, Л.А. Анализ состояния и перспектив развития систем машинного перевода для стран Центральной Азии и Кавказа // Новые информационные технологии в автоматизированных системах. - 2011. - №16. - С. 92-106.

Данилина Н.И. Вокальные морфонологические системы в именном словоизменении // Известия Саратовского университета. - 2011. - Т.11: Сер. Филология. Журналистика. - Вып. 1. - С. 10-14.

Ермолович, Д.И. Методика межъязыковой передачи имён собственных. - М.: ВЦП, 2009. - 88 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Инструкция по русской передаче географических названий Польши / сост. А.З. Скрипниченко -М.: Наука, 1975. - 49 с.

Исаченко, А. А. Опыт типологического анализа славянских языков / А.А. Исаченко // Новое в лингвистике. Вып. III. - М.: изд. МГУ, 1963. -С. 106-121.

Логачева, В.К. Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных: дис. ... канд. физ.-мат. н. - М.: ИПМ им. М.В. Келдыша, 2013. - 132 с.

Михаленко, А.О. Лексические заимствования в польском языке в контексте культурно-исторических связей Польши / А.О. Михаленко, В.А. Ястребов // Сборник научных трудов Сиб. ГУ - Железногорск: издательство СГАУ им. М.Ф. Решетнева, 2009. - С. 135-140.

Практическая транскрипция личных имен в языках народов мира / [отв. ред. Э.С. Клышин-ский]; Ин-т прикладной математики им. М.В. Келдыша РАН. - М.: Наука, 2010. - 679 с.

Ревзин, И.И. Метод моделирования и типология славянских языков. - М.: Наука, 1967. - 299 с.

Сиесс-Кжишковский, С. Гражданский шрифт для польского языка. Эпизод из истории просвещения в Королевстве Польском // Про книги. -2007. - №1. - С. 98-107.

Суслович, С.В. Оценочная концептуализация действительности (сопоставительный анализ польского и русского языков) // Сборник трудов ПГУ - Архангельск: изд-во ПГУ им. М.В. Ломоносова, 2008. - С. 67-70.

Ходова, К.И. Языковое родство славянских народов. - М.: Учпедгиз, 1960. - 63 с.

Girdenis, A., Maziulis, V. Baltu kalbu divercencine chronologija // Baltistica. T. XXVII (2). - Vilnius, 1994. - p. 9.

i Надоели баннеры? Вы всегда можете отключить рекламу.