Вестник Московского университета. Серия 9. Филология. 2018. № 2
Чэнь Сяохуэй (КНР), О.В. Кукушкина
0 ПАРАЛЛЕЛЬНЫХ КОРПУСАХ РУССКИХ И КИТАЙСКИХ ТЕКСТОВ1
Народный Университет Китая
100872, Пекин, Район Хайдянь, Проспект Чжунгуаньцунь, № 59
Федеральное государственное бюджетное образовательное учреждение высшего
образования «Московский государственный университет имени М.В. Ломоносова»
119991, Москва, Ленинские горы, 1
В данной статье мы попытаемся рассмотреть уже существующие параллельные корпуса русских и китайских текстов, чтобы не только познакомить с ними читателя, но и извлечь опыт из их разработки и показать перспективу и направление дальнейшей работы. Рассматриваются следующие корпуса: параллельный корпус переводов «Слова о полку Игореве», который содержит переводы данного памятника на разные языки, в том числе на китайский; параллельный русско-китайский корпус в составе Национального корпуса русского языка; полистилевой русско-китайский и китайско-русский параллельный корпус, создаваемый под руководством Цуй Вэя; русско-китайский параллельный корпус научных текстов гуманитарной области, создателем которого является китайский ученый Тао Юань; русско-китайский переводческий корпус, разработанный китайским ученым Лю Мяо и разделенный на три блока: подкорпус рассказов Чехова, китайско-русский подкорпус художественной литературы, подкорпус обучения русскому языку как иностранному; китайско-русский параллельный корпус официально-деловых текстов с дискурсивно-структурной разметкой, разработчиками которого являются М.Ю. Мухин и Ян И; китайско-русский параллельный корпус романа «Страна вина», созданный китайскими учеными Пяо Чжэхао, Ли Цинхуа и Ван Лися; параллельный корпус «Русские переводы трактата «Дао Дэ Цзин», разработанный авторами данной статьи и содержащий две версии: сокращенную (три перевода) и полную (21 перевод). Проведенный анализ показывает, что разработка и использование параллельных корпусов русских и китайских текстов находится пока на начальном этапе. Объем существующих корпусов пока еще очень мал, а их тематика недостаточно широка; специалистов, занимающихся разработкой корпусов, обработкой
Чэнь Сяохуэй — канд. филол. наук, старший преподаватель, Народный университет Китая (e-mail: [email protected]).
Ольга Владимировна Кукушкина — докт. филол. наук, профессор филологического факультета МГУ имени М.В. Ломоносова (e-mail: [email protected]).
1 Работа выполнена при финансовой поддержке Китайского Совета по Стипендиям (CSC) в рамках проекта по двустороннему обмену с МГУ имени М.В. Ломоносова. № 201706365021.
текстов и корпусно-ориентированным исследованием, не хватает. Однако большой исследовательский, обучающий и культурный эффект, который могут дать параллельные корпуса текстов, свидетельствует о том, что их создание — весьма важная задача, которую предстоит решить в ближайшем будущем.
Ключевые слова: параллельный корпус; русский; китайский; разметка.
Прошло уже полвека с тех пор, когда в 1960-е годы в Брауновском Университете (США) был создан первый большой компьютерный корпус. За это время в полной мере осознана необходимость создания параллельных корпусов текстов, и это направление стало одним из интенсивно развивающихся направлений современной корпусной лингвистики. Важным фактором его развития стала практическая необходимость создания баз данных типа "Translation Memory" (память переводов), помогающих найти оптимальный вариант перевода. В отличие от одноязычного корпуса корпус параллельных текстов содержит оригинал на одном языке с его переводом (переводами) на другой язык (языки). Создание полноценных параллельных корпусов — задача трудоемкая и сложная, поскольку для хорошей сопоставимости текст оригинала и перевода должен быть «выровнен», т.е. разделен на фрагменты, имеющие одно и то же содержание.
В Китае были созданы десятки параллельных корпусов разных объемов, но в основном это были китайско-английские корпуса. В России также не уделялось должного внимания задаче создания русско-китайских корпусов. Однако в последнее время ситуация изменилась. Тем не менее, можно сказать, что работа над параллельным корпусом русских и китайских текстов только началась. С ее результатами как русские, так и китайские пользователи еще мало знакомы в силу их малой доступности и/или одноязычного интерфейса. В данной статье мы попытаемся рассмотреть уже существующие параллельные корпуса русских и китайских текстов, чтобы не только познакомить с ними читателя, но и извлечь опыт из их разработки и показать перспективу и направление дальнейшей работы.
1. Параллельный корпус переводов «Слова о полку Игореве»
Корпус позиционируется как электронный инструмент сравнительного изучения текстов. Он содержит переводы данного памятника на разные языки, в том числе на китайский. Он доступен в Интернете с февраля 2007 г.2 Корпус представляет собой организованный массив текстов, распределенных по трем категориям: 1) издания и реконструкции (11 документов); 2) переводы на современный русский язык (107 документов); 3) переводы на другие
2 URL: http://nevmenandr.net/slovo/ (accessed: 26.01.2018)
языки (113 документов на 43 языках, из которых первые пять мест по количеству занимают украинские переводы — 24, французские переводы — 9, белорусские переводы — 8, английские переводы — 7, польские переводы — 7). Китайский язык представлен переводом Вэй Хуанну3.
Синхронизация текстов произведена, как отмечают создатели корпуса, на основе членения «Слова о полку Игореве», предложенного Р.О. Якобсоном. В соответствии с этим членением каждый текст разбит на 218 фрагментов («звеньев») [Орехов, 2009]. Номер фрагмента служит основным входом в текст. Отметив нужные тексты и задав номер фрагмента, пользователь получает возможность построчно сравнивать разные реконструкции и переводы одного и того же фрагмента с оригиналом. Первым выдается древнерусский текст. Если пользователь не отметил ни одного текста, то на экран выводятся пять случайных переводов4.
Если пользователь выберет перевод первого издания «Слова» на современный русский язык и китайский перевод Вэй Хуанну, то на экране появится следующий результат (рис. 1):
ZT
Рис. 1
3 По данным на сайте корпуса (http://nevmenandr.net/cgi-bin/trans.py?it=n8 (accessed: 26.01. 2018), включенный в корпус китайский перевод Вэй Хуану был издан в Харбине в 1991 г. Но проверка библиотечных данных на китайском языке показала, что перевод Вэй Хуанну издавался Издательством Народной литературы в Пекине в 1957, 1983, 1991, 2000 г., а в Харбине в 1991 г. Научно-исследовательский Институт лексикографии Хэйлунцзянского университета издал «для внутреннего распространения» перевод Ли Сииня. Этот же перевод был издан в 2003 г. Коммерческим Издательством (The Commercial Press) в Пекине. Мы частично сравнили переводы и пришли к предположению, что на сайте дан китайский перевод, автором которого является не Вэй Хунну, а Ли Сиинь.
4 URL: http://nevmenandr.net/slovo/ (accessed: 26.01.2018)
В корпусе реализованы два вида поиска: 1) лексико-граммати-ческий поиск в переводах на современный русский язык (выделены следующие грамматические классы: сущ., прил., гл., числ., нареч., местоим.-нареч., местоим.-сущ., местоим.-прил., числ.-прил., предл., частица, союз, часть композита, сложного слова, междом.); 2) поиск точной формы во всех переводах. К сожалению, провести поиск единиц в китайском переводе у нас не получилось.
К числу нетривиальных функций можно отнести возможность «визуализации разницы» (рис. 1).
Предлагаемый набор функций позволяет проводить не только переводческий и сопоставительный анализ, но и решать задачи обучающего типа. На сайте данного корпуса содержится подробное описание проекта, к которому прилагается список переводов, которыми планируется пополнить корпус. Это 26 переводов на современный русский язык и 79 переводов на другие языки (первые три места по количеству занимают английские переводы — 12, немецкие переводы — 11, украинские переводы — 9). К сожалению, китайские переводы в список на пополнение не включены, а они имеются. Это, например, разные переводы Вэй Хуанну — они были изданы в 1957, 1983, 1991, 2000 г.г., а также переводы Ли Сииня — 1991, 2003 гг. (см. сноску 3).
2. Параллельный русско-китайский корпус в составе НКРЯ
На данный момент в Национальном корпусе русского языка (далее — НКРЯ) содержатся параллельные с русским корпуса для следующих языков: 1) английского; 2) белорусского; 3) болгарского; 4) бурятского; 5) испанского; 6) итальянского; 7) китайского; 8) латышского; 9) немецкого; 10) польского; 11) украинского; 12) французского; 13) шведского; 14) эстонского. В НКРЯ есть также многоязычный корпус5.
В рамках проекта ведется работа по развитию и пополнению параллельного корпуса русских и китайских текстов. С августа 2016 г. «открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объемом 55 тысяч словоупотреблений, включающий 5 текстов»6. Этот корпус отличается тем, что китайский материал здесь размечен информацией разного типа, что позволяет осуществлять поиск единиц по нескольким параметрам. Заявлена разметка следующих видов: семантическая (по китайско-английскому словарю); разметка грамматических показателей, а также фонетическая транскрипция иероглифов. Фонетическая
5 URL: http://www.ruscorpora.ru/search-para-zh.html (accessed: 26.01.2018)
6 URL: http://www.ruscorpora.ru/index.html (accessed: 26.01.2018)
и семантическая многозначность оставлена неснятой. В 2017 г. объем китайско-русского корпуса был существенно увеличен (до 180 тыс. слов). В настоящее время поиск в китайской части ведется по подкорпусу объемом 15 735 предложений, 279 478 слов. В составе корпуса 10 произведений-оригиналов (accessed: 26.01.2018): 1) Лу Синь «Побег на луну» (год издания: 1926); 2) Лу Синь «Моление о счастье» (1924); 3) Лу Синь «Записки сумасшедшего» (1918); 4) А.П. Чехов «Толстый и тонкий» (1883); 5) А.П. Чехов «Человек в футляре» (1898); 6) Максим Горький «Старуха Изергиль» (1895); 7) Ф.М. Достоевский «Идиот» (1868); 8) И.С. Тургенев «Первая любовь» (1860); 9) И.С. Тургенев «Муму» (1854); 10) Н.А. Островский «Как закалялась сталь» (1932).
В корпусе произведена синхронизация по предложениям, в результате на экран при поиске выводится следующая информация: предложение-оригинал на русском (ru), предложение-перевод на китайском (zh) (иероглифы) и предложение-перевод на китайском в виде транскрипции (zh_2). В китайском языке многие иероглифы имеют несколько разных произношений и соответственно значений. Но в корпусе многозначность не снята, и для одного иероглифа даются в транскрипции они все. Например, на рис. 2 представлено предложение, в котором для каждого из шести иероглифов 7, fP, Ш, Ш, Л дано от двух до пяти произношений, отделенных знаком «/». Поскольку для китайского языка такое явление частотно, это существенно осложняет семантическую разметку китайских текстов в автоматическом режиме.
ГШ /1." Хин. ЯАШВ / Kuangren riji (1918) [омонимия не снята] Все примеры (9)
zh ШШ7—ЪШ, ШШШШПЩо [Sifi/LuXuaHABiE -Kuangren riji (1918)] [га
zh_2 wó cha le/liáo/Liáo yljú ziü, diánhú hé/hú/huó/huó/hé dáge bián/pián dou/dfl kan/kan wó jl/ji yán. [Л ги Я вмешался было в разговор, но тут арендатор п брат несколько раз взглянули на меня. [Лу О
Рис. 2
К каждому фрагменту текста добавлены метаданные, что позволяет видеть, какому тексту принадлежит фрагмент. Размечены метаданными и тексты корпуса (рис. 3).
Информация, связанная с лексическими единицами, может быть получена с помощью всплывающих подсказок. Так, для русского слова в найденном примере доступна информация о его лемме, грамматике, семантике (рис. 4). При осуществлении лексико-грамматического поиска пользователю предоставляется возможность искать отдельно по определенному набору грамматических и семантических признаков (рис. 5). Состав этих признаков, как можно видеть на рис. 6, достаточно широк. Возможен также поиск
Дата рождения автора 1821
Сфера функционирования художественная
Переводчик -5ЭЯ I Shi Guioxiong
Рис. 3
по дополнительным признакам (рис. 7). Если пользователь хочет посмотреть найденное слово в словарях, то можно в онлайн-режиме нажать «см. в словарях» и сразу перейти на сайт по адресу https:// dic.academic.ru/.
ГИЛ за ухо И вышвырнул мальчишку В коридор, закрыв за НИМ дверь. [Н. А. Островский. Как закалялась сталь (1
та] '-...—>
яш-ят, «вашsi а
е] [омонимия не снята] ihaizi de/dl/di/di yl zhi/zhT erduo, b
ШШШ МЙ / Gangtie shi zenyang
>рузжак, друг и приятель Павки, стеро неуспевающих учеников. I [мияне снята] ...—>
мальчишку
Лемма мальчишка (см. в словарях)
Грамматика сущ, одуш, м, ед, вин
Семантика основная с1:сПт, с1ег:5, еу, гсопсг, Мит
Доп. признаки депс1еггес1, пасс, словари, питгес!, ги
Сообщить об ошибке...
>fusiji. КШ liao/liao men. [Л
;ть махры там, i
I. А. Островсюш. К
Рис. 4
Лексико-грамматический поиск
Слово ? в Грамм, признаки ? выбрать
Доп. признаки и языки ? выбрать Семант. признаки ? выбрать
Рис. 5
В китайском языке лексическая единица может состоять из одного или двух, трех, четырех, пяти или большего числа иероглифов. Вопрос о границе китайских слов остается спорным и нерешенным, поэтому токенизация (разбиение китайского текста на слова)
Имена предметные непредметные собственные | Прилагательные | Числительные | Местоимения | Глаголы | Нар'
Предметные имена
Таксономия
СИ лица в тс
□ э-
□ имена родства
СИ сверхъестественные существа ГЦ животные СИ растения
СИ вещества и материалы СИ пространство и место СИ здания и сооружения СИ инструменты и приспособления в то СИ инструменты
□ механизмы и приборы СИ транспортные средства
□ оружие
СИ музыкальные инструменты
□ мебель
□ посуда
□ одежда и обувь ГЦ еда и напитки
Мереология
□ части в,
□ част,
□ част,
□ част,
□ част,
□ част,
□ ч;
□ ч
□ ч;
□ ч
□ ч;
тела и органы ч тела и органы » растений
зданий и сооружений приспособлений
и инструментов и механизмов и приборов и транспортных средств и оружия
и музыкальных инструментов
СИ части предметов мебели □
□
предметов посуды одежды и обуви
порции вещества и совокупности объектов
СИ вместилища СИ горизонтальные поверхности
СИ Оценка
□
□
отрицательная
Словообразование
□ диминутивы СИ аугментативы СИ сингулятивы СИ nomina agentis
□ nomina feminina
Рис. 6
Рис. 7
представляет собой особую трудность при создании параллельного корпуса. Так, например, на рис. 8 дана справка на сочетание из трех иероглифов: ЩЩ^. В данном контексте оно имеет значение 'мальчишка'. Но первый и второй иероглифы в других контекстах могут иметь значение 'мальчик', а последние два иероглифа могут выступать в значении 'ребенок'.
Н. А. Островский. Как закалялась сталь (1932) [омонимия не снята] Все примеры (1)
zh
zh 2
- Он больно схватил за ухо II вышвырнул мальчишку В коридор, закрыв за ННМ дверь. [Н. А. Островский. Как з № И&УЮ — ЯВД, }Е№ЙЁ1Ш)8±, 7 По / N1 Ао51Те1ио±изу1.ШЖШ
й эЫДп ]гаг!ш пап
[омонимия не сня
Ш5В / Lu Xun. fflfe / Zhufu
zh
zh 2
mm f^satí i
ta dáo niándl jiü shi
шш-
Лемма SíSFF- [nánháizi] (см. перевод)
Грамматика default
Семантика основная boy
Доп. признаки пасс, zh
Сообщить об ошибке..
áng shang/sháng, sníshira guansháng le/liáo/liáo mén. [f
14)] [омоннмпя не снята] <—...—>
Моление о счастье (А. Рогачева,)] [ОМОНИМИЯ Не снята]
Рис. 8
В данном корпусе проблема выделения слов и описания их значения решалась с помощью китайско-английского словаря, поэтому разбиение на лексические единицы в некоторых случаях произведено неточно. Это требует дальнейшего дополнительного контроля и ручной коррекции.
Описание значения дается на английском языке, что связано с тем, что семантическая квалификация производилась по китайско-английскому словарю. Как было сказано ранее, русские слова в корпусе удобно в онлайн-режиме искать в других словарях. Для выделенных китайских лексических единиц реализована возможность получить русские переводы, перейдя по ссылке на сайт ШрБ:// translate.yandex.ru.
Китайские лексические единицы сопровождаются полезной для обучения информацией. Так, для существительных в разделе «грамматические признаки» указана информация о вариантах счетных слов, которые могут использоваться с каждой из единиц (рис. 9).
А
Лемма А [гёп] (см.. перевод)
Грамматика default, "'Мдё]: i£jwei]
Семантика основная man: people, person
Доп. признаки пасс, zh
Рис. 9
Реализована возможность искать единицы в грамматических контекстах определенного типа. Так, можно осуществлять поиск контекстов, содержащих конкретные служебные показатели: модальную частицу (7 [le]); перфектив (7 [le]); прогрессив (Щ [zhe]); прошедшее время (Й [guo]); каузатив (Ш [shi], ШШ [shide]; Щ [jiao], [rang]); множественное число (l [men]); оценка действия (Ш [de]);
общий вопрос (^ [ma]); вынесение объекта перед глаголом (Й [bá]); определение к существительному (Й [de]); определение к глаголу (ffi [de]); пассив (Ш [bfei]; вЧ [jiáo]; ü [ráng]); направительные морфемы (^ [lái]; i [qú]; Ш [jln]; Ж [chü]; 0 [huí]; ± [sháng]; T [xiá]; Й [guó]; Ш [qi]; [shánglái]; ±i [shángqú]; T^ [xiálai]; Ti [xiáqú]; Ш ^ [jlnlái]; Si [jlnqú]; Ж^ [chülái]; tüi [chüqú]; [huílai]; 0i [huíqu]; [guólái]; ^i[guóqu]; ^^[qilai]). Поиск по семантическим признакам реализуется пока только в русских текстах.
Нужно отметить, что лексический поиск в китайских текстах возможен пока только по отдельному иероглифу. Поиск по комбинациям иероглифов, эквивалентным слову, еще не действует.
3. Полистилевой русско-китайский и китайско-русский параллельный корпус
Китайский ученый Цуй Вэй, сотрудник «Института иностранных языков НОАК», работает с коллегами над созданием переводческого параллельного корпуса русско-китайских и китайско-русских текстов, который должен включать подкорпуса: 1) подкорпус официально-деловых текстов; 2) подкорпус художественной литературы; 3) подкорпус новостных текстов; 4) подкорпус текстов военной тематики; 5) подкорпус текстов по экономике и торговле [Cui, Zhang, 2014: 84].
Пока создан лишь подкорпус, в который входят информационные материалы по военной тематике. Это (а) китайские оригиналы и их переводы на русский: «Национальная оборона КНР» (Белая книга — 2002, 2004, 2008, 2010, 2013 годов); «Контроль над вооружениями и разоружение» (Белая книга 2005 года); «Китайская оборона» (Пэн Гуанцянь, 2004); (б) русские оригиналы и их переводы на китайский: «Стратегия национальной безопасности Российской Федерации до 2020 года»; «Военная доктрина РФ»; «Вооруженные силы РФ» (исследовательские доклады, 2010). Объем этого подкорпуса составляет примерно 168 тыс. русских слов и 283 тыс. иероглифов. В подкорпус добавлены метаданные и проведена первичная морфологическая разметка (используются принципы НКРЯ).
Тексты-оригиналы и их переводы были выровнены по предложениям с помощью алгоритма длины G-Clen. Эксперимент, проведенный создателями корпуса, показал, что с помощью этого алгоритма автоматическое выравнивание оригиналов и их переводов (с русского на китайский, и наоборот) было осуществлено довольно качественно. Точность автоматического выравнивания для наиболее официальных и стандартных текстов составила свыше 95%.
Поскольку использовались переводы на русский, сделанные китайцами, создатели корпуса отмечают, что в дальнейшем планируется проверить их по НКРЯ и по Яндексу с целью обнаружения и сопоставления разных вариантов переводов терминов, исправления неточностей и определения лучшего переводного эквивалента. На основе корпуса уже проводится корпусно-ориентированное переводческое исследование. Так, были сопоставлены переводные соответствия некоторых военных терминов в этом корпусе, в НКРЯ и по Яндексу, на основе чего создатели корпуса попытались найти лучший вариант перевода. Анализировалась также проблема перевода на русский выражений с китайской спецификой, а также соответствие конструкций предложений в русском и китайском языках.
К сожалению, созданный корпус сохраняется пока в виде базы данных, и доступ к нему ограничен для обычного пользователя Интернета.
4. Русско-китайский параллельный корпус научных текстов гуманитарной области
Поскольку о разработке, создании и использовании данного корпуса создатели его уже написали около десяти статей и тезисов на русском, китайском и английском языках [Тао, 2014, 2015, 2016, 2017], мы опишем его кратко.
Данный тематический (специальный) корпус научных текстов гуманитарной области содержит две части: русско-китайский параллельный корпус (далее — ПК) и китайский корпус (далее — СК), сопоставимый по тематике. В последний входят оригиналы-тексты на ту же тематику, написанные китайскими учеными, которые одновременно являются и переводчиками текстов в ПК. ПК включает 14 монографий на русском языке (по I. политике и международным отношениям; II. лингвистике; III. литературоведению; IV. переводо-ведению) и их переводы на китайский. В СК входят 10 монографий на китайском языке из тех же предметных областей.
Корпус создан для исследования и обучения переводу. Входящие в него тексты могут служить образцами при написании курсовых, дипломных и научных работ. На основе данного корпуса можно провести исследование по универсальным принципам и языковым особенностям переводческой деятельности, которые выявляются при сопоставлении оригинала и перевода. При определении объема обработанного материала авторы использовали следующий подход: для русского материала считались словоупотребления, для китайского иероглифы. На начальном этапе были обработаны тексты в объеме
пяти миллионов единиц (включая все три части: русский оригинал; его перевод на китайский; китайский оригинал).
Планируется пополнить корпус до 10 млн единиц и включить в него тексты по V. управлению; VI. истории; VII. культуре.
Корпус размечен метаданными (идентификатор текста, тип текста, автор, переводчик, год издания и год перевода, название монографии, язык и др.). Судя по рисункам, предложенным авторами в статье [Тао, Захаров, 2015: 23], китайская часть корпуса уже размечена морфологической информацией (текст разбит на лексические единицы и определены части речи). К сожалению, про теоретические принципы данной морфологической разметки создатели корпуса не упомянули. По их словам, морфологическая нормализация для русской части не выполняется.
Выравнивание текстов выполнялось автоматически с помощью программы-конкордансера ParaConc (точность выравнивания 60-70%) и затем корректировалось вручную.
Чтобы выполнить генерацию словника терминов, на первом шаге в ручном режиме были отобраны термины в оригиналах и переводах и «выровнены» в одном текстовом файле. На втором шаге этот выровненный файл конвертировался в базу данных, что позволило получить словник терминов по данному корпусу с возможностью поиска в этой базе. Для того чтобы обеспечить выдачу конкорданса для лексем, поиск осуществляется по словоформам на основе языка регулярных выражений (regular expressions) с возможностью находить все члены словоизменительной парадигмы, что равносильно поиску ключевых слов по леммам. Поиск словосочетаний на китайском языке тоже осуществляется с помощью регулярных выражений [там же: 24].
На данный момент уже создана платформа удаленного поиска через Интернет на основе СУБД MySQL и разработан сайт корпуса, через веб-интерфейс которого реализуется поиск по лексическим единицам с добавлением элементов метаданных [там же: 25]. К сожалению, указанный сайт пока не открывается.
Создатели корпуса собираются в дальнейшем приложить усилия для разработки дополнительных программ предварительной обработки и разметки текстов, программ, обеспечивающих автоматическую лемматизацию текстов русскоязычной части корпуса, автоматическое выявление терминологической лексики и более гибкое управление поиском и выдачей результатов. Иными словами, планируется дальнейшая работа по созданию эффективного корпус-менеджера.
На материале корпуса уже проведены некоторые исследования. Они касаются подбора отдельных переводных эквивалентов, перевода придаточных предложений с «чтобы», способов перевода (адаптации) на русский язык конструкций с предлогом ^ (dul) и др. [Тао, 2015, 2016, 2017].
5. Русско-китайский переводческий корпус
В Интернете представлен переводческий корпус русских и китайских текстов, в котором на сайте http://rucorpus.cn можно осуществлять поиск (рис. 10). Корпус разделен на три блока: подкорпус рассказов Чехова; китайско-русский подкорпус художественной литературы; подкорпус РКИ (доступ к последнему пока закрыт).
I 0 шсогршсп/
Рис. 10
В подкорпусе рассказов Чехова содержится семь рассказов («Анна на шее», «Ванька», «Смерть чиновника», «Толстый и тонкий», «Хамелеон», «Человек в футляре», «Крыжовник»), повесть («Палата № 6») и три варианта их перевода на китайский язык (переводчики: Жу Лун, 2000; Шэнь Няньдзюй, 2009; Фэн Цзя 20117). Всего в корпусе Чехова насчитывается 7,006 предложений (количество слов неизвестно) и 776,441 иероглифов (дата обращения: 4 февраля 2018 г.) (рис. 11).
^ тттттшшшш
ш щ ттт вшяш швш | П аивиа
I ш I
т®яят>ттттт
Яваш, ¡ЙЖ7006«:. Ш-776441^
Рис. 11
В корпусе можно задать обычный и расширенный поиск. Разработка поисковой функции ориентирована на «Грамматический
7 Первое издание перевода Жу Лун вышло в свет в середине XX в.; первое издание перевода Шэнь Няньцзюй и Фэн Цзя вышло в свет в конце XX в.
словарь русского языка» А.А. Зализняка. Исходя из потребности в исследовании и обучении переводу, в корпус добавили в ручном режиме три разметки: грамматическую (в оригинале), стилистическую (в оригинале и в переводе), переводческую (в переводе). При расширенном поиске можно выбрать один или больше вариантов переводов, можно осуществлять поиск по типам односоставных предложений: (определенно-личное, неопределенно-личное, обобщенно-личное, инфинитивное, назывное); по неспрягаемым формам глаголов (действительное причастие, страдательное причастие, деепричастие, инфинитив); по некоторым стилистическим приемам, представленным в оригинале (пословица, поговорка, идиома, фразеологизм, экспрессивный суффикс, обращение к лицу, метафора, метонимия), по стилистическим приемам в переводе (фразеологизм, состоящий из четырех иероглифов; слово, состоящее из антонимов-иероглифов; слово, состоящее из повторяющих иероглифов; слово-звукоподражание); по некоторым переводческим «приемам» (добавление, опущение, замена, членение предложений, объединение предложений).
Работа над корпусом велась следующим образом. На первом шаге производилась автоматическая обработка текстов; на втором — добавление в тексты разметки (вручную). Сначала с помощью программы разбиения китайского текста на слова NLPIR, разработанной доктором Чжан Хуапином8, создатели корпуса разбили все тексты переводов на слова и каждому слову присвоили маркированный код для дальнейшего анализа и обработки. Затем было сверено соответствие параграфов перевода с оригиналом, и каждому параграфу был присвоен ID-номер. На этой основе было произведено выравнивание предложений перевода с оригиналом и окончательная нумерация предложений. При наличии несоответствия разделения параграфов или предложений в переводе и оригинале на основе оригинала исправлялся перевод. Затем вручную была произведена грамматическая, стилистическая и переводческая разметка. Обработанные материалы преобразовали в формат xml и их конвертировали в базу данных SQL [Liu, Shao, 2016: 155].
Кроме того, с использованием корпусных поисковых программ (WordSmith, AntConc и пр.) было проведено исследование и вычисление разных языковых параметров в трех китайских переводах. Так, были получены статистические данные о количестве употребления слов (Type) и словоформ (Token) в переводах. По формуле TTR (type/ token ratio) был вычислен коэффициент лексического разнообразия
8 Сайт о данной программе: URL: http://ictclas.nlpir.org/ (accessed: 26.01.2018).
текстов, также был проведен квантитативный анализ лексической плотности и получены частотные словники. Кроме того, разметка единиц корпуса информацией разного типа позволила установить соотношение количества употреблений фразеологизмов, состоящих из четырех иероглифов, к общему количеству предложений, а также соотношение количества употребления слов, состоящих из повторяющих иероглифов, к общему количеству предложений в переводе. Рассматривался также вопрос о различии стилей трех переводчиков. При анализе их языковых особенностей, помимо всего, учитывалось количество служебных слов, средняя длина предложений и ряд других параметров.
Создатели корпуса планируют в дальнейшем уделить особое внимание семантической и дискурсивной разметке текстов. Они также пишут о возможности реализовать функцию семантического поиска в корпусе на основе подсоединения семантических словарей.
Второй блок рассматриваемого корпуса (направление «китайский ^ русский») содержит роман-оригинал «Осень» Ба Цзиня и его русский перевод. Объем оригинала — 10,663 предложения, 1,300 079 иероглифов (рис. 12).
¡кшэшяашеи?, ¡ттрчшгчётт. шш атт жтш им_
| | ПМЙЕВ
ш
{т штя
Рис. 12
В подкорпусе осуществлена грамматическая разметка перевода. Помечены предикатив, деепричастия глаголов НСВ и СВ, причастие действительного залога глаголов НСВ и СВ, полная и краткая формы причастия страдательного залога глаголов НСВ и СВ.
В отличие от параллельного корпуса в НКРЯ в китайской части обоих подкорпусов можно задать поиск на китайском языке как по иероглифу, так и по лексическим единицам, состоящим из более одного иероглифа.
6. Китайско-русский параллельный корпус официально-деловых текстов с дискурсивно-структурной разметкой
Название данного корпуса отражает как жанр текстов, его составляющих, так и ориентацию на текстовые особенности. В экспериментальном режиме в корпусе размещены четыре «Доклада о работе правительства КНР» (с 2012 по 2015 г.) на китайском языке и их переводы на русский. Планируется расширение корпуса за счет увеличения числа докладов, а также законов и официально-деловых текстов других жанров. На данный момент объем корпуса составляет 931 абзац, 116,668 текстоформ, в том числе 46,190 текстоформ в русской части и 70,478 — в китайской [Мухин, Ян, 2016: 24].
При работе над корпусом использовался опыт Китайско-английского параллельного корпуса с дискурсивно-структурной разметкой [Feng, 2013] и Китайского дискурсивного трибанка9 [Li, Feng и др., 2014], а также платформа, т.е. программное обеспечение, первого.
В текстах корпуса на грамматической, семантической и формально-пунктуационной основе были выделены элементарные дискурсивные единицы (далее — ЭДЕ) и дискурсивные связки (эксплицитные и имплицитные), а также определены виды дискурсивных отношений. При установлении вида дискурсивных (логико-семантических) отношений использовалась классификация, разбивающая их на четыре группы и 17 разновидностей: 1) параллельные отношения (соединительные, последовательные, прогрессивные, альтернативные и сравнительные); 2) противительные отношения (противопоставительные и уступительные); 3) каузальные отношения (собственно каузальные, целевые, обстоятельственные, условные, гипотетические, а также отношения умозаключения); 4) расширительные отношения (изъяснительные, заключительные, иллюстрационные и оценочные).
На основе членения параллельных текстов на ЭДЕ, выделения дискурсивных связок и выяснения дискурсивных отношений было произведено выравнивание текстов по соответствующим элементам (рис. 13, взято из [Мухин, Ян, 2016: 24]).
В квадратных скобках дается дискурсивная единица (ЭДЕ), буквы и цифры между ними обозначают китайские клаузы, соотносимые с ними русские синтаксические единицы и их порядок. Количество вертикальных черт (знак «|») перед клаузой указывает на уровень иерархии в структурном дереве, к которому она относится. Дискурсивные связки подчеркнуты, а знак «@» обозначает центральное положение ЭДЕ в отношении между клаузами [там же: 24—25].
9 Синтаксически аннотированного корпуса.
Исходный Текст (а):
ттт
ял, ] щ\@ а2
Переводной Текст (б):
61 [При наличии довольно крупных противоречий между финансовыми доходами и расходами мы со всей искренностью] ||@ б2[неизменно брали за исходную точку и конечную цель всей своей работы улучшение народной жизни,] @| 63 [уделяя особое внимание институциональному строительству,] @||@ б4[не допуская выхода за нижний предел обеспечения народной жизни] @||@ 65 [и стимулируя развитие социальных сфер.] («Доклад о работе правительства КНР», 2014 г.)
Рис. 13
Разметка и выравнивание в данном корпусе проводилось вручную с использованием вышеупомянутого программного обеспечения для Китайско-английского параллельного корпуса с дискурсивно-структурной разметкой (рис. 14, взято из [там же: 27]).
Рис. 14
Практика создания данного типа корпуса будет очень полезна при разработке аналогичных корпусов. Авторы отмечают, однако, что техническое несовершенство дискурсивно-структурной разметки
текстов требует дальнейшего улучшения и правки. По их словам, нуждается в уточнении и сама классификация логико-сематических отношений, что требует синтеза китайской и русской лингвистической традиции. Процедура сегментации текстов и выделения ЭДЕ пока формализована в недостаточной степени, а текстовая вариативность заставляет уточнять принципы выравнивания исходного и переводного текстов. Использованная платформа также ждет расширения возможностей и прежде всего обеспечения функции добавления большего числа видов дискурсивных отношений. Создатели корпуса в дальнейшем постараются решить указанные проблемы и пополнить корпус новыми текстами с переводом не только в направлении «китайский прусский», но и «русский ^китайский».
Доступ пользователей к данному корпусу пока отсутствует.
7. Китайско-русские параллельные корпуса отдельных произведений
7.1. Китайско-русский параллельный корпус романа «Страна вина».
Роман «Страна вина», написанный китайским писателем, лауреатом Нобелевской премии Мо Янем, был опубликован на китайском языке в 1992 г. Его перевод на русский язык издан в 2012 г. (переводчик — русский ученый-китаист И.А. Егоров).
В 2014 г. был создан китайско-русский параллельный корпус данного романа [Piao, Li, Wang, 2014: 46]. Создатели корпуса — китайские ученые из Яньбяньского университета Пяо Чжэхао и др. — выровняли оригинал и перевод по предложениям и сделали в оригинале разметку по четырем «формам слов», состоящим из иероглифов-повторов: AA, ABB, AABB, ABAB. Они попытались также выявить, какие правила действуют при переводе таких китайских единиц на русский язык. На первом шаге была использована поисковая программа HyConc, с помощью которой в оригинале были обнаружены все слова с повтором. На втором шаге были получены статистические данные о наличии таких слов в оригинале. На третьем шаге был проведен сопоставительный анализ найденных слов с их переводами.
К сожалению, создатели корпуса не упомянули в своей статье о возможности доступа к корпусу.
7.2. Параллельный корпус «Русские переводы трактата «Дао Дэ Цзин». Китайский классический даосский философский трактат «Дао Дэ Цзин» (далее — ДДЦ), авторство которого приписывается легендарному Лао-цзы (VI—V вв. до н.э.), считается основой китайской философии и культуры. Он переведен на разные языки и распространяется во всем мире.
Первый перевод ДДЦ на иностранный язык датируется 674 г.: этот санскритский перевод ДДЦ, сделанный китайским буддийским монахом Сюаньцзаном, привезли посланцы в Индию [Zheng, Wang, 2009: 96]. Первый перевод на латинский язык появился в 1880-е годы. В 1842 г. в Париже увидел свет первый полный французский перевод ДДЦ, выполненный С. Жюльеном. Первый английский перевод Д. Чалмерса опубликовали в 1868 г. Первый немецкий перевод В. фон Штрауса был издан в 1870 г. Первый профессиональный русский перевод вышел в свет в 1894 г. Он был выполнен японским русистом Д.П. Кониси и отредактирован Л.Н. Толстым.
Сложность и многозначность философских произведений приводит к постоянной работе по их пониманию, трактовке и соответственно многообразию вариантов перевода. В России ДДЦ уделялось и уделяется большое внимание. На протяжении более ста лет насчитывается более двадцати русских переводов ДДЦ (Ян Хиншуна, А. Волынского, И.С. Лисевича, Б.Б. Виноградского, А.А. Маслова, В.В. Малявина, Е.А. Торчинова, И.И. Семененко, А. Кувшинова, А.Е. Лукьянова, М. Соловьевой, А.П. Саврухина, С.В. Батонова, О. Борушко, Н. и Т. Доброхотовых, Ю. Полежаевой и других авторов).
Лев Толстой так характеризовал особенности и значение ДДЦ: «Основа учения Лао-Тзе одна и та же, как и основы всех великих, истинных религиозных учений. Она следующая: человек сознает себя прежде всего телесной личностью, отделенной от всего остального и желающей блага только себе одному. Но, кроме того, что каждый человек считает себя Петром, Иваном, Марьей, Катериной, каждый человек сознает себя еще и бестелесным духом, таким же, какой живет во всяком существе и дает жизнь и благо всему миру... Человек может жить для тела или для духа. Живи человек для тела, — и жизнь горе, потому что тело страдает, болеет и умирает. Живи для духа, — и жизнь благо, потому что для духа нет ни страданий, ни болезней, ни смерти. Человеку надо научиться жить не для тела, а для духа. Этому-то и учит Лао-Тзе. Учение свое он называет путем, потому что все учение указывает путь к этому переходу. От этого и все учение Лао-Тзе называется книга Пути.» [Толстой, 1957].
Современность и актуальность ДДЦ подтверждается, в частности, постоянным обращением к нему премьер-министра РФ Дмитрия Медведева. В последние годы премьер Медведев неоднократно приводил цитаты из ДДЦ в разных официальных случаях: на Петербургском экономическом форуме (10 июня 2007 г., 19 июня 2010 г.), на лекции в Пекинском университете и ответы на вопросы студентов и преподавателей (24 мая 2008 г.), в Послании Федеральному Собранию (22 декабря 2011 г.), на Расширенном заседании Госсовета
(24 апреля 2012 г.), на Выступлении на Пленарной сессии Всемирного экономического форума «Сценарии развития Российской Федерации» в Давосе (23 января 2013 г.)10.
Как отмечает Д. Медведев в своем интервью, со времен, когда это произведение было написано, проблемы, стоящие перед человечеством, мало изменились11. В этом же интервью он пишет о необходимости знакомства с разными переводами данного текста: «Я действительно с интересом всегда читаю это произведение (ДДЦ), тем более что существует с десяток переводов на русский язык, как и на другие языки, и каждый перевод отличен от другого».
Корпусная и компьютерная лингвистика предоставляет современным читателям богатые возможности не только для чтения текста, но и его глубокого самостоятельного изучения. Конкорданс ДДЦ на китайском языке был впервые создан в 1922 г. в ручном режиме китайскими учеными во главе с Цай Тинганем. Он заслужил высокую оценку. Это первая в истории Китая попытка анализа древних текстов с помощью конкорданса. Потом автоматическим путем появились конкордансы ДДЦ не только в Китае, но в Японии (для японских переводов). В них присутствует, кроме списка частотных иероглифов, также список частотных «слов» (лексических единиц), состоящих из двух или больше иероглифов [Wang, Du, 2008: 35-36].
Однако для продуктивного межкультурного взаимодействия нужны не просто конкордансы, а полноценные средства изучения и сопоставления различных переводов и оригинала. В связи с этим один из авторов данной статьи Чэнь Сяохуэй (Народный университет Китая) поставила перед собой задачу создания китайско-русского параллельного корпуса ДДЦ. Работа проводилась на методической и программной базе «Лаборатории общей и компьютерной лексикологии и лексикографии» (ЛОКЛЛ) филологического факультета МГУ имени М.В. Ломоносова, основанной А.А. Поликарповым. Работа по сбору текстов корпуса и их выравниванию, подготовке справочных материалов и разметке метаданными была проведена Чэнь Сяохуэй; создание на этой основе электронного корпуса и его автоматическая обработка осуществлялось руководителем ЛОКЛЛ О.В. Кукушкиной.
В качестве оригинала была использована общепринятая версия ДДЦ под редакцией комментатора Ван Би12. С помощью программы "PinyinTaggerApp" иероглифический текст был преобразован
10 URL: http://www.amic.ru/news/206435/ (accessed: 26.01.2018).
11 URL: http://www.vedomosti.ru/politics/news/2016/11/04/663631-medvedev-lao-tszi (accessed: 26.01.2018).
12 URL: http://ctext.org/dao-de-jing/zhs (accessed: 30.10.2017).
в транскрипцию. Далее был собран массив текстов, состоящий из 21 перевода ДДЦ. Источником послужил русскоязычный Интернет. Каждый текст был снабжен метаданными, включающими идентификатор автора, год создания и другие сведения.
Создано две версии корпуса: сокращенная (три перевода) и полная (21 перевод). Они отличаются длиной синхронизированных фрагментов и способом их представления. В сокращенном варианте тексты вручную были разбиты на смысловые фрагменты, которые в основном соответствуют знакам препинания в оригинале (в том числе и знакам, находящимся внутри предложения). Всего было выделено 582 фрагмента. В существующем к настоящему времени полном варианте ручная разбивка и синхронизация фрагментов внутри глав не производилась в связи с большим объемом. Качественная автоматизация этого процесса пока не представляется возможной.
В сокращенную версию вошли три перевода: 1) первый профессиональный перевод под редакцией Л.Н. Толстого, сделанный с древнекитайского в 1894 г. японским русистом Д.П. Кониси;
2) классический перевод, сделанный с древнекитайского в 1950 г. советским синологом, китайцем по происхождению Ян Хиншуном;
3) новый перевод, сделанный с древнекитайского в 2002 году с учетом новейших научных данных русским синологом В.В. Малявиным.
После подготовки текстовых данных с помощью разработанной в ЛОКЛЛ системы автоматического анализа текстов и словарей "Dictum" был создан электронный корпус, в котором произведена автоматическая лемматизация и морфологический анализ русских текстов, а также разметка единиц текстов такими параметрами, как язык, переводчик, часть речи, фрагмент, глава. После этого корпус был конвертирован в систему «Исток» (программист В. Федотов), созданную в ЛОКЛЛ в качестве информационного-исследовательского средства, предоставляемого пользователю вместе с интересующими его корпусами текстов. Это средство дает возможность работать с текстом в нескольких режимах: чтение выбранного текста, получение по нему разного рода конкордансов (на основе предварительно сделанной разметки) и словников (алфавитного, частотного, обратного), изучение справочной информации (в том числе и словарной) о тексте и его единицах. Таким образом, оно позиционируется и развивается как филологический, а не чисто лингвистический инструмент. В настоящее время программа «Исток» с корпусом художественных произведений Чехова и синхронизированным с этим корпусом словарем и справочными материалами доступна для всех желающих на сайте лаборатории13. На этом же сайте предполагается выложить и пилотную версию корпуса переводов ДДЦ (рис. 15).
13 URL: http://www.phiIol.msu.ru/~lex/chehov.htmI.
Рис. 15
Пользователю предоставляется возможность выбрать нужный фрагмент или главу, прочитать его, прослушать его звучание и увидеть иероглифическую запись. В сокращенном варианте корпуса оригинал и тексты трех переводов отображаются «построчно», что облегчает сопоставление (рис. 16).
Рис. 16
В полном варианте сопоставление затруднено, так как выводить на экран можно только главу в переводе одного автора.
Поиск в русских переводах можно осуществлять по словоформе, лемме и части речи (рис. 17).
Рис. 17
В китайском тексте поиск возможен пока только по транскрипционной передаче иероглифа (с учетом тонов, записанных цифрами). Из-за того, что в древнекитайском языке в большинстве случаев каждый отдельный иероглиф употребляется как эквивалент слова, в китайском тексте, как и в русском, оказывается возможным пословный поиск, получение конкордансов для каждой лексической единицы, а также алфавитных, частотных и обратных словников единиц (рис. 18).
Рис. 18
Пересечение разных типов информации позволяет производить исследование и сопоставление переводов. Так, пользователь может получить с помощью функции «фильтрации» частотный словник лемм и словоформ для каждого перевода. См. рис. 19, на котором отображен такой словник для перевода Ян Хиншуна.
Рис. 19
В целях развития справочной составляющей сейчас ведется работа над созданием и подключением к единицам, представляющим иероглифы, понятийного указателя (словаря). В дальнейшем на этой основе возможна реализация какого-то варианта семантического поиска.
Автоматическое получение первичных статистических данных, например, о количестве употребления разных слов и общем объеме текста в оригинале и каждом из переводов, позволяет пользователю получать самостоятельные результаты, например, вычислять по какой-либо из формул коэффициент лексического разнообразия каждого из переводов. См., например, результаты сравнения соотношения количества словоупотреблений и разных слов для трех переводов и оригинала (формула ТТЯ).
Оригинал Перевод Кониси Перевод Ян Хиншуна Перевод Малявина
Количество словоупотреблений 5282 6575 6118 6048
Количество разных лемм 798 1414 1315 1467
Соотношение 0,14 0,22 0,21 0,25
Как можно видеть, все русские переводы более многолексемны («лексически разнообразны»), чем китайский оригинал. А среди трех переводов по количеству разных лексем явно лидирует перевод Малявина.
В настоящее время статистические результаты могут носить лишь предварительный характер, так как пока не производилась проверка снятия омонимии в переводах. Для китайского оригинала при использовании транскрипционной записи возникает проблема дополнительного учета и различения тех иероглифов, которые произносятся одинаково. Так, в оригинале всего 504 разных знаков транскрипции, и корпус выдает этот «сокращенный» список. Но реальное число разных иероглифов в ДДЦ равно 798.
Мы планируем продолжить работу над развитием корпуса и пополнить его другими древнекитайскими произведениями и их переводами на русский язык. Полагаем, что эта совместная работа с филологическим факультетом МГУ имени М.В. Ломоносова будет в полной мере способствовать не только решению собственно лингвистических задач, но и углублению межкультурного взаимодействия.
Результаты корпусно-ориентированного исследования ДДЦ и его русских переводов планируется изложить в отдельной статье.
В заключение можно сказать, что использование параллельных корпусов приобретает все большую перспективу и актуальность. Они крайне необходимы читателям, исследователям, переводчикам, преподавателям и учащимся. Необходимо признать, что разработка и использование параллельных корпусов русских и китайских текстов находится пока на начальном этапе. Объем существующих корпусов пока еще очень мал, а их тематика недостаточно широка; специалистов, занимающихся разработкой корпусов, обработкой текстов и корпусно-ориентированным исследованием, не хватает. Перед нами стоит весьма важная и большая задача, которую предстоит решить в ближайшем будущем.
Список литературы
Мухин М.Ю., Ян И. Проект создания китайско-русского параллельного корпуса официально-деловых текстов с дискурсивно-структурной разметкой // Вестник ЮУрГУ. Серия «Лингвистика». 2016. Т. 13. № 4. С. 23-31.
Орехов Б.В. Параллельный корпус переводов «Слова о полку Игоре-ве»: итоги и перспективы // Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы / Отв. ред. В.А. Плун-гян. СПб, 2009. С. 462-473. Тао Юань, Захаров В.П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая ин-
формация Сер. 2: Информационные процессы и системы. 2015. № 4. С. 18-29.
Создание и использование параллельного корпуса русского и китайского языков // Вестник МГПУ Сер. «Филология. Теория языка. Языковое образование». 2015. № 3. С. 76-82.
Тао Юань, Захаров В.П. «Иностранизация» сочетаемости в конструкциях с предлогом ^ (dui) при переводе научных текстов с русского языка на китайский // Вестн. Моск. ун-та. Сер. 22. Теория перевода. 2016. № 3. С. 58-72.
Тао Юань, Захаров В.П. Корпусно-ориентированный анализ универсалии «иностранизация» в конструкциях с предлогом (dui) в научных текстах, переведенных с русского языка на китайский // Вестник СПбГУ. Востоковедение и африканистика. 2017. Т. 9. Вып. 2. С. 150-158.
Толстой Л.Н. Полн. собр. соч.: В 90 т. Т. 40. М., 1957.
Цуй Вэй, Чжан Лан. E-han fanyi pingxing yuliaoku jiqi yingyong yanjiu // Jiefangjun waiguoyu xueyuan xuebao. 2014. № 1. P. 81-87. (In Chin.)
Цуй Вэй, Ли Фэн. E-han-han-e pingxing yuliaoku de goujian shexiang yu yingyong zhanwang // Zhongguo eyu jiaoxue. 2014. № 1. P. 1-5. (In Chin.)
Лю Мяо, Шаоцин. E-han wenxue fanyi yuliaoku de chuangjian—jiyu qiehe-fu xiaoshuo pingxing yuliaoku de sheji yu jiangou // Waiyu xuekan. 2016. № 1. P. 154-158. (In Chin.)
Лю Мяо, Шаоцин. Jiyu duoyiben pingxing yuliaoku de fanyi yuyan tezheng yanjiu — dui qiehefu xiaoshuo sanyiben de duibi fenxi // Jiefangjun waiguoyu xueyuan xuebao. 2015. № 5. P. 126-133. (In Chin.)
Пяо Чжэхао, Ли Цинхуа и Ван Лися. Jiyu han-e pingxing yuliaoku de «jiu guo» dieyinci eyi guilü yanjiu // Zhongguo eyu jiaoxue. 2014. № 3. P. 4651. (In Chin.)
Тао Юань. Renwen sheke xueshu wenben e-han pingxing yuliaoku de chuangjian yu yanjiu // Yuliaoku yuyanxue. 2014. № 1. P. 78-93. (In Chin.)
Тао Юань, Ху Гумин. Zhishi dongci yuyiyun de fanyi yanjiu — jiyu e-han pingxing yuliaoku de zhuanye wenben // Wuhan daxue xuebao (Renwen kexue ban). 2015. № 1. P. 119-124. (In Chin.)
Тао Юань. Jiyu e-han pingxing yuliaoku de fanyi danwei yanjiu // Waiyu jiaoxue. 2015. № 1. P. 108-113. (In Chin.)
Тао Юань. Jiyu e-han pingxing yuliaoku de чтобы congju fanyi zaozuo guifan yanjiu // Jiefangjun waiguoyu xueyuan xuebao. 2015. № 5. P. 117-125. (In Chin.)
Ван Ягэ, Ду Хуэйпин. Jibian guji suoyin tantao — yi "Dao De Jing" ciyu suoyin zidong bianzuan weili // Tushuguan luntan. 2008. № 5. P. 34-27. (In Chin.)
Чжэн Шицюй, Ван Юнпин. Zhongguo wenhua tongshi: suitang wudai zhuan [M]. Beijing: Beijing shifan daxue chuban jituan. 2009. P. 96. (In Chin.)
Feng Wenhe. Alignment and Annotation of Chinese-English Discourse Structure Parallel Corpus // Journal of Chinese Information Processing. 2013. 27(6). P. 158-165.
Li Yancui, Feng Wenhe, Sun Jing, Kong Fang, Zhou Guodong. Building Chinese Discourse Corpus with Connective-driven Dependency Tree Structure // Proceedings of the 2014 conference on Emporical Methods in Natural Language Processing, Doha, Qatar. 2014. P. 2105-2114. Tao Yuan. Operating norms in translation on the basis of Russian-Chinese corpora: a case of чтобы clauses in Russian // Вестник СПбГУ. Сер. 9. 2016. № 1. С. 107-119.
Chen Xiaohui, Olga V. Kukushkina
THE PARALLEL CORPORA OF RUSSIAN AND CHINESE TEXTS
Renmin University of China
No. 59 Zhongguancun Street, Haidian District, Beijing, 100872 Lomonosov Moscow State University 1 Leninskie Gory, Moscow, 119991
In this article we will try to consider the already existing parallel corpora of Russian and Chinese texts, not only in order to acquaint the reader with them, but also to learn from the experience of their development and to show the perspective and direction of further work. Particular attention is paid to the Parallel corpus of translations of " The Tale of Igor's Campaign", which contains translations of this ancient manuscript in different languages, including Chinese; the Parallel Russian-Chinese corpus within the National corpus of the Russian language; the Russian-Chinese and Chinese-Russian parallel corpus, the head of which is a Chinese scholar Cui Wei; the Russian-Chinese parallel Corpus of Humanities and Social Sciences academic texts the founder of which is a Chinese researcher Tao Yuan; the Russian-Chinese translation corpus, developed by the Chinese academic Liu Miao and divided into three blocks: the subcorpus of Chekhov's stories, the Chinese-Russian subcorpus of Literary, the subcorpus of teaching Russian as a foreign language; the Chinese-Russian parallel corpus of official texts with discursive-structural marking the developers of which are M. Yu. Mukhin and Yang I; the Chinese-Russian parallel corpus of the novel "Wine Country", created by the Chinese researchers Piao Zhehao, Li Qinghua and Wang Lixia.; the Chinese-Russian Parallel corpus of the Chinese classic text "Dao De Jing", developed by the authors of this article and containing two versions: the abbreviated (3 translations) and the complete (21 translations) one. As a summary, we have come to the conclusion that the development and use of the Russian-Chinese parallel corpus is still at an early stage. The volume of existing corpora is still very small, and their subjects are not wide enough; experts involved in the development of corpora, text tagging and corpus-oriented research are not numerous enough. We are faced with an urgent and important task.
Key words: parallel corpora; Russian; Chinese; tagging.
About the authors: Chen Xiaohui — Cand. Sc (Philology), Assistant Professor
at Renmin University of China, China (e-mail: [email protected]); Olga V.
Kukushkina — Dr. Sc (Philology), Professor at Lomonosov Moscow State University, Russia (e-mail: [email protected]).
References
Muhin M.YU. Yang I. Proekt sozdaniya kitajsko-russkogo parallel'nogo korpusa oficial'no-delovyh tekstov s diskursivno-strukturnoj razmetkoj. Vestnik YUUrGU. Seriya: "Lingvistika", 2016, t. 13, № 4, pp. 23-31. (In Russ.)
Orekhov B.V. Parallel'nyj korpus perevodov "Slova o polku Igoreve": itogi i perspektivy. Nacional'nyj korpus russkogo yazyka: 2006-2008. Novye rezul'taty i. Otv. red. V.A. Plungyan, SPb, 2009, pp. 462-473. (In Russ.)
Tao Yuan, Zaharov V.P. Razrabotka i ispol'zovanie parallel'nogo korpusa russkogo i kitajskogo yazykov. Nauchno-tekhnicheskaya informaciya Ser. 2: Informacionnyeprocessy i sistemy, 2015, № 4, pp. 18-29. (In Russ.)
Tao Yuan. Sozdanie i ispol'zovanie parallel'nogo korpusa russkogo i kitajskogo yazykov. Vestnik MGPU, ser. "Filologiya. Teoriya yazyka. YAzykovoe obrazovanie", 2015, № 3, pp. 76-82. (In Russ.)
Tao Yuan, Zaharov V.P. "Inostranizaciya" sochetaemosti v konstrukciyah s predlogom ^ (dui) pri perevode nauchnyh tekstov s russkogo yazyka na kitajskij. Vestnik Moskovskogo universiteta, ser. 22: Teoriyaperevoda, 2016, № 3, pp. 58-72. (In Russ.)
Tao Yuan, Zaharov V.P. Korpusno-orientirovannyj analiz universalii "inostranizaciya" v konstrukciyah s predlogom (dui) v nauchnyh tekstah, perevedennyh s russkogo yazyka na kitajskij. Vestnik SPbGU, Vostokovede-nie i afrikanistika. 2017, t. 9, vyp. 2, pp. 150-158. (In Russ.)
Tolstoj L.N. Poln. sobr. Soch.: v 901., t. 40, M., 1957. (In Russ.)
Cui Wei, Zhang Lan. E-han fanyi pingxing yuliaoku jiqi yingyong yanjiu. Jiefangjun waiguoyu xueyuan xuebao, 2014, № 1, pp. 81-87. (In Chin.)
Cui Wei, Li Feng. E-han-han-e pingxing yuliaoku de goujian shexiang yu yingyong zhanwang. Zhongguo eyu jiaoxue, 2014, № 1, pp. 1-5. (In Chin.)
Liu Miao, Shao Qing. E-han wenxue fanyi yuliaoku de chuangjian — jiyu qiehefu xiaoshuo pingxing yuliaoku de sheji yu jiangou. Waiyu xuekan, 2016, № 1, pp. 154-158. (In Chin.)
Liu Miao, Shao Qing. Jiyu duoyiben pingxing yuliaoku de fanyi yuyan te-zheng yanjiu — dui qiehefu xiaoshuo sanyiben de duibi fenxi. Jiefangjun waiguoyu xueyuan xuebao, 2015, № 5, pp. 126-133. (In Chin.)
Piao Zhehao, Li Qinghua, Wang Lixia. Jiyu han-e pingxing yuliaoku de «jiu guo» dieyinci eyi guilu yanjiu. Zhongguo eyu jiaoxue, 2014, № 3, pp. 4651. (In Chin.)
Tao Yuan. Renwen sheke xueshu wenben e-han pingxing yuliaoku de chuangjian yu yanjiu. Yuliaokuyuyanxue, 2014, № 1, pp. 78-93. (In Chin.)
Tao Yuan, Hu Guming. Zhishi dongci yuyiyun de fanyi yanjiu — jiyu e-han pingxing yuliaoku de zhuanye wenben. Wuhan daxue xuebao (Renwen kexue ban), 2015, № 1, pp. 119-124. (In Chin.)
Tao Yuan. Jiyu e-han pingxing yuliaoku de fanyi danwei yanjiu. Waiyu jiaoxue, 2015, № 1, pp. 108-113. (In Chin.).
Tao Yuan. Jiyu e-han pingxing yuliaoku de чтобы congju fanyi zaozuo guifan yanjiu, Jiefangjun waiguoyu xueyuan xuebao, 2015, № 5, pp. 117-125. (In Chin.)
Wang Yage, Du Huiping. Jibian guji suoyin tantao — yi "Dao De Jing" ciyu suoyin zidong bianzuan weili. Tushuguan luntan, 2008, № 5, pp. 34-27. (In Chin.)
Zheng Shiqu, Wang Yongping. Zhongguo wenhua tongshi: suitang wudai zhuan [M]. Beijing: Beijing shifan daxue chuban jituan. 2009, p. 96. (In Chin.)
Feng Wenhe. Alignment and Annotation of Chinese-English Discourse Structure Parallel Corpus. Journal of Chinese Information Processing, 2013, 27(6), pp. 158-165.
Li Yancui, Feng Wenhe, Sun Jing, Kong Fang, Zhou Guodong. Building Chinese Discourse Corpus with Connective-driven Dependency Tree Structure. Proceedings of the 2014 conference on Emporical Methods in Natural Language Processing, Doha, 2014, pp. 2105-2114.
Tao Yuan. Operating norms in translation on the basis of Russian-Chinese corpora: a case of чтобы clauses in Russian, Vestnik SPbGU. Seriya 9, 2016, № 1, ss. 107-119.