Научная статья на тему 'Учёт особенностей вьетнамского языка в системе русско-вьетнамского и вьетнамско-русского машинного перевода'

Учёт особенностей вьетнамского языка в системе русско-вьетнамского и вьетнамско-русского машинного перевода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
709
133
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Учёт особенностей вьетнамского языка в системе русско-вьетнамского и вьетнамско-русского машинного перевода»

возможны только на основе типовых технологических решений. Такие решения должны отражать опыт ведущих международных профессиональных консорциумов в области электронного обучения и базироваться на принципах открытых систем, обеспечивающих переносимость, интероперабельность и мобильность пользователей в интегрированной научно-обр^овательной среде.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Пут шов ГМ. Концепция построе ния информационно-обрюовательной среды технического вуза. - М.: МГИЭМ, 1999.

2. Башмаков А.И., Башмаков МЛ. Разработка компьютерных учебников и обучающих систем. - М: Синтег, 2002.

3. Норенков ИЛ., Зимин А.М. Информационные технологии в образовании. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2004.

4. Поляков АЛ., Кузнецов Ю.М., Маслов С.И., Арбузов Ю.В. Концептуальные основы индустрии информационных ресурсов распределенного электронного обучения. - М.:

, 2002.

5. Декер С., Мельник С., ван Хермелен Ф., Фенсел Д. Semantic Web: роли XML и RDF -Открытые системы. 2001. № 9.

6. Янг М. XML. Шаг за шагом. - М.: ЭКОМ, 2002.

Ха Ти Чунг

УЧЁТ ОСОБЕННОСТЕЙ ВЬЕТНАМСКОГО ЯЗЫКА В СИСТЕМЕ РУССКО-ВЬЕТНАМСКОГО И ВЬЕТНАМСКО-РУССКОГО МАШИННОГО

ПЕРЕВОДА

Введение. Машинный перевод - действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия [1]. Системы машинного перевода представляют собой сложные программные комплексы с разными видами обеспечений: лин, [2]. -му обеспечению системы машинного перевода относятся: словари слов и словосочетаний; базы синтаксических и грамматических правил; морфологические словари и т.д. Формально можно перечислить основные операции, обеспечивающие анализ и синтез в системе машинного перевода при преобразовании текста на одном естественном языке (входной текст) в текст на другом языке (выходной текст):

1. Морфологический анализ: приведение текстовых форм слов входного

( ), ряда морфологических характеристик (часть речи, род, вид, число, падеж и т. п.).

2. Синтаксический анализ: выделение грамматических единиц, определение для них синтаксических связей. Цель синтаксического анализа - построение синтаксического дерева фразы, т.е. нахождение взаимозависимостей между разно-уровневыми элементами предложения.

3. Семантический анализ: выявление семантических соотношений между

, , -ской неоднозначности, что позволяет адекватно «понимать» содержание текста.

4. Семантический синтез, синтаксический синтез и морфологический синтез: Синтез выходных словоформ и предложений по синтаксическим, морфологическим и семантическим правилам на выходном языке.

Исследования по разработке систем машинного перевода, связанных с вьетнамским языком начались с конца 60-х годов XX века [3]. В 80-х годах начались попытки создания электронных словарей [4]. В результате исследований были созданы электронные словари, такие как "Just click and see", "Lac Viet", “Lingvo Ru-Vi-En dictionary”. В настоящее время создаются первые системы англо-вьетнамского ма, , -

,

, , как: СОКРАТ; nPOMT(http://www.translate.ru/translator.asp); мультиязыковой он-лайнный переводчик WorldLingo (http://www.worldlingo.com/en/websites/ url_translator.html); мультиязыковой онлайнный переводчик Babelfish (http://babelfish.altavista.com/tr) и т.п.

Актуальность создания систем русско-вьетнамского и вьетнамско-. -ско-вьетнамского и вьетнамско-русского перевода. Главные причины заключаются :

♦ неполнота исследований среди вьетнамских лингвистов в области ма-

;

♦ разногласия среди лингвисто в по грамматическим правилам;

♦ неэффективность существующих методов автоматической обработки текстов на вьетнамском языке.

С подъемом экономического уровня страны и развитием экономических и политических отношений между Вьетнамом и Россией, создание систем русско-вьетнамского и вьетнамско-русского машинного перевода стало актуальной задачей. Об этом свидетельствуют ряд фактов:

♦ Возрастание кол ичества студентов, специалистов, учащихся в России.

.

♦ Наличие огромного количеств а материалов на русском языке, использующихся в вузах и учреждениях Вьетнама.

♦ Нужда специалистов в использов ании материалов на русском языке.

.

системы русско-вьетнамского и вьетнамско-русского машинного перевода необходимо учитывать особенности русского и вьетнамского языка на разных уровнях репрезентации: графема, морфология, лексика, синтаксиса, грамматика. В данной работе приведен сравнительный анализ некоторых особенностей русского и вьетнамского языка на примерах, с целью выработки предпосылки для дальнейшей разработки метода анализа и синтеза в системе русско-вьетнамского и вьетнамско-русского машинного перевода.

Сравнительный анализ вьетнамского и русского языков. Русский язык является флективным по типологическому отношению [4], в русском языке для обозначения грамматических связей слова изменяют свои формы с помощью свойственных им грамматических категорий: падежа, числа, времени и т.п. Таким образом, грамматические отношения предложения в русском языке выражаются « пределах словоформы».

, , -лабическим изолирующим [5]. Внутри предложения синтаксические отношения между словами не выражены, грамматические отношения выражаются преимущественно порядком слов и служебными словами, в то же время слова не изменяют .

Следующий пример отражает роль порядка слов в предложение, рассмотрим простое на вьетнамском языке предложение, состоящее из 5 слов, обозначим их соответственно A, B, C, D, E: A-Nó: он; B-báo: сказать,...; C-sao,...; D-khöng: нет, не..E-^ёп: приходить, приезжать.:

Nó bao sao khöng dén? (ABCDE): Он спросил, почему вы не пришли?

Если порядок этих слов меняется, получаются и другие выражения, которые синтаксически и грамматически правильны, но носят совсем другие значения:

Sao bao nó khöng dén (CBADE): Сказали, что он не придет.

Khöng den Mo nó sao (DEBAC): Почему ты не пришел к нему и не рассказал ему об этом!

Dén nó bao khöng sao (EABDC): Приди к нему и объясни всё нормально.

Nó dén Mo khöng sao (AEBDC): Он пришел и сказал всё было нормально.

Mo nó dén khöng sao (BAEDC): Скажи ему, пусть он придет и.т.п.

Многозначность слов и проблема синтаксической омонимии. Во вьетнамском языке, одно и то же слово в разных местах может служить глаголом, именем существительным, прилагательным и т.п. Соответственно, одно слово может носить разные, иногда и противоречивые значения.

Проблема выделения слов. Для русского языка границей слова является пробел или знаки препинания, не требуется реализации специальных процедур деления текста на слова. Для вьетнамского языка, где самой минимальной единицей предложений является не слово, а морфема. Морфемы могут разделяться пробелами. При этом морфема может являться слогом слова, а может и самостоятельным словом, либо соединяется с другими морфемами в составе длинных слов. Словообразование осуществляется примыканием [3], повторами (полными или частичными) морфем, максимальная длина слов (в морфемах-слогах) может быть равна

4, минимальная - 1, а самая распространенная длина - 2. Требуется разработка эффективного алгоритма правильного выделения слов. Следующий пример показывает неоднозначность при разных вариантах выделения слов. Подобные случаи часто встречаются в вьетнамском языке: фраза, состоящая из 5 слов-слогов “öng giá di rat nhanh”, обозначим эти слова, соответственно A, B, C, D, E. Рассмотрим их значение в словаре “Lingvo Ru-Vi-En Dictionary”:

Öng: твой, сударь, ты, я, дядя, мужчина, гражданин, господа, дед.

Giá: старый, свыше, матёрый, старый, старик, старческий. i: , , , , , , .

rät: очень, крайне, сильно, отчаянно, чрезвычайно...

Nhanh: короткий, спешить, скоростной, быстрый, быстро, бегло, беглый.

, A B, B C: Öng giá(AB): , ,

старый; Giá di(BC): стареть, сдавать, стариться, старить.

Это приводит к тому, что данная фраза носит семантически несвязанные значения в зависимости от способа выделения слов, как понимать данную фразу зависит от контекста:

i). -• ■ ü'. ¡| --i-.n-'i Старик бегло шагает.

ii). ■) - i ' :í i-'-: i ü■■■ Этот мужчина быстро стареет.

Процесс синтаксического анализа и синтеза вьетнамского языка становится

особо сложным (по сравнению с английским или русским) из-за синтактики и , . .1 -мантическое дерево выражения: “Эта система способна переводить некоторые

”,

RossDev- «Рабочее место лингвиста» (http://www.aot.ru/download/shortrml.zip), раз-

работанной Алексеем Сокирко факультета лингвистики РГГУ в рамках проекта «Диалинг».

Рис.1. Семантическое представление фразы на русском языке

Переводим это семантическое дерево в соответствующее дерево на английском языке. Здесь возникла небольшая проблема, как отражена на рис.2. Если учитываются морфологические и грамматические правила английского языка, то получим правильное выражение: “This system can translate some simple sentences from Russian to Vietnamese”.

Рис. 2. Семантический синтез на английском языке

Подобное действие для вьетнамского языка (как показано на рис.3) далеко не всегда дает приемлемый результат, получается совсем не понятная последовательность морфем: “Này hê thông co thé dich mot vài don giàn câu tir thuôc Nga ngôn ngîr sang thuôc Viêt”.

Рис.4 показывает, как переставить порядок слов, порядок их связей, удалить ненужные морфемы, и добавить пропущенное слово. Результат такого действия отражен на рис.5.

Рис. 3. Семантический синтез на Вьетнамском языке

Рис.4. Семантический и синтаксический синтез на вьетнамском языке

Об

Рис.5. Правильное синтаксическое дерево совершенствование систем русско-вьетнамских словарей, вьетнамско-ясских словарей;

Из этих примеров стало ясно, что, самые сложные этапы при реализации лингвистического обеспечения системы связанны с семантическим анализом и синтезом. Для решения этих проблем, на наш взгляд, необходимо решить следующие задачи:

♦ разработка эффективных алгоритмов правильного выделения слов;

♦ разработка баз грам матических правил и др.;

.

Заключение. Исследования показывают что, качество перевода зависит и от мощности словарных средств, от тематики и стиля исходного текста. Существуют предпосылки о возможности создания русско-вьетнамского и вьетнамско-русского .

, -

рей по определённым тематикам текстов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Машинный перевод. Энциклопедия Кругосвет®

http://www.krugosvet.ru/articles/82/1008256/1008256a1.htm.

2. Башм аков А.И., Башмаков И А. Интеллектуальные инфо рмационные технологии. - М.: Изд-во МГТУ, 2006. - С. 90-96.

3. Дао Хонг Тху. Проблема создания систем машинного перевода с вьетнамского / на вьетнамский язык // Прикладная лингвистика в науке и образовании. Третья международная научная конференция, 16-17 марта 2006, С-Петербург. - С. 49-54.

4. Дао Хонг Тху. Машинный перевод с вьетнамского языка и на вьетнамский язык

(вьетнамско-английский и англо-вьетнамский машинный перевод) // Труды

международной конференции «Корпусная лингвистика. 2006», 10-14 октября 2006 г., СПб: Изд-во СПбГУ, 2006. - С. 99-105.

5. Лингвистический энциклопедический словарь / Главн. ред. В.Н. Ярцева. - М., 1990.

i Надоели баннеры? Вы всегда можете отключить рекламу.