Научная статья на тему 'Когнитивная составляющая перевода с использованием искусственного интеллекта'

Когнитивная составляющая перевода с использованием искусственного интеллекта Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
540
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КОГНИТИВНАЯ ЛИНГВИСТИКА / МАШИННЫЙ ПЕРЕВОД / СМЕШАННЫЙ ПЕРЕВОД / СТРАТЕГИЯ ПЕРЕВОДА / СЦЕНАРИЙ / ТИПОЛОГИЯ НЕСООТВЕТСТВИЙ / ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ / ARTIFICIAL INTELLECT / COGNITIVE LINGUISTICS / MACHINE TRANSLATION / MACHINE AIDED TRANSLATION / TRANSLATION STRATEGY / SCENARIO / TYPOLOGY OF DISCREPANCIES / FREQUENCY DISTRIBUTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Котельникова Е.В.

В статье рассмотрена когнитивная технология перевода с использованием искусственного интеллекта, основанная на использовании прототипических фреймов-сценариев и когнитивных стратегий перевода. В качестве иллюстрации приводится исследование влияния когнитивных составляющих предпереводческого этапа смешанного перевода на характеристики постредактирования переводного текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Cognitive Transfer Component with Artificial Intellect Use

The article treats the technology of translation with the artificial intellect use, based on the use of the prototypical frame scenarios and cognitive translation strategies. The research of cognitive components influence at the pre-translational stage in a machine aided translation into post-editing characteristics of the translated text is illustrated

Текст научной работы на тему «Когнитивная составляющая перевода с использованием искусственного интеллекта»

УДК 81'23

Е.В. Котельникова

Когнитивная составляющая перевода с использованием искусственного интеллекта

В статье рассмотрена когнитивная технология перевода с использованием искусственного интеллекта, основанная на использовании прототипических фреймов-сценариев и когнитивных стратегий перевода. В качестве иллюстрации приводится исследование влияния когнитивных составляющих предпере-водческого этапа смешанного перевода на характеристики постредактирования переводного текста.

The article treats the technology of translation with the artificial intellect use, based on the use of the prototypical frame scenarios and cognitive translation strategies. The research of cognitive components influence at the pre-translational stage in a machine aided translation into post-editing characteristics of the translated text is illustrated.

Ключевые слова: искусственный интеллект, когнитивная лингвистика, машинный перевод, смешанный перевод, стратегия перевода, сценарий, типология несоответствий, частотное распределение.

Keywords: artificial intellect, cognitive linguistics, machine translation, machine aided translation, translation strategy, scenario, typology of discrepancies, frequency distribution.

Когнитивная лингвистика рассматривает мышление человека как механизм обработки знаний. Ряд функций, первоначально выполняемых человеком интуитивно без актуализации их сознанием, позднее был осмыслен и смоделирован при помощи материальных объектов и процессов. Однако полностью формализовать способы функционирования естественного интеллекта не удается. Текст -опыт человека, репрезентируемый мышлением. Ресурсы памяти естественного интеллекта (ЕИ) ограничены несколькими десятками тысяч по сравнению с миллионами слов и соответствующих словарных статей современных электронных словарей. Тексты содержат различные знания, многие из которых частично или совершенно неизвестны переводчику и требуют глубокого осмысления, в том числе и тонких структур элементов дискурса, содержащего новые пласты знаний, которые также могут быть частично незнакомы переводчику.

В смешанном переводе (СП) с использованием значительной доли как традиционной, так и машинной переработки текста большую часть стереотипной деятельности по переводу, отысканию переводных эквивалентов и соответствий на основании формализо-

ванных методик осуществляет искусственный интеллект (ИИ) [10, с. 203]. Человек остается представителем когнитивного начала, выступая в роли инициатора стратегии и сценариев, предредактора, интер-редактора и постредактора СП, приобретая и используя специфические знания для диалога с ИИ, подготовки, настройки и контроля системы перевода.

СП основан на машинном представлении текста, лексические единицы которого могут быть синтагматической последовательностью или ассоциативными связями между ними, а также на определенных знаниях о предметной области, моделирующей структуру внутренних смысловых связей текста посредством искусственной технической среды, допускающей его машинную обработку.

Эквивалентность исходного (ИТ) и переводного текстов (ПТ), понимаемая как равноценность ИТ и ПТ, означает, что ПТ обладает тем же потенциальным воздействием, что и ИТ, служит наиболее близким его текстуальным аналогом, не содержит недопустимых в переводе трансформаций [2, с. 26].

Процесс СП может рассматриваться как когнитивный процесс, инструмент осмысления и понимания исходного текста и дальнейшей его интерпретации в переводном тексте, представления в эквивалентном виде другой языковой картины мира, причем когнитивная составляющая этого процесса перевода частично, но регулярно моделируется ИИ. Когнитивная технология перевода включает три составляющие: использование прототипических фреймов-сценариев, разработку когнитивных стратегий перевода, а также автоматизированный выбор основных концептов и использование их и соответствующих им семантических полей.

В качестве иллюстрации возможностей данного подхода в настоящей статье рассмотрена методика исследования влияния когнитивных составляющих этапа (структуры когнитивных предперево-дческих сценариев), на постредактирование ПТ, связанного с когнитивными сценариями, интерпретацией референциальной составляющей ИТ в концептуальной и языковой среде ПТ. ИИ представлен системой автоматизированного перевода PROMT 8.0. с достаточно широкими возможностями ИИ на всех этапах СП.

На предпереводческом этапе ИИ используется для проверки или восстановления корректности денотативного сообщения текста при помощи сценариев автоматической проверки ИТ, устранения орфографических ошибок (Windows-приложение Orfo) и др., а также элементов изобразительного характера: рисунков, схем, диаграмм, графиков и др. Актуализируются когнитивные сценарии морфологического, синтаксического и семантического анализа. В ИТ выявляются части текста, представляющие затруднения для программы

МП, прогнозируются возможные несоответствия перевода. Для определения основных концептов ИТ проводится ограниченный частотный анализ с автоматизированным использованием словарей концептосфер ИЯ и ПЯ [1, с. 306-309]. Путем извлечения способов языковой репрезентации концептов ПТ достигается более глубокое осмысление ИТ и составляются пользовательские словари ИИ. Этим обеспечивается требование минимизация искажения внутренних свойств текста, сохранение его самоидентичности в отношении лексических, структурных и позиционных характеристик [9, с. 172-231].

Для «восприятия» ИИ денотативного сообщения, форму последнего частично изменяют, посредством выбора и осуществления ряда прототипических сценариев настройки и управления системы ИИ. Для перевода регулярно встречающихся лингвистических элементов выбирается собственная группа операторов, выполняющих задачи идентификации знака и его повторения, объединения в группу, определения диапазона символов, класса символов. Кроме того, возможно задание оператором выбора, аббревиатуры, составления простого исключения, использование препроцессоров, настраиваемых правил грамматического перевода, настройка работы с вариантами перевода слов, использование словарных статей пользовательского словаря вместо словарных статей генерального и специализированного словарей, применения резервации (транслитерации) слов, использования функции сегментации и базы Translation Memory.

С применением перечисленных когнитивных сценариев был выполнен предпереводческий анализ научно-технической текста по имитационному и компьютерному моделированию «Simulation» [11]. Анализ показал, что ИТ содержит большое число: герундиальных оборотов (at improving your pilot estimates; the aim of applying; identifying the most significant system; without resorting an error; the и др.), неличных форм глагола (need to establish some conditions; to obtain independent simulation; to construct the needed confidence interval; и др.), имен собственных (Sherman M., and D. Goldsman; Abate J., and W. Whitt; Nikoukaran J. Software selection; аббревиатур (CORBA; ANOVA; OLE/COM; DES; SPSA; VRT; SIMSCRIPT и др.), сложных именных групп (long term relationship; macro-economic models; Goalseeking and What-if problems и др.). ИТ насыщен специальной терминологией, математическими формулами и алгоритмами, содержит сложную пунктуацию.

Модель процесса СП, представлена в виде фреймов-сценариев - последовательности фреймовых ситуаций с заполненными и пустыми слотами. В структуре рассматриваемой переводческой модели проявляется наследование свойств по АКО-связям (A-Kind-Of): слот АКО маркирует фрейм более высокого уровня иерархии, свойства

которого неявно наследуются [8, с. 598]. В настоящем работе процедура наследования понимается как возможность использования сценариев предыдущих этапов перевода в последующих. С учетом результатов предпереводческого этапа использованы соответствующие сценарии-экземпляры, проведены настройки управления системе ИИ, исключающие ряд несоответствий ПТ.

ИИ на этапе предредактирования используется для выявления (и в случае необходимости восстановления) корректности денотативного сообщения (сценарий автоматической проверки ИТ, сценарий устранения орфографических ошибок (Windows-приложение Orfo) и др.). Для «понимания» денотативного сообщения ИИ переводчик изменяет форму сообщения, осуществляя ряд специальных сценариев настройки и управления в системе МП: сценарий проверки разбивки текста на абзацы; выбор направления перевода. Сценарий формализованного статистического анализа, с использованием результатов которого осуществляются: определение и настройка шаблона тематики; сценарии подключения словарей и стандартных препроцессоров; сценарий выбора значений правил перевода; сценарий подключения баз Translation Memory.

На этапе постредактирования выполняются сценарии корректировки референциального, коннотативного и денотативного уровней ПТ, как соответствующих эквивалентов и аналогов ИТ, по существу создавая интерпретацию ИТ, основанную на осмыслении концептуальной сферы языка ПТ. В частности, если концепт ИТ покрывает смысл нескольких концептов ПТ и таким образом не имеет переводного эквивалента, содержание его вербализуется при помощи толкования с использованием других концептов. Учитываются важнейшие различия исходного (ИЯ) и переводного языков (ПЯ) на лексико-морфологического, морфолого-синтаксического и лексико-синтаксического уровнях [б]: несовпадение позиционных характеристик единиц ИЯ и ПЯ при наличии переводческих соотношений, различие их лексико-грамматических (в частности, неполное совпадении областей использования одинаковых частей речи), несовпадение лексических особенностей, в том числе различие омонимии и полисемии.

Для исследования взаимовлияния когнитивных составляющих предпереводческого этапа и этапа постредактирования ПТ, объектом наблюдения выбрана совокупность лингвистических явлений, объединенных в статистическую совокупность общим качественным признаком несоответствия лингвистических элементов ПТ и ИТ. Несоответствия сгруппированы в подмножества по признаку принадлежности к определенному типу на основе несоответствия результа-

тов перевода требованиям грамматики, лексики, синтаксиса, семантики, или невозможности перевода слов и словосочетаний.

Для статистических наблюдений на основе объективно-ориентированного программирования разработан функциональный визуальный интуитивно понятный интерфейс (рис. 1, 2), со средствами управления в виде командных объектов (управляющих кнопок) и текстовых окон, с названиями, номинирующими начало или окончание процессов редактирования отдельных переводческих несоответствий, либо всего текста или фрагмента текста (выборки). Активизации процесса сопровождается изменением цвета объекта (рис. 2). Автоматически фиксируется текущее количество и общее количество различных несоответствий Пт, время редактирования, суммарное время обработки данного несоответствий, общее время редактирования. В текстовых окнах визуального интерфейса выводятся результаты редактирования: времени обработки последнего несоответствия, общих количества и времени уже отредактированных несоответствий.

Начало работы системы

Начните перевод

следующей выборки текста

Общее время перевода

Время обработки выборки

-4Й, @т1 |Ц|ПИ

Завершение работы системы Окончание перевода выборки

Выбор несоответствий перевода

О'бщее время перевода

| Идет счет

Время обработки выборки

И дет счет

Выбор несоответствий перевода

Время: 32 сек Все по: 5 Общее время: 44

Лексические

Грамматические

Синтаксические

О О ш,ее ко л ичес т в о несоот в етст вий

Семантические

Непереведенные слова

Время: 18 сек Все го: 3 Общее время:

Синтаксические

Время: 15 сек Все го: 4 Общее время: 21

Лексические

Общее количество несоответствий

Грамматические

Идет счет

Семантические

Непереведенные слова

Время: 21 сек Все го: 7 Общее время: 27

Время: 13 сек Все го: 3 Общее время: 24

Рис. 1. Интерфейс переводчика Рис. 2. Процесс перевода

Проведен подсчет различных лингвистических несоответствий (по уровням единиц перевода) и когнитивных усилий переводчика на этапе постредактирвания, отраженных как величины временных промежутков, затраченных на устранение несоответствий. Экспериментальные результаты частотных распределений несоответствий перевода (рис. 3) представлены в виде отношений времени и числа отредактированных, рассмотренных типов несоответствий к общему времени обработки и суммарному количеству несоответствий МП, осуществленного без использования когнитивных сценариев пред-переводческого этапа. Анализ результатов свидетельствует о том, что СП с использованием эффективных сценариев когнитивного пе-

ревода на этапах пред-, и постредактирования СП в значительной степени оптимизируют процесс перевода, существенно снижая процент несоответствий ПТ.

Статистический анализ лингвистических несоответствий и распределения когнитивных усилий переводчика при их обработке на этапе постредактирования показал, что наибольшее время постредактирования занимают морфологические несоответствия. Наименьшим оказалось время редактирования синтаксических несоответствий и непереведенных слов.

Количество (МП) Количество(СП) Время (МП) Время(СП)

Время(СП) Время (МП) Количество (СП) Количество (МП)

Рис. 3. Результаты смешанного перевода

Из компаративного анализа результатов исследования следует, что объемы морфологических, лексических несоответствий в МП на 54 % и 73 % превышают объемы этих несоответствий в СП, а аналогичные показатели для синтаксических несоответствий и непереведенных слов составляют 70 % и 56 %. Анализ результатов МП и СП переводов, свидетельствует о том, что применение когнитивных сценариев на этапах предпереводческого анализа текста значительно снижает время постредактирования (до 70 %).

Таким образом, перспективы использования ИИ в переводе научно-инновационного текста связаны не только с исследованием методического потенциала компьютерных технологий, но и с интенсификацией когнитивных процессов Сп на основе совершенствования переводческих стратегий. Очевидно, необходимо и далее расширять области использования ресурсов ИИ как вспомогательного

инструмента обеспечения когнитивных процессов, осмысления исходных текстов и их корректной интерпретации в параллельной языковой картине мира.

Список литературы

1. Аверьянов Л.Я. Контент-анализ: учебное пособие. - М. КНОРУС, 2009. - С. 299-309.

2. Алейник В.Н. Введение в курс перевода. - М., 1991.

3. Болдырев К.Н. О понятии культуры и культурологическом анализе языка // Филология и культура: сб. докл. - Тамбов: Изд-во ТГУ им. Г.Р. Державина, 2007.

4. Болдырев КН., Куликов В.Г. О диалектном концепте в когнитивной системе языка // Известия РАН. Сер. лит. и яз. 2006. - Т. 65. - № 3.

5. Коваленко А.Я Общий курс научно-технического перевода. - Киев: ИНКОС, 2004.

6. Комиссаров В. Н. Современное переводоведение: курс лекций /

B.Н. Комиссаров. - М.: ЭТС, 1999.

7. Котельникова Е.В. Предварительная обработка текста на начальном этапе машинного перевода: докл. на междунар. науч.-практ. конф. студ. и молодых ученых «Иностранные языки и межкультурная коммуникация» (21 апреля 2009 г., Ростов н/Д). - Ростов н/Д, 2009.

8. Макарова Н.В. Информатика. -М.: Финансы и статистика, 2001. -

C. 596-599.

9. Модина Л.С., Шаляпина З.М. Межъязыковые операции в модели японско-русского автоматического перевода ЯРАП. - М: Институт востоковедения РАН, 1999 - С. 172-231.

10. Нелюбин Л.Л. Толковый переводоведческий словарь. - М.: Высш. Школа, 2003 - С. 203.

11. Langacker R.W. Foundations of Cognitive Grammar. - Vol. 1. Theoretical Prerequisites. - Stanford, CA: SUP, 1987.

11. Arsham Н. Simulation. / Hossein Arsham // Modeling and Simulation. - Lnd, 2007 - mode of access: http://home.ubalt.edu/ntsbarsh/simulation/sim.htm# rintroduction (15.11.2008).

i Надоели баннеры? Вы всегда можете отключить рекламу.