Научная статья на тему 'Верификация данных переводных словарей с помощью языковых корпусов'

Верификация данных переводных словарей с помощью языковых корпусов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
370
81
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАЦИОНАЛЬНЫЙ ЯЗЫКОВОЙ КОРПУС / ЛЕКСИКОГРАФИЯ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Семина О. Ю.

Рассматриваются возможности использования национальных языковых корпусов в качестве источника материала для лексикографии. Автор обращает внимание на несоответствие данных переводных словарей реалиям функционирования современного языка и рекомендует использовать поиск в национальном корпусе для верификации словарных данных при изучении иностранного языка и при переводе.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING LANGUAGE CORPORA TO VERIFY THE DATA OF TRANSLATION DICTIONARIES

The article dwells upon the possibility of using national language corpora as a source of lexicographic material. The author points out that many translation dictionaries fail to properly reflect the realia of modern language usage and recommends using corpora for reference both in learning foreign languages and in translation.

Текст научной работы на тему «Верификация данных переводных словарей с помощью языковых корпусов»

УДК 81'42

О.Ю. Семина, канд. филол. наук, доц., 8-4872- 35-37-79, olga@rambler.ru (Россия, Тула, ТулГУ)

ВЕРИФИКАЦИЯ ДАННЫХ ПЕРЕВОДНЫХ СЛОВАРЕЙ С ПОМОЩЬЮ ЯЗЫКОВЫХ КОРПУСОВ

Рассматриваются возможности использования национальных языковых корпусов в качестве источника материала для лексикографии. Автор обращает внимание на несоответствие данных переводных словарей реалиям функционирования современного языка и рекомендует использовать поиск в национальном корпусе для верификации словарных данных при изучении иностранного языка и при переводе.

Ключевые слова: национальный языковой корпус, лексикография

Проведение исследований на базе корпусов текстов является одним из наиболее прогрессивных направлений современного языкознания. Под корпусом текстов понимают унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде [1]. Наиболее значимым признаком корпуса текстов является репрезентативность, которая, по сути, и отличает КТ в узком понимании от любой другой совокупности текстов на машинном носителе [2]. Особой разновидностью корпусов текстов является национальный корпус - собрание текстов в электронной форме, представляющих данный язык на определенном этапе его существования [3]. Такие корпусы на данный момент созданы для большинства европейских языков, в том числе и для русского (Национальный корпус русского языка, далее - НКРЯ).

Одно из основных преимуществ корпусных исследований заключается в возможности с помощью встроенной в корпус системы поиска за короткое время проанализировать все употребления одной единицы в массиве текстов величиной в несколько миллионов словоупотреблений, тем самым сделав подход к изучению лингвистических фактов более объективным [McEnery, Wilson, 1999]. Выгодной особенностью национального корпуса является и то, что его данные, в отличие от данных словарей и грамматических справочников, подвергающихся фильтрации людьми с глубоким знанием языка и лингвистическим чутьем, дают представление не о стандарте языка, а обо всем разнообразии его индивидуального, диалектного и жанрового варьирования. Благодаря указанным характеристикам, репрезентативный языковой корпус представляет собой мощный инструмент лингвистического исследования. Данные, полученные на базе корпусного материала, могут оказать существенную помощь как в теоретических изысканиях, так и в практике перевода и преподавания иностранных языков и русского языка как иностранного. В частности, важной особенностью поисковой системы большинства корпусов является наличие функции автоматического подсчета контекстов, в которых встречается та

или иная единица языка или речи. Эта функция позволяет исследователю в кратчайшие сроки оценить реальную степень употребительности каждой единицы в современной речи, выразив ее в абсолютной или относительной величине.

Чтобы проиллюстрировать указанные возможности использования языковых корпусов, приведем результаты исследования, проведенного на материале лексико-семантической группы зоонимов (названий животных). В ходе исследования мы сравнили данные, предоставляемые наиболее широко используемыми русско-английскими словарями, с данными по частоте употребления рассмотренных лексем в национальных языковых корпусах. Нашей целью было проверить, какие из предлагаемых вариантов перевода действительно типичны для английской речи, а какие из них малоупотребительны или вообще не употребляются. Проведенное исследование должно было помочь оценить достоверность информации, предлагаемой переводными словарями, с точки зрения современного состояния языка.

На основе толковых словарей русского языка и результатов семантического запроса в НКРЯ мы составили список, в который вошли 658 зоонимов. Каждый из зоонимов был проверен на наличие переводных эквивалентов в наиболее широко используемых русско-английских словарях. В списке англоязычных соответствий русским зоонимам в общей сложности оказалось 854 единицы. Для 27 зоонимов русскоязычного списка (бобренок, буйволица, выползень, ежонок, камышевка, кукабарра, курёнок, мизгирь, мулица, рыбец, тарпан, тетеря, утица, чечет, шилохвостка, ястребенок и др.) ни в одном из использованных словарей перевода не обнаружилось. Некоторые лексемы из списка (крылатка, гаденыш, козлище, тетеря, яловка) присутствуют в словнике русско-английского словаря, но для ин-тересу-ющего нас значения вариантов перевода не предлагается.

С другой стороны, для многих лексем даже в одном словаре имеются несколько лексических или фразеологических соответствий. Например, для русского дрозд в русско-английском словаре предлагается три варианта перевода - thrush, blackbird, song-thrush, для перевода слова черепаха - такие единицы, как tortoise; turtle; terrapin (водяная ч.); fresh-water turtle (водяная ч.); snapping turtle (каймановая ч.); leather-back (кожистая ч.). Многим зоонимам русского языка в словарях соответствуют только попытки объяснительного перевода: верблюдица - female camel, кобель -male dog и т.п.

На каждый из предлагаемых словарями английских соответствий нами был сделан запрос в Британский национальный корпус (далее БНК), один из наиболее авторитетных корпусов английского языка. Рассматривались все обнаруженные в русско-английских словарях варианты перевода зоонима, в том числе объяснительные словосочетания и названия подвидов. Частота употребления той или иной единицы рассчитывалась как от-

ношение абсолютного количества контекстов, в которых она была обнаружена, к общему количеству словоупотреблений в корпусе, умноженное на 100 %. Так как полученные числа представляют собой довольно малые десятичные дроби, для удобства количество словоупотреблений в процентах было представлено в виде целых чисел, умноженных на 10-6. Как показало исследование, высокой степенью частотности - от 500*10-6 % от объема корпуса и выше - характеризуются лишь 113 единиц из 854 предлагаемых словарями. Большинство обнаруженных в русско-английских словарях переводных эквивалентов отличаются средней частотностью: для 166 единиц из 854 показатель составил от 10 до 49*10-6 %, для 82 единиц - от 50 до 99*10-6 %, для 180 - от 100 до 499*10-6 %.

Особого внимания заслуживает неожиданно большое количество единиц с низкой степенью употребительности. Более 1/3 всех предлагаемых словарями вариантов перевода ни разу не встречаются в текстах корпуса либо отличаются крайне низкой степенью употребительности. 146 единиц из 854, или 17 %, были обнаружены менее чем в 10 контекстах, 167 единиц из 854, или 20 %, не были обнаружены ни в одном контексте. Низкая частотность в первую очередь касается предлагаемых словарями в качестве эквивалентов словосочетаний. Большинство рассмотренных словосочетаний относительно редко употребляются в современной речи: 54 % (80 из 149) не обнаружены ни в одном контексте, более 10 раз в корпусе встречаются 25 % словосочетаний, более 50 раз - всего 7 %. Приведенные цифры, на наш взгляд, свидетельствуют о неадекватности данных наиболее распространенных русско-английских переводных словарей.

Полученные на основе запросов в корпус количественные данные могут оказать существенную помощь и в выборе нужного переводного эквивалента при наличии в словарной статье нескольких вариантов перевода. Внимания заслуживает, к примеру, тот факт, что многие из обнаруженных нами в словаре частичных переводных эквивалентов употребляются не намного реже, чем более точно соответствующий по объему значения вариант перевода. Например, лексема blackbird (наименование одного из наиболее распространенных на территории Англии видов птиц, черного дрозда) в корпусе встречается в 296 контекстах, в то время как полный эквивалент родового названия дрозд - thrush - встречается в 350 контекстах. Подобные количественные соотношения могут оказаться полезными, в частности, при обучении переводу: как показывает практика, начинающие переводчики зачастую склонны выбирать из словарной статьи наиболее общий, родовой термин, не уделяя должного внимания контексту.

Кроме данных об общей употребительности каждой лексемы данной группы, нами были получены количественные данные по частности реализации в текстах корпусов каждого из лексико-семантических вариантов многозначных зоонимов. Отметим, что даже несистематическое сопоставление результатов исследования с данными русско-английских слова-

рей выявило немало примеров неадекватного отражения словарями современных особенностей функционирования зоонимов и их переводных эквивалентов.

В отдельных случаях русско-английский словарь вообще не предлагает лексических эквивалентов того или иного лексико-семантического варианта русского зоонима: так, в «Оксфордском русско-английском словаре» (далее - ОРАС) для перевода слова змееныш предлагается только словосочетание young snake. Лексем, которые могли бы служить переводными эквивалентами зоонима в значении «нехороший ребенок или молодой человек», в словаре не обнаруживается. Есть примеры, когда и у русской, и у английской лексемы обнаруживается много употреблений в том или ином значении, но русско-английские словари не предлагают перевода либо этой лексемы вообще, либо этого значения. Например, у лексемы щенок есть значение «ребенок, некто молодой, неопытный», которое принадлежит к числу наиболее употребительных вторичных значений русских зоо-нимов. В Lingvo 12 переводу этого значения посвящается следующая часть статьи: «(о молодом неопытном человеке) brat; puppy уст.». В ОРАС лексеме щенок соответствует статья «puppy, pup (also fig.), whelp, cub». Как видим, помета fig., позволяющая соотнести эту лексему с интересующим нас вторичным значением, в ОРАС есть только у слова pup. В то же время по результатам исследования корпусного материала у лексемы whelp было обнаружено 4 употребления в данном значении. Ни один словарь не предлагает данную лексему в качестве переводного эквивалента значения «ребенок, некто молодой, неопытный». Напротив, у слова puppy, предлагаемого Lingvo 12, хотя и с пометой уст., не обнаружено ни одного употребления в данном значении.

Исходя из вышесказанного, использование корпусных данных может быть рекомендовано для проверки соответствия данных переводных словарей особенностям функционирования той или иной языковой единицы в современной речи. Применение этого приема к предлагаемым учебниками и словарями межъязыковым соответствиям может оказаться крайне полезным как переводчикам, так и преподавателям и студентам языковых факультетов.

Список литературы

1. Захаров В.П. Веб-пространство как языковой корпус. URL: http://www.dialog-21.ru/Archive/2005/Zakharov%20V/ZakharovV.htm (дата обращения: 16.10.2012).

2. McEnery, T.; Wilson, A. Corpus Linguistics / T. McEnery, A. Wilson. - Edinburgh: Edinburgh University Press, 1999. Электрон. изд. Режим доступа: http://bowland-files.lancs /contents.htm.

3. Что такое корпус? // Национальный корпус английского языка [Сайт] URL: http://www.rsuh.ru/article.html?id=398 (дата обращения: 16.10.2012).

Источники материала

1. Оксфордский русско-английский словарь. 70000 слов/ составитель Маркус Уилер. М.: Локид-пресс, 2004.

2. Национальный корпус русского языка 2003-2012. Электрон. изд. URL: http://www.ruscorpora.ru (дата обращения: 16.10.2012).

3. ABBYY Lingvo 12.0: Многоязычный электронный словарь М.: ABBYY Software House, 2007. 1 эл. опт. диск (CD-ROM). Загл. с экрана.

4. The British National Corpus: version 2 (BNC World) / Distributed by Oxford University Computing Services on behalf of the BNC Consortium. 2001. Электрон. изд. URL: http://www.natcorp.ox.ac.uk/ (дата обращения: 16.10.2012).

О.Y. Syomina

USING LANGUAGE CORPORA TO VERIFY THE DATA OF TRANSLATION DICTIONARIES

The article dwells upon the possibility of using national language corpora as a source of lexicographic material. The author points out that many translation dictionaries fail to properly reflect the realia of modern language usage and recommends using corpora for reference both in learning foreign languages and in translation.

Key words: national language corpora, lexicography.

Получено 12.10.12

УДК 81'42

И.В. Тивьяева, канд. филол. наук, доц., 8-4872- 35-37-79, tivyaeva@yandex.ru (Россия, Тула, ТулГУ)

СТРУКТУРНО-КОММУНИКАТИВНЫЕ ТИПЫ РЕТРОСПЕКТИВНОГО МОНОЛОГА В ПУБЛИЦИСТИЧЕСКОМ ДИСКУРСЕ

Посвящена исследованию структурно-коммуникативных особенностей монологических высказываний ретроспективной направленности в публицистическом тексте.

Ключевые слова: мнемический опыт, ретроспективный монолог, публицистический дискурс.

В связи с утверждением антропоцентрической парадигмы в лингвистических исследованиях последних лет изучение языковой личности и ее проявлений приобрело особую актуальность. Вопросы взаимодействия памяти и языка, репрезентации мнемического опыта языковыми средствами

i Надоели баннеры? Вы всегда можете отключить рекламу.