Научная статья на тему 'Сценарии гармонизации терминов в двуязычной лексикографии'

Сценарии гармонизации терминов в двуязычной лексикографии Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
296
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГАРМОНИЗАЦИЯ ТЕРМИНОЛОГИЙ / ПАРАЛЛЕЛЬНЫЕ КОРПУСА ТЕКСТОВ / СОПОСТАВИМЫЕ КОРПУСА ТЕКСТОВ / СПЕЦИАЛИЗИРОВАННЫЕ ДВУЯЗЫЧНЫЕ СЛОВАРИ / ТЕРМИНОЛОГИЧЕСКИЕ БАНКИ ДАННЫХ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Джепа Татьяна Леонидовна

В статье рассматриваются существующие в двуязычной лексикографии подходы к согласованию терминов, извлеченных из специализированного корпуса текстов. В частности рассматриваются потенциалы параллельного и сопоставимого корпусов текстов с точки зрения автоматизации этого этапа словарной работы. Анализируются методические и процедурные особенности гармонизации терминологий как части технологического процесса в крупных международных проектах и на локальном уровне.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сценарии гармонизации терминов в двуязычной лексикографии»

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №9/2015 ISSN 2410-700Х_

ФИЛОЛОГИЧЕСКИЕ НАУКИ

УДК 81'33

Джепа Татьяна Леонидовна

аспирант, ст. преп. РГПУ им. А.И. Герцена Санкт-Петербург, РФ tatiana.dzhepa@yandex.ru

СЦЕНАРИИ ГАРМОНИЗАЦИИ ТЕРМИНОВ В ДВУЯЗЫЧНОЙ ЛЕКСИКОГРАФИИ1

Аннотация

В статье рассматриваются существующие в двуязычной лексикографии подходы к согласованию терминов, извлеченных из специализированного корпуса текстов. В частности рассматриваются потенциалы параллельного и сопоставимого корпусов текстов с точки зрения автоматизации этого этапа словарной работы. Анализируются методические и процедурные особенности гармонизации терминологий как части технологического процесса в крупных международных проектах и на локальном уровне.

Ключевые слова

Гармонизация терминологий, параллельные корпуса текстов, сопоставимые корпуса текстов, специализированные двуязычные словари, терминологические банки данных.

Процесс создания словарных ресурсов включает несколько этапов, каждый из которых на сегодняшний день не обходится без использования информационных технологий, которые значительно упрощают и ускоряют трудоемкую лексикографическую работу. В частности, этапы поиска релевантных текстов, формирования корпусов, извлечения терминов и построения конкордансов во многих проектах автоматизированы частично или полностью [11]. Ключевым этапом автоматизации создания двуязычного терминологического ресурса является согласование терминов исходного языка и языка перевода. Его частичная автоматизация может осуществляться по двум сценариям:

1. Поиск эквивалентов и их фиксация на локальном уровне, осуществляемые в рамках исследований или небольших словарных проектов с привлечением доступных программных средств обработки текстовых данных.

2. Гармонизация терминологий, понимаемая как часть технологического процесса по их межъязыковой унификации (в первую очередь, на понятийном уровне), средством фиксации которой становятся многоязычные терминологические банки данных (ТБД) [3; 5; 10].

Методика поиска терминологических эквивалентов в проектах локального уровня предполагает первичную обработку подкорпуса текстов на исходном языке с помощью программ извлечения терминов, выделения ключевых слов и построения конкордансов (например, ParaConc, WordSmith Tools), с целью построения списка одно- и многословных терминов для включения в лексикографическую базу данных (БД). Важными критериями признания выделенных программой единиц кандидатами на включение в БД, помимо установленного порога частоты употребления в подкорпусе, являются:

- их грамматическая характеристика: это, как правило, имя существительное или именная группа;

- соотнесенность с системой понятий данной предметной области.

Уже на этом этапе, помимо данных конкорданса, исследователи привлекают данные специализированных словарей и мнение специалистов предметной области [8, с. 12-14]. Дальнейшая работа ведется с подкорпусом языка перевода. С помощью специализированных словарей, для единиц исходного

1 Исследование выполнено при финансовой поддержке РГНФ в рамках научного проекта № 15-54-00021

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №9/2015 ISSN 2410-700Х_

языка подбираются возможные эквиваленты, для которых в подкорпусе языка перевода формируются конкордансы. Для англо-испанского сопоставимого корпуса по предметной области «дистанционный мониторинг лесных пожаров» (remote sensing of forest fires) такая методика позволила установить испаноязычные соответствия для 80% выделенных из англоязычного подкорпуса и включенных в БД 460 многословных терминов [8, с. 13]. Фактически автоматизированными в этом подходе оказываются только первичные процедуры извлечения терминов и получения к ним конкордансов, в то время как сам этап поиска эквивалентов предполагает работу лексикографа и экспертов.

Одной из причин неавтоматизированного поиска эквивалентов является высокая стоимость таких программ, как, например, SynchroTerm и SDL MultiTerm Extract, позволяющих более точно обрабатывать тексты специализированных предметных областей. Кроме того, эти и другие программы, позволяющие осуществлять поиск эквивалентов, как правило, работают с параллельными корпусами текстов. Этот тип корпуса очень удобен для извлечения и согласования терминов, обеспечивая выравнивание текстов по предложениям, и используется для этих целей уже более 20 лет [1]. Однако для многих предметных областей этот тип корпуса не подходит из-за отсутствия достаточного количества текстов, переведенных на экспертном уровне и доступных для копирования с целью включения в корпус. Альтернативой параллельным являются псевдопараллельные корпуса, которые также называют сопоставимыми или сопоставительными (comparable corpora), дающие возможность сравнивать исследуемые явления без неизбежного влияния исходного языка, характерного для переводов [4, с. 479]. Сопоставимость текстов не имеет четкого определения и критериев, но ориентирами для создания корпуса данного типа могут служить два базовых подхода:

1. Построение структурной схемы корпуса, в соответствии с которой сегменты подкорпусов должны быть сбалансированы, то есть должны содержать в равных пропорциях тексты одних и тех же жанров в рамках одной и той же предметной области, написанные на разных языках в один и тот же период создания выборки [7, с. 133]. При создании структурной схемы корпуса необходимо учитывать коммуникативные параметры текстов: тексты, написанные экспертами для экспертов, экспертами для новичков, преподавателем для ученика и т.д. [6, с. 56]. Данный подход позволяет создать представительный по объему корпус аутентичных текстов, сбалансированный и насколько это возможно репрезентативный, но для него заведомо потребуется индивидуальная обработка подкорпусов, то есть неавтоматизированный поиск эквивалентов.

2. Сопоставимые корпуса могут характеризоваться по степени непараллельности. Тексты, в которых есть небольшая адаптация исходного текста к языку перевода, классифицируются как "шумные параллельные" (noisy parallel texts). К строго сопоставимым относят тексты, которые не являются переводами, но посвящены одной и той же узкой теме, и их создатели знают о наличии подобного текста на другом языке (strongly comparable texts). К ним относятся, например, статьи Wikipedia или новости, посвященные одному и тому же событию. Строго сопоставимыми текстами можно считать и материалы конференций, посвященных одной и той же научной проблеме, но проводимых в разных странах и с разными рабочими языками [1]. К слабо сопоставимым относят тексты, посвященные одной теме, но созданные независимо друг от друга (weakly comparable texts), например, английские и китайские учебные пособия по проектированию ветровых турбин [12, с. 1]. Наличие параллельных сегментов в текстах, характерное для "шумных параллельных" и строго сопоставимых текстов, делает их более пригодными для автоматизированной обработки корпусных данных, но может негативно влиять на главное достоинство сопоставимых корпусов - аутентичность текстов. Кроме того, при создании корпуса текстов по узкой предметной области с целью извлечения конвенциональных терминов тексты Wikipedia не могут использоваться, так как не соответствуют коммуникативным параметрам научного стиля речи.

Таким образом, сопоставимые корпуса обладают большим потенциалом для лексикографирования языков для специальных целей с точки зрения доступности и качества текстов, но с точки зрения автоматизации процедуры поиска и упорядочивания переводных эквивалентов не могут конкурировать с

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №9/2015 ISSN 2410-700Х_

параллельными корпусами, в связи с чем корпуса текстов, сопоставимые исключительно на тематическом уровне, не используются в крупных словарных проектах [1, с. 479].

В свою очередь, в таких международных проектах, как EuroTermBank, IATE, TERMIUM и др., гармонизация терминологий является частью технологического процесса и регулируется стандартом ISO 860, который предполагает, в первую очередь, анализ предметных областей на концептуальном уровне и гармонизацию понятий и их определений. Для этого используются такие универсальные классификационные системы, как Lenoch и Eurovoc, объединяющие в подклассы понятия многих предметных областей. После гармонизации понятий и определений происходит гармонизация самих терминов с учетом нескольких используемых языков и предметных областей. Эту работу осуществляют как специалисты в области языка -переводчики, терминологи, лексикографы, так и эксперты предметных областей. На разных этапах используются компьютерные инструменты локального и общего доступа, включающие системы переводческой памяти, выравнивания, разметки, извлечения терминов. Разработан формат обмена терминологическими данными между участниками проекта - MARTIF (Machine-readable terminology interchange format) - и стандарт записи терминологических данных: ISO 12200, ISO 12620 [10].

На основе ТБД создаются ресурсы с новыми возможностями для индивидуальных пользователей, ведущих терминологическую работу. Например, платформа TaaS, использующая классификационную систему понятий EuroTermBank, позволяет извлекать термины из специализированных корпусов текстов и, что отличает этот инструмент от других, получать варианты перевода извлеченных терминов на указанный язык (один из 24 официальных языков Евросоюза). В качестве источников для получения переводных эквивалентов платформа использует ТБД, автоматически извлеченные термины сопоставимых и параллельных корпусов в сети-интернет (тексты Wikipedia, новостные интернет-ресурсы в формате RSS), а также коллекции терминов, созданные пользователями данной платформы. Пользователи имеют возможность корректировать результат обработки текстов и сохранять его, делая доступным для других пользователей и попутно уточняя на терминологическом уровне используемую классификационную систему. Поиск терминов в корпусе можно ограничить одной предметной областью, соответствующей одному из классов общей классификационной системы [12].

Для незарегистрированных пользователей есть возможность тестирования платформы при помощи демо-версии (Look up), которая позволяет загрузить текст, не превышающий объем в 2000 знаков, произвести первичное извлечение терминоподобных элементов и при наведении курсора на каждый выделенный программой элемент получить список вариантов перевода. Далее пользователь имеет возможность выбрать в специальном меню какой-либо класс или подкласс общей классификационной системы данной платформы и произвести извлечение терминов ещё раз, то есть ограничить условия поиска. Тестирование платформы по предметной области "Информационные технологии" на английском, немецком и латышском языках, проведенное самими разработчиками, показало точность извлечения пар терминов порядка 50% [12]. Возможность коллективной работы пользователей по развитию данной системы дает ей хорошую перспективу уточнения и совершенствования.

Подводя итог, можно сказать, что опыт международных проектов может быть полезен для исследователей и лексикографов локального уровня с методической точки зрения, в целом же этот этап создания словарных ресурсов по-прежнему требует большой аналитической работы специалистов -филологов и поддержки со стороны экспертов предметных областей. Вместе с тем развитие информационных технологий, применимых к словарному делу, обеспечивает человека «программами -помощниками», которые уже позволили автоматизировать некоторые лексикографические процедуры и говорить о тенденции к максимальной автоматизации процесса получения словаря из корпуса.

Список использованной литературы: 1. Беляева Л.Н. Исследование параллельных корпусов текстов в процессе создания и ведения переводных словарей // Новые технологии в образовательном пространстве родного и иностранного языка. М-лы V международной научно-практ. конференции. Пермь, 2013. c. 35-41.

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ»

№9/2015

ISSN 2410-700Х

2. Берков В.П. Двуязычная лексикография: учебник / В. П. Берков. - 2-е изд., перераб. и доп. - М.: Астрель: АСТ: Транзиткнига, 2004. 237 с.

3. Гринев-Гриневич С.В. Введение в терминографию. Как просто и легко составить словарь. Учебное пособие. - 3-е изд., доп. - М., 2009. 224 с.

4. Atkins B.T. Sue, Rundell M. The Oxford Guide to Practical Lexicography. Oxford, 2008. 553 p.

5. Declerk T., Gromann D., Terminology Harmonization in Industry Classification Standards // Proceedings of CHAT 2012. The 2nd Workshop on the Creation, Harmonization and Application of Terminology Resources / ed. by T. Gornostay, Co-located with TKE 2012. Madrid, 2012. Pp. 19-26

6. Goeuriot L., Morin E., Daille B. Compilation of Specialized Comparable Corpora in French and Japanese // Proceedings of the 2nd Workshop on Building and Using Comparable Corpora. Suntec, 2009. Pp. 55-63.

7. McEnery A.M., Xiao Z. Parallel and comparable corpora: What are they up to? [Электронный ресурс] // http://eprints.lancs.ac.uk [сайт] URL: http://eprints.lancs.ac.uk/59/1/corpora_and_translation.pdf (дата обращения 12.03.2015)

8. Sanz Vincente M.L. Searching for patterns in the transfer of multiword units: a corpus-based contrastive study on secondary term formation // Proceedings of CHAT 2012. The 2nd Workshop on the Creation, Harmonization and Application of Terminology Resources / ed. by T. Gornostay, Co-located with TKE 2012. Madrid, 2012. Pp. 11-18.

9. Sharoff S. Beyond Translation Memories: finding similar documents in comparable corpora [Электронный ресурс] // http://corpus.leeds.ac.uk [сайт] URL: http://corpus.leeds.ac.uk/serge/publications/2012-TC.pdf (дата обращения 12.03.2015).

10. Towards Consolidation of European Terminology Resources. Experience Recommendations from Euro TermBank Project / ed. by: S. Rirdance, A. Vasiljevs. Riga, 2006. 123 p.

11. TTC Project: Terminology Extraction, Translation Tools and Comparable Corpora [Электронный ресурс] // www.ttc-project.eu [сайт] URL: http://www.ttc-project.eu/about-ttc/concept-and-objectives (дата обращения 25.07.2015).

12.Vasiljevs A., Pinnis M., Gornostay T. Service Model for Semi-Automatic Generation of Multilingual Terminology Resources // Proceedings of the 11th Conference on Terminology and Knowledge Engineering. Berlin, 2014. Pp. 67-77.

© Т.Л. Джепа, 2015

УДК 80

Ильина Марина Сергеевна

кандидат педагогических наук, ст. преподаватель, Хузина Екатерина Александровна, кандидат филологических наук, доцент НЧИ фГАОУ ВПО «Казанский (Приволжский) федеральный университет,

г.Наб.Челны, Татарстан E-mail:steelmar@yandex.ru, eka5551@rambler.ru

ПОНЯТИЕ «ПЕРЕВОД» И ОСНОВНЫЕ ВОПРОСЫ СОВРЕМЕННОЙ ТЕОРИИ ПЕРЕВОДА

Аннотация

В статье приводятся основные понятия термина «перевод», обосновывается его актуальность и рассматриваются виды перевода.

i Надоели баннеры? Вы всегда можете отключить рекламу.