Научная статья на тему 'Изучение синтаксических модификаций идиом немецкого языка на основе корпусных данных1'

Изучение синтаксических модификаций идиом немецкого языка на основе корпусных данных1 Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
146
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / ФРАЗЕОГРАФИЯ / МОДИФИКАЦИИ ИДИОМ / CORPUS LINGUISTICS / PHRASEOGRAPHY / MODIFICATIONS OF IDIOMATIC EXPRESSIONS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кротова Е.Б.

В статье рассматривается корпусный подход к изучению модификаций идиоматических выражений в немецком языке. Анализируется только одна группа фразеологических единиц, а именно: идиомы, которые характеризуются высокой степенью идиоматичности и стабильности. Для идиом характерна неполная парадигма: некоторые модификации, допустимые для свободных словосочетаний, недопустимы для идиом. В то же время некоторые идиомы могут нарушать синтаксические ограничения, существующие для неидиоматических выражений. Несмотря на высокую степень идиоматичности, идиомы подвергаются разным модификациям (морфологическим, лексическим, лексико-синтаксическим и синтаксическим). Даже если идиомы обладают сопоставимой структурой (глагол плюс предложная группа), перечни допустимых для них модификаций могут значительно отличаться друг от друга. Это приводит к тому, что фразеографу необходимо составлять отдельно для каждой идиомы профиль допустимых модификаций, так как не представляется возможным делать обобщения. В идеале все модификации должны снабжаться соответствующими примерами употребления, полученными из корпусов. Такие словарные статьи, однако, были бы слишком объемными для печатного словаря и подходят только для электронных ресурсов. Не все идиоматические выражения частотны, особенно в письменной речи, поэтому исследователю необходимо пользоваться крупными текстовыми корпусами, чтобы получить как можно больше примеров употребления рассматриваемой идиомы. Для исследования модификаций идиом автор пользуется самым большим корпусом немецкого языка Deutsches Referenzkorpus (DeReKo), содержащим более 42 млрд токенов. Он является несбалансированным и состоит приблизительно на 95 % из публицистики. Тем не менее тот факт, что данный корпус является крупным и с его помощью можно получить тысячи примеров употребления идиомы в современных текстах, перевешивает его недостатки. Автором была создана программа (на языке программирования Python), получающая информацию об употреблении идиом и их допустимых модификациях на материале корпусных данных DeReKo. Помимо этого, программа обобщает полученные данные в форме графиков. В статье подробнее рассматриваются возможности программы по получению информации об употреблении идиом в речи, а также каким образом полученные данные могут упростить работу фразеографа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CORPUS-DRIVEN ANALYSISOF IDIOMS’ SYNTACTIC MODIFICATIONS

This paper deals with corpus approaches to the study of modifications of idiomatic expressions in German. It concentrates on one group of phraseological units, the socalled idioms, which are characterized by a high degree of idiomaticity and stability. Idioms can possess an incomplete paradigm: It means that some modifications, which are possible in free phrases, are not always acceptable in idioms. On the contrary, some idioms can violate syntactic norms existing for non-idiomatic expressions. In spite of a high degree of stability, idioms still undergo different modifications (morphological, lexical, lexical-syntactic and syntactic ones). Even if idioms possess comparable structures (verb plus prepositional phrase), they all have their own profile of modifications. It means that for every idiom a phraseologist should write down its modification profile, because it is not possible to generalize. Ideally, all modifications should be provided with corresponding text examples. Due to lack of space such dictionary articles would only be possible in electronic resources, but not in a printed dictionary. Not all idiomatic expressions are frequent, especially in the written speech. That is why if researchers want to get many text examples of one particular phraseme, they should make use of big corpora. For the study of idioms’ modifications the author has chosen the biggest corpus of German language is Deutsches Referenzkorpus (DeReKo) that contains more than 42 billion tokens, but it is unbalanced and comprises up to 95 % of newspaper texts. But still the fact, that the corpus is big and we can find hundreds of phraseme’s occurrences in modern texts outweighs its unbalance. A Python-program has been created that obtains information about the usage of idioms and about their possible modifications from DeReKo. It also summarises the data in the form of graphs. The article will look further into the program opportunities to acquire information about idiom usage and in what ways such data can facilitate the work of a phraseologist.

Текст научной работы на тему «Изучение синтаксических модификаций идиом немецкого языка на основе корпусных данных1»

УДК 811.112.2

Е. Б. Кротова

кандидат филологических наук;

младший научный сотрудник сектора германских языков Института языкознания РАН; e-maiL: eLena_krotova@inbox.ru

ИЗУЧЕНИЕ СИНТАКСИЧЕСКИХ МОДИФИКАЦИЙ ИДИОМ НЕМЕЦКОГО ЯЗЫКА НА ОСНОВЕ КОРПУСНЫХ ДАННЫХ1

В статье рассматривается корпусный подход к изучению модификаций идиоматических выражений в немецком языке. Анализируется только одна группа фразеологических единиц, а именно: идиомы, которые характеризуются высокой степенью идиоматичности и стабильности. Для идиом характерна неполная парадигма: некоторые модификации, допустимые для свободных словосочетаний, недопустимы для идиом. В то же время некоторые идиомы могут нарушать синтаксические ограничения, существующие для неидиоматических выражений.

Несмотря на высокую степень идиоматичности, идиомы подвергаются разным модификациям (морфологическим, лексическим, лексико-синтаксическим и синтаксическим). Даже если идиомы обладают сопоставимой структурой (глагол плюс предложная группа), перечни допустимых для них модификаций могут значительно отличаться друг от друга. Это приводит к тому, что фразеографу необходимо составлять отдельно для каждой идиомы профиль допустимых модификаций, так как не представляется возможным делать обобщения. В идеале все модификации должны снабжаться соответствующими примерами употребления, полученными из корпусов. Такие словарные статьи, однако, были бы слишком объемными для печатного словаря и подходят только для электронных ресурсов.

Не все идиоматические выражения частотны, особенно в письменной речи, поэтому исследователю необходимо пользоваться крупными текстовыми корпусами, чтобы получить как можно больше примеров употребления рассматриваемой идиомы.

Для исследования модификаций идиом автор пользуется самым большим корпусом немецкого языка Deutsches Referenzkorpus (DeReKo), содержащим более 42 млрд токенов. Он является несбалансированным и состоит приблизительно на 95 % из публицистики. Тем не менее тот факт, что данный корпус является крупным и с его помощью можно получить тысячи примеров употребления идиомы в современных текстах, перевешивает его недостатки.

Автором была создана программа (на языке программирования Python), получающая информацию об употреблении идиом и их допустимых модификациях на материале корпусных данных DeReKo. Помимо этого, программа обобщает полученные данные в форме графиков. В статье подробнее рассматриваются возможности программы по получению информации об употреблении идиом в речи, а также каким образом полученные данные могут упростить работу фразеографа.

Ключевые слова: корпусная лингвистика; фразеография; модификации идиом.

1 Статья подготовлена при поддержке РФФИ, грант 18-012-00335.

E. B. Krotova

PhD (PhiLoLogy), Junior Research FeLLow of Department of Germanic Languages, Institute of Linguistics of Russian Academy of Sciences; e-mail: elena_krotova@inbox.ru

CORPUS-DRIVEN ANALYSIS OF IDIOMS' SYNTACTIC MODIFICATIONS

This paper deals with corpus approaches to the study of modifications of idiomatic expressions in German. It concentrates on one group of phraseological units, the so-caUed idioms, which are characterized by a high degree of idiomaticity and stability. Idioms can possess an incomplete paradigm: It means that some modifications, which are possible in free phrases, are not always acceptable in idioms. On the contrary, some idioms can violate syntactic norms existing for non-idiomatic expressions. In spite of a high degree of stability, idioms still undergo different modifications (morphological, lexical, lexical-syntactic and syntactic ones).

Even if idioms possess comparable structures (verb plus prepositional phrase), they aU have their own profile of modifications. It means that for every idiom a phraseologist should write down its modification profile, because it is not possible to generalize. IdeaHy, aU modifications should be provided with corresponding text examples. Due to lack of space such dictionary articles would only be possible in electronic resources, but not in a printed dictionary.

Not aU idiomatic expressions are frequent, especiaHy in the written speech. That is why if researchers want to get many text examples of one particular phraseme, they should make use of big corpora.

For the study of idioms' modifications the author has chosen the biggest corpus of German language is Deutsches Referenzkorpus (DeReKo) that contains more than 42 biHion tokens, but it is unbalanced and comprises up to 95 % of newspaper texts. But stiH the fact, that the corpus is big and we can find hundreds of phraseme's occurrences in modern texts outweighs its unbalance.

A Python-program has been created that obtains information about the usage of idioms and about their possible modifications from DeReKo. It also summarises the data in the form of graphs. The article wiU look further into the program opportunities to acquire information about idiom usage and in what ways such data can facilitate the work of a phraseologist.

Key words: corpus linguistics; phraseography; modifications of idiomatic expressions.

Введение

Создание словарных статей для фразеологических единиц, особенно идиом1, является непростой задачей для фразеографа по ряду при-

1 В данной работе под идиомами понимаются «сверхсловные образования, которым свойственна высокая степень идиоматичности и устойчивости» [Баранов, Добровольский 2008, с. 57].

чин. Идиомы обладают сложной семантической структурой и синтаксическими особенностями, которые влияют на их употребление. Только имея подробное описание семантики и синтаксического поведения идиомы, не-носитель языка сможет верно употребить идиому в речи.

До появления крупных электронных корпусов составители фразеологических словарей опирались во многом на собственную языковую интуицию. Теперь же стало возможным верифицировать предоставляемую в словаре информацию и дополнить ее с помощью корпусных данных. В крупных корпусах можно найти тысячи примеров употребления отдельной идиомы. Этого количества примеров достаточно, чтобы подробно описать употребление идиомы в письменной речи. Проблема, однако, состоит в том, что анализ такого большого количества данных отнимет у лингвиста слишком много времени, особенно если речь идет не о детальном анализе одной идиомы, а о составлении сотен статей для фразеологического словаря. Сократить время на мануальную обработку данных можно было бы с помощью компьютерной программы, которая проанализирует полученную из корпуса информацию, найдет различные модификации идиомы и сделает обобщения. В статье речь пойдет о создании такой программы для частотных идиом немецкого языка, а также будут представлены ее первые результаты.

Модификации идиом

Идиомы обладают высокой степенью устойчивости, тем не менее они могут подвергаться различным модификациям. На рисунке 1 представлены графики1 с модификациями двух идиом немецкого языка.

Первая идиома kein Haar krümmen jmdm. - пальцем не тронуть кого-л. - в основном используется в страдательном залоге и с отрицанием, в то время как для второй идиомы auf den Grund gehen etw. - докопаться до сути чего-л. - такие модификации нехарактерны. Вторая идиома употребляется в основном в инфинитивных конструкциях с zu, в настоящем времени и с модальными глаголами.

В данной статье в основном рассматриваются синтаксические модификации, а также временные формы, в которых может употребляться глагольный компонент идиомы. Извлеченные из корпуса данные

1 Графики получены автором с помощью созданной им программы, описываемой в статье.

представлены на графиках. Другие типы модификаций (морфологические, лексические, лексико-синтаксические) анализируются только в некоторой мере.

Рис. 1. Идиомы ein Haar krümmen jmdm., auf den Grund gehen etw.

Рис. 2. Сравнение идиомы dem Fass den Boden ausschlagen и свободного словосочетания jmdm. einen Zahn ausschlagen -выбить кому-л. зуб

В ходе исследования были проанализированы около ста идиом. Среди них минимальное количество допустимых модификаций было обнаружено только у идиомы abwarten und Tee trinken - подождем - увидим, употребляющейся в основном в приведенной форме, и идиомы dem Fass den Boden ausschlagen: Das schlägt dem Fass den Boden aus - что-л. неслыханно; что-л. переходит все границы. Эта идиома, в отличие от первой, может употребляться в разных

временных формах, хотя такие случаи редки. Глагол также может менять свою форму в презенсе. Тем не менее формы schlägt aus и ausschlägt составляют 86 % от общего числа вхождений. Справа от идиомы dem Fass den Boden ausschlagen представлен график для свободной фразы den Zahn ausschlagen, содержащей глагольный компонент идиомы.

Как можно видеть, хотя идиома редко используется в страдательном залоге, ее глагольный компонент в свободном словосочетании встречается в страдательном залоге довольно часто. Структура идиомы сама по себе не запрещает подобную модификацию, т. е. предложение Dem Fass wurde der Boden ausgeschlagen корректно с чисто грамматической точки зрения. Однако такая модификация практически не встречается в речи. Более того, свободное словосочетание den Zahn ausschlagen редко встречается в презенсе, что, возможно, имеет прагматические основания: в прототипической ситуации данная фраза описывает результат физического действия, поэтому ее употребление в прошедшем времени более вероятно. Таким образом, лексикограф должен предоставлять пользователю словаря, изучающему язык, информацию о модификациях, которым подвергается идиома, так как о них нельзя судить на основании синтаксического поведения компонентов идиомы в свободных словосочетаниях.

Методология

Для анализа полученных данных используется программа, созданная автором статьи для проводимого исследования. Полученные данные представлены на сайте bitbucket.org [Deutsche Idiomatik]. На данный момент программа получает и анализирует следующую информацию:

- временные формы и словоформы, в которых употребляется глагольный компонент идиомы (Präsens, Präteritum, Perfekt, Futur I);

- синтаксические модификации, которым подвергается идиома, такие как использование в страдательном залоге, в Konjunktiv II; вместе с модальными глаголами и в инфинитивных конструкциях с zu.

Глаголы (werden в страдательном залоге, глаголы в сослагательном наклонении, модальные глаголы) могут употребляться в любой

временной форме. Такие контексты считаются только один раз и не учитываются в подсчете временных форм. К примеру, если идиома употреблена в страдательном залоге в настоящем времени, это вхождение считается только как случай употребления идиомы в страдательном залоге и не считается как случай употребления идиомы в настоящем времени.

Также программа ищет случаи употребления идиомы с отрицанием nicht или kein. Рассмотрим пример: для идиомы jmdm. ein Armutszeugnis ausstellen: (jmd.) stellt (jmdm. mit etw. D) ein Armutszeugnis aus - кто-л. считает кого-л. некомпетентным; кто-л. считает, что кто-л. расписался в своей (полной) несостоятельности - было найдено 805 вхождений. Среди них 56 % употреблений идиомы в пре-зенсе, 14,66 %о - в перфекте, 6,58 %о - в форме причастия прошедшего времени (вспомогательные глаголы sein или haben не были найдены), 1,61 %о - в страдательном залоге, 4,98% - в сослагательном наклонении, 4,59 %о - с модальными глаголами, 1,5 0% - в инфинитивных конструкциях. Это составляет 99,72 %%. Кроме того, около 0,3 %% составляют случаи употребления в будущем времени.

Самой частотной словоформой для глагольного компонента рассматриваемой идиомы является stellt aus (28,9 %%). Идиома редко используется с отрицанием (4,59 %%). Самым частотным модальным глаголом, встречающимся с идиомой, является können (64 %% от всех вхождений с модальными глаголами).

Кроме того, анализируются токены, предшествующие именному компоненту идиомы. Например, существительному Armutszeugnis в 75 о% случаев предшествует артикль ein. Помимо этого, встречаются следующие варианты: определенный артикль das (1,49 %%), лексико-синтаксические модификации, такие как введение в структуру идиомы модификаторов solches, dieses (около 0,8 %% в каждом случае), прилагательных politisches (1,4 %%), größeres, großes (0,8 %% в каждом случае), geistiges, eigenes (0,6 %% в каждом случае). Таким образом, исследователь получает информацию о допустимых морфологических (ein или das) и лексико-синтаксических модификациях (solches, dieses, politisches, größeres, großes).

Программа также может искать предложения, содержащие вопрос, металингвистические конструкции и случаи, когда глагольный компонент используется в первом лице, что может быть полезно при

изучении случаев употребления идиомы в контекстах снятой утвер-дительности1.

Далее программа создает файлы, содержащие контексты употребления идиомы в разных временных формах и с разными модификациями. Для каждого случая создается отдельный текстовый файл, чтобы исследователь мог детально его проанализировать. Кроме того, программа обобщает полученные данные в форме графиков.

Применение в лексикографии

Результаты программы можно применять в лексикографических исследованиях следующим образом:

- писать комментарии о допустимых модификациях. Например, если идиома является отрицательно поляризованной, можно указать, в каких типах контекстов она может быть употреблена без отрицания;

- выбрать иллюстративный материал. Профили модификаций могут помочь найти примеры употребления идиомы, которые хорошо иллюстрируют ее употребление в речи и не содержат редких модификаций;

- определить форму словарного входа, получив ответ, в частности, на следующие вопросы: Должен ли модальный глагол быть частью леммы? Если да, то какой именно? Какой артикль должен быть употреблен в лемме?

Пример: den Ausschlag geben - иметь решающее значение, сыграть решающую роль.

Всего программа нашла 8 215 случаев употребления идиомы. Среди них 92 % вхождений содержат определенный артикль den. Также были найдены следующие лексико-синтаксические модификации: ввод атрибутивных модификаторов letzten (1,1 %), entscheidenden (0,54 %о).

1 У Е. В. Падучевой дается следующее объяснение данного термина: «Соединение предиката с субъектом требует от предиката (например, глагола) предикативной формы, а предикативная - финитная - форма во многих языках (в частности, в русском), выражает, по умолчанию, изъявительное наклонение, т. е. утвердительную модальность. Нужны специальные средства, чтобы эту модальность снять» [Падучева 2005]. По У. Вейнрейху, это показатели «снятой утвердительности». Подробнее тж. в [Падучева 2018].

Другие токены реже встречаются перед именным компонентом идиомы, например einen (0,23 %) и keinen (0,19 %). Должно ли отрицание быть частью леммы?

Пример 1: nicht aus dem Sinn gehen - не идти из головы (86% от общего числа вхождений содержат отрицание nicht).

Пример 2: jmdm. kein Haar krümmen - пальцем не тронуть кого-л.

В 47 %о случаев идиома употребляется в страдательном залоге, в 39 %о с отрицанием kein. Далее приводится контекст из DeReKo, в котором данная идиома употребляется без отрицания:

Wir hatten noch Respekt vor den Lehrern, den meisten jedenfalls. Selbstverständlich gab es auch Lehrer, die wir nicht mochten - trotzdem hätten wir es nie gewagt, dem Lehrer auch nur ein Haar zu krümmen. (Braunschweiger Zeitung, 02.01.2006).

Заключение

Даже если идиомы обладают схожей структурой (глагол плюс предложная группа), у них у всех свой собственный профиль модификаций. Подобные профили не могут быть выведены из семантики идиомы, из синтаксического поведения глагольного компонента идиомы или ее парафразов. В идеале каждая идиома в словаре должна снабжаться подробным описанием ее употребления в речи и допустимых модификаций с соответствующими иллюстративными примерами. Такие словарные статьи, однако, слишком объемны для печатного словаря и подходят только для электронной публикации.

Чтобы сократить объем требуемой работы, разработанная программа анализирует и обобщает полученные из корпуса текстовые данные. Планируется расширить список анализируемых идиом до нескольких тысяч. Это возможно после того, как первые результаты будут тщательно проанализированы и программа при необходимости доработана.

СПИСОК ЛИТЕРАТУРЫ

Баранов А. Н., Добровольский Д. О. Аспекты теории фразеологии. М. : Знак, 2008. 656 с.

Добровольский Д. О. Немецко-русский словарь живых идиом. М. : Метатекст, 1997. 201 с.

Падучева Е. В. Эффекты снятой утвердительности: глобальное отрицание // Русский язык в научном освещении. 2005. № 2 (10). С. 17-42.

Падучева Е. В. Снятая утвердительность и неверидикативность. Компьютерная лингвистика и интеллектуальные технологии : Материалы Ежегодной междунар. конф. «Диалог» (г. Москва, 30 мая - 2 июня 2018 г.). 2018. Вып. 17 (24). С. 533-546. URL : www.dialog-21.ru/media/4323/ paduchevaev.pdf.

Райхштейн А. Д. Сопоставительный анализ немецкой и русской фразеологии. М. : Высшая школа, 1980. 142 с.

Deutsche Idiomatik. URL : bitbucket.org/elena_krotova/deutsche_idiomatik

Deutsches Referenzkorpus. URL : cosmas2.ids-mannheim.de/cosmas2-web/.

Dobrovolskij D. Idiom-Modifikationen aus kognitiver Perspektive // Kamper H., Eichinger L. M. (Hrsg.) Sprache - Kognition - Kultur. Sprache zwischen mentaler Struktur und kultureller Prägung. Berlin / New York : de Gruyter, 2008. P. 302-322.

i Надоели баннеры? Вы всегда можете отключить рекламу.