Научная статья на тему 'Корпусный анализ в исследовании фразеологии: достоинства и недостатки'

Корпусный анализ в исследовании фразеологии: достоинства и недостатки Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
523
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корпусный анализ в исследовании фразеологии: достоинства и недостатки»

Вестник МГУ. Сер. 19. Лингвистика и межкультурная коммуникация. 2008. № 1

И.С. Парина

КОРПУСНЫЙ АНАЛИЗ В ИССЛЕДОВАНИИ ФРАЗЕОЛОГИИ:

ДОСТОИНСТВА И НЕДОСТАТКИ

Первый электронный текстовый корпус, т.е. массив текстов, предназначенный для компьютерной обработки, был создан в 60-е гг. в Брауновском университете (США). Его составители, Г. Кучера и Н. Френсис, тщательно отбирали тексты для того, чтобы корпус мог по праву считаться представительным для американского варианта английского языка середины ХХ в. (Рыков, 1999). Возможность использования компьютерных программ значительно облегчила проведение статистических расчетов, а четкие критерии отбора материала в определенной степени гарантировали достоверность и проверяемость получаемых результатов. Поэтому Брауновский корпус достаточно быстро стал популярным объектом различных исследований и образцом для создания аналогичных корпусов текстов на других языках.

В настоящее время корпусный анализ — один из основных методов решения разнообразных лингвистических задач. Так, возможности его применения в области фразеологии включают в себя выявление фразеологизмов1, наиболее распространенных в речи носителей языка (Hallsteindottir et al., 2006), определение типичных контекстов употребления тех или иных фразеологизмов (Steyer, 2003), изучение различных особенностей семантики фразеологизмов, в том числе влияния внутренней формы идиом2 на их поведение в тексте (Филипенко, 2004; Hümmer, 2006), а также подбор наиболее адекватных эквивалентов фразеологизма для двуязычных словарей (Козеренко, 2006; Filipenko, 2002; Dobrovol'skij, Filipenko, 2003; Stathi, 2006) и нахождение иллюстративных примеров для словарных статей (Dobrovol'skij, 1999).

Итак, корпусный анализ уже зарекомендовал себя как метод лингвистических исследований и обнаруживает ряд видимых достоинств, которые подробнее рассмотрим в настоящей статье. Тем не менее очевидно, что, как и всякий другой метод, он не позволяет получить абсолютно достоверный и не нуждающийся в дальнейшей обработке результат. В статье мы также рассмотрим те трудности, которые могут возникнуть при использовании корпусного анализа как в масштабных, так и в небольших исследованиях и которые стали нам очевидны при изучении немецких идиом семантического поля "речевая деятельность".

1. Достоинства корпусного анализа. Основным достоинством корпусного анализа является, помимо упомянутого ранее разнообразия сфер применения, возможность ориентироваться на есте-

ственные, не возникшие в искусственной ситуации эксперимента и не сконструированные ad hoc самим исследователем высказывания (Steyer, 2003; Hümmer, 2006).

Кроме того, наличие материала, в равной степени доступного различным группам исследователей, позволяет сравнивать и перепроверять полученные результаты (Hümmer, 2006).

Немаловажно также и то, что корпусный анализ является одним из немногих методов, которые могут применяться лингвистом как "консультативно", т.е. для подтверждения или уточнения выдвинутой предварительно гипотезы, так и "аналитически", т.е. для получения новой информации о языковых единицах (Sailer, 2007). Таким образом, его использование не требует предварительно разработанной теории. Ориентируясь исключительно на конкретные тексты, исследователь может получить результат, не соответствующий его личной языковой интуиции, т.е. более объективный результат (Hallsteindottir, Far0, 2006).

Именно по этой причине корпусный анализ оказывается особенно полезным при исследовании семантики идиом, например при выявлении различий между идиомами, которые, исходя из приводимых в словарях эквивалентов или толкований, следует считать синонимами. В качестве примера рассмотрим две немецкие идиомы семантического поля "речевая деятельность" — Blech reden и Mist reden. Соответствующие статьи в немецко-русском фразеологическом словаре (Бинович, Гришин, 1975) не позволяют обнаружить никаких различий в их значениях, за исключением стилистической окраски: Blech reden объясняется как "(разг. фам.) городить, болтать вздор; пороть чушь", а Mist reden — как "(разг.) городить, пороть чушь, нести околесицу". Если, однако, исходить из того, что образная основа является частью значения идиомы (Добровольский, 1996), можно предположить, что эти идиомы не являются абсолютными синонимами, поскольку отличаются друг от друга по внутренней форме, и, следовательно, должны обнаруживать различия в употреблении.

Анализ случаев употребления указанных идиом3 свидетельствует о том, что, во-первых, Mist reden скорее заслуживает пометку фам, так как встречается в стилистически более сниженных контекстах (1), чем идиома Blech reden, которая используется даже в названии кампании против аварий на дорогах (2):

(1) Dann sieht er, wie Politiker, die fast alle aus dem Westen kommen, ihre Rezepte gegen die Arbeitslosigkeit bewerben. Denen motzt er ins flimmernde Gesicht: "Ihr redet doch noch größeren Mist als die Kommunisten". Es wird wieder viel geschimpft im Osten (Die ZEIT. 17/2002). (Затем он наблюдает, как политики, в основном из бывшей ФРГ, предлагают свои рецепты от безработицы. И он кричит в их мелькающие лица: "Да вы несете ахинею похлеще коммунистов". В Восточной Германии опять сплошная брань.)

(2) ...Blech zeigen und Blech reden hieß das Motto: Betont lakonisch wurde zu den Bildern verknäuelter Autos die Statistik der Toten und Schwerverletzten verlesen (Berliner Zeitung. 11.01.1999). (Под девизом "Пустой звук и скрежет железа" к фотографиям разбитых всмятку машин с подчеркнутой лаконичностью зачитывалась статистика погибших и тяжелораненых.)

Во-вторых, Blech reden прежде всего концентрирует внимание на раздражающем воздействии бессмысленных речей на слушателя (что, видимо, связано с лежащим в основе идиомы образом металлических побрякушек) (3), а Mist reden, скорее, указывает на крайне низкую оценку слушателем слов говорящего (4):

(3) Wenn man dieser Weiberbande nur zehn Minuten zuhört, weiß man hinterher nicht mehr, welcher Stuß der schlimmste war. Sie reden pausenlos Blech (Berneburger C. Wasserfarben). (Если всего минут десять послушать эту банду баб, услышишь столько глупостей — одна хуже другой. Они непрерывно болтают языком.)

(4) Ihre Musik war und ist nicht wichtig, das ist einfach Mist. Glen Matlock, ein Gründungsmitglied der Sex Pistols, behauptet, Sie hätten die Band als Sklavenhalter schamlos ausgebeutet und redeten sehr viel Mist. Natürlich (Die ZEIT. 48/2001). (Их музыка — это не важно и никогда не было важным, это просто хлам. Глен Мэтлок, один из основателей Sex Pistols, утверждает, что они бесстыдно эксплуатировали группу, как рабовладельцы, и при этом несли околесицу. Еще бы.)

Получаемая с помощью корпусного анализа информация о стилистической окраске фразеологизмов и особенностях их употребления важна потому, что позволяет подобрать для них соответствия в другом языке, часто более адекватные, чем те, которые даны в словарях. Так, упомянутые ранее переводы идиом Blech reden и Mist reden из словаря Биновича, Гришина (1975) передают их значение лишь в общих чертах. Однако, для того чтобы указать на различия между этими идиомами, было бы удобнее подобрать для каждой из них свои эквиваленты в русском языке, по возможности имеющие сходную внутреннюю форму. Так, на роль словарного эквивалента для идиомы Blech reden, вероятно, более всего подходят болтать языком — "(прост.) 1. слишком много говорить; говорить вздор; 2. пустословить" (Фёдоров, 2001) и балаболить — "стучать, бренчать; молоть вздор, пустословить, пусто-мельничать" (Даль, 2001). Русскоязычной идиомой, наиболее близкой к Mist reden по значению и стилистической окраске, пожалуй, является пороть ахинею — "(прост. презр.) говорить, писать глупости" (Фёдоров, 2001).

Итак, с помощью корпусного анализа может быть получена информация о различных особенностях значения идиом, отражающихся на их поведении в тексте.

Корпусный анализ также позволяет находить новые фразеологизмы, встречающиеся в речи носителей языка, но не зафиксированные в словарях, определять, что форма той или иной идиомы отличается от указанной в словарях (Филипенко, 2004), или выявлять из множества данных в словаре вариантов идиомы наиболее употребительные.

В частности, в немецко-русском фразеологическом словаре (Бинович, Гришин, 1975) приведены 3 идиомы, аналогичные по форме, которые переводятся как "проболтаться, сболтнуть лишнее": sich (D) den Mund verbrennen, sich (D) das Maul verbrennen, sich (D) die Schnauze verbrennen. В другом словаре (Бинович, 1956) также указана идиома sich (D) die Zunge verbrennen с тем же значением. Словарь Дуден (Duden, 2002) содержит только два варианта — sich (D) den Mund/(derb) das Maul verbrennen. Анализ корпусов показал, что наиболее употребительной является идиома sich (D) den Mund verbrennen. Словосочетание sich (D) die Zunge verbrennen в большинстве случаев употребляется в прямом значении (и, вероятно, поэтому не зафиксировано во фразеологических словарях (Duden, 2002; Бинович, Гришин, 1975)), т.е. в контекстах, где речь идет о реальной ситуации, в который субъект обжегся, например, горячим кофе. Sich (D) das Maul verbrennen используется как идиома, однако в корпусах встречается сравнительно редко. Примеров же употребления sich (D) die Schnauze verbrennen не было найдено совсем. Однако это еще не позволяет утверждать, что данная идиома неупотребительна.

Здесь следует отметить, что полученные с помощью корпусного анализа результаты носят лишь дескриптивный, но не прескрип-тивный характер. Иными словами, они лишь указывают на определенные тенденции, которые не следует трактовать как правила, поскольку, несмотря на большой объем, корпусы включают в себя далеко не все тексты, производимые носителями языка.

Конечно, исследования семантики фразеологизмов и поиск их вариантов осуществлялись задолго до появления электронных корпусов, но опирались на ограниченный текстовый материал. Основное достоинство корпусов на машинном носителе состоит в том, что исследователь благодаря им может иметь дело с такими объемами материала, обработать которые традиционным способом физически невозможно. "Ручной" поиск случаев употребления фразеологизмов в литературе и публицистике мог занимать огромное количество времени, поскольку, как показывают статистические исследования, идиомы в письменной речи встречаются редко. С этой особенностью идиом связаны и определенные сложности при анализе электронных корпусов.

2. Недостатки корпусного анализа. Неимоверный интерес, который Брауновский корпус вызвал сразу же после своего появления, во многом объяснялся тем, что исследователи, имея в своем

распоряжении столь большой объем материала — около 1 млн слов (Рыков, 1999), — надеялись на получение с его помощью достоверных данных. Современные корпусы по объему существенно превосходят Брауновский. Так, крупнейший корпус немецкоязычных текстов — корпус Института немецкого языка (IDS) в г. Ман-гейме (http://www.ids-mannheim.de/kt/projekte/korpora) — содержит около 2 млрд слов, а часть корпуса, доступная в сети Интернет, — около 1 млрд. Корпус DWDS (www.dwds.de) содержит около 1,2 млрд словоформ и примерно 100 млн в свободном доступе. Казалось бы, из столь огромной базы данных можно без труда выделить множество случаев употребления интересующих исследователя языковых единиц. Однако это не всегда так.

Статистика показывает, что многие идиомы (хорошо известные носителям языка, о чем свидетельствуют опросы информантов (см., например, Cowie, 2003)) в корпусах европейских языков встречаются крайне редко — реже, чем 1 раз на миллион слов (Colson, 2003). По мнению Р. Мун, для получения достаточной информации о пословицах и идиомах используемый корпус должен содержать не менее 50 млн слов, а оптимальным она считает объем в 100 млн слов (Moon, 2007). Тем не менее не исключено, что даже в корпусе большего объема та или иная идиома не будет найдена.

Так, в корпусе DWDS в сентябре 2007 г. нами не было найдено ни одного случая употребления идиомы Wie sag ich es meinem Kinde ("wie bringe ich jmdm., einer bestimmten Person diese heikle o.ä. Sache am geschicktesten bei?" (Duden, 2002). ("Как же мне объяснить этому человеку такую непростую вещь?")), хотя в словаре Дуден нет никаких указаний на то, что она устарела или малоупотребительна.

Трудности могут возникнуть не только при полном отсутствии примеров употребления идиомы, но и если число примеров слишком мало для того, чтобы на их основе делать достоверные выводы.

Например, в корпусе DWDS-Kernkorpus идиома seinen Senf dazugeben (ugs.) ("sich zu etw. äußern, ohne gefragt zu sein" (Duden, 2002) ("высказывать свое мнение, когда не спрашивают")) встречается лишь 3 раза, а идиома Klartext reden ("unverhüllt seine Meinung zum Ausdruck bringen, ganz offen sprechen" (Duden, 2002) ("говорить начистоту")) лишь 6 раз.

Один из возможных выходов из подобной ситуации — поиск сочетания слов не в текстовом корпусе, а в сети Интернет (Colson, 2003). Однако полученные подобным образом результаты требуют еще более тщательного анализа и сортировки, чем результаты корпусного анализа.

Недостатком корпусного анализа является еще и то, что его результаты напрямую зависят от характера запроса, т.е. какие-то варианты идиомы не могут быть найдены только из-за того, что не были учтены при его формулировании (Hallsteindóttir et al., 2006).

Статистика употребительности той или иной единицы также может быть искажена из-за того, что, будучи достаточно редкой, она встречается несколько раз подряд в одном и том же тексте (Moon, 2007) или исследователь ищет контексты употребления идиомы, а находит список контекстов с омонимичным ей свободным сочетанием слов (Hümmer, 2006).

Однако из всего вышесказанного лишь следует, что анализ корпусов, как и любой другой метод, требует тщательной обработки результатов.

Итак, несмотря на указанные недостатки, корпусный анализ обладает очевидным преимуществом перед другими эмпирическими методами. Он представляет собой одну из немногих методик, позволяющих исследователю действовать индуктивно, т.е. не искать подтверждения заранее выстроенным гипотезам (для чего этот метод, впрочем, также может быть полезен), а выявлять определенные закономерности в "поведении" той или иной языковой единицы, изучая реальные контексты ее употребления. Учитывая большой объем анализируемого материала, исследователь может надеяться на объективность получаемой информации, что, однако, не избавляет от необходимости ее тщательного анализа и перепроверки.

Примечания

1 Под фразеологизмами в данной работе понимаются устойчивые словесные комплексы различных типов (Burger et al., 2007).

2 Под идиомой мы понимаем единицу, относящуюся к центральному классу фразеологизмов; идиомы отличаются наибольшей степенью нерегулярности (Филипенко, 2004; Dobrovol'skij, 1995).

3 В исследовании использовался корпус DWDS (www.dwds.de) и корпус "Wortschatz" Лейпцигского университета (www.wortschatz.uni-leipzig.de). При этом предпочтение отдавалось текстам, датированным 1970 г. и более поздними годами.

Литература

Добровольский Д.О. Образная составляющая в семантике идиом // Вопр. языкознания. 1996. № 1.

Козеренко А.Д. Идиомы семантического поля важность-неважность в русском языке // Компьютерная лингвистика и интеллектуальные технологии: Тр. Междунар. конф. "Диалог 2006" (Бекасово, 31 мая — 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А.С. Нариньяни, В.П. Селлегея. М., 2006.

Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан. Тверь, 1999.

Филипенко Т.В. Использование методов корпусной лингвистики в анализе семантики идиом (на материале немецкого языка) // Вестн. Моск. ун-та. Сер. 19. Лингвистика и межкультурная коммуникация. 2004. № 1.

Burger H., Dobrovol'skij D., Kühn P., Norrick N.R. Phraseologie: Objektbereich, Terminologie und Forschungsschwerpunkte // Phraseologie/Phraseology. Ein internationales Handbuch der zeitgenössischen Forschung / An International Handbook of Contemporary Research / Hrsg. v. H. Burger u.a. Berlin; N.Y., 2007.

Colson J.-P. Corpus Liguistics and Phraseological Statistics: a Few Hypotheses and Examples // Flut von Texten — Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik in der Phraseologie / Hrsg. v. H. Burger, A. Häcki Buhofer, G. Greciano. Baltmannsweiler, 2003.

Cowie A.P. Exploring Native-Speaker Knowledge of Phraseology: Informant Testing or Corpus Research? // Flut von Texten — Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik in der Phraseologie / Hrsg. v. H. Burger, A. Häcki Buhofer, G. Greciano. Baltmannsweiler, 2003.

Dobrovol'skij D. Kognitive Aspekte der Idiom-Semantik. Studien zum Thesaurus deutscher Idiome. Tübingen, 1995.

Dobrovol'skij D. Kontrastive Phraseologie in Theorie und Wörterbuch / Wörter in Bildern — Bilder in Wörtern. Baltmannsweiler, 1999.

Dobrovol'skij D.O., Filipenko T.V. Moderne Idiomatik: Deutsch-Russisches Wörterbuch. Lexikographisches Format und Beschreibungsprinzipien // Das Wort. Germanistisches Jahrbuch GUS. Bonn, 2003.

Filipenko T.V. Beschreibung der Idiome in einem zweisprachigen IdiomatikWörterbuch (Deutsch-Russisch) // Das Wort. Germanistisches Jahrbuch GUS. Bonn, 2002.

Hallsteindottir E., Far0 K. Neue theoretische und methodische Ansätze in der Phraseologieforschung // http://www.linguistik-online.de/27_06/einleitung.html

Hallsteindottir E., Sajankova M., Quasthoff U. Phraseologisches Optimum für Deutsch als Fremdsprache. Ein Vorschlag auf der Basis von Frequenz- und Geläufigkeitsuntersuchung // http://www.linguistik-online.de/27_06/hallsteindottir_et_al.html

Hümmer C. Semantische Besonderheiten phraseologischer Ausdrücke — Korpusbasierte Analyse // http://www.linguistik-online.de/27_06/huemmer.html

Moon R. Corpus Linguistic Approaches with English Corpora // Phraseologie/ Phraseology. Ein internationales Handbuch der zeitgenössischen Forschung / An International Handbook of Contemporary Research / Hrsg. v. H. Burger u.a. Berlin; N.Y., 2007.

Sailer M. Corpus Linguistic Approaches with German Corpora // Phraseologie/ Phraseology. Ein internationales Handbuch der zeitgenössischen Forschung / An International Handbook of Contemporary Research / Hrsg. v. H. Burger u.a. Berlin; N.Y., 2007.

Stathi K. Korpusbasierte Analyse der Semantik von Idiomen // http://www.linguistik-online.de/27_06/stathi.html

Steyer K. Korpus, Statistik, Kookkurrenz. Lässt sich Idiomatisches "berechnen"? // Flut von Texten — Vielfalt der Kulturen. Ascona 2001 zur Methodologie und Kulturspezifik in der Phraseologie / Hrsg. v. H. Burger, A. Häcki Buhofer, G. Greciano. Baltmannsweiler, 2003.

Словари

Бинович Л.Э. Немецко-русский фразеологический словарь. М., 1956.

Бинович Л.Э, Гришин Н.Н. Немецко-русский фразеологический словарь. М., 1975.

Даль В.И. Толковый словарь русского языка. Современная версия. М., 2001.

Фёдоров А.И. Фразеологический словарь русского литературного языка. М., 2001.

Duden. Redewendungen. Wörterbuch der deutschen Idiomatik. 2. Aufl., neu bearbeitete und aktualisierte. Mannheim u. a., 2002.

i Надоели баннеры? Вы всегда можете отключить рекламу.