УДК 378.14
ИСПОЛЬЗОВАНИЕ ЯЗЫКОВОГО ЛИНГВИСТИЧЕСКОГО КОРПУСА В ФОРМИРОВАНИИ ГРАММАТИЧЕСКИХ НАВЫКОВ РЕЧИ В ЯЗЫКОВОМ ВУЗЕ
© Елена Анатольевна РЯЗАНОВА
Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, г. Тамбов, Российская Федерация, аспирант, кафедра лингвистики и лингводидактики, e-mail: ryazanova-lena@mail.ru
Рассматриваются понятия «лингвистический корпус», «конкорданс», подробно описываются типы корпусов и номенклатура грамматических навыков, приводятся примеры использования лингвистического корпуса в формировании грамматического навыка.
Ключевые слова: лингвистический корпус; конкорданс; грамматические навыки; номенклатура.
По мнению Л.И. Агафоновой, в последнее время наблюдается возрастающий интерес зарубежных и отечественных исследователей к изучению теоретических и практических аспектов использования корпусных технологий как фактора повышения качества обучения иностранному языку [1]. В своем исследовании, посвященном разработке типологии заданий на формирование языковых навыков посредством лингвистического корпуса, П.В. Сысоев также приходит к аналогичному выводу [2; 3]. Основной целью обучения иностранному языку в средней общеобразовательной школе и вузе является формирование иноязычной коммуникативной компетенции во всем многообразии ее компонентов. Предполагается, что по мере постепенного перехода с одного уровня владения языком на более высокий (от А1 до С2 по общеевропейской шкале владения иностранным языком) каждый обучающийся способен понимать и вербально или письменно выстраивать свое речевое высказывание в соответствии с языковыми и культурными традициями страны изучаемого языка на более высоком уровне. В этой связи можно предположить, что соответствие речевого высказывания обучающегося языковым нормам изучаемого языка будет находиться в прямой зависимости от использования корпуса образцовых аутентичных текстов, служащих прототипами его речевого поведения в условиях реальной коммуникации. Иными словами: чем больше и лучше в процессе обучения ученик усвоит образцов речевого поведения, тем ближе к языковой норме будет его речевое высказывание. Развитие ин-
тернет-технологий значительно облегчило доступ к корпусам аутентичных текстов и позволило интенсифицировать использование лингвистического корпуса в обучении иностранному языку [4; 5].
По мнению В.П. Захарова и С.Ю. Богдановой, под лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач (ссылка на учебник данных авторов) [6].
Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:
1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно, различными исследователями и в различных целях [2; 3].
В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером)
(англ. corpus manager). Это специализированная поисковая система, включающая про-
граммные средства для поиска данных в корпусе, получения статистической информации и предоставления пользователю результатов в удобной форме [5].
Поиск в корпусе позволяет по любому слову построить конкорданс - список всех употреблений данного слова в контексте со ссылками на источник. Корпусы могут использоваться для получения разнообразных справок и статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить данные о частоте словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о совместной встречаемости лексических единиц и т. д. Представительный массив языковых данных за определенный период позволяет изучать динамику процессов изменения лексического состава языка, проводить анализ лексико-грамматических характеристик в разных жанрах и у разных авторов. Корпусы призваны служить также источником и инструментом многоаспектных лексикографических работ по подготовке разнообразных исторических и современных словарей. Данные корпусов могут быть использованы для построения и уточнения грамматик и в целях обучения языку.
Среди современных корпусов английского языка (как британского, так и американского варианта) наиболее известны Британский национальный корпус (British National Corpus - BNC), Международный корпус английского языка (International Corpus of English - ICE), лингвистический Банк английского языка (Bank of English), Корпус современного американского английского (Corpus of Contemporary American English - COCA) и др. [2; 3].
Несмотря на разнообразие корпусов, можно выделить два основных способа их деления на классы:
1) противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т. д.);
2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к
корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц.
Вообще существует большое число разных типов корпусов, что определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации. В зависимости от поставленных целей и классифицирующих признаков, можно выделить различные типы корпусов [7; 8].
Итак, по типу языковых данных корпусы делятся на письменные, устные и смешанные. В письменных корпусах устная речь не представлена (Брауновский корпус, LOB), в устных корпусах представлена только устная речь, смешанными обычно бывают национальные корпусы, представляющие бытование языка в определенный период времени (НКРЯ, BNC и др.).
По критерию параллельности корпусы делятся на одноязычные, двуязычные и многоязычные. В одноязычных корпусах противопоставляются диалекты, варианты языка. Например, такие разновидности английского языка, как английский как родной и английский как иностранный оставались за пределами научного интереса до появления новых технологий, позволивших вовлечь в контрастивный анализ существенно большее количество сопоставляемых произведений речи. Двуязычные и многоязычные корпусы объединяют тексты из одной и той же тематической области, независимо написанные на двух или нескольких языках (например, корпус материалов конференций по определенной научной проблеме, проходивших в разных странах и на разных языках). Такие корпусы помогают в работе с терминологией и часто используются переводчиками. Еще один вариант двуязычного или многоязычного корпуса - множество текстов-оригиналов, написанных на каком-либо исходном языке, и текстов-переводов этих исходных текстов на один или несколько других языков. Такой корпус предоставляет неоценимый материал для проведения сравнительно-сопоставительных исследований, для исследований по
теории перевода и для обучения переводу человека и компьютера.
По критерию «литературности» выделяются литературные, диалектные, разговорные, терминологические и смешанные корпусы.
По цели создания корпусы делятся на многоцелевые и специализированные. Многоцелевые корпусы обычно содержат тексты различных жанров (сюда относятся национальные корпусы), в то время как специализированные корпусы могут ограничиваться одним жанром или группой жанров.
Корпусы текстов могут быть классифицированы по жанрам и подразделяться на литературные, фольклорные, драматургические, публицистические и др.
Важным критерием для пользователей корпуса является его доступность. Свободно доступные корпусы позволяют в любое время в режиме онлайн иметь доступ ко всем текстам корпуса в полном объеме. В ряде случаев свободный доступ может предоставляться к части корпусных данных. В работе с коммерческими корпусами нужно покупать право его использования онлайн или копию на компакт-диске. Предварительно можно ознакомиться с аннотацией к корпусу или, возможно, даже поработать с корпусом в пробном режиме, но, как правило, не со всеми текстами, а только с небольшим по объему подкорпусом. Закрытые корпусы создаются для узко специфических целей и не предназначены для публичного использования.
По назначению выделяют исследовательские и иллюстративные корпусы. Исследовательские корпусы создаются с целью изучения различных аспектов функционирования языка. Этот тип корпусов ориентирован на широкий класс лингвистических задач. Неспецифицированность задачи требует при построении исследовательских корпусов использовать пропорциональное сужение, являющееся наиболее простым способом обеспечения репрезентативности. Как правило, такие корпусы текстов содержат от нескольких десятков миллионов до сотен миллионов словоупотреблений. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Они служат для выделения из них лингвистиче-
ских примеров, подтверждающих те или иные языковые (речевые, текстовые) факты, обнаруженные ранее иными лингвистическими приемами.
Критерий «динамичность» подразделяет корпусы на динамические и статические. Первоначально корпусы текстов создавались как статические образования, отражающие определенное временное состояние языковой системы. Статические корпусы содержат тексты какого-то небольшого временного промежутка. Типичными представителями этого вида корпусов являются авторские корпусы - коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале - например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и т. д. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динамического корпуса текстов. Динамические корпусы называют также мониторными или мониторинговыми. Цель мониторных корпусов - «складировать» постоянно растущее количество текстов в памяти компьютера. В течение заранее фиксированного промежутка времени происходит обновление и / или дополнение множества текстов корпуса. Неограниченные (постоянно развивающиеся) мониторные корпусы играют огромную роль в строении словаря, поскольку позволяют лексикографам следить за новыми словами, проникающими в язык, или за уже существующими словами, меняющими свое значение, а также за балансом их употребления в соответствии со стилем. В динамические корпусы текстов, как правило, включают письменные источники большого временного периода.
Критерий «разметка» делит корпусы на размеченные и неразмеченные. Существуют и другие термины, обозначающие это деление: индексированные и неиндексированные, аннотированные и неаннотированные, тагги-рованые и нетаггированные. В размеченном корпусе словам или предложениям присваиваются метки (тэги) в соответствии с характером разметки: морфологические, синтаксические, семантические, просодические и др.
По критерию «объем текстов» выделяют полнотекстовые и т. н. фрагментотекстовые корпусы. Как известно, Брауновский корпус и корпус Ланкастер-Осло-Берген должны были строго соответствовать определенным критериям, одним из которых была длина текста, равная 2000 слов (словоупотреблений). Очевидно, что текстов, строго соответствующих таким критериям, практически нет. Следовательно, эти корпусы являются фрагментотекстовыми. К полнотекстовым корпусам относятся некоторые корпусы текстов определенного автора, а также корпусы коротких текстов.
Фактически, корпус в его современном понимании - это всегда компьютерная база данных, и в процессе его создания естественно использование специальных процедур и программ [9; 10]. Например, токенизация, т. е. разбиение потока символов в естественном языке на отдельные значимые единицы (токены, словоформы), является необходимым условием для дальнейшей обработки естественного языка. Если бы языки обладали совершенной пунктуацией, токенизация не представляла бы сложности - даже самая простая программа могла бы разделить текст на слова, руководствуясь пробелами и знаками препинания. Но в действительности языки подобной пунктуацией не обладают, что усложняет задачу токенизации. Например, в английском языке встречаются случаи, которые не могут быть однозначно токени-зированы. Ср.: строка chap. может являться сокращенной формой слова chapter или словом chap, которое расположено в конце предложения. Строку Jan. можно рассматривать как сокращенную форму слова January либо как имя собственное, расположенное в конце предложения. В первом случае точка должна быть отнесена к тому же токену, что и слово, а во втором случае она должна быть выделена в отдельный тэг. Вместе с тем нельзя не заметить, что подобные трудности весьма ограничены, и многие приложения, обрабатывающие текст, часто игнорируют их (например, не учитывают аббревиатуры и сложные слова), либо обрабатывают их с помощью отдельного алгоритма.
Другая специфическая задача морфологического анализа - это лемматизация, т. е. процесс образования первоначальной формы слова, исходя из других его словоформ. Во
многих языках слово может встречаться в нескольких формах с различными флексиями. Например, английский глагол walk может быть представлен следующими формами: walk, walked, walks, walking. Базовая форма walk, зафиксированная в словаре, называется леммой слова. Лемматизация представляет собой процесс группировки различных флективных форм одного слова таким образом, чтобы при анализе они обрабатывались как одно слово.
Процесс, несколько отличный от лемма-тизации, называется стеммингом, он состоит в нахождении стема (основы) слова. Разница заключается в том, что стеммер обрабатывает отдельное слово без знания контекста и, таким образом, не может дифференцировать слова, которые имеют разные значения в силу отнесенности к разным частям речи. Тем не менее, стеммеры обычно более просты для реализации и быстрее обрабатывают данные, а более низкая точность их работы может не иметь решающего значения для многих приложений. Например, токену better соответствует лемма good, но это опускается при стемминге. Лемма walk является базовой формой для токена walking, и это соответствие будет обнаружено как при стемминге, так и при лемматизации.
Лемматизация связана с идентификацией частей речи и включает в себя сокращение слов из корпуса до соответствующих им лексем. Именно лемматизация позволяет исследователю выделять и изучать все варианты отдельной лексемы без необходимости введения всех возможных вариантов. Рассмотрим пример работы морфологического анализатора с английским предложением All women were walking in the streets. Токены (словоформы) представлены слева в скобках < >, звездочка * показывает, что слово в тексте начинается с заглавной буквы. Под каждым токеном располагается лемма (лексема) и приводится морфологический разбор. Например, токен were относится к лемме be, и его морфологические характеристики - глагол, прошедшее время, спрягаемый; токен streets относится к лемме street, и его морфологические характеристики - существительное, нарицательное, ед. числа и т. д.
Парсинг - это процесс сопоставления линейной последовательности лексем (слов, токенов) языка с его формальной граммати-
кой. Результатом обычно является дерево зависимостей (синтаксическое дерево). Построение автоматических синтаксических анализаторов (парсеров) для больших корпусов является одной из самых важных областей компьютерной лингвистики. Большинство подходов объединяет качественные и количественные измерения. Наряду с разными статистическими подходами, которые тренируются на снабженных вручную пометами синтаксических деревьях (tree-banks), многие синтаксические анализаторы используют основанные на правилах или основанные на ограничениях подходы, которые прямо моделируют специфические лингвистические теории. Разработка этих синтаксических анализаторов тесно переплетается с развитием этих теорий. Поскольку большинство предложений неоднозначны в любой теории, на основе правил (или перечня ограничений) должна быть разработана стратегия снятия неоднозначности. Многие стратегии снятия неоднозначности полагаются на количественные данные - частоту данной структуры в данном корпусе (тип), ограничения на выборку для данных лексических единиц, которые были получены или выделены из корпусных данных и т. д.
Среди специальных программ для обработки естественного языка особое место занимают программы автоматической разметки. Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учитывая размеры современных корпусов. Если для некоторых видов разметки, в частности, анафорической, просодической, создание автоматических систем пока представляется довольно сложным и основная часть работы проводится вручную, то для морфологического и синтаксического анализа существуют различные программные средства, которые принято называть соответственно тэггеры (taggers) и парсеры (parsers). В результате работы программ автоматического морфологического анализа (тэггеров) каждой лексической единице приписываются грамматические характеристики, включая часть речи, лемму и набор граммем (например, род, число, падеж, одушевленность / неодушевленность, переходность и т. д.). В результате работы программ автоматического синтаксического анализа фиксируются синтаксические связи между словами и сло-
восочетаниями, а синтаксическим единицам приписываются соответствующие характеристики (тип предложения, синтаксическая функция словосочетания и т. д.).
Однако автоматический анализ естественного языка небезошибочен и многозначен -он, как правило, дает несколько вариантов анализа для одной лексической единицы (слова, словосочетания, предложения). В этом случае говорят о грамматической омонимии. Снятие неоднозначности (морфологической, синтаксической) в целом является одной из важнейших и сложнейших задач компьютерной лингвистики. При создании корпусов для снятия неоднозначности используются автоматические и ручные способы. Корпусы нового поколения включают сотни миллионов слов, поэтому выдвигаются принципы разработки систем, которые бы минимизировали вмешательство человека. Автоматическое разрешение морфологической или синтаксической неоднозначности, как правило, основывается на использовании информации более высокого уровня (синтаксического, семантического) с применением статистических методов.
Для решения различных лингвистических задач недостаточно иметь массив текстов. Требуется также, чтобы тексты содержали в себе явным образом указанную разного рода дополнительную лингвистическую и экстралингвистическую информацию. Так, на материале корпуса, подобного Браунов-скому, можно легко выявить частотность слов - их регулярное употребление в определенных контекстах. Однако это будет частотность токенов (словоформ). Для определения частоты лексем каждому слову должна быть приписана ее лемма.
Для подсчета частот в разрезе грамматических категорий они также должны быть маркированы. В корпусе, снабженном такой информацией, существительные имеют, например, тэг noun, глаголы - тэг verb и т. д. Помимо прочего, такие тэги позволяют изучать групповые характеристики слов, имеющих определенную помету. Если снабжать тэгами слова в большом корпусе вручную, это займет очень много времени, поэтому исследователи разработали способы автоматической разметки в корпусе. Один из простых способов заключается в том, чтобы компьютеризированный словарь, в котором
указаны лексические категории для самых распространенных слов или для наибольшего количества слов, совместить с неразмеченным корпусом. Затем каждому слову в неразмеченном корпусе может быть автоматически присвоен тэг от соответствующего ему слова в снабженном пометами словаре. Таким образом, если словоформы information и distribution появились и в корпусе, и в словаре, тэг noun, который сопровождал эти словоформы в словаре, автоматически будет перенесен на них в корпусе. Подобно этому, такие формы как lexical и frequent будут помечены как прилагательные, поскольку они всегда являются членами этой категории, the и a будут помечены как артикли, identify и see - как глаголы и т. д.
Этот процесс нахождения соответствующих форм в корпусе и в снабженном пометами словаре не может быть использован для определения категорий всех форм, потому что некоторые формы могут быть членами более чем одной категории. Эта проблема носит название «проблема морфологической неоднозначности (ambiguity)». Например, слова words, forms, can, use, present и process могут быть как существительными, так и глаголами. Поскольку в английском языке так много форм принадлежит более чем одной категории, точно разметить слова можно благодаря более сложным процедурам, чем автоматическое совмещение со словарем. Конечно, в контексте (т. е. в действительном использовании) словоформа принадлежит только одной категории. Следовательно, достичь точной разметки английского корпуса можно путем анализа контекста или анализа более высокого уровня: синтаксического
анализа для морфологической разметки, семантического - для синтаксической.
Возьмем слово deal в качестве примера. Как словоформа, оно может быть как существительным, так и глаголом. Предположим, что корпус содержал фразу a good deal of trouble, и предположим, что автоматическое совмещение со словарем уже позволило пометить good как прилагательное. При выборе между тем, предшествует ли прилагательное существительному или глаголу, намного надежнее выбрать существительное, поскольку в английском языке прилагательные обычно предшествуют существительным и обычно не предшествуют глаголам. Так, deal в a good
deal of trouble может быть помечено как существительное. Другими словами, поскольку good однозначно является прилагательным, оно будет помечено как adjective на начальном уровне снабжения пометами путем совмещения корпуса со словарем. Если начинать разметку, размечая только слова, принадлежащие исключительно одной категории, а затем использовать эту информацию для того, чтобы прояснить неоднозначные случаи, многие сложные проблемы смогут быть решены. В обычной практике случается так, что слова снабжаются пометами сначала для всех частей речи, к которым они могут относиться, а затем категории примыкающих слов используются для определения категории слов, у которых есть несколько помет.
Исходя из данных исследований, можно сделать вывод, что к номенклатуре грамматических навыков речи у студентов, формируемых посредством лингвистического корпуса, входят следующие навыки:
- стабильно правильное и автоматизированное, коммуникативно-мотивированное использование грамматических явлений в речи;
- стабильно правильное и автоматизированное расположение слов (порядок слов) во всех типах предложений в соответствии с языковыми направлениями можно определить;
- дискурсивно-аналитические навыки оперирования грамматическим материалом;
- обнаружение синтаксических связей между словами и словосочетаниями.
1. Агафонова Л.И. Некоторые вопросы использования корпусных технологий как фактора повышения качества обучения иностранным языкам // Известия Российского государственного педагогического университета им. А.И. Герцена. 2009. № 87. С. 80-88.
2. Сысоев П.В. Лингвистический корпус в методике обучения иностранным языкам // Язык и культура. 2010. № 1. С. 99-111.
3. Сысоев П.В. Лингвистический корпус, корпусная лингвистика и методика обучения иностранным языкам // Иностранные языки в школе. 2010. № 5. С. 12-21.
4. Сысоев П. В. Интегративное обучение грамматике: исследование на материале английского языка // Иностранные языки в школе. 2003. № 6. С. 25-31.
5. Сысоев П.В. Нужна ли нам грамматика, и если нужна, то какая? // Иностранные языки в школе. 2007. № 2. С. 31-36.
6. Захаров В.П. Корпусная лингвистика. СПб., 2005.
7. Захаров В.П., Багданова С.Ю. Корпусная лингвистика. Иркутск, 2011.
8. Богданова С.Ю. Исследование слова и предложения компьютерными методами // Слово в предложении / под ред. Л.М. Ковалевой
(отв. ред.), С.Ю. Богдановой, Т.И. Семеновой. Иркутск, 2010. С. 194-213.
9. Демьянков В.З. Англо-русские термины по прикладной лингвистике и автоматической переработке текста. Вып. 2. Методы анализа текста // Всесоюзный центр переводов. Тетради новых терминов, 39. М., 1982.
10. McEnery T., Wilson A. Corpus Linguistics. Edinburgh, 2001.
Поступила в редакцию 26.06.2012 г.
UDC 378.14
USAGE OF LANGUAGE CORPUS LINGUISTICS IN FORMING OF GRAMMATICAL SPEECH SKILLS Elena Anatolyevna RYAZANOVA, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Post-graduate Student, Linguistics and Linguodidactics Department, e-mail: ryazanova-lena@mail.ru
The concept of “corpus linguistics”, “concordance” is described in detail the types of corpuses and the nomenclature of grammatical skills, examples of using corpus linguistics in the formation of grammatical skills are shown.
Key words: corpus linguistics; concordance; grammar skills; nomenclature.