УДК 81.322; 004.934; 004.912 ББК 81.1
А. И). Мордовии
КОРПУСЫ ТЕКСТОВ: ИНСТРУМЕНТ ИССЛЕДОВАНИЯ ИЛИ ОБУЧЕНИЯ ЯЗЫКУ?
Причиной написания данной статьи послужила необходимость описания точной функции корпусов текстов как инструмента исследования и обучения языку. В статье рассматриваются понятия органического и статистического корпусов текстов в контексте дискурсивного сообщества; и на этом основании приводятся причины, по которым применение статистических корпусов может неоправданно усложнять герменевтические усилия пользователя.
Ключевые слова: корпусы текстов; корпусная лингвистика; обучение иностранному языку; лингвистическое исследование
A. Yu. Mordovitt
TEXT CORPORA: A LANGUAGE RESEARCH OR STUDY TOOL?
The paper departs from the necessity to provide a precise delineation of the function of text corpora as a language research or study tool. The paper considers the notions of organic and statistic text corpora within the context of a discourse community. These considerations are then used to point out reasons underlying cases when application of statistic corpora may unjustifiably complicate the user’s hermeneutic effort.
Key words: text corpora; corpus linguistics; teaching foreign languages; linguistic research
Целью настоящей статьи является попытка проследить функциональные различия, связанные сиспользованием корпусов текстов влингвистическом исследовании наоснове корпусного материала ипри обучении языку, атакже дать онтологическое обоснование этим различиям втерминах понятий дискурсивного сообщества иорганического / статистического корпусов текстов.
Материалом для исследования послужил дискурс представителей корпусной лингвистики натему использования корпусов вобучении языку, представленный ввиде трех статей зарубежных авторов иряда публикаций из сборника «Национальный корпус русского языка ип-роблемы гуманитарного образования», опубликованных насайте НКРЯ.
Оттолкнемся отдопущения о том, вповседневной жизни национальный корпус любого данного языка неявляется предметом существенной необходимости для его носителей, однако остается потенциально полезным для исследователей языка и лиц, изучающих его как иностранный. Несмотря на очевидность этой пользы, ее причины и механизм реализации не исследованы в достаточной степени. Предлагается выполнить анализ в указанном направлении в категориях органического и статистического корпусов текстов.
Для этого, во-первых, отметим, что каждый носитель определенного языка неможет неяв-ляться членом некоторой группы - «дискурсивного сообщества» поДж. Суэйлзу [Swales, 1990]. Во-вторых, втечение срока своей жизни каждый такой носитель порождает сам ивы-ступает реципиентом определенного количества текстов. Таким образом, можно утверждать, что втечение жизни каждого носителя языка образуется два подкорпуса текстов: 1) корпус порожденных текстов (все сказанное или написанное индивидом засрок жизни); 2) корпус воспринятых текстов (все фактически услышанные или прочитанные засрок жизни индивида тексты). Оба подкорпуса возникают именно втом дискурсивном сообществе или сообществах, участником которых является носитель языка. Назовем это сочетание двух подкорпусов «органическим корпусом текстов».
С онтологической точки зрения, органический корпус текстов выступает целостной иан-тропоцентричной коллекцией текстов, ненуждающейся вкаких-либо внешних критериях целостности, исвободной отлюбых количественных истатистических категорий. Идеальным бесконечно великим национальным корпусом является совокупность органических корпусов текстов всех носителей данного языка.
В первом приближении, этот вывод может показаться нетолько самоочевидным иабстракт-ным, ноибесполезным. Струдом представляется вероятным, что вобозримом будущем возникнут необходимые технические, организационные, наконец, юридические условия для того, чтобы зафиксировать хотя бынеболыпую долю органического корпуса отдельно взятого человека. Это связано нетолько стехническими сложностями фиксации текстового материала, ноиспонятием неприкосновенности личной жизни. Несомненной утопией представляется та-ситуация, когда, спервоначального согласия родителей, азатем несобственного согласия, вся жизнь человека срождения идосмерти проходит вприсутствии микрофона икопировальной техники для того, чтобы запечатлеть, азатем зафиксировать соответственный органический корпус текстов.
Тем неменее, при невозможности фактической реализации, понятие «органического корпуса текстов» является весьма обоснованной моделью, способной отразить набор необходимых принципов организации корпусов текстов.
Согласно этой модели, вне контакта сиными корпусами текстов, органический корпус текстов языковой личности оказывается замкнутым впределах определенного дискурсивного сообщества. Напрактике это означает, что для понятия органического корпуса текстов первостепенное значение имеет фактический этнический, социальный, возрастной, профессиональный, образовательный, коммуникативный статус личности, характер еегеографических, меж-культурных имежъязыковых контактов. Для воспринимаемых текстов принципиальна фактическая пропорция различных форматов ижанров текстов.
Таким образом, ниодин национальный корпус текстов неможет, поопределению, претендовать насоотнесенность сязыковым опытом каждого из носителей данного языка. Впротивопо-ложность органическому, т.е. естественному корпусу текстов, любой национальный корпус является статистическим, т.е. сточки зрения носителя языка - неестественно деперсонифици-рованным. Под деперсонификацией следует понимать такую предметную и контекстуальную разнесенность текстов, которая, в пределах разумного допущения, не предполагает возможность их «соседства» в органическом корпусе текстов. Естественно, в данном контексте недопустимо толковать деперсонификацию корпуса как отсутствие системы всписке авторов включенных внего текстов, потому что как раз это и является нормальным - втечение жизни владелец органического корпуса текстов нетолько неможет планировать авторов воспринимаемых текстов, ночасто даже изнает, кем они являются.
Последнее наблюдение отражает несовсем естественный исравнительно новый феномен языкового общения. Доширокого распространения печати имассовых коммуникаций, набор авторов текстов, входящих ворганический корпус, всегда оставался вполне ограниченным иопределенным. Этими авторами были люди ближайшего окружения индивида, т.е. прочие члены дискурсивного сообщества. Даже нормативные тексты (законы, религиозные тексты) предполагали определенное авторство. Натот момент текстами без четкого авторства являлись, пожалуй, лишь поговорки ииные продукты устного народного творчества.
Ожидание наличия автора утекста сохранялось ипосле появления книгопечатания - сочинения без автора отчетливо воспринимались как «анонимные». Настоящая жереволюция вэ-том отношении произошла помере распространения именно массовых коммуникаций - газет, радио, телевидения иИнтернет-вещания (ср. теорию трех информационных барьеров В.М. Глушкова [Глушков, 1987]). Несмотря на то, что большинство масс-медийных текстов могут представляться подписанными, т.е. авторскими, это авторство нередко является номинальным, апонятие автора постепенно становится симулякром. Всовременных коммуникациях автор уже нетолько прошел этап псевдонима, когда заопределенным именем все-таки предполагался определенный человек, носточки зрения реципиента текста стал полностью деперсони-фицированным атрибутом. Если доэпохи массовых коммуникаций основу органического корпуса текстов составляли тексты, порожденные вполне определенными соучастниками дискурсивного сообщества, топозднее ихвзначительной мере потеснили тексты неизвестных или безличных авторов.
Возвращаясь кпротивопоставлению статистического иорганического корпуса текстов, отметим, что последний может включать лишь незначительное количество «случайно» прочитанных текстов, формат, тематика испособ размещения которых несоответствуют исходному дискурсивному сообществу индивида; втовремя как большинство воспринятых текстов будут соответствовать уместному кругу устного общения ипринятых для данного дискурсивного сообщества масс-медийных ресурсов. Совокупность текстов ворганическом корпусе представляется нестатистически или усредненно-вероятностно оправданной, а детерминированной занимаемым местом вдискурсивном сообществе, или соответственным «нарушением» его «границ».
Таким образом, единственным онтологически обоснованным объектом реального мира является органический корпус текстов как совокупность порожденных ивоспринятых текстов определенным индивидом - членом дискурсивного сообщества. Собственно говоря, вне контакта снациональным корпусом текстов данного языка, только органический корпус текстов исуществует для любого наивного носителя такого языка. Тем неменее, как отмечено выше, целесообразность иполезность составления национальных корпусов невызывает сомнения инезаслуживает какой-либо критики.
Наша задача - попытаться проанализировать причины этой полезности ипредполагаемые модели взаимодействия члена языкового сообщества, атакже индивида, изучающего соответственный язык, снациональным корпусом.
В некотором смысле, несмотря навоз можную путаницу втер минах, национальный, т.е. статистический корпус можно также отнести корганическим корпусам, однако более высокого
порядка, т.е. «супраорганическим». Вкачестве супраорганического корпуса, качественный национальный корпус тоже представляет собой массив текстов, хорошо статистически обоснованный таким образом, как если быонпредставлял собой органический корпус текстов некоторого «среднего» носителя языка - участника некоторого «среднего» российского, американского или другого дискурсивного сообщества. Существуют достаточные основания полагать, что наобраз среднего носителя могут существенно проецироваться социальные иязыко-вые характеристики авторского коллектива корпуса. В числе последних публикаций, позволяющих ярко визуализировать основные характерные черты национальных корпусов текстов на различных языках необходимо отметить учебник по корпусной лингвистике В.П. Захарова и С.Ю. Богдановой [Захаров, 2011].
По нашему мнению, разделяемая многими концептуальная полезность национальных корпусов зиждется именно наэтом методологическом представлении. Очевидно, что взависимо-сти отстепени скептицизма критика можно усомниться втом, что такое усреднение вообще возможно: вопределенном смысле национальный корпус является «средней температурой по-палате». Эквивалентом этой усредненной коллективной языковой личности в реальном обществе можно полагать некоторый «средний класс», ксожалению, без возможности указать четкий критерий этого среднего класса - экономический или образовательный, или некоторое сочетание того идругого.
В этом отношении уместно привести цитату изработы М. Маккарти - признанного авторитета западной корпусной лингвистики: «Какие именно источники включены вкорпус икак их-ранжировать? <...> Нужно ли <.. .> чтобы было втри раза больше примеров изжелтой прессы, чем из Observer, Guardian или Independent, т.е. стремиться ктому, чтобы отразить реальный газетный язык, с которым каждый день сталкивается британское сообщество? <...> Стоит лиснисходить домасс? Унас по-прежнему сильно предубеждение против использования данных, полученных отлюдей снизким образовательным цензом» [McCarthy, 2008, цит. по: http://studioruin,ruscorpora.ru/index,php9option=coin_docinan&Iteinid= 105],
Справедливее, но неудобнее было бы признать, что национальный корпус языка представляет собой искусственный «срез» по множеству органических корпусов текстов, которые могут оказаться слабо связанными или вообще онтологически несвязанными друг с другом; т.е. пообъективным причинам аналогичные тексты никогда несмогут одновременно войти ворга-нический корпус одного человека. Однако именно вэтом изаключается сила иобоснованность применения национального корпуса как носителем языка, так и при обучении языку.
Национальный корпус текстов остается онтологически невостребованным до тех пор, пока носителем органического корпуса текстов не ставится задача «выйти» за пределы собственного языкового сообщества. Однако, когда такая задача все-таки появляется, нет ничего лучше национального корпуса текстов. Если корпус хорошо (репрезентативно) составлен иобо-рудован интерфейсом поиска повнеязыковым параметрами (социальным, возрастным, гендерным ит.д.), онпозволит посмотреть, как говорят «там», запределами обычного для индивида дискурсивного сообщества. Иначе говоря, для носителя языка национальный корпус текстов выступает вкачестве справочной системы, которая при всей своей пользе несвязана ине-обязана быть связанной сфактически существующим органическим корпусом текстов носителя.
Несколько сложнее обстоит дело с использованием национальных корпусов в целях обучения языку. М. Маккарти напоминает: «Роль демографических факторов, обсуждение общественных и профессиональных предрассудков и ожиданий - важные аспекты корпусной лингвистики, которые нужно донести допреподавателей» [Там же]. Это означает, что преимущества и возможности национального корпуса для носителя языка оборачиваются опасностями и трудностями для изучающего язык.
Единственной онтологически обоснованной моделью освоения языка является научение от определенного индивида или ихгруппы, однако всегда впределах некоторого одновременно допустимого числа языковых сообществ. Если речь идет опервичном научении языку - это семья, круг сверстников винститутах социализации, региональное / социальное дискурсивное
сообщество. Вслучае научения языку как иностранному - это более широкий, однако также вполне определенный круг дискурсивных сообществ, который определяется форматом ице-лью обучения, возрастом ит.д.
Группа студентов, изучающих язык под руководством преподавателя - это тоже определенное иограниченное дискурсивное сообщество. Несомненно, что чем точнее будет определено целевое иноязычное дискурсивное сообщество, навозможность вступления вкоторое нацелено обучение, тем эффективнее окажется обучение. Таким образом, процесс научения языку всегда нацелен нанекоторое поддающееся общему определению иноязычное дискурсивное сообщество.
При кажущейся общности используемого языкового кода, различные дискурсивные сообщества будут различаться структурой ценностей, предметной релевантностью областей общения испособами использования языка. Изэтого следует два принципиально важных вывода относительно использования корпусов вобучении языку:
Являясь статистическим продуктом, национальный корпус текстов действительно способен точно указать натекущее состояние развития тех или иных синтагматических отношений визучаемом языке в виде «среза» по обширному диапазону дискурсивных сообществ. Синтагматические отношения следует понимать широко: это могут быть любые просчитываемые илинейные параметры как самого языкового кода, так ииндивидуально обусловленные модели его использования, т.е. грамматические явления иустойчивые варианты сочетания смыслов.
Попытки использовать корпус для анализа значений как элементов парадигматических структур неизбежно приводят к контекстуально-травматичным ситуациям, которые эквивалентны попаданию человека внеожиданную коммуникативную ситуацию впределах неизвестного дискурсивного сообщества. Эти попытки требуют отпользователя корпуса существенных инеобоснованных усилий наврйменную адаптацию кдискурсивному сообществу иин-терпретацию контекста высказывания. Иначе говоря, языковые усилия нагерменевтическое толкование смысла вобрывках контекста, который, как правило, весьма трудноуловим врам-ках корпуса, идут вопреки принципу языковой экономии, инекомпенсируются ценностью полученного результата. При прочих равных слагаемых, вбытовой ситуации изучения иностранного языка для интерпретации значения будет гораздо более целесообразно обратиться копосредованной языковой компетенции - т. е. ксловарю, чем предпринять трудоемкую операцию поинтерпретации ряда контекстов и, влучшем случае, достигнуть равного результата.
На первый взгляд, эти выводы невполне согласуются срекомендациями попрактическому применению корпусов текстов вобучении. Вчастности, они полностью несогласуются споня-тием «обучения через исследование» (data-driven learning), врамках которого предполагается применение корпусов «для установления отношения форма - содержание... Обучение языку можно рассматривать как индуктивный процесс, связывающий значение сформой» [Вег-nandini 2004, цит. по:
http://studiomm.mscorpora.m/index.php?option=com_docman&Itemid=105].
С целью пояснить мнение С. Бернандини, используем обширную цитату: «учащийся, использующий корпус, каждый раз непросто находит информацию, ноипринимает самостоятельное иответственное решение как еетрактовать иклассифицировать. Вэтом смысле корпус является неисточником примеров для подражания, ноинструментом для построения выборок языковых данных для исследования <...> Вконкордансах учащиеся обнаруживают новые, неизвестные иинтересные имслова иструктуры, которые увлекают ихдалыпе вкорпус, каждого своим собственным, уникальным путем. Изучающий язык становится исследователем, первооткрывателем, которому входе путешествия приходится решать бесконечное множество задач» {выделение наше -А.М.) [Ibid],
Для автора приведенных строк вполне ожидаемо, что изучающий язык, т.е. человек, неимеющий еще достаточной языковой компетенции даже впределах языкового кода, вдруг, исключительно под действием собственной любознательности, превращается висследователя ипервооткрывателя, готового, несмотря нанедостаточное знание языка, бесконечно перево-
дить ианализировать все новые нновые контексты, буквально вырванные изчужих дискурсивных сообществ ивсе ради одной цели - «понять смысл». Что может заставить изучающего язык выбрать этот путь? Неявляется литакой способ понимания Сизифовым трудом, втовре-мя, когда существует масса опосредованных ииндексированных источников значений - двуязычные итолковые словари, тезаурусы, комбинаторные словари?
Помимо обеспечения инновационных способов понимания смысла, обучение языку спо-мощью корпусов призвано расширить границы языковой нормы: «Корпус - это ненавязыва-ние нормы, анаоборот, своего рода прививка против некритичного принятия языковых явлений иотносящихся кним формулировок» [Ibid]. Иэто было быверно, однако право ивыбор не-следовать некоторой письменной норме могут существовать только нафоне уверенного владения этой нормой.
Эти наблюдения подводят нас квыводу онедостаточно четкой дифференциации двух видов деятельности: собственно обучения языку иизучения (исследования) языка. Первый заключается вприобретении языковой компетенции впределах языка онтологически обусловленного круга языковых сообществ, тогда как второй - это осознанное имотивированное наблюдение того или иного языкового явления на «срезе» множества усредненных дискурсивных контекстов. При этом второй вид деятельности объективно неможет предшествовать первому.
Для собственно преподавания языка корпусы пригодны всвоей вторичной, «неэвристической» функции, или, поопределению Дж. Лича [Leech, 1997], - путем «косвенного применения», аименно: вкачестве источников хороших примеров изреальной речи. «При помощи НКРЯ можно проиллюстрировать теили иные вопросы русской грамматики реальными примерами, неоторванными отконтекста. Сначала, конечно, преподаватель должен выбрать изНКРЯ короткие примеры, которые неслишком трудно будет прочесть» [Янда, 2007, с. 61] (iвыделение наше - А.М.) - эта практическая рекомендация согласуется спредложенной нами гипотезой.
Корпус как инструмент индуктивного получения новых знаний изнаблюдения зафактами был иостается инструментом языкового исследования. Вфункции первичного обучения языку корпус может идолжен оставаться источником хороших иобоснованных употреблением примеров сцелью обеспечить выполнение принципа экономии языковых усилий иизбежать избыточных герменевтических усилий.
В дискурсе практиков корпусной лингвистики это мнение необязательно должно быть основано начетком разграничении обучения языку иизучения языка, что неменяет уровневой иерархии этих видов деятельности: «Поскольку корпуса состоят изматериалов естественного употребления языка, тексты ипримеры, взятые изних, всреднем достаточно сложны ииз-за этого вряд лимогут быть использованы наначальном этапе обучения. Кажется, что самый большой вклад корпуса могут внести вобучение филологов» [Мустайоки, 2007, с. 59].
По нашему мнению, выражение «материалы естественного употребления языка» следует понимать как указание напотенциальную несводимость контекстов врамки единого «виртуального» органического корпуса, тогда как «сложность наначальном этапе» подразумевает нецелесообразность толкования контекстов для понимания значений. При этом врамках «обучения филологов», т.е. изучения языка, такая индукция уместна иобоснована. Вдействи-тельности, филологов обучают неязыку, а быть филологами, т.е. исследователями уже изученного языка. Таким образом, вновь речь идет опротивопоставлении изучения и исследования языка как разных видов деятельности.
В этом контексте невозможно неудивляться, когда А. Мустайоки жалуется на то, что «в преподавании иностранных языков разные правила изучаемого языка зачастую приводятся преподавателем вготовом виде, без активной умственной работы учащихся», тогда как «противоположный, проблемный подход вызывает усамих учащихся желание делать собственные выводы наоснове отобранного языкового материала. Так, студентов просят составить правило склонения одушевленных существительных среднего рода вединственном имножественном числах. Поиск можно сделать спомощью Национального корпуса, «задав соответствующие грамматические параметры» [Мустайоки, 2007, с. 60].
Приведенная цитата указывает напоследнее свойство границы между применением корпусов вобучении языку идля исследования языка - это еенестабильность исубъективность. При этом прослеживается следующая тенденция - чем более активный, исследовательский, «филологический» подход занимает человек, изучающий язык, кпроцессу изучения, тем наболее раннем этапе возможно включение вструктуру обучения языку исследовательских, неиллюстративных и «прямых», поДж. Личу, корпусных методов.
Таким образом, при применении корпусов текстов в обучении языку наиболее оправданы стратегии, учитывающие степень «органичности» их содержимого относительно дискурсивных сообществ самих изучающих язык и целевых иноязычных дискурсивных сообществ. Для лингвистического или филологического исследования языковых / речевых явлений наибольший интерес представляют «статистические» параметры корпусов, позволяющие опосредованно пересекать границы дискурсивных сообществ, обычно труднопреодолимые в естественном языковом опыте и интроспекции, что и обуславливает новизну корпусного подхода.
Библиографический список
1. Захаров, В.П. Корпусная лингвистика [Текст]: учебник для студентов гуманитарных вузов / С.Ю. Богданова, В.П. Захаров. - Иркутск: ИГЛУ, 2011. - 161 с.
2. Мустайоки, А. Роль корпусов в лингвистических исследованиях и преподавании языков [Текст] / А.Мустайоки // Национальный корпус русского языка и проблемы гуманитарного образования: материалы междунар. науч. конф. (Москва, 19-20 апреля 2007 г.). - М., 2007. - С. 58-60. - Режим доступа : http://studiorum.ruscorpora.ru/index.php?option=com_docman&task=doc_view&gid=57&tmpl=component&format =raw&Itemid=102 (дата обращения : 11.03.2011).
3. Глушков, В.М. Основы безбумажной информатики [Текст] / В.М.Глушков. - 2-еизд., испр. - М.: Наука, 1987. -552 с.
4. Янда, Л.А.Студенты - пользователи Национального корпуса русского языка [Текст] / A.JI. Янда // Нацио-
нальный корпус русского языка ипроблемы гуманитарного образования. - М., 2007. - С. 60-73. - Режим доступа :
http://studiorum.ruscorpora.ru/index.php?option=com_docman&task=doc_view&gid=83&tmpl=component&format =raw&Itemid=70 (дата обращения : 11.03.2011).
5. Bernardini, S. Corpora inthe classroom. Anoverview and some reflections onfuture developments [Text]/ S. Bemar-dini // How touse corpora inlanguage teaching / J.McH.Sinclair. - Amsterdam [u.a.] : Benjamins, 2004. - 307 S.
6. Leech, G. Teaching and language corpora: Aconvergence [Text] / G. Leech // Teaching and Language Corpora / A. Wichmann, S. Fligelstone, A.M. McEnery, & G. Knowles (Eds.). - London: Longman, 1997. - P. 1-23.
7. McCarthy, M. Accessing and interpreting corpus information inthe teacher éducation context [Text] / M. McCarthy // Language Teaching. - 2008. - P. 563-574.
8. Swales, J.M. Genre Analysis: English inAcademic and Research Settings [Text] / J.M.Swales. - Cambridge: Cambridge University Press, 1990. - 260 p.