Научная статья на тему 'Корпусы текстов в методологии лингвистического исследования: степень новизны относительно традиционного подхода'

Корпусы текстов в методологии лингвистического исследования: степень новизны относительно традиционного подхода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
209
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСЫ ТЕКСТОВ / КОРПУСНАЯ ЛИНГВИСТИКА / ЛИНГВИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ / ЛИНГВИСТИЧЕСКАЯ ТЕОРИЯ / TEXT CORPUS / CORPUS LINGUISTICS / LINGUISTIC RESEARCH / LINGUISTIC THEORY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мордовин Алексей Юрьевич

В статье рассматриваются методологические характеристики традиционного и корпусного подходов к исследованию языка. Характер связи «материал-гипотеза» при использовании корпусного подхода рассматривается в контексте категорий репрезентативности корпуса, исследовательского инсайта (пред-гипотезы) и априорной теории. Обосновывается вывод о невозможности противопоставления традиционного и корпусного м

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article considers the methodological features of the traditional and corpus-based approaches to linguistic research. The nature of the «material-hypothesis» link is discussed in the context of corpus representativeness, researcher’s insight (pre-hypothesis) and a priori theory. The inference about the impossibility of the opposition between the traditional and corpus-based approaches is justif

Текст научной работы на тему «Корпусы текстов в методологии лингвистического исследования: степень новизны относительно традиционного подхода»

КОРПУСЫ ТЕКСТОВ В МЕТОДОЛОГИИ ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ : СТЕПЕНЬ НОВИЗНЫ ОТНОСИТЕЛЬНО ТРАДИЦИОННОГО ПОДХОДА

А.Ю. Мордовин

Ключевые слова: корпусы текстов, корпусная лингвистика, лингвистическое исследование, лингвистическая теория.

Keywords: text corpus, corpus linguistics, linguistic research, linguistic theory.

Данная статья представляет собой попытку автора обосновать мнение о недостаточных основаниях полагать, что корпусный метод исследования языка составляет собой некоторую методологическую противоположность традиционным методам лингвистического исследования, основанным на интроспективной составляющей.

На современном этапе корпусная лингвистика все еще находится на раннем этапе своего развития. Практическая деятельность по составлению корпусов сравнительно недавно была обобщена до уровня практических рекомендаций по составлению корпусов текстов (подбору текстов в корпус) (см.: [McEnery, 2001; Wynne, URL; Апресян, 2005; Плунгян, 2005; Сичинава, 2002]); при этом уже существуют тщательно разработанные методологические рекомендации в области технической стороны корпусной лингвистики, основанные на многолетней практике составления корпусов с использованием машинных технологий обработки языка (см., например: [Сичинава, 2005]).

Тем не менее, несмотря на значительное количество уже полученных значимых результатов, интерес исследователей не могут не притягивать контрастивные методологические исследования особенностей корпусного подхода относительно до-корпусных методов [Пер-цов, 2006; Плунгян, 2008].

Широко распространено мнение, согласно которому корпусный подход к лингвистическому исследованию воспринимается как новый, находящийся в некоторой оппозиции к старому, традиционному. Из числа недавно опубликованных методологических исследований такого рода, достаточно показательной является обзорная статья И.Ф. Ганиевой [Ганиева, 2007]. По ее мнению, под традиционным под-

ходом подразумевается различного рода экспликация правил языкового устройства и речевого поведения, интуитивно известных носителю языка. При этом, поскольку «зачастую авторы используют эмпирический материал лишь на фазе верификации гипотезы, а сами примеры носят случайный, иногда даже спорадический характер» [Ганиева, 2007, с. 104], то в целом традиционный метод исследования не может быть одобрен, так как ведет к нарушению логики познавательного процесса.

Эта логика представляется автору цитируемого исследования как следующая цепочка: материал - гипотеза - проверка - уточнение гипотезы - теория. Корпусный подход, представляя собой, по мнению И.Ф. Ганиевой «действительную теорию», является предпочтительным, что подкрепляется ссылкой на методологическую позицию М.К. Мамардашвили: «Действительная теория выявляет и затем описывает образования, имеющие собственную, естественную жизнь, продуктом которой являются наши мнения, и наблюдение которой позволяет формулировать законы как необходимые отношения, вытекающие из природы вещей» [Мамардашвили, 1997, с. 19] (цит. по: [Ганиева, 2007]).

Данная концепция действительно может представляться достаточно прочной, однако целью наших собственных исследований является попытка ответить на ряд «неудобных» вопросов, относящихся к характеру связи между двумя первыми элементами указанной логической цепочки познания: «материал - гипотеза». Как именно рождается гипотеза из материала? Какие познавательные процессы оказываются здесь задействованы? Представляет ли собой корпусный метод революционный метод исследования, свободный от внутренней языковой интуиции носителя, действительно ли его результаты объективны?

Превосходство ценности результатов, полученных корпусным методом, не оставляет у автора указанной статьи никаких сомнений: «Именно корпус позволяет получать данные, недоступные при традиционных методах лингвистического анализа (интроспекция, анкета, опрос информантов), а выводимые обобщения имеют статус не интроспективной догадки, как при традиционном подходе, но эмпирически наблюдаемого факта». Также, автор полагает, что «работа с электронными корпусами открывает новые возможности и безусловно повышает уровень объективности лингвистического исследования» [Ганиева, 2007, с. 106].

Есть основания полагать, что этот вывод является верным и логически обоснованным лишь отчасти. Фактически же, он зиждется на

двух методологических «китах» корпусной лингвистики, каждый из которых, при тщательном рассмотрении, оказывается не столь уж лишенным интроспективного начала. Обнаруженные свойства этих двух методологических допущений, при их последовательном признании, в существенной мере лишают результаты лингвистического исследования, полученные корпусным методом, их трансцендентального, вне-субъектного, или, попросту говоря, объективного статуса, и сводят все их превосходство перед результатами «традиционного» исследования к фактическому первенству по качеству, которое зиждется на применении цифровых технологий обработки речевого материала в виде корпуса. Очевидно, что любая машинно-опосредованная обработка по определению является более быстрой, представительной и убедительной за счет объема и скорости вычислений.

Итак, каковы же упомянутые выше два методологических «кита» корпусного подхода? Это - 1) понятие репрезентативности корпуса, и 2) представление о том, что результаты машинного анализа корпусного материала способны непосредственно генерировать новое знание, то есть как раз уверенность в существовании непосредственной, объективной связи «материал - гипотеза», ранее недоступной до появления машинных средств анализа языка.

Несмотря на понимание того, что появление корпусных технологий является неизбежным ходом развития прогресса, наше собственное мнение заключается в том, что корпусный метод не является подлинно революционным, и что две указанных методологических предпосылки к идее о революционности корпусного метода не являются бесспорными. Во-первых, репрезентативность корпуса не свободна от языковой картины мира авторского коллектива корпуса и не способна в полной мере отразить все богатство словоупотреблений любого данного языка (речь идет о т.н. «национальном корпусе»). Во-вторых, звено логической цепочки познания «материал - гипотеза» имеет опосредованную связь, выражающуюся в наличии пред-гипотезы, необходимой для формулировки ввода поискового запроса в корпус, причем любые поисковые работы в корпусе в принципе невозможны без некоторого замысла исследователя, то есть именно интроспективной гипотезы. Рассмотрим эти указанные два аспекта более подробно.

Для современной корпусной лингвистики характерно отсутствие интереса к исследованию и моделированию языковой личности составителя корпуса текстов. Первичной задачей составителя является обеспечить репрезентативность корпуса. Вступая в противоречие с собственными конечными выводами, соглашается с неизбежностью персо-

нального участия языковой личности составителя и автор рассматриваемой статьи: «репрезентативность - это не столько объем материала, сколько пропорциональность представления отображаемого фрагмента речевой действительности. Значительное увеличение объема исследуемого корпуса не обеспечивает увеличения его достоверности. Гораздо важнее более тщательная выборка текстов при планировании корпуса и его использовании» [Ганиева, 2007, с. 105] (выделение курсивом наше. - А.М.).

Деятельность составителя корпуса носит комплексный характер и в конечном итоге эта деятельность направлена на принятие положительного или отрицательного решения о достаточной репрезентативности текста для включения в корпус. Если составитель корпуса строго следует принципу отбора текстов по контексту ситуации, то такую механическую работу все равно сопровождает минимальная интерпретация текста с целью эксплицировать требуемые параметры контекста ситуации. Тем не менее, если в числе структурных параметров корпуса присутствует требование к тематической наполненности корпуса, необходима дополнительная интерпретация текста составителем, что в еще большей степени вовлекает личность составителя в процесс отбора текстов.

Качественные параметры обеспечения корпусной репрезентативности относятся непосредственно к языковой личности составителя корпуса. Им противопоставляются количественные параметры, описывающие зависимость репрезентативности корпуса от его объема.

Количественные параметры репрезентативности корпуса более осязаемы, чем качественные: во-первых, чем больше словоупотреблений включает в себя корпус, тем выше вероятность представленности в нем всех возможных употреблений для данного слова. Во-вторых, авторы корпусов текстов предпочитают выбирать тексты таким образом, чтобы соблюсти некоторую жанровую структуру текстов корпуса. При этом априори определяется предполагаемая жанровая структура корпуса, в зависимости от типа корпуса (национальный, специальный, тематический и т.д.) При этом авторы могут изначально указать необходимый удельный вес текстов того или иного жанра в корпусе, выраженный в процентах, при котором обеспечивается лучшая репрезентативность корпуса по отношению к языку.

В части корпусов, в которых тексты организованы описанным выше образом, на жанровую классификацию текстов может также налагаться семантическая, или, точнее, тематическая классификация текстов. Как правило, создатели текста делают оговорку, что высоко

идиоматичные тексты, а также тексты, значительно отличающиеся от принятых норм языка, сознательно не включены в корпус.

Таким образом, даже в количественных параметрах, призванных наиболее достоверно подтвердить репрезентативность корпуса текста в отношении представляемого функционального или исторического сегмента языка, присутствует значительный элемент влияния языковой личности составителя. В первом случае, это объясняется тем, что для включения текста в корпус, текст должен быть отнесен к тому или иному жанру, что предполагает предварительное прочтение или прослушивание, интерпретацию текста и принятие решения о жанровой принадлежности, осложняемые различиями в представлениях о понятии жанра среди создателей корпуса - чаще не-лингвистов, а тем более несоответствием представлений о жанрах у создателей и пользователей корпуса.

Во втором случае, при определении тематической соотнесенности текста и некоторого концепта, феноменологическая природа процесса принятия решения представляется очевидной, поскольку составитель корпуса, выделяя набор ключевых для данного текста концептов, не может выполнить этого за пределами собственной картины мира, в т. ч. языковой. Это значит, что категоризация концептов данной языковой личности - одного из составителей корпуса оказывает влияние на наполненность корпуса «по концептам». Здесь становится легко предугадать возможность недостаточной представленности, или непредстав-ленности вообще в таком корпусе текстов, сконцентрированных вокруг концептов, малозначимых или незначимых для личностей группы составителей. Один из наиболее популярных примеров из этой сферы -это сравнение коллокатов словосочетания September 11 или 9/11 в английских и в американских корпусах текстов, когда набор коллокатов в последних оказывается значительно более «говорящим», чем в первых.

Тем не менее, при всей субъективности жанровой и тематической категоризации текстов при включении в корпус, нельзя отрицать, что данная методика является здравым шагом в направлении обеспечения количественной основы, призванной подтвердить репрезентативность корпуса в глазах пользователя. Таким образом, из двух приведенных нами количественных критериев обеспечения репрезентативности корпуса строго объективным следует признать только количество словоупотреблений, включенных в корпус. Жанровая и предметная сбалансированность корпуса, несомненно, увеличивает репрезентативную ценность корпуса для пользователя, однако ровно настолько, насколько параметры, способные охарактеризовать языковую личность (лич-

ности) создателей и пользователей корпуса, окажутся, во-первых, вообще совместимыми, а во-вторых, схожими с таковыми у пользователей корпуса. Данное положение справедливо в полной мере только по отношению к национальным корпусам текстов.

В случае с национальными корпусами текста, жанровая и предметная структура корпуса неизбежно начинает нести признаки языковой картины мира составителя или составителей, а именно ее индивидуальной и социально-обусловленной составляющих. Тем не менее, с теоретической точки зрения, даже увеличение размера корпуса не может служить методом, позволяющим снизить влияние субъективной картины мира составителей корпуса на состав корпуса. Практически же, более крупный корпус подразумевает работу большего числа составителей, поэтому корпус становится более репрезентативным для языка безотносительно к личности составителя, благодаря нарастанию гетерогенности текстов внутри жанра и благодаря различию языковых картин составителей. Постоянство «редколлегии» обрекает корпус на неизменность репрезентативности при практически бесконечном росте размера.

Итак, репрезентативность национального корпуса распространенного языка, призванного отражать язык в целом, испытывает значительное влияние со стороны языковой личности составителя корпуса. Данное влияние обусловлено: необходимостью априорного решения о балансе письменных, устных и электронных текстов в корпусе, необходимостью жанровой и концептуальной категоризации текста, потребностью в «ручном» отсеивании маркированных текстов и проверке соответствия текста некоторой языковой норме.

Следует четко понимать, что (национальный) корпус - это не что иное, как бесконечно большой перечень всех возможных речевых реализаций полной совокупности доступных для данного языка языковых средств. Не существует сколько-либо значимого методологического различия между корпусом текстов и любыми примерами, которые «традиционный» приверженец устаревшего «интроспективного» метода черпает из собственной языковой компетенции. В сравнении с корпусным методом поиска примеров, нет ничего предосудительного в том, что автор, согласно приведенной И.Ф. Ганиевой цитате из Е.В. Падучевой, берет примеры оттуда, откуда это оказывается удобным для собственной теории, не указывает ссылок на лингвистический источник, или широко использует «искусственные» примеры. С формальной точки зрения, национальный корпус - это конструкция, обязанная стремиться к бесконечно великому размеру, и

поэтому методологически, пример, фактически полученный из корпуса, ничем не «лучше», чем искусственный пример, созданный самим автором лингвистического исследования (опуская вопросы лингвистической разметки в корпусе и любых других возможных видов обработки текстов, содержащихся в корпусе).

По техническим причинам, конечно, невозможно, чтобы национальный корпус языка хотя бы приблизился к объему фактического словоупотребления на данном языке всеми его носителями. Тем не менее, это не означает, что примеры, полученные из корпуса, сами по себе носят какой-либо приоритет по сравнению с любыми другими. Сильной стороной корпуса является именно статистическая составляющая; и именно этим не могут похвастать «искусственные» примеры. Иначе говоря, корпус - это документальное подтверждение частотности, и, следовательно, предпочтительности тех или иных языковых конструкций. Следовательно, любые ссылки на частотность конструкций в корпусе обоснованы, с поправкой на описанный выше эффект языковой личности составителя корпуса. Одновременно, на уровне единичных примеров, существенного методологического преимущества у корпусных примеров быть не может.

Что касается второго методологического «кита» корпусного метода, то строго методологически, как раз вопреки мнению И. Ф. Ганиевой, в корпусном исследовании, так же как и в «традиционном», авторы «используют эмпирический материал лишь на фазе верификации гипотезы, а сами примеры носят случайный, иногда даже спорадический характер». Единственное фактическое различие заключается в том, в традиционном методе лингвистическая интроспективная гипотеза сначала пространно эксплицируется, а затем мотивируется нужными примерами. В корпусном варианте всегда должна присутствовать неэксплицируемая пред -гипотеза, которую также можно назвать догадкой или замыслом, на основании которого проводится выборка материала, а уже затем рефреном пред-гипотезы следует собственно гипотеза, которая подтверждается корпусной выборкой.

Сильной стороной корпуса как машинного продукта является синтагматика, то есть линейность, которая не только пригодна для вычислений, но и является их обязательным условием. В парадигматике, в свою очередь, любая машина, в том числе и корпус, не может располагать ингерентными механизмами для обнаружения значимых связей без активного участия человека. В машину сначала

закладываются необходимые ей парадигматические связи, которые машина не может вычислить самостоятельно, а затем машина убедительно просчитывает и подтверждает наличие парадигматических связей синтагматическими вычислениями. Первичную осмысленную пред-гипотезу для создания определенной корпусной выборки может создать только человек.

Говоря обобщенно, некий априорный интуитивный инсайт, оформленный в виде более или менее стройной, но не апробированной теории, всегда предшествует инструментальному анализу языка. Таким образом, связка «материал - гипотеза» как беспереходное гносеологическое звено не может быть считаться вполне корректной. В противном случае, мы получаем ситуацию, когда материал самостоятельно генерирует новое знание, будучи собранным определенным образом, что не соответствует действительности. Более правильным будет представить эту цепочку так: «инсайт - материал

- гипотеза» и т.д., либо более радикально: «интроспекция - инсайт

- материал - гипотеза» и т.д.

Таким образом, видим, что в рамках корпусного метода наиболее уместно говорить не о порождении некоторого объективного знания на основе организованного определенным образом корпусного материала, а скорее о «проверке корпусной реальностью» априорных интроспективных инсайтов, а впоследствии, - и гипотез исследователя. Механизм обоснования таких гипотез лингвиста перед остальным виртуальным и реальным лингвистическим сообществом во многом носит характер аргументации по схеме «argumen-tum ad verecundiam».

Такой способ лингвистического анализа является, несомненно, прогрессивным; он исключает возможность авторского произвола в притягивании языковых фактов под необходимую теорию, возводит на новую ступень убедительность языковых теорий. Одновременно, методологически данный метод не является революционным, не составляет собой новой исследовательской парадигмы, но является лишь технологически обусловленным способом механизации и компьютеризации традиционных методов лингвистического анализа.

Помимо прочего, появление корпусных, и в целом, точных или математических методов анализа языка никоим образом не упраздняет потребности в качественной лингвистической априорной теории. По мнению М.И. Шапира, в силу особенностей языка как объекта исследования, в отличие от объектов исследования естествен-

ных наук, неточная или даже неверная лингвистическая теория не гарантирует ошибочности основанных на ней выводов, а с другой стороны, в гуманитарных науках четкость и адекватность априорных теоретических воззрений не является непременным условием эффективности точных методов [Шапир, 2005, с. 58].

Литература

Апресян Ю.Д., Богуславский И.М., Иомдин Б.Л. и др. Синтаксически и семантически аннотированный корпус русского языка : современное состояние и перспективы // Национальный корпус русского языка : 2003-2005. М., 2005.

Ганиева И.Ф. Об использовании корпусов в лингвистических исследованиях // Вестник Башкирского университета. 2007. Т. 12. № 4.

Мамардашвили М.К. Стрела познания (набросок естественноисторической гносеологии). М., 1997.

Перцов Н.В. О роли корпусов в лингвистических исследованиях // Труды международной конференции «Корпусная лингвистика-2006». СПб., 2006.

Плунгян В.А. Зачем нужен Национальный корпус русского языка? Неформальное введение // Национальный корпус русского языка : 2003-2005. М., 2005.

Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16(2).

Сичинава Д.В. К проблеме создания корпусов русского языка // Научно -техническая информация. 2002. Сер. 2. № 11.

Сичинава Д.В. Обработка текстов с грамматической разметкой: инструкция разметчика // Национальный корпус русского языка : 2003-2005. Результаты и перспективы. М., 2005.

Шапир М.И. «Тебе нет меры и числа» : О возможностях и границах «точных методов» в гуманитарных науках // Вопросы языкознания. 2005. № 1.

McEnery T., Wilson A. «Corpus Linguistics». Edinburgh University Press, 2001.

Wynne M. Developing Linguistic Corpora : a Guide to Good Practice. [Электронный ресурс]. URL: http://ahds.ac.uk/linguistic-corpora/

i Надоели баннеры? Вы всегда можете отключить рекламу.