«Веб как корпус» или «Корпус как веб»: новая реальность корпусной лингвистики

Мордовин А.Ю.

УДК 81.322; 004.934; 004.912 А. Ю. Мордовин

канд. филол. наук, президент, Общественное учреждение «Ассоциация переводчиков Иркутской области»; e-mail: alexmordovin@mail.ru.

«ВЕБ КАК КОРПУС» ИЛИ «КОРПУС КАК ВЕБ»: НОВАЯ РЕАЛЬНОСТЬ КОРПУСНОЙ ЛИНГВИСТИКИ

В статье рассматривается современное состояние взаимоотношений между понятиями веба как корпуса и классического корпуса текстов. В силу значительных сходств и неочевидных для неподготовленного пользователя различий веба и корпуса, корпус не только воспринимается и оценивается через соответственные параметры веба, но испытывает давление на определение самого корпуса. Веб как корпус успешно используется для решения исследовательских задач в качестве телеологически определяемого монитор-ного корпуса, и одновременно соответствует большинству требований к корпусу текстов. Веб существенно отличается от корпуса отсутствием лингвистического замысла, спонтанностью и неподконтрольностью роста, а также специфичной репрезентативностью. Однако легкая доступность и высокая объективность данных ввиду отсутствия авторского коллектива в значительной степени компенсируют эти недостатки и функционально приравнивают веб к корпусу, что требует переосмысления онтологического определения последнего.

Ключевые слова: корпусы текстов; корпусная лингвистика; веб как корпус.

A. Yu. Mordovin

Candidate of Philology, President, Non-Profit Organization «Irkutsk Region Association of Translators», MSLU ELI; e-mail: alexmordovin@mail.ru.

«WEB AS CORPUS» OR «CORPUS AS WEB»: THE NEW REALITY OF CORPUS LINGUISTICS

The paper is dedicated to contemporary status of relations between the notions of web as corpus and classic definition of text corpus. Due to apparent similarities and not so apparent differences between web and corpus, naïve users not only perceive and evaluate corpus through respective parameters of the web, but also the notion of corpus itself is being affected by web. Web as corpus is successfully used to accomplish goals of language research, being defined as a purpose-suitable monitor corpus, and at the same time it meets the majority of common requirements to a text corpus. Web differs from corpus considerably by absence of linguistic intent, spontaneous growth out of researcher's ability of control, and specific representativeness of data. However, easy availability of web and higher objective value of web not being a product of human arrangement compensate

these disadvantages to a substantial extent and render web functionally equivalent to text corpus, which calls for ontological re-definition of the latter.

Key words: text corpora; corpus linguistics; web as corpus.

Поводом для написания настоящей статьи стали наблюдения автора, полученные в ходе проведения эксперимента по исследованию прагматического опыта условного неподготовленного наивного пользователя при первом знакомстве и работе с национальным корпусом текстов собственного родного языка. Современный наивный пользователь воспринимает корпус текстов исключительно через призму веба. Это значит, что наивный пользователь не только определяет для себя что есть корпус через уже знакомое понятие веба, но и переносит с веба на корпус все связанные с последним сведения о методах работы, ожидания предполагаемых результатов, а также критерии удачи или неудачи поиска в корпусе и работы с ним в целом. Схожесть интерфейса, методов работы, наполнения корпуса и результатов поиска с аналогичными параметрами и элементами веба и поисковой машины воспринимается положительно, оценивается как успех. Расхождение в методике работы, ожидаемых результатах между корпусом и вебом воспринимается отрицательно, как недостаток корпуса текстов. Отсутствующие в корпусе определения искомых слов по принципу Википедии воспринимаются как пробел в организации корпуса текстов, который требует восполнения. В результате реализации хорошо известного принципа познания неизвестного через известное, нужно признать, что сегодня, в отличие от начала 2000-х гг., наивным пользователем корпус воспринимается как разновидность веба.

Еще больший интерес представляет тот факт, что использование веба в качестве корпуса изменяет представление о последнем, что и является темой данной статьи. В соответствии с современными представлениями о требованиях к корпусу текстов, веб обладает многими существенными признаками корпуса, хотя по ряду аспектов и не укладывается в привычное определение. Тем не менее, для неподготовленной аудитории, веб по отношению к корпусу является первичным явлением действительности, а корпус - вторичным, некоторой надстройкой. Таким образом, пока лингвисты еще рассматривают «веб как корпус», множество обыденных пользователь уже воспринимает «корпус как веб». Эта игра слов, вынесенная в заголовок статьи, знаменует собой становление новой парадигмы, нового уровня

значимости веба для корпусной лингвистики, и, несомненно, требует новых серьезных исследований.

Корпусная лингвистика и веб: основные вопросы. Понятие «веб как корпус» не представляет собой четкого определения, но скорее является некоторым собирательным термином, определяющим интерес к использованию веба для / в качестве / вместо / в дополнение к корпусу. Вагош и ВегпапШш выделяют четыре основных направления работы в рамках подхода «веб как корпус» [2]:

- «веб как «мастерская» корпуса»: исследователи выбирают и скачивают из веба тексты, найденные поисковой машиной, для составления корпусов, как вручную, так и автоматически;

- «веб как суррогат корпуса»: исследователи используют веб вместо корпуса, без применения специальных корпусных менеджеров, через коммерческую поисковую машину, либо через лингвистически-ориентированные метапоисковые машины (например, ^^ЪСогр);

- «веб как полноценный корпус»: исследователи подходят к вебу именно как к полноценному корпусу, с целью описания сущности представленного в вебе языка, либо для описания веб-вариантов существующих языков, в основном, английского;

- «мега-корпус = мини-веб»: наиболее радикальное понимание роли веба в качестве корпуса, попытка создать новый объект (мини-веб/мега-корпус), адаптированный для языкового поиска, и сочетающий признаки корпуса (наличие аннотации, сложные формы запроса, стабильность) и веба (размер, актуальность, веб-интерфейс).

Независимо от принятой различными исследователями концепции, любые разработки в направлении «веб как корпус» так или иначе оказываются не вполне совместимыми с традиционными принципами составления и анализа корпусов. Однако для таких исследований не характерно оспаривать основополагающие принципы самой корпусной лингвистики, а исследования веба как корпуса не представляют собой ни раскол в корпусной лингвистике, ни ответвление от нее. Напротив, исследования веба как корпуса предполагают получение новых ценных знаний в результате сознательного противопоставления принятых стандартов в области составления корпусов и фактически реализуемых возможностей веба, а также противопоставления теории корпусов текстов с фактически существующими инструментами анализа текстового содержания веба.

Как отмечают В. П. Захаров и С. Ю. Богданова [1, с. 71], особенно активно идея о том, что веб может не только служить источником материалов для корпуса, но и сам, непосредственно, может считаться корпусом, начала обсуждаться после публикации доклада А. Килга-риффа «Веб как корпус» в журнале Университета Ланкастера в 2001 г. [4]. В своем инновационном для того времени докладе, Килгарифф описал более значимую связь между вебом и корпусной лингвистикой, чем тогда было принято полагать. Он озвучил надежду на то, что однажды самое крупное собрание аутентичных текстов в машиночитаемой форме сможет использоваться лингвистами в качестве самостоятельного корпуса. Многим знакома завершающая фраза его доклада, получившая с годами самостоятельную жизнь: «Веб - корпус нового тысячелетия» [там же. с. 345]. С тех пор прошло тринадцать лет, веб прочно вошел в обыденную жизнь миллиардов людей. Подтвердились ли прогнозы признанного мэтра корпусной лингвистики?

Сегодня А. Килгарифф свидетельствует о том, что его изначально выдвинутые тезисы о глубоком потенциале веба для корпусной лингвистики оказались справедливыми: «[ранее] во вводных курсах в корпусную лингвистику было принято оставлять описание веба как корпуса на последние главы, как «поле для будущих исследований». И вот, это будущее уже наступило. В 2013 г. более половины населения мира выросло в мире, где веб (вместе с часто неотделимой от него мобильной связью) определяет способ нашей коммуникации, ведения бизнеса и весь образ жизни. ... Если мы [по-прежнему] признаем центральную роль за корпусом из газет и книг, а корпус из блоков и чатов считаем периферийной новинкой, то мы с вами - люди прошлого. Сегодня язык существует онлайн, он доступен через онлайн инструменты, а способы его исследования, обработки и анализа также стали онлайновыми... Google занимает центральное место в нашей жизни, и не так уж сильно отличается от корпусного инструментария. Наверное, первый вопрос непрофессионала, на который сегодня приходится отвечать корпусному лингвисту, когда последний рассказывает о своей работе, это - «А почему бы вам не воспользоваться для всего этого Google?» [3, р. 24].

Фундаментальная трудность признания веба в качестве корпуса хорошо известна. Любой подход к вебу как к корпусу предполагает наличие некоторого определения корпуса, а соответственно, и понимания того, какие массивы текстов могут считаться корпусами.

Известно, что в широком смысле любое собрание из более чем одного текста можно считать корпусом, однако за термином закрепилось некоторое более конкретное значение. В качестве значимых признаков, отличающих корпус текстов от прочих собраний текстового материала, называют форму организации и цель составления. В этом отношении, веб не проходит тест в качестве претендента на роль корпуса, так как, обладая необходимой аутентичностью текстов и их машиночитаемой формой, он полностью лишен лингвистического замысла, и, тем более, теоретически обоснованной структуры. Не менее хорошо, чем процитированные выше слова А. Килгариффа, известно и обратное мнение другого отца-основателя корпусной лингвистики - Дж. Синклера: «Веб - это не корпус, поскольку его размеры неизвестны и постоянно меняются, и потому, что он не был составлен с лингвистической целью» [8].

Отказываясь от непродуктивной войны определений, М. ваИо обращает внимание на фундаментальную разницу между попытками ответить на онтологический вопрос о том, чем является корпус, что имплицитно сводится к деонтологическому вопросу о том, чем должен быть корпус, и более эмпиричным, а потому оправданным, вопросом о потенциале веба, при использовании в режиме корпуса, т. е. «Хорошо ли подходит корпус x для решения задачи у?» Иными словами, указанный автор предлагает не путать два вопроса: «Что есть корпус?» и «Что есть хороший корпус?», поскольку это примешивает в достаточно простой вопрос «Хорошо ли подходит корпус x для решения задачи у?» гораздо менее очевидный и «семантический» вопрос «Является ли х вообще корпусом?» [3].

Такой подход в наших собственных исследованиях многократно освещался в категории так называемых телеологических («целепо-лагающих») определений корпуса текстов, которые строятся по формуле: «корпус - это массив аутентичных машиночитаемых текстов х, пригодных для решения задачи у». С онтологической точки зрения такое определение является чрезмерно широким, поэтому при таком подходе к корпусу текстов в целом, и к вебу как корпусу, в частности, целесообразнее говорить о «корпусности» того или иного массива текстов. Соответственно, если некоторый массив текстов позволяет решать некоторые лингвистические задачи - он обладает «корпус-ностью», если не позволяет - не обладает. Некоторая опасность для попытки все же дать онтологическое определение корпуса текстов

заключается в том, что при такой форме признания за вебом статуса корпуса текстов, со временем, вместо дискуссий на тему преимуществ и недостатков использования веба в качестве корпуса текстов, сами свойства веба начинают оказывать влияние на интерпретацию определения корпуса, следовательно, и на фундаментальные положения корпусной лингвистики, особенно в отношении спонтанности и самостоятельного роста корпуса текстов.

Веб как корпус: аутентичность, репрезентативность, размер. Подход «Веб как корпус» оказывает сильное модифицирующее влияние на классический подход к составлению корпусов текстов еще и потому, что веб обладает рядом характеристик, которые высоко ценятся в классическом определении корпуса. Кратко остановимся на некоторых из них.

Одним из основных требований к корпусному материалу является его аутентичность и естественность контекстов коммуникации. Это выступает одной из наиболее сильных сторон веба в качестве корпуса. В действительности, веб представляет собой массив аутентичных тестов, являющихся результатом естественных коммуникативных событий, имевших место в привычном жанровом окружении естественных дискурсивных сообществ. Кроме того, можно говорить о том, что именно сам по себе веб, в качестве огромного, легкодоступного и бесплатного массива аутентичных данных в машиночитаемой форме, выступает в качестве лучшей рекламы корпусного подхода к исследованию языка и способствует его распространению и развитию. Тем не менее, аутентичность текстового материала в вебе выступает одновременно и его своеобразной «ахиллесовой пятой». В силу того, что в вебе как корпусе не реализовано планирование, контроль и редактирование массива текстов, тексты веба могут быть предельно аутентичными по коммуникативному замыслу и контексту ситуации, но не обладать должной ценностью с точки зрения системы языка и норм речи, например, за счет орфографических и грамматических ошибок, ошибок словоупотребления из-за малограмотности, использования не носителями языка и т. д.

Вторым требованием к корпусу текстов является его репрезентативность. Репрезентативность веба как корпуса вызывает массу весьма обоснованной критики. Дж. Лич утверждает, что «[веб] представляет собой текстовую вселенную непостижимого размера и разнообразия, однако он ни при каких обстоятельствах не может считаться

репрезентативным примером употребления языка в целом» [5, р. 145]. В то время, как в вебе представлен широкий диапазон таких жанров, от устоявшихся в письменной коммуникации за пределами веба до новых жанров, присущих исключительно вебу, как блог или чат, веб в значительной степени лишен частного дискурса в виде повседневных разговоров, телефонных разговоров и подобных жанров. Социальные сети приводят к завышенной представленности в вебе жанров компьютерно-опосредованной коммуникации, где стираются грани между письменной и устной, частной и публичной речью. Помимо этого, веб как корпус страдает рядом чисто технических недостатков, снижающих его репрезентативность, например, так называемое «накручивание» ключевых слов на веб-страницах незаметным для пользователя способом. Данные свойства веба как корпуса оцениваются как негативные с точки зрения классического определения репрезентативности для корпуса текстов, но фактическое существование и успешное применение веба в качестве корпуса способно повлиять на ключевые исходные положения корпусной лингвистики.

Так, если отвлечься от понятия репрезентативности, актуального для собранных вручную корпусов, веб как корпус обладает собственной репрезентативностью, возможно не менее ценной, чем первая. Веб как корпус объективно существует независимо от замысла лингвиста и представляет собой продукт фактических коммуникативных событий во всей широте их социально-географического среза. Таким образом, в вебе репрезентативно представлена такая широта продуктов межкультурных и социально разноуровневых событий языкового взаимодействия, которая, по объективным причинам, не может быть спланирована заранее. Хотя такой аспект репрезентативности и можно назвать периферийным, его значимость невозможно полностью оставить без внимания. В результате, имеет право на существование точка зрения, что такие свойства веба, как оперативность обновления текстов в вебе, широта его географического и социального охвата и, конечно, огромный размер, в некоторой степени (возможно в значительной) нивелируют его жанровую несбалансированность, следовательно, сниженную репрезентативность. Наконец, репрезентативность веба как корпуса постоянно растет автоматически, хотя по математическим причинам веб растет непрерывно, а по мере роста его размера нарастает номенклатура жанров и выравниваются количественные жанровые перекосы. Иными словами, проигрывая

составленному с лингвистическим замыслом корпусу текстов в жанровой сбалансированности, веб как корпус значительно выигрывает перед ним же по объективности данных из-за полного отсутствия человеческого фактора в определении состава текстов.

Третьим значимым параметром для восприятия веба как корпуса является его размер, который тесно связан с понятием репрезентативности, и, по сути, является его количественным аспектом. В этом отношении развитие информационных технологий и рост веба сыграли злую шутку с идеологией корпусной лингвистики. Собственно, мотивацией появления корпусов текстов на заре корпусной лингвистики стало стремление приблизить методы исследования языка к естественно-научным, количественным. Но в то время, как еще в 1991 г. Дж. Синклер мог спокойно призывать к тому что «корпус должен быть чем больше, тем лучше, и его размер должен продолжать расти» [7, р. 18], всего немногим более 30 лет понадобилось на то, чтобы пройти путь от Брауновского корпуса в миллион слов до 100 триллионов (1014) слов в вебе на сегодняшний день, при постоянном темпе роста объема данных порядка 100 терабайт в месяц. Еще в 2001 г., McEnery и Wilson определили конечность размера как одну из неотъемлемых характеристик корпуса [6, р. 30], однако с самых ранних шагов корпусной лингвистики признавалось право на существование так называемых мониторных корпусов текстов, которые «не имеют конечных границ, потому что продолжают развиваться, как и сам язык» [7, р. 25]. Таким образом, имеются все основания считать веб именно мониторным корпусом, для которых вполне допускается некоторая внеплановость и меньшая сбалансированность, поскольку объем данных компенсирует собой строгость отбора текстов в корпус.

Здесь и возникает парадокс: тогда как на заре корпусной лингвистики исследователи стремились к наращиванию размера корпуса текстов как к средству обеспечения объективности результатов исследования, появление веба как корпуса привело к серьезным сложностям именно по причине его огромного размера, но главное - бесконечного и спонтанного роста. Веб как корпус, благодаря мощным современным поисковым машинам, вплотную приблизил человечество к ис-числяемости и конечности языка: уже давно подсчитано количество и составлены списки всех n-грамм языка (устойчивых комбинаций из n слов). На основе 5-грамм (пентаграмм) давно построены вероятностно-статистические системы машинного перевода, в первую

очередь - Google Translate. Благодаря вебу, язык (по крайней мере, английский) уже несколько лет как прошел полную инвентаризацию. Постижимо ли было бы теперь отказать вебу в статусе корпуса?

Каким бы не был фактический размер веба, вполне понятно, что по количеству слов веб превосходит любые существующие корпуса, и что желательный размер корпуса, вероятно, не только уже достигнут, но и превосходит любые потребности лингвиста. Это значит, что веб как корпус радикально изменяет значение понятия размера как базового требования к корпусу текстов.

На современном этапе развития корпусной лингвистики отчетливо прослеживается переход проблематики «веб как корпус» с периферии на центральное место в исследовании языка количественными методами в рамках корпусного подхода. В пределах телеологического определения, веб как корпус успешно применяется для решения исследовательских задач корпусными методами, и воспроизводит многие существенные признаки корпуса текстов: аутентичность текстов, их машиночитаемый формат и средства навигации по материалу, репрезентативность материала (в соответствии с идеологией мониторного типа корпуса), а также более чем достаточный размер. Сочетание этих условий с доступностью веба как корпуса, по мере роста доли компьютерно-опосредованной коммуникации в современном мире, ставит вопрос о необходимости коррекции современных представлений о классическом корпусе текстов. Это связано с тем, что, являясь корпусом, с теми или иными оговорками, веб находится в конфликте с традиционными представлениями о необходимости наличия лингвистического замысла, подконтрольности роста и структурированности текстового материала. На практике это можно наблюдать в виде первичного восприятия корпуса текстов наивным пользователем в качестве варианта веба, и необходимости определять корпус по аналогии с вебом. Представления о структуре, принципах наполнения и работы с вебом устойчиво проецируются на взаимодействие такого пользователя с корпусом, оказывают глубокий прагматический эффект на оценку и результаты такого взаимодействия.

СПИСОК ЛИТЕРАТУРЫ

1. Захаров, В. П., Богданова, С. Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. - Иркутск : ИГЛУ, 2011. - 161 с.

2. Baroni M., Bernandini S. Wacky! Working Papers on the Web as Corpus. - 2006. - URL: http://wackybook.sslmit.unibo.it (дата обращения: 18.05.2014).

3. Gatto M. The Web as Corpus: theory and practice. - Bloomsbury Academic : London, New York, 2014. - 256 p.

4. Kilgariff A. Web as Corpus. - 2001. - URL: http://ucrel.lancs.ac.uk/publica-tions/CL2003/CL2001%20conference/papers/ kilgarri.pdf (дата обращения: 18.05.2014).

5. Leech G. New resources or just better old ones? The Holy Grail of representativeness. - URL: http://www.lancaster.ac.uk/fass/doc.library/ linguistics/ leechg/leech_2006_heidelberg.pdf. - 2007 (дата обращения: 18.05.2014).

6. McEnery T., Wilson A. Corpus Linguistics. - Edinburgh : Edinburgh University Press, 2001. - 256 p.

7. Sinclair J. Corpus, Concordance, Collocation. - Oxford : Oxford University Press, 1991. - 197 p.

8. Sinclair J. Corpus and Text. Basic Principles // Developing Linguistic Corpora: a Guide to Good Practice. - Oxford : Oxbow Books, 2005. - P. 1-16.

«Веб как корпус» или «Корпус как веб»: новая реальность корпусной лингвистики Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мордовин А.Ю.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Мордовин А.Ю.

«Web as corpus» or «corpus as web»: the new reality of corpus linguistics

Текст научной работы на тему ««Веб как корпус» или «Корпус как веб»: новая реальность корпусной лингвистики»