Научная статья на тему 'К вопросу о жанровой полноценности современных неспециализированных корпусов текстов'

К вопросу о жанровой полноценности современных неспециализированных корпусов текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
287
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУС ТЕКСТОВ / РЕПРЕЗЕНТАТИВНОСТЬ / КОРПУСНАЯ ЛИНГВИСТИКА / ЖАНРЫ / TEXT CORPUS / REPRESENTATIVENESS / CORPUS LINGUISTICS / GENRES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мордовин Алексей Юрьевич

В статье выполнен анализ масс-медийного дискурса, рефлективного дискурса и аннотаций к различным корпусам текстов с целью выявить основные тенденции и проблемы развития корпусов. Обнаружено, что большинство корпусов текстов характеризуются несбалансированностью жанрового состава, отсутствием четкой жанровой программы. Выявлены некоторые способы замены труднодоступного устного языкового материала

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «К вопросу о жанровой полноценности современных неспециализированных корпусов текстов»

ББК81.1

УДК 81'322; 004.934; 004.912

А.Ю. Мордовии

К ВОПРОСУ О ЖАНРОВОЙ ПОЛНОЦЕННОСТИ СОВРЕМЕННЫХ НЕСПЕЦИАЛИЗИРОВАННЫХ КОРПУСОВ ТЕКСТОВ

В статье выполнен анализ мае с-медийного дискурса, рефлективного дискурса и аннотаций к различным корпусам текстов с целью выявить основные тенденции и проблемы развития корпусов. Обнаружено, что большинство корпусов текстов характеризуются несбалансированностью жанрового состава, отсутствием четкой жанровой программы. Выявлены некоторые способы замены труднодоступного устного языкового материала.

Ключевые слова: корпус текстов; репрезентативность; корпусная лингвистика; жанры.

A. Yu. Mordovin

COMPLETENESS OF GENRE COMPOSITION OF MODERN NON-SPECIALIZED TEXT CORPORA REVISITED

This article contains analysis cf mass-media discourse, nflective discourse and annotations related to various text corpora. The analysis aims to determine key trends and problems in corpora development. It is observed that majority cf corpora may be referred to as having unbalanced genre composition and lacking a clear genre plan. Certain popular replacements for hard-to-obtain types cf texts are also analyzed.

Key words: text corpus; representativeness; corpus linguistics; genres.

Данная статья представляет собой продолжение попытки осмыслить мета-теоретические посылки корпусной лингвистики с целью определить существенные положения последней в структуре наук о языке. В предыдущей статье автор изложил некоторые выводы, связанные с понятием репрезентативности корпуса текстов. Предметом настоящего исследования выступают формы рефлексии и анализа целей, задач, достижений и методов исследования корпусной лингвистики в современном англоязычном масс-медийном дискурсе, рефлективном дискурсе составителей корпусов и в официальных аннотациях к корпусам текстов.

Напомним, что под корпусом текстов традиционно подразумевается крупный структурированный набор текстов, предназначенный для определенной исследовательской, дидактической, лингвокультурологической цели. Корпус текстов можно дифференцировать от других собраний текстов по двум основным признакам: аннотированности и структурированности (в том числе жанровой). Несмотря на то, что корпусы текстов начали составляться уже в середине 19 века, качественно новый этап их развития связывают с компьютерной «революцией» последнего десятилетия.

Наибольший интерес в метатеоретическом плане представляют собой моноязычные корпусы текстов современных языков общего назначения. Именно с началом исследований на их основе со-

временная корпусная лингвистика прогнозирует революцию в подходе к исследованию языка. Наиболее перспективными направлениями исследований называются: статистический анализ, проверка филологических гипотез, анализ частотности словоупотреблений и апробация выведенных языковых правил. Первоочередными областями научной мысли, способными воспользоваться достижениями корпусной лингвистики, называют машинную лингвистику, исследования в области распознавания речи, в области искусственного интеллекта и машинного перевода, а также лингводидактику.

В высокой значимости ожидаемых результатов исследований позволяет убедиться выборочный анализ масс-медийного дискурса, посвященного составлению корпусов текстов. Для целей данной статьи именно масс-медийный дискурс, ориентированный на общую аудиторию, представляет собой большую ценность, чем специализированные публикации исследователей.

Так, автор статьи, опубликованной в газете New York Times в 2002 году, отмечает, что если уподобить существовавшие до появления современных компьютерных технологий корпусы текстов велосипеду, то с появлением этих технологий корпусная лингвистика получила в свое распоряжение мотоцикл. Цитируемая в этой же статье Сьюзан Конрад, соавтор книги «Corpus Linguistics: Investigating Language Structure and Use», профессор

прикладной лингвистики в Portland State University, утверждает, что, поскольку любое применение корпусов текстов к исследовательским целям без компьютерных технологий было связано с огромными затратами усилий и времени, прошлую эпоху их существования следует сравнивать с хождением пешком, но не с велосипедом.

В заметке, опубликованной в 2004 году в газете Chicago Tribune, [Маккин, 2004] Эрин Маккин, старший редактор американских словарей издательства Oxford University Press, предлагает оценить степень инновационности технологии обработки языка в корпусах текстов с помощью следующей метафоры. Ранее использовавшиеся методы лингвистического исследования уподобляются «отлову бабочек по-викториански», то есть когда исследователь, «вооружившись сачком, отлавливает несколько бабочек, приносит домой и, обработав их хлороформом, прикалывает булавками к подушечкам и помещает за стеклом в своем кабинете». Ирония исследователя очевидна.

По сути, данный дискурс является аргумента-тивным, ведь описанный выше карикатурный образ филолога прошлого противопоставляется новому, «экологичному» способу анализа языка. Работу по исследованию корпуса текстов автор готов сравнить с сафари, когда за словами исследователь наблюдает в их «естественной среде обитания», изучая при этом, как слова ведут себя «в стаде». В век исследования экосистем автор заметки предлагает уподобить английский язык экосистеме. Тогда наиболее эффективным способом ее исследования автор предлагает отграничение некоторой репрезентативной площади и инвентаризацию всех форм жизни и их взаимоотношений в ее пределах. Наиболее ярким аргументом в пользу корпусной лингвистики у данного автора следует назвать метафору словаря как ящика стола исследователя, где тот хранит коллекцию засушенных насекомых, тогда как корпус текстов представляется автору настоящими джунглями.

Ограничившись приведенными выше высказываниями в публикациях СМИ в пользу высокой ценности корпусной лингвистики, перейдем к анализу некоторых сложностей при составлении корпусов текстов, которые указываются в качестве приоритетных.

Так, например, в отмеченной выше статье руководитель проекта American National Corpus профессор английского языка Северного университета штата Аризона справедливо отмечает, что ограничиться одной областью словоупотребления, указав на ее репрезентативность, для английского языка крайне сложно, поэтому в качестве рецепта предлагает включать в корпус «различные типы ситуа-

ций говорения и письма», то есть обеспечить необходимый уровень жанрового разнообразия.

Карл Биалик, автор статьи, опубликованной в газете Wall Street Journal 12 сентября 2008 года [Bialik, 2008], указывает на то, что в ходе корпусных исследований текста непрерывно возникают трения между размером, затратами на составление корпуса и его репрезентативностью, которые могут подвергать сомнению количественные результаты таких исследований. Например, в то время как излюбленным материалом для наполнения корпусов текстов выступают записи университетских лекций и телевизионных программ, такие тексты могут значительно отличаться от частных разговоров. Тексты, опубликованные в сети Интернет, позволяют значительно удешевить и упростить поиск нужных текстов, однако они склонны значительно искажать естественные речевые модели.

Наиболее значимым неприятным следствием все более популярного применения сети Интернет для наполнения корпусов автор отмечает «дискриминацию» тех жанров, которые не оказываются опубликованными в сети, например, беллетристика. Кроме того, по мнению автора, в сети Интернет «игнорируются устные источники, которые недостаточно представлены в корпусах. Это связано с тем, что сбор устных текстов намного сложнее и дороже, чем письменных». Наконец, письменные тексты, отобранные в корпусы из сети Интернет, часто не позволяют дифференцировать вариант английского языка - британский, американский или иной.

Исследователь-лингвист Энн О’Кифи из Магу Immaculate College the University of Limerick, Ирландия утверждает, что без достаточного количества устных текстов в корпусе оказывается невозможно увидеть некоторые тонкие особенности словоупотребления; тогда как Лу Бернард, один из членов команды, создавшей Британский Национальный Корпус в начале 1990-х годов, готов подтвердить, что стоимость отбора 10 миллионов слов из устных источников в то время равнялась стоимости отбора 50 миллионов слов из письменных.

Данные издержки напрямую связаны еще и со строго соблюдаемым в западном мире авторским правом. Так, например, тексты из Интернет демонстрируют еще одно дополнительное неудобство: их полноценный анализ и публикация результатов невозможны без получения согласия автора текстов, что не всегда возможно по объективным причинам.

Для аналогии отметим, что в составе Русского национального корпуса по состоянию на середину 2008 года содержится всего 3,9% устных текстов.

Таким образом, авторы и интервьюируемые исследователи в аннотированных выше публикациях сходятся во мнении, что одной из наиболее важных проблем при составлении корпусов текстов является их недостаточное наполнение устными текстами.

Мы полагаем выделяемую категорию «устных» текстов неудовлетворительно точной. Попытаемся проанализировать последовательность жанровой структуры нескольких корпусов текстов с целью более точно определить «устный» компонент корпусов текста.

В качестве образца внимательного отношения к жанровому наполнению корпуса можно взять упомянутый выше Русский национальный корпус (100 миллионов словоупотреблений). В его составе тексты делятся на три основные категории: художественные, нехудожественные и устные. Художественные делятся по жанрам на: детективы, детскую литературу, автобиографии и т.д., нехудожественные - на сферы функционирования (бытовая, официальная, производственная и т.д.), а также на тематики (бизнес, здоровье, искусство, криминал и т.д).

Устные тексты делятся на типы (публичная, непубличная речь, речь кино). Характерно, что на публичную речь приходится около 65%, на непубличную - 8%, а оставшиеся 27% - на речь кино.

Несмотря на гораздо большее внимание отечественных лингвистов к жанровой сбалансированности корпуса по сравнению с западными коллегами, такое деление текстов на жанры по-прежнему не может не вызывать вопросов.

Во-первых, почему публичная устная речь не делится по сферам функционирования или по тематике, подобно нехудожественным текстам? Во-вторых, каков жанровый (функциональный, тематический) состав непубличной речи? Наконец, почему, если речь кино выделяется в составе устных текстов по признаку художественный-нехудожественный текст, она оказывается в оппозиции сразу к двум остальным подвидам устной речи?

Обратимся к зарубежным крупным корпусам. Представленную на сайте составителей Американского национального корпуса (около 14 миллионов словоупотреблений в свободном доступе) жанровую структуру корпуса не так просто привести к привычному для нас виду. Тем не менее мы видим, что объем устных текстов составляет около 15% от общего объема, однако описание жанров устных текстов откровенно разочаровывает - их только два: разговоры лицом к лицу (Гасс го Гасс) и по телефону. При этом объем телефонных разговоров составляет около 93% от общего объема устных текстов. Жанры письменных текстов включа-

ют: правительственные отчеты, туристические руководства, художественные тексты, журнальные статьи и т.д. Классификация жанров по дифференцирующим признакам не приводится.

Корпус современного американского английского (ССАЕ) насчитывает около 385 миллионов словоупотреблений. Жанровая стратегия составителей этого корпуса отличается большей количественной принципиальностью, чем в описанных выше случаях. Количество словоупотреблений в текстах, разбитых на пять групп, примерно одинаково - 70-80 миллионов. Это позволяет пользователю при выдаче запроса частотности автоматически видеть разбивку частотности по жанрам. Наглядность и простота такого анализа впечатляют, однако наименования жанров и характер их наполнения вновь ставят в тупик. Пять групп текстов называются следующим образом: устные, художественные, популярные журналы, газеты, научные журналы.

Как видно из перечисления, при равных процентных долях этих групп, более 60% корпуса составляет язык СМИ, о специфичности которого написано масса учебных пособий, монографий и научных работ! Словно предчувствуя критику пользователей корпуса, авторы пытаются защитить пригодность каждой группы текстов для целей исследования. Так, в отношении популярных журналов авторы утверждают, что журналы представляют собой «хорошую смесь» (дословно «good mix») из различных областей интересов и равномерно подобраны в объемных долях как по названиям журналов, так и количеству материала, отобранного из разных номеров журнала в пределах года и по годам.

Репрезентативность газетных текстов, отобранных из 10 газет, по мнению авторов, обеспечивается их географическим разбросом. Кроме того, авторы вновь утверждают, что газетные тексты представляют собой «хорошую смесь» из различных газетных рубрик.

Наконец, доказательством репрезентативности группы текстов из научных журналов авторы называют подборку журналов согласно тематической классификации библиотеки Конгресса США. Также выдерживается равномерная подборка журнальных текстов по названиям и по номерам в течение года, аналогично газетным публикациям.

При столь ответственном подходе авторов к жанровому разнообразию неожиданно механически оказывается наполнен раздел «устных текстов» - в него входят записанные тексты из более чем 150 различных телевизионных и радиопрограмм, то есть вновь, по сути, медийный дискурс.

Обратимся к еще более крупному корпусу, состоящему из более 585 миллионов словоупотре-

блений - корпус Bank of English, составленный под руководством крупнейшего издательского дома Collins. Подробная количественная информация о жанровом составе корпуса на главной странице сайта не приводится вообще. Авторы утверждают, что в корпус входят тексты из всех существующих жанров, включая устную речь. Убедиться в этом можно, лишь подписавшись на использование корпуса. Тем не менее из описания корпуса известно, что его аннотированная часть (около 200 миллионов словоупотреблений) состоит только из письменных текстов (публикации газет Times, The Observer, вещание ВВС, журналы, американская и художественная литература). И вновь мы сталкиваемся с наполнением корпуса масс-медийным дискурсом.

Самый крупный из существующих корпусов текстов, известных автору статьи, - Оксфордский корпус английского языка - включает в себя более 2 миллиардов словоупотреблений. Прежде чем описать его жанровую структуру, стоит заметить, что почти весь объем текстов в этом корпусе получен из сети Интернет, и лишь небольшое количество бумажных публикаций было включено для доведения до необходимого размера отдельных разделов корпуса. Жанровое наполнение корпуса довольно разнообразно; оно включает в себя следующие виды текстов: научные статьи, технические инструкции, журналы, газетные рубрики, материалы с корпоративных и субкультурных вебсайтов, записи личных веб-дневников и чатов.

Тематически корпус разбит на 20 компонентов, каждый из которых подразделяется на еще порядка 40 более мелких секторов. Выделяемые группы имеют весьма общие названия: медицина, религия, право, спорт и т.д. 50% от объема корпуса приходятся на 3 тематики: художественная литература, новости и веб-дневники. Вторая половина объема делится на оставшиеся 17 тем.

Авторы предупреждают пользователей, что в рамках одной и той же тематики намеренно представлены тексты различных регистров: от формальных до неформальных. Корпус охватывает период с 2000 по 2006 год, 80% текстов могут быть отнесены к США и Великобритании, остальные 20% - к прочим англоговорящим странам мира. Уникальное само по себе собрание текстов обладает все тем же недостатком - фокусируется исключительно на письменных текстах, опубликованных в сети Интернет со всеми вытекающими описанными выше недостатками.

Таким образом, результаты анализа данных о составе корпусов в совокупности с выборочным анализом масс-медийного дискурса позволяют убедиться в наличии некоторых прочных доминант:

1) при составлении корпусов текстов отчетливо прослеживается тенденция к включению значительно большего количества письменных текстов, чем устных;

2) тщательное соблюдение авторских прав приводит к неравномерности представления различных жанров даже среди письменных текстов;

3) несмотря на большой прогресс, достигнутый в технологиях машинной обработки подготовленных текстов, сбор и перевод в письменную форму устных текстов по-прежнему связан со значительными финансовыми и трудовыми затратами;

4) в связи с указанными выше обстоятельствами наблюдается тенденция заменять аутентичные устные тексты масс-медийным дискурсом;

5) наполнение корпусов текстов «электронными» текстами из сети Интернет в данный момент выступает в качестве наиболее количественно продуктивного и популярного способа замены устного дискурса.

Имеются ли обратные примеры, когда первостепенное значение уделялось бы именно устным текстам? Да, и одним из наиболее ярких выступает Международный корпус английского языка (ICE). Данный корпус относится к числу сопоставительных и предназначен для контрастивного анализа различных вариантов английского языка. На данный момент составлены подкорпусы английского языка для таких стран, как Восточная Африка, Гонконг, Индия, Ирландия и т.д. (всего 7 стран). Каждый корпус представляет собой собрание из 500 текстов по 2000 слов, т.е. 1 миллион словоупотреблений, однако 60% из них - это транскрибированные аутентичные разговорные тексты.

Такая установка, несомненно, делает честь авторам корпуса, однако отметим, что речь вновь идет о весьма незначительном по объему материале - порядка 600 000 словоупотреблений на каждый подкорпус, несмотря на то, что проект существует уже 19 лет! Видимо, вновь вмешиваются ограничения объективного характера.

Данная статья не имеет цели только описать имеющие место тенденции развития корпусов текстов и не представляет собой попытки критиковать уже существующие проекты в области корпусной лингвистики. Цель автора - внести программное заявление о необходимости пересмотра самого процесса составления корпусов текстов в будущем.

При анализе рефлективного дискурса представителей корпусной лингвистики, посвященного ей масс-медийного дискурса или пояснительных записок к уже существующим корпусам текстов,

удивляет направленность мысли составителей. Как видно из изложенного выше, жанровый дисбаланс (более или менее значимый) корпуса текстов, претендующего на отображение всего богатства употребления языка за определенный период времени, оценивается составителями и аналитиками как некоторая данность. В погоне за размером корпуса составители с готовностью жертвуют «неудобными» или «затратными» жанрами, методами сбора материала. Воспользовавшись метафорой, процитированной на первых строках данной публикации, можно сказать, что желая описать всю экосистему языка, такие исследователи выбирают репрезентативные участки на «солнечных пригорках», тогда как труднодоступные болотистые кочки остаются нетронутыми.

Удивительно и то, что, в особенности, в западных корпусах текстов, заявленных как универсальные, авторы не предпринимают попыток проанализировать жанровый состав речевой деятельности некоторого усредненного носителя языка или, по крайней мере, не желают сообщить пользователю корпуса о том, что такие попытки предпринимались. Сбалансированность жанровой структуры редко обосновывается, а обоснования критериев для выделения жанров обнаружить не удается совсем.

При анализе выделяемых жанровых категорий без труда обнаруживается отсутствие единообразия классификации жанров, перекрещивание различных категорий между собой, а также «выпадение» определенных вариантов наличия/отсутствия жанрообразующего признака, которое автоматически приводит к невключению того или иного жанра в корпус.

Таким образом, не отрицая значимости указанных сложностей, связанных со сбором устного и труднодоступного языкового материала, автор полагает, что при позиционировании корпуса текстов как универсального, его составители тем не менее обязаны вначале представлять пользователю четко мотивированный жанровый «манифест» корпуса, а затем неукоснительно выдерживать выбранную количественную пропорцию «удобных» и «неудобных» жанров. Непропорциональный рост объема корпуса допускаться не должен.

Несомненно, отдельной темой для исследования заслуживает стать правомерность построения корпусов текстов на основании материалов, опубликованных в глобальной информационной сети Интернет. На начало 2009 года глобальное число пользователей Интернет составило более 1 миллиарда людей. Несмотря на то, что это количество составляет лишь незначительный процент от населения всего земного шара, в это число входит значительное количество потребителей корпусов тек-

стов. Подробное исследование могло бы вскрыть или опровергнуть наличие вероятности того, что в речевом окружении потенциального потребителя корпуса текстов уже сейчас присутствует значительное количество именно «электронных» жанров. Если такое предположение окажется верным, то составление корпусов на основе «электронных» текстов окажется не только оправданным, но и желательным.

В целом, в этом отношении нельзя не отметить, что за последние десятилетия в дискурсе человека, особенно англоговорящего, появляется качественно новый признак - отсутствие или наличие возможности легко записать, а затем восстановить сказанное. Эта характеристика относится ко всем современным видам коммуникации, основанным на компьютерных технологиях. А поскольку практически любой дискурс может быть сохранен для последующего извлечения, постепенно теряется таинственность и самого слова. Поговорка о том, что «слово - не воробей», становится все более актуальной.

В этом смысле можно исследовать корпусы текстов, особенно устных текстов, как принципиально новый феномен - как «замороженное» бытие, возможность обращения и контакта с которым - это вообще ранее неизведанный для человека вневременной и внепространственный опыт. Возможно, впервые в истории человечества в корпусах текстов язык по-настоящему обезличивается, отрывается от автора. Возникает возможность наконец-то прикоснуться к тому, что раньше удавалось нащупывать только силой интуиции и непременно долгого языкового опыта. Нет, не изобретение звукозаписывающей и компьютерной техники является самым главным элементом новизны корпусной лингвистики. Самое главное - это возможность заставить замереть во времени сам язык.

Итак, теоретикам корпусной лингвистики еще предстоит доказать научному сообществу, что переход на исследование языка в виде корпусов - это действительно переход на исследование языковой экосистемы, а не создание большой и технологичной витрины, в которой хранятся «засушенные бабочки».

Библиографический список

1. CARL BIALIK Making Every Word Count * SEPTEMBER 12, 2008 http://online.wsj.com/article/

SB122117665019625899.html

2. Nathan Bierma Tribune Published March

25, 2004 https://listserv.temple.edu/cgi-bin/

wa?A2=ind0403d&L=mmc&P=2356

3. Corpus Linguistics By JOHN ROSENTHAL Published: Sunday, August 18, 2002 http://www.ny-times.com/2002/08/18/magazine/180NLANGUAGE. html?pagewanted= 1

i Надоели баннеры? Вы всегда можете отключить рекламу.