Научная статья на тему 'Об использовании корпусов в лингвистических исследованиях'

Об использовании корпусов в лингвистических исследованиях Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
7005
1190
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДИКА ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ / КОРПУСНАЯ ЛИНГВИСТИКА / ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ / РЕПРЕЗЕНТАТИВНОСТЬ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ганиева И. Ф.

Данная статья посвящена проблеме использования корпусов текстов в лингвистических исследованиях. Рассматриваются основные понятия корпусной лингвистики, виды корпусов и принципы их формирования. В заключении дискутируется вопрос о потенциале корпусной лингвистики в контрастивных исследованиях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об использовании корпусов в лингвистических исследованиях»

УДК 802/809.1-52+811.112.2

ОБ ИСПОЛЬЗОВАНИИ КОРПУСОВ В ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЯХ

© И. Ф. Ганиева

Башкирский государственный университет Россия, Республика Башкортостан, г. Уфа, 450000, ул. Фрунзе, 32.

Тел.: +7 (347) 272 62 05.

Данная статья посвящена проблеме использования корпусов текстов в лингвистических исследованиях. Рассматриваются основные понятия корпусной лингвистики, виды корпусов и принципы их формирования. В заключении дискутируется вопрос о потенциале корпусной лингвистики в контрастивных исследованиях.

Ключевые слова: методика лингвистического исследования, корпусная лингвистика, параллельный корпус текстов, репрезентативность.

Отношение к эмпирическим данным всегда считалось одним из центральных вопросов лингвистической теории [1, с. 53]. На наш взгляд современная исследовательская ситуация характеризуется противостоянием традиционного (все еще доминирующего) и нового (пока находящегося в стадии становления) подходов к сбору языкового материала.

Для демонстрации специфики традиционного подхода позволим себе пространную цитату из Е. В. Падучевой: «Следует сказать о языковом материале работы. Часть приводимых примеров заимствована из словарей и из цитируемой лингвистической литературы (если пример не носит принципиального характера, ссылка на лингвистический источник иногда опускается). Некоторые примеры взяты из картотеки Словаря русского языка Ленинградского отделения Института языкознания АН СССР. Литературный источник примера указывается обычно лишь в том случае, если он почему-либо представляет специальный интерес - например, если правильность предложения может быть поставлена под сомнение. Широко используются и «искусственные» примеры» [2, с. 5]. Лингвистическое описание основывается на интуитивных суждениях, а лучшим способом получения знаний считается не работа с текстами, а использование интуиции носителя языка [3, с. 335]. Задача лингвиста видится, в первую очередь, в экспликации правил, достоверно известных носителю языка, в переведении «туманных, интуитивных концептов в рациональные формы». Исследователь «описывает не множество эмпирически доступных высказываний, а, скорее, языковую интуицию, определяющую правильность или неправильность всех мыслимых высказываний вообще», что достигается путем методичного самонаблюдения и размышления [4, с. 439]. Подобный подход характеризует многие работы последних десятилетий, зачастую авторы используют эмпирический материал лишь на фазе верификации гипотезы, а сами примеры носят случайный («как повезет»), иногда даже спорадический характер. Думается, что мы имеем дело не с сознательным игнорированием эмпирической со-

ставляющей, а с отсутствием ее сенсибилизации, что, однако, имеет следствием нарушение логики познавательного процесса: материал - гипотеза -проверка - уточнение гипотезы - теория. Действительная же теория познания «выявляет и затем описывает образования, имеющие собственную, естественную жизнь, продуктом которой являются наши мнения, и наблюдение которой позволяет формулировать законы как необходимые отношения, вытекающие из природы вещей [6, с. 19].

Такое описание «собственной, естественной жизни» явлений становится возможным благодаря бурно развивающейся в последние десятилетия корпусной лингвистике, имеющей в качестве своего предмета корпус как большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач [7, с. 4-5]. На корпусах текстов можно проверять лингвистические гипотезы, теории, они могут использоваться для любых практических работ с языковым материалом, в частности, как массивы текстовых примеров на все трудные явления языка. Достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений. Данные разного типа находятся в корпусе в своем естественном окружении, что дает возможность их всестороннего и объективного изучения. Именно корпус позволяет получать данные, недоступные при традиционных методах лингвистического анализа (интроспекция, анкета, опрос информантов), а выводимые обобщения имеют статус не интроспективной догадки, как при традиционном подходе, но эмпирически наблюдаемого факта [8, с. 4].

Корпусная лингвистика как относительно молодая наука характеризуется некоторой терминологической нечеткостью. Так, до сих пор нет единодушия в отношении термина «корпус», параллельно используются две формы множественного числа «корпусы» и «корпуса». Анализ узуса специалистов свидетельствует в пользу форм «кор-

Вестник Башкирского университета. 2007. Т.12, №4

105

пуса», «корпусной», «корпусная» [9; 7, с. 14]. Сомнению подвергается и параллельное использование терминов «языковой корпус» и «лингвистический корпус». А. А. Поликарпов исключает употребление последнего, поскольку, по его мнению, «лингвистический корпус - это некий корпус, касающийся науки о языке, но не языка. Следует сказать, что этой ошибки в употреблении термина «лингвистический» квалифицированный лингвист не допустит» [10]. Принципиальное значение имеет и следующее терминологическое разграничение: корпусная лингвистика как теория, с одной стороны, и как метод, с другой. Компьютерная лингвистика как теория представляет собой «раздел ... лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий» [7, с. 3]. При использовании же корпусов как источника достоверных данных о фонетической, морфологической, синтаксической и семантической структуре языка речь идет скорее о корпусном подходе как методе лингвистического исследования [11; 9]. В этом случае особое значение приобретает репрезентативность как важнейшая характеристика корпуса.

Поскольку корпус - это уменьшенная модель языка или подъязыка [7, с. 5] , его репрезентативность определяет достоверность полученных на его основе данных, поэтому вопрос можно рассматривать и «как проблему адекватного отражения, адаптации или интеграции больших массивов текстов или некоторых иных фрагментов речевой деятельности в существенно меньший по объему корпус текстов» [12]. Репрезентативность - это не столько объем материала, сколько пропорциональность представления отображаемого фрагмента речевой действительности. Значительное увеличение объема исследуемого корпуса не обеспечивает увеличения его достоверности. Гораздо важнее более тщательная выборка текстов при планировании корпуса и его использовании. Такая постановка вопроса выводит нас на проблему типологии корпусов.

По критериям репрезентативности и отбора текстов различаются два основных типа корпусов:

• корпуса, относящиеся ко всему языку;

• сознательно смещенные корпуса (У. Э. Френсис), относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной социальной группы и т.п.) [7, с. 12; 3, с. 334].

Входящие в первый класс корпуса строятся на основе принципа дедукции - движения от общего к отражающему это общее частному корпусу текстов. Они универсальны и имеют целью отражение всего многообразия речевой деятельности, существующей независимо от исследователя. Такие корпуса доступны полностью или частично всем заинтересованным лицам через Интернет. Среди современ-

ных корпусов наиболее известны традиционные: Британский национальный корпус British National Corpus (http://thetis.bl.uk), насчитывающий около 100 млн словоупотреблений, и Мангеймский корпус немецкого языка (около 1 млрд словоупотреблений) (http://corpora.ids-mannheim.de/~cosmas). В последнее время все более популярным среди германистов становится и создаваемый Лейпцигским университетом корпус современного немецкого языка (http://wortschatz.uni-leipzig.de). В России в последние годы создание корпусов также осознается как одна из актуальных задач компьютерной лингвистики. Уже функционирует Национальный корпус русского языка (НКРЯ), представленный по адресу http://ruscorpora.ru. Ведется работа по созданию представительного национального корпуса русского языка (Большой корпус русского языка БоКР), объемом не менее чем в 100 млн словоформ (bokrcorpora.narod.ru).

Корпуса второго класса строятся специально для отражения некоторого лингвистического или культурного феномена. Здесь критерий отбора текстов для корпуса задается его создателем в зависимости от целей практической или научной деятельности. Методологии построения данного типа корпусов индуктивны и занимаются проблемой корректности отражения описываемого феномена в корпусе текстов, призванным отразить в себе этот феномен [12]. К русскоязычным корпусам данного типа можно отнести, например, Компьютерный корпус текстов русских газет конца ХХ-го века (http://www.philol.msu.ru/~lex/corpus) и Корпус политических метафор.

В зависимости от материала, положенного в основу корпуса, и способа его организации, а также конкретных целей его использования существуют несколько классификаций корпусов. Например, в зависимости от классифицирующего признака выделяются: по типу данных письменные, речевые и смешанные корпусы, по признаку параллельности -одноязычные, двуязычные и многоязычные массивы и т.д. [7, с. 12-13]. С точки зрения использования лингвистами, наиболее значимыми считаются исследовательские, иллюстративные, статические, динамические виды корпусов, а также корпусы параллельных текстов [14, с. 167].

В заключении несколько слов о потенциале корпусной лингвистики в контрастивных исследованиях. Наиболее перспективным в этом направлении представляется разработка параллельных корпусов текстов ПКТ), состоящих из множества исходных тестов (оригиналов) и их переводов на один или несколько языков. Использование ПКТ, помимо преимуществ одноязычного корпуса при изучении отдельного языка, создает практически оптимальные условия для проведения исследования проблем передачи различных языковых значений в сопоставляемых языках, поиска использующихся в

переводческой практике эквивалентов. На необходимость подобного рода исследований указывал уже В. Г. Гак, когда утверждал, что, «сравнивая переводы с подлинником, мы сплошь и рядом обнаруживаем такие лексические замены, которые предусматриваются никакими словарями и никак не могут быть объяснены с их помощью» [15, с. 5], а «речевые параллели можно выявить лишь с помощью лингвистического эксперимента., либо сравнивая переводы» [10].

Осознавая тот факт, что работа с электронными корпусами открывает новые возможности и безусловно повышает уровень объективности лингвистического исследования, мы должны всегда помнить о том, что когда «целью формирования корпуса является лексический анализ, приходится отказаться от всех надежд на полное отображение лексики. Лексикон языка настолько велик, настолько огромно, почти бесконечно, число возможных сочетаний, что мы не в состоянии представить себе корпус, который вместил бы все это.. Лексикон, напротив, фактически отрытая система. Как бы мы долго не расширяли выборку, мы по-прежнему будем встречать еще не представленные в ней слова» [3, С. 341].

ЛИТЕРАТУРА

1. Кубрякова Е. С. Язык и знание: На пути получения знаний о языке: Части речи с когнитивной точки зрения. Роль языка в познании мира. М.: Языки славянской культуры, 2004. - 560 с.

2. Падучева Е. В. Высказывание и его соотнесенность с действительностью (референциальные аспекты семантики местоимений). М.: Едиториал УРСС, 2004. - 228 с.

3. Френсис У. Э. Проблемы формирования и машинного представления большого корпуса текстов // Новое в зарубежной лингвистике. Выпуск XIV. Проблемы и методы лексикографии. М.: Прогресс, 1983. С. 334-352.

4. Булыгина Т. В., Шмелев А. Д. Языковая концептуализация мира (на материале русской грамматики). М.: Языки русской культуры, 1997. - 576 с.

5. Дударева З. М. Контрастивное исследование концептуальной сферы «ВРЕМЯ» в русской и башкирской языковых картинах мира. Екатеринбург-Стерлитамак: Уральский гос. пед. университет - Стерлитамак. гос. пед. Академия, 2004. - 200 с.

6. Мамардашвили М. К. Стрела познания (набросок естественноисторической гносеологии). М.: Языки русской культуры, 1997. - 304 с.

7. Захаров В. П. Корпусная лингвистика. СПб: СПб. гос. унт., 2005. - 48 с.

8. Бонч-Осмоловская, А. А. Конструкции с «дативным субъектом» (опыт корпусного исследования на материале русского языка). Автореф. канд. дис. М. 2003. - 30 с.

9. Филипенко Т. В. // Вестник Московского университета. Сер.19. Лингвистика и межкультурная коммуникация. 2004. № 4. С.90-96.

10. Поликарпов А. А. Об одной рецензии. Режим доступа: //http://www.linguide.com.ua/content.

11. Гвишиани Н. Б. // Филологические науки. 2004. № 1. С. 5971

12. Рыков В. В. Корпус текстов как реализация объектноориентированной парадигмы. Режим доступа:

//http://www.dialog-21.m/materials/archive.asp?y=2002.

13. Волков С. Св., Герд А. С., Гринбаум О. Н., Захаров В. П., Муратов А. Б., Панков И. П. Корпус текстов как особый тип лингвистической электронной библиотеки / Словарь русского языка XIX века. Проблемы. Исследования. Перспективы. СПб.: Наука, 2003. С.86-102.

14. Зубов А. В. Информационные технологии в лингвистике. М.: Академия, 2004. - 208 с.

15. Гак В. Г. Сопоставительная лексикология. М.: Международные отношения, 1977. - 264 с.

Поступила в редакцию 27.12.2006 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.