Научная статья на тему 'РАЗВИТИЕ КОРПУСНОЙ ЛИНГВИСТИКИ КАК НАУКИ И ЕЕ ВЛИЯНИЕ НА ОБЩУЮ ТЕОРИЮ ЯЗЫКА'

РАЗВИТИЕ КОРПУСНОЙ ЛИНГВИСТИКИ КАК НАУКИ И ЕЕ ВЛИЯНИЕ НА ОБЩУЮ ТЕОРИЮ ЯЗЫКА Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
469
109
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / ЯЗЫКОВОЙ КОРПУС / КОРПУСНЫЙ АНАЛИЗ / КРИТЕРИИ / ЛИНГВИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Потапов В. В., Матвеева А. Е.

В обзорной статье представлен материал по вопросу становления и развития корпусной лингвистики как активно развивающейся фундаментальной и прикладной области знания. Одним из главных ее объектов является сам языковой корпус, так как именно в нем содержится потенциал решения конкретных лингвистических задач. Более того, именно при помощи корпуса научное сообщество может получить достоверную информацию об актуальных языковых изменениях и использовании того или иного варианта слова / словосочетания, определить наиболее точно соответствующую терминологию и т.д. Значительное внимание уделено трем подходам в исследовании языкового массива данных, в соответствии с которыми корпусная лингвистика пытается вобрать в себя всю металингвистическую информацию. Речь идет о периферийных языковых феноменах, количественных данных и роли интроспекции. Современная корпусная лингвистика не стоит на месте, научное сообщество определяет новые приоритеты: именно поэтому стоит уделять особое внимание новым достижениям, новым подходам и методам.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «РАЗВИТИЕ КОРПУСНОЙ ЛИНГВИСТИКИ КАК НАУКИ И ЕЕ ВЛИЯНИЕ НА ОБЩУЮ ТЕОРИЮ ЯЗЫКА»

ПРИКЛАДНОЕ ЯЗЫКОЗНАНИЕ. ПЕРЕВОД, ПЕРЕВОДОВЕДЕНИЕ

УДК: 81'33 Б01: 10.31249/11пе/2022.04.04

Потапов В.В., Матвеева А.Е.1

РАЗВИТИЕ КОРПУСНОЙ ЛИНГВИСТИКИ КАК НАУКИ И ЕЕ ВЛИЯНИЕ НА ОБЩУЮ ТЕОРИЮ ЯЗЫКА.

(Обзор)

Московский государственный университет им. М.В. Ломоносова, Московский государственный лингвистический университет

Аннотация. В обзорной статье представлен материал по вопросу становления и развития корпусной лингвистики как активно развивающейся фундаментальной и прикладной области знания. Одним из главных ее объектов является сам языковой корпус, так как именно в нем содержится потенциал решения конкретных лингвистических задач. Более того, именно при помощи корпуса научное сообщество может получить достоверную информацию об актуальных языковых изменениях и использовании того или иного варианта слова / словосочетания, определить наиболее точно соответствующую терминологию и т.д. Значительное внимание уделено трем подходам в исследовании языкового массива данных, в соответствии с которыми корпусная лингвистика пытается вобрать в себя всю металингвистическую информацию. Речь идет о периферийных языковых феноменах, количественных данных и роли интроспекции. Современная корпусная лингвистика не стоит на месте, научное сообщество определяет

1 © Потапов В.В., Матвеева А.Е., 2022.

54

новые приоритеты: именно поэтому стоит уделять особое внимание новым достижениям, новым подходам и методам.

Ключевые слова: корпусная лингвистика; языковой корпус; корпусный анализ; критерии; лингвистическое исследование.

В современном мире корпусная лингвистика является быстро развивающимся направлением, так как на основе корпусов можно получить разнообразные данные, начиная от частотности словоформ и заканчивая определением уровня владения языком с опорой на синтаксические параметры. С возникновением корпусных методов появились терминологические базы данных, что помогает переводчикам решить многие профессиональные задачи, например, в статье В.В. Потапова представлен материал о процессе работы с параллельными корпусами с применением новых интегрированных подходов [Потапов, 2022]. В становление корпусной лингвистики большой вклад внесли такие лингвисты, как С. Аткинс [Atkins, Clear, Ostler, 1993], Е.Е. Голубкова [Голубкова, 2019], Ч. Майер [Meyer, 2004], В.В. Мамонтова [Мамонтова, 2007], В.А. Плунгян [Плунгян, 2008], Р.К. Потапова [Потапова, Потапов, 2018; Потапова, Потапов, Джунковский, 2019; Potapova, Potapov, 2019], Дж. Синклер [Sinclare, 1991] и др.

В статье К.П. Чилингаряна представлено становление корпусной лингвистики в диахронии, выходя за рамки теоретического знания о языке, так как именно прикладной аспект стал основным в XX и XXI вв. [Чилингарян, 2021]. С быстрым развитием информационных технологий появилась потребность в оптимизации языкового материала, в связи с этим корпусная лингвистика, хоть и прошла сравнительно небольшой путь, однако стала одним из главных источников изучения языка, а непосредственно сам корпус - фундаментом современной науки о языке. Автор, опираясь на различные источники, определяет корпус как совокупность данных. Несмотря на тот факт, что именно американская структурная лингвистика заложила основы в данном направлении, сам термин появился лишь только в 1980-е годы. Концепция корпуса в первой половине XX в. имела определенные признаки: (а) образцы устных или письменных данных; (б) изучение только тех живых языков, которые ранее не имели письменной документации; (в) значимость фиксации устных образцов; (г) концентрация вни-

мания на фонетическом и (морфо)фонологическом уровнях; д) невозможность оперировать большим количеством данных.

В 1960-1970-е годы данная концепция подверглась определенной критике. С появлением новых компьютерных технологий на первое место вышел аспект репрезентативности корпуса. Полностью же добиться репрезентативности, по мнению Е.А. Красиной и Н.В. Перфильевой, практически невозможно в силу сложности образов и структуры ассоциативных рядов [Красина, Перфильева, 2018].

К.П. Чилингарян подчеркивает значимость первых корпусов, которые появились в 1960-е годы, построенных на базе английского языка (SEU, Brown Corpus, LOB и Norwegian Computing Centre for the Humanities). Эти исследования и корпусы дали толчок для создания более детальных информационных баз, но уже для классификации не только письменных образцов, но и устных, которые не были транскрибированы ранее. Так, появился новый проект «Survey of Spoken English», а позже и новый корпус LLC (London-Lund Corpus of Spoken English). В специальной научной литературе термин «корпусная лингвистика» закрепился после работы [Corpus Linguistics, 1984].

В 1990-е годы на становление корпусной лингвистики как самостоятельной дисциплины повлиял ряд работ западных лингвистов, особенно Дж. Лич [Leech, 1992]. Российские лингвисты также поддерживают значимость корпуса в лингвистике, например, В. А. Плунгян подчеркивает необходимость корпуса, поскольку в этом случае процесс освоения языковых компетенций происходит быстрее [Плунгян, 2008]. К этому же временному периоду формируется и научный понятийный аппарат.

Становлению корпусной лингвистики способствовал ряд факторов [Чилингарян, 2021, с. 204-205]: (а) необходимость сбора и изучения данных языковых средств в речевой деятельности как носителями языка, так и не являющимися таковыми; (б) неоднозначность понятия и его применения; (в) с развитием сети Интернет появились электронные корпусы; (г) технологии информатизации текста; (д) количественные данные в определенных аспектах; (е) необходимость создания новых глоссариев, тезаурусов, словарей, позволяющих работать с различными видами текста.

Обобщив различные определения, автор статьи выделяет основополагающие критерии для корпуса, а именно: текст должен быть в электронном виде; размер корпуса должен достигать 100 млн слов, однако для специальных целей возможно и меньше; корпус несет открытый характер; аутентичность данных; основной критерий отбора текстов (лингвистическая и / или экстралингвистическая задача); репрезентативность; прерогатива не только исследовательских центров, но и коммерческой направленности; мультилингвальность; необходимость разметки для анализа; возможность классификации полученных данных. В статье предлагается также подборка наиболее актуальных и известных корпусов на сегодняшний день, в числе которых можно обнаружить: The Bank of English, British National Corpus, Corpus de Referencia del Español Contemporaneo, Corpus Diacronico del Espanol.

Важнейшим аспектом в формировании понятийного аппарата корпусной лингвистики является вопрос о типологизации корпусов. Можно выделить следующие типы корпусов: письменные, устные и смешанные, где предпочтение отдается первым. Однако это не единственный критерий для классификации, также важным фактором является количество используемых языков: одноязычные, двуязычные, многоязычные. И последним критерием является разметка: корпус может как быть размеченным, так и не быть таковым.

Автор приходит к выводу, что корпус - это динамическая развивающаяся система, помогающая описывать и анализировать языковой материал, несмотря на то что невозможно собрать все образцы использования того или иного языка полностью. В настоящее время это уникальный в своем роде ресурс для лингвистического исследования, который имеет явные преимущества перед другими методами. Корпусная лингвистика доказала и докажет еще не раз свою перспективность для лингвистической теории и практики.

Статья М.В. Копотева посвящена подходам к изучению языка на основе корпуса и первым итогам влияния корпусной лингвистики на общую теорию языка [Копотев, 2021]. На современном этапе развития знаний о языке на первый план выходят корпусная и экспериментальная лингвистика, где первая, несмотря на свой «возраст», смогла расширить границы изучения лингвис-

тики, предложила новые методы анализа и, как следствие, внесла свой вклад в общую теорию языка.

В работе термин корпусная лингвистика представлен как раздел языкознания, использующий корпусы и методы корпусного анализа для проведения исследования, а термин корпус (набор текстов) как ее главный объект. Автор акцентирует внимание на том, что на практике создание корпуса, соответствующего всем параметрам, задача весьма сложная. Однако, невзирая на определенные трудности, современные лингвисты располагают рядом простых инструментов для создания собственных корпусов.

Предлагается новый взгляд на подходы к корпусным исследованиям [Копотев, 2021, с. 92]. Три типа исследований автор иллюстрирует примерами.

1. Анализ, использующий корпус, практически ничем не отличается от классического сбора данных (примеров), так как не предполагается глубокий количественный анализ (это продолжение традиции лингвистики прошлого столетия). Новым в этом отношении является редко привлекающие внимание ученых конструкции, имеющие оттенок «маргинальности», как выражается сам автор статьи, и «нечастотности», хотя многие лингвисты относят подобные выражения (например, «дурак дураком») к фразеологическим оборотам и, следовательно, считают их лексическими единицами. Анализ собранных примеров (в 3088 примерах обнаружено 1596 уникальных существительных - синтаксические фраземы) выявил семейство конструкций, которые находятся в дериватив-ных отношениях. На основе проведенного исследования постулируется, что работа с языковым корпусом позволяет сократить временные затраты и получать валидные научные результаты.

2. Анализ, основанный на корпусе, характеризуется как количественный подход. По мнению автора, количественные методы использовались задолго до корпусной лингвистики, однако сейчас эти данные и статический анализ являются обязательными инструментами современной лингвистики.

В работе анализируется уровень владения иностранным языком (на примере русского) при определенной сложности синтаксиса текста (см., например: [Синтаксис текста, 1979]) на основе корпуса из 46 807 слов (2915 предложений), для обработки которого были выбраны определенные параметры: средняя длина

предложения, максимальная и минимальная глубина вложения групп, виды предложений, обороты, типы придаточных предложений, клаузы и составные союзы. Первоначально была составлена матрица корреляций, затем при помощи теста ANOVA было выявлено шесть параметров, которые могут хорошо показывать уровень владения языком, еще три параметра, отображающих данный уровень слабо, и еще три, которые нельзя считать надежными. Автор статьи обращает внимание на тот факт, что этот подход позволяет создавать даже узкоспециализированные наборы данных и применять инструменты статистического анализа для более доказуемой гипотезы и более тонких закономерностей.

3. Анализ, направляемый корпусом, состоит в минимальном или полном исключении заданных теоретических положений, где задача ученого заключается в создании алгоритма обработки данных, а результатом его будет анализ явлений. По мнению автора, исследователь должен будет только интерпретировать полученные данные и корректировать теорию при необходимости. Примером такого подхода является направление «дистрибутивная семантика» (примеры моделей: word2 vec, BERT). Очевидность результата такого подхода заключается в степени семантической близости лексем, которые можно численно измерить.

В своем проекте СоСоСо М.В. Копотев использует надкор-пусный подход, который позволяет выявить ряды устойчивых выражений с предлогами или без предлогов, управляемыми существительными [Копотев, 2021, С. 97]. В статье автор приводит первые 50 отсортированных примеров, по ним уже можно выявить некоторые закономерности (падежи, лексико-семантические группы). Делается вывод, что фразеологические конструкции не изолированы, а опираются на свободные конструкции как в диахронии, так и в синхронии. В дихотомии «язык - речь» роль речевых связей в современной лингвистике возрастает. В этом случае важным и необходимым становится описание всех параметров языковых единиц, которые находятся во взаимосвязи. В этой ситуации востребованными становятся новые подходы, предлагаемые корпусной лингвистикой.

В заключение следует подчеркнуть, что анализ представленных работ вызван необходимостью создания, изучения и интерпретации значительных языковых массивов. Среди методов кор-

пусной лингвистики можно выделить: теоретико-лингвистические, статистические и методы информационных технологий. Современная корпусная лингвистика активно продолжает поиск новых методов и подходов в исследовании различного рода языковых явлений. Следует подчеркнуть, что в настоящее время внимание лингвистов направлено на анализ особенностей терминологических баз данных применительно к узкоспециализированным направлениям, например, для выявления сходств и различий, обусловленных смысловой интерпретацией параллельных языковых примеров в какой-либо области знаний и разработки автоматизированных систем перевода с ориентацией на полученные факты.

Список литературы

Голубкова Е.Е. Использование лингвистических корпусов при решении семантических проблем // Методы когнитивного анализа семантики слова: компьютерно-корпусный подход / под ред. В.И. Заботкиной. - Москва : Издательский Дом ЯСК, 2019. - С. 39-80. Копотев М.В. О некоторых следствиях корпусной лингвистики для общей теории

языка // Филологический класс. - 2021. - Т. 26, № 2. - С. 90-102. Красина Е.А., Перфильева Н.В. Семантические параметры квантитативных единиц в разноструктурных языках // Вопросы когнитивной лингвистики. -2018. - № 1 (54). - С. 126-136. Мамонтова В.В. Корпусная лингвистика и лингвистические корпусы // Язык. Текст. Дискурс : научный альманах Ставропольского отделения РАЛК. -Ставрополь : Изд-во ПГЛУ, 2007. - Вып. 5. - С. 259-266. Плунгян В.А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. -2008. - № 16 (2). - С. 7-20. Потапов В. В. Лингвокогнитивный подход к созданию автоматизированной системы перевода на основе специализированных параллельных терминологических баз данных. (Обзор) // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал. - 2022. - № 2. - С. 37-43. Потапова Р.К. Потапов В.В. Речевые базы данных как часть мультимодальных корпусов в Интернете // Вестник Московского государственного лингвистического университета. Серия Гуманитарные науки. - 2018. - Вып. 6, № 797. - С. 99-116.

Потапова Р.К., Потапов В.В., Джунковский А.В. К опыту глубинного аннотирования поликодовых Интернет Big Data (применительно к Digital Humanities) // Мягкие измерения и вычисления. - 2019. - Т. 22, № 9. - С. 40-43. Синтаксис текста / отв. ред. Г.А. Золотова. - Москва : Наука, 1979. - 368 с.

Чилингарян К.П. Корпусная лингвистика: теория vs методология // Вестник Российского университета дружбы народов. Серия Теория языка. Семиотика. Семантика. - 2021. - Т. 12, № 1. - С. 196-218.

Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and Linguistic Computing. - 1993. - Vol. 8, № 4. - P. 1-16.

Corpus linguistics: recent developments in the use of computer corpora in English language research / J. Aarts, W. Meij (eds.). - Amsterdam : Rodopi, 1984. - 229 p.

Leech G. Corpora and theories of linguistic performance // Directions in Corpus linguistics. Proceedings of Nobel Symposium 82 (Stockholm, 4-8 August, 1991) / J. Svartvik (ed.). - Berlin ; New York : Mouton de Gruyter, 1992. - P. 105122.

Meyer Ch.F. English Corpus Linguistics: an introduction. - New York : Cambridge University Press, 2004. - 164 p.

Potapova R., Potapov V. Some elaboration methods for written and spoken multilingual databases // Вестник Московского университета. Серия 9. Филология. -2019. - № 3. - С. 71-91.

Sinclare J. Corpus, corcondance, collocation. - Oxford : Oxford University Press, 1991. - 191 р.

i Надоели баннеры? Вы всегда можете отключить рекламу.