Научная статья на тему 'Современные методы корпусной лингвистики при анализе текста (на примере корпуса BFM)'

Современные методы корпусной лингвистики при анализе текста (на примере корпуса BFM) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
4885
744
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНЫЙ / КОРПУС / ПОДКОРПУС / АНАЛИЗ / BFM / GRAAL / КОНТЕКСТ / КОНКОРДАНС

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Райскина В. А., Дубнякова О. А.

Методы корпусного анализа текста позволяют значительно повысить эффективность работы ввиду автоматизированной системы отбора, обработки и вывода результатов. Под «корпусом» понимают «унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде. Традиционные лингвистические методы анализа текста позволяют выполнить все вышеперечисленные задачи, но их невысокая эффективность обуславливает все более частое использование методов компьютерного анализа текста. Так, сочетание традиционных методов с методами корпусной лингвистики повышает качество анализа текста и всего исследования. Преимуществом подходов корпусной лингвистики является возможность производить подсчет и составлять объективные и обоснованные статистики, тем самым основывать исследование не на гипотезах и предположениях, но на точных эмпирических данных. Функционал корпусного анализа текстов составляют диверсифицированный поиск, составление контекстов и конкордансов, подсчет частотности употребления и составление статистики, а также анализ метаразметки текста и составление собственного подкорпуса текстов. Корпус «База Средневекового Французского» или « La Base du Français Médiéval » (далее BFM) является историческим диахронным корпусом и представляет собой автоматизированную программу хранения и анализа старофранцузских текстов. Программное обеспечение корпуса BFM составляют четыре проекта (BFM 2014; СORPTEF; BFMMSS; GRAAL). Проект GRAAL является собранием транскрипций романа XIII в. «В поисках Святого Грааля» (« La Queste del Saint Graal »). Наличие в проекте GRAAL нескольких версий транскрипции текстов, а также возможности поиска на языке CQL позволяют проводить узкий детализированный поиск словоформ, слов и словосочетаний. Представленные в корпусе фотокопии аутентичных средневековых манускриптов могут также выступать объектами исследований по палеографии и каллиграфии, книговедению, археографии, филологии, дипломатике, текстологии и источниковедению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Современные методы корпусной лингвистики при анализе текста (на примере корпуса BFM)»

СОВРЕМЕННЫЕ МЕТОДЫ КОРПУСНОЙ ЛИНГВИСТИКИ ПРИ АНАЛИЗЕ ТЕКСТА (НА ПРИМЕРЕ КОРПУСА BFM)

© Райскина В.А.*, Дубнякова О.А.#

Институт иностранных языков Московского городского педагогического университета, г. Москва

Методы корпусного анализа текста позволяют значительно повысить эффективность работы ввиду автоматизированной системы отбора, обработки и вывода результатов. Под «корпусом» понимают «унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде. Традиционные лингвистические методы анализа текста позволяют выполнить все вышеперечисленные задачи, но их невысокая эффективность обуславливает все более частое использование методов компьютерного анализа текста. Так, сочетание традиционных методов с методами корпусной лингвистики повышает качество анализа текста и всего исследования.

Преимуществом подходов корпусной лингвистики является возможность производить подсчет и составлять объективные и обоснованные статистики, тем самым основывать исследование не на гипотезах и предположениях, но на точных эмпирических данных. Функционал корпусного анализа текстов составляют диверсифицированный поиск, составление контекстов и конкордансов, подсчет частотности употребления и составление статистики, а также анализ метаразметки текста и составление собственного подкорпуса текстов.

Корпус «База Средневекового Французского» или «La Base du Français Médiéval» (далее BFM) является историческим диахронным корпусом и представляет собой автоматизированную программу хранения и анализа старофранцузских текстов. Программное обеспечение корпуса BFM составляют четыре проекта (BFM 2014; œRPTEF; BFMMSS; GRAAL). Проект GRAAL является собранием транскрипций романа XIII в. «В поисках Святого Грааля» («La Queste del Saint Graal»). Наличие в проекте GRAAL нескольких версий транскрипции текстов, а также возможности поиска на языке CQL позволяют проводить узкий детализированный поиск словоформ, слов и словосочетаний. Представленные в корпусе фотокопии аутентичных средневековых манускриптов могут также выступать объектами исследований по палеографии и каллиграфии, книговедению, археографии, филологии, дипломатике, текстологии и источниковедению.

Ключевые слова компьютерный, корпус, подкорпус, анализ, BFM, GRAAL, контекст, конкорданс.

* Бакалавр.

* Заместитель заведующего кафедрой по учебной работе МГПУ ИИЯ, доцент.

Научные исследования в рамках различных лингвистических направлений зачатую имеют объектом своего исследования текст или собрание текстов и подразумевают сначала подбор материала, а затем анализ и обработку больших текстовых объемов с целью выявления некоторых языковых закономерностей. Традиционные лингвистические методы анализа текста позволяют выполнить все вышеперечисленные задачи, но их невысокая эффективность обуславливает все более частое использование методов компьютерного анализа текста, который позволяет сократить работу лингвиста, при этом значительно увеличив объем обрабатываемых данных, а также избежать неточности и ошибки в подсчетах [3, с. 48]. Таким образом, компьютерный анализ текста делает возможным установление языковых закономерностей, основанных не на теоретических, но на эмпирических данных.

В связи с этим приоритетным направлением современной прикладной лингвистики становится корпусная лингвистика или компьютерная лингвистика («linguistic corpus» или «text corpus»), которая представляет собой раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов с использованием компьютерных технологий. В рамках корпусной лингвистики под «корпусом» понимают «унифицированный, структурированный и размеченный массив языковых (речевых) данных в электронном виде, предназначенный для определенных филологических и, более широко, гуманитарных изысканий» [5, с. 52].

Также корпусом называют собрание текстов или фрагментов текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Кроме текстовых данных корпус составляет программное обеспечение системы управления и анализа текстов. Преимущество применения корпусного анализа текста заключается в большой степени объективности исследования: такие функции как подбор, разметка, анализ текстов и выявление соответствий выполняются автоматически. Таким образом, задачей исследователя является не анализ материала, а обработка полученных данных, выведение языковых закономерностей и подведение итогов.

Впервые гипотеза о предпочтительности большого объема материала при анализе была сформулирована советским математическим лингвистом Р.Г. Пиотровским. Он указывал на стремление филологов использовать в своих исследованиях объективные математические данные, а также утверждал, что достоверность языковых закономерностей напрямую зависит от объема текстов: чем больше материала подвергается анализу, тем более верными и точными стоит считать выводы исследования [8, с. 10].

Эмпирический (индуктивный) подход в лингвистике, отражен в работах американских языковедов Ч. Фриз и Л. Блумфилд, которые считают индуктивные методы изучения языка более адекватными и научными, чем ин-

троспективные [2, с. 83; 11, с. 26]. Известные корпусные лингвисты Т. Мак-Эннери и Э. Уилсон полагают, что необходимо использовать и эмпирику, и интроспекцию, и искусственные данные, и естественные [14, с. 17]. Становая Л.А. также придерживается мнения о том, что исследование по истории языка должно базироваться на обширной базе данных. По ее словам, «выводы, сделанные на материале 3-5 рукописных текстов Х-Х1 вв., не могут быть распространены на весь французский язык этого времени» [10, с. 22]. Таким образом, необходимость анализа большого объема материалов объясняет повышенный интерес к корпусным исследованиям, которые предлагают решение вопроса эффективного и быстрого поиска эмпирического материала для многих разделов лингвистики.

В зависимости от используемых корпусов и программ, методы корпусного анализа позволяют решать ряд задач в рамках лингвистических, социологических и исторических дисциплин. Так, корпус позволяет производить поиск лексических и грамматических языковых единиц и отбор слов, словоформ, грамматических категорий и словосочетаний. При поиске словоформ функция морфологического дескриптора позволяет проанализировать искомую единицу исходя из грамматических категорий слова.

Возможен поиск искомой словоформы во всех или в определенных параметрами контекстах. Данная функция применяется в практическом аспекте исследования для сбора фактического материала и для составления теоретической базы исследования (словарей, грамматик, справочных пособий). Смежная функция конкорданса (по А.С. Герду, - «упорядоченный список словоформ с указанием всех вхождений в заданный массив текстов») позволяют проследить употребление языковой единицы в контексте фиксированной длины, проанализировать совместное употребление искомых словоформ [4, с. 73].

Одной из основных функций лингвистического корпуса является возможности получения лингвостатистических данных о частоте использования тех или иных форм, слов или словосочетаний, то есть определить частотность употребления. Данная функция позволяет определить различия семантики синонимов, установить контексты, характерные для синонимичных слов, а также разграничить жанровые и стилистические особенности и оттенки значений лексических единиц. В социолингвистическом исследовании частотность позволяет определить употребляемость языковой единицы определенной социальной, возрастной, гендерной группой. В историческом аспекте данная функция позволяет проследить этимологию и изменение семантики языковой единицы. Следствием частотного анализа текста является выделение статистики. Таким образом, в исследовании с применением корпусного анализа основанием научной гипотезы служат точные и конкретные эмпирические данные.

Каждый текст корпуса сопровождается паспортизацией или метараз-меткой, то есть полным библиографическим описанием. В зависимости от

вида корпуса метаразметка может содержать также и данные о стилистической и исторической принадлежности текста. Данная функция может быть использована в научных исследованиях по социолингвистике, лингвокуль-турологии, психолингвистике, стилистике.

Основной возможностью корпусного анализа является функция создания собственного подкорпуса (выборка форм по заданным параметрам поиска). Ввод параметральных данных, характерных для конкретного исследования позволяет составить собственный лингвистический корпус, который может служить как инструментом анализа имеющегося текста, так и собственной эмпирической базой исследования.

Наиболее важной характеристикой при выборе лингвистического корпуса является его пропорциональность или репрезентативность, то есть определенный баланс текстов различных периодов, жанров, стилей, авторов, в корпусе также, как это наблюдается в языке. Благодаря правильной репрезентативности корпуса ограниченное количество текстов способно верно отразить закономерности языкового употребления, характеризующие данный язык в целом в удовлетворительной для цели исследования степени [7, с. 36]. Репрезентативность определяется несколькими качественными параметрами в зависимости от направления исследования: фонетическими, морфологическими, синтаксическими, стилевыми.

На данный момент существует несколько проектов исторических диа-хронных корпусов французского языка, одним из которых является проект «База средневекового французского языка» или BFM («La base du français médiéval»). На ферваль 2014 г. данный корпус включает 198 транскрипций текстов IX - конца XV вв., основанных на современных критических изданиях [6, c. 105]. Работа над созданием корпуса BFM началась в 1989 г под руководством профессора Высшей Нормальной Школы Гуманитарных Наук (ENS LSH) К. Маркелло-Низья. В настоящее время над проектом работает группа сотрудников лингвистической лаборатории ICAR (Intéractions, Corpus, Apprentissages, Représentations). Данный корпус доступен для исследований как в режиме онлайн [15], так и для скачивания в свободном доступе.

Корпус BFM включал несколько проектов:

- BFM 2014 - основной корпус, состоящий из 126 текстов и около 3550000 слов и символов. Тексты основного корпуса обладают ме-таразметкой, морфо-синтаксической разметкой, а также выделением переходов между прямой и косвенной речью.

- CORPTEF (Corpus représentatif des premiers textes français) -корпус наиболее ранних текстов IX-XII вв. на поздней латыни и их перевод на старофранцузский язык.

- BFMMSS (Base du français médiéval - manuscrits) - дополнительный корпус, разработанный А.М. Лаврентьевым и содержащий фрагментарные дипломатические транскрипции манускриптов основного корпуса.

- GRAAL - электронное издание романа XIII в. «В поисках Святого Грааля», разработанное под руководством К. Маркелло-Низья и А.М. Лаврентьева [12, c. 145-148].

Основной базой исследования корпуса BFM являются транскрипции средневековых рукописных текстов различных скрипт и диалектов, жанров и форм. Отличительна особенность данного корпуса заключается в представлении в проекте GRAAL транскрипций одного текста в нескольких изданиях. Адаптированное издание (режим: version courante) содержит транскрипцию, приближенную к современным нормам языка и предназначено для удобного прочтения текста. Дипломатическое издание (version diplomatique) более точно приближенно к оригинальному тексту, но также содержит некоторые расшифровки и пояснения. В факсимильном издании (version fac-similaire) наиболее близко к оригинальному написанию переданы особенности графики средневекового текста. Кроме трех версий, в проект включен современный перевод текста (traduction) и фототипическое издание (ms-page и ms-colonne) манускрипта.

Важной функцией проекта GRAAL является представление версий в многомерном формате (multi-facettes или «multi-facettes»). Данный формат презентации текстов позволяет выводить на экран сразу несколько изданий, при этом сохраняя параллельное отображение текста построчно. Так, возможно сопоставить фотокопию манускрипта с переводом или с одной из версий, что предоставляет исследователю текста дополнительные возможности. Например, сопоставив адаптированную версию с факсимильной, возможно восстановить такие явления средневекового текста, как аббревиации или слияния слов.

Функционал корпуса помимо транскрипций составляют различные возможности поиска и отбора эмпирических и статистических данных. Данный корпус оснащен метаразметкой, которая включает в себя библиографические данные о каждом произведении и позволяет произвести социолингвистическую диверсификацию текстов.

Базовым принципом корпуса BFM является строгое соответствие критическому изданию. В связи с этим при построении корпуса используется формат XML, который позволяет воспроизвести не только сам текст, но и ряд элементов критического аппарата (нумерацию строк, использование различных шрифтов, варианты текста, примечания). Для реализации поиска и составления подкорпусов проект BFM использует язык компьютерного запроса CQL (Contextual Query Language или Common Query Language). Данный язык представляет собой ряд обозначений-символов, позволяющих производить поиск и отбор словоформ [9, c. 338]. Полный список принятых тэгов и обозначений размещен в свободном доступе на сайте смежного проекта лаборатории ICAR в пособии «Manuel de TXM» [13, c. 116-117].

При исследованиях в корпусе BFM язык CQL позволяет производить несколько видов поиска. Простой поиск графического написания позво-

ляет отобрать все случаи употребления конкретной формы слова. Например, запросы вида Graal, "Graal" и [word="Graal"] используются для поиска конкретной формы слова «Graal».

Поиск по лемме возможен вследствие наличия в корпусе BFM морфологического дескриптора и позволяет произвести поиск различных форм слова. Таким образом, запрос вида [frlemma="beau"] предоставит выборку всех форм имени прилагательного «beau», а именно «beau», «bel», «belle», «beaux», «bels», «belles».

Поиск по грамматической категории позволяет произвести выборку всех слов, обладающих искомой грамматической категорией. При этом необходимо использование принятых тэгов [13, с. 160]. Например, [frpos="ADV"] - подборка всех наречий.

Поиск вариантов написания диакритических знаков или регистра букв позволяет расширить поиск однокоренных слов. Так, запрос вида "franc.*" %cd позволяет отобрать все примеры с корнем «franc» включая варианты корня «franç» и написание с прописной буквы.

Кроме того, в корпусе возможен поиск пунктуации, который осуществляется несколькими символами. Для поиска точки, восклицательного и вопросительного знака используется символ \ для разграничения функций. Таким образов, запрос вида \? позволяет отобрать все вопросительные знаки. Для поиска апострофа используют ввод слова, например, запрос вида .* отбирает слова, оканчивающиеся на апостроф. Для поиска части слова или вариативного поиска используются составные комбинации символов CQL, например:

1. + - наличие одного или более символов:

.+nation.* - слова с радикалом «nation» и наличием префикса, состоящего из любого количества символов.

2. [ ] - вариативность символов, при этом только один символ может быть использован.

i[mn].*able - все имена прилагательные с аффиксами im- или in-,

3. | - вариативность символов, при этом оба символа могут быть использованы:

pour | contre - все примеры употребления слов «pour» и «contre» без взаимного исключения.

4. ( ) - объединение символов или параметров поиска:

[frpos="VER: (futu | cond | subi)"] - все глаголы в формах будущего

времени (futur), условного наклонения (conditionnel) и имперфектного сослагательного наклонения (imparfait du subjonctif).

Поиск прямой речи возможен в корпусе благодаря наличию разметки смены повествовательных планов. Для поиска начала прямой речи или диалога в проекте GRAAL используется запрос вида <q> [ ], а для поиска конца прямой речи - [ ] </q>.

Кроме поиска в корпусе BFM представлена функция создание индексов, которые показывают частоту использования искомой языковой единицы. Также в корпусе возможно использовать режимы конкорданса и контекста, которые выстраивают наглядную таблицу употреблений искомой языковой единицы, что становится возможным благодаря наличию в корпусе морфо-синтаксической разметки. Возможности формата XML позволяют регулировать длину левого и правого контекстов, выравнивание списка, а также переходить по интересующей исследователя позиции от конкорданса к электронному изданию. Таким образом, режимы контекста и конкорданса показывают употребление искомой языковой единицы в полном и наглядном словарном окружении.

Корпус BFM GRAAL оснащен лексикой-словарем использованных слов в тексте. Отбор лексики возможен по нескольким параметрам. Например, возможно просмотреть все употребленные слова и пунктуацию, а также количество употреблений грамматических форм по тэгам.

Наряду с вышеперечисленными функциями, наиболее важная возможность для исследований в компьютерном корпусе - это создание, настройка и анализ собственного подкорпуса текстов. Применение комбинированных поисковых запросов и внетекстовых функций корпуса позволяют производить подбор примеров по узким параметральным данным.

В данной статье мы продемонстрируем применение возможностей корпуса GRAAL в исследовании по исторической грамматике, а именно при анализе использования заглавных букв в средневековом тексте. Мы воспользовались функциями корпуса для того, чтобы отобрать все употребления заглавной буквы после прямой речи в дипломатическом издании романа «В поисках Святого Грааля». Для данного поиска применяется запрос следующего вида:

</q> [dipl="[A-Z].*"]

Формула данного вида приводит к подборке из 294 вхождений по заданному запросу. Так как задачи данного поиска требуют синтаксически распространенные результаты, поиск наиболее удобно производить в режимах контекста и конкорданса. В окне контекста приведены примеры вхождений с указанием страницы в электронном издании, а также с выделенными красным цветом первыми словами после окончания прямой речи. Кроме того, режим контекста позволяет задать размер правого и левого контекстов: таким образом, можно восстановить и начало прямой речи, получая полное и исчерпывающее словарное окружение. Также формат XML позволяет перейти по каждому примеру к выбранному электронному изданию в параллельном окне, что создает оптимальное расположение страниц для анализа искомой языковой единицы как в поисковом списке, так и интегрировано в тексте.

В отличие от режима контекста, в конкордансе подборка вхождений форматируется по первому слову запроса, то есть по первому слову после

окончания прямой речи для конкретного поиска. При этом, в данном режиме также указывается страницы электронного издания и представлена возможность перехода к изданию по каждому примеру.

Подборка по данному запросу не является конечным действием, позволяющим сделать выводы по поставленной цели, а именно, определить закономерность использования прописных и строчных букв после прямой речи. Дело в том, что запрос производится в дипломатической версии, текст которой с точки зрения оформления предложения адаптирован к современным нормам. Таким образом, все буквы после прямой речи - прописные. Тем не менее, параллельное воспроизведение дипломатической версии и фототипического издания позволяет отследить использование регистра букв в самом манускрипте. В итоге, совместное применение таких функций корпуса вИЛЛЬ, как поиск, контекст или конкорданс и параллельное отображение электронных версий, позволяет отследить написание прописных и строчных букв в средневековом тексте, при этом исключив трудоемкий процесс прочтения, расшифровки и анализа старофранцузского рукописного текста. Таким образом, корпусный анализ данного текста становится доступным для исследователей, не владеющих навыками прочтения и понимания старофранцузского письма, и вместе с тем позволяет пропустить этап ручного отбора эмпирической базы исследования.

Методы корпусного анализа текста позволяют значительно повысить эффективность исследовательской деятельности ввиду автоматизированной системы отбора, обработки и вывода результатов. Преимуществом использования методов корпусного анализа также является возможность производить подсчет и составлять статистики, подтверждающие или опровергающие гипотезы исследования [1, с. 135-137]. Таким образом, производя корпусный анализ текста, становится возможным обосновать исследование не на гипотезах и предположениях, но на точных эмпирических данных.

Список литературы:

1. Баранов А.Н. Корпусная лингвистика [Текст] // Баранов А.Н. Введение в прикладную лингвистику. - М., 2001. - С. 112-137.

2. Блумфилд Л. Язык [Текст] / Л. Блумфилд. - М.: Едиториал УРСС, 2002. - 608 с.

3. Богданова С.Ю. Возможности корпусной методологии в решении лингвистических задач [Текст] / С.Ю. Богданова. - Иркутск.: Вестник ИГЛУ, 2012. - № 2 (18). - С. 47-50.

4. Герд А.С. Автоматизация в лексикографии и словари-конкордансы [Текст] / А.С. Герд // Филологические науки. - 1981. - № 1. - С. 72-78.

5. Захаров В.П. Поисковые системы Интернета как инструмент лингвистических исследований [Текст] / В.П. Захаров // Русский язык в Интернете: Сб. статей. - Казань: Отечество, 2003. - С. 48-59.

6. Лаврентьев А.М. Базы данных и корпусы текстов средневекового французского языка: подходы, проекты, технологии [Текст] / А.М. Лаврентьев // Современные информационные технологии и письменное наследие: от древних рукописей к электронным текстам / Материалы междунар. науч. конф. (Ижевск, 13-17 июля 2006 г.) / Отв. ред. В.А. Баранов. - Ижевск: Изд-во Иж-ГТУ 2006. - С. 104-107.

7. Мордовин А.Ю. К вопросу о понятии репрезентативности корпуса текстов [Текст] / А.Ю. Мордовин // Вестник ИГЛУ. - 2009. - № 1. - С. 31-37.

8. Пиотровский Р.Г. Инженерная лингвистика: теория - эксперимент -реализация [Текст] / Р.Г. Пиотровский // Известия Академии наук СССР. Серия литературы и языка. - М.: Наука, 1978. - Т. 37, № 1. - С. 10-19.

9. Роберт У Себеста. Основные концепции языков программирования (Concepts of Programming Languages) / Пер. с англ. - 5-е изд. - М.: Вильямс, 2001. - 672 с.

10. Становая Л.А. Введение в скриптологию. Учеб. пособие к спецкурсу по истории французского языка [Текст] / Л.А. Становая. - СПб.: Златоуст, 1996. - 95 с.

11. Фриз Ч. Школа Блумфилда [Текст] / Ч. Фриз // Зарубежная лингвистика. - 2000. - № 2. - С. 23-45.

12. Guillot C., Lavrentiev A., Marchello-Nizia Ch. La Base de Français Médiéval (BFM): états et perspectives [Text] / Kunstman P., Stein A. (éds), Le Nouveau Corpus d'Amsterdam. Actes de l'atelier de Lauterbad, 23-26 février 2006. -Stuttgart: Franz Steiner Verlag. - Р. 143-152.

13. Manuel de TXM Version 0.7. [Text] - Lyon.: ENS de Lyon, 2014. - 166 р.

14. McEnery T., Wilson А. Corpus Linguistics [Text] / T. McEnery, A. Wilson. - Edinburgh: Edinburgh University Press, 2001. - 256 p.

15. Base de Français Médiéval [Электронный ресурс]. - Lyon: ENS de Lyon, Laboratoire ICAR, 2012. - Режим доступа: http://txm.bfm-corpus.org (дата обращения: 23.04.2015).

i Надоели баннеры? Вы всегда можете отключить рекламу.