Научная статья на тему 'Автоматизированный анализ корпуса текстов как методологическая основа построения и верификации когнитивно-функциональной модели дискурсных маркеров'

Автоматизированный анализ корпуса текстов как методологическая основа построения и верификации когнитивно-функциональной модели дискурсных маркеров Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
381
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЗИРОВАННЫЙ АНАЛИЗ / ДИСКУРС / ДИСКУРСНЫЙ МАРКЕР / РЕГУЛЯРНОЕ ВЫРАЖЕНИЕ / АTOMATED ANALYSIS / DISCOURSE / DISCOURSE MARKER / REGULAR EXPRESSION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Каменский Михаил Васильевич

В статье подводятся итоги исследования проблемы разработки системы автоматизированного когнитивно-функционального анализа дискурсных маркеров в электронном корпусе текстов. В качестве базисной технологии идентификации дискурсных маркеров в англоязычном тексте рассматривается использование специализированных нечетких регулярных выражений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automated Analysis of Corpora as a Methodological Basis of Creation and Verification of the Cognitive-functional Model of Discourse Markers

The article contains the results of researching and developing an automated system of cognitive-functional analysis of discourse markers in electronic corpora of texts. The author proposes to use specialized extended regular expressions as a basis of identification of English discourse markers in texts.

Текст научной работы на тему «Автоматизированный анализ корпуса текстов как методологическая основа построения и верификации когнитивно-функциональной модели дискурсных маркеров»

УДК 81’33:811.111

Каменский М. В.

Автоматизированный анализ корпуса текстов как методологическая основа построения и верификации когнитивно-функциональной модели дискурсных маркеров

В статье подводятся итоги исследования проблемы разработки системы автоматизированного когнитивно-функционального анализа дискурсных маркеров в электронном корпусе текстов. В качестве базисной технологии идентификации дискурсных маркеров в англоязычном тексте рассматривается использование специализированных нечетких регулярных выражений.

The article contains the results of researching and developing an automated system of cognitive-functional analysis of discourse markers in electronic corpora of texts. The author proposes to use specialized extended regular expressions as a basis of identification of English discourse markers in texts.

Ключевые слова: автоматизированный анализ, дискурс, дискурсный маркер, регулярное выражение.

Key words: аtomated analysis, discourse, discourse marker, regular expression.

Появление новых методов, подходов и направлений исследования в лингвистической науке, а также их экстраполяция в область смежных научных дисциплин дает возможность уточнить и переосмыслить многие теоретические вопросы, в их числе и феномен появления и функционирования в системе языка дискурсных маркеров как средств обеспечения когнитивной связи в дискурсе, что представляет научный интерес для дискурсивной лингвистики.

Комплексное исследование дискурсных маркеров как когнитивного феномена, имеющего дискурсивно-специфические черты, с целью построения их когнитивно-функциональной модели, обладающей свойствами достоверности и верифицируемости, предопределяет необходимость анализа обширного корпусного материала, отражающего специфику употребления дискурсных маркеров в различных типах дискурса.

Существующие в настоящее время национальные корпусы текстов, такие как Британский национальный корпус (BNC, British National Corpus) и корпус современного американского английского языка (COCA, Corpus of Contemporary American English), не оснащены специфическими технологиями автоматизированного дискурсивного анализа, позволяющего идентифицировать лексемы и их сочетания, относящиеся к классу дискурсных маркеров, а также выявить их специфические свойства по когнитивнофункциональному основанию. Данный факт диктует необходимость построения специализированной автоматизированной аналитической среды,

© Каменский М. В., 2013

целью которой является осуществление высокоскоростной обработки текстовой информации, представленной в филологически компетентных корпусных массивах, позволяющей идентифицировать примеры употребления различных дискурсных маркеров, а также определить их свойства, такие как дискурсный статус, дискурсивную функцию, иллокутивный потенциал и когнитивную нагрузку, являющиеся элементами разработанной когнитивно-функциональной модели дискурсных маркеров [2, с. 155].

Среди современных технологий автоматизированного анализа текста значительная роль отводится применению регулярных выражений, позволяющих идентифицировать регулярно повторяющиеся текстовые фрагменты в связном тексте.

Истоки регулярных выражений лежат в теории автоматов Уоррена МакКаллока (Warren McCulloch) и Уолтера Питтса (Walter Pitts), теории формальных языков и классификации формальных грамматик Ноама Хомского (Noam Chomsky) [7, с. 18 - 34; 8, с. 115 - 133]. Само понятие регулярных выражений впервые было введено американским логиком и математиком Стивеном Коулом Клини (Stephen Cole Kleene), одним из основоположников теоретической компьютерной науки [3, с. 17 - 27]. Важный вклад в популярность регулярных выражений внес также амриканский программист Кеннет Томпсон (Kenneth Thompson), создавший специальный алгоритм поиска текстовых фрагментов по регулярным выражениям, в настоящее время известный как «построение Томпсона» [9, с. 419 - 422]. Широкое распространение разработанной поисковой технологии обусловило тот факт, что регулярные выражения в современной компьютерной науке и прикладной лингвистике стали de facto стандартом описания шаблонов поиска текстовой информации.

Таким образом, регулярные выражения представляют собой поисковые шаблоны, основанные на описании общего вида некоторого текстового сегмента с применением символов и метасимволов и применяемые для поиска текстовой информации по заданным формальным критериям, определения взаимного расположения текстовых блоков и входящих в них элементов (лексем, словосочетаний, пунктуационных знаков и т.п.) и осуществления различного рода операций с найденными фрагментами текста. Иногда под термином «регулярные выражения» в широком смысле понимают также специализированный метаязык описания таких поисковых шаблонов в одной из его конкретных диалектных реализаций в определенном языке программирования [6, с. 25 - 26].

К достоинствам применения регулярных выражений с целью автоматизированной идентификации дискурсных маркеров в связном тексте на естественном языке можно отнести сравнительно высокую скорость обработки данных и высокую точность идентификации найденных языковых конструкций в тексте в случае полного соблюдения заданных формальных критериев поиска. Так, если некоторый дискурсный маркер может быть описан исключительно в структурно-синтаксических терминах (например,

по особенностям его синтагматики в предложении или по иным позиционным критериям), то для его автоматизированной идентификации достаточно применения одного или нескольких регулярных выражений, описывающих структурно-синтаксические свойства исследуемого дискурсного маркера в некотором минимальном контексте.

Вместе с тем, очевидным представляется тот факт, что только лишь структурно-синтаксический анализ не может стать единственно необходимым и достаточным критерием автоматизированной идентификации значительной доли дискурсных маркеров, поскольку статус некоторой языковой единицы как дискурсного маркера определяется в большей мере ее когнитивно-функциональными, нежели структурно-синтаксическими свойствами. Данное свойство дискурсных маркеров осложняет поиск и идентификацию дискурсных маркеров и их когнитивных свойств с применением технологии регулярных выражений.

В современной прикладной лингвистике повышенный интерес проявляется к так называемым технологиям нечеткого поиска в тексте [4], лежащим в основе нечетких регулярных выражений. Классический подход к определению нечетких регулярных выражений базируется на постулировании нечеткого поиска текстовой информации как задачи нахождения в некотором текстовом массиве определенных слов с учетом заданного максимального количества возможных различий [4]. Исходя из поставленной таким образом задачи, нечеткие регулярные выражения определяются как расширение регулярных выражений, позволяющее учесть варианты и трансформации исходного поискового шаблона, выходящие за рамки четко заданных формальных критериев, в том числе опечатки в отдельных словах или пропуск слов [4; 5].

Следует отметить, что описанная выше трактовка нечетких регулярных выражений является недостаточно широкой для целей и задач автоматизированного лингвистического анализа текста, в том числе для автоматизации идентификации дискурсных маркеров в связном тексте и определения их когнитивно-функциональных характеристик. Это связано с тем, что она дополняет классическое определение регулярных выражений исключительно способами идентификации пропущенных или дополнительных элементов, но не позволяет учесть лингвистическую специфику исследуемого явления, в том числе грамматические характеристики искомых языковых единиц (например, их частеречную принадлежность). Следовательно, данная трактовка не позволяет выйти на семантический уровень автоматизированного анализа текста, необходимый для выявления дискурсных маркеров, которые не могут быть описаны исключительно в терминах синтагматики и синтаксиса.

Исходя из вышесказанного, представляется целесообразным расширить определение нечетких регулярных выражений, используемых в автоматизированном лингвистическом анализе текста. По нашему мнению, расширение механизма регулярных выражений за счет включения лин-

гвистической информации о входящих в исследуемый текст лексических единицах в определенном смысле имеет схожую природу с учетом метрики на основе расстояния Левенштейна и иных подобных функций и алгоритмов, лежащих в основе классического понимания нечетких регулярных выражений. Данное утверждение основывается на том, что сущность такого расширения также состоит в учете трансформационных вариантов определенных блоков текстовой информации, которым в ходе автоматизированного анализа сопоставляется одно и то же регулярное выражение при различном наборе лингвистических (лексико-семантических, грамматических) параметров. Следовательно, регулярные выражения, дополненные лингвистической информацией о тексте, также следует относить к категории нечетких регулярных выражений. В случае, если исследуемый корпус текстов содержит заранее подготовленный набор аннотаций, описывающих экстралингвистические параметры каждого конкретного контекста, такие как источник текста, тип дискурса, социолингвистические параметры коммуникантов и коммуникативной ситуации и т.п., то данная информация также представляет интерес как способная выявить различие между текстовыми фрагментами с одинаковой синтаксической структурой.

При необходимости в качестве дополнительных условий поиска может применяться также количественная информация различного рода. Так, в случае наличия в исследуемом корпусе информации о количественной представленности различных лексем и словосочетаний в тексте или при возможности автоматического ее получения с помощью алгоритмических процедур данная информация может быть положена в основу дополнительного поискового критерия в нечетком регулярном выражении.

Таким образом, исходя из сказанного выше, для настоящего исследования целесообразно принять за обобщенное рабочее определение нечетких регулярных выражений, учитывающее специфику их применения в качестве методологической основы автоматизированного анализа когнитивно-функциональных аспектов использования дискурсных маркеров в корпусе текстов на естественном языке, следующее определение.

Нечеткое регулярное выражение - это регулярное выражение, расширенное путем использования в качестве дополнительного значимого критерия поиска некоторой лингвистической (лексико-семантической, грамматической), экстралингвистической (когнитивной, социальной, культурной) и/или количественной информации, позволяющей идентифицировать и дифференцировать определенные текстовые фрагменты, совпадающие по формальным синтаксическим признакам и различающиеся по иным основаниям, как принципиально различные.

Исходя из предложенного определения нечетких регулярных выражений следует, что синергетическое применение классической технологии автоматизированного поиска текстовой информации по регулярным выражениям и иных технологий лексико-семантического и грамматического

разбора текста, а также выведение на основе совместного использования данных технологий нечетких регулярных выражений, описывающих лингвистически дифференцируемые трансформации поисковых шаблонов, позволяет разработать поисково-аналитическую систему, способную идентифицировать сложные, многоаспектные языковые явления в контексте. В частности, идентификация в тексте полифункциональных дискурсных маркеров, принадлежащих нескольким функциональным слотам с различающимися иллокутивными возможностями и когнитивной нагрузкой, значительно затруднена и в некоторых случаях невозможна при использовании традиционных регулярных выражений, однако становится выполнимой с применением лингвистической, экстралингвистической и количественной информации о контексте, внедряемой в состав нечетких регулярных выражений.

В качестве платформы для разработки поисково-аналитической среды когнитивно-функционального анализа дискурсных маркеров нами выбрана универсальная лингвистическая аналитическая среда GATE. Анализ алгоритмических компонентов, входящих в состав среды GATE, позволил сделать вывод о соответствии данной программной среды требованиям, необходимым и достаточным для разработки нечетких регулярных выражений, описывающих дискурсные маркеры и позволяющие с высокой степенью точности идентифицировать их в тексте и выявить их соответствие определенному функциональному слоту разработанной когнитивнофункциональной модели дискурсных маркеров.

Метаданные о лингвистических, экстралингвистических и количественных параметрах исследуемого текста, а также входящих в него лексических единицах и иных элементах, не имеющие стандартного эквивалента в диалекте регулярных выражений в языке программирования Java и являющиеся компонентами расширенных нечетких регулярных выражений, описываются нами с применением специализированных алгоритмических процедур, основанных на технологии шаблонного аннотирования JAPE.

Нечеткие регулярные выражения, разработанные в ходе проведенного исследования, а также лингвистические алгоритмы, в основу которых данные регулярные выражения положены, сгруппированы по уровню их сложности. Уровень сложности определяется количеством параметров, которые требуется учесть для обеспечения эффективной идентификации дискурсного маркера в контексте, а также установления его принадлежности к определенному функциональному слоту когнитивно-функциональной модели. В целях настоящего исследования выделяются: 1) простые регулярные выражения без параметров контекста; 2) нечеткие регулярные выражения с лингвистическими параметрами контекста; 3) комбинированные нечеткие регулярные выражения с лингвистическими, экстралингвистическими и количественными параметрами контекста.

Простые регулярные выражения без дополнительных параметров описывают дискурсные маркеры, не требующие привлечения дополнительной

информации о контексте и описываемые исключительно в структурносинтаксических терминах. При этом значимыми критериями идентификации дискурсных маркеров выступают позиция дискурсного маркера в предложении, его лексический состав, а также синтаксические и пунктуационные особенности предложения, в котором расположен дискурсный маркер. Например, дискурсный маркер hmm описывается исключительно по написанию лексемы, составляющей дискурсный маркер, при этом ее окружение не важно, поскольку лексема hmm и ее орфографические варианты (hm, hmmm и т.п.) всегда выполняют в тексте роль дискурсного маркера за исключением случаев, когда данное сочетание букв выступает в роли сокращения. Аналогичным образом идентифицируется дискурсный маркер oh и его орфографические варианты. В целом автоматизированной идентификации по простому регулярному выражению без параметров контекста наиболее легко подвергаются дискурсные маркеры междометийно-го типа.

Простые регулярные выражения также применяются для идентификации дискурсных маркеров в случаях, когда определяющим критерием соотнесения дискурсного маркера с определенным функциональным слотом когнитивно-функциональной модели является факт его употребления в предложении в определенной позиции. Так, словосочетание «you know what» в конечной позиции в вопросительном предложении идентифицируется как дискурсный маркер обратной связи.

В более сложных случаях, требующих лексико-семантического и грамматического анализа текста, применяются нечеткие регулярные выражения с лингвистическими параметрами контекста. Например, такого рода нечеткое регулярное выражение применяется для идентификации конструкции «to be like» в качестве дискурсного маркера, вводящего эмоционально нагруженную цитату. Данная конструкция выявляется в тексте по следующей последовательности токенов: 1) личное местоимение или имя собственное, являющееся именем человека; 2) одна из форм глагола «to be»; 3) непосредственно лексема «like»; 4) пунктуационный знак, вводящий прямую речь (по правилам английского языка - двоеточие, однако нечеткое регулярное выражение учитывает возможность отхождения от правила); 5) одинарные или двойные кавычки, свидетельствующие о начале прямой речи.

В случаях, когда идентификация дискурсного маркера и установление его классификационной принадлежности к одному из функциональных слотов когнитивно-функциональной модели требует уточнения в силу недостаточности лингвистической информации для однозначного отнесения лексемы к классу дискурсных маркеров, либо же принципиально невозможна без учета дополнительных поисковых критериев, целесообразно применение комбинированных нечетких регулярных выражений. Комбинированные нечеткие регулярные выражения сочетают в себе как структурно-синтаксические, так и иные лингвистические, а также

экстралингвистические и количественные параметры любого поддерживаемого типа и в любом количестве, минимально необходимом для обеспечения эффективной автоматизированной идентификации дискурсного маркера и его соотнесения с определенным слотом когнитивнофункциональной модели.

Так, дополнительный количественный параметр используется для идентификации наличия дополнительных токенов перед дискурсным маркером «nevertheless», находящимся в начальной или срединной позиции в предложении. Данный параметр позволяет идентифицировать дискурсный маркер «nevertheless» в составе таких конструкций, как «..., and nevertheless, ...», «., and yet nevertheless, ...» и т.п.

Другим примером использования уточняющего регулярного выражения служит автоматизированная идентификация дискурсного маркера «hmm» и его орфографических вариантов с уточнением за счет спецификации типа дискурса. Поскольку данный дискурсный маркер относится к разговорным [1, с. 132] и лишь в редких случаях проникает в институциональные типы дискурса, автоматизированный анализ случаев употребления данного дискурсного маркера в тексте может при необходимости быть ограничен только текстами, принадлежащими к разговорному типу дискурса. Такой подход позволяет избежать ошибочной идентификации сочетания букв «hm» и «HMM», например, в качестве сокращений от «hectometer» и «Hidden Markov Models», соответственно, в научных текстах. При необходимости более подробного и всеобъемлющего анализа данное ограничение может быть снято, и ошибочные случаи автоматизированной идентификации буквосочетаний «hm», не относящихся к дискурсным маркерам, либо исключаются путем использования дополнительных регулярных выражений с более жесткими лингвистическими ограничениями, либо исключаются лингвистом на этапе постобработки результатов автоматизированного анализа.

Комбинированные нечеткие регулярные выражения применяются также в случаях, когда установление дискурсивного статуса лексемы или словосочетания, а также ее автоматизированная классификация по когнитивно-функциональным основаниям принципиально невозможна без комплексного учета поисковых критериев различного типа. Например, совокупность лингвистических и количественных критериев, а именно, сведений о типе токенов и о количестве повторений пунктуационного знака, используется для идентификации дискурсного маркера «well» в предложениях типа «well, I don’t know.», «well, I think it’s impossible.» и т.п.

Другим примером применения комбинированных нечетких регулярных выражений служит идентификация дискурсного маркера «on the other hand» на основе совокупности данных о позиции данного дискурсного маркера в предложении, а также о принадлежности одного или более токенов, предшествующих дискурсному маркеру, к классу пунктуационных знаков. Тем самым, в соответствующем регулярном выражении сочетают-

ся лингвистический и количественный параметры. Данный подход позволяет идентифицировать дискурсный маркер «on the other hand» не только в срединной позиции в предложении, но также в начальной, при этом сочетания из нескольких пунктуационных знаков, возможные в случае оформления предложения как прямой речи (например, сочетание точки и открывающихся кавычек), корректно распознаются автоматизированным анализатором.

Таким образом, разработанный автоматизированный когнитивнофункциональный анализатор дискурсных маркеров представляет собой многофазный алгоритмический модуль GATE, написанный с применением нечетких регулярных выражений, задействующих ресурсный потенциал специализированного метаязыка описания поисковых шаблонов JAPE. Идентификация дискурсных маркеров основана на автоматизированном анализе совокупности лексико-семантических, синтаксических, экстралин-гвистических и количественных критериев, на основе которого делается вывод о принадлежности лексемы или сочетания лексем к классу дискурсных маркеров, а также о соотнесенности найденного дискурсного маркера с определенным набором когнитивно-функциональных параметров.

Список литературы

1. Каменский М.В. Социолингвистическая парадигма дискурсных маркеров (на материале английского языка): дис. ... канд. филол. наук. - Ставрополь, 2007.

2. Каменский М.В. Когнитивно-функциональная модель дискурсных маркеров (на примере английского языка) // Вестник Ленинградского государственного университета имени А.С. Пушкина. - 2012. - № 3. - С. 148 - 156.

3. Клини С. Представление событий в нервных сетях и конечных автоматах // Автоматы. - М.: Изд-во иностр. лит., 1956. - С. 17 - 27.

4. Нечёткий поиск в тексте и словаре. - [Электронный ресурс]: http://habrahabr.ru/post/114997/

5. Расширенные регулярные выражения - поиск в строках. - [Электронный ресурс]:: http://www.solarix.ru/for_developers/api/regexex.shtml

6. Фридл Дж. Регулярные выражения. - СПб.: Символ-Плюс, 2008.

7. Chomsky N. Syntactic structures. The Hague: Mouton & Co., 1957.

8. McCulloch W.S., Pitts W. A Logical Calculus of the Ideas Immanent in Nervous Activity // Bulletin of Mathematical Biophysics / еd. by D.A. Norman. - Chicago: University of Chicago Press, 1943. - P. 115 - 133.

9. Thompson K. Programming Techniques: Regular Expression Search Algorithm // Communications of the ACM / еd. by R.M. McClure. - New York, NY: Association for Computing Machinery, 1968. - P. 419 - 422.

i Надоели баннеры? Вы всегда можете отключить рекламу.