Научная статья на тему 'Исследование применимости теории риторических структур для автоматической обработки научно-технических текстов'

Исследование применимости теории риторических структур для автоматической обработки научно-технических текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
387
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Cloud of science
ВАК
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / ТЕОРИЯ РИТОРИЧЕСКИХ СТРУКТУР / ДИСКУРСИВНЫЙ МАРКЕР / АНАЛИЗ ТЕКСТА / РИТОРИЧЕСКИЕ ОТНОШЕНИЯ / СЕМАНТИКА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бакиева А. М., Батура Т. В.

Наиболее важным, интересным и сложным этапом автоматической обработки текстов считается этап семантического анализа, целью которого является формальное представление смысла текста. Исследована возможность применения теории риторических структур для анализа текстов научно-технической тематики на русском и казахском языках. Описаны некоторые формальные признаки риторических отношений. Сформулированы утверждения, связывающие выделенные признаки между собой. Для обоих языков научно-технические тексты в большей мере характеризуются следующими отношениями: Условие, Причина, Пример, Переформулировка. Кроме того, статьи на русском языке в большом количестве содержат отношение Контраст, а статьи на казахском Цель. Основная проблема состоит в том, что достаточно сложно определить конкретное риторическое отношение, связывающее дискурсивные единицы. Планируется использовать предложенные методы и созданные на их основе инструменты в системах извлечения информации и автоматического реферирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Бакиева А. М., Батура Т. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Research of applicability of the rhetorical structure theory for automatic processing of scientific and technical texts

The most important, interesting and challenging phase of natural language processing is semantic analysis, the purpose of which is the formal representation of a text’s meaning. The possibility of applying the rhetorical structure theory for the analysis of scientific and technical texts in Russian and Kazakh languages is explored in this paper. We describe some of the formal features of rhetorical relations. The statements about the properties of these features are formulated. For both languages, scientific and technical texts are more characterized by the following relations: Condition, Cause-Effect, Example, Restatement. In addition, articles in Russian contain a lot of Contrast relation, and articles in Kazakh Purpose. The main problem is that it is quite difficult to determine the specific rhetorical relation connecting the discursive units. It is planned to use the proposed methods and tools in information retrieval and text summarization systems.

Текст научной работы на тему «Исследование применимости теории риторических структур для автоматической обработки научно-технических текстов»

Cloud of Science. 2017. T. 4. № 3 http:/ / cloudofscience.ru

Исследование применимости теории риторических структур для автоматической обработки научно-технических текстов1

А. М. Бакаева, Т. В. Батура***

'Новосибирский государственный университет ул. Пирогова, 2, Новосибирск, 630090

"Институт систем информатики им. А.П. Ершова СО РАН просп. Акад. Лаврентьева, 6, Новосибирск, 630090

e-mail: [email protected], [email protected]

Аннотация. Наиболее важным, интересным и сложным этапом автоматической обработки текстов с читается этап семантического анализа, целью которого является формальное представление смысла текста. Исследована возможность применения теории риторических структур для анализа текстов научно-технической тематики на русском и казахском языках. Описаны некоторые формальные признаки риторических отношений. Сформулированы утверждения, связывающие выделенные признаки между собой. Для обоих языков научно-технические тексты в большей мере характеризуются следующими отношениями: Условие, Причина, Пример, Переформулировка. Кроме того, статьи на русском языке в большом количестве содержат отношение Контраст, а статьи на казахском — Цель. Основная проблема состоит в том, что достаточно сложно определить конкретное риторическое отношение, связывающее дискурсивные единицы. Планируется использовать предложенные методы и созданные на их основе инструменты в системах извлечения информации и автоматического реферирования.

Ключевые слова: автоматическая обработка текста, теория риторических структур, дискурсивный маркер, анализ текста, риторические отношения, семантика.

1. Введение

Ввиду стремительного увеличения объемов текстовой информации в Интернете исследования в области компьютерной лингвистики сохраняют свою актуальность. Разработка алгоритмов и создание систем автоматического реферирования, поиска и извлечения информации, классификации и кластеризации текстовых документов по-прежнему являются сложными задачами.

1 Работа выполнена в НГУ при финансовой поддержке Минобрнауки РФ (договор № 02025.31.0146) в рамках реализации постановления Правительства РФ № 218 «О мерах государственной поддержки развития кооперации российских высших учебных заведений и организаций, реализующих комплексные проекты по созданию высокотехнологичного производства».

В системах автоматической обработки текстов традиционно выделяют пять основных этапов анализа: графематический, морфологический, фрагментационный, синтаксический и семантический. В своем исследовании мы ориентировались на казахский и русский языки, чтобы охватить языки, по крайней мере, двух типов: агглютинативного и флективного. Было замечено, что при обработке текстов на казахском языке бывает сложно четко разделить этапы морфологического, синтаксического и семантического анализа, наблюдается их связность. Это объясняется особенностями словообразования в языках такого строя. Кроме того, именно эти три этапа вызывают наибольшие трудности при автоматизации независимо от языка. Поэтому в данной статье ограничимся только их рассмотрением.

Над созданием систем морфологического и синтаксического анализа в настоящее время трудятся много коллективов. Существует довольно много разработок для русского языка, однако для казахского языка данная область исследована меньше. В частности, в работах [1-3] описаны подходы, применимые для агглютинативных языков, а исследования по автоматизации семантического анализа текстов на казахском языке представлены совсем в небольшом количестве.

Целью семантического анализа является построение семантического графа текста. В отличие от морфологического и синтаксического, на семантическом этапе появляется формальное представление смысла текста. В процессе семантического анализа осуществляется семантическая интерпретация слов и конструкций, устанавливаются отношения между более крупными элементами текста.

В последнее время все чаще встречается мнение, что языковые явления не могут быть адекватно поняты и описаны вне их употребления, без учета их дискурсивных аспектов [4]. Дискурс часто отождествляется с текстом, состоящим из предложений (коммуникативных единиц языка) и их объединений в более крупные единства, находящиеся в непрерывной смысловой связи. Другими словами, дискурс — это не только связная последовательность предложений, противопоставляемая изолированному предложению, но и определенное семантическое единство, обладающее семантической связностью [5], и, как следствие, содержащее знания о мире, о ситуации, социальные и другие виды знаний.

В работе [6] описан опыт создания корпуса на русском языке, содержащего дискурсивную разметку. В корпус включены тексты различных жанров (научные, научно-популярные, новостные), он является общедоступным. Прежде, чем применять теорию риторических структур, ее следует адаптировать для конкретного языка. Это связано с грамматическими особенностями. Авторы привели в своей статье иерархию риторических отношений, которые, как показало их исследование, удобнее и правильнее учитывать при разметке русских текстов.

Существуют попытки применения дискурсивного анализа для решения различных задач компьютерной лингвистики. Подробный обзор литературы, представленный в работе [7], показывает, что в большинстве случаев дискурсивный анализ способен улучшить качество автоматических систем на 4-44% в зависимости от конкретной задачи. В то время как для английского языка разработки в данной области выходят на достаточно высокий уровень, для русского языка подобных исследований мало [7-9]. Для казахского языка такие исследования ранее не проводились.

2. Особенности морфологического и синтаксического анализа текстов на казахском языке

Для казахского языка в данный момент нами было исследовано два подхода к автоматизации морфологического анализа. Один из них основан на правилах и реализован нами в виде самостоятельного приложения, в котором можно осуществлять стемматизацию существительных, прилагательных и глаголов. Базовым алгоритмом является алгоритм Портера [10]. В зависимости от выполнения условий принимается решение, получена ли основа слова или требуется отсечение аффикса. Все необходимые для преобразований правила можно разделить на группы согласно флективным классам. Алгоритм получения основ состоит из следующих этапов.

1. На вход поступает любая словоформа (глагол, существительное, прилагательное).

2. Начиная с последней буквы слова, происходит поиск по списку аффиксов.

3. Если данный аффикс найден, то он отсекается. Иначе оставшаяся часть слова считается основой.

Второй подход к автоматизации морфологического анализа основан на грамматике связей и реализован в системе LGP (Link Grammar Parser). Результатом работы этой системы являются структуры, которые состоят из множества помеченных связей (коннектров), соединяющих части слова попарно. Правила выставления связей описываются в подключаемых словарях. Например, связь {Var+} служит для обозначения результативного прошедшего времени у глаголов казахского языка. Признаком ее является наличие аффиксов цан, ган, кен, ген. Более подробно этот подход описан в работе [11].

Кроме того, LGP является удобным инструментом синтаксического анализа предложений. Синтаксические функции слов в предложении можно обозначать заглавными латинскими буквами. Для казахского языка были выделены следующие основные связи:

AS — определение при подлежащем; AS (adjective, noun).

АО — определение при дополнении; АО (adjective, noun).

E —обстоятельство при сказуемом; Е (adverb, verb).

J —соединяет послелог с глаголом; J (postposition, verb).

OV — прямое дополнение при сказуемом; OV (object, verb).

OJV — косвенное дополнение при сказуемом; OJV (Nd (noun) | Ng (noun) | Ni (noun) | N1 (noun) | Nb (noun), verb), где Nd (noun) — дательный падеж, Ng (noun) — родительный падеж, Ni (noun) — творительный падеж, N1 (noun) — предложный падеж (приблизительно соответствует местному падежу в казахском), Nb (noun) — исходный падеж (частично совпадает с родительным падежом в русском).

S — соединяет подлежащее и сказуемое; S (Nn | Pn, verb), где Nn — существительное в именительном падеже; Рп — местоимение в именительном падеже.

Для соединения слов со знаками пунктуации, в частности с запятыми, можно использовать обозначения:

Хг — соединяет слово с запятой, стоящей справа от него;

XI — соединяет слово с запятой, стоящей слева от него.

Тогда для запятой, открывающей и закрывающей клаузы, в словаре должна присутствовать формула « , »: Х1+&Х1-.

Если учитывать синтаксические функции слов в предложении, то каждой части речи можно сопоставить формулу из возможных связей. Рассмотрим пример структуры предложения на казахском языке. Имя существительное в предложении может выступать в роли подлежащего, к которому относятся определение и/или дополнение, сказуемое всегда будет справа: <N_S>: {AS-} &{OV+} & S+. Существительное может выполнять функцию дополнения, слева от которого также может быть определение, а справа может находиться послелог и сказуемое. Такая структура в общем случае будет описана формулой: <N_0>: {АО-} &{OV+} & {OJV+}.

С другой стороны, глагол может выступать в предложении в качестве сказуемого, слева от которого может быть подлежащее, дополнение (прямое или косвенное) или обстоятельство: <V_P>: {EI-} &{OV-} & {OJV-}&{S-}. При этом обязательно в описании прилагательного должна присутствовать связь AI+ как необходимая пара для AI-, а в описании наречий — связь EI+ как необходимая пара для EI-. В противном случае связь не будет обнаружена.

+

S3p

+—Np—+

+—OV—+-Va3p-+

бала.= =лар кино кара.= =ды.vac

Рисунок 1. Результат разбора предложения при помощи LGP

Можно заметить (рис. 1), что при разборе предложения Балалар кино царады. (Дети смотрели фильм) парсер определил 2 синтаксические (S3p. OV) и 2 морфологические (Np, Va3p) связи, где:

- Np — связь, обозначающая множественное число существительных;

- Va3p — связь, обозначающая глагол в прошедшем времени 3-го лица множественного лица;

- S3p — связь, обозначающая существительное 3-го лица множественного числа.

Следует заметить, что синтаксические связи могут возникать не только между словами, но и между группами слов, например в случае составного глагольного сказуемого, составного именного сказуемого, причастного оборота и т. д. К глаголу присоединяются определенные аффиксы + дополнительный глагол при определении слова.

3. Семантический анализ и формальные признаки риторических отношений

Теория риторических структур (Rhetorical Structure Theory) — одна из наиболее известных теорий организации текстов [12]. Согласно ей, сначала текст делится на непересекающиеся фрагменты, называемые элементарными дискурсивными единицами (ЭДЕ). Например, предложение Марк Цукерберг программист, несмотря на это он переквалифицировался на бизнесмена может быть разбито на две части (Марк Цукерберг программист)я (несмотря на это он переквалифицировался на бизнесмена).

Далее последовательные ЭДЕ соединяются между собой риторическими отношениями. Эти части являются элементами, из которых строятся более крупные фрагменты текстов и целые тексты. Каждый фрагмент по отношению к другим фрагментам выполняет определенную роль. Текстовая связность формируется посредством тех отношений, которые моделируются между фрагментами внутри текста. Множество риторических отношений определено заранее. В некоторых работах их выделяют 21 [13], в некоторых говорится о 27 [8] и даже о 47 [14]. Конечная цель дискурсивного парсера— построить деревообразную структуру представления того, как связаны между собой части текста.

В теории риторических структур определено два типа ЭДЕ. Дцро рассматривается в качестве наиболее важной части высказывания, тогда как сателлиты поясняют ядра и являются вторичными. Дцро содержит основную информацию, а сателлит содержит дополнительную информацию о ядре. Сателлит часто бывает непонятным без ядра. В то время как выражения, где сателлиты были удалены, могут

быть поняты в определенной степени. Если опущено или изменено ядро, смысл текста и отношение существенно меняется [15].

Выделяют симметричные (многоядерные) и асимметричные (одноядерные) отношения.

Симметричные отношения могут соединять произвольное количество дискурсивных единиц, между ними нет различий. Например, Конъюнкция (Joint) — многоядерное отношение, элементы которого перечисляются, но не сравниваются.

В асимметричных отношениях две дискурсивные единицы имеют разный статус, т. е. отношение между ними направленное. Стрелка указывает на ядро отношения, а начало ее — на сателлит. Так, отношение Условия (Condition) можно описать следующим образом. Сателлит представляет собой гипотетическое, будущее, или нереализованную ситуацию. Например, предложение Егер кол ецбектенсец, 6ip нэрсе шыгады. (Если долго мучиться, что-нибудь получится.) может быть представлено в виде следующих частей: (Егер коп ецбектенсец)0, (6ip нэрсе шыгады)я ([Если долго мучиться]0, [что-нибудь получится]я). Тогда разметка предложения будет иметь следующий вид (см. рис. 2).

Егер кеп Sip нэрсе шыгады.

Рисунок 2. Разметка предложения в терминах теории риторических структур

Все риторические отношения могут быть представлены парами трех видов:

- ядро-ядро <N, N> (Nucleus-Nucleus) — симметричное риторическое отношение;

- ядро-сателлит <N, S> (Nucleus-Satellite) — асимметричное риторическое отношение, в котором ядро предшествует сателлиту;

- сателлит-ядро <S, N> (Satellite-Nucleus) — асимметричное риторическое отношение, в котором сателлит предшествует ядру.

Основная проблема состоит в том, что достаточно сложно определить конкретное риторическое отношение, связывающее дискурсивные единицы. Необходимо формально описать признаки каждого отношения, на основании которых возможно было бы однозначно установить соответствие. Тогда можно использовать теорию риторических структур в системах автоматического анализа текстов.

Как отмечено в работе [8], риторические отношения можно рассматривать как предикаты со свойствами, указывающими на определенные дифференцирующие

признаки. Для некоторых риторических отношений удается выделить маркеры. Например, Иван вышел рано, чтобы не опоздать на встречу. Риторическое отношение с данным маркером соответствует отношению Цель, где сателлит с помощью маркера «чтобы» присоединяется к ядру.

Исследование дискурсивных маркеров является одной из наиболее популярных областей дискурсивного анализа [16, 17]. К классу дискурсивных маркеров часто относят соединители-союзы (когда, потому что, но и т. д.). Помимо этого, сюда можно также отнести маркеры ментальных процессов говорящего (слова типа вот, ну, так сказать), маркеры контроля над ментальными процессами адресата (слова типа понимаешь, видите ли) и другие [18]. Заметим, что исследованиям дискурсивных маркеров в казахском языке в настоящее время не уделяется должного внимания, хотя принципы дискурсивного анализа не зависят от языка и могут одинаково успешно применяться как для русского, так и для других языков.

Ниже приведены маркеры, соответствующие им риторические отношения и примеры предложений с ними (табл. 1).

Таблица 1. Примеры маркеров и предложений с ними

№ Маркер Название отношения Пример предложения

1 Кроме того, более того (оган коса) Elaboration Дом выглядел неплохо. Кроме того, цена была подходящая. Yй жаман емес кершдг Оган цоса, багасы да тиiмдi болды

2 Потому что (се-беб1) Cause-Effect Она очень умная, потому что училась усердно, вникала во все задания. Ол ете бшмда, себебг бар ынтамен окып, барлык тапсырмага ^гынып жатты

3 Если..., то (егер ..., онда) Condition Если не будешь учиться, то будет трудно. Егер окымасац, онда киын болады

4 Несмотря на (оган карамастан) Concession Несмотря на все противопоказания врачей, она решила стать матерью. Дэрперлердщ карсылыктарына царамастан, ол ана болуды шешл

5 Хотя (дегенмен) Concession Интересно получилось, хотя некоторые ученые, посмеиваясь, говорят, что это всего лишь случайное совпадение. Кызьщ шыгыпты, дегенмен, кейбiр галымдар келе-мештеп, оны жай кездесок окига деп айтып жатыр

6 Чтобы (ушш) Purpose Саша усердно готовился, чтобы получить пятерку. Бес алу Yшiн, Саша м^кият дайындалды

Однако большинство риторических отношений невозможно охарактеризовать наличием определенных дискурсивных маркеров. Кроме того, сами по себе маркеры являются неуниверсальными признаками, т. к. в разных естественных языках

выражаются по-разному. Поэтому для более четкого описания риторических отношений необходимо выделить другие признаки. Так, в качестве признаков, могут быть взяты классифицирующие параметры, описанные М. Луверсом в работе [19]. В своей классификации М. Луверс выделил те параметры, которые наиболее часто используются для описания отношений когезии и когеренции. Когезия — структурная связность текста. Когерентность — содержательная связность текста. По большей части понятие «когерентность» применяется к содержательной стороне текста, это организация содержания текста в целом, для которой особое значение имеет сама коммуникативная ситуация и набор знаний отправителя и получателя текста. Понятие «когезия» применяется к структурной организации текста, отвечает за присоединение единиц текста с помощью средств отдельных языковых уровней. Другими словами, когерентность — это свойство текста, а когезия — свойство элементов текста.

М. Луверс определил четыре вида параметров: тип отношения, полярность, направление и отражение связи в реальном мире.

Первый из параметров — тип отношений. Отношения могут быть трех типов: TYPE={C, Т, А}, С — каузальные (causal), Т — темпоральные (temporal), А — аддитивные (additive). Каузальность содержит указание времени и причины, те моральность — только времени, аддитивность не содержит каких-либо указаний.

Полярность отношений подразумевает их деление на положительные (positive) и отрицательные (negative): POL={P, N}. Положительность означает, что ситуация, которая представлена первой, развивается во второй, присоединенной к ней ситуации. Негативность предполагает, что ожидаемая связь ситуаций прекращается, наоборот, присутствует противопоставление.

Направление может быть прямым (forward), обратным (backward) и двунаправленным (bi-directional) в зависимости от порядка упоминания событий в тексте: DIR={B, F, BD}.

Отражение связи в реальном мире может быть рассмотрено на двух уровнях: между фактами и между речевыми актами. Первый уровень М. Луверс относит к семантике, второй — к прагматике. Семантические отношения разделяют на объектные (object-matter) и субъектные (subject-matter): SEM={0, S}. Прагматические отношения разделяются на интенциональное (intentional), презентационное (presentational): PRAG={IN, PR}.

Следует заметить, что последний параметр — отражение связей в реальном мире — является наименее исследованным в литературе и наиболее сложно поддается формализации. Поэтому было принято решение ограничиться рассмотрением только первых трех из перечисленных параметров. Последний планируется исследовать в дальнейшем.

Помимо указанных трех параметров, некоторые риторические отношения удается описать с помощью связей LGP, введенных в предыдущем разделе. Примеры описания представлены в табл. 2.

Таблица 2. Описание отношений при помощи связей ЬОР и других признаков

Название отношения Возможный маркер Описание при помощи связей LGP Тип Полярность Направление

Детализация, Elaboration Кроме того; более того (оган ;оса) E+ or (Xl- & Xr+ & (E+ or E-)) or ({Xr+ & {Xl-}} & OJV+) or ({Xr+ & {Xl-}} & E-) add pos F

Причина, Cause-Effect Потому что (себеб^ (J+ or E+) & (E- or J- or ({Xr+ & {Xl-}} & OJV+) or (Xl- & Xr+ & E+)) caus pos B / F

Условие, Condition Если..., то (егер онда (OV & {Xc+ & {Xd-}} or (OV- or {E+}) & (({Xl- & Xr+} & E-) or ({Xr+ & {Xl-}} & OJV+))) caus pos F

Уступка, Concession Несмотря на (оган ;арама-стан) (J+ or E+) & (E- or (Xl- & Xr+ & E+) or ({Xr+ & {Xl-}} & OJV+)) add neg F

Уступка, Concession Хотя (дегенмен) (OV- & (({Xr + & {Xl-}} & OJV+) or ({Xl- & Xr+} & E-))) caus neg B / F

Цель, Purpose Чтобы (ушш) ((J+ or E+) & (OV- or MVI-)) or (J+ & (Xr- or Xl+)) caus pos F

Сформулируем следующие утверждения, связывающие выделенные признаки. Утверждение 1. Аддитивность невозможна для обратного направления. Пусть TYPE={C, T, A} и DIR={B, F, BD}.

Тогда, если R е A, то R е F или R е BD, но R £ B. Утверждение 2. Не существует двунаправленной каузальности. Пусть TYPE={C, T, A} и DIR={B, F, BD}. Тогда, если ReC, то R e B или ReF, но R g BD.

Утверждение 3. Не существует отрицательной двунаправленной темпорально-

сти.

Пусть TYPE={C, T, A}, DIR={B, F, BD} и POL={P, N}. Тогда, если ReT, и Re BD, то ReP и Ri N.

Доказательство этих утверждений непосредственно следует из определений множеств TYPE, DIR и POL.

4. Описание экспериментов и полученные результаты

Автоматическое определение риторических отношений в тексте позволяет установить местоположение ядра и сателлита. Поиск ядра зависит от одного из параметров отношений — направления. Поскольку ядро содержит наиболее важную часть высказывания, то предложенный метод можно использовать в системах автореферирования и извлечения информации из текстов.

На основе предложенных методов был создан инструмент для определения риторических отношений. С помощью него было решено провести эксперимент по обнаружению отношений, характеризующих тексты научно-технической тематики. В ходе эксперимента было проанализировано 168 статей на русском языке, средняя длина которых 7-12 страниц. На казахском языке была собрана коллекция из 207 статей. В эксперименте рассматривалось в общей сложности 11 отношений и около 40 маркеров на каждом языке. Распределение рассмотренных риторических отношений в текстах показано на рис. 3 и 4 соответственно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отсюда можно сделать вывод, что для обоих языков научно-технические тексты в большей мере характеризуются следующими отношениями: Условие, Причина, Пример, Переформулировка. Кроме того, в статьях на казахском языке в большом количестве представлено отношение Цель, а в статьях на русском — Контраст. Значит, в дальнейших исследованиях научно-технических текстов имеет смысл детальнее изучить именно их. Отношения Источник информации и Сравнение практически не представлены в собранных коллекциях.

Рисунок 3. Распределение отношений Рисунок 4. Распределение отношений

для русского языка для казахского языка

Для оценки точности предложенного метода использовалась экспертная оценка. Исходя из полученных данных, было решено рассмотреть наиболее часто встречающиеся отношения. Точность была оценена для каждой коллекции по формуле

TP

Precision =-,

TP + FP

где TP — истинно положительное решение; FP — ложно положительное решение.

В табл. 3 приведена оценка точности определения наиболее часто встречающихся риторических отношений.

_Таблица 3. Оценка точности определения риторических отношений

Название отношения Точность (коллекция на русском) Точность (коллекция на казахском)

Условие, Condition 0.896 0.92

Причина, Cause-Effect 0.987 1.0

Пример, Example 0.981 0.98

Переформулировка, Restatement 0.968 0.963

Контраст, Contrast 1.0 0.973

Цель, Purpose 0.989 1.0

Предположительно, возникшие ошибки связаны с особенностями словоупотребления, а также возможным наличием опечаток и ошибок в исходных текстах. Для более детального анализа требуется проведение дополнительных более масштабных экспериментов.

5. Заключение

В данной работе исследована возможность применения теории риторических структур для анализа текстов научно-технической тематики. Предпринята попытка формально описать признаки некоторых отношений, на основании которых удавалось бы однозначно установить соответствие. Сформулированы утверждения, связывающие выделенные признаки между собой. Основная проблема состоит в том, что достаточно сложно определить конкретное риторическое отношение, связывающее дискурсивные единицы.

Автоматическое определение риторических отношений в тексте позволяет установить местоположение ядра и сателлита. Поиск ядра зависит от одного из параметров отношений — направления. Поскольку ядро содержит наиболее важную часть высказывания, то предложенный метод полезен при составлении краткой аннотации текстов. Планируется использовать предложенные методы и созданные на их основе инструменты в системах извлечения информации и автоматического реферирования.

Литература

[1] Tukeev U. Automaton models of the morphology analysis and the completeness of the endings of the Kazakh language // Proc. of int. Conf. Turkic languages processing (Turklang-2015), 2015. P. 91-100.

[2] Жуманов Ж. M. Разработка грамматики связи для синтаксического анализа казахского языка // Вестник КазНУ. Серия математика, механика, информатика. 2012. № 2 (73). С. 7180.

[3] Тукеев У. А. Жуманов Ж. AL, Рахимова Д. Р. Моделирование семантических ситуаций времен казахского языка при машинном переводе // Вестник КазНУ. Серия математика, механика, информатика. 2012. №4 (75). С. 99-107.

[4] Прокошенкова Л. П., Гецкина II. Б. Дискурсивный анализ и его роль в современной лингвистике // Вестник '/ГУ. 2006. № 4. С. 451-456. (http://cyberleninka.ru/article/n/ diskursivnyy-analiz-i-ego-rol-v-sovremennoy-lingvistike)

[5] Темнова Е. В. Современные подходы к изучению дискурса // Язык, сознание, коммуникация: сб. статей; отв. ред. В. В. Красных, А. И. Изотов. — М. : МАКС Пресс, 2004. Вып. 26. С. 24-32.

[6] Pisarevskaya D., Ananyeva М, Kobozeva М, Naseclkin A., Nikiforova S., Pavlova /., Shelepov A. Towards building a discourse-annotated corpus of Russian // Computational Linguistics and Intellectual Technologies. Proc. of the Int. Conf. "Dialogue 2017". — M. : Изд-во РГГУ, 2017. Вып. 16(23). Т. 1. С. 194-204.

[7] Ананьева М. II, Кобозева М. В. Разработка корпуса текстов на русском языке с разметкой на основе теории риторических структур // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». — М. : Изд-во РГГУ, 2016. Вып. 15 (22). (www.dialog-21.ru/media/3460/ananyeva.pdf)

[8] Сусов А. А. Моделирование дискурса в терминах теории риторической структуры // Вестник Воронежского государственного университета. Серия: Филология. Журналистика. 2006. №2. С. 133-138.

[9] Тревгода С. А. Методы и алгоритмы автоматического реферирования текста на основе анализа функциональных отношений. Автореф. дисс. ... канд. техн. наук. СПб., 2009. С. 15.

[10] Porter М. F. An algorithm for suffix stripping // Program. 1980. Vol. 14. No. 3. P. 130-137.

[11]Batura T.V., Murzin F.A., Bakiyeva A.M., Tazhibayeva S.Zh., Yerimbetova A.S., Sagna-yeva S. K. Link Grammar Parser for Turkic languages and algorithms for estimation the relevance // The 10th Int. Conf. on Application of Information and Communication Technologies (AICT2016). 12-14 October 2016. — Baku, Azerbaijan. 2016. P. 104-107.

[12] Mann W„ Thompson C. Rhetorical structure theory: Toward a functional theory of text organization// Text-Interdisciplinary Journal for the Study of Discourse. 1988. Vol. 8. No. 3. P. 243-281.

[13] Ананьева М. И., Кобозева М. В. Дискурсивный анализ в задачах обработки естественного языка // Труды IV Всеросс. научн. конф. молодых ученых с междунар. участием «Информатика, управление и системный анализ». 2016. Т. 1. C. 138-148.

[14] Литвиненко А. О. Описание структуры дискурса в рамках теории риторической структуры: применение на русском материале // Труды Междунар. сем. «Диалог-2001» по компьютерной лингвистике и ее приложениям. — Аксаково, 2001. Т. 1. С. 159-168.

[15] Ковальчук Н. В., Володина М. С. Теория риторических структур как прагматическая концепция анализа текста // Вестник Северного (Арктического) федерального университета. Серия «Гуманитарные и социальные науки». 2016. № 3. С. 107-113.

[16] Баранов А. Г. Функционально-прагматическая концепция текста. — Ростов н/Д : изд. Рост. ун-та, 1993. 182 с.

[17] Fraser B. What are discourse markers? // Journal of pragmatics. 1999. Vol. 31. No. 7. P. 931-952.

[18] Палатовская Е. В. Дискурсивный анализ и теория риторической структуры // Науковий вгсник кафедри Юнеско КНЛУ Сер1я: Ф1лолог1я, Педагог1ка, Психологгя. 2014. Вип. 29. C. 89-95.

[19] Louwerse M. An Analytic and Cognitive Parameterization of Coherence Relations. Cambridge, 2001. 320 p.

Авторы:

Айгерим Муратовна Бакиева — аспирантка, Новосибирский государственный университет

Татьяна Викторовна Батура — кандидат физико-математических наук, ведущий научный

сотрудник, Новосибирский государственный университет; старший научный сотрудник,

Институт систем информатики им. А. П. Ершова СО РАН

Cloud of Science. 2017. T. 4. № 3 http:/ / cloudofscience.ru

Research of applicability of the rhetorical structure theory for automatic processing of scientific and

technical texts

A. M. Bakiyeva, T. V. Batura*'**

'Novosibirsk State University Ul. Pirogova, 2, Novosibirsk, Russia, 630090

"A. P. Ershov Institute of Informatics Systems SB RAS Ave. Acad. Lavrentiev, 6, Novosibirsk, Russia, 630090

e-mail: [email protected], [email protected]

Abstract. The most important, interesting and challenging phase of natural language processing is semantic analysis, the purpose of which is the formal representation of a text's meaning. The possibility of applying the rhetorical structure theory for the analysis of scientific and technical texts in Russian and Kazakh languages is explored in this paper. We describe some of the formal features of rhetorical relations. The statements about the properties of these features are formulated. For both languages, scientific and technical texts are more characterized by the following relations: Condition, Cause-Effect, Example, Restatement. In addition, articles in Russian contain a lot of Contrast relation, and articles in Kazakh — Purpose. The main problem is that it is quite difficult to determine the specific rhetorical relation connecting the discursive units. It is planned to use the proposed methods and tools in in form a Li on retrieval and text summarization systems.

Key words: automatic text processing, rhetorical structure theory, discourse marker, text analysis, rhetorical relations, semantics.

References

[1] Tukeev U. (2015) Automaton models of the morphology analysis and the completeness of the endings of the Kazakh language. In Proc. of int. conf. Turkic languages processing (Turklang-2015), pp. 91-100.

[2] Zhumanov Zh.M. (2012) Vestnik KazNU. Seriya matematika, mekhanika, informatika, 2(73):71-80. [InRus]

[3] Tukeev U. A., Zhumanov Zh. M, Rahimova D. R. (2012) Vestnik KazNU. Seriya matematika, mekhanika, informatika, 4(75):99-107. [InRus]

[4] Prokoshenkova L.P., Geckina I.B. (2006) Vestnik CHGU, 4:451-456. (ltttp://cvbcrlcninka.Ri/articlc/n/di^ [InRus]

[5] Temnova E. V. (2004) Sovremennye podhody k izucheniyu diskursa // In book Yazyk, soz-nanie, kommunikaciya: sb. statej. Moscow, MAKS Press. 26:24-32. [InRus]

[6] Pisarevskaya D, Ananyeva M, Kobozeva M, Nasedkin A., Nikiforova S., Pavlova I., Shel-epov A. (2017) Towards building a discourse-annotated corpus of Russian. In Proc. of the Int. conf. "Dialogue 2017". Computational Linguistics and Intellectual Technologies, 16(23-1):194-204.

[7] Anan'eva M. I., Kobozeva M. V. (2016) Razrabotka korpusa tekstov na russkom yazyke s razmetkoj na osnove teorii ritoricheskih struktur. In book Tr. Mezhdunar. konf. «Dialog». (www.dialog-21.ru/media/3460/ananyeva.pdf) [In Rus]

[8] Susov A. A. (2006) Vestnik Voronezhskogo gosudarstvennogo universiteta. Seriya: Filologiya. Zhurnalistika, 2:133-138. [In Rus]

[9] Trevgoda S. A. (2009) Metody i algoritmy avtomaticheskogo referirovaniya teksta na osnove analiza funkcional'nyh otnoshenij. Thesis. Sankt-Peterburg, P. 15. [In Rus]

[10] Porter M. F. (1980) Program, 14(3):130-137.

[11] Batura T. V, Murzin F. A., Bakiyeva A. M, Tazhibayeva S. Zh, Yerimbetova A. S, Sagnayeva S. K. (2016) Link Grammar Parser for Turkic languages and algorithms for estimation the relevance. In conf. The 10th Int. Conf. on Application of Information and Communication Technologies (AICT2016). 12-14 October 2016. Baku, Azerbaijan, pp.104-107.

[12] Mann W., Thompson C. (1988) Text-Interdisciplinary Journal for the Study of Discourse, 8(3):243-281.

[13] Anan'eva M. I., Kobozeva M. V. (2016) Diskursivnyj analiz v zadachah obrabotki estestven-nogo yazyka. In book Trudy IV Vseross. nauchn. konf. molodyh uchenyh s mezhdunarodnym uchastiem «Informatika, upravlenie i sistemnyj analiz», 1:138-148. [In Rus]

[14] Litvinenko A. O. (2001) Opisanie struktury diskursa v ramkah teorii ritoricheskoj struktury: primenenie na russkom material. In book Trudy Mezhdunar. sem. «Dialog-2001» po komp'yuternoj lingvistike i ee prilozheniyam. Aksakovo, 1:159-168. [In Rus]

[15] Koval'chuk N. V, Volodina M. S. (2016) Vestnik Severnogo (Arkticheskogo) federal'nogo universiteta. Seriya Gumanitarnye i social'nye nauki, 3:107-13. [In Rus]

[16] Baranov A. G. (1993) Funkcional'no-pragmaticheskaya koncepciya teksta. Rostov-na-Donu, izd. Rost. un-ta, 182 p. [In Rus]

[17] Fraser B. (1999) Journal of pragmatics, 31(7):931-952.

[18] Palatovskaya E. V. (2014) Naukovij visnik kafedri YUnesko KNLU. Seriya: Filologiya, Peda-gogika, Psihologiya, 29:89-95. [In Rus]

[19] Louwerse M. (2001) An Analytic and Cognitive Parameterization of Coherence Relations. Cambridge. 320 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.