Научная статья на тему 'О подчинительном дереве для простого распространенного русского предложения'

О подчинительном дереве для простого распространенного русского предложения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
103
26
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
AUTOMATIC TEXT ANALYSIS / DEPENDENCY TREE / АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / ДЕРЕВО СИНТАКСИЧЕСКОГО ПОДЧИНЕНИЯ / ОМОНИМЫ / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / СИНТАКСИЧЕСКИЙ АНАЛИЗ / ПРАВИЛА ПОДЧИНЕНИЯ / HOMONYMS / MORPHOLOGICAL ANALYSIS / SYNTACTIC ANALYSIS / DEPENDENCY RULES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ниценко А.В., Шелепов В.Ю., Большакова С.А.

В статье описан принцип автоматического построения дерева синтаксического подчинения для предложений русского языка. Задача решается на основе идентификации составляющих предложение словоформ путем поиска их в морфологическом словаре. Особенностью предлагаемого способа является применение набора правил для выбора омонимов и определения зависимостей между словами предложения. В статье приведен набор данных правил, рассмотрены примеры их работы. В результате к каждому слову предложения привязывается подчиняющее слово либо пустая строка, если слово главное. Графически это отображается в виде древовидной структуры, отражающей зависимости между словами предложения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the Dependency Tree for a Simple Extended Russian Sentence

The paper deals with the the principle of automatically creating a dependency tree for the Russian language sentences. The problem is solved on the basis of identifying the word forms that constitute the sentence by searching them in the morphological dictionary. A feature of the proposed method is the use of a set of rules for the choice of homonyms and the definition of dependencies between the words of a sentence. The article provides a set of data rules and examples of their work. As a result, a depending word or an empty string for main word is connected to each word of the sentence. Graphically, this is displayed as a tree structure, reflecting the dependencies between the words of a sentence.

Текст научной работы на тему «О подчинительном дереве для простого распространенного русского предложения»

УДК 004.89:004.93

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова

Государственное учреждение «Институт проблем искусственного интеллекта», г. Донецк 83048, г. Донецк, ул. Артема, 118-б

О ПОДЧИНИТЕЛЬНОМ ДЕРЕВЕ ДЛЯ ПРОСТОГО РАСПРОСТРАНЕННОГО РУССКОГО ПРЕДЛОЖЕНИЯ

A. V. Nicenko, V. Ju. Shelepov, S. A. Bolshakova

Public institution «Institute of Problems of Artificial intelligence», Donetsk

83048, Donetsk, Artema st., 118-b

ON THE DEPENDENCY TREE

FOR A SIMPLE EXTENDED RUSSIAN SENTENCE

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова Державна установа «1нститут проблем штучного штелекту», м. Донецьк 83048, м. Донецьк, вул. Артема, 118-б

ПРО ДЕРЕВО П1ДПОРЯДКУВАННЯ ДЛЯ ПРОСТОГО ПОШИРЕНОГО РОС1ЙСЬКОГО РЕЧЕННЯ

В статье описан принцип автоматического построения дерева синтаксического подчинения для предложений русского языка. Задача решается на основе идентификации составляющих предложение словоформ путем поиска их в морфологическом словаре. Особенностью предлагаемого способа является применение набора правил для выбора омонимов и определения зависимостей между словами предложения. В статье приведен набор данных правил, рассмотрены примеры их работы. В результате к каждому слову предложения привязывается подчиняющее слово либо пустая строка, если слово главное. Графически это отображается в виде древовидной структуры, отражающей зависимости между словами предложения. Ключевые слова: автоматический анализ текста, дерево синтаксического подчинения, омонимы, морфологический анализ, синтаксический анализ, правила подчинения.

The paper deals with the the principle of automatically creating a dependency tree for the Russian language sentences. The problem is solved on the basis of identifying the word forms that constitute the sentence by searching them in the morphological dictionary. A feature of the proposed method is the use of a set of rules for the choice of homonyms and the definition of dependencies between the words of a sentence. The article provides a set of data rules and examples of their work. As a result, a depending word or an empty string for main word is connected to each word of the sentence. Graphically, this is displayed as a tree structure, reflecting the dependencies between the words of a sentence.

Key words: automatic text analysis, dependency tree, homonyms, morphological analysis, syntactic analysis, dependency rules.

У статт описано принцип автоматично'! побудови дерева синтаксичного пщпорядкування для речень роайсько'!' мови. Завдання виршуеться на основi щентифшацп словоформ, що складають речення, шляхом пошуку '''х у морфолопчному словнику. Особливютю запропонованого способу е застосування набору правил для вибору омонiмiв i визначення залежностей мiж словами речення. У статп наведено набiр даних правил, розглянут приклади 'х роботи. В результат до кожного слова речення прив'язуеться пщпорядковане слово або порожый рядок, якщо слово головне. Графiчно це вщображаеться у виглядi деревовидно' структури, що вщображае залежнють мж словами речення.

Ключовi слова: автоматичний аналiз тексту, дерево синтаксичного пщпорядкування, омоыми, морфолопчний аналiз, синтаксичний аналiз, правила пщпорядкування.

Введение

Компьютерная обработка текстов на естественном языке необходима в прикладных системах, ведущих поиск и анализ информации. Этой тематике посвящено множество работ (см., например, [1-4]). Однако до настоящего времени число эффективно действующих синтаксических анализаторов не превышает полутора десятков. Каждый из них преимущественно ориентирован на решение своего круга задач. В связи с этим постоянно ведутся разработки новых программных продуктов.

Мы будем иметь дело с правильным простым распространенным русским предложением, не содержащим однородных членов, вводных предложений из более чем одного слова, а также прямой речи. Для каждого слова предложения, кроме одного выделенного, требуется найти подчиняющее слово (хозяина). Это позволит сопоставить предложению дерево, которое называют подчинительным деревом или деревом синтаксического подчинения. Упомянутое выделенное слово не будет иметь подчиняющего слова и будет таким образом находиться в корне дерева.

Задача будет решаться на основе идентификации составляющих предложение словоформ путем поиска их в словаре [5] русских словоформ, содержащем более 4 миллионов единиц. Этот словарь организован как множество строк, объединенных в блоки, каждый из которых начинается леммой и образует полную парадигму слова. Порядок лемм - алфавитный. Пример такого блока:

ехать | гл несов непер инф

едучи | дееп несов непер наст

Вслед за разделительным знаком | приведена морфологическая информация о словоформе. Она выражается аббревиатурами и сокращениями, из которых пояснения требует лишь запись «2вид», относящаяся к глаголу. Она означает совпадение по форме глаголов совершенного и несовершенного видов. Отметим, что мы удалили из словаря ряд деепричастных форм, не используемых в современном языке.

Мы используем представление множества всех словоформ этого словаря в виде префиксного дерева (см. по этому поводу [6]). Это позволяет, несмотря на сверхбольшой объем словаря, почти мгновенно осуществлять в нем поиск всех словоформ, соответствующих заданной последовательности символов, и получать результат в виде последовательности строк вида

ложка | сущ неод ед жен им (1)

ложка | сущ неод ед муж род.

Мы будем называть такую последовательность группой.

На рис. 1 представлено окно программы, содержащее результат работы с предложением «Закончив работу, он выключил свой компьютер».

В правом верхнем поле автоматически создается таблица с двумя столбцами. Правый столбец заполняется сверху вниз словами предложения, в левом - для каждого слова записывается слово, его подчиняющее. Эта таблица определяет подчинительное дерево, которое графически отображается в примыкающем снизу поле с использованием стандартного элемента управления «древовидный список».

Л Таблица

□ 1Е

Открыть...

Таблица

J 1емматизация

Обновить

закончиться ] гл соб непер воз ин закончился | гл сов непер во; про закончилась \ гл сов непер воз п закончилось \ гл сов непер воз п закончились | гл сов непер воз п закончатся \ гл сов непер воз був закончусь ] гл сов непер воз буя закончишься | гл сов непер воз Е закончится \ гл сов непер воз бу закончимся | гл сов непер воз бу закончитесь ] гл сов непер воз б закончись | гл сое непер боз поб ( закончитесь | гл сов непер воз п закончась I дееп сов непер воз ге закончившись 1 дееп сов непер вс закончившийся 1 прч сов непер вс закончившегося прч сов непер закончившемуся ] прч сов непер закончившегося ] прч сов непер закончившийся | прч сов непер е закончившимся | прч сов непер е закончившемся 1 прч сов непер е закончившаяся | прч сов непер В1 закончившейся ] прч сов непер \ закончившейся прч сов непер; закончившуюся | прч сов непер закончившеюся ! прч сов непер закончившейся прч сов непер I закончившейся | прч сов непер I закончившееся \ прч сов непер в: закончившегося | прч сов непер закончившемуся | прч сов непер '

боту, он выключил свой компьютер

1 1

выключил он

выключил

компьютер свои

выключил компьютер

выключил закончив

закончив работу

< 1 .1 |Я

^¡■■выключил

Й: компьютер

свой Н- закончив работу

Номер

он выключил свой компьютер, закончив работу

Рисунок 1 - Окно программы

Можно сформулировать следующие основные правила подчинения:

1. Следующие друг за другом числительные объединяются в блок - сложное числительное и помещаются в единую строку таблицы.

2. При наличии в корень дерева помещается предикатив, глагол, причастие в краткой форме или прилагательное в краткой форме (приоритеты соответствуют порядку перечисления).

3. Прилагательное, местоимение-прилагательное или причастие, за которым непосредственно следует согласованное с ним существительное или местоимение-существительное, подчиняется ему.

4. Наречие подчиняется непосредственно следующему за ним глаголу, причастию, деепричастию, прилагательному или местоимению-прилагательному.

5. Предлог подчиняет существительное или местоимение-существительное, к которому он относится. При этом осуществляется выбор, обеспечивающий согласование падежей.

6. Все оставшиеся неподчиненными слова подчиняются слову, стоящему в корне дерева.

Если бы каждая группа вида (1) состояла из единственной строки, этих правил было бы в принципе достаточно для построения желаемого дерева. Дело осложняется широко распространенной в русском языке омонимией. За счет этого группа может содержать несколько строк, среди которых необходимо произвести выбор.

Одновременно с таблицей рис. 1 создается текстовый файл, содержимое которого приведено ниже:

закончив | дееп сов перех прош

работу | сущ неод ед жен вин

он I мест сущ ед муж им

выключил | гл сов перех прош ед муж

свой | сущ одуш ед муж им свой | мест прил ед муж им свой | мест прил ед муж вин неод !

компьютер | сущ неод ед муж им компьютер | сущ неод ед муж вин !

Восклицательный знак обозначает результат автоматического выбора в группе из нескольких строк. В данном случае выбор определяется тем, что именительный падеж однозначно закреплен за словом «он». Основное содержание работы - создание набора такого рода правил, использующих, в частности, знаки препинания.

1 Выбор среди омонимов

Каждая группа состоит из омонимов, и в каждой производится выбор одного из них. Выбранная словоформа обозначается восклицательным знаком. Если группа состоит из единственной словоформы, то результатом выбора считается эта словоформа, восклицательный знак при этом не проставляется.

«Это» в начале предложения Если слово «это» стоит в начале предложения и после него стоит существительное среднего рода либо прилагательное, а затем существительное в среднем роде, то в качестве части речи для слова «это» выбирается местоимение-прилагательное. В остальных случаях слово «это» в начале предложения определяется как частица и при этом помещается в корень дерева.

«На» - частица или предлог? Если непосредственно после слова «на» стоит запятая, то это частица. Пример: На, забирай книгу.

Если в предложении кроме «на» есть глагол и между ними не встречается запятая, то «на» является предлогом.

Примеры: Положи книгу на полку. На полу лежит ковер.

Слово «нет»

Если при слове «нет» отсутствуют запятые, то это предикатив. Если предложение состоит из одного слова «нет» или, если предложение начинается с «нет» и после него стоит запятая, то это частица. Она, в отличие от других частиц, помещается в корень дерева. Если «нет» стоит в середине предложения и выделено запятыми, то это союз. Он создает сочинительную связь и поэтому начинает самостоятельную часть предложения, ничему не подчиняясь. Запятая после него играет чисто интонационную роль, подчинение таково, как будто после союза ее нет. Эта запятая может и отсутствовать, то есть может стоять только предшествующая союзу «нет» запятая.

Глаголы

Если есть только одна группа, которая содержит глагол, то в ней выбирается глагол.

Если есть две группы, одна из которых содержит глагол в форме инфинитива, другая содержит глагол в личной форме, и между этими группами нет запятых, то в обеих группах выбирается глагол.

Слово «было»

Если группа содержит слово «было», в предложении есть еще глагол, и между ними нет запятой, то в группе со словом «было» выбирается частица. Если другого глагола нет, «было» интерпретируется как глагол.

В группе, содержащей любую другую форму глагола «быть» автоматически выбирается глагол, как наиболее частый вариант.

Наречие

Пусть в предложении более одного слова. На отрезке, где нет запятых, и есть наречие, должен быть либо глагол, либо прилагательное, либо причастие, либо деепричастие. Если перечисленного нет, то нет и наречия. Отдельный случай, когда предложение состоит из одного наречия.

Наречие и предикатив

Если есть группа, в которой выбран глагол, и некоторая группа содержит наречие и предикатив, то условимся выбирать в ней наречие.

Наречие и прилагательное в сравнительной степени

Если в предложении нет глагола, и в некоторой группе содержится наречие и прилагательное в сравнительной степени, то в ней выбирается прилагательное.

Предикатив и краткое прилагательное

Если в предложении нет глагола, и есть группа, состоящая из предикатива и краткого прилагательного, то в ней выбирается предикатив.

Именительный падеж существительных

На отрезке, где нет запятых, два существительных в именительном падеже должны быть соединены одним из союзов «и», «да», «или», «либо». Если таких союзов нет, то нет 2-х именительных падежей. То же относится к случаю, когда вместо одного или вместо обоих существительных стоят местоимения - существительные.

Выбор числительного

В группе, содержащей числительное, выбирается именно оно.

Предложная группа

Пусть есть группа, которая содержит предлог. Если после нее (на расстоянии до 4 промежуточных групп) есть группа, содержащая существительное в одном из падежей, соответствующих предлогу, то выбор делается в пользу этой словоформы.

Пример: Мы пришли в отведенный нашему отряду дом.

Если в упомянутой группе есть и прилагательные, но после нее следует группа только из существительных, среди которых содержится существительное в одном из падежей, соответствующих предлогу, то выбор производится во второй группе.

Пример: Он получил травму в уличной драке.

Если же такой второй группы нет, то выбор словоформы производится в первой группе. Тот же падеж выбирается и в группе с предлогом. Образуется предложная группа, начинающаяся предлогом и заканчивающаяся указанным существительным. Она выделяется в копии предложения круглыми скобками. Вместо существительного может фигурировать местоимение-существительное.

Пример: Шарик остановился на красном

Единственность именительного падежа для существительного и местоимения-существительного

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть есть две группы, одна из которых состоит из единственного существительного в именительном падеже или единственного местоимения-существитель-

ного в именительном падеже, а вторая содержит существительное или местоимение-существительное в именительном падеже. Тогда, если только вторая группа не следует за первой после запятой или одного из союзов «и», «да», «или», «либо», то в ней существительное или местоимение-существительное в именительном падеже не выбираются.

Связанные существительное и прилагательное

Пусть в последовательности групп, отвечающих текстовому отрезку без запятых, есть две группы, одна из которых состоит только из прилагательных или только из существительных, а вторая содержит существительное или прилагательное, которое согласуется с одной из форм в упомянутой группе по прописанным грамматическим характеристикам. Тогда в обеих группах выбираются согласованные формы. Краткое прилагательное должно соответствовать именительному падежу существительного. Если прилагательное невозможно согласовать ни с одним существительным, то в данной группе прилагательное не выбирается. Вместо существительного здесь может фигурировать местоимение-существительное.

Если прилагательное (причастие, местоимение-прилагательное) стоит между двух существительных, то ищется его согласование со вторым существительным.

Если среди групп, отвечающих текстовому отрезку, есть одна, в которой выбрано существительное, то в других группах, где есть согласованные по падежу, роду и числу прилагательные, местоимения-прилагательные или причастия, выбираются эти прилагательные, местоимения-прилагательные или причастия.

Пример: Мы работаем маленьким напильником.

Деепричастие, деепричастный оборот

Если в предложении нет запятых, то там нет и деепричастий. Это правило позволяет выделять случай, когда деепричастие превращается в наречие.

Примеры: Он работал сидя. Я молча ушел.

Пусть на отрезке без запятых есть омоним деепричастие-существительное. Если там есть глагол, то омоним - существительное. Если там нет глагола, то омоним -деепричастие.

Возможен омоним деепричастие-прилагательное в именительном или винительном падеже. Пусть такой омоним есть на отрезке без запятых. Если там нет существительного, согласующегося с прилагательным, то омоним - деепричастие. Если такое существительное есть, и нет глагола, то омоним - деепричастие. Если такое существительное есть и есть глагол, то омоним является прилагательным в именительном падеже, упомянутое существительное - тоже в именительном падеже.

Вводные слова

Пусть есть группа, которая содержит вводное слово. Если это слово в предложении выделено запятыми (или запятой в начале или в конце предложения), то в группе выбирается вводное слово.

2 Перестановка частей предложения

Вводные слова, стоящие в начале или в середине предложения и выделенные запятыми, переносятся в конец предложения.

Если в предложении есть частица «бы» и перед ней не находится глагол, то она переносится в позицию после первого глагола, следующего за ней.

Объединение

Слово «не» объединяется в блок со следующим за ним словом.

Частица «бы» объединяется с глаголом, предшествующим ей.

Объединяются в единый блок слова «то» и «ли», «однако» и «же», «а» и «затем».

Несколько идущих подряд числительных объединяются в единый блок - сложное числительное.

Следующее правило относится к сочетаниям наречий и числительных вида «дважды два»: словосочетания «дважды+числительное», «трижды+числительное», «четырежды+ числительное» объединяются в блок.

3 Подчинения внутри простого предложения

Частица

Частица, если не оговорено противное, подчиняется глаголу в корне или тому, что его заменяет (см. ниже).

Подчинение прилагательного существительному Прилагательное подчиняется стоящему за ним или перед ним существительному, если они согласуются по прописанным грамматическим характеристикам. Если между прилагательным и согласующимся с ним существительным есть наречие, то оно подчиняется прилагательному.

Подчинение в случае предлога Существительное, стоящее после предлога и образующее с ним предложную группу (согласуется по падежу), подчиняется этому предлогу.

Варианты подчинения предлога Если перед предлогом стоит существительное, наша программа по умолчанию подчиняет предлог ему. Пример:

- была

- перед

нами

- лестница

- на

чердак

Однако иногда правильнее подчинять предлог глаголу, стоящему в корне. Пример:

- лежало озеро - около леса

Здесь выбор подчинения - это вопрос чистой семантики, его на сегодняшний день не удается автоматизировать. Поэтому мы снабдили пользователя механизмом изменения выбора. Для этого надо нажать комбинацию клавиш Shift+2.

Подчинение наречия Если сразу за наречием следует глагол, деепричастие, прилагательное или причастие, то наречие подчиняется ему.

Пример: Это глубоко изученный процесс.

Если в предложении несколько наречий стоят подряд, то первое из них подчиняется второму, второе - третьему и т.д.

Если в какой-то ветви дерева есть наречия, то на конце ветви будет одно из них.

Сравнительная степень прилагательного в корне Если в предложении нет глагола и в некоторой группе выделено прилагательное в сравнительной степени, то оно помещается в корень дерева.

Подчинение в цепочке родительных падежей Если в предложении следуют подряд несколько существительных в родительном падеже, то второе слово подчиняется первому, третье - второму и т.д. В копии

предложения такая структура выделяется фигурными скобками. Если в этом ряду есть существительные в других падежах, совпадающих по форме с родительным, то программа формально интерпретирует их падежи как родительные и это определяет их последовательное подчинение. Между существительными могут находиться согласованные прилагательные или причастия, которые подчиняются существительным в соответствии с вышеописанными правилами. На месте отдельных существительных или прилагательных в описанной цепочке могут стоять местоимения-существительные или местоимения-прилагательные.

Пример: Мы слушали доклад директора президиуму российской академии наук.

Несколько прилагательных подряд Если существительному предшествуют подряд несколько согласованных с ним прилагательных, то каждое из прилагательных подчиняет предшествующее, а ближайшее к существительному прилагательное подчиняется ему.

Подчинение существительного числительному Существительное, которое в предложении следует после числительного, подчиняется ему.

Особые случаи с числительными «два», «три», «четыре»

Если в связке числительное-прилагательное-существительное участвует «два», «три» или «четыре» в именительном падеже, то прилагательное подчиняется существительному, независимо от согласованности их грамматических характеристик. Пример: Подошли два новых автобуса.

Здесь возникают следующие группы омонимов, которые не дают согласования слов «новых» и «автобуса»: новых | прл мн род новых | прл мн вин одуш новых | прл мн пр автобуса | сущ неод ед муж род

Однако обсуждаемое правило позволяет получить нужное подчинение этих слов.

Составное глагольное сказуемое

Если в предложении после глагола (первая часть сказуемого) следует глагол в форме инфинитива, то он подчиняется первому глаголу. Вместе они образуют составное глагольное сказуемое. Далее при подчинении слов в простом предложении оно играет ту же роль, что и простое глагольное сказуемое, то есть слова в предложении подчиняются так же, как если бы в нем было простое глагольное сказуемое, которое в данном случае заменено составным. Если между первым глаголом и последующим инфинитивом находятся наречия, то они подчиняются инфинитиву. Наконец, и первый глагол и последующий глагол в форме инфинитива могут заменяться последовательностью глаголов в одинаковой форме, разделенных запятыми или соединенных союзами «и», «да», «или», «либо». Тогда программа создает из них блоки и все вышесказанное будет относиться к ним. Пример: Мы поехали покупать школьную форму.

Глагол и краткое страдательное причастие или краткое прилагательное Если в предложении после глагола стоит краткое страдательное причастие или краткое прилагательное, то они подчиняются глаголу. Это случаи составного именного сказуемого. Далее при подчинении слов в простом предложении оно играет ту же роль, что и простое глагольное сказуемое, то есть слова в предложении подчиняются так же, как если бы в нем было простое глагольное сказуемое, которое в данном случае заменено составным именным. Между глаголом и второй частью сказуемого могут стоять наречия. Они подчиняются второй части сказуемого. Примеры: Список будет вывешен на доске объявлений. Дом будет красив.

Краткое страдательное причастие или краткое прилагательное вместо глагола

Если в предложении нет глагола, то в отношении подчинения его может заменять краткое страдательное причастие или краткое прилагательное.

Краткое причастие и глагол в форме инфинитива

Если в предложении сразу после краткого причастия следует глагол в форме инфинитива, то глагол подчиняется причастию. Остальные слова предложения подчиняются глаголу.

Пример: Он поставлен следить за порядком.

Глагол в личной форме и инфинитив, разделенные словами, отличными от наречий

Если в предложении есть два глагола, первый из которых в личной форме, а второй в форме инфинитива и между ними есть слова, которые не являются наречиями, то часть предложения до инфинитива (не включая его) и остальная часть обрабатываются независимо, как простые предложения. Причина в том, что вторая часть в данном случае играет роль придаточного предложения.

Подчинения с деепричастием

Деепричастие подчиняет слова деепричастного оборота, выделенного запятыми. Само оно подчиняется глаголу.

Подчинение «ни»

«Ни» подчиняется глаголу, стоящему перед ним, и подчиняет следующее за ним слово.

Подчинение предикативу

Если в одной из групп выделен предикатив, то он помещается в корень дерева. Глагол или его вышеописанные заменители подчиняются предикативу.

Подчинение «же»

Слово «же» подчиняется предыдущему слову.

Причастный оборот

Если в предложении есть причастный оборот, выделенный с двух сторон запятыми, то он переносится в конец предложения и обрабатывается как отдельное простое предложение. После этого причастие подчиняется ближайшему существительному перед запятой, согласующемуся с ним по грамматическим характеристикам.

Если в предложении есть причастие, перед которым не стоит запятая, и после него есть существительное, согласующееся с причастием по грамматическим характеристикам, то причастие подчиняется этому существительному. Часть предложения между причастием и существительным обрабатывается как отдельное простое предложение. Главное слово этого простого предложения подчиняется причастию.

Зависимости в предложении с тире (без прямой речи)

Если в предложении есть тире и нет прямой речи, перед тире стоит существительное, после тире существительное либо прилагательное + существительное, то слова предложения, стоящие после тире и не имеющие подчинения, подчиняются существительному, которое стоит перед тире. Если перед или после тире нет существительного, то слова предложения, стоящие после тире и не имеющие подчинения, подчиняются корню предложения перед тире (слову, не подчиненному другим).

Если в предложении есть тире и нет прямой речи, перед тире стоит существительное, после тире существительное либо прилагательное + существительное, то слова предложения, стоящие после тире и не имеющие подчинения, подчиняются существительному, которое стоит перед тире. Если перед или после тире нет существительного, то слова предложения, стоящие после тире и не имеющие подчинения, подчиняются корню предложения перед тире (слову, не подчиненному другим).

Отметим, наконец, что программа не всегда делает стопроцентно правильный выбор омонима. Нам важно лишь, чтобы сделанный выбор обеспечивал построение правильного подчинительного дерева.

Пример:

- выберем - способ

действий

Здесь программа определяет для слова «способ» именительный падеж вместо винительного, что, как мы видим, не отражается на подчинительном дереве.

Заключение

Проведенные исследования показали, что разработанный набор правил позволяет достаточно успешно строить деревья синтаксического подчинения. Кроме морфологической разметки текста, полученные результаты могут использоваться также для извлечения информации из текстов на естественном языке.

Список литературы

1. Боярский К. К. Семантико-синтаксический парсер SemSin [Текст] / К. К. Боярский, Е. А. Каневский // Научно-технический вестник информационных технологий, механики и оптики. - 2015. -Т. 15. - № 5. - С. 869-876.

2. Киселёв М. В. Синтаксический парсер русского языка LPaRus компании Megaputer Intelligence [Электронный ресурс] / М. В. Киселёв, Д. В. Федосеева // Компьютерная лингвистика и интеллектуальные технологии: по материалам международной конференции «Диалог 2017». - 2017. URL: http:// www.dialog-21.ru/media/3971/kiselevmvfedoseevadv.pdf (дата обращения: 10.06.2019).

3. Ляшевская О.Н. Оценка методов автоматического анализа текста: морфологические парсеры русского языка [Текст] / О. Н. Ляшевская, И. Астафьева, А. Бонч-Осмоловская, А. Гарейшина // Компьютерная лингвистика и интеллектуальные технологии. - 2010. - № 9 (16). - С. 318-326.

4. Гаршина В. В. Разработка лингвистического парсера русского языка [Текст] / В. В. Гаршина, Ю. А. Богоявленская // Вестник ВГУ. Системный анализ и информационные технологии. - 2012. -№ 2. - С. 174-182.

5. Хаген М. Полная парадигма. Морфология [Электронный ресурс] // Форум «Говорим по-русски» [сайт]. - 2018. - Режим доступа: http://www.speakrus.ru/dict/#morph-paradigm (дата обращения: 10.06.2019).

6. Ниценко А. В. Разделение сполошного текста на слова [Текст] / А. В. Ниценко, С. А. Большакова, В. Ю. Шелепов // Проблемы искусственного интеллекта. - Донецк, 2018. - № 3(10). - С. 94-103.

References

1. Bojarskij K. K., Kanevskij E. A. Semantiko-sintaksicheskij parser SemSin [Semantic-syntactic parser SemSin]. Nauchno-tehnicheskij vestnik informacionnyh tehnologij, mehaniki i optiki [Scientific and Technical Journal of Information Technologies, Mechanics and Optics], 2015, t. 15, No. 5, pp. 869 - 876.

2. Kiseljov M. V., Fedoseeva D. V. Sintaksicheskij parser russkogo jazyka LPaRus kompanii Megaputer Intelligence [Syntax parser of the Russian language LPaRus by Megaputer Intelligence]. Kompjuternaja lingvistika i intellektual'nye tehnologii: po materialam mezhdunarodnoj konferencii «Dialog 2017». [Computational linguistics and intellectual technologies: based on the international conference "Dialogue 2017".] 2017, URL: http:// www.dialog-21.ru/media/3971/kiselevmvfedoseevadv.pdf (data obrashhenija: 10.06.2019).

3. Ljashevskaja O.N., Astafeva I., Bonch-Osmolovskaja A., Garejshina A. Ocenka metodov avtomaticheskogo analiza teksta: morfologicheskie parsery russkogo jazyka [Evaluation of methods for automatic text analysis: morphological parsers of the Russian language]. Kompjuternaja lingvistika i intellektual'nye tehnologii [Computer linguistics and intellectual technologies], 2010, No. 9 (16), pp. 318-326.

4. Garshina V. V., Bogojavlenskaja Ju. A. Razrabotka lingvisticheskogo parsera russkogo jazyka [Development of the linguistic parser of the Russian language]. Vestnik VGU. Sistemnyj analiz i informacionnye tehnologii [Vestnik VSU. System analysis and information technology], 2012, No. 2. pp. 174-182.

5. Hagen M. Polnaja paradigma. Morfologija [The complete paradigm. Morphology]. Forum «Govorimpo-russki» [Forum "Speak Russian"]. 2018. Access: http://www.speakrus.ru/dict/#morph-paradigm (Accessed: 19.11.2018).

6. Nicenko A. V. Bol'shakova S. A., Shelepov V. Ju. Razdelenie spoloshnogo teksta na slova [The division of the text into words]. Problemy iskusstvennogo intellekta [Problems of Artificial Intelligence], 2018, No 3(10), pp. 94-103.

RESUME

V. Ju. Shelepov, A. V. Nicenko, S. A. Bolshakova

On the Dependency tree for a Simple Extended Russian Sentence

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Computer processing of natural language is necessary in application systems that provides information search and analysis. A lot of work has been devoted to this topic, but so far the number of effective syntactic analyzers does not exceed a dozen, each of which is mainly focused on solving a range of tasks. In this regard, constantly developing new software products.

The paper deals with the the principle of automatically creating a dependency tree for the Russian language sentences. The problem is solved on the basis of identifying the word forms that constitute the sentence by searching them in the morphological dictionary. A feature of the proposed method is the use of a set of rules for the choice of homonyms and the definition of dependencies between the words of a sentence. The article provides a set of data rules and examples of their work.

As a result, a depending word or an empty string for main word is connected to each word of the sentence. Graphically, this is displayed as a tree structure, reflecting the dependencies between the words of a sentence.

Studies have shown that the developed set of rules allows to quite successfully build syntactic dependency trees. In addition to text markup, the results can also be used to extract information from texts in natural language.

РЕЗЮМЕ

В. Ю. Шелепов, А. В. Ниценко, С. А. Большакова О подчинительном дереве

для простого распространенного русского предложения

Компьютерная обработка текстов на естественном языке необходима в прикладных системах, ведущих поиск и анализ информации. Этой тематике посвящено множество работ, однако до настоящего времени число эффективно действующих синтаксических анализаторов не превышает полутора десятков. Каждый из них преимущественно ориентирован на решение своего круга задач. В связи с этим постоянно ведутся разработки новых программных продуктов.

В данной статье описан принцип автоматического построения дерева синтаксического подчинения для предложений русского языка на основе набора правил. Задача решается на основе идентификации составляющих предложение словоформ путем поиска их в морфологическом словаре. Особенностью предлагаемого способа является применение набора правил для выбора омонимов и определения зависимостей между словами предложения. В статье приведен набор правил, рассмотрены примеры их работы.

В результате применения правил к каждому слову предложения привязывается подчиняющее слово либо пустая строка, если слово главное. Графически это отображается в виде древовидной структуры, отражающей зависимости между словами предложения.

Проведенные исследования показали, что разработанный набор правил позволяет достаточно успешно строить деревья синтаксического подчинения. Результаты могут использоваться для извлечения информации из текстов на естественном языке.

Статья поступила в редакцию 25.02.2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.