Научная статья на тему 'Лексико-синтаксический метод снятия омонимии в русскоязычных текстах'

Лексико-синтаксический метод снятия омонимии в русскоязычных текстах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
естественные языки • автоматический анализ текста • снятие омонимии • словосочетания • предикатив • предложная группа • национальный корпус / natural languages • automatic text analysis • disambiguation • collocations / predicativе noun • prepositional phrase • national corpus

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ниценко А. В., Шелепов В. Ю., Большакова С. А.

Статья посвящена решению проблемы автоматического снятия неоднозначности в тексте для случая «предикатив — наречие — краткое прилагательное», а также некоторым новым результатам относительно снятия омонимии предикативных словосочетаний. Для снятия омонимии предлагается использовать лексико-синтаксический метод, учитывающий наличие на отрезке текста определенных слов или элементов синтаксиса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

LEXICAL-SYNTACTIC METHOD FOR DISAMBIGUATION IN RUSSIAN TEXTS

The article is devoted to solving the problem of automatic disambiguation in a text for the case of predicate-adverb-short adjective, as well as some new results regarding the disambiguation of predicative collocations. For disambiguation it is proposed to use a lexical-syntactic method that takes into account the presence of certain words or syntax elements in a segment of text.

Текст научной работы на тему «Лексико-синтаксический метод снятия омонимии в русскоязычных текстах»

40

Лексико-синтаксический метод снятия омонимии в русскоязычных текстах

Ниценко А. В., кандидат технических наук, nav_box@mail.ru

Шелепов В. Ю., доктор физико-математических наук, профессор, vladislav.shelepov2012@yandex.ru Большакова С. А., svetlako@yandex.ru ФГБНУ «Институт проблем искусственного интеллекта», г. Донецк

Статья посвящена решению проблемы автоматического снятия неоднозначности в тексте для случая «предикатив — наречие — краткое прилагательное», а также некоторым новым результатам относительно снятия омонимии предикативных словосочетаний. Для снятия омонимии предлагается использовать лексико-синтаксический метод, учитывающий наличие на отрезке текста определенных слов или элементов синтаксиса.

• естественные языки • автоматический анализ текста • снятие омонимии • словосочетания • предикатив • предложная группа • национальный корпус

Омонимия — формальное (внешнее) совпадение двух различных слов или словоформ между собой. Это явление широко распространено в естественных языках. Для русского языка оно особенно характерно ввиду большого количества словоформ. В данной работе мы будем иметь дело только с письменными текстами. При этом омонимия — совпадение в написании, так что случай омофонов слов, которые звучат одинаково, но пишутся по-разному, например плач (существительное) и плачь (глагол), не обсуждается.

Снятие омонимии — необходимый этап автоматического анализа текста. Обучение снятию омонимии является частью общей проблемы обучения компьютера операциям, ранее доступным лишь человеку. Таким образом, оно относится к области искусственного интеллекта.

Общеизвестно, что человек решает проблему снятия омонимии, исходя из общего контекста. Это, в частности, означает, что он отличает осмысленную фразу от бессмысленной. Компьютеру это на сегодняшний день в общем случае не доступно. Для него нужны более простые формализованные правила.

Мы будем иметь дело с правильными русскими предложениями, включая правильные знаки препинания. В таком случае, как показывает опыт,

при снятии омонимии в подавляющем большинстве случаев достаточно ограничиваться отрезком текста между двумя соседними знаками препинания. Далее под словом «отрезок» имеется в виду именно это. Используется наличие в пределах такого отрезка определенных слов или определенных грамматических форм. Поэтому предлагаемый метод уместно называть лексико-синтаксическим.

На эту тему за последнее время авторами опубликован ряд работ [8-12]. В данную статью включены результаты относительно наиболее распространенного случая омонимии «предикатив — наречие — краткое прилагательное», а также некоторые новые результаты о снятии омонимии предикативных словосочетаний.

Результаты реализованы в виде программы, которая работает со словарем [7], содержащим более 4 млн русских словоформ с разметкой по частям речи и грамматическим формам. Мы используем представление этого словаря в виде дерева, что позволяет практически мгновенно искать нужную словоформу и выделять группы омонимов. Добавив в каждой строке лемму соответствующей словоформы, мы получаем возможность с той же скоростью осуществлять лемматизацию.

О СНЯТИИ ОМОНИМИИ «ПРЕДИКАТИВ — НАРЕЧИЕ —

КРАТКОЕ ПРИЛАГАТЕЛЬНОЕ» В СЛУЧАЕ ЕДИНСТВЕННОГО КАНДИДАТА НА ПРЕДИКАТИВ

Предикатив — сравнительно недавно введенная в лингвистический обиход часть речи, связанная с функцией сказуемого в предложении. Наиболее частым в предложении является глагольное сказуемое. Вместе с тем сказуемое может выражаться другими частями речи: существительным, прилагательным (в частности, кратким прилагательным) и т.д. Позволим себе называть подобную реализацию сказуемого традиционной. Однако в последний перечень было бы неестественно включать, например, наречие, ибо наречие выражает дополнительную характеристику действия или качества, выраженного чаще всего глагольной формой или прилагательным. Поэтому для описания сказуемого в предложении типа «Мне холодно» была введена новая часть речи, которая обозначалась в русской лингвистике как «категория состояния». Позднее соответствующее понятие было расширено, а его название было заменено заимствованным у чешских лингвистов термином «предикатив».

Используемый нами словарь [7] содержит 1308 слов и словосочетаний, отмеченных как предикатив. Из них только 104 не имеют омонимов. Наибольшее число предикативов (числом 682) имеют омонимы в виде наречий и (или) кратких прилагательных. Настоящий раздел посвящен проблеме снятия омонимии именно в этом классе.

1. Пусть есть некоторый кандидат на предикатив, который может быть также кратким прилагательным. Если на отрезке есть существительное (местоимение-существительное) среднего рода в именительном падеже (подлежащее) и отсутствует глагольное сказуемое, то кандидат — краткое прилагательное.

Пример: Его утверждение антинаучно (прил.).

Ниже приведен результат работы нашей программы, автоматически классифицирующей словоформы. Выбор в группе омонимов обозначен восклицательным знаком:

41

MILALLM Ниценко А. В., Шелепов В. Ю., Большакова С. А. Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов с временной суммацией сигналов (часть 2)

его | мест прил ед муж! его | мест сущ ед муж род его | мест сущ ед муж вин его | мест сущ ед ср род его | мест сущ ед ср вин

утверждение | сущ неод ед ср им ! утверждение | сущ неод ед ср вин

антинаучно | нар опред кач антинаучно | предик антинаучно | прл крат ед ср !

2. Если на отрезке есть существительное (местоимение-существительное) в именительном. падеже, отсутствует глагольное сказуемое, а последнее выражено прилагательным (тоже в им. падеже), то кандидат на предикатив и наречие является наречием.

Пример: Пингвин невероятно (нар) красивый.

3. Кандидат на предикатив и наречие в пределах предложной группы является наречием.

Пример (императив):Писать о глубоко (нар) важных явлениях!

4. Если на отрезке есть глагол в личной форме или повелительном наклонении, то кандидат на наречие и предикатив есть наречие.

Примеры: Они легкомысленно (нар) отказались от предложения. Мягко (нар) нажмите на педаль газа.

5. То же относится к причастию и деепричастию.

Примеры: Это человек, интересно (нар) рассказывающий о прошлом. Он вошел, комично (нар) прихрамывая.

Значит, последние два правила можно объединить следующим образом:

4-5. Если на отрезке есть глагольная форма, отличная от инфинитива, то кандидат на наречие и предикатив есть наречие.

6. Если вышеприведенные условия не выполняются, то обсуждаемый кандидат на предикатив действительно является предикативом за исключением случаев, оговоренных в п. 8 и 9.

7. Наличие вспомогательных глагольных словоформ было, бывает, будет, стало, становится, станет не превращает предикатив в наречие, если отрезок не содержит существительного (местоимения-существительного) в именительном падеже (подлежащего).

42 Пример: Ему будет холодно (предик).

8. При наличии подлежащего появление приведенных вспомогательных глаголов превращает кандидата на наречие и предикатив в наречие.

Пример: Он будет холодно (нар) отвечать на вопросы.

9. Если на отрезке из глагольных форм есть только инфинитив, то кандидат на наречие и предикатив в большинстве случаев является предикативом.

Пример: Ему холодно (предик) стоять в карауле.

Здесь слово «холодно» не является характеристикой действия «стоять», которая была бы наречием, а описывает состояние того, кто стоит.

Однако с помощью инфинитива может выражаться побуждение к действию (императив). И тогда кандидат на наречие и предикатив является наречием.

Пример: Выгодно продать излишки.

Эта фраза может означать оценку факта продажи излишков, и тогда «выгодно» — предикатив. Но она может означать указание (приказ) о выгодной продаже, и тогда «выгодно» — наречие. Реальный смысл фразы может знать только говорящий, или, возможно, его можно определить из более широкого контекста. При наличии только этой фразы автоматическое снятие омонимии невозможно.

СНЯТИЕ ОМОНИМИИ НЕКОТОРЫХ СЛОВОСОЧЕТАНИЙ, КОТОРЫЕ МОГУТ БЫТЬ ПРЕДИКАТИВАМИ И ПРЕДЛОЖНЫМИ ГРУППАМИ

Работа ведется со специальным файлом Предл гр.Ш [6-10]. Файл состоит из отдельных групп, каждая из которых начинается словосочетанием, к которому она относится (оно снабжено восклицательным знаком), и включает некоторый набор слов и элементы вида «| род». Мы называем эти группы управляющими. Иногда члены управляющей группы содержат дополнительные метки. Программа просматривает упомянутый отрезок текста и интерпретирует словосочетание как предложную группу, если вместе с ним отрезок содержит словоформу слова из управляющей группы без дополнительной метки или существительное (местоимение-существительное) в падеже, указанном в записи вида «| род». В противном случае словосочетание автоматически интерпретируется как предикатив. Смысл упомянутых дополнительных меток описан далее.

Ниже приведены управляющие группы для ряда словосочетаний. Результаты получены в результате анализа всех найденных предложений из Национального корпуса русского языка с рассматриваемыми словосочетаниями. Ради экономии места управляющие группы записаны в виде строк. В качестве разделителей используется точка с запятой. Обсуждаемое словосочетание выделено жирным курсивом. Вслед за управляющей группой следует описание правил, которые не используют файла Предл гр.txt, а непосредственно реализованы в программе (при наличии таковых).

не в курсе !(предл гр)

<списокдисциплин>; преподавание(1)

43

ikiii..

ж

Ниценко А. В., Шелепов В. Ю., Большакова С. А. Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов

с временной суммацией сигналов (часть 2)

44

В ходе работы программа автоматически обращается к файлу Список дис-циплин.txt, который содержит 215 записей: агробиология, агрономия, агрофизика, ... В случае наличия в тексте соответствующей словоформы «не в курсе» интерпретируется как предложная группа. Указанный файл Списокдисциплин.txt может пополняться.

не в помощь Цпредл гр)

веровать; верить; поверить; вкладываться; вложиться; +, а в

не в радость Цпредл гр)

обращать; обратить; обращаться; обратиться; старость [предик]; +, а в

Если после «не в радость» стоит прилагательное женского рода в винительном падеже единственного числа, то «не в радость» — предложная группа (пример: Он может войти в отчаяние, в страх, в неуверенность, но не в радость евангельскую).

не в себе Цпредл гр)

а (-1); видеть; увидеть; жить; и&не&в; иметь; искание; искать; копаться; найти; отражаться; от себя; сам (1); слышать; совесть; существовать; только (-1); +, а в; +, а где-то; +, а там; +, не в; +, то в

не в счет Цпредл гр)

шаркать; предлагать; предложить; |род

не в ударе Цпредл гр)

дело; проблема; | тв

не к добру Цпредл гр)

а; вести (предик-предл гр); видеть (предик-предл гр); идти; клонить; клониться; повести; приводить; привести; призывать; призвать; послужить; расположена&твоя&душа; служить; сниться; +, а к; +, а ко

не к рукам Цпредл гр)

| род

Если сразу за «не к рукам» есть существительное, которое может быть в родительном падеже, то для него выбирается именно родительный падеж, и «не к рукам» в этом случае является предложной группой (пример: Но не к рукам поэта, — ответил Хаджи Рахим).

не по дороге Цпредл гр)

а (-1); да еще (-1); выбраться; ездить; ехать; ходить; идти; на (предл гр-предик); пойти; прогуливаться; прогуляться; только (предл гр-пре-дик); тут; +, а; +, где ж она; +, где же она

Если за словосочетанием «не по дороге» следует предлог, то это предложная группа (пример: Окся действительно бросилась бежать, но только не по дороге в Фотьянку, а в противоположную сторону к Рублихе). Исключение: если за словосочетанием следует предлог «с» или «со»

с творительным падежом, то «не по дороге» — предикатив (пример: крещеному человеку не по дороге со всякой животиной шататься).

не по дороге ли!

| дат(предик-предл гр)

Если за словосочетанием «не по дороге ли» следует предлог, то это предложная группа (пример: Не по дороге ли в горы пошел он?). Исключение: если за словосочетанием следует предлог «с» или «со» в творительном падеже, то «не по дороге ли» — предикатив (пример: Не по дороге ли с вами мне?).

не по зубам Цпредл гр)

съездить; чуть; чуть-чуть

не по карману Цпредл гр)

бить; врезать; удар; ударять; ударить; хватить; хлопать; хлопнуть; шарахать; шарахнуть

Если за «не по карману» через запятую идет фрагмент текста, начинающийся с союза «а» и в нем есть форма глагола «ударить», то это предложная группа (пример: «Мы его не по карману, а мы его по самолюбию купеческому ударим»).

не по носу Цпредл гр)

вмазывать; вмазать; чуть

не по нраву! (предл гр)

+, а

не по плечу !(предл гр)

даже (предл гр-предик); | *датЛ [предик]; датл [предик]; +, а по

Если непосредственно перед или после «не по плечу» стоит прилагательное или причастие, то выбирается наречие (пример: не по плечу широкий костюм).

«не по плечу и» + существительное в дательном падеже — для «не по плечу» выбирается предложная группа (пример: хлопал не по плечу и руке, но по шее).

«не по плечу и не по вкусу» — для «не по плечу» выбирается предикатив (пример: «Загогулины» ему не по плечу и не по вкусу).

«может быть не по плечу» — поскольку «может быть» не выделено запятой, это не вводный оборот, а сочетание двух отдельных слов.

не по пути !(предл гр)

в (1) (предл гр-предик); к (1); скончаться; +, а по дороге; | род (1)

Если после «не по пути» стоит прилагательное мужеского рода в дательном падеже, либо через запятую аналогичное причастие, то «не по пути» — предложная группа (пример: Я поеду не по пути прямому, а в обход).

не по росту !(предл гр)

а (-1); выстраиваться; выстроиться; годиться; подходить; подойти; раздавать; раздать; располагать; расположить; располагаться; расположиться; рассаживать; рассадить; рассаживаться; рассесться; расставлять; расставить; стоять; стать (пре-дик-предл гр); становиться; встать; строить; строиться; построить; построиться;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

45

ikiii..

ж

_

Ниценко А. В., Шелепов В. Ю., Большакова С. А. Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов

с временной суммацией сигналов (часть 2)

46

одевать [нар]; одеть [нар]; одеваться [нар]; одеться [нар]; +, а по; +, в хаотичном; | *дат [предик]; | дат [предик]

Если непосредственно перед или после «не по росту» стоит прилагательное или причастие, то для «не по росту» выбирается наречие (пример: не признал в худеньком человеке, одетом в не по росту куцую шинель , командира дивизии).

«не по росту и» + существительное в дательном падеже — в этом случае «не по росту» предложная группа (пример: теснит его изнутри тьма другой, не по росту и уму, жизни).

«не по росту и не по...» — для «не по росту» выбирается предложная группа (пример: Будь моим старшим братом, не по росту и не по летам, а по силе и храбрости).

не под шапку Цпредл гр)

заправлять; заправить; надевать; надеть; прятать; спрятать

не с руки Цпредл гр)

снять; чуть&ли; +, а от; +, а с

по рукам Цпредл гр)

а то; а&я&его; битье; видно; вот&вам&и; давать (предик-предл гр); дальше (-1); издательство; и&до&бицепса; карта; не (-1); по&ногам; предложить (предик-предл гр); расхватывание; специалист; тоже; ударить (предик-предл гр); +, не по; +, которые; | род (1);

Если на отрезке есть глагольная форма (включая причастие и деепричастие), то «по рукам» — предложная группа (пример: Она гадает по рукам). Исключение: глаголы «ударить», «давать», «предложить» (пример: Мы ударили по рукам и разошлись).

Если после «по рукам и» стоит существительное в дательном падеже, то для «по рукам» выбирается предложная группа (пример: к среде человек уже опутан по рукам и ногам щупальцами рутины).

Если после «по рукам» через запятую стоит прилагательное или причастие множественного числа в дательном падеже, то «по рукам» — предложная группа (пример: По рукам, опущенным вниз, текла вода).

О ДОПОЛНИТЕЛЬНЫХ ЗАПИСЯХ И МЕТКАХ В УПРАВЛЯЮЩИХ ГРУППАХ

Метка (1) означает, что соответствующая словоформа должна находиться непосредственно после словосочетания. Метка (-1) — аналогичная метка для предшествования.

Элемент вида «+, а в» управляющей группы означает, что, если вслед за словосочетанием идет продолжение вида «, а в.», то словосочетание является предложной группой.

Метка [предик] означает безусловный выбор предикатива при наличии на рассматриваемом отрезке словоформы помеченного слова, без оглядки на правила, которые могут этому противоречить. Метка [нар] — аналогичная метка [нар] для наречия.

Метка (предл гр-предик) означает, что для словосочетания возможны оба варианта в зависимости от контекста. Программа по умолчанию выберет предложную группу без разделения на отдельные слова, так что пользователь, в случае необходимости, может изменить результат, используя кнопку «С» в окне программы. Роль метки (предик-предл гр) аналогична (по умолчанию предикатив).

Запись | род обеспечивает выбор предложной группы при наличии в пределах отрезка после словосочетания родительного падежа существительного или местоимения-существительного. | род(1) — то же для непосредственного следования. Запись | *род — аналогичное правило для предшествования словосочетанию. Аналогично записывается соответствующие правила для других падежей.

Запись | родЛ обеспечивает выбор предложной группы при наличии в пределах отрезка после словосочетания существительного или местоимения-существительного, имеющего омоним в родительном падеже.

Значок & применяется, когда в управляющей группе вместо одного слова используется сочетание слов (без лемматизации).

Список использованных источников

1. Бручес, Е. П. Гибридный подход к снятию частеречной омонимии на примере русского языка / Е. П. Бручес // Материалы 54-й Международной научной студенческой конференции МНСК-2016: Прикладная лингвистика. - 2016. - С. 13-14.

2. Каневский, Е. А. Особые наречные обороты / Е. А. Каневский, Е. Н. Клименко, Е. Ф. Силина // Экономико-математические исследования: математические модели и информационные технологии: материалы Всероссийской конференции. (Санкт-Петербург, 26-28 октября 2015 г.). - СПб: Нестор-История, 2015. - С. 101-107.

3. Боярский, К. К. Анализ омонимичных словосочетаний, эквивалентных слову / К. К. Боярский, Е. А. Каневский, Е. Н. Клименко, Е. Ф. Силина // Компьютерная лингвистика и вычислительные онтологии. - 2017. - № 1. - С. 18-28.

4. Клышинский, Э. С. Исследование грамматической неоднозначности наиболее частотных слов русского языка / Э. С. Клышинский, В. А. Бунтякова, О. В. Карпик // Препринты ИПМ им. М.В. Келдыша. - 2021. - № 58. - 22 с. Режим доступа: https://library.keldysh.ru/preprint. asp?id=2021-58 (дата обращения: 05.09.2023).

5. Сулейманов, Д. Ш. Модуль разрешения морфологической неоднозначности: архитектура и организация базы данных / Д. Ш. Сулейманов, Д. Р. Мухамедшин // Программные продукты и системы. - 2020. - № 1. - С. 38-46.

6. Большина, А. С. Создание псевдоаннотированного обучающего корпуса для задачи разрешения лексической неоднозначности с помощью ансамбля моделей / А. С. Большина // Интеллектуальные Системы. Теория и приложения. - 2022. - Т. 26, № 1. - С. 185-189.

7. Хаген, М. А. Полная парадигма. Морфология. 11Р1_: http://www.speakrus.ru/ dict/#morph-paradigm (дата обращения: 10.12.2021).

8. Ниценко, А. В. О снятии омонимии словосочетаний, которые могут быть предикативами / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Проблемы искусственного интеллекта. -2021. - № 1(20). - С. 53-63.

47

ikiii..

ж

_

Ниценко А. В., Шелепов В. Ю., Большакова С. А. Анализ текстовсиспользованиемискусственныхнейронныхсетейнаосновенейроподобныхэлементов

с временной суммацией сигналов (часть 2)

9. Ниценко, А. В. К вопросу об автоматическом снятии омонимии русских предикативов / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Сборник трудов VIII Международной конференции «Знания-Онтологии-Теории» (г. Новосибирск, 8-12 ноября 2021 г.), 2021. - С. 218-225.

10. Ниценко, А. В. Об автоматическом снятии омонимии предикативных словосочетаний. Результаты работы с национальным корпусом русского языка / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Проблемы искусственного интеллекта. - 2021. - № 3(22). - С. 46-56.

11. Ниценко, А. В. Исследование омонимии предикативных словосочетаний на основе национального корпуса русского языка / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Сборник трудов VII Международной научно-технической конференции «Современные информационные технологии в образовании и научных исследованиях» (г. Донецк, 23 ноября 2021 г.). http://pm.conf.donntu. org/index.php (дата обращения: 13.12.2021).

12. Большакова, С. А. К вопросу о снятии омонимии в некоторых группах омонимов, включающих предикатив / С. А. Большакова, А. В. Ниценко, В. Ю. Шелепов // Искусственный интеллект: теоретические аспекты и практическое применение: материалы Донецкого международного научного круглого стола. - Донецк : ГУ «Институт проблем искусственного интеллекта» (ГУ «ИПИИ»), 2022. -216 с. - С. 152-158.

13. Национальный корпус русского языка. URL: http://www.ruscorpora.ru/ (дата обращения: 10.12.2021).

LEXICAL-SYNTACTIC METHOD FOR DISAMBIGUATION IN RUSSIAN TEXTS

Nitsenko A. V., Candidate of Technical Sciences, nav_box@mail.ru

Shelepov V. Yu., Doctor of Physical and Mathematical Sciences, Professor, vladislav.shelepov2012@yandex.ru Bolshakova S. A., svetlako@yandex.ru Institute of Artificial Intelligence Problems, Donetsk city

The article is devoted to solving the problem of automatic disambiguation in a text for the case of predicate-adverb-short adjective, as well as some new results regarding the disambiguation of predicative collocations. For disambiguation it is proposed to use a lexical-syntactic method that takes into account the presence of certain words or syntax elements in a segment of text.

• natural languages • automatic text analysis • disambiguation • collocations, predicative noun • prepositional phrase • national corpus

48

i Надоели баннеры? Вы всегда можете отключить рекламу.