Научная статья на тему 'ОБ АВТОМАТИЧЕСКОМ СНЯТИИ ОМОНИМИИ ПРЕДИКАТИВНЫХ СЛОВОСОЧЕТАНИЙ. РЕЗУЛЬТАТЫ РАБОТЫ С НАЦИОНАЛЬНЫМ КОРПУСОМ РУССКОГО ЯЗЫКА'

ОБ АВТОМАТИЧЕСКОМ СНЯТИИ ОМОНИМИИ ПРЕДИКАТИВНЫХ СЛОВОСОЧЕТАНИЙ. РЕЗУЛЬТАТЫ РАБОТЫ С НАЦИОНАЛЬНЫМ КОРПУСОМ РУССКОГО ЯЗЫКА Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
61
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / МЕТОДЫ СНЯТИЯ ОМОНИМИИ / ПРЕДИКАТИВНОЕ СЛОВОСОЧЕТАНИЕ / ПРЕДЛОЖНАЯ ГРУППА / НАЦИОНАЛЬНЫЙ КОРПУС

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ниценко А. В., Шелепов В. Ю., Большакова С. А.

В статье предложены методы автоматического снятия омонимии словосочетаний, которые могут выступать в роли предикативов. Результаты получены и проверены на материале Национального корпуса русского языка. Они реализованы в экспериментальном программном обеспечении для снятия омонимии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON AUTOMATIC DISAMBIGUATION OF PREDICATIVE WORD COMBINATIONS. RESULTS OF WORK WITH THE NATIONAL CORPUS OF THE RUSSIAN LANGUAGE

The article proposes methods for automatic disambiguation for word combinations that can act as predicatives. The results were obtained and verified on the material of the National Corpus of the Russian Language. They are implemented in experimental disambiguation software.

Текст научной работы на тему «ОБ АВТОМАТИЧЕСКОМ СНЯТИИ ОМОНИМИИ ПРЕДИКАТИВНЫХ СЛОВОСОЧЕТАНИЙ. РЕЗУЛЬТАТЫ РАБОТЫ С НАЦИОНАЛЬНЫМ КОРПУСОМ РУССКОГО ЯЗЫКА»

УДК 004.89:004.93

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова

Государственное учреждение «Институт проблем искусственного интеллекта», г. Донецк 83048, г. Донецк, ул. Артема, 118-б

ОБ АВТОМАТИЧЕСКОМ СНЯТИИ ОМОНИМИИ ПРЕДИКАТИВНЫХ СЛОВОСОЧЕТАНИЙ. РЕЗУЛЬТАТЫ РАБОТЫ С НАЦИОНАЛЬНЫМ КОРПУСОМ РУССКОГО ЯЗЫКА

A. V. Nicenko, V. Ju. Shelepov, S. A. Bolshakova

Public institution «Institute of Problems of Artificial intelligence», c. Donetsk

83048, Donetsk, str. Artema , 118-b.

ON AUTOMATIC DISAMBIGUATION OF PREDICATIVE WORD COMBINATIONS. RESULTS OF WORK WITH THE NATIONAL CORPUS OF THE RUSSIAN LANGUAGE

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова Державна установа «1нститут проблем штучного штелекту», м. Донецьк 83048, м. Донецьк, вул. Артема, 118-б.

ПРО АВТОМАТИЧНЕ ЗНЯТТЯ ОМОН1МИ ПРЕДИКАТИВНИХ СЛОВОСПОЛУЧЕНЬ. РЕЗУЛЬТАТЫ РОБОТИ З НАЦЮНАЛЬНИМ КОРПУСОМ РОС1ЙСЬКО1 МОВИ

В статье предложены методы автоматического снятия омонимии словосочетаний, которые могут выступать в роли предикативов. Результаты получены и проверены на материале Национального корпуса русского языка. Они реализованы в экспериментальном программном обеспечении для снятия омонимии.

Ключевые слова: автоматический анализ текста, методы снятия омонимии, предикативное словосочетание, предложная группа, национальный корпус.

The article proposes methods for automatic disambiguation for word combinations that can act as predicatives. The results were obtained and verified on the material of the National Corpus of the Russian Language. They are implemented in experimental disambiguation software. Key words: automatic text analysis, disambiguation methods, predicative word combination, prepositional group, national corpus.

У статп запропоновано методи автоматичного зняття омоыми словосполучень, як можуть виступати в ролi предикативу. Результати отримано та перевiрено на матерiалi Нацюнального корпусу росшсько'Т мови. Вони реалiзованi в експериментальному програмному забезпеченн для зняття омоыми.

Ключовi слова: автоматичний анал1з тексту, методи зняття омоымп, предикативне словосполучення, прийменникова група, нацюнальний корпус.

Введение

Из недавних работ об автоматическом снятии омонимии отметим работы [1-13].

В статье [14] авторами предложен механизм снятия омонимии предикатива, выраженного словосочетанием. Как предикатив словосочетание представлено в сло -варе [11], с которым мы работаем, одной словарной единицей. То же имеет место, когда оно выступает в функции наречия, междометия, частицы. Так его и должна воспринимать программа. Однако возможны ситуации, когда на самом деле мы имеем дело с набором отдельных слов, например с предложной группой. Тогда программа должна разделять его на слова, помещаемые в отдельных строках.

Одним из ключевых моментов указанного механизма является использование описанного в [14] файла Предл гр.Ш. Там же отмечено, что этот файл может и должен модифицироваться и пополняться за счет работы с текстовыми корпусами, в частности, с Национальным корпусом русского языка [15]. Ввиду того, что указанных словосочетаний сравнительно немного, в настоящее время эта работа близка к завершению. Покажем ее результаты на примере ряда словосочетаний. При этом мы не будем приводить формальное содержание соответствующих разделов файла Предл гр.Ш, а опишем их в словесной форме.

1 Правила снятия омонимии для словосочетаний «в состоянии» / «не в состоянии»

Словосочетания «в состоянии» и «не в состоянии» могут быть интерпретированы либо как предикатив, либо как группа слов, содержащая существительное в предложном падеже и предлог (предложная группа). Для определения правильного варианта анализируется отрезок текста между ближайшими знаками препинания, содержащий словосочетание. При этом используются следующие правила.

1. Если за словосочетанием следует несклоняемое слово, то словосочетание является предложной группой.

Пример: В состоянии шоссе мы не заметили ничего необычного. Наша программа, используя словарь [11], создает файл res. txt: (в | предл пр ! в | предл вин)

состоянии | сущ неод ед ср пр шоссе | сущ неод ед ср мы | мест сущ мн им не | част

заметили | гл сов пер/не прош мн (ничего | нар опред спос ничего | част ничего | предик ничего | мест сущ род !) (необычного | прл ед муж род ! необычного | прл ед муж вин одуш необычного | прл ед ср род)

Н

Здесь программа приводит либо очередное слово предложения с разметкой из словаря [11], либо соответствующую группу омонимов, которая заключена в скобки, отмечая выбираемый ею омоним восклицательным знаком.

Ниже, мы с целью экономии места будем вместо групп омонимов оставлять лишь выбранные строки, оформляя результат в виде таблицы. В ее первом столбце -анализируемое предложение, во втором - разметка, создаваемая программой.

2. Если после словосочетания есть существительное в родительном падеже, то оно - предложная группа. Перед существительным могут быть одно или несколько прилагательных, причастий или наречий, союзы «и», «или», «как бы», частица «не». Пример:_

эти мест прил мн вин неод

массы сущ неод мн вин

давно нар обст врем

находившиеся прч сов непер воз прош мн вин неод

в предл пр

состоянии сущ неод ед ср пр

брожения сущ неод ед ср род

можно предик

было гл 2вид непер прош ед ср

успокоить гл сов перех инф

только част

ощутительными прл мн тв

для предл род

всех мест сущ мн род

мерами сущ неод мн тв

справедливости сущ неод ед жен род

и союз

общей прл ед жен род

пользы сущ неод ед жен род

3. Если после словосочетания есть прилагательное или причастие в предложном падеже (сразу за ним, либо после наречия, либо после словоформы слова «быть»), то оно - предложная группа.

Пример:_

небольшая прл ед жен им

радость сущ неод ед жен им

видеть гл несов пер/не инф

в предл пр

состоянии сущ неод ед ср пр

болезненном прл ед ср пр

человека сущ одуш ед муж вин

,

которого союзн сл ед муж вин одуш

я мест сущ ед им

знал гл несов пер/не прош ед муж

в предл пр

положении сущ неод ед ср пр

цветущем прч несов непер наст ед ср пр

4. Если предыдущее правило относится к причастию, то между ним и сочетанием может стоять запятая.

5. Если сразу за словосочетанием следует союз «и»/«или» и существительное, которое может употребляться в предложном падеже, то выбирается предложная группа. Пример:_

ни част

в предл пр

величине сущ неод ед жен пр

листа сущ неод ед муж род

,

ни част

в виде предл род

кожи сущ неод ед жен род

,

ни част

в предл пр

нежности сущ неод ед жен пр

дерева сущ неод ед ср род

,

ни част

в предл пр

состоянии сущ неод ед ср пр

и союз

расположении сущ неод ед ср пр

сучьев сущ неод мн род

не част

находил гл сов перех прош ед муж

я мест сущ ед им

ничего мест сущ род

сомнительного прл ед муж род

6. Если сразу за словосочетанием следует слово, состоящее только из латинских букв, то выбирается предложная группа. Пример:

аскет сущ одуш ед муж им

,

находящийся прч несов непер воз наст ед муж им

в предл пр

состоянии сущ неод ед ср пр

тёЫ нет в словаре

,

поднимается гл несов непер воз наст ед 3-е

на предл вин

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

воздух сущ неод ед муж вин

с предл тв

такою мест прил ед жен тв

же част

простотою сущ неод ед жен тв

и союз

с предл тв

таким мест прил ед ср тв

же част

малым прл ед ср тв

усилием сущ неод ед ср тв

воли сущ неод ед жен род

,

как союз

обыкновенный прл ед муж им

человек сущ одуш ед муж им

прыгает гл несов непер наст ед 3-е

Н

7. Если рассматриваемый отрезок текста содержит глагол в начальной форме, то словосочетание - предикатив. Пример:

тем не менее част

одна мест прил ед жен им

она мест сущ ед жен им

была гл 2вид непер прош ед жен

бы част

в состоянии предик

разрешить гл сов пер/не инф

весьма нар опред степ

многие прл мн вин неод

важные прл мн вин неод

вопросы сущ неод мн вин

8. В остальных случаях выбирается предикатив.

Результаты получены и проверены на материале Национального корпуса русского языка [15] (ниже «корпус»), который содержит 6451 предложение со словосочетанием «в состоянии» и 4601 предложение со словосочетанием «не в состоянии».

2 Правила снятия омонимии для словосочетания «без интереса»

Словосочетание «без интереса» может быть как предикативом, так и предложной группой.

При автоматическом снятии омонимии программа использует следующие правила для определения правильного варианта:

1. Если на анализируемом отрезке текста между двумя соседними знаками препинания есть существительное или местоимение, существительное в дательном падеже, то словосочетание является предикативом. Пример:_

ты мест сущ ед им

фермы сущ неод мн вин

хоть част

языком сущ ед муж тв

вылижи гл сов перех пов ед

-

ему мест сущ ед муж дат

без интереса предик

2. Исключениями являются случаи, когда такое существительное является частью предложной группы с предлогами «к» или «по». В этих случаях словосочетание «без интереса» интерпретируется как предложная группа. Пример:_

она мест сущ ед жен им

встревоженно нар опред кач

отвела гл сов перех прош ед жен

глаза сущ неод мн вин

,

без предл род

интереса сущ неод ед муж род

скользнула гл сов непер прош ед жен

ими мест сущ мн тв

по предл дат

проходящим сущ одуш мн дат

и союз

начала гл сов пер/не прош ед жен

прощаться гл несов непер воз инф

3. Во всех остальных случаях словосочетание «без интереса» - предложная группа. Результаты получены и проверены на материале Корпуса, который содержит 114 предложений со словосочетанием «без интереса».

3 Правила снятия омонимии для словосочетаний «в диковинку» и «в новинку»

Словосочетания «в диковинку» и «в новинку» являются предложными группами в случае, если отрезок текста содержит один из глаголов: «вглядываться», «вглядеться», «вкладывать», «вложить», «вложиться», «всматриваться», «всмотреться». Во всех остальных случаях эти словосочетания являются предикативами.

Примеры:

это мест сущ ед ср им

тебе мест сущ ед дат

в диковинку предик

потому что союз

ты мест сущ ед им

простой прл ед муж им

человек сущ одуш ед муж им

,

никогда мест нар

не част

видел гл несов пер/не прош ед муж

порядочных прл мн вин одуш

людей сущ одуш мн вин

Неудивительно, что он решил вложиться в новинку эту.

неудивительно предик

,

что союз

он мест сущ ед муж им

решил гл сов перех прош ед муж

вложиться гл сов непер воз инф

в предл вин

новинку сущ неод ед жен вин

эту мест прил ед жен вин

Результаты получены и проверены на материале Корпуса, который содержит 146 предложений со словосочетанием «в новинку» и 220 предложений со словосочетанием «в диковинку».

4 Правила снятия омонимии для словосочетания «в сборе»

Словосочетание «в сборе» является предложной группой в случае:

- если за ним следует предлог «с» с существительным в творительном падеже. Пример:__

кронштейны сущ неод мн им

меняются гл несов непер воз наст мн 3-е

в предл пр

сборе сущ неод ед муж пр

с предл тв

рычагами сущ неод мн тв

Н

- если за ним следует существительное в родительном падеже. Пример:

она мест сущ ед жен им

принимала гл несов пер/не прош ед жен

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

энергичное прл ед ср вин

участие сущ неод ед ср вин

в предл пр

сборе сущ неод ед муж пр

пожертвований сущ неод мн род

на предл вин

построение сущ неод ед ср вин

царицынского нет в словаре

монастыря сущ неод ед муж род

- если отрезок текста содержит одно из слов: свобода, заключаться, помеха, мешать, помешать, помощь, помогать, помочь, соотношение, состоять, участие, неучастие, участвовать. Пример:_

все мест прил ед ср им

ваше мест прил ед ср им

дело сущ неод ед ср им

будет гл 2вид непер буд ед 3-е

состоять гл несов непер инф

в предл пр

сборе сущ неод ед муж пр

и союз

пересылке сущ неод ед жен пр

ко предл дат

мне мест сущ ед дат

оброка сущ неод ед муж род

В остальных случаях словосочетание «в сборе» является предикативом. Результаты получены и проверены на материале Корпуса, который содержит 1 783 предложения со словосочетанием «в сборе».

5 Правила снятия омонимии для словосочетания «без ума»

Словосочетание «без ума» может быть интерпретировано либо как предикатив, либо как наречие, либо как предложная группа.

1. Словосочетание является наречием, если отрезок текста содержит один из следующих глаголов: бежать, влюбиться, влюбляться, врезаться, любить, полюбить, предаваться, предаться

Пример: Она первая заставила его понять, что можно без ума влюбиться в женщину бесспорно некрасивую.

она мест сущ ед жен им

первая прл ед жен им

заставила гл сов перех прош ед жен

его мест сущ ед муж вин

понять гл сов пер/не инф

,

что союз

можно предик

без ума нар опред спос

влюбиться гл сов непер воз инф

в предл вин

женщину сущ одуш ед жен вин

бесспорно нар опред кач

некрасивую прл ед жен вин

2. Словосочетание является предикативом если анализируемый отрезок текста содержит предлог «от» с существительным в родительном падеже.

Пример: Рядом с ним сидела старушка, видать, без ума от сына.

рядом с предл тв

ним мест сущ ед муж тв

сидела гл несов пер/не прош ед жен

старушка сущ одуш ед жен им

видать ввод

без ума предик

от предл род

сына сущ одуш ед муж род

Исключение: в случае предлога «от» со словами «злости», «пьянства», «ревности», «хмеля» имеем предложную группу.

Результаты получены и проверены на материале Корпуса, который содержит 447 предложений со словосочетанием «без ума».

3. В остальных случаях словосочетание «без ума» является предложной группой.

6 Правила снятия омонимии для словосочетания «в обтяжку»

Словосочетание «в обтяжку» может быть интерпретировано либо как предикатив, либо как наречие, либо как предложная группа.

1. Словосочетание является предложной группой, если анализируемый отрезок текста содержит один из следующих глаголов: вкладывать, вложить, вложиться, ввязаться, втянуться. Пример:

я мест сущ ед им

вложил гл сов перех прош ед муж

остаток сущ неод ед муж вин

средств сущ неод мн род

в предл вин

обтяжку сущ неод ед жен вин

мягкой прл ед жен род

мебели сущ неод ед жен род

2. Словосочетание является предикативом если в тексте существительное стоит

к нему ближе, чем глагол или причастие. П ример:

первым сущ неод ед ср тв

приехал гл сов непер прош ед муж

на предл вин

вокзал сущ неод ед муж вин

шацкий нет в словаре

,

одетый прч сов перех страд прош ед муж им

в предл вин

полосатый прл ед муж вин неод

костюм сущ неод ед муж вин

в обтяжку предик

долженствовавший прч несов непер прош ед муж вин неод

изображать гл несов перех инф

англичанина сущ одуш ед муж вин

Н

3. Словосочетание является наречием, если в тексте глагол или причастие стоит к нему ближе, чем существительное. Кроме того, если в тексте есть глагол «сидеть», то словосочетание «в обтяжку» всегда является наречием. Пример:

платье сущ неод ед ср им

сидело гл несов пер/не прош ед ср

на предл пр

ней мест сущ ед жен пр

в обтяжку нар опред спос

Результаты получены и проверены на материале Корпуса, который содержит 161 предложение со словосочетанием «в обтяжку».

Заключение

В статье приведено описание алгоритмов автоматического снятия омонимии словосочетаний, которые могут выступать в роли предикативов, разработанных с использованием данных Национального корпуса русского языка. Алгоритмы были реализованы на языке программирования С++ в экспериментальном программном обеспечении для снятия омонимии. Полученные результаты могут быть использованы для повышения точности морфологической разметки при автоматической обработке текстов на русском языке.

Список литературы

1. Зинькина Ю. В. Разрешение функциональной омонимии в русском языке на основе контекстных правил [Текст] / Ю. В. Зинькина, Н. В. Пяткин, О. А. Невзорова // Труды международной конференции «Диалог 2005». - М. : Наука, 2005. - С. 198-202.

2. Зеленков Ю. Г. Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов [Текст] / Ю. Г. Зеленков, И. В. Сегалович, В. А. Титов // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара «Диалог 2005». - М. : Наука, 2005. - С. 616-638.

3. Мухамедшин Д. Р. Модуль разрешения морфологической неоднозначности: архитуктура и организация базы даннях [Текст] / Д. Р. Мухамедшин, Д. Ш. Сулейманов // Программные продукты и системы. - 2020. - Т. 33, № 1. - С. 38-46.

4. Бобичев В. Л. Автоматическое снятие морфологической многозначности при разметке корпуса [Текст] / В. Л. Бобичев // Труды международной конференции «Корпусная лингвистика-2008». -СПб. : СПбГУ, 2008. - С. 45-49.

5. Гатауллин Р. Р. Аналитический обзор методов разрешения морфологической многозначности [Текст] / Р. Р. Гатауллин // Электронные библиотеки. - 2016. - Т. 19, № 2. - С. 98-114.

6. Кобрицов Б. П. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка / Б. П. Кобрицов, О. Н. Ляшевская, О. Ю. Шеманаева // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 38-57.

7. Ширшикова А. А. О проблемах омонимии [Текст] / А. А. Ширшикова // Альманах современной науки и образования. - 2012. - № 2 (57). - С. 190-192.

8. Порохнин А. А. Анализ статистических методов снятия омонимии в текстах на русском языке [Текст] / А. А. Порохнин // Вестник астраханского государственного технического университета. -2013. - № 2. - С. 168-174.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Лесько О. Н. Использование онтологии предметной области для снятия омонимии в естественноязыковых текстах / О. Н. Лесько, Ю. В. Рогушина // Проблеми програмування. - 2017. - № 2. -С. 61-71.

10. Рысаков С. В. Статистические методы снятия омонимии [Текст] / С. В. Рысаков, Э. С. Клышинский // Новые информационные технологии в автоматизированных системах. - 2015. - № 18. - С. 555-563.

11. Хаген М. Полная парадигма. Морфология [Электронный ресурс] / М. Хаген // Форум «Говорим по-русски» [сайт]. 2018. - Режим доступа: http://www.speakrus.ru/dict/#morph-paradigm (дата обращения: 10.06.2019).

12. Ниценко А. В. О подчинительном дереве для простого распространенного русского предложения [Текст] / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Проблемы искусственного интеллекта. - 2019. - № 2(13). - С. 94-103.

13. Ляшевская О. Н. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка) [Текст] / О. Н. Ляшевская, С. А. Шаров. - М. : Азбуковник, 2009. - 1087 с.

14. Ниценко А. В. О снятии омонимии словосочетаний, которые могут быть предикативами [Текст] / А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова // Проблемы искусственного интеллекта. - 2021. -№ 1(20). - С. 53-63.

15. Национальный корпус русского языка [Электронный ресурс]. - URL: http://www.ruscorpora.ru/ (дата обращения: 01.05.2021).

References

1. Zin'kina Yu. V., Pyatkin N. V., Nevzorova O. A. Razresheniye funktsional'noy omonimii v russkom yazyke na osnove kontekstnykh pravil [Resolution of functional homonymy in Russian based on contextual rules]. Trudy mezhdunarodnoy konferentsii «Dialog 2005» [Proceedings of the international seminar "Dialogue 2005"], M., Nauka, 2005, S. 198-202.

2. Zelenkov Yu. G., Segalovich I. V., Titov V. A. Veroyatnostnaya model' snyatiya morfologicheskoy omonimii na osnove normalizuyushchikh podstanovok i pozitsiy sosednikh slov [Probabilistic model for removing morphological homonymy based on normalizing substitutions and positions of neighboring words]. Komp'yuternaya lingvistika i intellektual'nyye tekhnologii. Trudy mezhdunarodnogo seminara «Dialog 2005» [Computer linguistics and intellectual technologies. Proceedings of the international seminar "Dialogue 2005"], M., Nauka, 2005, S. 616-638.

3. Mukhamedshin D. R., Suleymanov D. Sh. Modul' razresheniya morfologicheskoy neodnoznachnosti: arkhituktura i organizatsiya bazy dannyakh [Modul' razresheniya morfologicheskoy neodnoznachnosti: arkhituktura i organizatsiya bazy dannyakh]. Programmnyye produkty i sistemy [Software products and systems], 2020, T. 33, № 1, S. 38-46.

4. Bobichev V. L. Avtomaticheskoye snyatiye morfologicheskoy mnogoznachnosti pri razmetke korpusa [Automatic removal of morphological ambiguity when marking the corpus]. Trudy mezhdunarodnoy konferentsii «Korpusnaya lingvistika-2008» [Proceedings of the international conference "Corpus linguistics-2008"], SPb., SPbGU, 2008, S. 45-49.

5. Gataullin R. R. Analiticheskiy obzor metodov razresheniya morfologicheskoy mnogoznachnosti [Analytical review of methods for resolving morphological polysemy]. Elektronnyye biblioteki [Electronic libraries], 2016, T. 19, № 2, S. 98-114.

6. Kobritsov B. P., Lyashevskaya O. N., Shemanayeva O. Yu. Snyatiye leksiko-semanticheskoy omonimii v novostnykh i gazetno-zhurnal'nykh tekstakh: poverkhnostnyye fil'try i statisticheskaya otsenka [Removing lexical-semantic homonymy in news and newspaper and magazine texts: surface filters and statistical evaluation]. Internet-matematika 2005. Avtomaticheskaya obrabotka veb-dannykh [Internet mathematics 2005. Automatic processing of web data], M., 2005, S. 38-57.

7. Shirshikova A. A. O problemakh omonimii [On the problems of homonymy]. Al'manakh sovremennoy nauki i obrazovaniya [Almanac of modern science and education], 2012, № 2 (57), S. 190-192.

8. Porokhnin A. A. Analiz statisticheskikh metodov snyatiya omonimii v tekstakh na russkom yazyke [Analysis of statistical methods for removing homonymy in Russian texts] Vestnik astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta [Bulletin of the Astrakhan State Technical University], 2013, № 2, S. 168-174.

9. Les'ko O. N., Rogushina Yu. V. Ispol'zovaniye ontologii predmetnoy oblasti dlya snyatiya omonimii v yestestvenno-yazykovykh tekstakh [Using the domain ontology for removing homonymy in natural language texts]. Problemiprogramuvannya [Problems of the program], 2017, № 2, S. 61-71.

10. Rysakov S. V., Klyshinskiy E. S. Statisticheskiye metody snyatiya omonimii [Statistical methods for removing homonymy]. Novyye informatsionnyye tekhnologii v avtomatizirovannykh sistemakh [New information technologies in automated systems], 2015, № 18, S. 555-563.

11. Khagen M. Polnaya paradigma. Morfologiya [Complete paradigm. Morphology]. Forum «Govorim po-russki» [Forum "We speak Russian"], 2018, Rezhim dostupa: http://www.speakrus.ru/dict/#morph-paradigm (data obrashcheniya: 10.06.2019).

Н

12. Nitsenko A. V., VShelepov. Yu., Bol'shakova S. A. O podchinitel'nom dereve dlya prostogo rasprostranennogo russkogo predlozheniya [On the subordinate tree for a simple common Russian sentence]. Problemy iskusstvennogo intellekta [Problems of artificial intelligence], 2019, № 2(13), S. 94-103.

13. Lyashevskaya O. N., Sharov S. A. Chastotnyy slovar' sovremennogo russkogo yazyka (na materialakh Natsional'nogo korpusa russkogo yazyka) [Frequency dictionary of the modern Russian language (based on the National Corpus of the Russian language)], M., Azbukovnik, 2009, 1087 s.

14. Nitsenko A. V., Shelepov V. Yu., Bol'shakova S. A. O snyatii omonimii slovosochetaniy, kotoryye mogut byt' predikativami [On removing the homonymy of phrases that can be predicatives]. Problemy iskusstvennogo intellekta [Problems of artificial intelligence], 2021, № 1(20), S. 53-63.

15. Natsional'nyy korpus russkogo yazyka [National corpus of the Russian language] URL: http://www.ruscorpora.ru/ (data obrashcheniya: 01.05.2021).

RESUME

A. V. Nitsenko, V. Yu. Shelepov, S. A. Bolshakova On Automatic Disambiguation of Predicative Word Combinations. Results of Work with the National Corpus of the Russian Language

The problem of disambiguation is one of the most important in natural language automatic processing. This problem is especially relevant for the Russian language since the presence of an extremely large number of homonyms. Therefore, the disambiguation is an important and necessary stage for high-quality text processing and analysis.

The article describes the algorithms of automatic disambiguation in Russian text for word combinations that can act as predicatives. These algorithms were developed using data from the Russian National Corpus.

The developed algorithms were implemented using the C++ programming language in experimental disambiguation software.

The results obtained can be used to improve the accuracy of morphological tagging in automatic processing of Russian texts.

РЕЗЮМЕ

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова

Об автоматическом снятии омонимии предикативных словосочетаний. Результаты работы с национальным корпусом русского языка

Проблема разрешения неоднозначности слов является одной из важнейших в задачах автоматической обработки естественного языка. Для русского языка эта проблема особенно актуальна, поскольку количество омонимов очень велико из -за наличия словоформ. Поэтому процедура снятия омонимии является важным и необходимым этапом для качественной обработки и анализа текстов.

В статье приведено описание алгоритмов автоматического снятия омонимии словосочетаний, которые могут выступать в роли предикативов. Алгоритмы разработаны с использованием данных Национального корпуса русского языка.

Алгоритмы были реализованы на языке программирования С++ в экспериментальном программном обеспечении для снятия омонимии.

Полученные результаты могут быть использованы для повышения точности морфологической разметки при автоматической обработке текстов на русском языке.

Статья поступила в редакцию 09.06.2021.

i Надоели баннеры? Вы всегда можете отключить рекламу.