Научная статья на тему 'О СНЯТИИ ОМОНИМИИ «ПРЕДИКАТИВ-ПРЕДЛОЖНАЯ ГРУППА» ДЛЯ НЕКОТОРЫХ РУССКИХ СЛОВОСОЧЕТАНИЙ'

О СНЯТИИ ОМОНИМИИ «ПРЕДИКАТИВ-ПРЕДЛОЖНАЯ ГРУППА» ДЛЯ НЕКОТОРЫХ РУССКИХ СЛОВОСОЧЕТАНИЙ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
14
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обработка естественного языка / автоматический анализ текста / снятие омонимии / словосочетания / предложная группа / национальный корпус / natural language processing / automatic text analysis / disambiguation / collocations / prepositional group / national language corpus

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова

В статье рассматривается проблема автоматического снятия омонимии для ряда словосоче-таний. В одних случаях они могут играть роль предикативных словосочетаний, а в других – выступать как предложные группы. Для снятия омонимии предлагается использовать алгоритм, учитывающий наличие на отрезке текста определенных слов или элементов синтаксиса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE «PREDICATIVE-PREPOSITIONAL GROUP» DISAMBIGUATION FOR SOME RUSSIAN WORD COMBINATIONS

The article deals with the problem of automatic disambiguation for a number of collocations. In some cases they can play the role of predicative collocations, and in others they can act as prepositional groups. Disambiguation algorithm takes into account the presence of certain words or syntax elements in a segment of the text.

Текст научной работы на тему «О СНЯТИИ ОМОНИМИИ «ПРЕДИКАТИВ-ПРЕДЛОЖНАЯ ГРУППА» ДЛЯ НЕКОТОРЫХ РУССКИХ СЛОВОСОЧЕТАНИЙ»

УДК 004.89:004.93

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова Федеральное государственное бюджетное научное учреждение «Институт проблем искусственного интеллекта», г. Донецк 283048, г. Донецк, ул. Артема, 118-б

О СНЯТИИ ОМОНИМИИ «ПРЕДИКАТИВ-ПРЕДЛОЖНАЯ ГРУППА» ДЛЯ НЕКОТОРЫХ РУССКИХ СЛОВОСОЧЕТАНИЙ

A. V. Nicenko, V. Ju. Shelepov, S. A. Bolshakova

Federal State Budgetary Scientific Institution «Institute of Artificial Intelligence Problems» 283048, Donetsk, Artem str., 118 b

ON THE «PREDICATIVE-PREPOSITIONAL GROUP» DISAMBIGUATION FOR SOME RUSSIAN WORD COMBINATIONS

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова

Федеральна державна бюджетна наукова установа «1нститут проблем штучного штелекту», 283048, Донецьк, вул. Артема, 118 б

ПРО ЗНЯТТЯ ОМОН1М11 «ПРЕДИКАТИВ-ПРИЙМЕННИКОВА ГРУПА» ДЛЯ ДЕЯКИХ РОС1ЙСЬКИХ СЛОВОСПОЛУЧЕНЬ

В статье рассматривается проблема автоматического снятия омонимии для ряда словосочетаний. В одних случаях они могут играть роль предикативных словосочетаний, а в других -выступать как предложные группы. Для снятия омонимии предлагается использовать алгоритм, учитывающий наличие на отрезке текста определенных слов или элементов синтаксиса.

Ключевые слова: обработка естественного языка, автоматический анализ текста, снятие омонимии, словосочетания, предложная группа, национальный корпус.

The article deals with the problem of automatic disambiguation for a number of collocations. In some cases they can play the role of predicative collocations, and in others they can act as prepositional groups. Disambiguation algorithm takes into account the presence of certain words or syntax elements in a segment of the text.

Key words: natural language processing, automatic text analysis, disambiguation, collocations, prepositional group, national language corpus.

У статт розглядаеться проблема автоматичного зняття омошми для ряду словосполучень. В одних випадках вони можуть грати роль предикативних словосполучень, а в шших -виступати як прийменниковi групи. Для зняття омошми пропонуеться використовувати алгоритм, що враховуе наявнють на в^зку тексту певних ^в або елеменлв синтаксису. Ключовi слова: обробка природноТ мови, автоматичний анал1з тексту, методи зняття омоымп, словосполучення, прийменникова група, нацюнальний корпус.

Введение

Из недавних работ по снятию омонимии упомянем статьи [1-6]. Данная статья продолжает цикл исследований по снятию омонимии предикативных словосочетаний [7-11]. Результаты реализованы в программе на языке С++. В работе используется словарь [12], представляемый в виде дерева, что обеспечивает почти мгновенный поиск нужных слов и групп омонимов. Рассматриваются некоторые словосочетания, каждое из которых может быть в одних случаях предикативным словосочетанием, а в других предлогом и существительным (предложная группа). В первом случае упомянутая программа интерпретирует его как единое целое, во втором - представляет в виде отдельных слов словаря. Для того чтобы она могла это сделать, словосочетание дважды внесено в словарь с пометками (предик) и (предл гр).

Применяемый лексико-синтаксический алгоритм анализирует отрезок текста, содержащий словосочетание и заключенный между двумя соседними знаками препинания. Результат определяется наличием на отрезке определенных слов или элементов синтаксиса. Это организовано как работа со специальным файлом Предл ep.txt (см. [7-11]). Файл состоит из отдельных групп, каждая из которых начинается словосочетанием, к которому она относится (оно снабжено восклицательным знаком) и включает некоторый набор слов и строки вида «| род». Мы называем эти группы управляющими. Иногда строки содержат дополнительные метки. Программа просматривает упомянутый отрезок текста и интерпретирует словосочетание как предложную группу, если вместе с ним отрезок содержит словоформу слова из управляющей группы или существительное в падеже, указанном в записи вида «| род». В противном случае словосочетание интерпретируется как предикатив.

Ниже приведены управляющие группы для ряда словосочетаний, которые могут быть только омонимами «предикатив-предложная группа». Результаты получены в результате анализа всех найденных предложений из Национального корпуса русского языка с рассматриваемыми словосочетаниями. Ради экономии места управляющие группы записаны в две колонки. Обсуждаемое словосочетание выделено жирным курсивом. Вслед за управляющей группой следует описание правил, которые непосредственно реализованы в программе (при наличии таковых).

1 Правила снятия омонимии «предикатив-предложная группа» для некоторых словосочетаний

1.

возраст

даже (предл гр-предик) дело

военный (-1) [предик] время

какой (предик-предл гр)

лишь (предл гр-предик)

продолжительность

различие

разница

разрыв

расторговаться розница совершаться срок

в годах ! (предл гр)

нежели

не&таких&бы&и&больших ни (-1)

осознаться

отдаваться

от&рождества

ошибка

стиль

суть

трчать

тот&же(предл гр-предик) угнаться [предик] черт&ли а&не

| родА

В случаях, перечисленных в файле Предл гр.Ш, «в годах» - предложная группа. В остальных случаях:

1) если на отрезке с «в годах» есть глагольная форма (кроме форм глагола «быть»), то это предложная группа («Всякая новизна прочно помнилась в годах», «Гвагнин в годах весьма погрешил»). Исключения:

- если перед «в годах» стоит одушевленное существительное, либо одушевленное существительное и наречие, то это предикатив («рассказывал бывалый мужик в годах»»);

- «заметно/совсем/уже в годах» - предикатив («его образ вечного в чем-то ребенка хуже сочетался с артистом уже заметно в годах», «несмотря на то, что был уже в годах и страдал подагрой»);

2) если на отрезке с «в годах» нет глагольной формы (либо есть только форма глагола «быть»), то это предикатив («хорошо одет, высокий, в годах»). Исключения:

- если после «в годах» стоит прилагательное в предложном падеже, то это предл. гр. («она была там, в годах прошлых, а потом воротилась»);

- если после «в годах» стоит число, записанное цифрами, то это предл. гр. («и тут вспомнила я, что Алексей Федорович был когда-то, в годах 1920-х, знаком с Мариэттой Шагинян»);

- если перед «в годах» стоит тире, то выбирается предл. гр. без разделения на слова (возможна как предложная группа, так и предикатив) («непонятно было, в чем измеряется оно - в годах(предл гр), километрах, веках», «сын - работает в лесопромсовхозе , девка - в годах(предик), ей 35, работает прачкой»).

2.

в сборе !(предл гр) свобода соотношение

заключаться состоять

помеха участие

мешать неучастие

помешать участвовать

помощь найти (предик-предл гр)

помогать наличные (предл гр-предик)

помочь

| род (1)

| с+тв |со+тв

3.

в силах !(предл гр) недостаток себя [предик]

паритет уверенный

перевес уверенность

преимущество укрепляться (предл гр-предик)

превосходить укрепиться (предл гр-предик)

превосходство участие

разница +,которых

| род (1) (предик-предл гр)

Если после «в силах» стоит омоним, который может быть существительным в родительном падеже, то выбирается именно он (в силах безопасности и пограничных частях). Исключением является слово «были», которое в этом случае всегда интерпретируется как глагол (мы в силах были бы решить все наши проблемы).

Если на отрезке с «в силах» есть слово «помочь», то это всегда глагол, а не существительное.

Если сразу за «в силах» есть кандидат на прилагательное (местоимение-прилагательное), в предложном падеже, то выбирается именно он, и «в силах»- предложная группа (все, что было в силах человеческих, для вас делается).

Если в пределах отрезка есть глагол, не входящий в группу, то в случае, когда он в инфинитиве, «в силах» - предикатив, в случае, когда это другая глагольная форма «в силах» - предложная группа (причина кроется в силах, стоящих над нами). Если есть 2 глагола, один из которых в инфинитиве, то «в силах»- предикатив.

Если на отрезке есть слово, входящее в управляющую группу, то «в силах» -предложная группа. В частности, это привило приоритетно относительно ситуации с последующим родительным падежом.

Если сразу за «в силах» идет «и» + сущ. в предл. падеже, то «в силах» -предл. гр. (объективное зло в силах и стихиях природы)

4.

на счету !(предл гр)

банк (предл гр-предик) не&густо

деньги (предл гр-предик) нет

держать нету

доллар (предл гр-предик) оставаться

зависать оставлять

зависнуть оставить

задерживать остаться

задержать остаток

замораживать появляться

заморозить появиться

интересный рубль (предл гр-предик)

капитал скопиться

копейка (предл гр-предик) средство

лежать сумма

миллиард (предл гр-предик) тысяча

миллион (предл гр-предик) у (предл гр-предик)

накапливать хранить

накопить храниться находиться

|род (предл гр-предик)

Если перед или после «на счету» стоит числительное или цифры (сразу либо после словоформы глагола «быть») то выбирается предложная группа.

В словосочетании «на счету была каждая марка» для «на счету» выбирается предикатив.

5. по карману !(предл гр)

а провести

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

барабанить промахнуть

бедный с&боков

бить различия&положения

вас&сегодня ревнитель

врезать сеять

гладить посеять

погладить спускаться

глядеть стукать

и&честь стукнуть

набирать стучать

набрать судить

наказывать тебя&сразу

наказать трескать

хлоп треснуть

хлопать ударять

хлопнуть ударить

захлопать удар

похлопать хватить

похлопывать шарить

проводить зашарить

6. 1 род

по плечу !(предл гр)

бить стучать

бродить стукнуть

вдарить стукать

вести теребить

врезать потеребить

гладить трепать

поглаживать потрепать

погладить трескать

двинуть треснуть

долбить трогать

долбануть тронуть

достаться ударять

ерзать ударить

заехать удар

и&ниже хватить

кто хлестать

колотить хлестнуть

лупить хлопать

образовываться хлопнуть

образоваться хлопанье

огреть хлопок

полоснуть похлопать

постукать похлопывать

постукивать похлопывание

постучать прихлопывать (предл гр-предик)

приходиться (предл гр-предик) прийтись

провести (предл гр-предик)

проводить (предл гр-предик)

прыгать (предл гр-предик)

прыгнуть

рассыпаться

садануть

скользить

скользнуть

проскользить

проскользнуть (предл гр-предик)

слегка

стекать

прихлопнуть (предл гр-предик)

хряснуть

хряскать

чиркнуть

чиркать

шарах

шарахать

шарахнуть

шлепать

шлепнуть

пошлепать

пришлепывать (предл гр-предик) пришлепнуть (предл гр-предик)

2 О дополнительных метках

Метка [предик] означает безусловный выбор предикатива при наличии на рассматриваемом отрезке словоформы помеченного слова, без оглядки на правила, которые могут этому противоречить. Метка (предл гр-предик) означает, что для словосочетания возможны оба варианта в зависимости от контекста. Программа по умолчанию выберет предложную группу без разделения, так что пользователь, в случае необходимости, может изменить результат, используя кнопку «С» в окне программы. Роль метки (предик-предл гр) аналогична (по умолчанию предикатив).

Метка (-1) означает, что соответствующая словоформа должна находиться непосредственно перед словосочетанием.

Запись | род обеспечивает выбор предложной группы при наличии в пределах отрезка после словосочетания родительного падежа существительного или местоимения-существительного. | род(1) - то же для непосредственного следования.

Запись | родА обеспечивает выбор предложной группы при наличии в пределах отрезка после словосочетания существительного или местоимения-существительного, имеющего омоним в родительном падеже.

Запись | с+тв обеспечивает выбор предложной группы при наличии после словосочетания в пределах отрезка существительного (местоимения-существительного) с предлогом «с». | со+тв - то же для предлога «со». Значок & применяется, когда в управляющей группе вместо одного слова используется сочетание слов (без лемматизации).

В статье приведено описание алгоритмов автоматического снятия омонимии словосочетаний, которые могут выступать в роли предикативов, разработанных с использованием данных Национального корпуса русского языка. Алгоритмы были реализованы на языке программирования С++ в экспериментальном программном обеспечении для снятия омонимии. Полученные результаты могут быть использованы для повышения точности морфологической разметки при автоматической обработке текстов на русском языке.

Заключение

Список литературы

1. Бручес, Е.П. Гибридный подход к снятию частеречной омонимии на примере русского языка // Материалы 54-й Международной научной студенческой конференции МНСК-2016: Прикладная лингвистика. 2016. С. 13-14.

2. Каневский, Е.А., Клименко, Е.Н., Силина, Е.Ф. Особые наречные обороты // Экономико-математические исследования: математические модели и информационные технологии: материалы Всероссийской конференции. (Санкт-Петербург, 26-28 октября 2015 г.). СПб: Нестор-История, 2015. С. 101-107.

3. Анализ омонимичных словосочетаний, эквивалентных слову / К.К. Боярский, Е.А. Каневский, Е.Н. Клименко, Е.Ф. Силина // Компьютерная лингвистика и вычислительные онтологии. 2017. № 1. С. 18-28.

4. Клышинский, Э.С., Бунтякова, В.А. , Карпик, О.В. Исследование грамматической неоднозначности наиболее частотных слов русского язика // Препринты ИПМ им. М.В.Келдыша. 2021. № 58. 22 с. Режим доступа: https://library.keldysh.ru/preprint.asp?id=2021-58 (дата обращения: 05.09.2023).

5. Сулейманов, Д.Ш., Мухамедшин., Д.Р. Модуль разрешения морфологической неоднозначности: архитуктура и организация базы даннях // Программные продукты и системы. 2020. № 1. С. 38-46.

6. Большина, А. С. Создание псевдоаннотированного обучающего корпуса для задачи разрешения лексической неоднозначности с помощью ансамбля моделей // Интеллектуальные Системы. Теория и приложения. 2022. Т.26, №1. С.185-189.

7. Ниценко, А. В., Шелепов, В. Ю., Большакова, С. А. О снятии омонимии словосочетаний, которые могут быть предикативами // Проблемы искусственного интеллекта. 2021. № 1(20). С. 53-63.

8. Ниценко, А. В., Шелепов, В. Ю., Большакова С. А. К вопросу об автоматическом снятии омонимии русских предикативов, // Сборник трудов VIII Международной конференции «Знания-Онтологии-Теории» (г. Новосибирск, 8-12 ноября 2021г.) 2021. С. 218-225.

9. Ниценко, А. В. Шелепов, В. Ю., Большакова С. А. Об автоматическом снятии омонимии предикативных словосочетаний. Результаты работы с национальным корпусом русского языка // Проблемы искусственного интеллекта. 2021. № 3(22). С. 46-56.

10. Ниценко, А. В., Шелепов, В. Ю., Большакова С. А. Исследование омонимии предикативных словосочетаний на основе национального корпуса русского языка // Сборник трудов VII Международной научно-технической конференции «Современные информационные технологии в образовании и научных исследованиях» (г. Донецк, 23 ноября 2021 г.). 2021. Режим доступа: http://pm.conf.donntu.org/index.php (дата обращения: 13.12.2021).

11. Большакова, С. А. Ниценко, А. В., Шелепов, В. Ю. К вопросу о снятии омонимии в некоторых группах омонимов, включающих предикатив // Искусственный интеллект: теоретические аспекты и практическое применение: материалы Донецкого международного научного круглого стола. Донецк : ГУ «Институт проблем искусственного интеллекта» (ГУ «ИПИИ»), 2022. С. 152-158.

12. Хаген, М. А. Полная парадигма. Морфология [Электронный ресурс].

URL: http://www.speakrus.ru/ dict/#morph-paradigm (дата обращения: 10.12.2021).

13. Национальный корпус русского языка [Электронный ресурс]. URL: http://www.ruscorpora.ru/ (дата обращения: 10.12.2021).

14. Guadalupe, R. Y. Hybrid Methods for the Extraction and Comparison of Multilingual Collocations in the Language for Specific Purposes of Marketing // Proceedings of the Conference «Computational and Corpus-based Phraseology: Recent Advances and Interdisciplinary Approaches». London, UK, 2017. Vol. II. р.11-18. URL: https://www.tradulex.com/varia/Europhras2017-II.pdf (date of treatment: 07.03.2023).

15. Shwartz, V. Abstract of the Invited Talk A Long Hard Look at MWEs in the Age of Language Models // Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021). 2021. p. 1-12 -URL: https://hal.science/hal-03320983/document (date of treatment: 07.03.2023).

16. Evert, S. E-VIEW-alation - a Large-scale Evaluation Study of Association Measures for Collocation Identification / Stefan Evert, Peter Uhrig, Sabine Bartsch, Thomas Proisl // Proceedings of the conference "Electronic lexicography in the 21st century". 2017. p. 531-549

URL: https://elex.link/elex2017/proceedings/eLex_2017_Proceedings.pdf (date of treatment: 07.03.2023).

17. Jurafsky, D. Chapter 5. Word classes and part-of-speech tagging // Speech and Language Processing: An introduction to speech recognition, computational linguistics and natural language processing / Daniel Jurafsky & James H. Martin. 2006.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

URL: https://www1.essex.ac.uk/linguistics/research/resgroups/clgroup/papers/tmp/5.pdf

(date of treatment: 07.03.2023).

References

1. Bruches E.P. A hybrid approach to the removal of partial homonymy on the example of the Russian language. Proceedings of the 54th International Scientific Student Conference MNSK-2016: Applied Linguistics. 2016. pp.13-14.

2. Kanevsky E.A., Klimenko E.N., Silina E.F. Special adverbial collocations. Economic and Mathematical Research: Mathematical Models and Information Technologies: Proceedings of the All-Russian Conference. (St. Petersburg, October 26-28, 2015). 2015. pp. 101-107.

3. Boyarsky K.K., Kanevsky E.A., Klimenko E.N., Silina E.F. Analysis of homonymous phrases equivalent to the word. Computational Linguistics and Computational Ontologies. 2017. № 1. pp. 18-28.

4. Klyshinsky E.S., Buntyakova V.A., Karpik O.V. Study of the grammatical ambiguity of the most frequent words of the Russian language. Preprints of IPM im. M.V. Keldysh. 2021. № 58. 22 p. URL: https ://library.keldysh.ru/preprint.asp?id=2021-58.

5. Suleimanov D.Sh. Mukhamedshin D.R. Morphological disambiguation module: database architecture and organization . Software products and systems. 2020. № 1. pp. 38-46.

6. Bolshina A. S. Creation of a pseudo-annotated training corpus for the problem of resolving lexical ambiguity using an ensemble of models. Intelligent Systems. Theory and applications. 2022. Vol.26. № 1. pp.185-189.

7. Nicenko A.V., Shelepov V. Ju., Bolshakova S. A., Ivashko K. S. On the disambiguation of word combinations that may be predicatives. Problems of artificial intelligence. 2020. № 1(20). (In Russ.) pp. 53-63.

8. Nitsenko A.V., Shelepov V. Yu., Bolshakova S. A. On the question of automatic removal of homonymy of Russian predicatives. Proceedings of the VIII International Conference "Knowledge-Ontology-Theory" (Novosibirsk, November 8-12, 2021) - 2021. - pp. 218-225

9. Nicenko A. V., Shelepov V. Ju., Bolshakova S. A. On automatic disambiguation of predicative word combinations. Results of work with the national corpus of the russian language. Problems of artificial intelligence 2021. No. 3(22). (In Russ.) pp. 46-56.

10. Nitsenko A.V., Shelepov V. Yu., Bolshakova S. A. Research of homonymy of predicative phrases based on the national corpus of the Russian language. Proceedings of the VII International Scientific and Technical Conference "Modern information technologies in education and scientific research" (Donetsk, November 23, 2021). 2021. Access mode: http://pm.conf.donntu.org/index.php (accessed: 13.12.2021).

11. Bolshakova S. A., Nitsenko A.V., Shelepov V. Yu. On the issue of removing homonymy in some groups of homonyms including a predicative. Artificial intelligence: theoretical aspects and practical application: materials of the Donetsk International Scientific Round Table. - Donetsk: GU "Institute of Artificial Intelligence Problems", 2022. - 216 p. - pp. 152-158.

12. Hagen M. The complete paradigm. Morphology. Forum "We speak in Russian" [website], 2018, URL: http://www.speakrus.ru/dict/#morph-paradigm (accessed: 19.11.2018)

13. The National Corpus of the Russian language. URL: http://ruscorpora.ru/new/index.html. (accessed: 10.05.2021).

14. Guadalupe, R. Y. Hybrid Methods for the Extraction and Comparison of Multilingual Collocations in the Language for Specific Purposes of Marketing // Proceedings of the Conference «Computational and Corpus-based Phraseology: Recent Advances and Interdisciplinary Approaches». - London, UK, 2017. -Vol. II. - p. 11-18 - URL: https://www.tradulex.com/varia/Europhras2017-n.pdf (date of treatment: 07.03.2023).

15. Shwartz, V. Abstract of the Invited Talk A Long Hard Look at MWEs in the Age of Language Models // Proceedings of the 17th Workshop on Multiword Expressions (MWE 2021). - 2021. - p. 1-12 - URL: https://hal.science/hal-03320983/document (date of treatment: 07.03.2023).

16. Evert, S. E-VIEW-alation - a Large-scale Evaluation Study of Association Measures for Collocation Identification / Stefan Evert, Peter Uhrig, Sabine Bartsch, Thomas Proisl // Proceedings of the conference "Electronic lexicography in the 21st century". - 2017. - p. 531-549 - URL: https://elex.link/elex2017/proceedings/eLex_2017_Proceedings.pdf (date of treatment: 07.03.2023).

17. Jurafsky, D. Chapter 5. Word classes and part-of-speech tagging // Speech and Language Processing: An introduction to speech recognition, computational linguistics and natural language processing / Daniel Jurafsky & James H. Martin. - 2006. -

URL: https://www1.essex.ac.uk/linguistics/research/resgroups/clgroup/papers/tmp/5.pdf (date of treatment: 07.03.2023).

RESUME

A. V. Nicenko, V. Ju Shelepov, S. A. Bolshakova

Оn the «Predicative-Prepositional Group» Disambiguation

for Some Russian Word Combinations

The problem of word disambiguation is one of the most important in the tasks of automatic natural language processing. For the Russian language, this problem is especially relevant, since the number of homonyms in it is very large. Disambiguation are a necessary and important step for qualitative analysis and processing of texts.

The article deals with the problem of automatic disambiguation for a number of collocations, which on the one hand are the predicative phrases, and on the other hand are the groups of words with a preposition and a noun. In the first case, the collocation must be equivalent to a single element of the dictionary, which has the part of speech tag "predicative". In the second case, it is a simple combination of individual dictionary words. For disambiguation it is proposed to use an algorithm that takes into account the presence of certain words or syntax elements in a segment of the text.

Algorithms for "predicative-prepositional group" disambiguation removal are developed on the basis of data from the Russian National Corpus. The developed algorithms were implemented in experimental disambiguation software using the C++ programming language.

The results obtained can be used to improve the accuracy of morphological tagging in automatic Russian texts processing.

РЕЗЮМЕ

А. В. Ниценко, В. Ю. Шелепов, С. А. Большакова О снятии омонимии «предикатив-предложная группа» для некоторых русских словосочетаний

Проблема разрешения неоднозначности слов является одной из важнейших в задачах автоматической обработки естественного языка. Для русского языка эта проблема особенно актуальна, поскольку количество омонимов в нем очень велико. Процедуры снятия омонимии являются необходимым и важным этапом для качественного анализа и обработки текстов.

В статье рассматривается проблема автоматического снятия омонимии для ряда словосочетаний, которые с одной стороны являются предикативными словосочетаниями, а с другой - группами слов с предлогом и существительным. В первом случае словосочетание должно быть эквивалентно единому элементу словаря, имеющему характеристику части речи «предикатив». Во втором случае оно является простым сочетанием отдельных слов словаря. Для снятия омонимии предлагается использовать алгоритм, учитывающий наличие на отрезке текста определенных слов или элементов синтаксиса.

Разработаны алгоритмы автоматического снятия омонимии «предикатив-предложная группа» на основе данных Национального корпуса русского языка. Алгоритмы были реализованы с использованием языка программирования С++ в экспериментальном программном обеспечении для снятия омонимии.

Полученные результаты могут быть использованы для повышения точности морфологической разметки при автоматической обработке текстов на русском языке.

Статья поступила в редакцию 04.03.2023.

i Надоели баннеры? Вы всегда можете отключить рекламу.