Научная статья на тему 'МЕТОДЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ СЕМАНТИЧЕСКИ РАЗМЕЧЕННЫХ КОРПУСОВ'

МЕТОДЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ СЕМАНТИЧЕСКИ РАЗМЕЧЕННЫХ КОРПУСОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
58
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВТОМАТИЧЕСКОЕ РАЗРЕШЕНИЕ ЛЕКСИЧЕСКОЙ НЕОДНОЗНАЧНОСТИ / АВТОМАТИЧЕСКОЕ СОЗДАНИЕ ОБУЧАЮЩЕЙ КОЛЛЕКЦИИ / ЯЗЫКОВЫЕ МОДЕЛИ / ОДНОЗНАЧНЫЕ РОДСТВЕННИКИ / ПАРАЛЛЕЛЬНЫЕ КОРПУСА / БУТСТРЭППИНГ / АЛГОРИТМ РАСПРОСТРАНЕНИЯ МЕТОК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Большина Ангелина Сергеевна

В последние годы с появлением предобученных языковых моделей и различных нейросетевых архитектур качество алгоритмов автоматического разрешения лексической неоднозначности значительно улучшилось. Подавляющее большинство передовых моделей созданы методом машинного обучения с учителем, для которого требуются значительные объемы размеченных текстовых данных. Получение семантически аннотированных данных дорогостоящий процесс, требующий немало времени и трудозатрат. В связи с этим достижения в области автоматического разрешения неоднозначности не могут быть применены для решения этой задачи в языках с недостаточным количеством размеченных лингвистических ресурсов, к которым относится и русский язык. Для решения данной проблемы разрабатываются различные методы для автоматического создания обучающих коллекций. В статье предлагается обзор подходов, сгруппированных по основополагающему принципу их работы и источнику знаний, который в них используется.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Большина Ангелина Сергеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE METHODS OF AUTOMATIC CREATION OF SEMANTICALLY ANNOTATED COLLECTIONS

In recent years, with the development of deep pretrained language models and various neural network architectures, the performance of word sense disambiguation (WSD) algorithms has improved signifi cantly. Th e vast majority of state-of-the-art models are supervised, which means that they require signifi cant amounts of annotated text data for training. Obtaining semantically annotated data is a very expensive process that requires a lot of time and labor. In this regard, recent advances in WSD off er opportunities for considerably more effi cient ways of resolving ambiguity, but that is applicable only to the highresource languages. Knowledge acquisition bottleneck hinders the development of WSD systems for lowresource languages, including Russian. To address this issue, various methods are developed for automatic (or semiautomatic) creation of training collections. Th is article provides an overview of these approaches grouped by the main principle they are based on.

Текст научной работы на тему «МЕТОДЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ СЕМАНТИЧЕСКИ РАЗМЕЧЕННЫХ КОРПУСОВ»

Вестник Московского университета. Серия 9. Филология. 2022. № 2. С. 173-183 Moscow State University Bulletin. Series 9. Philology, 2022, no. 2, pp. 173-183

ОБЗОР

МЕТОДЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ СЕМАНТИЧЕСКИ РАЗМЕЧЕННЫХ КОРПУСОВ

А.С. Большина

Московский государственный университет имени М.В. Ломоносова, Москва,

Россия, angelina_ku@mail.ru

Аннотация: В последние годы с появлением предобученных языковых моделей и различных нейросетевых архитектур качество алгоритмов автоматического разрешения лексической неоднозначности значительно улучшилось. Подавляющее большинство передовых моделей созданы методом машинного обучения с учителем, для которого требуются значительные объемы размеченных текстовых данных. Получение семантически аннотированных данных дорогостоящий процесс, требующий немало времени и трудозатрат. В связи с этим достижения в области автоматического разрешения неоднозначности не могут быть применены для решения этой задачи в языках с недостаточным количеством размеченных лингвистических ресурсов, к которым относится и русский язык. Для решения данной проблемы разрабатываются различные методы для автоматического создания обучающих коллекций. В статье предлагается обзор подходов, сгруппированных по основополагающему принципу их работы и источнику знаний, который в них используется.

Ключевые слова: автоматическое разрешение лексической неоднозначности; автоматическое создание обучающей коллекции; языковые модели; однозначные родственники; параллельные корпуса; бутстрэппинг; алгоритм распространения меток

Для цитирования: Большина А.С. Методы автоматического формирования семантически размеченных корпусов // Вестн. Моск. ун-та. Сер. 9. Филология. 2022. № 2. С. 173-183.

ON THE METHODS OF AUTOMATIC CREATION OF SEMANTICALLY ANNOTATED COLLECTIONS

Angelina S. Bolshina

Lomonosov Moscow State University, Moscow, Russia, angelina_ku@mail.ru

Abstract: In recent years, with the development of deep pre-trained language models and various neural network architectures, the performance of word sense disambiguation (WSD) algorithms has improved significantly. The vast majority of state-of-the-art models are supervised, which means that they require significant

amounts of annotated text data for training. Obtaining semantically annotated data is a very expensive process that requires a lot of time and labor. In this regard, recent advances in WSD offer opportunities for considerably more efficient ways of resolving ambiguity, but that is applicable only to the high-resource languages. Knowledge acquisition bottleneck hinders the development of WSD systems for low-resource languages, including Russian. To address this issue, various methods are developed for automatic (or semi-automatic) creation of training collections. This article provides an overview of these approaches grouped by the main principle they are based on.

Key words: word sense disambiguation; automatic training collection generation; language models; monosemous relatives; parallel corpora; bootstrapping; label propagation algorithm

For citation: Bolshina A.S. (2022) On the methods of automatic creation of semantically annotated collections. Vestnik Moskovskogo Universiteta. Seriya 9. Philology, 2, pp. 173-183.

1. Введение. Неоднозначность — это неотъемлемое свойство естественных языков. Автоматическое разрешение лексической неоднозначности (Word Sense Disambiguation, WSD) является одним из этапов семантического анализа текстов, который используется в машинном переводе, извлечении информации, классификации текстов. Задача разрешения неоднозначности состоит в выборе корректного значения многозначного слова в определенном контексте.

Наилучшие результаты на различных наборах данных достигаются методом машинного обучения с учителем [Barba et al., 2021]. Однако подобная парадигма обучения требует большого количества размеченных обучающих данных, которые доступны лишь для небольшого числа языков. Отсутствие или недостаток аннотированных данных (knowledge acquisition bottleneck) сильно тормозит развитие и исследование систем разрешения неоднозначности для многих языков, а ручная разметка таких корпусов требует много времени и трудозатрат.

Проблема недостатка размеченных по значениям данных остро стоит и для русского языка, и одним из способов его преодоления является автоматическая разметка текстовых коллекций. В данной статье приведен обзор различных методов, направленных на решение этой проблемы. Все системы были условно разделены на группы, соответствующие основному принципу, который в них используется. Перед описанием подходов для генерации обучающих коллекций будут кратко описаны основные корпуса, размеченные вручную, которые чаще всего встречаются в работах исследователей в области WSD.

2. Корпуса, размеченные вручную. Семантически размеченные корпуса — это текстовые коллекции, в которых каждому многозначному слову приписана метка, отражающая его значение в конкретном контексте. Тексты, которые формируют корпус, могут быть взяты из различных источников: художественная литература, новостные и научные статьи, социальные сети и т. п. Для аннотирования корпусов используются заранее выбранные инвентари значений (системы обозначения значений слов), и чаще всего в качестве них применяются инвентари семантических сетей типа WordNet [Miller, 1995]. Базовым понятием таких сетей является синсет, представляющий собой синонимический ряд, в который входят слова со схожими значениями. Синсеты формируют узлы семантического графа и соединяются друг с другом такими отношениями, как ги-понимия, гиперонимия, меронимия и т. п. Рассмотрим пример аннотации предложения с помощью инвентаря значений из семантической сети для русского языка RuWordNet [Loukachevitch et al., 2016].

(1) Дом Бхутто в Лахоре оцеплен полицией.

2526-N — — - 115194-V 9828-N

Все примеры в корпусе автоматически разбиваются на отдельные слова, и те слова, что представлены в семантическом графе RuWord-Net, затем размечаются экспертами. В представленном предложении есть многозначное слово «дом», которое входит в 2 синсета в RuWordNet: 130946-N «домашний очаг» и 2526-N «здание». При его разметке учитывался контекст, в соответствии с которым была проставлена нужная метка значения. Все остальные слова в данном примере имеют только одно значение.

Как и во многих других областях обработки естественного языка, наибольший объем размеченных данных имеется для английского языка. Наиболее популярные корпуса — SemCor [Miller et al., 1994] и WNGT (Princeton WordNet Gloss Corpus)1, имеющие разметку для 38022 и 31396 уникальных неоднозначных слов, соответственно.

Регулярно проводятся технологические соревнования для сравнения качества работы моделей разрешения неоднозначности. Оценка алгоритмов осуществляется на одних и тех же размеченных данных, и на данный момент большинство существующих аннотированных наборов было создано в рамках соревнований SemEval (ранее Senseval). Тексты для таких коллекций берутся из разнообразных источников и содержат разметку для всех основных частей речи. В настоящий момент наиболее крупной платформой для оценки моделей разрешения неоднозначности считается проект XL-WSD

1 URL: https://wordnetcode.princeton.edu/glosstag.shtml

[Pasini et al., 2021], предоставляющий аннотированные по значениям тестовые и обучающие выборки для 18 языков.

Основными источниками размеченных обучающих и тестовых данных на русском языке являются наборы данных с технологического соревнования по разрешению лексической неоднозначности RUSSE-2018 [Panchenko et al., 2018]. Они были собраны из разных ресурсов (Википедия, Национальный корпус русского языка, Активный словарь русского языка) и отличаются инвентарем значений.

В проекте XL-WSD самый маленький размер обучающей выборки у японского языка. Суммарно она состоит из 23217 размеченных примеров для 581 многозначного слова. Для сравнения все обучающие выборки для русского языка из RUSSE-2018 содержат 12459 аннотированных примеров для 171 слова. Это еще раз подчеркивает актуальность решения проблемы нехватки аннотированных данных в русском языке.

3. Методы автоматизации построения обучающих коллекций. Для преодоления ограничений, вызванных недостатком аннотированных данных, разрабатываются автоматические методы сбора обучающих коллекций. Среди них выделяются подходы, базирующиеся на однозначных родственных словах, параллельных корпусах, базах знаний, алгоритме распространения меток и бутстрэппинге.

3.1. Метод однозначных родственных слов. Методы, использующие информацию об однозначных родственных словах, основаны на заменах. В качестве базы знаний и источника таких «родственников» часто используется тезаурус WordNet. Однозначные родственные слова — это слова или словосочетания, связанные с целевым многозначным словом каким-либо отношением в графе WordNet и имеющие только одно значение, т. е. принадлежащие одному синсету. Сначала однозначные «родственники» отбираются с помощью того или иного метода, затем из корпуса извлекаются контексты, в которых они встречаются. В этих текстах они заменяются на целевые многозначные слова, а тексты добавляются в обучающую коллекцию. В большинстве работ в качестве однозначных «родственников» берутся синонимы, но иногда помимо них включают гипонимы и гиперонимы [Przybyla, 2017] или меронимы и холонимы [Seo et al., 2004].

В подходе [Martinez et al., 2006] в обучающий корпус включаются только те примеры из Интернета, которые имеют высокую степень близости с контекстами употребления однозначных «родственников» на основании заданных метрик. При ранжировании извлеченных из интернета примеров учитываются такие признаки, как количество слов в исходном запросе, тип отношения, связывающего однозначное родственное слово и многозначное слово, расстояние

от «родственника» до многозначного слова и количество найденных страниц по запросу. Метод, разработанный [Bolshina and Loukachev-itch, 2020], использует однозначных кандидатов, соединенных с целевым значением многозначного слова не более чем 4 ребрами в сети RuWordNet. Для ранжирования однозначных родственных слов в данном исследовании рассчитывается коэффициент схожести однозначного «родственника» и всех слов из близко расположенных синсетов, связанных с целевым значением максимум 2 ребрами в семантическом графе.

3.2. Параллельные корпуса. Параллельные корпуса являются полезным источником, с помощью которого можно автоматически создавать семантически размеченные обучающие коллекции, в том числе для нескольких языков сразу.

В основе метода для создания корпуса OMSTI [Taghipour and Ng, 2015] лежит гипотеза о том, что разным значениями многозначного слова в английском будут соответствовать разные слова на китайском языке. Сначала каждому значению многозначного слова на английском языке присваивается перевод на китайский язык, а затем из параллельного корпуса извлекаются предложения со словами на китайском, которые были соотнесены с каким-либо из значений из инвентаря значений английского языка. Соответствующие им предложения на английском размечаются и добавляются в обучающую коллекцию. В качестве параллельного корпуса для создания этой коллекции используется англо-китайская часть корпуса MultiUN [Eisele and Chen, 2010], состоящего из протоколов заседаний ООН.

Авторы статьи [Otegi et al., 2016] описывают методику сбора обучающих коллекций с разметкой значений для 6 языков на основе параллельных корпусов Europarl [Koehn, 2005] и QTLeap [Agirre et al., 2015], содержащие протоколы заседаний Европейского парламента и инструкции по устранению неполадок в программном и аппаратном обеспечении, соответственно. Для предсказания значений для каждого языка в данной работе используется своя модель разрешения неоднозначности. В исследовании [Delli Bovi et al., 2017] за основу берется корпус Europarl и мультиязычный алгоритм снятия многозначности Babelfy [Moro et al., 2014], базирующийся на векторных представлениях сущностей NASARI [Camacho-Collados et al., 2016].

В работе [Hauer, 2021] представлены три различных способа создания обучающих корпусов. Подход LABELPROP основан на алгоритме обучения с частичным привлечением учителя (semi-supervised learning) и на уже существующих корпусах с семантической разметкой. В рамках метода LABELSYNC обе части параллельного корпуса аннотируются с помощью системы разрешения неоднознач-

ности, основанной на базе знаний. Подход LABELGEN отличается от предыдущего тем, что в нем одна часть параллельного корпуса должна быть на английском языке. За счет большего объема размеченных данных качество предсказаний значений многозначных слов для английского языка выше, чем для других языков. После автоматической разметки английской части корпуса поставленные метки проецируются на вторую часть параллельного корпуса.

3.3. Бутстрэппинг, алгоритм распространения меток. Алгоритм бутстрэппинга (bootstrapping) [Pham et al., 2005] состоит из следующих шагов: сначала классификатор обучается на небольшом объеме размеченных данных, затем с помощью уже обученного классификатора размечаются неаннотированные примеры. Далее он обучается на уже расширенной размеченной выборке, и процедура итеративно повторяется до тех пор, пока не будет размечена вся выборка. В исследовании [Khapra et al., 2011] бутстрэппинг применяется для построения обучающих корпусов сразу для двух языков, в которых наблюдается недостаток размеченных данных.

Текстовые данные для задачи разрешения неоднозначности можно представлять в виде графа. В узлах такого графа содержатся аннотированные примеры из корпуса. Ребра, соединяющие узлы, имеют вес, определенный выбранной метрикой: например, если в качестве метрики используется косинусная мера близости двух слов, то вес ребра будет больше для слов, схожих по своему значению. Идея алгоритма распространения меток (label propagation) состоит в предсказании метки неразмеченного примера в графе, исходя из информации о классах, содержащихся в окружающих его узлах, и весах, приписанных им. Мультиязычный алгоритм MuLaN [Barba et al., 2020] использует контекстно-зависимые векторные представления слов из мультиязычной языковой модели mBERT [Devlin et al., 2019], информацию из баз знаний и проекцию смысловых меток с размеченных данных для языка, в котором они имеются в достаточном количестве, на язык, для которого аннотированные данные отсутствуют.

3.4. Методы, использующие базы знаний. Иногда для автоматического построения обучающей коллекции используются семантические сети. В работе [Pasini and Navigli, 2017] описан метод Train-O-Matic, который в качестве входных данных принимает неразмеченный корпус и мультиязычный семантический граф BabelNet [Navigli and Ponzetto, 2012].

Википедия и Викисловари также применяются для автоматического создания корпусов с семантической разметкой. Метод, описанный в [Henrich et al., 2012], использует соответствие семантической сети GermaNet немецкой версии Викисловаря. Метод SEW

[Raganato et al., 2016] вычисляет эвристики с помощью семантического графа BabelNet, связей между страницами Википедии и их категориями.

Мультиязычный метод OneSeC [Scarlini et al., 2019] основывается на предположении «одно значение для одной категории Википедии», подразумевающем, что все употребления неоднозначного слова в рамках страниц Википедии, принадлежащих одной и той же категории, имеют одно и то же значение. Чтобы приписать значение многозначному слову, вычисляется взвешенное пересечение между всеми словами, относящимися к определенной категории Википе-дии, и каждым NASARI-вектором для значения многозначного слова.

3.5. Результаты, достигаемые на автоматически порождаемых наборах данных. Модели снятия многозначности, обученные на комбинации данных, аннотированных экспертами и автоматическими методами, могут показывать качество, сравнимое с моделями, обученными только на вручную размеченных текстах, а также могут и превосходить их. Данные единой системы оценки моделей [Raganato et al., 2017] показывают, что обучение модели IMS [Zhong and Ng, 2010] на комбинации корпусов SemCor и OMSTI позволяет улучшить качество разрешения неоднозначности на наборе данных Senseval-2 [Edmonds and Cotton, 2001]. Системы, использующие только автоматически размеченные данные, могут достигать результатов, сопоставимых с теми, что были получены при обучении на данных, аннотированных экспертами, а также могут иметь более высокие оценки качества. Модель IMS, обученная на корпусе Train-O-Matic, на наборе Senseval-2 имеет значение метрики F1 всего лишь на 0.4% ниже, чем у модели, при обучении которой использовался корпус SemCor. Модель IMS, обученная на корпусе SEW, достигает более высокого значения F1 на англоязычной части набора данных SemEval-2013 task 12 [Navigli et al., 2013], чем та же самая модель, для обучения которой применялся корпус SemCor.

Заключение. В данной статье был приведен обзор автоматических методов, направленных на преодоление проблемы нехватки размеченных данных. Все продемонстрированные подходы в основном опираются на разнообразные источники знаний: семантические сети, вручную размеченные корпуса, Википедию и т. д. Однако все ресурсы отличаются по степени доступности и сфере применимости.

Автоматически аннотированные коллекции могут выступать и как дополнение к уже имеющимся данным, размеченным экспертами, и как самостоятельный источник обучающих данных для решения задачи разрешения лексической многозначности.

СПИСОК ЛИТЕРАТУРЫ

1. Agirre E., Branco A., Popel M., Simov K. Europarl QTLeap WSD/NED Corpus // LINDAT/CLARIN Digital Library at UFAL, Charles University in Prague. 2015.

2. Barba E., Procopio L., Campolungo N., Pasini T., Navigli R. MuLaN: Multilingual Label propagatioN for word sense disambiguation // Proceedings of IJCAI. 2020. P. 3837-3844.

3. Barba E., Pasini T., Navigli T. ESC: Redesigning WSD with extractive sense comprehension // Proceedings of NAACL. 2021

4. Bolshina A., Loukachevitch N. Generating training data for word sense disambiguation in Russian // Proceedings of Conference on Computational Linguistics and Intellectual Technologies Dialog-2020. 2020. P. 119-132.

5. Camacho-Collados J., PilehvarM.T., NavigliR. Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities // Artificial Intelligence. 240, 2016. P. 36-64.

6. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT 2019. 2019.

7. Delli Bovi C., Camacho-Collados J., Raganato A., Navigli R. Eurosense: Automatic harvesting of multilingual sense annotations from parallel text // Proceedings of the 55th Annual Meeting of ACL. Volume 2: Short Papers. 2017. P. 594-600.

8. Edmonds P., Cotton S. SENSEVAL-2: Overview // Proceedings of SENSEVAL-2 2nd International Workshop on Evaluating WSD Systems. 2001. P. 1- 5.

9. EiseleA., Chen Y. MultiUN: A Multilingual Corpus from United Nation Documents // LREC. 2010.

10. HauerB., Kondrak G., Luan Y., Mallik A., Mou L. Semi-Supervised and Unsupervised Sense Annotation via Translations // arXiv preprint arXiv:2106.06462. 2021.

11. Henrich V., Hinrichs E., Vodolazova T. WebCAGe-A Web-harvested corpus annotated with GermaNet senses // Proceedings of the 13th Conference of the European Chapter of ACL. 2012. P. 387-396.

12. Khapra M.M., Joshi S., Chatterjee A., Bhattacharyya P. Together we can: Bilingual bootstrapping for WSD // Proceedings of the 49th Annual Meeting of ACL-HLT. 2011. P. 561-569.

13. Koehn P. Europarl: A parallel corpus for statistical machine translation // MT summit. 2005. 5. P. 79-86.

14. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. Creating Russian WordNet by Conversion // Proceedings of Conference on Computational linguistics and Intellectual technologies Dialog-2016. 2016. P. 405—415.65.

15. Martinez D., Agirre E., Wang X. Word relatives in context for word sense disambiguation // Proceedings ofthe Australasian Language Technology Workshop 2006. 2006. P. 42-50.

16. Miller G.A. WordNet: a lexical database for English // Communications of the ACM, 38. 1995. P. 39-41.

17. Miller G.A., Chodorow M., Landes S., Leacock C., Thomas R.G. Using a semantic concordance for sense identification // Human Language Technology: Proceedings of a Workshop held at Plainsboro. 1994.

18. Moro A., Raganato A., Navigli R. Entity linking meets word sense disambiguation: a unified approach // Transactions of ACL, 2. 2014. P. 231-244.

19. Navigli R., Ponzetto S.P. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network // Artificial intelligence, 193. 2012. P. 217-250.

20. Navigli R., Jurgens D., Vannella D. SemEval-2013 Task 12: Multilingual Word Sense Disambiguation // Proceedings of the 7th International Workshop on SemEval 2013. 2013. P. 222-231.

21. Otegi A., Aranberri N., Branco A., Hajic J., Popel M. et al. Qtleap wsd/ned corpora: Semantic annotation ofparallel corpora in six languages // Proceedings of LREC'16. 2016. P. 3023-3030.

22. Panchenko A. et al. RUSSE'2018: A Shared Task on Word Sense Induction for the Russian Language // Proceedings of Conference on Computational linguistics and Intellectual technologies Dialog-2018. 2018. P. 547-564.

23. Pasini T., Navigli R. Train-o-Matic: Large-scale supervised word sense disambiguation in multiple languages without manual training data // Proceedings of EMN-LP-2017. 2017. P. 78-88.

24. Pasini T., Raganato A., Navigli R. XL-WSD: An Extra-Large and Cross-Lingual Evaluation Framework for Word Sense Disambiguation // Proceedings of AAAI. 2021.

25. Pham T.P., Ng H.T., Lee WS. Word sense disambiguation with semi-supervised learning // Proceedings of the National Conference on Artificial Intelligence, 20. 2005. P. 1093.

26. Przybyta P. How big is big enough? Unsupervised word sense disambiguation using a very large corpus // arXiv preprint arXiv:1710.07960. 2017.

27. Raganato A., Delli Bovi C., Navigli R. Automatic Construction and Evaluation of a Large Semantically Enriched Wikipedia // IJCAI. 2016. P. 2894-2900.

28. Raganato A., Camacho-Collados J., Navigli R. Word sense disambiguation: A unified evaluation framework and empirical comparison // Proceedings of the 15th Conference of the European Chapter of ACL: Volume 1, Long Papers. 2017. P. 99-110.

29. Scarlini B., Pasini T., Navigli R. Just "OneSeC" for producing multilingual sense-annotated data // Proceedings of the 57th Annual Meeting of ACL. 2019. P. 699-709.

30. Seo H.-C., Chung H., Rim H.-C., Myaeng S.H., Kim S.-H. Unsupervised word sense disambiguation using WordNet relatives // Computer Speech & Language, 18. 2004. P. 253-273.

31. Taghipour K., Ng H.T. One million sense-tagged instances for word sense disambiguation and induction // Proceedings of CoNLL-2015. 2015. P. 338-344.

32. Zhong Z., Ng H.T. It makes sense: A wide-coverage word sense disambiguation system for free text // Proceedings of the ACL 2010 system demonstrations. 2010. P. 78-83.

REFERENCES

1. Agirre E., Branco A., Popel M., Simov K. Europarl QTLeap WSD/NED Corpus. LINDAT/CLARIN Digital Library at UFAL, Charles University in Prague, 2015.

2. Barba E., Procopio L., Campolungo N., Pasini T., Navigli R. MuLaN: Multilingual Label propagatioN for word sense disambiguation. Proceedings of IJCAI, 2020, pp. 3837-3844.

3. Barba E., Pasini T., Navigli T. ESC: Redesigning WSD with extractive sense comprehension. Proceedings of NAACL. 2021

4. Bolshina A., Loukachevitch N. Generating training data for word sense disambiguation in Russian. Proceedings of Conference on Computational Linguistics and Intellectual Technologies Dialog-2020, 2020, pp. 119-132.

5. Camacho-Collados J., Pilehvar M.T., Navigli R. Nasari: Integrating explicit knowledge and corpus statistics for a multilingual representation of concepts and entities. Artificial Intelligence, 2016, 240, pp. 36-64.

6. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT2019, 2019.

7. Delli Bovi C., Camacho-Collados J., Raganato A., Navigli R. Eurosense: Automatic harvesting of multilingual sense annotations from parallel text. Proceedings of the 55th Annual Meeting of ACL, Volume 2: Short Papers, 2017, pp. 594-600.

8. Edmonds P., Cotton S. SENSEVAL-2: Overview. Proceedings of SENSEVAL-2 2nd International Workshop on Evaluating WSD Systems, 2001, pp. 1-5.

9. Eisele A., Chen Y. MultiUN: A Multilingual Corpus from United Nation Documents. LREC, 2010.

10. Hauer B., Kondrak G., Luan Y., Mallik A., Mou L. Semi-Supervised and Unsupervised Sense Annotation via Translations. arXivpreprint arXiv:2106.06462, 2021.

11. Henrich V., Hinrichs E., Vodolazova T. WebCAGe-A Web-harvested corpus annotated with GermaNet senses. Proceedings of the 13th Conference of the European Chapter of ACL, 2012, pp. 387-396.

12. Khapra M.M., Joshi S., Chatterjee A., Bhattacharyya P. Together we can: Bilingual bootstrapping for WSD. Proceedings of the 49th Annual Meeting of ACL-HLT, 2011, pp. 561-569.

13. Koehn P. Europarl: A parallel corpus for statistical machine translation. MTsummit,

2005, 5, pp. 79-86.

14. Loukachevitch N.V., Lashevich G., Gerasimova A.A., Ivanov V.V., Dobrov B.V. Creating Russian WordNet by Conversion. Proceedings of Conference on Computational linguistics and Intellectual technologies Dialog-2016, 2016, pp. 405-415.

15. Martinez D., Agirre E., Wang X. Word relatives in context for word sense disambiguation. Proceedings of the Australasian Language Technology Workshop 2006,

2006, pp. 42-50.

16. Miller G.A. WordNet: a lexical database for English. Communications of the ACM, 38, 1995, pp. 39-41.

17. Miller G.A., Chodorow M., Landes S., Leacock C., Thomas R.G. Using a semantic concordance for sense identification. Human Language Technology: Proceedings of a Workshop held at Plainsboro, 1994.

18. Moro A., Raganato A., Navigli R. Entity linking meets word sense disambiguation: a unified approach. Transactions of ACL, 2014, 2, pp. 231-244.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. Navigli R., Ponzetto S.P. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial intelligence,

2012, 193, pp. 217-250.

20. Navigli R., Jurgens D., Vannella D. SemEval-2013 Task 12: Multilingual Word Sense Disambiguation. Proceedings of the 7th International Workshop on SemEval 2013,

2013, pp. 222-231.

21. Otegi A., Aranberri N., Branco A., Hajic J., Popel M. et al. Qtleap wsd/ned corpora: Semantic annotation of parallel corpora in six languages. Proceedings of LREC'16, 2016, pp. 3023-3030.

22. Panchenko A. et al. RUSSE'2018: A Shared Task on Word Sense Induction for the Russian Language. Proceedings of Conference on Computational linguistics and Intellectual technologies Dialog-2018, 2018, pp. 547-564.

23. Pasini T., Navigli R. Train-o-Matic: Large-scale supervised word sense disambiguation in multiple languages without manual training data. Proceedings of EMN-LP-2017, 2017, pp. 78-88.

24. Pasini T., Raganato A., Navigli R. XL-WSD: An Extra-Large and Cross-Lingual Evaluation Framework for Word Sense Disambiguation. Proceedings of AAAI, 2021.

25. Pham T.P., Ng H.T., Lee W.S. Word sense disambiguation with semi-supervised learning. Proceedings of the National Conference on Artificial Intelligence, 2005, 20, pp. 1093.

26. Przybyla P. How big is big enough? Unsupervised word sense disambiguation using a very large corpus. arXivpreprint arXiv:1710.07960, 2017.

27. Raganato A., Delli Bovi C., Navigli R. Automatic Construction and Evaluation of a Large Semantically Enriched Wikipedia. IJCAI, 2016, pp. 2894-2900.

28. Raganato A., Camacho-Collados J., Navigli R. Word sense disambiguation: A unified evaluation framework and empirical comparison. Proceedings of the 15th Conference of the European Chapter of ACL: Volume 1, Long Papers, 2017, pp. 99-110.

29. Scarlini B., Pasini T., Navigli R. Just "OneSeC" for producing multilingual sense-annotated data. Proceedings of ACL, 2019, pp. 699-709.

30. Seo H.-C., Chung H., Rim H.-C., Myaeng S.H., Kim S.-H. Unsupervised word sense disambiguation using WordNet relatives. Computer Speech & Language, 2004, 18, pp. 253-273.

31. Taghipour K., Ng H.T. One million sense-tagged instances for word sense disambiguation and induction. Proceedings of CoNLL-2015, 2015, pp. 338-344.

32. Zhong Z., Ng H.T. It makes sense: A wide-coverage word sense disambiguation system for free text. Proceedings of the ACL 2010 system demonstrations, 2010, pp. 78—83.

Поступила в редакцию 09.12.2021 Принята к публикации 15.02.2022 Отредактирована 20.03.2022

Received 09.12.2021 Accepted 15.02.2022 Revised 20.03.2022

ОБ АВТОРЕ

Большина Ангелина Сергеевна — аспирант кафедры теоретической и прикладной лингвистики филологического факультета МГУ имени М.В. Ломоносова, angelina_ku@mail.ru

ABOUT THE AUTHOR

Angelina Bolshina — Lomonosov Moscow State University PhD student (in Philology), Department of Theoretical and Computational Linguistics, angelina_ku@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.