Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 166-170.
Transactions of the Ко1а Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 166-170.
Тезисы УДК 004.853
DOI: 10.37614/2307-5252.2021.5.12.016
ТЕХНОЛОГИЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ ДЛЯ ПОПОЛНЕНИЯ ОНТОЛОГИИ
Павел Андреевич Ломов Марина Леонидовна Малоземова 2
12 Институт информатики и математического моделирования ФИЦ КНЦ РАН, Апатиты, Россия
1 lomov@iimm.ruB, https://orcid.org/0000-0002-0924-0188 2malozemova@iimm.ru, https://orcid.org/0000-0002-4358-2683
Аннотация
В работе рассмотрена одна из подзадач обучения онтологий - задача пополнения онтологии, которая предполагает включение в существующую онтологию новых экземпляров без изменения структуры ее классов и отношений. Представлен краткий обзор существующих подходов к обучению онтологий. Предложена высокоавтоматизированная технология пополнения онтологии с помощью обучения и дальнейшего использования нейросетевой языковой модели для выявления потенциальных экземпляров классов онтологии из текстов предметной области. Рассматриваются основные этапы ее применения, результаты ее экспериментальной оценки и основные направления ее дальнейшего совершенствования. Ключевые слова:
нейронная сеть, пополнение онтологий, обучений онтологий Финансирование
Работа выполнена при поддержке Российского фонда фундаментальных исследований, проект № 20-07-00754 А.
Для цитирования: Ломов П. А., Малоземова М. Л. Технология обучения нейросетевой модели для пополнения онтологии // Труды Кольского научного центра РАН. Информационные технологии. Вып. 12. 2021. Т. 12, № 5. С. 166-170. http://dx/doi.org/10.37614/2307-5252.2021.5.12.016.
Theses
TECHNOLOGY OF TRAINING A NEURAL-NETWORK MODEL FOR ONTOLOGY POPULATION
Pavel A.LomovMarina L.Malozemova 2
12 Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences, Apatity, Russia 1lomov@iimm.ruB, https://orcid.org/0000-0002-0924-0188 2malozemova@iimm.ru, https://orcid. org/0000-0002-4358-2683
Abstract
The paper considers one of the subtasks of ontology learning - the ontology population, which implies the extension of existing ontology by new instances without changing the structure of its classes and relations. A brief overview of existing ontology learning approaches is presented. A highly automated technology for ontology population based on training and application of the neural-network language model to identify and extract potential instances of ontology classes from domain texts is proposed. The main stages of its application, as well as the results of its experimental evaluation and the main directions of its further improvement are considered.
Keywords:
neural network, ontology population, ontology learning
Funding
The study was funded by RFBR, project number 20-07-00754 A.
For citation: Lomov P. A., Malozemova M. L. Technology of training a neural-network model for ontology population // Transactions of the Kola Science Centre. Information technologies. Series 12. 2021. Vol. 12, no. 5. P. 166-170. http://dx/doi.org/10.37614/2307-5252.2021.5.12.016.
На сегодняшний день применение онтологий в той или иной форме для представления знаний предметной области в рамках информационных систем стало распространенной практикой. Онтология - это формальная, явная спецификация общей концептуализации [1,2]. Однако разработка онтологий является сложной проблемой, требующей привлечения экспертов предметной области, а также специалистов по онтологическому моделированию. По этой причине предпринимаются попытки автоматизации ее различных аспектов для снижения затрат труда и времени с получением в результате качественной онтологии, отражающей в необходимой степени знания предметной области. Решение данных проблем рассматривается в рамках задачи обучения онтологий (ontology learning), которую можно рассматривать как реконструирование из текста модели предметной области, изначально сформированной в сознании эксперта - автора текста [3,4]. Как правило, обучение онтологии предполагает анализ и извлечение из текстов терминов предметной области, их последующую группировку для определения классов онтологии и отношений между ними. Подходы к обучению онтологий отличаются техниками, которые применяются на разных этапах анализа текстов и формирования онтологии. Среди данных техник можно выделить: тегирование частей речи (part-of-speech tagging), синтаксический разбор и лемматизация, извлечение терминов с помощью фреймов субкатегоризации (subcategorization frames) и "посева" слов (seed words) [5], сравнительного анализа [6], анализа смежности (co-occurrence analysis), латентно-семантического анализа (LSA) и кластеризации [7], формирование структуры онтологии путем анализа зависимостей (dependency analysis), категоризации терминов (term subsumption), анализа формальных понятий (formai concept analysis, FCA), иерархической кластеризации (агломеративной [8] разделяющей [9]) и анализа ассоциативных правил (association rule mining).
Предлагаемая в данной работе технология ориентирована на решение одной из подзадач обучения онтологий, а именно пополнение онтологии экземплярами классов, предполагает использование существующих в онтологии понятий для обнаружения в текстах предметной области семантически близких к ним новых понятий. Близость в данном случае следует из употребления понятий в сходных контекстах, которые представляются похожими по структуре предложениями текста.
Для выявления таких предложений, содержащих понятия предметной области, выполняется анализ текстов с помощью языковой модели, основанной на нейронной сети, изначально ориентированной на решении задачи распознавания именованных сущностей (Named Entity Recognition, NER). Данная задача состоит в выделении и классификации именованных сущностей в тексте. В предлагаемой технологии роль распознаваемой сущности играет
потенциальный экземпляр некоторого класса онтологии. Последний, в свою очередь, рассматривается в качестве назначаемой категории.
Ключевым компонентом технологии является процедура обучения языковой модели на основе обучающей выборки, которая автоматически формируется путем поиска в наборе текстов предметной области предложений, содержащих отдельные лексемы и именные группы, соответствующие экземплярам исходной онтологии. Предполагается, что множество найденных предложений представляет контексты, которые в иных текстах могут содержать новые термины, сходные по смыслу с исходными.
Далее на сформированной выборке обучается языковая модель из распространенной РуЬоп-библиотеки для анализа естественно-языковых текстов spaCy. Впоследствии с помощью обученной модели анализируются тексты предметной области с представлением эксперту обнаруженных понятий, которые выступают кандидатами на включение в онтологию в качестве экземпляров классов. Общая схема применения технологии представлена на рис. 1
Рис. 1. Схема применения технологии пополнения онтологии
Эффективность предложенной технологии оценивалась в рамках эксперимента по обучению языковой модели и ее последующего использования для пополнения онтологии хозяйственной деятельности в Арктике [10]. Для обучения модели было собрано и проанализировано около 400 текстов арктической тематики, которые потенциально могли содержать понятия, представленные в онтологии в виде экземпляров. В результате был сформирован набор, содержащий около 360 000 примеров.
Проверка качества обученной модели производилась на сформированном вручную тестовом наборе аналогичной структуры. Для сравнения оценивалась также и мультиязычная (multi-language) модель из библиотеки spaCy, ориентированная на извлечение имен людей, названий локаций и организаций из новостных текстов. Были получены следующие результаты:
Эксперимент 1. Обнаружение моделями понятий тестового набора:
• мультиязычная модель spaCy: точность = 0.13, полнота = 0.03;
• обученная модель: точность = 0.95, полнота = 0.35.
Эксперимент 2. Обнаружения моделями понятий тестового набора, не представленных в онтологии:
• мультиязычная модель spaCy: точность = 0.013, полнота = 0.012;
• обученная модель: точность = 0.25, полнота = 0.006.
Результаты первого эксперимента говорят о наличии некоторого положительного эффекта обучения. Модель научилась распознавать в текстах некоторые контексты употребления понятий, характерных для предметной области. Однако этого недостаточно для обнаружения новых понятий, что показывают результаты второго эксперимента. Это также может быть вызвано тем, что исходная гипотеза о том, что имена экземпляров одного класса онтологии будут встречаться в одинаковых контекстах, подтверждается в большей степени для классов, потенциально имеющих большое разнообразие экземпляров в анализируемых текстах. Например, классы "Организация" или "Персона" потенциально могут иметь большое количество экземпляров в новостных текстах общей тематики. В контексте данного исследования это означает, что необходимо не только увеличить объем корпуса анализируемых текстов, но и обеспечить их более точный поиск и/или дополнительную фильтрацию по принадлежности к тематике онтологии. С другой стороны, причиной малых результатов поиска новых понятий может быть небольшое количество экземпляров у классов, что также не позволяет сформировать для обучения модели достаточное разнообразие контекстов для обнаружения новых понятий. Исходя из полученных результатов, в рамках дальнейшего исследования следует обеспечить увеличение объема обучающего набора и повысить разнообразие входящих в него примеров.
Предложенная технология может применяться при повторном использовании онтологий для их актуализации и/или приведения их содержания в соответствие с задачами использующих их информационных систем. Высокая автоматизации технологии позволяет при этом снизить трудозатраты экспертов предметной области, обеспечивающих поддержку онтологий, и тем самым удешевить разработку и эксплуатацию информационных систем на основе онтологий.
Список литературы
1. Studer R., Benjamins V. R., Fensel D. Knowledge engineering: principles and methods. Data Knowl Eng 25(1-2):161-197 // Data Knowl. Eng. 1998 Т. 25 С. 161197.
2. Gruber T. R. A translation approach to portable ontology specifications // Knowl. Acquis. 1993 Т. 5 № 2 С. 199-220.
3. Somodevilla M., Ayala D., Pineda I. An overview on ontology learning tasks // Comput. Sist. 2018 Т. 22.
4. Chen J. и др. Smart data integration by goal driven ontology learning. 2017 С. 283292.
5. Hwang C. Incompletely and Imprecisely Speaking: Using Dynamic Ontologies for Representing and Retrieving Information // 1999.
6. Navigli R., Velardi P. Semantic interpretation of terminological strings // 2002.
7. Berkhin P. Survey Of Clustering Data Mining Techniques // Surv. Clust. Data Min. Tech. Group. Multidimens. Data Recent Adv. Clust. 2002. Т. 10.
8. Zepeda-Mendoza M. L., Resendis-Antonio O. Hierarchical Agglomerative Clustering // Encyclopedia of Systems Biology / под ред. W. Dubitzky и др. New York, NY: Springer, 2013 С. 886-887.
9. Dhillon I. S., Mallela S., Kumar R. A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification // J Mach Learn Res. 2003.
10.Lomov P. Ontology of integrated knowledge space [Электронный ресурс]. URL:https://github.com/palandlom/ontology-of-integrated-knowledge-space/blob/master/src/poltes.owl.
References
1. Studer R., Benjamins V.R., Fensel D. Knowledge engineering: principles and methods. Data Knowl. Eng, 1998 Vol. 25, pp. 161-197.
2. Gruber T. R. A translation approach to portable ontology specifications. Knowl. Acquis. 1993, Vol. 5, No 2, pp. 199-220.
3. Somodevilla M., Ayala D., Pineda I. An overview on ontology learning tasks. Comput. Sist. 2018, Vol. 22.
4. Chen J. et al. Smart data integration by goal driven ontology learning, 2017, pp. 283292.
5. Hwang C. Incompletely and Imprecisely Speaking: Using Dynamic Ontologies for Representing and Retrieving Information. 1999.
6. Navigli R., Velardi P. Semantic interpretation of terminological strings. 2002.
7. Berkhin P. Survey Of Clustering Data Mining Techniques. Surv. Clust. Data Min. Tech. Group. Multidimens. Data Recent Adv. Clust. 2002, Vol. 10.
8. Zepeda-Mendoza M. L., Resendis-Antonio O. Hierarchical Agglomerative Clustering. Encyclopedia of Systems Biology. New York, NY: Springer, 2013 pp. 886-887.
9. Dhillon I. S., Mallela S., Kumar R. A Divisive Information-Theoretic Feature Clustering Algorithm for Text Classification. J Mach Learn Res. 2003.
10.Lomov P. Ontology of integrated knowledge space. Available at: https://github.com/palandlom/ontology-of-integrated-knowledge-space/blob/master/src/poltes.owl.
Сведения об авторах
П. А. Ломов — кандидат технических наук, старший научный сотрудник ИИММ КНЦ РАН; М. Л. Малоземова — инженер-исследователь ИИММ КНЦ РАН.
Information about the authors
P. A. Lomov — Candidate of Science (Tech.), Senior Research Fellow of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences;
M. L. Malozemova — research engineer of the Institute for Informatics and Mathematical Modeling Kola Science Centre of the Russian Academy of Sciences.
Статья поступила в редакцию 15.11.2021; одобрена после рецензирования 20.11.2021; принята к публикации 08.12.2021.
The article was submitted 15.11.2021; approved after reviewing 20.11.2021; accepted for publication 08.12.2021.