Научная статья на тему 'КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКИ ПРЕДМЕТНОЙ ОБЛАСТИ'

КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКИ ПРЕДМЕТНОЙ ОБЛАСТИ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
130
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНЦЕПТУАЛЬНАЯ МОДЕЛЬ / ЛЕКСИКА / РУССКИЙ ЯЗЫК / ПРЕДМЕТНАЯ ОБЛАСТЬ / ОНТОЛОГИЯ ПРЕДМЕТНОЙ ОБЛАСТИ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Шереметьева Светлана Олеговна, Неручева Екатерина Дмитриевна

В статье описано исследование, в рамках которого разработана методология концептуального моделирования лексики предметной области и осуществлена ее реализация на материале предметной области русскоязычных научных статей по интегративному исследованию физиологии спортсменов (ПО ИИФС). Методология исследования основана на корпусных данных и включает в себя несколько взаимосвязанных шагов от анализа языкового материала к формальному представлению результатов, сочетая автоматизированные и выполняемые вручную этапы работы. Автоматизированные средства обработки естественного языка, использованные при построении концептуальной модели лексики ПО, разработаны авторами настоящей статьи. Основными элементами построенной модели являются онтология предметной области, онто-лексикон, который представляет собой класс контентно-релевантных лексических единиц корпуса текстов ПО, значения которых соотнесены с одним или несколькими концептами онтологии предметной области и концептуально-статистические характеристики лексики ПО. Вычисление и репрезентация концептуально-статистических характеристик лексики ПО выполнены на основе концептуально-аннотированного корпуса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Шереметьева Светлана Олеговна, Неручева Екатерина Дмитриевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONCEPTUAL MODELING OF DOMAIN LEXICA

The article describes a study in which a methodology for conceptual modeling of the domain lexica was developed and was applied to the domain of the Russian-language scientific articles on the integrative study of the physiology of athletes (ISPhA). The research methodology is corpus data-driven and includes several interrelated steps from the analysis of linguistic material to the formal presentation of its results based on automated and manual corpus processing. Automated natural language processing tools used to build the suggested conceptual model of the domain lexica were developed by the authors of this article. The main elements of the model are i) the domain ontology, ii) onto-lexicon, that includes content-relevant lexical units of the domain corpus, the meaning of which are associated to one or more concepts of the domain ontology, and iii) the conceptual and statistical characteristics of the domain content-relevant lexica. The calculation and representation of the conceptual and statistical characteristics of the domain lexica are based on the conceptually annotated corpus.

Текст научной работы на тему «КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКИ ПРЕДМЕТНОЙ ОБЛАСТИ»

УДК 81'33 + 612

DOI: 10.14529^^230109

КОНЦЕПТУАЛЬНОЕ МОДЕЛИРОВАНИЕ ЛЕКСИКИ ПРЕДМЕТНОЙ ОБЛАСТИ

С.О. Шереметьева, Е.Д. Неручева

Южно-Уральский государственный университет, г. Челябинск, Россия

В статье описано исследование, в рамках которого разработана методология концептуального моделирования лексики предметной области и осуществлена ее реализация на материале предметной области русскоязычных научных статей по интегративному исследованию физиологии спортсменов (ПО ИИФС). Методология исследования основана на корпусных данных и включает в себя несколько взаимосвязанных шагов от анализа языкового материала к формальному представлению результатов, сочетая автоматизированные и выполняемые вручную этапы работы. Автоматизированные средства обработки естественного языка, использованные при построении концептуальной модели лексики ПО, разработаны авторами настоящей статьи. Основными элементами построенной модели являются онтология предметной области, онто-лексикон, который представляет собой класс контентно-релевантных лексических единиц корпуса текстов ПО, значения которых соотнесены с одним или несколькими концептами онтологии предметной области и концептуально-статистические характеристики лексики ПО. Вычисление и репрезентация концептуально-статистических характеристик лексики ПО выполнены на основе концептуально-аннотированного корпуса.

Ключевые слова: концептуальная модель, лексика, русский язык, предметная область, онтология предметной области

Введение

Вопросы концептуального моделирования находятся в центре внимания исследований и разработок в областях теоретической и прикладной лингвистики, лексикографии, когнитологии и технологий обработки информации [1-3, 5-7, 9]. Разработка концептуальных моделей, как правило, ориентирована на решение различных информационных задач в рамках конкретной профессиональной деятельности, предметной области (ПО), фиксируемой специализированными подсистемами общеупотребительного языка. При этом концептуальная модель понимается как определенное множество понятий и связей между ними, отражающих смысловую структуру рассматриваемой предметной области или ее конкретного объекта. Именно с ориентацией на предметные области разрабатываются многочисленные методы концептуального моделирования [3, 6], в которых понятия «концептуальная структура» и «концептуальная модель» предметной области в общем случае употребляются в качестве синонимов и, как правило, подразумевают определенный уровень формализации при описании объектов, обозначаемых лексикой ПО, и отношений между ними.

Отметим, что разработка концептуальной структуры (или концептуальной модели) ПО имеет самостоятельное значение и не зависит от конечной цели конкретного проекта. Одна и та же концептуальная модель конкретной ПО может служить для достижения целей различных лингвотео-ретических или прикладных задач обработки информации, обучения, прогнозирования, экспертизы, извлечения новых знаний и т. д.

Наиболее перспективным подходом к структурированию предметной области на современном этапе считается концептуальное моделирование на основе специализированных онтологий. Построение онтологий предметных областей вместо онто-логий верхнего уровня является более реалистичной задачей, позволяет обеспечить большую по-крываемость знаний, относящихся к конкретной предметной области, и повторно использовать их для решения различных теоретических и практических задач [1, 2]. Одна из наиболее применяемых и творческих процедур при построении концептуальных моделей, в том числе на основе онтологий, -это собственно процедура концептуального анализа (или структурирования) лингвистических параметров лексики корпусов текстов, отражающих деятельность профессионалов конкретных предметных областей, в процессе которого создается полуформализованное описание предметной области.

В настоящей статье на материале ПО русскоязычных научных статей по интегративному исследованию физиологии спортсменов (ПО ИИФС) описывается методика структурирования лексических знаний ПО и построенная на ее основе концептуальная модель лексики предметной области, основными элементами которой являются:

• онтология предметной области,

• онто-лексикон, который представляет собой класс контентно-релевантных лексических единиц корпуса текстов ПО, значения которых соотнесены с одним или несколькими концептами онтологии предметной области,

• концептуально-статистические характеристики лексики ПО.

Модель построена с применением созданных для этой цели автоматизированных средств обработки естественного языка.

Статья организована следующим образом. В первом разделе изложены основные положения методологии исследования. Во втором разделе описана процедура подготовки исходных лингвистических данных. В третьем разделе представлены два элемента концептуальной модели: предметно-ориентированная онтология ПО и онто-лексикон. Четвертый раздел описывает инструмент концептуального аннотирования и вычисление концептуально-статистических характеристик лексики ПО, третьего элемента концептуальной модели. В заключении сделаны выводы о проведенной работе и намечены перспективы дальнейших исследований.

1. Методология исследования

Методология настоящего исследования основана на корпусных данных и включает в себя несколько взаимосвязанных шагов от анализа языкового материала к формальному представлению результатов, к которым относятся следующие автоматизированные и выполняемые вручную этапы:

• Подготовка исходных лингвистических данных:

а) анализ лексики предметной области на морфосинтаксическом уровне; при этом в рамках предлагаемой методологии единицы анализа включают в себя как однокомпонентные, так и многокомпонентные (до 10 слов) лексические группы, что более точно отражает контент ПО и снижает многозначность анализируемых лексических единиц;

б) концептуальное структурирование лексики, используемой для описания профессиональной деятельности в рамках определенной предметной области.

• Построение предметно-ориентированной онтологии и онто-лексикона.

• Вычисление и репрезентация концептуально-статистических характеристик лексики ПО на основе концептуально-аннотированного корпуса, что в качестве предварительных этапов включает в себя:

а) разработку инструментария для автоматизации концептуального аннотирования корпуса текстов ПО;

б) концептуальное аннотирование корпуса текстов.

Процедура концептуального аннотирования корпуса представляет собой реализацию онтологического анализа, который на практике заключается в разметке корпусных лексических единиц кодами (тегами) онтологических концептов, отражающих значения этих единиц. В связи с неограниченностью и многозначностью естественного языка даже на уровне его подсистем (предметных областей) определенные лексические единицы

могут оказаться не связанными с концептами онтологии или находиться с ними в отношениях «многие к одному», «один ко многим» или «многие ко многим», что всегда будет требовать разрешения неоднозначности концептуальных тегов после процедуры аннотирования. Рецепта идеального онтологического анализа не существует, поэтому в каждом практическом проекте вырабатываются конкретные подходы к решению этой проблемы.

2. Подготовка исходных лингвистических

данных

Методология концептуального моделирования и ее реализация описывается на примере ПО научных статей по интегративному исследованию физиологии спортсменов на основе русскоязычного корпуса научных статей по указанной тематике объемом 108030 словоупотреблений. Корпус содержит статьи из научных журналов в области медицины, физиологии и спорта, таких как «Человек. Спорт. Медицина» (ранее «Вестник ЮУрГУ. Серия «Образование, здравоохранение, физическая культура»), «Теория и практика физической культуры» и т. п. Отметим, что в лексике исследуемой ПО отражается как специфика написания научных статей, так и экстра-лингвистическая информация об исследованиях в области физиологии спортсменов. В нашей работе акцент сделан на анализе второго из указанных лексических слоев ПО. Как указывалось выше, в рамках предлагаемой методологии единицы анализа включают в себя как однокомпонентные, так и многокомпонентные (до 10 слов) лексические группы, что более точно отражает контент ПО и снижает многозначность лексических единиц, в том числе и концептуальную.

На первом этапе анализа из корпуса ПО были извлечены одно- и многокомпонентные именные, глагольные, предложные, наречные группы. Для решения этой задачи использовался адаптированный к русскому языку автоматический экстрактор лексических групп длиной от 1 до 4 компонентов [10], который был предварительно настроен на обработку русскоязычного корпуса ПО ИИФС. Затем в полученный автоматически список лексем были добавлены более длинные лексические группы (до десяти компонентов), полуавтоматически выявленные в корпусе с помощью функции текстового редактора «Найти». Из результирующего списка многокомпонентных лексем выделены две группы. К первой группе отнесены лексические единицы общеупотребительного характера и единицы, характерные для стиля научных статей. Во вторую группу лексических единиц, анализу которой посвящено наше исследование, включены лексемы, отражающие информацию о профессиональной деятельности исследователей, работающих в предметной области ИИФС. Лексемы этой группы названы контентно-релевантными и про-

анализированы на морфосинтаксическом уровне с последующим вычислением статистического распределения типов лексических групп в корпусе ПО ИИФС (рис. 1).

На рис. 1 видно, что основную нагрузку передачи контента ПО несут именные группы, поэтому концептуальный анализ проведен на материале именных групп с целью выделения контентно-релевантных их них. Концептуальный анализ понимается как особый вид семантического описания лексических единиц, который, в отличие от общих семантических признаков («одушевлен-

ность», «абстрактность» и т. д.), предполагает выделение семантических признаков, отражающих контент ПО. Контентно-релевантные именные группы корпуса ПО ИИФС на основе близости концептуальных признаков разнесены в 46 концептуальных классов, в которые далее включены остальные выявленные в корпусе контентно -релевантные лексические группы. В качестве названий концептуальных классов для удобства использованы английские слова, при этом концептуальное значение каждого класса определяется исключительно его дефиницией (см. таблицу).

■ Именные группы (ЫР)

■ Предложные группы (РР)

■ Группа прилагательных (ДсуР)

■ Глагольные группы (УР)

■ Наречные группы (ДСуР)

Рис. 1. Распределение типов лексических групп в корпусе ПО ИИФС

Фрагмент набора концептуальных классов контентно-релевантных лексем ПО ИИФС

Концептуальный класс Дефиниция Лексические единицы

Athlete Спортсмены и прочие лица, занимающиеся спортом (ЛЗС) бегун-любитель, девушка-лыжница, мастер спорта, учащийся

Athlete-physics Физические характеристики спортсменов и ЛЗС выносливость, гибкость, подвижность суставов, устойчивость к стрессу

Body-part Часть тела спортсменов и ЛЗС верхние конечности, масса жировой ткани левой руки, нога

Competition Спортивное мероприятие олимпиада, подготовка к соревнованиям, чемпионат

Environment Тип окружающей среды атмосферное давление, равнина, сред-негорье, уровень моря

Examination-method Методы обследования состояния спортсменов и ЛЗС проба Ромберга с закрытыми глазами, спектральный анализ, стабилометрия

Measurement-parameter Любые измеряемые величины вес, длина и масса тела, частота сердцебиений

Organism-bioprocess Биохимические процессы в организме спортсменов и ЛЗС биосинтез, гликолиз, обмен веществ, экспрессия каспазы-32

Organism-physprocess Механические процессы в организме спортсменов и ЛЗС дыхание, кровоток головного мозга, мышечное сокращение

Organism-product Продукты жизнедеятельности организма спортсменов и ЛЗС гормон, содержание молочной кислоты, углекислый газ, фермент

Organism-process-place Локализация биохимических и механических процессов в организме спортсменов и лиц, занимающихся спортом кровь, мышечный тонус желудка, объем сердца, процент жировой ткани, сосуд

Окончание таблицы

Концептуальный класс Дефиниция Лексические единицы

Research Общая методология и представление результатов научных исследований актуальность проблемы исследования, патент, таблица, физиология

Substance Химические вещества и соединения, не являющиеся продуктами жизнедеятельности организма спортсменов и ЛЗС ионы водорода, кальций, индекс тканевой экстракции кислорода, фосфор

Time Момент или период времени день, осень, острый период акклиматизации, сезонные биоритмы

Training-process Типы и процессы тренировочных нагрузок общий объем нагрузки, тренировка, упражнение на гибкость

3. Предметно-ориентированная онтология

и онто-лексикон

Определенные на этапе предварительного лингвистического анализа концепты ПО ИИФС и отношения между ними дополнены посредством применения различных методов анализа текста. Итоговый набор выделенных концептуальных классов и отношений принят в качестве концептов и отношений онтологии ПО ИИФС - первого элемента концептуальной модели лексики ПО, фрагмент которой приведен на рис. 2. Разработанная онтология представлена в формализме онтологии MikroKosmos [8] и в настоящее время имеет 4 уровня.

Отметим, что извлеченное указанным выше способом концептуальное знание, представленное в онтологии, не зависит от конкретного естественного языка и может быть повторно использовано для обработки текстов указанной предметной области на разных языках.

Множество контентно-релевантных лексических единиц корпуса ПО, входящих в концепту-

альные классы, названо онто-лексиконом. Важно отметить, что единицы онто-лексикона могут быть либо связаны только с одним концептом онтологии, т. е. быть концептуально однозначными, либо отображаться на несколько онтологических концептов и, следовательно, передавать несколько концептуальных значений, что, однако, объясняется двумя различными лингвистическими явлениями: концептуальной неоднозначностью и концептуальной синкретичностью лексики ПО.

Концептуально неоднозначными являются единицы онто-лексикона, которые могут иметь различные противоречащие друг другу концептуальные значения и в каждом конкретном случае функционирования в корпусе ПО реализуют только одно из этих значений. Например, лексема «кровь» концептуально многозначна, так как в корпусе может либо обозначать место, где происходят определенные физиологические процессы, и таким образом реализовать концепт LOCALIZATION («концентрация глюкозы в крови»), либо обозначать продукт метаболизма и реа-

Рис. 2. Фрагмент онтологии предметной области «Интегративное исследование физиологии спортсмена»

лизовать концепт METABOLIC PRODUCT («свойства крови»).

Концептуально синкретичными являются единицы онто-лексикона, одновременно реализующие несколько не противоречащих друг другу концептуальных значений. Примером концептуально синкретичной лексемы служит трехкомпо-нентная лексема «время акклиматизации бегунов», которая одновременно реализует концепты ATHLET, ORGANIZM REACTION, SPORTS and MEASURED PARAMETER.

4. Концептуально-статистические

характеристики лексики ПО ИИФС

Вычисление концептуально-статистических характеристик лексики ПО ИИФС (третьего элемента концептуальной модели) осуществляется на концептуально аннотированном корпусе. Для автоматизации вычислений лингвистические знания, полученные в результате предварительного анализа ПО ИИФС, были преобразованы в цифровой формат и внесены в ранее разработанную программную оболочку платформы концептуального аннотирования ПАНТ [4], состоящей из двух модулей: е-лексикона и тегера. Тегер работает на знаниях е-лексикона и может быть настроен для аннотирования текстовых единиц на уровне супертегов, кодирующих морфосинтаксическую и концептуальную информацию, или только на уровне концептуальных тегов. Собственно процедура концептуального аннотирования включает два

прогона: просмотр лексикона и устранение многозначности тегов, что в настоящем исследовании выполнено через интерактивный интерфейс тегера. Концептуально аннотированный корпус после разрешения многозначности тегов называется «золотым».

Статистико-концептуальные характеристики контентно-релевантной лексики ПО определяются значениями тройки параметров < а, ß, у >, где а - коэффициент лексического наполнения концептов онтологии ПО,

ß - распределение отологических концептов в корпусе ПО,

Y - распределение совместной реализации нескольких отологических концептов в аннотации одной лексемы в корпусе ПО.

Коэффициент лексического наполнения концептов онтологии а вычисляется по формуле, а = n/N, где n - количество единиц онто-лексикона, отображенных в конкретный концепт, N - общее количество единиц онто-лексикона.

Распределение онтологических концептов ß вычисляется на основе частотных характеристик концептуально аннотированных единиц онто-лексикона в корпусе. На рис. 3 приведена диаграмма распределения самых частотных концептов с указанием их относительной частоты в корпусе. При построении диаграммы учитывалась частота тега концепта, вербализованного как индивидуально, так и в комбинации с другими тегами. 100 % - общее количество концептуальных тегов в

в о т п

е ц

н

нок

ь т с о н т о т с

а Ча

16% 14% 12% 10% 8% 6% 4% 2% 0%

Hilm

1111ч

MP OL J KR A MU OB OD AP ER OR S OP AA W EM G AG D KP

Концепт

Рис. 3. Распределение самых частотных концептов в корпусе ПО:

Значения концептуальных тегов: A = ATHLETE, AA = ATHLETE-AGE, AG = ATHLETE-GENDER, AR = ATHLETE-GROUP, AP = ATHLETE-PHYSICS, AQ = ATHLETE-QUALIFICATION, AS = ATHLETE-STATE, C = COMPETITION, D = BODY-PART, EI = EXAMINATION-INSTRUMENT, EM = EXAMINATION-METHOD, EU = EXAMINATION-PURPOSE, ER = EXAMINATION-RESULT, F = EDUCATION-PROCESS, G = SUBSTANCE, HM = DISEASE-MEDICATION, HN = DISEASE-RISK-BEHAVIOR, HT = DISEASE-TREATMENT, HA = DISEASE-TYPE, J = RESEARCH, KO = TRAINING-OBJECT, KP = TRAINING-PARAMETER, KR = TRAINING-PROCESS, KU = TRAINING-PURPOSE, L = SPORT-EVENT-LOCATION, MP = MEASUREMENT-PARAMETER, MU = MEASUREMENT-UNIT, OB = ORGANISM-BIOPROCESS, OT = ORGANISM-PATHOLOGY, OL = ORGANISM-PROCESS-PLACE, OD = ORGANISM-PRODUCT, OR = ORGANISM-REACTION, S = SPORT, TF = TREATMENT-FOOD, TM = TREATMENT-MEDICATION, TR = TREATMENT-PROCESS, TU = TREATMENT-PURPOSE, V = ENVIRONMENT, W = TIME, Y = STAFF, Z = ORGANIZATION

ее

ев -

m н S H

■а

Ч

о

10% 8% 6% 4% 2% 0%

1

1 1 I i

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

II1 1 1 1 1 1 1 1 1 I i

pv ^ ** ря о"5 é> pv pv# # ^# О^ о4 о^ ^

Мультитег

Рис. 4. Распределение синкретичных концептов в ПО ИИФС

корпусе. Наличие в корпусе ПО концептуально многозначных и концептуально синкретичных лексем онто-лексикона при концептуальном аннотировании обуславливает совместную встречаемость концептуальных классов лексики в корпусе ПО, т. е. ведет к появлению мультитегов. При этом на этапе полностью автоматического аннотирования на основе е-лексикона мультитеги могут быть как многозначными, так и синкретичными. В «золотом» аннотированном корпусе многозначности нет, следовательно, все оставшиеся после постредактирования мультитеги синкретичны.

Вычисление распределения синкретичных концептуальных тегов у может быть использовано для разработки метрик автоматического разрешения концептуальной многозначности в «сыром» корпусе и таким образом значительно сократить затраты на постредактирование вручную. Например, если автоматически идентифицировать заведомо синкретические мультитеги, их можно автоматически исключить из процедуры устранения концептуальной неоднозначности в «сыром» корпусе.

Распределение относительной частоты совместной встречаемости самых частотных синкретичных концептов в корпусе показано на рис. 4 (100 % - общее количество мультитегов в корпусе).

Заключение

В настоящей статье предложена методология концептуального моделирования лексики и ее реализация при построении лексико-концептуальной модели предметной области русскоязычных научных статей по интегративному исследованию физиологии спортсменов (ПО ИИФС). Построенная модель содержит 3 основных элемента: онтологию предметной области, формализующую знания предметной области, не зависящие от конкретного языка, русскоязычный онто-лексикон ПО и кон-

цептуально-статистические характеристики русскоязычной контентно-релевантной лексики ПО ИИФС, которые вычисляются на корпусе, предварительно аннотированном тегами отологических концептов. Исследовательские процедуры автома-тизтрованы с помощью авторского инструментария. Алгоритм концептуального моделирования лексики ПО, построенная модель и разработанный исследовательский инструментарий могут быть использованы как в лексикографии, так и для решения различных информационных задач, например, контент-анализа, извлечения лингвистических и фактических знаний из неструктурированной информации и т. д.

Литература

1. Белоусов, К.И. Научная предметная область: от онтологии к концептосфере / К.И. Белоусов, Д.А. Баранов, Н.Л. Зелянская //Вопросы когнитивной лингвистики. - 2014. - № 4. - С. 52-62.

2. Когаловский, М.Р. Концептуальное моделирование в технологиях баз данных и онтологические модели. - http://www.ipr-ras.ru/old_site/ artidesikoga08-1.pdf (дата обращения: 30.08.2022).

3. Носкова, М.В. Моделирование и лексикографическое представление терминосистемы предметной области финансово-кредитных отношений в современном английском языке: дис. ... канд. филол. наук: 10.02.04 /М.В. Носкова. - СПб., 2004. - 162 с.

4. Шереметьева, С.О. Платформа для концептуального аннотирования многоязычных текстов / С.О. Шереметьева, О.И. Бабина //Вестник ЮУрГУ. Серия «Лингвистика». - 2020. - Т. 17, № 4. - С. 53-60.

5. Aldinhas Ferreira, M.I. Building up a Lexical Conceptual Structure / M.I. Aldinhas Ferreira. -2011. - https:// https://www.academia.edu/1130513/

Building_up_a_Lexical Conceptual Structure (дата обращения: 30.08.2022).

6. Hossain, B.A. Specifying Conceptual Models Using Restricted Natural Language / B.A. Hossain, R. Schwitter. - 2018. - https://aclanthology.org/ U18-1005 (дата обращения: 30.08.2022).

7. Levin, B. Lexical conceptual structure / B. Levin, M. Rappaport Hovav // Semantics: An International Handbook of Natural Language Meaning. -2011. - P. 418-438.

8. Nirenburg, S. Ontological Semantics / S. Ni-renburg, V. Raskin. - Cambridge: MIT, 2004. - 442 p.

9. Poelmans, J. Formal Concept Analysis in knowledge processing: A survey on models and techniques / J. Poelmans, S. Kuznetsov, D. Ignatov. - 2013. - https:// www.academia.edu/22446150/ Formal_ Concept_ Analy-sis_in_knowledge_ processing_A_survey_ on_models_ andtechniques (дата обращения: 30.08.2022).

10. Sheremetyeva, S. Automatic Extraction of Linguistic Resources in Multiple Languages / S. She-remetyeva // Proceedings of NLPCS 2012, 9th International Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012, Wroclaw, Poland. - 2012. - P. 44-52.

Шереметьева Светлана Олеговна, доктор филологических наук, доцент, профессор кафедры лингвистики и перевода, Южно-Уральский государственный университет (Челябинск), sheremetevaso@susu.ru Неручева Екатерина Дмитриевна, лаборант НОЦ «Лингво-инновационные технологии» института лингвистики и международных коммуникаций, Южно-Уральский государственный университет (Челябинск), neruchevaekaterina@mail.ru

Поступила в редакцию 28 сентября 2022 г.

DOI: 10.14529/ling230109

CONCEPTUAL MODELING OF DOMAIN LEXICA

S.O. Sheremetyeva, sheremetevaso@susu.ru E.D. Nerucheva, neruchevaekaterina@mail.ru South Ural State University, Chelyabinsk, Russian Federation

The article describes a study in which a methodology for conceptual modeling of the domain lexica was developed and was applied to the domain of the Russian-language scientific articles on the inte-grative study of the physiology of athletes (ISPhA). The research methodology is corpus data-driven and includes several interrelated steps from the analysis of linguistic material to the formal presentation of its results based on automated and manual corpus processing. Automated natural language processing tools used to build the suggested conceptual model of the domain lexica were developed by the authors of this article. The main elements of the model are i) the domain ontology, ii) onto-lexicon, that includes content-relevant lexical units of the domain corpus, the meaning of which are associated to one or more concepts of the domain ontology, and iii) the conceptual and statistical characteristics of the domain content-relevant lexica. The calculation and representation of the conceptual and statistical characteristics of the domain lexica are based on the conceptually annotated corpus.

Keywords: conceptual model, lexica, Russian language, domain, domain ontology

References

1. Belousov K.I., Baranov D.A., Zelyanskaya N.L. [Scientific subject area: from ontology to conceptos-phere]. Issues of Cognitive Linguistics. 2014, no. 4, pp. 52-62. (In Russ.)

2. Kogalovskiy M.R. Kontseptual'noye modelirovaniye v tekhnologiyakh baz dannykh i ontologicheskiye modeli [Conceptual modeling in database technologies and ontological models]. URL: http://www.ipr-ras.ru/old_site/articles/koga08-1.pdf (accessed: 30.08.2022).

3. Noskova M.V. Modelirovaniye i leksikograficheskoye predstavleniye terminosistemy predmetnoy oblasti finansovo-kreditnykh otnosheniy v sovremennom angliyskom yazyke [Modeling and lexicographic representation of the terminological system of the subject area of financial and credit relations in modern English]. Cand of philol. sci. diss. St. Petersburg, 2004. 162 p.

4. Sheremetyeva S.O. [Platform for Knowledge Assisted Conceptual Annotation of Multilingual Texts]. Bulletin of the South Ural State University. Ser. Linguistics. 2020, vol. 17, no. 4, pp. 53-60. (In Russ.)

5. Aldinhas Ferreira M.I. Building up a Lexical Conceptual Structure. 2011. URL:https://www. acade-mia.edu/1130513/Building_up_a_Lexical_Conceptual_Structure (accessed: 30.08.2022).

6. Hossain B.A., Schwitter R. Specifying Conceptual Models Using Restricted Natural Language. 2018. URL: https://aclanthology.org/U18-1005 (accessed: 30.08.2022).

7. Levin B., Rappaport Hovav M. Lexical conceptual structure. Semantics: An International Handbook of Natural Language Meaning. 2011, pp. 418-438.

8. Nirenburg, S. Ontological Semantics. Cambridge: MIT, 2004, 442 p.

9. Poelmans J., Kuznetsov S., Ignatov D. Formal Concept Analysis in knowledge processing: A survey on models and techniques. 2013. URL: https://www.academia.edu/22446150/Forma l_Concept_Analysis_ in_knowledge_processing_A_survey_on_models_and_techniques (accessed: 30.08.2022).

10. Sheremetyeva, S. Automatic Extraction of Linguistic Resources in Multiple Languages. Proceedings of NLPCS 2012, 9th International Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012, Wroclaw, Poland, 2012, P. 44-52.

Svetlana O. Sheremetyeva, PhD (Habilitation), professor of the Department of Linguistics and Translation Studies, South Ural State University (Chelyabinsk), sheremetevaso@susu.ru

Ekaterina D. Nerucheva, laboratory assistant, Research and Education Centre of Innovative Linguistic Technologies, Institute of Linguistics and International Communications, South Ural State University (Chelyabinsk), neruchevaekaterina@mail.ru

Received 28 September 2022

ОБРАЗЕЦ ЦИТИРОВАНИЯ

Шереметьева, С.О. Концептуальное моделирование лексики предметной области / С.О. Шереметьева, Е.Д. Неручева // Вестник ЮУрГУ. Серия «Лингвистика». - 2023. - Т. 20, № 1. - С. 65-72. Б01: 10.14529/1^230109

FOR CITATION

Sheremetyeva S.O., Nerucheva E.D. Conceptual Modeling of Domain Lexica. Bulletin of the South Ural State University. Ser. Linguistics. 2023, vol. 20, no. 1, pp. 65-72. (in Russ.). DOI: 10.14529/ling230109

i Надоели баннеры? Вы всегда можете отключить рекламу.