Научная статья на тему 'Графосемантическое тезаурусное моделирование терминологии компьютерной вирусологии'

Графосемантическое тезаурусное моделирование терминологии компьютерной вирусологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
80
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕРЕДАЧА ЗНАНИЯ / ПРОФЕССИОНАЛЬНАЯ КОММУНИКАЦИЯ / ГРАФОСЕМАНТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / КОГНИТИВНОЕ МОДЕЛИРОВАНИЕ / СЕМОГРАФ / KNOWLEDGE TRANSFER / PROFESSIONAL COMMUNICATION / GRAPH-SEMANTIC BASED MODELLING / COGNITIVE MODELLING / SEMOGRAPH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Исаева Е. В.

В статье освещаются важнейшие результаты, достигнутые в ходе работы над проектом «Тезаурусное моделирование предметной области компьютерной вирусологии с применением нейросетевых технологий для автоматизации разработки онтологий» (РФФИ, проект № 14-06-31143). Статья направлена на описание методики графосемантического моделирования с применением интеллектуальных систем для упорядочения терминологии компьютерной вирусологии. Исследование выполнено на стыке прикладной лингвистики и информационных компьютерных технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GRAPH-SEMANTIC THESAURUS MODELLING OF COMPUTERVIROLOGY TERMS

The paper presents the main results obtained in the project “Thesaurus Modelling of Computer Virology with the Application of Neuronet Technologies for the Automation of Ontology Construction”. The article is aimed at the description of graph-semantic based modelling with the application of intelligent systems for regulation of computer virology terms. The research is done at the confluence of applied linguistics and IT.

Текст научной работы на тему «Графосемантическое тезаурусное моделирование терминологии компьютерной вирусологии»

УДК 81'33 Е. В. Исаева

кандидат филологических наук, доцент кафедры английского языка профессиональной коммуникации, Пермский гос. национальный исследовательский ун-т; e-mail: [email protected]

ГРАФОСЕМАНТИЧЕСКОЕ ТЕЗАУРУСНОЕ МОДЕЛИРОВАНИЕ ТЕРМИНОЛОГИИ КОМПЬЮТЕРНОЙ ВИРУСОЛОГИИ

В статье освещаются важнейшие результаты, достигнутые в ходе работы над проектом «Тезаурусное моделирование предметной области компьютерной вирусологии с применением нейросетевых технологий для автоматизации разработки онтологий» (РФФИ, проект № 14-06-31143). Статья направлена на описание методики графосемантического моделирования с применением интеллектуальных систем для упорядочения терминологии компьютерной вирусологии. Исследование выполнено на стыке прикладной лингвистики и информационных компьютерных технологий.

Ключевые слова: передача знания; профессиональная коммуникация; графосемантическое моделирование; когнитивное моделирование; семограф.

Isaeva E. V.

Ph.D., Associate Professor, the Department of Professional Communication (English), Perm State National Research University, Perm; e-mail: [email protected]

GRAPH-SEMANTIC THESAURUS MODELLING OF COMPUTER VIROLOGY TERMS

The paper presents the main results obtained in the project "Thesaurus Modelling of Computer Virology with the Application of Neuronet Technologies for the Automation of Ontology Construction". The article is aimed at the description of graph-semantic based modelling with the application of intelligent systems for regulation of computer virology terms. The research is done at the confluence of applied linguistics and IT.

Key words: knowledge transfer; professional communication; graph-semantic based modelling; cognitive modelling; semograph.

В современном постиндустриальном обществе, погруженном в единое информационное пространство, появляются новые возможности передачи и получения информации. Открытость и доступность информации позволяет человеку ХХ! века самостоятельно получать знания об окружающем мире и на их основе принимать решения. Этот

двусторонний процесс передачи и получения информации происходит в интердискурсивном пространстве, так как участниками такой коммуникации являются носители экспертного знания в определенной предметной области (далее - специалисты), и обладатели наивного знания (далее - пользователи), и передача информации происходит путем ее перенесения из профессионального дискурса в наивный дискурс. При этом информация переходит из одного типа дискурса в другой не в исходном виде, а трансформируется.

Для понимания, что представляет собой трансформация передаваемой информации, необходимо рассмотреть содержание термина «информация». Согласно словарю С. Ожегова информация - это:

1. Сведения об окружающем мире и протекающих в нем процессах, воспринимаемые человеком или специальным устройством. 2. Сообщения, осведомляющие о положении дел, о состоянии чего-н.» [8].

С позиции когнитивной науки информация «относится ко всем тем данным, которые поступают к человеку извне по разным чувственно-перцептуальным и сенсорно-моторным каналам, а также к тем данным, которые уже переработаны центральной нервной системой, интериоризованы и реинтерпретированы человеком и представлены в его голове в виде ментальных репрезентаций» [5]. В процессе структурирования информации возникают концепты, «кванты» знания, отражающие содержание результатов человеческой деятельности и познания мира. По мнению Е. С. Кубряковой, концепты сводят разнообразие наблюдаемых и воображаемых явлений к чему-то единому, подводя их под одну рубрику, и позволяют хранить знания о мире в памяти, ментальном лексиконе и концептуальной системе [5]. Система концептов, относящихся к определенной предметной области, образует специальное знание. Овладение специальным знанием характеризуется формированием в сознании человека обоснованного убеждения (мнения) разделяемого членами эпистемического сообщества, к которому он принадлежит [3]. Ратификация убеждений (мнений) осуществляется с опорой на критерии (стандарты) принятые группой носителей знаний, включающие в себя достоверные наблюдения, умозаключения, основанные на предшествующем опыте и обращение к источнику информации [9]. Так как критерии различных сообществ могут не совпадать, то и степень обоснованности убеждений (мнений) в различных сообществах может быть различной. В связи с этим в процессе передачи специального знания из одного эпистемического

сообщества (в контексте нашего исследования - профессионального дискурса) в другое эпистемическое сообщество (здесь наивный дискурс) может возникнуть когнитивный диссонанс, спровоцированный асимметрией в концептуальных системах коммуникантов.

В нашей статье будет рассматриваться графосемантическое моделирование термино системы предметной области как способ снижения когнитивного диссонанса при интердискурсивной коммуникации знания. Такой подход к упорядочению терминологии становится возможным в условиях междисциплинарного проекта «Тезаурусное моделирование предметной области компьютерной вирусологии с применением нейросетевых технологий для автоматизации разработки онтологий» (№ 14-06-31143) при поддержке Российского фонда фундаментальных исследований.

Лингвистическая составляющая данного исследования выполнялась с опорой на методологию когнитивно-дискурсивного подхода к изучению терминологии [6]. При этом термин является оперативной единицей дискурса как концептуально и «вербально опосредованной специальной деятельности» [7, с. 23]. В таком ключе термин рассматривается как трехмерная единица в коммуникационной (прагматической), концептуальной, знаковой проекциях [4]. Рассмотрим эти формы репрезентации термина в дискурсе.

Терминологизация знания происходит в процессе специальной деятельности в рамках определенной предметно области, в условиях конкретного события / событий (event / set of events), при взаимодействии определенных участников. Так, когнитивная модель термина включает в себя ситуативную и контекстную модель и является коммуникативно обусловленной.

Термин как элемент концептуальной системы представляет собой специальное знание, репрезентированное в неврологической системе человеческого мозга в компрессированной форме в виде ментальных моделей, заключающих в себе упорядоченную систему концептов. Поскольку контекстная модель термина генерируется как обобщенная система моделей ситуации употребления термина, она позволяет минимизировать различие в концептуальном содержании термина в рамках одного эпистемического сообщества.

Как элемент семиотической системы термин представляет собой знаковую номинацию компрессата специального знания, зафиксированную в отраслевом словаре с описанием семантического содержания

термина. В связи с эти следует отметить наличие асимметрии в плане содержания и плане выражения термина, так как знаковая лаконичность термина соответствует глубокому семантическому содержанию, коррелирующему с набором категоризированных концептов.

Согласно представленному трехмерному подходу к исследованию терминологии, была определена цель выполняемого нами проекта -тезаурусное моделирование терминологии компьютерной вирусологии на основе корпусного подхода и применения нейросетевых технологий для автоматизации разработки онтологии предметной области. Основными задачами проекта на 2014 г. были следующие: формирование корпуса текстов по теме «Компьютерная вирусология»; составление малой тезаурусной модели терминологии компьютерной вирусологии в информационной системе «Семограф»; разработка программы для автоматизированного выделения терминов.

Обоснованием для выбора дискурса компьютерной вирусологии являются: сравнительная новизна предметной области компьютерной вирусологии, комплексная система заимствования терминов из различных предметных областей (медицина, фармация, машиностроение, юриспруденция) [1], хаотичность в терминологизации (быстрый количественный прирост терминологии, препятствующий созданию терми-носистемы). Таким образом, разработка автоматически пополняемого словаря тезауруса позволила бы разрешить вышеуказанные проблемы.

Реализация поставленных на 2014 год задач выполнялась с привлечением специалистов двух предметных областей: языкознание и информационные компьютерные технологии. На первом этапе были использованы методы корпусной лингвистики для автоматизированного выявления ключевых слов заявленной предметной области и создания конкорданса ключевых слов в контекстах их употребления.

На втором этапе проекта выполнялась экспертная обработка полученного конкорданса с привлечением специалистов в области компьютерной вирусологии (студентов и магистрантов направления компьютерная безопасность механико-математического факультета Пермского государственного национального исследовательского университета). Участники проекта выполнили верификацию автоматически отобранного материала с последующим занесением терминов и контекстов их употребления в ИС «Семограф» (http://semograph.com).

Работа в ИС «Семограф» включает в себя создание Проекта - рабочего пространства, в котором осуществляется исследовательский

цикл, реализованный в ИС «Семограф» [2, c 15]. В нашей разработке был создан Проект «Graph Semantic Modelling of Computer Virology terminology». Фрейм Проекта состоит из следующих элементов: контекст (в нашем проекте - термин на английском языке); корпус контекстов (в нашем проекте - контекст употребления - контекст «С» и дефиниция - контекст «D»); набор значений, описывающих контекст, в том числе метаданные (в нашем проекте - участник проекта, внесший термин, дата внесения термина в базу данных, термин на английском языке, перевод на русский язык, тип контекста (С / D); ссылка на источник (автор статьи / монографии, место и дата издания, страница употребления термина, дата публикации, URL электронной публикации). См. рисунок 1.

С ti setnographjcoffi

4 I^OWh ' С* н'' :.--' №11 ■ i DMieJt '-1' J.- Гн

Дававшь польза« зтеяя

»ГОВ |)Ои»Н№Ч, 1 -

raftrenca cmniwaii"' *

Г '3! С ОI ЯиЬИС ЗИРГ (TJ.Oii V

еа* аГриЫ1гйи! цр^ае " *

Рис. 1. Интерфейс Проекта в ИС "Семограф"

Дефиниции и перевод терминов были составлены на основе экспертного знания, в соответствии с ситуативными и контекстными

моделями их употребления. Таким образом, типичная словарная статья включила в себя следующие элементы: термин на английском языке, контекстный перевод, дефиниция и ряд метаданных (источник термина и контекста, источник дефиниции). См. рис. 2.

Рис. 2. Типичная статья тезауруса в ИС «Семограф»

Параллельно с лингвистическим направлением проекта велась работа по разработке программного обеспечения для автоматизированной идентификации терминов на основе бинарного дерева и ней-росети. Полученная программа может быть встроена в качестве приложения в ИС «Семограф», а также работать самостоятельно, извлекая термины из корпуса текстов.

Отличительной особенностью нашей программы является возможность пополнять базу данных не посредством энциклопедического импорта из машиночитаемых словарей, а путем идентификации терминов из текстов, представленных в электронном формате. Кроме того, программа способна идентифицировать сложные термины, состоящие из двух и трех слов. Данный подход к обработке данных позволяет автоматизировать изучение лингвистических единиц в дискурсе, т. е. в среде их порождения, реализации и преобразования.

Использование нейросетевых технологий позволяет программе «самообучаться» на основе экспертной обработки полученных результатов.

В перспективе работы над проектом планируется внедрение и отладка программы для автоматизированного выделения терминов в ИС «Семограф»; автоматизированное пополнение коллекции терминов; разработка модуля категоризации (кластеризации) для программы автоматической идентификации терминов; графосемантиче-ское моделирование терминосистемы компьютерной вирусологии.

Подводя итог проделанной по проекту «Тезаурусное моделирование предметной области компьютерной вирусологии с применением нейросетевых технологий для автоматизации разработки онтологий» работы, можно отметить ярко выраженный междисциплинарной характер проекта, направленного на применение интеллектуальных компьютерных технологий для разработки терминосистем. По нашему мнению, разработка автоматизированного словаря тезауруса с применением нейросетевого и графосемантического моделирования позволит автоматизировать процесс упорядочения терминосистем быстроразвивающихся предметных областей. Отдельный интерес данный проект представляет для изучения языков для специальных целей и оптимизации методов интердискурсивной коммуникации специального знания.

СПИСОК ЛИТЕРАТУРЫ

1. Богатикова Е. П., Бурдина О. Б., Исаева Е. В., Мишланова С. Л. Семантическая трансформация термина в полидискурсивном пространстве // European Social Science Journal. - № 3. - М., 2014. - С. 199-205.

2. Белоусов К. И., Баранов Д. А., Ерофеева Е. В., Зелянская Н. Л., Ичкине-ева Д. А. Прогнозирование научной области (на материале ведущего тематического журнала) // Научно-техническая информация. Сер. 2. Информационные процессы и системы. - 2014. - № 10. - С. 13-25.

3. Исаева Е. В. Модели метафоры в дискурсе компьютерной безопасности : дис. ... канд. филол. наук. - Пермь, 2013. - 186 с.

4. Исаева Е. В., Мишланова С. Л. Метафорическое моделирование разных типов знания в дискурсе компьютерной безопасности : Монография. -Пермь : Перм. гос. нац. исслед. ун-т., 2014. - 171 с.

5. Краткий словарь когнитивных терминов / сост. Е. С. Кубрякова, В. З. Демь-янков, Ю. Г. Панкрац, Л. Г. Лузина. - М. : Изд-во Моск. ун-та, 1997. - 245 с.

6. Манерко Л. А. Современные тенденции развития отечественной когнитивной лингвистики // Когнитивная лингвистика: новые проблемы познания: сб. науч. тр. / под ред. Л. А. Манерко; Институт языкознания РАН; Ряз. гос. ун.-т им. С. А. Есенина. - Вып.5. - Рязань, 2007. - С. 30-38.

7. Мишланова С. Л., Уткина Т. И. Метафора в научно-популярном медицинском дискурсе (семиотический, когнитивно-коммуникативный, прагматический аспекты): монография. - Пермь : ПГУ, 2008. - 428 с.

8. Ожегов С., Шведова Н. Толковый словарь русского языка. - М. : Азъ, 1992. - 506 с.

9. Dijk T. A. van. Discourse and Knowledge // Handbook of Discourse Analysis James Paul Gee, Michael Handford (Eds.). - L. : Routledge, 2012. - С. 587-603.

i Надоели баннеры? Вы всегда можете отключить рекламу.