Научная статья на тему 'Автоматизация исследования лингвистической среды с использованием онтологической модели при управлении развитием социокультурной системы'

Автоматизация исследования лингвистической среды с использованием онтологической модели при управлении развитием социокультурной системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
199
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКАЯ СРЕДА / СОЦИОКУЛЬТУРНАЯ СИСТЕМА / СЕМАНТИЧЕСКОЕ ПРОСТРАНСТВО ТЕКСТА / ОНТОЛОГИЯ СИСТЕМЫ / АВТОМАТИЗАЦИЯ ИССЛЕДОВАНИЙ / LINGUISTIC ENVIRONMENT / SOCIO-CULTURAL SYSTEM / SEMANTIC SPACE OF THE TEXT / THE ONTOLOGY OF THE SYSTEM / AUTOMATION OF THE RESEARCH

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воронина И. Е., Львович Я. Е.

Рассматривается задача автоматизации выделения концептов для построения семантического пространства текста с целью определения набора репрезентативных терминов для описания онтологии системы. Актуальность разработки онтологий определяется необходимостью решения проблемы информационного переполнения в сети Интернет

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION OF THE RESEARCH OF THE LINGUISTIC ENVIRONMENT USING THE ONTOLOGICAL MODEL FOR MANAGING THE DEVELOPMENT OF SOCIO-CULTURAL SYSTEM

Under consideration the problem of automation of the selection of concepts for the construction of semantic space of the text to define a set of representative terms to describe the ontology of the system. The urgency of developing of the ontologies is determined by necessity of solving the problem of information overflow on the Internet

Текст научной работы на тему «Автоматизация исследования лингвистической среды с использованием онтологической модели при управлении развитием социокультурной системы»

УДК 001.103:002

АВТОМАТИЗАЦИЯ ИССЛЕДОВАНИЯ ЛИНГВИСТИЧЕСКОЙ СРЕДЫ С ИСПОЛЬЗОВАНИЕМ ОНТОЛОГИЧЕСКОЙ МОДЕЛИ ПРИ УПРАВЛЕНИИ РАЗВИТИЕМ СОЦИОКУЛЬТУРНОЙ СИСТЕМЫ

И.Е. Воронина, Я.Е. Львович

Рассматривается задача автоматизации выделения концептов для построения семантического пространства текста с целью определения набора репрезентативных терминов для описания онтологии системы. Актуальность разработки онтологий определяется необходимостью решения проблемы информационного переполнения в сети Интернет

Ключевые слова: лингвистическая среда, социокультурная система, семантическое пространство текста, онтология системы, автоматизация исследований

Для обеспечения эффективного взаимодействия человек-компьютер

необходимо общение на национальном языке. В России этот язык - русский.

Являясь мощным и важным источником информации, Интернет отличается тем, что данные в нем организованы достаточно несистематично и стихийно. Средствам обработки данных все проблематичнее справляться с потоком информации существующей и ежечасно добавляемой. В отличие от серверов официальных структур и организаций, содержащих тематическую, относительно структурированную

информацию, многочисленные домашние страницы, блоги и другие «любительские» источники Web могут содержать все, что угодно. Материалы конференций, публикации свидетельствуют о том, что начался процесс реконструирования Web-пространства в пространство знаний, что предполагает переход к семантически значимому представлению в сети. Новый этап развития Интернет - переход от документов, которые компьютер может читать, к документам, которые компьютер может понимать, получил название Semantic Web, что повлекло за собой развитие парадигмы, с точки зрения которой Сеть рассматривается как потенциальная база знаний. Как следствие, понадобилась адаптация методов и средств искусственного интеллекта для систем, основанных на знания, к новой предметной области. В качестве средства построения распределенных и неоднородных систем баз знаний в Интернет особый интерес вызывают онтологии.

Воронина Ирина Евгеньевна - ВГУ, канд. техн. наук, доцент , тел. (473) 2208698 Львович Яков Евсеевич - ВГТУ, д-р техн. наук, профессор, тел. (473) 2437704

Это попытка решить проблему информационного переполнения в сети за счет решения задач предоставления знаний для вывода релевантной информации, фильтрации и классификации информации, организации общей терминологии для коммуникации пользователей и программных агентов.

Онтология — документированная

совокупность терминов предметной области (словаря) и правил (аксиом), согласно которым эти термины могут быть использованы для построения достоверных утверждений о состоянии рассматриваемой системы, а также для санкционированного логического вывода новых утверждений на основании существующих [1].

До некоторого времени в проектировании онтологий параллельно развивались два отдельных направления.

Первое (формальное) связано с представлением онтологии как формальной системы, основанной на математически точных

аксиомах. Второе (лингвистическое) развивалось в рамках компьютерной

лингвистики и когнитивной науки, причем онтология понималась как система абстрактных понятий, существующих в сознании человека, которые могут быть выражены на естественном языке, причем предположения о точности и противоречивости такой системы отсутствуют. В рамках этих двух направлений сформировались соответствующие подходы к пониманию, созданию и исследованию онтологий:

- формальный подход, основанный на логике;

- лингвистический подход, основанный на изучении естественного языка и построении онтологий на больших текстовых массивах (корпусах).

В настоящее время эти два подхода интегрированы и производится разработка

новых методик, позволяющих комбинировать эти методы. Таким образом, появляются такие образования, как лексические онтологии с элементами формальных аксиоматик и логические системы с включением лингвистических знаний.

Практически все модели онтологий в той или иной степени содержат следующие элементы: концепты (понятия, классы,

сущности, категории); свойства концептов (слоты, атрибуты, роли); отношения между концептами (связи, зависимости, функции); дополнительные ограничения (определяются аксиомами, в некоторых парадигмах фасетами).

Самое главное преимущество онтологического моделирования на данный момент заключается в том, что эксперт, не обладая знаниями программиста, может с помощью интуитивно понятного программного обеспечения задать спецификацию терминов предметной области, определить отношения между ними и логику высказываний. Далее на основе имеющихся высказываний аппарат логического вывода, представляющий собой отдельный сложный программный продукт, позволит делать выводы о новых знаниях из уже имеющихся. Таким образом реализуется и разделение труда в сфере формализации знаний.

Лингвистический аспект онтологического моделирования неизбежно связан с известными проблемами обработки естественного языка, в первую очередь, с невозможностью полной формализации и многозначностью. Эти же моменты характеризуют и использование онтологий для поиска релевантных Web-страниц. Например, в [2] используются знания, представленные в виде онтологии, а Web-страницы проверяются на соответствие так называемому онтологическому тесту. Онтологический тест требует проведения морфологического и синтаксического анализа, после чего выбираются предложения определенной простейшей структуры с неявным предположением, что структура знаний о предметной области отражена в структуре предложений, описывающих концепты, и если предложение действительно описывает некоторый концепт, то значимые для предметной области слова уже отражены в онтологии.

В, свою очередь, автоматизированное выделение концептов и отношений на базе совокупности текстов тоже связано с анализом и обработкой естественного языка.

В инженерии знаний группа текстологических методов объединяет методы

извлечения знаний, основанных на изучении текстов, содержащих профессиональные знания. Для формирования макроструктуры текста в виде реферата или в форме графа выделяются ключевые слова и выражения, а затем определяются связи между ними. Далее на основании макроструктур строится поле знаний - условное, неформальное описание основных понятий и взаимосвязей между понятиями предметной области. Поле знаний -основа для создания формализованного представления знаний. Тексты на любом языке состоят из двух частей: того, что обязательно должно быть выражено по законам данного языка, и того, что отражает специфику тематики текста и стиля автора. Эти составляющие называются соответственно тематически нейтральной и тематически маркированной лексикой. Выделение обеих групп лексики - шаг на пути к определению содержательной отнесенности текста. Оно позволяет как проникнуть к содержанию текста, так и составить определенное мнение о своеобразии лексики автора и его языка.

А. А. Кретовым [3] был предложен метод формального, а, следовательно,

автоматизируемого выделения тематически маркированной лексики статистическим посредством «взвешивания» слов по функциональным параметрам. Лексические

единицы, встречающиеся в тексте, имеют свои частотные характеристики. Чем ярче

количественные особенности некоторых

словоформ по сравнению с остальными во всем тексте, тем выше их тематическая

маркированность. В контексте решаемой

задачи словом считается непрерывная

последовательность букв русского алфавита без учета регистра. Выделение тематически маркированной и тематически нейтральной

лексики производится методом системного взвешивания слов по двум функциональным параметрам: прямому (частотному) и

косвенному (длина слова).

Традиционным способом выявления тематически маркированной лексики является

частота словоформ (или их множеств,

относящихся к одному слову-лемме). При этом предполагается, что чем чаще употребляется слово в тексте, тем оно важнее для его содержания. Это справедливо лишь отчасти: служебные и дискурсивные слова обычно имеют большую частоту, но, тем не менее, специфики текста не отражают. Необходимо учитывать и еще одно обстоятельство.

Установлена зависимость, существующая

между частотой слова (словоформы) и его

длиной: чем чаще употребляется слово, тем оно короче и наоборот. Но для этого требуется, чтобы слова устойчиво и продолжительно были частотными. Следовательно, если короткое слово в тексте будет частотным, это будет характеризовать его как короткое слово, а если длинное слово в тексте будет обладать частотой, необычной для слов такой длины, то оно будет отражать специфику данного текста. Таким образом, для выделения тематически маркированной лексики в данном тексте недостаточно информации об их длине и частоте, нужно соотнести оба типа информации, а для этого сделать информацию о длине и частоте сопоставимой. С этой целью единообразно вычисляются функциональные веса словоформ: прямой (частотный) и

косвенный (длина слова в звуках). Алгоритм реализован [4], более подробное изложение представлено в [5].

Результаты можно значительно улучшить (особенно в части определения ключевых словосочетаний), если объединить алгоритм выделения тематически маркированной лексики с алгоритмом Е.Л. Гинзбурга [6], для чего строится граф, узлами которого являются ключевые слова; ребра графа - слова-спутники, притянутые ключевым словом по алгоритму Гинзбурга. Для построения графа сначала формируется матрица ключевых слов, на пересечении строк и столбцов которой указывается сила связи между ключевыми словами (при желании её можно интерпретировать и как величину обратную расстоянию между ключевыми словами в семантическом пространстве). Простейший способ определения силы связи: подсчитывается сумма общих слов-спутников. Более точный способ: подсчитывается доля общих слов для меньшего из двух множеств. Третий способ (самый интересный): суммируются веса каждого из ключевых слов в обоих множествах и делятся на два. Полученные величины суммируются и помещаются на пересечении ключевых слов как показатель силы их связи. Кроме того, для указания силы связи могут быть введены лингвистические переменные. Заполненная таблица дает материал для визуализации данных и их представления в виде графа.

Изложенные соображения - основа дальнейших исследований по

автоматизированному выделению ключевых слов и словосочетаний и построения семантического пространства текста, что позволит, в конечном счете, определить набор репрезентативных терминов для описания онтологии системы.

Особая роль лингвистической среды в условиях информационного общества заключается в ее влиянии на такие управляемые процессы развития социальной системы как культура, наука, образование, право [7]. Само развитие информационного общества сопровождается революционными изменениями в области информационнокоммуникационных технологий,

совершенствованием средств получения, обработки и распространения информации, развитием предметно-ориентированных

информационных систем. В этих условиях актуальность разработки онтологий

определяется такими целями их создания как совместное использование людьми или программными агентами общего понимания структуры информации, обеспечение возможности повторного использования знаний предметной области, создание явных допущений в предметной области, отделение знаний предметной области от оперативных знаний, анализ знаний в предметной области.

Литература

1. IDEF5 Method Report. — Knowledge Based Systems, Inc. for Information Integration for Concurrent Engineering. — 1994.

2. Villemin F.-Y. Ontologies-based relevant information retrieval. (www.cnam.fr/f-yv).

3. Кретов А.А. Метод формального выделения тематически нейтральной лексики (на примере старославянских текстов) // Вестник Воронеж. гос. ун-та. Серия Системный анализ и информационные технологии. - 2007. - № 1. С. 81-90.

4. Программа выделения тематически

маркированной лексики (регистр номер 50201000004 от 11. 05. 2010). Авторы - И.Е. Воронина, А.А. Кретов, И.В. Попова

5. Воронина И.Е. Алгоритмы определения семантической близости ключевых слов по их окружению в тексте / И.В. Попова, И.Е. Воронина, А.А. Кретов // Вестн. Воронеж. гос. ун-та. Серия Системный анализ и информационные технологии. - 2010. - № 1. - С. 148-153.

6. Гинзбург Е.Л. Идиоглоссы: проблемы выявления

и изучения контекста / Е.Л. Гинзбург // Семантика языковых единиц: Доклады VI Международной

конференции. Т.!, М., 1998. - С. 26-28.

7. Воронина И.Е. Создание базовой онтологии для Воронеж. гос. ун-та. Серия Системный анализ и

Российской системы права на основе онтологии информационные технологии. - 2010. - № 1. - С. 154-159.

ЬК1Е_СОКЕ / И.Е. Воронина, Е.А. Пигалкова // Вестн.

Воронежский государственный университет Воронежский государственный технический университет

AUTOMATION OF THE RESEARCH OF THE LINGUISTIC ENVIRONMENT USING THE ONTOLOGICAL MODEL FOR MANAGING THE DEVELOPMENT OF SOCIO-CULTURAL SYSTEM

I.Ye.Voronina, Ya.E. Lvovich

Under consideration the problem of automation of the selection of concepts for the construction of semantic space of the text to define a set of representative terms to describe the ontology of the system. The urgency of developing of the ontologies is determined by necessity of solving the problem of information overflow on the Internet

fey words: linguistic environment, socio-cultural system, semantic space of the text, the ontology of the system, automation of the research

Ключевые слова: лингвистическая среда, социокультурная система, семантическое пространство текста, онтология системы, автоматизация исследований..

Воронина Ирина Евгкеьевна 394052 , Воронеж, Чапаева 112, кв. 99 8-903-650-4410

394006 Университетская пл., 1

ф-т ПММ, кафедра программного обеспечения и администрирования информационных систем 208-698, 208-337

i Надоели баннеры? Вы всегда можете отключить рекламу.