Научная статья на тему 'Модель автоматизации формирования информационно-поискового тезауруса электронной библиотеки'

Модель автоматизации формирования информационно-поискового тезауруса электронной библиотеки Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
201
44
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хайрова Нина Феликсовна, Шаронова Наталья Валерьевна

Предлагается математическая модель интеллектуальной функции человека в отношении понимания и классификации по смысловым признакам лексических единиц языка. При построении модели используется метод компараторной идентификации лингвистических объектов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хайрова Нина Феликсовна, Шаронова Наталья Валерьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The model of automatic forming of the information-search thesaurus in an electronic library

The present thesis is on working out models, algorithms and information technology of semantic processing documents. The method of comparative identification for modeling procedures of analytic-synthetic is processing the texts of documents. Information about practical realization and efficiency of worked out models has given.

Текст научной работы на тему «Модель автоматизации формирования информационно-поискового тезауруса электронной библиотеки»

Предусматривается также автоматическое подключение созданного фрагмента учебного материала в систему дистанционного образования. Эта опция становится доступной после нажатия на кнопке “+” в основном окне дизайнера курсов. Вкладка автоматического подключения также имеет удобный и наглядный интерфейс, показывающий состояние (наличие) файлов фрагмента и вспомогательной информации для работоспособности выбранного шаблона. Здесь же можно сформировать карту сайта для раздела и подключить ее к общей карте сайта для всей системы (рис.2).

Рис. 2. Интерфейс подключения фрагмента и формирования карты сайта

Таким образом, одним из основных преимуществ разработанного Д К по сравнению с существующими аналогами является его более рациональная организация на основе четкой файловой структуры. Модальные диалоговые окна для расширения функциональности визуального редактора дизайнера курсов хранятся в отдельной директории; директория рисунков содержит необходимые служебные иконки; директория скриптов содержит функции javascript, которые реализуют перечисленные выше возможности ДК; в отдельной директо-

рии хранятся имеющиеся в системе дизайнера курсов шаблоны; создана рабочая директория, в которой размещаются созданные электронные учебники.

В процессе разработки ДК был создан удобный пользовательский интерфейс на базе технологии WYSIWYG (what you see is what you get) для работы с буфером обмена (Clipboard); разработаны и программно реализованы элементы управления форматированием текста. Предполагается решить задачу сохранения отформатированного текста в законченную html-страницу с использованием одного из заранее разработанных шаблонов.

Литература: 1. Шеховцов Б.Г., Шкиль А.С., Пиженко И.М., Шмаин Д.Ю. Концепция программно-информационной поддержки гипертекстового учебного материала для дистанционного обучения // АСУ и приборы автоматики. 2001. Вып. 114. С.77-81. 2. Шеховцов Б.Г., Шмаин Д.Ю., Сидорчук Д.М. Информационно-обучающий сервер в системе ДО. Образование и виртуальность 2001. Сборник научных трудов 5-й Международной конференции ассоциации дистанционного образования. Харьков-Ялта: УАДО, 2001.

Поступила в редколлегию 14.05.2002

Рецензент: д-р техн. наук, проф. Кривуля Г.Ф.

Шеховцов Борис Григорьевич, канд. техн. наук, профессор кафедры ЭВМ ХНУРЭ. Научные интересы: микропроцессоры и микроконтроллеры, технологии дистанционного образования. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 40-93-54. E-mail: [email protected]

Шмаин Дмитрий Юрьевич, студент группы КИСС-97-2 ХНУРЭ. Научные интересы: компьютерные сети, Web-программирование, Web-дизайн. Адрес: Украина, 61166, Харьков, пр .Л.Свободы, 51-б,к.608.

E-mail: [email protected]

УДК 519.767

МОДЕЛЬ АВТОМАТИЗАЦИИ ФОРМИРОВАНИЯ ИНФОРМАЦИОННО-ПОИСКОВОГО ТЕЗАУРУСА ЭЛЕКТРОННОЙ БИБЛИОТЕКИ

ХАЙРОВА Н. Ф, ШАРОНОВА Н.В._______

Предлагается математическая модель интеллектуальной функции человека в отношении понимания и классификации по смысловым признакам лексических единиц языка. При построении модели используется метод компараторной идентификации лингвистических объектов.

В настоящее время при организации тематического поиска в автоматизированных информационнобиблиотечных системах (АИБС) используются предметные рубрикаторы, являющиеся неотъемлемой частью лингвистического обеспечения АИБС. В большинстве украинских библиотек применяют

РИ, 2002, № 4

либо переводы западных предметных рубрик: Library Congress Subject Heading (предметный рубрикатор библиотеки Конгресса США), либо формируют собственные рубрикаторы, при этом часто предметными рубриками становятся деления ББК и УДК. При своей немалой устойчивости терминосистема каталогизации постоянно развивается и совершенствуется. Появляются новые виды документов и других информационных ресурсов и, соответственно, новые термины и разделы в рубрикаторе. При современной скорости роста информации лингвистическое обеспечение процессов классификации должно быть более динамичным и настраиваемым на новые отрасли знаний.

Дескрипторные поисковые языки существенно дополняют классификационные индексы и разработанные профессионалами предметные рубрики. Но при осуществлении поиска по свободным ключевым словам (КС), для которых не заданы смысловые связи (иерархические, ассоциативные), изначально закладываются причины потерь информации, практически не заметные для пользователя. Например, при использовании дескрипторного

117

информационно-поискового языка (ИПЯ) на запрос пользователя: <биржевые служащие> литература с КС: <брокеры> .OR. <маклеры> не будет выдана. В то же время классификация ключевых слов системы по определенным темам, основанная на использовании тезауруса, отражающего иерархические связи, привела бы пользователя ко всем понятиям, входящим в данную узкую подтему. Иерархизация и дескрипторизация КС в несколько раз повышает коэффициент полноты выдаваемой информации.

Предлагаемая модель автоматизации процесса составления тезауруса отображает одну из высших форм интеллектуальной деятельности человека — его понимание и классификацию по смысловым признакам лексических единиц естественного языка. Современная методика разработки информационно-поискового тезауруса (ИПТ) основывается на ГОСТе 7.25-80 “Тезаурус информационно-поисковый однозначный. Правила разработки структуры, состав и форма” [1]. В соответствии с этой методикой разработка ИПТ осуществляется на основании трех этапов: 1) определение тематического профиля тезауруса; 2) сбор лексики и формирование словника ключевых слов; 3) формирование классов эквивалентности, выделение дескрипторов.

В предлагаемой модели автоматизации процесса формирования ИПТ на этапе составления словника КС учитывается информативность ключевого слова или словосочетания, определяемая исходя из частоты встречаемости КС в тексте документов, считающихся типичными для данной предметной области. Для учета информационной значимости КС введем весовые коэффициенты, или веса, являющиеся дополнительным средством семантической дифференциации языковых единиц. Алгоритм определения веса ключевого слова базируется на частоте зависимости информационной значимости лексической единицы (ЛЕ) от ее позиции в тексте [2]. Массив ключевых слов для ИПТ формируется на основе концептуальной модели той предметной области, тезаурус которой разрабатывается, данная модель может быть представлена словарем данной предметной области (ПО). При автоматическом составлении списка ключевых слов по текстам документов используются отрицательные словари, содержащие запрещенные к применению в списке слова. КС представлены в словнике в универсальной грамматической форме, для чего используются методы автоматического анализа текста. На этапе морфологической и синтаксической обработки различные формы прилагательных заменяются формой именительного падежа единственного числа мужского рода; формы существительного (при однословном КС) заменяются формой именительного падежа единственного числа [2].

В результате этого этапа получено множество КС R = {rj, Г2гп }, входящих в словник данной ПО. Следует отметить, что предлагаемый метод автоматизации процесса составления словника ключевых слов базируется на больших массивах документов, предназначенных для выделения лексики, что позволяет повысить достоверность получаемых результатов.

В основе третьего этапа разработки тезауруса лежит смысловая классификация лексики. На этом этапе происходит формирование классов эквивалентностей и выделение дескрипторов, т.е. дескрипторизация КС. При выполнении операции дескритори-зации устраняется неоднозначность в виде омонимии и полисемии ключевых слов и осуществляется их группировка по классам условной и безусловной эквивалентности.

Под классификацией ключевых терминов мы будем понимать процесс распределения понятий на взаимно исключающие классы. Класс представляет собой множество объектов, имеющих один или несколько общих содержательных признаков. Классификация в тезаурусе строится таким образом, чтобы в получившейся системе каждый класс занимал относительно других классов определенное, точно зафиксированное место. Основной принцип деления понятий основан на лексической синонимии (безусловная эквивалентность) и семантической родственности слов (условная эквивалентность).

На третьем этапе разработки тезауруса предлагается модель деятельности человеческого интеллекта, базирующаяся на использовании метода компараторной идентификации. Понимая ключевой термин r , выражаемый определенными ЛЕ, классификатор соотносит его с определенным концептом, смыслом, понятием р. Под концептом мы будем понимать информацию, которую несет r о возможных денотатах. Функция f понимания КС отражает соответствие ключевого слова r концепту Р : Р = f(r). Эта функция описывает процесс понимания классификатором КС, т. е. его соотнесение с концептом, знаком которого он является. Если классификатор рассматривает множество ключевых слов словника R , то множество всех значений функции f , т.е. совокупность всех понятий, порождаемых ключевыми словами из множества R , будем обозначать Rj. Функция f отображает множество R на множество Rj, причем оно значительно меньше множества R , так как разнообразие концептов значительно меньше разнообразия их знаков. Ключевые слова, относимые индексатором к одному понятию, мы будем понимать как безусловно эквивалентные (рисунок).

Схема выделения классов эквивалентности КС

118

РИ, 2002, № 4

При составлении тезауруса, кроме классов безусловной эквивалентности, необходимо выделить классы условной эквивалентности, включающие группы равнозначных или семантически близких терминов данной предметной области. Такие ключевые слова соответствуют близким по смыслу концептам. Критерием включения слов или словосочетаний в класс эквивалентности является семантическая значимость этих КС при поиске документов, которая на практике проявляется в следующем. Если КС при поиске документа может быть заменено другим словом так, что на любой запрос выдача документов будет такой же, как и до замены, то такие два КС объявляются условно эквивалентными и включаются в один класс эквивалентности. Таким образом, ключевые слова, входящие в класс условной эквивалентности, соответствуют близким по смыслу концептам. Денотаты таких концептов, как показывают исследования, рассматриваются в одном связном тексте, характеризующемся на уровне семанти -ки — тематичностью.

Понимая текст документа, классификатор соотносит текст t с предметом (денотатом) т , который рассматривается в тексте. Функция понимания текста g : т = g(t), отображающая множество текстов T на множество рассматриваемых в них денотатов T, выражает соответствие предмета рассмотрения тексту.

Будем считать ключевые слова r и Г2 условно эквивалентными, если они соответствуют понятиям pj = f^) и р2 = f^Г2 ), денотаты которых ц и т2 рассматриваются в одном тексте: ц є t и т 2 є t. При этом предикат интеллектуальной аналитико-синтетической обработки документа [3]: в = Z(t, р) отражает соответствие (в = і) и несоответствие (в = О) предмета, рассматриваемого в тексте документа, т концепту р. Установление конкретного вида предиката Z = (т, р) позволит группировать ключевые термины по классу условной и безусловной эквивалентности.

Согласно [3], предикат Z = (т,р) можно установить с помощью дескрипторно-текстового предиката:

Z = (У р) = Z(g(4-f(r)) = Kt,r) •

Таким образом, нам удалось перейти от субъективного восприятия понятий и предметов к объективному отношению между текстом и ключевым словом, соответствующим P(t,r) = і или не соответствующим P(t,r) = О данному тексту. Рассмотрев представительный массив наиболее информативных для данной предметной области текстов документов, удается разбить словник на классы эквивалентности, каждый из которых соответствует одному дескриптору. Критерием выбора дескриптора из класса эквивалентных КС может считаться полнота выражения смыслового значения данного класса, формально выражаемая в частоте встречаемости данного термина r в текстах множества T , и его информационная значимость, формально

выражаемая позицией расположения в тексте, принадлежностью к структурно-определенному фрагменту текста, которые были определены на этапе разработки словника. При этом дескриптором становится ключевое слово с максимальной весовой функцией:

ni vi

F(rk) = log(-^) .

Предполагается, что наиболее существенная информация заключена в заглавиях документов (v = 2, заголовках отдельных их частей (v = 1,75), в отдельных разделах документа: заключении (v = 1,75) , введении (v = 1,75), библиографии (v = 1,75) , первом и последнем абзаце документа (v = 1,5), первом и последнем предложениях каждого абзаца (v = 1,2), первом и последнем предложениях первого и последнего абзаца документа (v = 1,75). Информационный вес лингвистической единицы, не принадлежащей к перечисленным выше структурным фрагментам текста, равен единице (v = 1.

В результате проведенной классификации словник разбивается на дескрипторные статьи тезауруса D {Mc }, где D — заглавный дескриптор словарной статьи, имеющий максимальную весовую функцию; Mc — множество аскрипторов (ключевых слов), входящих в класс условной и безусловной эквивалентности дескриптора.

Таким образом, использование метода компараторной идентификации позволяет моделировать интеллектуальную функцию человека в отношении понимания и классификации по смысловым признакам лексических единиц языка. Благодаря этому появляется возможность автоматизировать процесс дескрипторизации словника КС, что, в конечном итоге, позволяет разработать динамичные и легко настраиваемые на новые предметные области дескрипторные ИПЯ.

Литература: 1. ГОСТ 725-80• Тезаурус информационнопоисковый одноязычный. Правила разработки, структуры, состав и форма представления. Введ. 01.01.82. М.: Государственный комитет СССР по стандартам, 1981.16с. 2. Хайрова ЖФ, Замаруева ИВ^ Машинный перевод: Учеб. пособие. X.: Око, 1998. 82 с. 3^ Хайрова НФ^ Компараторная идентификация документов в полнотекстовой базе данных // АСУ и приборы автоматики. 1999. N 109. С.67-76.

Поступила в редколлегию 10.04.2002

Рецензент: д-р техн. наук, проф. Петров Э.Г.

Хайрова Нина Феликсовна, доцент Харьковского гуманитарного института “Народная украинская академия”. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 27, тел. 40-10-09, добав. 4-50.

E-mail: [email protected]

Шаронова Наталья Валерьевна, д-р техн. наук, профессор, проректор Харьковского гуманитарного института “Народная украинская академия”. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 27, тел. 4010-45. E-mail: cngi @nua.kharkov.ua.

РИ, 2002, № 4

119

i Надоели баннеры? Вы всегда можете отключить рекламу.