Моделирование словаря-тезауруса

Касилов О.В.

УДК 618.3.01

О.В. КАСИЛОВ

МОДЕЛИРОВАНИЕ СЛОВАРЯ-ТЕЗАУРУСА

У статті наведені методи формалізації структури паперового словника-тезауруса, при цьому словник розглядається як різновид інформаційної системи. Пропонується набір правил перетворення структури паперового словника в його електронну форму з використанням мови розмітки структурованих текстів XML.

In this article the formalization methods of paper dictionary - thesaurus structure is listed, in this connection the dictionary is considered as a version of information system. The procedures set that transform paper dictionary structure to its electronic form using sectoring of structured texts XML language is offered.

Постановка проблемы. В настоящее время создание корпусов текстов, разработка лингвистических баз данных, информационно-поисковых систем -это приоритетное направление в компьютерной лингвистике. Создание электронных словарей-тезаурусов является одной из задач. Формализация структуры бумажного словаря-тезауруса, и разработка правил преобразования словарной статьи словаря в электронную форму позволяет разработать лингвистический процессор, автоматизирующий процесс создания электронных версий словарей-тезаурусов, являющихся основой лингвистических баз данных.

Анализ литературных источников показал, что разработки в области технологий создания электронных словарей ведутся не высокими темпами. Как указано в «Каталоге лингвистических программ и ресурсов в Сети» доступны только 4 электронных версии тезаурусов для английского языка, а для украинского и русского языков такие разработки отсутствуют.

Разработки, проводимые в последнее время, в основном сосредоточены на пополнении существующего ядра лингвистической базы данных [1 - 3], проблем формализации в лингвистике [4], а не на разработку лингвистического процессора, позволяющего автоматизировать процесс создания электронного словаря. Ряд авторов обратили внимание на необходимость использования специализированных языков разметки таких как XML [5, 6], что подтверждает правильность выбора этого средства для работы со структурированными данными, которыми являются бумажные словари.

Цель статьи - анализ логической структуры бумажного словаря-тезауруса, формализация его структуры и разработка правил преобразования словарной статьи словаря-тезауруса в электронную форму.

Основной раздел. Словарь как абстрактная лексикографическая система обязательно имеет структуру, которая содержит две части: левая (реестровая) и правая (интерпретационная).

Именно наличие правой части отличает словарь от списка слов. Но словарь имеет и более глубокую структуру, которая отображается в строении левых и правых частей словаря в целом и его словарных статей, а также в структуре межстатейних и межсловарных отображений.

Таким образом, словарь представляет собой специальный вид текста, в котором в систематизированном и структурированном виде представлено описание лексики определенного языка (или совокупности языков). Однако словарь рассматривается и как специфический объект техники, а именно -информационную систему, где посредством полиграфического исполнения обозначаются лингвистические эффекты с помощью шрифтовых выделений, позиционного размещения, специальных пометок и т.п., которые играют роль идентификаторов соответствующих информационных переменных.

Сложность построения словаря состоит в том, что не все элементы его структуры явным образом обозначены указанным выше способом. В структуре реальных словарей, как правило, большое количество неявных структурных элементов, выявление которых часто является довольно сложной задачей.

Множество структурированных элементов словаря вместе со способами их комбинирования составляют своеобразный метаязык словаря, определения системных характеристик которого может быть основой для развития соответствующих формальных моделей. Процесс абстрагирования словарного метаязыка является специфической разновидностью лексикографического эффекта.

Информационно-лексикографическая модель любой лексикографической системы (или ее реализация) может быть представлена в следующем виде:

V(l)={л{l\ Р(е\И}, (1)

где V(£) - лексикографическая система как множество словарных статей; Л(^) - множество левых частей словарных статей словаря V(I); Р(р) - множество правых частей этого же словаря; Н - отображение множества Л(^) на р(£) :

И : Л(?)^ Р(е). (2)

В определении лексикографической системы отображение Н выступает функцией, которая ставит в соответствие левой части словарной статьи ее правую часть и обеспечивает дихотомическую целостность построения

соответствующей словарной статьи.

Лексикографическое размежевание левой и правой частей касается не столько формально позиционного их расположения в словарной статье, сколько отображения функционального противопоставления формы и

содержания в слове. В бумажных словарях в их непосредственном печатном исполнении часты случаи «перемешивания» отдельных элементов структуры Л(£) на р(£).

В структуре лексикографической модели, как и в бумажных словарях, словарная статья начинается соответствующим заголовочным словом х. Поэтому, формула (1) записи словарных статей лексикографической системы детализируется таким образом:

,,(£)=«й/М • Л(£)=• Р(£)=,,й/м • (3)

где V (х) - словарная статья лексикографической системы V (£), начинающаяся заголовочным словом х;

Л(х) - левая часть словарной статьи; Р(х) - правая часть словарной статьи; v(x) - однозначная функция от х и заголовочное слово х выступают как идентификатор V (х).

Из определения отображения Н следует, что И (Л (£) = Р (£)), причем функция Н является однозначной. На множестве V(1) определяется частичный порядок, индуцированный «лексикографическим» упорядочением множества 5 о (£).

Среди основных структурообразующих элементов лексикографической системы V(I) выделяем систему ее автоморфизмов, то есть отображений

А : Л(£)^ V(£) (4)

системы V(£) в себя. Автоморфизм А может, в частности, констатировать наличие отсылочных типов словарных статей, например, таких: х см. у. Указанный автоморфизм определяет такое отображение словарных статей:

V (х)^- V (у). Его идентификатором является, как правило, некоторое отсылочное псевдослово (в приведенном примере - см. у), которое противопоставляет словарной статье V (х) ее соответствие V (у). Заметим, что строение автоморфизма А может быть более сложным, чем в этом примере.

Во-первых, длина ряда отсылок может быть больше единицы, то есть иметь рекурсивный характер:

v(x)^^{v(x')}^^ ■■■^{Кх'")}^ ■■■ .

Кроме того, отображение V (х)^ V (у) может репрезентовать целый пучок отсылок. Это реализуется, если словарная статья V (х) имеет такое строение:

х, х’, х" , ... см. у, у’, у", ... .

В этом случае в одной словарной статье V(х) определен пучок отображений:

^х)^.V(y); v(x )^V(у ), v(x )^>v(y") ... .

Для формирования лексикографической базы данных необходимо выполнить формализацию структуры словаря; с этой целью введем дополнительные обозначения.

Обозначим через V(х) словарную статью с реестровой единицей X (дескриптор); Л(х) часть словарной статьи, которая содержит заголовочный ряд; через 5 (х) - часть словарной статьи, которая обозначает

парадигматические отношения дескриптора и состоит из отдельных значений, содержащих ряд объяснений и помет Бі, заголовочного слова (термина) X:

Через ^ обозначим часть словарной статьи, которая включает группу ее терминологических словосочетаний, которые входят в состав значения Б1:

то каждой словарной статье можно поставить в соответствие графический представитель ее структуры.

Элементарной структурной единицей тезауруса является словарная статья дескриптора, которая строится по алфавитно-структурному принципу

где а - заглавный дескриптор; Мл - упорядоченное по алфавиту множество условных синонимов данного заглавного дескриптора, образующих вместе с ним класс условной эквивалентности; ма - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с заглавным

дескриптором отношением «род - вид»; М.3 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с заглавным

дескриптором отношением «вид - род»; Мі4 - упорядоченное по алфавиту множество дескрипторов, каждый из которых связан с заглавным

дескриптором по крайней мере одним из следующих парадигматических отношений: целое - часть, часть - целое, причина - следствие, следствие -причина, функциональное сходство (ассоциативные связи).

Любое из перечисленных множеств может быть одноэлементным и даже пустым, т.е. может отсутствовать в словарной статье.

Множество мл в совокупности с дескрипторами а. образуют класс условной эквивалентности, который также является дескриптором. Это

п

5 (X) = и ^ .

І=1

(5)

п

(6)

Таким образом:

V (X) = Л( X )и5( X).

(7)

Если принять соглашение:

а і < мл, мі2, Мз, міА >,

множество мй выполняет функцию номинального определения, которое уточняет смысл дескриптора dt, выбранного для обозначения этого класса условной эквивалентности.

Рассмотрев структуру словарной статьи словаря-тезауруса [7] и ее запись на языке разметки структурированных текстов XML [8], запишем набор правил для преобразования входных данных (словарная статья) в выходные

'я с и за CQ

пи(т{ ) = R1,

ОТ 2(т/) = R2,

ОТ 2(т {) = R3, ■j =

ОТ 4(т{) = R4,

"j ^ in и = R5

(8)

где Т0 - дескрипторная группа; ^ - родовой дескриптор; Т2 - видовой дескриптор; Т3 - дескриптор; Т4 - условный синоним; Т5 - ассоциативный дескриптор; ] - словарные статьи словаря; ПРИ - программы(а),

выполняющие преобразование; Яи - результат преобразования.

Рассмотрим абстрактный пример словарной статьи, которую запишем в символьной форме и укажем соответствующие правила преобразования (8) к входному потоку данных:

Обозна- чение Символьная форма (Входные данные) Преобразование Выходные данные

dSi НГ ИГ nP1 <area id = “НГ” name = “ИГ”/>

di Д НГ (П) nP2 <descript id = “Д” area = “НГ”/> </descript> <explan>(n) </explan>

Мл ИВ Див nP3 <syn id = “Див”/>

Mi2 PД Дрд nP4 <child id = “Двд”/>

Міз ВД Двд nP5 <child id = “Двд”/>

M і4 АД Дад nP6 <assoc id = “Дад”/>

Выводы. Анализ логической структуры бумажного словаря-тезауруса позволил провести формализацию его структуры и разработать правила

преобразования словарной статьи словаря-тезауруса в электронную форму с использованием языка разметки структурированных текстов XML, предложена система дескрипторов на базе правил XML для представления словарной статьи в электронной форме.

Pазработанная модель словаря-тезауруса и набор правил преобразования словарной статьи словаря-тезауруса в электронную форму являются основой формирования лексикографического процессора. При формировании лексикографической базы данных структурообразующие элементы играют роль элементов структуры базы данных и ее поисковых параметров. Формирование лексикографической базы данных после проведенной формализации структурообразующих элементов словаря редуцируется к полностью автоматической процедуре, которой подвергается текст.

Словарь может быть использован как фрагмент лингвистического обеспечения создаваемых автоматизированных систем, связанных с соответствующей предметной областью.

Список литературы: І. Герд А.С. Базы данных и прикладная лингвистика. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под. ред. А.С. Герда. - СПб.: Изд-во С.-Петерб. ун-та, 2002. - 168 с. 2. Азарова И.В. и др. Pазработка компьютерного тезауруса русского языка типа WordNet. Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под. ред. А.С. Герда. - СПб.: Изд-во С.-Петерб. ун-та, 2002. - 168 с. 3. Azarova L., and others. RussNet: Building a Lexical Database for the Russian Language // Proceedings of Workshop on WordNet Structures and Standardisation, and How These Affect WordNet Applications and Evaluation in LREC2002, June 2002. Las Palmas de Gran Canaria, 2002. 4. Широков В.А., Рубанець О.Г. Формалізація у галузі лінгвістики // Актуальні проблеми української лінгвістики: теорія і практика. - К., 2002. - Вип. 5. С. 3-27. 5. Андреев А.В. Представление данных в Индоевропейском компьютерном тезаурусе (ThIE). Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под. ред. А.С. Герда. -СПб.: Изд-во С.-Петерб. ун-та, 2002. - 168 с. б. Boguslavsky IM., Grigorieva S.A., Grigoriev N.V., Kreidlin L.G., Frid N.E. Dependency Treebank for Russian: Concepts, Tools, Types of Information // Proceedings of the 18th Conference on Computational Linguistics. Vol. 2. Saarbruecken, 2000. P. 987991. 7. Касилов О.В. Методы представления структурированных текстов естественного языка в XML описании // Вісник НТУ «Xni». Збірка наукових праць. Тематичний випуск: Нові рішення у сучасних технологіях. - Xарків: НТУ «Xni». - 2002. - № 6. - Т. 2 - 156 с. 8. Касилов О.В., СамойловА.Н., ШраерА.С. Основы разметки текстов // Вісник НТУ «Xni». Збірка наукових праць. Тематичний випуск: Автоматика та приладобудування. - Xарків: НТУ «Xni». - 2002. -№ 9. - Т. 7. - 198 с.

Поступило в редакцию 20.04.04

Моделирование словаря-тезауруса Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Касилов О. В.

Текст научной работы на тему «Моделирование словаря-тезауруса»