Архитектура гипертекстового информационно-поискового тезауруса метаязыка науки
С.В. Лесников (Шр://ЛСВ.РФ), Сыктывкарский гос. университет, доц. каф. математического моделирования и кибернетики Института точных наук и информационных технологий СыктГУ, [email protected];
Д.В. Холмогоров, СыктГУ, доцент каф. МмиК (www. mmik. ru), dima@mmik. ru;
А.В.Лесников, СыктГУ, инженер-программист, [email protected];
Г.С.Лесников, СГМУ (Архангельск), студент, [email protected], А.Г.Мозымов, СыктГУ, лаборант, [email protected]
В статье рассмотрена архитектура конструируемого гипертекстового информационно-поискового тезауруса /ИПТ/ метаязыка науки при финансовой поддержке Российского фонда фундаментальных исследований по проекту N11-07-00733 (2011-2013) «Гипертекстовый информационно-поисковый тезаурус «Метаязык науки» (структура; математическое, лингвистическое и программное обеспечения; разделы лингвистика, математика, экономика)» (научный руководитель - С.В. Лесников). Особенностью конструируемого тезауруса является то, что, помимо традиционного поиска по ключевым словам, тезаурус может помочь пользователю выделять смысловые акценты, соответствующие поисковому запросу, обеспечивая тем самым релевантность и пертинентность запросов.
При сравнении гипертекстовых (электронных, компьютерных, машинных, автоматизированных) версий и бумажных (книжных - традиционных в домашинную эпоху) тезаурусов можно отметить предоставляемые компьютером, информационными системами (технологиями) методические, организационные и технологические преимущества, связанные со следующими возможностями и характеристиками ИПТ:
1) мультимедиа (текст, графика, аудио, анимация, видео - комплексное воздействие на различные каналы восприятия информации; мульти-сенсорность) и гипертекст (нелинейное представление информации посредством гиперссылок);
2) персональность (адаптивность - способность информационной системы автоматически изменять свой дизайн и своё функционирование в интерактивном режиме в зависимости от потребностей и запросов пользователя, его профессионального уровня, а также от конкретных аспектов и режимов работы, состояния и/или внешних условий; индивидуальный, личный алгоритм нелинейной последовательности чтения ис-
точника) и интерактивность (диалог, интеракция, человеко-машинное взаимодействие);
3) выход в коммуникативные ситуации и актуализации дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка (авторство, выбор, история, оценка, парадигма, поиск, разграничение, создание, уточнение, этимология);
4) поиск (точный, нечёткий, контекстный, полнотекстовый; многократный, скоростной; история поиска) и копирование, сохранение и редактирование материалов тезауруса;
5) дружественный интерфейс и художественно-эстетический дизайн;
6) множество входов в тезаурус (веб-формат, база данных; базовый и генеральный словники; систематический и пермутационный, авторский, предметный, хронологический указатели; ключевые слова и словосочетания; терминологизмы);
7) сетевой доступ (возможность использовать тезаурус в локальной, учебной, библиотечной, корпоративной сетях и в Интернете), а также оперирование большими корпусами текстов, неограниченное количество обращений как к фрагментам, так и целиком к тезаурусу; предоставление программой обратной связи с авторами-разработчиками и др.
Исследованиям метаязыка уделяли внимание следующие ученые: О.С. Ахманова, А.Н. Баранов, В.А. Виноградов, Н.В. Гвишиани, В.З. Демьянков, Д.О. Добровольский, Н.Н. Дурново, А.В. Иванов, М.И. Исаев, В.А. Ицкович, А.И. Киселевский, И.С. Куликова, А.В. Лемов, А.Т. Липатов, Л.Е. Макарова, Т.В. Матвеева, В.В. Налимов, В.Н. Немченко, Г.А. Нечаев, Т.М. Николаева, Р.В. Одеков, Е.Д. Поливанов, В.В. Потапов, И.А. Ребрушкина, А.А. Реформатский, Д.Э. Розенталь, О.И. Романова, Д.В. Салмина, М.Н. Славятинская, Н.А. Слюсарева, В.Д. Стариче-нок, М.А. Теленкова, В.А. Шаймиев, А.М. Шахнарович, В.Н. Ярцева.
«Thesaurus (греч.) = научная. коллекция; капитальный словарь» [1. С.730].
«Тезаурус (греч. thesauros - сокровище) - словарь для поиска какого-либо слова по его смысловой связи с другими словами... 1) лингвистический тезаурус - словарь, содержащий перечень слов естественного языка, отобранных в результате содержательного анализа текстов и систематизированных в соответствии с принятой классификационной системой, 2) статистический тезаурус - информационно-поисковый словарь, содержащий перечень слов, отобранных в результате статистического анализа текстов по какой-либо определённой тематике и сгруппированных в словарные статьи на основе частоты совместной встречаемости этих слов в одних и тех же текстах (документах)» [2. С.587].
В современной науке тезаурус - это особая разновидность словарей общей или специальной лексики, в которых указаны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и т.п.) между лексическими единицами /ЛЕ/. Тезаурусы в компьютерной форме являются одним из современных инструментов для описания отдельных предметных областей в научных исследованиях и создания информационно-поисковых систем /ИПС/.
Первым тезаурусом в современном смысле слова фактически был английский тезаурус Роже (англ. Roget's Thesaurus, оригинальное название Thesaurus of English Words and Phrases - «Тезаурус английских слов и фраз») - составлен британским лексикографом Питером Марком Роже около 1805 г. и опубликован в 1852 г.) [3]. Словарь П. Роже - это свод английской лексики, в котором выделены шесть тематических классов, разбитых в свою очередь на давдцать четыре подкласса, каждый из которых представляет собой объединение более мелких семантических групп (примерно по одной тысяче тем на группу). При этом возможны пересечения классов. Темы - типовые семантические контексты для слов; класс семантических контекстов слова - множество тем, которые могут быть ему приписаны.
В качестве образца был взят «Тезаурус научно-технических терминов» [4] - собрание около девятнадцати тысяч научно-технических терминов, отобранных и систематизированных на основе статистического анализа словарного состава отечественных и иностранных научных и политических текстов. Отобранная лексика дополнялась терминами из различных научно-технических словарей, справочников и энциклопедий, таблиц УДК и библиотечно-библиографической классификации /ББК/. При отборе лексики основными критериями были: 1) относительная частота появления термина в различных документах-источниках, 2) относительная частота использования термина в действующей системе, 3) точность и однозначность термина, 4) краткость и понятность термина.
На задаче использования тезаурусов для построения информационно-поисковых систем /ИПС/ и создание информационно-поисковых тезаурусов /ИПТ/ остановимся подробнее.
В связи с тем, что тезаурусы фактически выделились в определённый кортеж словарей, для создания ИПТ разработаны стандарты: ГОСТ
7.24-90 "СИБИД. Тезаурус информационно-поисковый многоязычный. Состав, структура и основные требования к построению" [http://gsnti-norms.ru/norms/common /doc.asp?0&/norms/ stands/7_24.htm] и ГОСТ
7.25-2001 "СИБИД. Тезаурус информационно-поисковый одноязычный. Правила разработки, структура, состав и форма представления" [http://gsnti-norms.ru/norms/common /doc.asp?0&/ norms/stands/7_25.htm].
Правила разработки, структура, состав и форма представления ИПТ определены ГОСТ 7.25-80 (Постановлением Государственного комитета СССР по стандартам от 31 декабря 1980 г. N 6340 срок введения установлен с 01.01. 1982 г.) и ориентированы на использование лексики русского языка и разрабатываемых в рамках автоматизированных систем научно-технической информации.
Моделирование ИПТ осуществляется поэтапно: - определение тематического охвата ИПТ; - сбор массива лексических единиц; - формирование базового и генерального словников ИПТ; - построение словарных статей и указателей; - оформление ИПТ; - экспертиза, регистрация и внедрение ИПТ.
Кратко алгоритм разработки и создания тезауруса можно сформулировать следующим образом [5. С.160-171]:
1) Выбор источников и кластеризация предметной области. При выборе источников учитывается: - наиболее точное соответствие лексического материала предметной области [6]; - технологическая насыщенность и важность источников.
Определение тематического охвата ИПТ осуществляется на основе Рубрикатора ГАСНТИ путём анализа информационной потребности абонентов (потребителей). При анализе состава имеющегося или проектируемого информационного фонда и информационных потребностей абонентов отмечаются все рубрики нижнего уровня Рубрикатора, по которым производится комплектование фондов или соответствующие запросам абонентов. Первоначальный сбор лексики осуществляется выделением ЛЕ из представительной коллекции документов и/или запросов. В полученный массив ЛЕ дополнительно должны быть включены соответствующие тематике лексические единицы, выделенные в соответствии с методикой построения данного тезауруса из следующих источников: Рубрикатора ГАСНТИ; рубрикатора соответствующей АСНТИ; энциклопедических, толковых и терминологических словарей и справочников [6]; терминологических стандартов; классификаторов технико-экономической информации; таблиц УДК (Универсальная Десятичная Классификация), НКИ (Национальная Классификация Патентов), МКИ (Международная Классификация Изобретений) и других систем классификации. В частности, МКИ имеет иерархическую структуру и состоит из следующих пяти отделов: раздел, класс, подкласс, группа, подгруппа.
2) Составление базового и генерального словников (аскрипторы, дескрипторы, лексические единицы, одиночные слова (существительные, прилагательные, глаголы, наречия); именные словосочетания; лексически значимые компоненты сложных слов; сокращения слов и словосочетаний; реляторы; термины и терминологизмы). В словник (первона-
чальные множества ключевых слов) ИПТ могут быть включены следующие типы лексических единиц: одиночные слова (существительные, прилагательные, глаголы, наречия); именные словосочетания; лексически значимые компоненты сложных слов; аббревиатуры; сокращения слов и словосочетаний. При формировании словника рассматривается представительный массив наиболее информативных для данной науки, из которого выбираются слова, употребляемые в этих источниках, при этом устанавливается частота употребления слов и учитываются все формы, которые могут иметь слова.
3) Выявление семантических полей посредством определения кортежей условной эквивалентности /КУЭ/. В КУЭ объединяются лексические единицы, между объёмами понятий которых существуют отношения: - равнозначность (объёмы понятий совпадают полностью); - пересечение (объёмы понятий совпадают частично); - подчинённость (объём одного понятия строго составляет часть другого понятия, но не наоборот); - внеположенность (объёмы понятий полностью исключают друг друга и при этом не исчерпывают области предметов). В синонимическом ряду выделяется доминанта, т.е. такое слово, которое может заменить любое слово из этого ряда. Доминанту называют дескриптором.
4) Установление парадигматических (способы выражения: аналитический, графический, лексикографический, табличный), иерархических (транзитивность и антисимметричность), ассоциативных, грамматических (сюда же можно отнести транслитерацию и варианты записи слов), межъязыковых [7-8] (основа построения машинного переводчика), семантических (антонимы, гиперонимы, гипонимы, синонимы, гендерные синонимы; уменьшительно-ласкательные, усилительные-увеличительные), семантико-грамматических (связи действия, свойства, инструмента, местопребывания. Основными типами связей являются: - род-вид, -часть-целое, - причина-следствие, - сырье-продукт, - административная иерархия, - процесс-объект, - функциональное сходство - процесс-субъект, - свойство - носитель свойства, - антонимия.
Отношения в ИПТ (исключая синонимию) могут быть разделены на два класса: иерархические и ассоциативные.
Иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Поэтому является предпочтительным вводить отношения как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды.
Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения сино-
нимии. Допускается включать в ассоциативное отношение все виды отношений, кроме синонимии и отношения род-вид.
5) Создание словарных статей и лексико-систематических (тематические, категориальные, смешанные), пермутационных, иерархических и др. указателей и списков специальных категорий лексических единиц (общие категории: названия дисциплин и отраслей деятельности; предметы, материалы; методы, процессы, операции, явления; свойства, величины, параметры, характеристики; отношения, структуры, модели, законы, правила, абстрактные понятия). В компьютерном варианте ссылки или реализуются в форме гипертекстовых ссылок, или заменяются на соответствующие графические примитивы (напр., # (диез, решётка) - символ для отделения текста одной словарной статьи тезауруса от другой словарной статьи; = (равно) - знак эквивалентности, синонимии; _ (подчёркивание) - используется для замены символа пробела, что обусловлено необходимостью предварительной параметризации для последующей компьютерной обработки и гипертекстовой разметки в интерактивном режиме на персональном компьютере; =>, -» (стрелка вправо) - знак трансформации, отсылка на др. словарную статью; <= (стрелка влево) - знак производности; —= (логическое «не» со знаком равно) - знак противоположности, антонимии).
Для дескрипторов устанавливаются парадигматические отношения, отражающие лексико-семантические связи между понятиями, выражаемыми дескрипторами. Связь указывают путем внесения в дескриптор-ную статью ссылки, включающей обозначение согласно таблице ссылок и связанный дескриптор.
Систематический указатель является перечнем дескрипторов, сгруппированных согласно принятой в ИПТ рубрикации.
Иерархический указатель отражает полную структуру иерархических отношений и представляет собой перечень списков дескрипторов, причем каждый список начинается с дескриптора, не имеющего вышестоящих. После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием их уровня в иерархии путём применения нумерации либо графического обозначения уровня.
Пермутационный указатель предназначен для поиска ЛЕ по отдельным словам, входящим в текст ЛЕ, в том числе и по тем, которые стоят не в начале ЛЕ. Пермутационный указатель представляет собой перечень списков, каждый из которых соответствует одному из знаменательных слов в составе ЛЕ и включает все ЛЕ, содержащие это знаменательное слово. Перечень списков упорядочен по алфавиту знаменательных слов.
6) Автоматизация процессов построения тезауруса: - частотный, статистический, компьютерный, математический анализ; б) коррекция ста-
тей; в) сортировка словников; г) проверка взаимности и непротиворечивости ссылок; д) составление указателей; е) конвертация в требуемых форматах и кодировках [9]. Построение тезаурусов с использованием компьютеров [10] позволяет автоматизировать следующие процессы построения ИПТ: частотный анализ, коррекция статей, алфавитная сортировка словника, проверка взаимности и непротиворечивости ссылок, составление указателей, распечатка в требуемых формах [11].
7) Экспертиза, регистрация, ввод в научный оборот и технологическое внедрение.
Среди областей применения ИПТ выделяют следующие: - составление, уточнение и оптимизация поисковых запросов; - автоматическое выделение из лексикографических материалов наиболее содержательных фрагментов, обеспечивающее пользователю возможность быстро просматривать корпусы текстов больших объёмов; - установление гипертекстовых ссылок (связей) между похожими документами и/или их фрагментами, что даёт возможность пользователю, найдя один релевантный первоисточник, запросить похожие на него тексты или их фрагменты; - реферирование и аннотирование, редактирование текстов; - повышение полноты и точности поиска в полнотекстовых БД на естественном языке; - автоматизированное индексирование текстов, документов и запросов; - анализ терминологического состава той или иной отрасли знания; - терминологический контроль и нормализация лексики конкретной отрасли знания, обеспечение единого и формализованного представления информации в ИПС и БД/БЗ; - явное выражение парадигматических отношений, существующих между лексическими единицами. Кроме этого, ИПТ могут быть использованы как средство: - описания (инвентаризации) существующего уровня знаний в той или отрасли наук; - описания истории развития специальных знаний в определённой предметной области; - исследования особенностей развития отраслевых знаний, включая количественное и качественное исследования вклада отдельных учёных и научных школ в развитие общей теории с учётом как количества, так и новизны (в зависимости от статуса вводимого термина - основной термин или синоним уже существующего наименования понятия) и иерархического статуса понятий, вводимых соответствующим термином; - систематизации терминологии (в тезаурусе, где система понятий эксплицитна, т.е. явно выражена, иерархия понятий всегда представлена наглядно); - стимулирования развития знаний (напр., выявить пробелы (пропуски, лакуны), малоизученные понятия и «точки сгущения» в терминологических и понятийных системах, что может служить ориентиром в последующих исследованиях и позволит выявить аналогии подсистем понятий, а также определить
тенденции выделения подсистем понятий и рубежи знаний, от которых возможно дальнейшее развитие данной области) [12].
В нашем случае предполагается, что сконструированный гипертекстовый информационно-поисковый тезаурус метаязыка лингвистики с автоматически модифицированными запросами позволит повысить качество результатов поиска. Эффективность поиска повышается с помощью дополнительного анализа результатов поиска (напр., учёт времени создания и модификации, формата и размера найденных файлов, URL; авторства; метатегов разметки). Автомматизированные операции с запросами могут поддерживать интерактивность поискового процесса и способствовать также обучению пользователей навыкам Интернет-поиска. Традиционные ручные процедуры создания тезауруса, безусловно, являлись узким местом формирования даже отдельных предметных тезаурусов. Поэтому планируется основное внимание уделять возможности полуавтоматического, интерактивного конструирования ИПТ [13.
В Интернете традиционно для поиска используются поисковые системы, которые, как правило, состоят из следующих модулей: 1) "паук" (spider) - браузероподобная программа, которая, не имея визуальных компонентов, скачивает веб-страницы для промежуточного анализа; 2) "путешествующий паук" (crawler) - автоматически проходит по гиперссылкам, найденным на странице для определения дальнейшей траектории; 3) индексатор (indexer) - анализ и разбор скачанных пауками вебстраниц по структурным элементам типа заголовков страниц, элементов title, style, head, bold, italic, strong, density (количество ключевых слов относительно текста страницы), domain, URL, metainformation (метаданные), links и др.; 4) база данных (database) - хранилище скачанных и проанализированных страниц; 5) система выдачи результатов (search engine results engine) - извлечение результатов поиска из базы данных для выбора удовлетворяющих запросу пользователя. В конструируемом тезаурусе создаётся аналогичная система поиска.
ИПТ является не только самостоятельным и самодостаточным компьютерным ресурсом, но и инструментом для поиска, классификации, систематизации и индексации ресурсов. Пользователь ИПТ имеет возможность осуществлять: - просмотр тезауруса; - поиск по ключевым словам и ассоциированным терминам (дескрипторам, классам, темам); -навигацию по тезаурусу (поиск искомого понятия в тезаурусе с последующим запросом ресурсов, соответствующих этому понятию). При поиске ресурсов по ключевым словам ИПТ позволяет расширять результаты поиска, выдавая пользователю не только ресурсы, соответствующие введенным пользователем ключевым словам, но и ресурсы, соответствующие связанным с ними понятиями (семами), или термина-
ми, обозначающими также более узкие понятия относительно исходного термина. Интерфейс ИПТ позволяет показывать: - атрибуты данного термина; - гиперссылки и связи данного термина; - место термина в иерархии понятий тезауруса. Перспективным направлением является разработка не однозначных, а мультигипертекстовых ссылок, когда в тезаурусе схемой данных будет разрешена привязка термина более чем к одному понятию, а также в случаях когда у понятия есть эквиваленты на других языках. Наглядно показать пользователю место термина или понятия в тезаурусе достаточно сложно, поскольку достаточно наглядное отображение полииерархической структуры на одном экране, в отличие от иерархии, довольно сложно как для отображения, так и для восприятия пользователем. В частности, в общем случае затруднительно обходиться без пересекающихся линий, показывающих иерархические, гипертекстовые связи между понятиями, а потому целесообразно на первом этапе показывать только часть понятий и связей, которые, с одной стороны, были бы легко программно реализуемы, отображаемы и адекватно воспринимались пользователем, и в то же время достаточно наглядно показывали бы место понятия в общей иерархии тезауруса.
Конструирование тезауруса обусловлено необходимостью единства в терминологии - нередко учёные одно и то же явление называют по-разному, с другой стороны, один и тот же термин бывает полисемичен даже в рамках одной научной области. Кроме этого, при анализе уже опубликованных терминологических словарей определённой науки бросается в глаза лакунарность состава словников и некая тенденциозность подачи научных материалов авторами-составителями. Фактически речь идет о составлении метаязыка науки - особого языка, объектом которого является содержание и выражение другого языка, т.е. в нашем случае метаязык - это язык второго порядка как специальная семиологическая система, употребляемая тогда, когда надо говорить о естественном (или искусственном) языке же, выступающем в качестве «языка-объекта». При этом можно отдельно выделить в метаязыке следующее: 1) собственно термины (слова, которые или совсем не употребляются в языке -объекте, либо приобретают, после заимствования из языка-объекта, особое значение), 2) сочетания слов, которые характеризуют собственно метаязык определенной науки в его полном виде (напр., составные термины), 3) определенный социально-предметный аспект (напр., когда метаречь отражает специфику эпохи, того или иного научного направления, школы) [14].
Литература
1. Смирнов В. Полный словарь иностранных слов, вошедших в русский язык с
общедоступным толкованием их значения и употребления, и со включением
отдельных слов и фраз, употребляющихся в устной и письменной речи в их
оригинальной иностранной форме. М.: Издание торгового дома
B.Коновалова и К, 1908. 800 с.
2. Кондаков Николай Иванович. Логический словарь-справочник / Отв. ред. Д.П. Горский. М.: Наука, 1975. 720 с.
3. Roget P.M. Thesaurus of English Words and Phrases. New ed. N.Y., 1964. //
[http://www.gutenberg.org/files/10681/10681 -body.txt]
4. Тезаурус научно-технических терминов. Под ред. Ю.И.Шемакина. М.: Воен-
издат, 1972. 672 с.
5. Герд А.С, Богданов В.В, Буторов В.Д, Роменская В.Ф, Тисенко Э.В, Андреева
Е.С Информационно-поисковый тезаурус как объект лексикографии / Структурная и прикладная лингвистика. Межвузовский сб. Вып.1. / Отв. Ред. А.С. Герд. Л.: Наука, 1978. С.160-172.
6. Лесников С.В. Словарь русских словарей. М.: Азбуковник, 2002. 334 с.
7. Лесников С.В. Базовые латинские терминоэлементы метаязыка лингвистики //
Актуальные проблемы современного научного знания: материалы IV Международной научно-практической конференции. Пятигорск: ПГЛУиздат, 2011. С. 112-118.
8. Лесников С.В. Основные латинские терминоэлементы и термины метаязыка
лингвистики // Научные ведомости Белгородского государственного университета. Гуманитарные науки. N12 (107). Вып.10. С.37-45
9. Кузнецова И.В., Лесников С.В. Разработка и описание гипертекстового ин-
формационно-поискового тезауруса по алгебре. Вестник Российского университета дружбы народов. Серия: Информатизация образования. 2011. N3.
C.70-76.
10. Лесников С.В. Типология программного обеспечения для компьютерного анализа текстов // Русский язык в современном мире: материалы заочной всероссийской научно-практической конференции. Биробиджан: Изд-во ГОУВПО "ДВГСГА", 2011. С.80-85.
11. Лесников С.В. Интерактивное моделирование информационно-поискового тезауруса метаязыка науки на персональном компьютере в режиме реального времени // Роль иностранного языка в модернизации современного образовательного процесса. Барнаул: Изд-во "Концепт", 2011. С.69-74.
12. Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. Алма-Ата: Гылым, 1991. 222с.
13. Лесников С.В. Проект конструирования русского тезауруса // Славянские языки и культуры. Иркутск: ИГЛУ, 2011. С.153-163.
14. Лесников С.В. Лесников С.В. Гипертекстовый словарь базовых дефиниций, интерпретаций, объяснений, определений, понятий, пояснений, разъяснений, толкований, трактовок, формулировок, экскурсов и эксцерпций терминов метаязыка лингвистики (языковедения, языкознания) // Медиадискурс и проблемы медиаобразования: материалы I Международной научно-практической конференции. Омск, 2011. С.146-151.