Научная статья на тему 'Разработка предметно-ориентированных информационных баз данных'

Разработка предметно-ориентированных информационных баз данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
326
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка предметно-ориентированных информационных баз данных»

РАЗРАБОТКА ПРЕДМЕТНО-ОРИЕНТИРОВАННЫХ ИНФОРМАЦИОННЫХ БАЗ ДАННЫХ М.И. Вершинин, Н.В. Колпакова, В.М. Золотарев

Современный этап развития информатизации общества характеризуется колоссальным ростом числа пользователей всемирной сети Интернет, число которых приближается к миллиарду. Совершенствование технических и программных средств расширяют для исследователей возможности доступа к информационным ресурсам для научной работы и позволяют избежать дублирования научных исследований, сэкономить время и средства.

В то же время исследователи, работающие в различных областях науки, сталкиваются со значительными трудностями в процессе поиска и получения данных. Многие узкие научные направления развиваются независимо, а информационные системы имеют разные форматы представления и хранения данных. Вместе с тем исследователи используют доступ только к тем ресурсам, о которых им известно. Эта проблема особенно остро встает при обобщении данных в смежных областях знаний.

Решить отчасти эту проблему позволяют предметно (проблемно)-ориентированные базы данных (ПОБД), под которыми понимаются базы данных, содержащие тематически связанные документы и/или данные, предназначенные для решения прикладных задач определенного вида. ПОБД должны удовлетворять следующим требованиям:

- интеграция данных в едином информационном ресурсе и возможность унифицированного доступа к нему;

- объем данных по определенной предметно-ориентированной тематике должен обеспечивать адекватное отображение состояния предметной области;

- информация должна обеспечивать проведение анализа с использованием информационных технологий;

- своевременная актуализация данных.

Наилучший результат получается, если отбор информации для ПОБД производит специалист высокой квалификации в соответствующей предметной области. Можно использовать также отбор информации в автоматическом режиме по формальным признакам и их комбинации (ключевые слова, авторский коллектив, наименование издания и т. п.)

Для представления баз данных на Web-страницах используются два основных способа: статическая и динамическая публикация Web-страниц, содержащих информацию из БД. При статической публикации БД Web-страницы создаются и хранятся на Web-сервере до поступления запроса на их получение. Этот способ используется при публикации информации, содержащейся в достаточно редко актуализируемой БД. Подобная организация публикации БД имеет такие преимущества, как более быстрый доступ к информации и уменьшение нагрузки на сервер при обработке запроса. Динамическая публикация используется тогда, когда необходимо публиковать информацию из БД в реальном масштабе времени, например, в системах электронной коммерции и бизнес-информации. В этом случае Web-страницы создаются после поступления запроса на Web-сервер, который передает запрос на генерацию этих страниц программе, формирующей требуемый документ. Затем готовый документ отсылается обратно браузеру.

ПОБД можно отнести к статическим, поскольку период их актуализации измеряется днями, неделями, а то и месяцами. При их преобразовании в Web-страницы следует решить несколько задач:

- минимизировать ручной труд при преобразовании ПОБД;

- выбрать структуру Web-представления ПОБД;

- сократить время отклика за счет минимизации трафика.

Очевидно, что эти задачи следует решать с помощью программных средств. В Библиотеке РАН для представления в Интернет ПОБД разработан программный комплекс VerWeb [1]. Он позволяет автоматически сформировать Web-страницы в виде сложной структуры, имеющей от одного до трех ссылочных уровней и нижний, информационный, уровень. С нижнего уровня может происходить переход к изображению, полному тексту или к другой HTML-структуре.

Таким образом, ПОБД преобразуется в систему многоуровневых указателей различного вида: алфавитные, хронологические, смешанные с переходом к полному тексту и/или изображениям. Указатели на каждом уровне могут быть одного из 7 типов:

- текст (любая текстовая информация из полей ББД);

- алфавит (точки входа в виде цифр от 0 до 9 и букв латинского и русского алфавитов);

- алфавит-2 (точки входа в виде двухсимвольных сочетаний), который должен присутствовать только после алфавита;

- дата (точки входа в виде цифр и/или диапазонов дат);

- первый значимый термин поля;

- второй значимый термин поля;

- второй и третий значимые термины поля.

Под значимыми терминами понимаются термины, не входящие в неинформативную лексику. Понятие неинформативной лексики (НИЛ) шире, чем распространенный термин «стоп-слова». Дело в том, что в НИЛ входят не только так называемые стоп-слова, но и термины, не несущие информации в контексте той или иной базы данных. Так, например, термин «оптика» в контексте ПОБД по оптике не является информативным. Примерами таких многоуровневых указателей могут быть:

- алфавит ^ авторы ^ библиографические записи^ полный текст (изображение);

- алфавит ^ алфавит-2^авторы ^ библиографические описания;

- алфавит ^ первый значимый термин^второй значимый термин ^ библиографические описания ^ полный текст;

- алфавит ^ термины из заглавий ^ заглавия ^ библиографические записи и т.п.

На информационном уровне описание изданий присутствует в одном из пяти видов:

- библиографическое описание;

- библиографическая запись;

- аналитическое описание (для сборников);

- спецификации (для периодики);

- описание журнала.

В свою очередь, на информационном уровне может быть ссылка на текст, html-страницу, изображение или сайт.

Выбор той или иной системы указателей определяется составом и размером ПОБД, а также прогнозируемыми потребностями поиска. На физическом уровне Web-представление ПОБД может быть в одном из 3 видов:

- отдельные файлы (для каждой ссылки - свой отдельный файл);

- якоря (anchor) в файлах (семейство ссылок последнего уровня имеет общий файл с якорем для каждой ссылки);

- якоря в одном файле (один файл для всей ПОБД с якорями в нем для каждой ссылки) - для небольших ПОБД.

Структура ссылок Web-представления ПОБД визуализируется системой фреймов (кадров), как горизонтальных (алфавит, диапазоны дат), так и вертикальных (текст, дата, алфавит-2), которая выбирается пользователем. В диалоговом режиме настраиваются основные элементы Web-страницы (шрифт и цвет). Кроме этого, используется технология каскадных таблиц стилей (CSS), что позволяет управлять оформлением всех

страниц, изменяя параметры в одной таблице. Особо отметим, что в описания изданий легко интегрируются изображения и текстовые файлы, например обложки журналов, оглавления и т.п., если ссылки на соответствующие файлы изображений или тексты есть в определенном поле БД.

Для сокращения числа точек входа используются файлы неинформативной лексики, причем средства создания и корректировки этих файлов (построение частотных таблиц, групповой отбор, пересортировка таблиц разными способами) встроены в программу VerWEB. Следует отметить, что многоязычная служебная лексика (артикли, союзы, предлоги и т. п.) удаляется автоматически на основе встроенных в программу таблиц и в статистике не учитывается.

После создания указателей автоматически генерируется главная страница, содержащая список указателей и изображение-заставку.

На основе этой технологии создаются ПОБД по некоторым разделам оптики и ее приложениям: «Оптика. Оптические постоянные» и «Оптические свойства дентина и эмали зуба». Физически это единая БД, но отбор по различным критериям позволяет сформировать две ПОБД по соответствующей тематике. Они содержат как описание монографий, справочников, так и ссылки на журнальные статьи. Часть описаний содержит ссылки на изображения и таблицы.

Применение НИЛ при построении точек входа по ключевым словам в ПОБД «Оптика. Оптические постоянные» позволяет сократить число точек входа примерно с 1100 до 500. ПОБД «Оптика. Оптические постоянные» представлена в виде указателей заглавий, авторов, ключевых слов. ПОБД «Оптические свойства дентина и эмали зуба» представлена в виде указателей заглавий, авторов, ключевых слов и наименований изданий.

Иивннс t УКЦЗПЭЛ:.

ABCDEFCHIJKLMNOPRSTVWYZ АБВГДЕЗИКЛМНОПСФ

За ндел ь А. Н, Золота рав В. И.

Золотарев В, М. О пт и ч ее ки е г остоя н н ы е -

природных и технических сред.Справочник : Б. М. Золотарев, Б.Н. Морозов, Е, Б. Смирнова. - Л.: Химия, 19В4

Оптические постоянные Природных и технически* сред

Рис.1. ПОБД "Оптика. Оптические постоянные". Авторский указатель

Технология создания ПОБД выглядит следующим образом.

Для авторского указателя, учитывая, что размер БД относительно невелик, выбираем двухуровневое представление:

• I уровень: горизонтальная ориентация фрейма, алфавит, источник данных -подполе a полей 700 и 701 (здесь и далее используется формат библиографического описания UNIMARC), поскольку эти поля содержат авторские данные, то они берутся целиком, без сегментации на термины.

• II уровень: вертикальная ориентация фрейма, текст, источник данных - поля 700 и 701. Текст формируется следующим выражением 000Aa" "+000Ab+","000Ac, которое позволяет вывести фамилию (подполе a), инициалы (подполе b) и дополнительную информацию (подполе c).

Полученный результат представлен на рис.1.

В текст интегрировано изображение обложек книг. Связь с файлом изображения и текстовым файлом организована через поле 800. От обложки существует переход на связанный с ней текст, как показано на рис.2.

|'шш Ииеннслутаззштэ

ABCDEFCHI JKLMNOPR3T VWVZ АБВГдЕЗИКЛМНОПСФ

Заноаль А. Н. <1 1 'с 16 ЗЭ 50

Золотарев В. М. см -1 п X п * и X п X

550 14 Б 0,4 1,43 0,42 1,4 О,4 1,39 О,4

560 1,15 О, 42 1,42 О,42 1,39 О,43 1,37 0,1:

570 1,43 О ,42 1,41 О,42 1,37 О,43 1,36 О,43

5ВО 1,42 0,42 1,40 0,42 1,36 О,43 1,35 О,43 -

5ЭО 1,41 О,42 1,38 О,43 1,35 О,43 1,34 О,43

SDO 1, 40 О,42 1,37 О,42 1,34 О,42 1,32 О, 4 2

S1D 1,35 0,42 1,36 0,42 1,33 О,42 1,31 о,4:

620 1,37 О,42 1,35 О,41 1,31 О,41 1,29 О,41

бЗО 1,36 О,42 1,34 О,41 1гЗО О,41 1, 28 О,41

Б40 1,35 0,42 1,33 0,41 1,29 0,40 1,27 0,4С

650 1,34 О,41 1,32 О,40 1,28 О,39 1,26 О,35

6GO 1,33 О,41 1,31 О,40 1,27 О,39 1,25 0,ЗЕ

670 1,31 0,41 1,29 0,40 1,25 о,зв 1,24 0,ЗЕ

es; 1.30 0,40 1,28 О ,39 1,24 0,37 1 . 2 j 1 0,37

Рис. 2. ПОБД "Оптика. Оптические постоянные". Отображение текстовых данных, связанных с изданием

BOOK EARLY EFFECT EFFECTS

EXPERIENCE EXPERIMENTAL EXPERIMENTALIST EXPERIMENTS

EXPOSED EXTENT EXTERNAL EXTRACTED

EXTREME FIVE FOUR HANDBOOK

HANDBOOK-OPTICAL HISTORICAL HISTORY INTRODUCTION

INVESTIGATED INVESTIGATION INVOLVED METHOD

METHODS NATURE NEW NUMBER

NUMBERS OBJEKTIV OBSERVATION OBSERVATIONS

OPEN OPTICAL OPTICALLY OPTICS

OPTIKS OUTCOME OUTLINE PREDICTION

PREPARATION READINGS RESULTING RESULTS

STUDIES STUDY SUBJECTED SYSTEMS

TEXTBOOK TEXT-BOOK THEIR THEORETICAL

THEORY THROUGH TREATED TREATING

TREATISE TREATMENT TREATMENTS TWO

TYPE TYPES USE USED

USES USING WITHIN WITHOUT

ВВЕДЕНИЕ ВЕЛИЧИН ИССЛЕДОВАНИИ МЕТОДЫ

ОПТИКА ОПТИКИ ОПТИКО-ФИЗИЧЕСКИХ ОПТИЧЕСКАЯ

ОПТИЧЕСКИЕ ОПТИЧЕСКИХ ОПТИЧЕСКОГО ОСНОВЫ

ПРИКЛАДНАЯ РАСЧЕТ СВОЙСТВА СЛОЖНЫХ

СОСТОЯНИЯ ТЕОРЕТИЧЕСКИЕ ТЕОРИЮ ТЕОРИЯ

Табл. 1 Фрагмент файла неинформативной лексики

Для указателя терминов из заглавий также выбираем двухуровневое представление:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• I уровень: горизонтальная ориентация фрейма, алфавит, источник данных: подполя a и d полей 200, 225 и 610, для выделения терминов используется сегментация строк по символам и пробелу. Отсутствие в списке разделителей знака "минус"(-) позволяет получить составные термины, соединенные дефисом.

• II уровень: вертикальная ориентация фрейма, текст, источник данных: подполя a и d полей 200, 225 и 610, для выделения терминов используется сегментация строк по символам .,;!?=+:<>[]{}()"W и пробелу.

При формировании точек входа I и II уровней использовался файл НИЛ, фрагмент которого приведен в таблице. Полученный результат представлен на рис.3. Аналогично создаются указатели заглавий (рис. 4) и изданий (рис. 5).

Tapi

из залавнн

polymarization polyol

post-treat mant

"3

posterior postoparativs potassium precipitation

predentin^

premolar

prepubertal

pressure

p retreat ment

Pravalance

Prevotella

primary

primer

-I

potymenzxtion 3

¡ksmura K Effects of a new4-

acryloxyethyltrimallitic acid in a vieib light-cured dental adhesive on adhesion and polymerization reactivity/ K Ikamura, T Endo. - Jo urn. Appl. P olyiri. Sci.: Vol. 6 9. N6. 1999. -P. 1057-1063

potyol

Physical, chemical, and histologic changes in dentin caries lesions of primary teath induced by regular use of polyol chewing gums / K K Makinen, P L Makinen, D J Chiago h Dp. - Acta Odontol. Stand.: Vol.5e.N3.. 1998. -P.14S-15B

post-maun em

Рис. 3. ПОБД "Оптические свойства дентина и эмали зуба". Указатель терминов из заглавий

Рис. 4. ПОБД "Оптика. Оптические постоянные". Указатель заглавий

После создания указателей автоматически формируется начальная страница ПОБД в одном из 4 вариантов взаимного расположения списка указателей и изображения (слева-справа, сверху-снизу).

Начальная страница ПОБД "Оптические свойства дентина и эмали зуба" с расположением списка указателей над изображением представлена на рис.6.

С другими результатами применения этой технологии можно ознакомиться на сайте Библиотеки РАН (http://www.ban.ru/onliner/base/xviii3/index.html и http://www.ban.ru/onliner/base/safedoc3/index.html) и Зоологического института РАН (http://www.zin.ru/library/catfj/index.html).

На наш взгляд, предложенная технология имеет следующие преимущества:

- создание HTML-представления ПОБД не требует знания языка HTML и может осуществляться специалистом в предметной области;

- не требуется WEB-сервер для организации доступа к БД, и, следовательно, БД может быть в одном и том же виде представлена как в Интернете, так и на CD-ROM;

пользователю нет необходимости вводить какие-либо поисковые термы, так как структурированная БД удовлетворяет основные потребности в поиске; использование этой технологии возможно с любыми СУБД, экспортирующими записи в формате стандарта ISO 2709;

время на преобразование БД в систему html-страниц измеряется минутами; результатом работы является готовая ПОБД, не требующая ручного редактирования.

Издания

Journ. Biomad- Opt.

Joli гп. Clin. Dent Journ. Clin. Lasar Med. Sur. Journ. Clin. Periodontal. Journ. Control. Rslsas.

Journ. Craniofac. Genet. Day. Biol.

AEtDEÇHIJLMOÛTW

~3

Journ.

Jou rn.

Dent

Dent. Ras.

Journ.

Jou rn.

Endod.

Forensic 5c.i.

Journ.

Jou rn.

Opt. Technol. Oral Pathol. Nad.

Journ.

Jou rn.

Oral Rehabil. Orofac. Pai.

Journ. Jni I rn

Periodont Prnnthnt Пдпт

-I

Journ. Homed. Opt. 3

Spectroscopic and morphologic characterization of thedentin/adhesive interface; R M Larnor, M E Krugar. D M Wial iczka h a p. - Joum. B:cmed Opt. : Vol.4, N1, 19981 - P.22-27

Joum. Citai. DerL

Zero D TApplication of clinical models in remineralization research / D T Za to.-Joum. din. Dent: Vol.10,N2, 1999. - P.74-B5

Clinical evaluation of the effect of a reminerallzing toothpaste on dentinal sensitivity IH W Kaultnan, , jj_" ........ .:_i-iT

Рис. 5. ПОБД "Оптические свойства дентина и эмали зуба". Указатель изданий

Именной указатель

Издания Указатель заглавий

шШш-

■ ЩКШм PO

ES !

L

Ml y- ^ * j

Рис.6. ПОБД "Оптические свойства дентина и эмали зуба". Начальная страница.

Работа выполнена при частичной поддержке Федеральной целевой программы «Интеграция науки и высшего образования России на 2002-2006 годы», Проект № Б0120. Направление 3.12. УНЦ «Оптика и научное приборостроение».

Литература

1. Вершинин М.И. VerWEB - HTML-генератор для библиографических баз данных. М.; ВНТИЦ, 2002.

i Надоели баннеры? Вы всегда можете отключить рекламу.