Имитационная модель системы информационного поиска в объектно-реляционных базах данных

Бородин О.Н.; Евстифеев А.А.

ИМИТАЦИОННАЯ МОДЕЛЬ СИСТЕМЫ ИНФОРМАЦИОННОГО ПОИСКА В ОБЪЕКТНО-РЕЛЯЦИОННЫХ БАЗАХ ДАННЫХ

О.Н. Бородин, асп., асс. каф. Вычислительной техники и прикладной математики Тел.: 8(926) 374-07-38; E-mail: bor_oleg@rambler.ru Московский государственный агроинженерный университет им. В. П. Горячкина

http://www.msau.ru А.А. Евстифеев, к.т.н., совмест. каф. № 29 Тел.: 8 (910) 460-78-86; E-mail: evstipheev@mail.ru Московский инженерно-физический институт (государственный университет)

http://www.mephi.ru

Building and researching of system information retrieval based on simulation model in objective-relation database. Simulation model has been implemented using AnyLogic.

В государственных образовательных учреждениях увеличиваются массивы информационных документов, подлежащих хранению и систематизации. Информационными документами являются:

- справочные издания: словари, энциклопедии, справочники;

- научные труды: книги, монографии, статьи, материалы конференций, отчеты по НИР;

- нормативные документы: классификаторы, рубрикаторы, стандарты, законы, постановления, приказы;

В качестве инструмента хранения информационных документов используются объектно-реляционные базы данных. По мере накопления информационных документов в базе данных возникает проблема организации эффективного поиска информации по коллекции документов за приемлемое время.

В качестве инструмента для хранения информационных документов используются объектно-реляционные базы данных. Такой выбор обусловлен следующими причинами:

- независимость информации, находящейся в базе данных, от файловой структуры операционной системы;

- поддержка объектных типов данных;

- возможность доступа к информации, содержащейся в базе данных, с помощью процедурных языков высокого уровня [1].

Решение проблемы поиска информации в объектно-реляционных базах данных базируется на достижениях лингвистики и информатики.

Под системой информационного поиска в объектно-реляционных базах данных понимается совокупность программных элементов, обеспечивающих решение задач информационного поиска.

Входными параметрами системы информационного поиска являются [2,3]:

1. Информационные документы. Информационным документом в базе данных является набор текстовой информации, сформированной на естественном языке. Информационный документ имеет определенное число информационных атрибутов, описывающих название документа, краткое содержание, полное текстовое содержание, представленное в двоичном файле определенного формата.

2. Информационные запросы. Информационным запросом является входное сообщение в систему информационного поиска, содержащее требование на выдачу информации. Задачей выполнения информационного запроса является выявление в множестве информационных документов, находящихся в базе данных, подмножества соответствующего информационной потребности пользователя.

Входные параметры имеют следующие характеристики:

1. Количество параллельно обрабатывающихся в системе информационных документов и запросов.

2. Интенсивность поступления информационных документов и запросов в систему.

3. Размер информационного документа и запроса.

Значения входных параметров в потоке заявок на обслуживание носят случайный

характер, это приводит к тому, что в некоторые моменты времени в системе могут образовываться очереди на обработку. В результате возникает задача анализа системы информационного поиска как системы массового обслуживания в целях оценки временных характеристик обслуживания заявок на обработку информационных запросов и заявок на обработку информационных документов. Система информационного поиска как система массового обслуживания представлена на рис. 1.

Рис. 1. Модель системы информационного поиска

Система массового обслуживания состоит из элементов Q и Б типа (табл. 1). Элементы Q типа представляют очереди, в которых скапливаются информационные документы и запросы. Очередь сокращается в результате обработки заявки элементами Б типа. Элементы Б типа обрабатывают заявки с определенной производительностью

[4].

Обслуживание заявок состоит из процессов обработки информационного документа, обработки информационного запроса.

Процесс обработки информационного документа состоит из следующих фаз:

1. Генерация информационного документа (элемент 1п1) с некоторой интенсивностью в рамках временного интервала равного 8-часовому рабочему дню.

2. Проверка степени загрузки каналов. В зависимости от состояния системы запрос поступает в очередь на обработку или отклоняется, если коэффициент загрузки каналов обслуживания > 0,75 (элементы - И2, denialD).

3. Формирование и обработка очереди, состоящей из информационных документов, направленных на обработку в программных интерфейсах информационной системы (элементы - Q1, Б1).

4. Формирование и обработка очереди, состоящей из информационных документов, направленных на сохранение в табличном пространстве объектно-реляционной базы данных (элементы - Q2, Б2).

5. Формирование и обработка очереди информационных документов, подлежащих индексации и лингвистическому анализу

(элементы - Q3, Б3).

6. Регистрация обработанных информационных документов (элемент Ех1).

Процесс обработки информационного запроса состоит из следующих фаз:

1. Генерация информационного запроса (элемент 1п2).

2. Проверка степени загрузки каналов. В зависимости от состояния системы запрос поступает в очередь на обработку или отклоняется, если коэффициент загрузки каналов обслуживания > 0,75 (элементы - Я3, denialQ).

Таблица 1

Элементы модели системы информационного поиска

Элемент

имитационной Назначение

модели

Ш1 Вводящий поток информационных документов в базу данных - случайного объема, действующий через фиксированные временные промежутки на протяжении полного времени выполнения эксперимента

Ш Фильтрация потока информационных документов, соответствующих 8-часовому интервалу из виртуального времени эксперимента

Оета1Н1^ Регистрация информационных документов в соответствии с условиями элемента

Я2 Фильтрация информационных документов при условии, если основные элементы системы не справляются с обработкой нового документа

с1етаЮ Регистрация не обработанных в системе информационных документов

д1,01 д1-очередь на обработку информационных документов в программных интерфейсах. Б1-задерживаетзаявки на определенное время в соответствии со значением производительности элемента

дз,оз дЗ-очередь на обработку информационных документов, требующих индексации и лингвистической обработки. 03 имитирует хранимую процедуру, выполняющую лингвистическую обработку текста, содержащегося в информационном документе и запросе

0.2,02 д2-очередь информационных документов, требующих сохранения в табличном пространстве базы данных. 02 имитирует операции сохранения информационных документов и операции выборки данных по коллекции документов в базе данных

Я4 Разделение потока заявок на поток информационных документов и поток информационных запросов

ЕХ1 Регистрация обработанных информационных документов

Ш2 Входящий поток инф ормационных запросов

яз Выполняет фильтрацию информационных запросов при условии, если основные элементы системы не справляются с обработкой нового информационного запроса

ОетаЮ Регистрирует не обработанные в системЕ информационные документы

д4,04 д4-очередь на обработку информационных запросов. 1)4 имитирует обработку информационных запросов программными интерфейсами в системе

д5,05 д5-очередь поставленных на обработку базой данных информационных запросов. 05 имитирует построение информационных запросов с определенной производительностью.

Я5 Разделение потока заявок на поток информационных документов и поток информационных запросов

ЕХ2 Регистрация обработанных информационных запросов

3. Формирование и обработка очереди, состоящей из информационных запросов, направленных на обработку в программных интерфейсах информационной системы (элементы - Q4, Б4).

4. Формирование и обработка очереди из информационных запросов, подлежащих лингвистическому анализу (элементы - Q3, Б3).

5. Формирование и обработка очереди на построение информационного запроса (элементы - Q5, Б5).

6. Выполнение информационного запроса по коллекции информационных доку-

ментов, находящихся в объектно-реляционной базе данных (элементы - Q2, Б2).

7. Регистрация обработанных информационных запросов (элемент Ех2).

Все каналы обслуживания выполняют выборку из очереди по правилу FiFo, за исключением канала Б3, выполняющего обработку заявок в режиме квантования времени. Потоки заявок не являются стационарными, а входной поток канала обслуживания Б3 не является ординарным. В силу указанного принцип использования аналитических моделей, принятых в теории массового обслу-

живания, представляется проблематичным, так как принятое в них соглашение приводит к неадекватности аналитической модели.

В данной статье для решения задачи оценки хорактеристик системы информационного поиска рассматривается имитационная модель, реализующая принцип дискретно-событийного моделирования. В качестве инструментальной среды для реализации имитационной модели использована среда имитационного моделирования AnyLogic. Конструктивная библиотека Enterprise, встроенная в данную среду, имеет набор стационарных элементов, моделирующих

каналы обслуживания, очереди, источники заявок и маршрутизаторы заявок, что позволяет разрабатывать модели систем массового обслуживания любого типа [5]. Модель системы информационного поиска, построенная на основе стационарных элементов, соответствует системе массового обслуживания, приведенной на рис. 1.

Экспериментальные исследования системы информационного поиска на основе разработанной модели выполнены при предельном модельном времени 3000 ч и исходных данных, приведенных к табл. 2.

Таблица 2

Исходные данные имитационного эксперимента

Значение параметра Параметр

3000 Имитируемое время работы системы, ч

3 Количество пользователей, осуществляющих ввод информационных документов в базу данных

0,5 Коэффициент количества загруженных информационных документов в час одним пользователем

10 Количество пользователей, выполняющих информационные запросы в базе данных

1 Коэффициент количества выполненных информационных запросов в час одним пользователем

1 Минимальное число страниц информационного документа

500 Максимальное число страниц информационного документа

200 Максимальное количество слов на странице информационном документе

1 Минимальная длина слова

7 Максимальная длина слова

Таблица 3

Результаты исследования системы информационного поиска

П сказа те ли имитационниг о эксперимента Характеристики альтернатив

1 : 3 4 5

Средние время обработки инф ормационно-го документа (Щ , с 10 8105 63 6,6 31 889 5 917 9 71

Среднеквадратичное отклонение ЭХ по 15 905,4 31 ,7 36 63,3 7 62,4 6 7,4

Средние время обработки инф ормационно-го запроса , с 6,8 3 0, 75 2, 55 0, 96 0, 77

Среднеквадратичное отклонение ОХ по t2 1,0 5 0, 004 0, 24 0, 019 0, 006

Коэффициент обработанных документов, кх 0,4 201 0, 999 0, 95 0, 98 0, 998

Коэффициент обработанных запросов, кз 0,4 959 0, 998 0, 96 0, 99 0, 997

На основе разработанной модели выполнена оценка характеристик систем информационного поиска по пяти альтерна-

тивным вариантам реализации модуля лингвистической обработки текста (элемент Б3). Рассмотрено пять альтернатив, по каж-

дой альтернативе получены показатели минимального (tmm) и максимального (tmax) времени обработки одной словоформы естественного языка.

1. Реализация элемента в виде динамически подключаемой библиотеки DLL, представленной компанией АОТ. Показатели альтернативы: tmm=0,2 с, tmax=0,3.

2. Использование встроенного в СУБД Oracle 10g решения. Показатели альтернативы: tmin=0,01 с, tmax=0,01.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. ISPEL - свободно распространяемый морфологический словарь русского языка.

Показатели альтернативы: tmm=0,l с, tmax=0,l.

120000

юоооо 80000 60000 40000 20000

0

Рис. 2. Средние время обработки информационного документа (ti)

8

7 6 5 4 3 2

1 0

Рис. 3. Средние время обработки информационного запроса (t2)

1,2 1

0,8 0,6 0,4 0,2 0

(2) tcp= 0,01 (5) tcp= 0,015 (4) tcp= 0,04 (1) tcp= 0,25 (3)tcp=0,l

4. Russian Context Optimizer (RCO) -программный продукт, интегрируемый в СУБД Oracle 10g, позволяющий выполнять морфологический анализ текста с использованием технологии расширения информационного запроса дополнительным списком словоформ. Показатели альтернативы: tmin=0,04 с, tmax=0,04.

5. Модуль лингвистической обработки текста, разработанный на основе математической модели конечного детерминированного автомата. Показатели альтернативы:

tmin=0,01 с, tmax=0,02.

_,___,_^_

(2) tcp= 0,01 (5) tcp= 0,015 (4) tcp= 0,04 (1) tcp= 0,25 (3)tcp=0,l

И

■

■ ■

шш шш Н

(2) tcp= 0,01 (5)tcp=0,015 (4)tcp=0,04 (1) tcp= 0,25 (3)tcp=0,l

□ Коэффициент обработанных документов □ Коэффициент обработанных запросов

Рис. 4. Коэффициент обрабо!

Результаты исследований системы информационного поиска по пяти альтернативным вариантам реализации элемента Б3 приведены в табл. 3.

Зависимости характеристик системы информационного поиска от среднего вре-

[х документов (к1) и запросов (к2)

мени обработки одной слово формы (^р) в модуле лингвистической обработки текста по пяти альтернативам приведены на рис. 2,3,4.

Результаты, полученные на основе имитационной модели, могут быть исполь-

зованы для анализа чувствительности сис- имитационном модели позволяет сократить

тем информационного поиска и поддержки затраты на проектирование систем инфор-

принятия решения по выбору оптимального мационного поиска в объектно-реляционных

(рационального) состава элементов системы базах данных при принятии решения о вы-

информационного поиска. Возможность па- боре оптимального состава элементов. раметрической настройки разработанной

Литература

1. Конноли Т., Бегг К., Страчан А. Базы данных: проектирование, реализация, сопровождение. Теория и практика. - 2-е изд / Пер. с анг.: Уч. пос. - М.: Вильямс, 2000. - 1120 с.

2. Baezo-Yates R. Modern Information Retrieval / R.Baezo-Yates, B. Ribeiro-Neto. - ACM Press Addi-don Wesley, 1999. - 544 с.

3. Антонов А.В. Системный анализ: Учебник для вузов. - 2-е изд., стер. - М.: Высш. шк., 2006. -454 с.

4. Шеннон Р. Имитационное моделирование систем: искусство и наука / Р. Шеннон. - М. : Мир, 1978. - 418 с.

5. Карпов, Ю.Г. Имитационное моделирование систем. Введение в моделирование с AnyLogic 5. -Ю.Г. Карпов. СПб: БХВ-Петербург, 2006. - 400 с.

СТРУКТУРА РЕАЛЬНОСТИ И ФЕНОМЕН ИНФОРМАЦИИ

К.К. Колин, д. т.н., проф. Тел.: 903-501-36-86;E-mail: kolinkk@mail.ru Институт проблем информатики РАН

http://www.ipiran/ru

The philosophical essence of a phenomenon of the information as one of displays of fundamental properties of a reality of the world surrounding us is considered. Objective character of a phenomenon of the information and its communication with structure of a reality which possesses property of dualism is shown and simultaneously includes two basic components - a physical and ideal reality. Distinctive property of these components is their ability to mutual reflection, that, actually, and creates an opportunity of display of various

время загадочных феноменов окружающего нас мира. Попытки осмыслить сущность этого феномена предпринимались неоднократно многими учеными на протяжении нескольких десятилетий, начиная с середины XX века. Однако общепризнанных представлений о концептуальной природе информации в научной среде до сих пор еще не выработано, и поэтому эти попытки продолжаются и сегодня, на исходе первого десятилетия XXI века, который все более часто называют веком информации. Процессы становления информационного общества, а также те новые вызовы и общественно значимые потребности, которые являются характерными для развития цивилизации в XXI веке, также стимулируют новые попытки ученых к осмыслению концептуальной природы информации. Настоящая работа

aspects of a phenomenon of the information.

1. Осмысление сущности феномена информации - актуальная философская и научно-методологическая проблема XXI века

Анализ актуальных философских и научно-методологических проблем развития современной науки показывает, что одной из таких проблем является проблема осмысления природы и сущности информации. По мнению многих авторитетных исследователей, информация представляет собой один из наиболее значимых и в то же

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородин О. Н., Евстифеев А. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бородин О. Н., Евстифеев А. А.

Текст научной работы на тему «Имитационная модель системы информационного поиска в объектно-реляционных базах данных»