Оптимизация времени доступа в информационно-аналитической системе на основании данных журнала операций

Демурчев Никита Георгиевич; Касимов Руслан Ибрагимович

Н. Г. Демурчев, Р. И. Касимов

Оптимизация времени доступа в информационно-аналитической системе...

ТЕВИПЧЕОКВЕ ИНУКП

ОПТИМИЗАЦИЯ ВРЕМЕНИ ДОСТУПА В ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ НА ОСНОВАНИИ ДАННЫХ ЖУРНАЛА ОПЕРАЦИЙ

Н. Г. Демурчев, Р. И. Касимов

OPTIMIZATION OF ACCESS TIME IN INFORMATION-ANALYTICAL SYSTEM BASED ON OPERATION LOG DATA

Demurchev N. G., Kasimov R. I.

The optimization of the data access time in the information-analytical system using information from the user's operations log is considered in the article. The research has been made in the frames of the "Scientific and Scientific-Pedagogical Personnel of Innovational Russia" Federal Program.

Key words: information-analytical system, information retrieval, Markov chains.

В статье рассматривается оптимизация времени доступа к данным в информационно-аналитической системе, используя информацию из журнала операций пользователя. Исследования вы/полненыi в рамках ФЦП «Научные и научно-педагогические кадрыI инновационной России».

Ключевые слова: информационно-аналитическая система, поиск информации, цепи Маркова.

УДК 004.4

Эффективность деятельности любого предприятия в современном мире целиком и полностью зависит от решений, принимаемых администрацией, как в сложных, так и в штатных ситуациях. При этом в крупных организациях всю информацию о текущем состоянии дел, статистику, качественные или количественные показатели предоставляют различные информационно-аналитические системы (ИАС). В свою очередь скорость доступа, обработки и анализа данных в ИАС зависят от множества факторов, основными из которых являются: производительность оборудования, используемые алгоритмы, а также количество обрабатываемой информации. При этом стоит отметить, что рост количества информации в современном обществе намного превышает рост производительности оборудования за тот же период.

Кроме описанных факторов быстродействия ИАС существуют и дополнительные направления оптимизации времени доступа, среди которых особо стоит отметить прогнозирование действий пользователя. При наличии прогноза на следующие действия пользователя становится возможным предварительная загрузка и обработка соответствующих данных, а при его реализации - их немедленное предоставление. Для осуществления прогнозирования необходимо прежде всего наличие строгой модели функционирования ИАС и постоянное ведение журнала операций пользователя.

70/2010

Вестник Ставропольского государственного университета

В качестве математического аппарата для прогнозирования автор предлагает использовать цепи Маркова. При этом множеством состояний системы является множество представлений ИАС - { у2, ..., у„ }. В любой момент времени пользователь и соответственно сама система могут находиться только в одном состоянии. С течением времени система, подчиняясь пользователю, последовательно переходит из одного состояния в другое. В теории марковских цепей каждый такой переход называется шагом процесса.

Описанием эволюции этой системы служит последовательность дискретных

случайных величин X0, X1,•••, Xп ,-. Индекс п здесь выполняет роль времени. Если в момент времени п система находилась в состоянии V, то мы будем считать что Xп = ].

Таким образом, случайные величины являются номерами (индексами) представлений системы.

Последовательность X0, X1,•••, Xп,-. образует цепь Маркова, если для любого п и любых ко, кь ..., кп,... выполняется

Р( X п = / X 0= ко, ..., X п-1 =1)=Р( X п = / £пч=1).

Для цепей Маркова вероятность в момент времени п попасть в состояние V] , если ведется журналирование всей предыдущей истории переходов, зависит только от того, в каком состоянии находился процесс в момент п-1. То есть при фиксированном «настоящем» «будущее» не зависит от «прошлого». Свойство независимости «будущего» от «прошлого», при фиксированном «настоящем», называется марковским свойством. Процесс перехода (т. е. последовательного доступа к данным) пользователя по ИАС обладает марковским свойством, так как решение пользователя о переходе в то или иное состояние полностью зависит от текущего состояния, т. е. от предоставленных данных.

Вероятности рг](п) = Р (X„ =] / Xп-1=0, г, ]=1,2,..., г являются вероятностями перехода из состояния(представления) V в состояние У] за один шаг.

При этом данная цепь Маркова является однородной, так как вероятности перехода Р](п) не зависят от п, т. е. вероятность перехода в то или иное состояние ИАС не зависит от номера шага пользователя, а зависит только от текущего состояния. Для однородных цепей Маркова вместо Р](п) достаточно использовать р].

Как принято в теории цепей Маркова вероятности перехода между представлениями описываются в виде квадратной матрицы:

Г Р11 Р12 ••• Р1г

Р =

'22

2г

_ Рг1 Рг 2 - Рп Если данная матрица обладает следующими свойствами:

1) Ра > о,

2)

для всех 1

1: Ё Р]

=1,

]=1

то она называется стохастической справа. Если выполняется также и свойство

3)

для

всехЁ Ра = 1

г =1

то матрица называется также стохастической слева, т. е. дважды стохастической. Матрица переходных вероятностей ИАС является дважды стохастической.

Вектор а = (а1, а 2,..., аг), где аг =Р( X 0 = г), г=1,2...,г называется вектором начальных состояний. При этом начальное представление в любой ИАС зависит только от роли пользователя, от его функциональных обязанностей и не меняется с течением времени.

Все множество представлений ИАС образует единый неразложимый класс, соответственно описываемая цепь Маркова также является неразложимой. В случае, когда ИАС одновременно обслуживает две абсолютно несвязанные базы данных с различными пользователями, целесообразно представлять её в виде двух различных информационно-аналитических систем.

21

ШН. Г. Демурчев, Р. И. Касимов

Оптимизация времени доступа в информационно-аналитической системе.

Все вышеизложенное говорит о применимости цепей Маркова для прогнозирования действий пользователя. Опишем более подробно, каким именно образом применяется данный математический аппарат в ИАС.

В общем случае процесс перехода пользователя от состояния к состоянию состоит из следующих этапов:

1) загрузка данных из БД, где Ц - время загрузки представления /;

2) обзор пользователем предоставленных данных и принятие решения о следующем шаге, где Т7 - время принятия решения о дальнейшем переходе из состояния 7 в состояние 7+1.

Соответственно общее время доступа пользователя к искомым данным путем осуществления множества переходов из начального состояния представляется в виде формулы

п—1

г = £ (Ц + Т)+ьп

7=1

где п - номер состояния системы с искомым представлением. Более наглядно процесс представлен на рисунке 1.

1 1 2 2 3 3 ,

- загрузка из БД

- обзор пользователем

Рисунок 1. Процесс доступа пользователя к искомым данным

ся, данные выбранного представления будут представлены пользователю за время равное (Ц7 - Т). Можно выделить два типа применения прогнозирования: одиночное и множественное. На рисунках 2 и 3 представлены оба типа.

Одиночное прогнозирование - системой предварительной подготовки спрогнозированного представления обрабатывается только одно значение.

Множественное прогнозирование - обрабатывается несколько значений; данный вариант более гибок, но требует дополнительных ресурсов в виде процессорного времени и оперативной памяти, а также существенно загружает сервер СУБД.

РАМ

Рисунок 2. Процесс доступа в случае одиночного прогнозирования

РАМ

1 1 2 3

Рисунок 3. Процесс доступа в случае множественного прогнозирования

За время Т7 у ИАС есть возможность спрогнозировать следующий шаг (7+1) пользователя на основании матрицы вероятностей. При этом матрицу вероятностей можно строить как в процессе работы данного пользователя, так и используя журнал действий пользователя за предшествующий период.

Проанализировав матрицу, система получает упорядоченный список вариантов перехода пользователей с их вероятностями и в зависимости от типа применения прогноза ИАС принимает решение о предварительной загрузке и обработке данных. Соответственно, если прогноз на шаге 7 реализовал-

Время доступа с использованием прогнозирования будет выглядеть следующим образом:

п—1

г = £ (РЦ + Т ) + РпЦп, где для °ди-

7 =1

ночного случая р7 - вероятность успешного прогноза, равная максимуму из множества вероятностей ру для любого у, а для множественного случая р7 - вероятность успешного прогноза, равная сумме нескольких максимальных значений вероятностей ру для любого у.

70/2010

Вестник Ставропольского государственного университета

ЛИТЕРАТУРА

1. Альфред В. Ахо, Джон Хопкрофт, Джеффри Д. Ульман Структуры данных и алгоритмы = Data Structures and Algorithms. - М.: Виль-ямс, 2000.

2. Демурчев Н. Г., Касимов Р. И. Математическая модель информационно-аналитической системы регионального управления // Вестник Ставропольского государственного университета. - 2009. - № 63. - С. 132-138.

3. Макаров И. М., Виноградская Т. М., Рубчин-ский А. А., Соколов В. Б. Теория выбора и принятия решений: учебное пособие. - М.: Наука, 1982.

4. Соколов Г. А., Чистякова Н. А. Теория вероятностей. Управляемые цепи Маркова в экономике. -М.: ФИЗМАТЛИТ, 2005.

Об авторах

Демурчев Никита Георгиевич, ГОУ ВПО

«Ставропольский государственный университет», кандидат технических наук, заведующий кафедрой организации и технологии защиты информации. Сфера научных интересов - системы разграничения доступа, программные средства защиты информации, проектирование и моделирование защищенных информационных систем и процессов. demurchev@stavsu.ru

Касимов Руслан Ибрагимович, ГОУ ВПО

«Ставропольский государственный университет», ассистент кафедры организации и технологии защиты информации. Сфера научных интересов - информационный поиск, аналитические системы, проектирование и моделирование защищенных информационных систем и процессов. infom@stavsu.ru

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Демурчев Никита Георгиевич, Касимов Руслан Ибрагимович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Демурчев Никита Георгиевич, Касимов Руслан Ибрагимович

Текст научной работы на тему «Оптимизация времени доступа в информационно-аналитической системе на основании данных журнала операций»