Мультиагентный подход к управлению операционной средой, содержащей сверхбольшие базы данных

Цветков Алексей Анатольевич

ISSN 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ №1(24), 2015, с. 83-97 УДК 971.39.17.21:971.35.11.27

А. А. Цветков

Мультиагентный подход к управлению операционной средой, содержащей сверхбольшие

базы данных

Аннотация. Настоящая статья посвящена анализу проблем при эксплуатации операционных сред, использующих сверхбольшие базы данных. Рассмотрена возможная архитектура среды на основе кооперации интеллектуальных/рациональных агентов, которые могут наблюдать за работой системы и, при необходимости, гибко управлять ей в автоматическом режиме.

Ключевые слова и фразы: Сверхбольшая база данных, Интеллектуальный агент, Рациональный агент, Информационная безопасность.

Введение

Возможность переводить в цифровую форму документы, книги, аудио и видео информацию, фотографии (в т.ч. с высоким разрешением) и др. привели к тому, что объем информации, хранимой в базах данных (далее БД), стал катастрофически увеличиваться. А это привело к появлению проблемы сверхбольших баз данных (далее, в соответствии с традицией принятой в публикациях, VLDB от английского термина Very Large Database): одно дело записать данные в БД, а другое — получить по запросу искомую информацию в разумное время.

Учитывая то, что объем информации постоянно увеличивается, определение VLDB не является строгим. Вот, например, одно из определений: VLDB — это БД, которая содержит экстремально большое количество кортежей или строк в БД, или, занимает экстремально большое физическое пространство системы хранения файловой системы (петабайты). Как показано в [1], если в 2005 году VLBD считались те БД, которые имели объем 100 ТБ, то сейчас это БД с объемом

Проект проводится при финансовой поддержке РАН, проект 46П «Сверхвысокопроизводительные базы данных». © А. А. Цветков, 2015

порядка ПБ. Например, Национальный репозиторий США увеличивается на 28 ПБ ежегодно. Кроме того, в [1] приведены основные причины проблемы УБББ-быстродействия:

(1) проблемы передачи больших объемов информации по сети, будь то Интернет или корпоративная сеть;

(2) использование компрессии данных — небольшой выигрыш в объеме никак не окупает проблемы, связанные с обратным преобразованием данных и организацией их хранения при получении;

(3) проблема индексов — нехватка памяти для размещения индексных таблиц целиком даже в кластерных архитектурах и, как следствие, необходимость использования индексов для индексных таблиц.

В данной работе предлагается подход к решению проблемы быстродействия на основе рациональных агентов (далее РА).

1. Архитектура УЬйБ с использованием рациональных агентов

Возможная обобщенная архитектура УБББ, в которой мы будем описывать использование РА, приведена на рис. 1. Назначение компонентов и описание их взаимодействия приводится в таблице 1. В такой архитектуре РА расположены на 3-х уровнях: коммуникационном, препроцессорном и кластерном. Такое решение позволяет обеспечить гибкость решения и распараллеливание процессов, выполняемых в границах системы. Далее рассмотрим более подробно работу системы на уровне РА.

2. Многоагентная архитектура

В [2] приводится описание теоретическое описание работы ансамбля РА, которые решают некоторую общею задачу, но при этом взаимодействуют между собой. Это описание недостаточно точно, и мы пользуемся его конкретизацией, описанной в [3]. В [4] предлагается вариант использования многоагентной архитектуры (МнА) на базе стохастических автоматов.

На рис. 2 показано использование МнА для системы, использующей УБББ.

В данной модели введены дополнительные, относительно предыдущей модели, компоненты: «Системные администраторы и аналитики» и «Администраторы информационной безопасности». Это связано с тем, что, при запуске системы в эксплуатацию, а затем в процессе

Таблица 1. Компоненты архитектуры VLDB и их взаимодействие

Наименование компонента

Описание компонента

Кластер серверов VLDB

Препроцессоры запросов

Точка входа бч

Пользователь бч — ]

Рациональные агенты,

оптимизирующие

БД

Рациональные агенты

информационной

безопасности

Коммуникационные

рациональные

агенты

Компонент содержит операционную систему, обеспечивающую работу кластера, систему управления БД (далее СУБД), непосредственно БД, РА, оптимизирующие БД Компонент обеспечивает прием с запросов компонентов «Точка входа бч», содержит РА, оптимизирующие запросы к БД и получающие результаты запроса от БД, содержит РА, обеспечивающие аутентификацию пользователя в процессе его взаимодействия с БД после прохождения идентификации на входе Компонент обеспечивает первичную идентификацию и аутентификацию пользователей, принимает запросы от пользователей и передает их препроцессорам запросов, принимает результаты запросов от препроцессоров запросов и передает их пользователям, обеспечивает работу коммуникационных агентов, которые выполняют функции оптимизации и маршрутизации запросов

Рабочая станция субъекта взаимодействующего с VLDB

Программное обеспечение, реализующее функциональность рациональных агентов, которые оптимизируют работу СУБД и структуру БД (см. ниже)

Программное обеспечение, реализующее функциональность рациональных агентов, которые обеспечивают информационную безопасность (см. ниже)

Программное обеспечение, реализующее функциональность рациональных агентов, которые оптимизируют работу системы на уровне коммутаций

Рис. 1. Обобщенная структура УЬББ, использующая рациональные агенты

эксплуатации, необходимо создать некоторую стартовую конфигурацию РА, а затем контролировать работу РА и, при необходимости, вмешиваться в работу, например, если РА не может найти решения, слишком долго его ищет, принимает неверное решение.

В дальнейшем изложении мы будем предполагать, что для каждого из РА все элементы, которые с ним взаимодействуют, являются в его точки зрения внешней средой. Кроме того, будем рассматривать два типа агентов (см. таблицу 2).

2.1. Коммутационный рациональный агент

Коммутационный РА (далее КРА) построен на базе концепции агента, основанного на модели и на цели. Модель взаимодействия КРА с окружающим миром представлена на рио. 3.

КРА получает информацию о конфигурации внешней среды в потоке данных от объекта «Системные администраторы и аналитики» в виде набора параметров, характеризующих аппаратные средств (далее

Рис. 2. Модель многоагентного формирования оперцион-ной среды для системы с VLDB

Таблица 2. Типы рациональных агентов

Тип рационального агента

Описание рационального агента

Рациональный агент, основанный на модели и на цели

Обучающийся рациональный агент

РА данного типа следит за состоянием внешней среды, а также за множеством целей, которых он пытается достичь, и выбирает действие, позволяющее достичь этих целей. РА данного типа похож на РА, основанный на модели и на цели, но содержит компонент, позволяющий обучаться.

АС), программные средства (далее ПС), вычислительную сеть (далее ВС), которые представлены в виде кортежа (медленные изменения):

(1) Gconf = {Gнard,Gsoft,GNet),

где Снага — множество параметров, характеризующих АС; Gsoft — множество параметров, характеризующих ПС; С^ег — множество

Рациональные агенты, оптимизирующие запросы к БД

Требования к точке входа (цель)

И

Конфигурация (модель) внешней среды

Рекомендации -по реконфигурированию-точки входа

"Сол/ ( СНагй' СБо/Ь С^е«) ^

Данные о трафике

V, = \и: , ... V Л

I (_ 11' 12' '1т11} 1)

Реконфигурация ПАК

—с

Управление конфигурацией программно-аппаратного комплекса точки входа

к

Программно-аппаратный комплекс

екс точки входа

Рис. 3. Модель взаимодействия КРА с окружающим миром

параметров, характеризующих ВС.

Цель, которую должен достигать КРА: управление программно-аппаратным комплексом (далее ПАК) точки входа такое, чтобы прохождение каждого из пользовательских запросов не превышало времени ТцЕЗта01, которое определяет РА, оптимизирующий запросы к БД. Цель КРА может быть представлена в виде следующего выражения:

(2) Чи <ТПЕЗтаС и еЪ ои1,

т.е. все временные интервалы для запросов из множества всех запросов ТС, отправляемых и принимаемых; пользователями, не должны превышать ТдЕБтах. При этом временная задержка определяется каждым из компонентов из множества иг, описывающих трафик.

Следуе т учесть, что часть управляющих воздействтй КРА может осуществлять самостоятельно, например, изменение конфигурационных файлов, установка обновлений и т.д.; а часть воздействий может

Рис. 4. Модель потоков в нотации UML для ЕРЛ

осуществляться через компонент «Системные администраторы и аналитики» путем отправки им рекомендаций по конфигурированию ПАК точки входа.

На рис. 4 представлена модель потоков между компонентами модели.

2.2. Рациональный агент информационной безопасности

РА информационной безопасности (далее ИБ) построен на базе концепции агента, основанного на модели обучающегося агента. Модель взаимодействия РА ИБ с окружающим миром представлена на рис. 5.

Основной задачей РА ИБ является слежение за поведением каждого из пользователей, работающих через данную точку входа, на уровне поведения при формирования запросов к УЬББ, например, время когда пользователь обычно взаимодействует с БД, сколько времени занимает один сеанс взаимодействия, длина поисковых запросов, содержание поисковых запросов, особенности записи команд поиска/добавления/редактирования записей, предметная область (да-

гл

'безопасности'

Критерии

"Л

Рациональный агент информационной безопасности (обучающийся агент)

^Информация об

АВ: ,В: р(В; , В: ,)

'о' 1Яеа1 'о' 1Яеа1-'

инцидентах

ч.

Запросы пользователей

Блокирование пользователей

С

Программно-аппаратный комплекс точки входа

2)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 5. Модель взаимодействия РА ИБ с окружающим миром

лее ПрО), которая интересует пользователя и др. При отклонении в текущем сеансе от одного из параметров, это является основанием для дополнительной идентификации пользователя или, при подозрении на атаку, блокирование учетной записи с отправкой соответствующего уведомления администраторам ИБ (далее АИБ), которые могут внести коррективы в работу РА ИБ.

Формально функцией РА И Б явл яется вычисление вероятности, с которой может наступить то или иное событие, связанное с ИБ, как показано в следующем выражении:

где р — вероятнос ть реализации угрозы «подмена пользователя»; Bi0 н= (т1о, Ь2о. • •^о) —а нпбор обычных поведенческих факторов

¿-го п°льзователя; = (Ъ1Яса1, Ь-2Яса1,..., ) —набар текущих

поведенческих факторов Н-го пользователя.

Интервал р, при котором РА ИБ воспринимает текущее значение, как показатель угрозы, определяется АБД.

На рис. 6 представлена модель потоков между компонентами модели.

(3)

<о <о Г51 «О <И>

1: Критерии оптимального запроса сое к БД Кластер серверов УЮВ Коммугац -, 2: Загрузи ^ i критериев

-1» е (Цикл сбора информации по запросам к Б 1 ответам от БД] i

аИ

—| 3-1:0^овагь ' 3.2: Оптимизированный зап агента, оптимизирующего запросы пользователей к БД

3.3: Запрос к БД

4: Ответы от БД Запросов пользователей

4.1: Анализ запросов и ^—' критериям

^ | 5.1: Ожидание подтверждения 5.2: Подтверждение требований тационному РА ] | | ния к точке входа ^

—

Рис. 6. Модель потоков в нотации ИМЬ для РА ИБ

2.3. Рациональный агент, оптимизирующий запросы к БД

РА, оптимизирующий запросы к БД (далее РА ЗБД) построен на базе концепции агента, основанного на модели обучающегося агента. Модель взаимодействия РА ЗБД с окружающим миром представлена на рис. 7.

Основной задачей РА ЗБД является оптимизация запросов, поступающих от пользователей к УЬБВ: как непосредственно написанных пользователем, так и сформированных ПС, которые использует пользователь. Предполагается, что в соответствие каждому пользователю будет сопоставлен «персональный» РА ЗБД для ускорения обработки запросов.

Если в БД малого и среднего размера критичность к эффективности запроса не имеет столь большого значения, то для УЬБВ это становится проблемой, т.к. неэффективный запрос может привести, как отмечено в [5], к:

• увеличению стоимости коммуникаций — неэффективный запрос может привести к огромному массиву данных, отправляемых в ответ;

• увеличению стоимости доступа к вторичной памяти — на эту

Кластер серверов УЮБ

Оптимизированные запросы пользователей

Запросы пользователей

Программно-аппаратный комплекс точки входа

Рис. 7. Модель взаимодействия РАЯ ЗБД с окружающим миром

стоимость влияет длина выбираемых данных (главным образом, размер промежуточных результатов), кластеризация данных на физических страницах;, размер доступного буферного пространства и скорость используемых устройств;

• увеличению стоимости хранения — т.е. возрастает потребность в устройствах памяти для хранения основных и промежуточных результатов;

• увеличению стоимости вычислений — т.е. стоимость (время) загрузки центрального процессора (далее ЦП).

Для вычислений в \3LDB эти проблемы возрастают на порядки: любой неэффективный запрос, написанный пользователем с низкой квалификацией или намлренно злоумышленником — может привести к атаке типа «отказ в обслужизании» фоБ-атака).

Т.е. процесзы, выполняемые внутри РА, должны при поступлении пользовательского запроса:

(1) выпоонять «быструю» проверку — оценить надежность пользова-

теля, как автора запросов, количество удачных использований данного запроса;

(2) если шаг 1 не выполним — выполнять анализ запроса, использую общею для всех РА ЗБД базу знаний удачных запросов;

(3) если шаги 1 и 2 не дали результатов — провести внутреннее моделирование использования запроса и, если результат будет положительным, запросить подтверждение вывода РА ЗБД у системных администраторов и аналитиков, а после получения подтверждения и успешного применения в реальной VLDB — внести данный запрос в «персональный» РА ЗБД и общую базу знаний для всех РА ЗБД;

(4) если шаг 3 не привел к успеху — отправить сообщение об ошибке пользователю и понизить его рейтинг, как автора запросов.

Кроме того, РА ЗБД должен оценивать временные максимальный интервалы времени, которые затрачиваются запросами и результатами запросов в целях оценки ширины коммуникационного канала для каждой из точек доступа. По результатам направлять требования к точкам доступа.

На рис. 8 представлена упрощенная модель некоторых потоков между компонентами модели.

2.4. Рациональный агент, оптимизирующий БД

РА, оптимизирующий БД (далее РА ОБД) построен на базе концепции агента, основанного на модели обучающегося агента. Модель взаимодействия РА ОБД с окружающим миром представлена на рис. 9.

Основной задачей РА ОБД является оптимизация работы СУБД в целом и отдельных БД, управляемых ею. Анализ работы VLDB строится на основе анализа системных журналов отдельных компонентов, образующих СУБД для VLDB: АС серверного кластера, ОС, самой СУБД, отдельных БД, расположенных в кластере и др. По многим вопросам улучшения работы VLDB в настоящий момент РА ОБД может давать исключительно рекомендации, которые нужно выполнять вручную системными администраторами и аналитиками.

Т.е. основными процессами, которые должен выполнять РА ОБД являются:

(1) анализ системных журналов и превентивный поиск проблем;

(2) моделирование внесения изменений в архитектуру;

Рис. 8. Модель потоков в нотации ИЫЬ для РА ЗБД

Реконфигурация ПАК кластера серверов №йВ /

/

Кластер серверов УЬРВ

Т

Управляющее воздействие на

БД и СУБД

Данные о работе БД и СУБД (Системные журналы

Рис. 9. Модель взаимодействия РА ОБД с окружающим миром

(3) уведомление системных администраторов и аналитиков о возможных проблемах и, если найдено решение, о возможном решении;

Рис. 10. Модель потоков в нотации БМЬ для РА ОБД

(4) при подтверждении администраторами успешности предложенного решения, внесение решения в базу знаний РА ОБД.

На рис. 10 представлена упрощенная модель отдельных потоков между компонентами модели.

Заключение

В настоящей работе показано, что значительную часть проблем, связанных с работой УББВ, можно решить путем использования ассоциаций рациональных агентов, обучаемых в процессе работы в операционной среде УББВ.

Насколько известно автору, подобный подход до сих пор не применялся именно для УББВ, но первые теоретические результаты показывают эффективность такого подхода.

Благодарности. Автор выражает свою благодарность своему научному руководителю проф. Н. Н. Непейводе за терпеливое обсуждение идей и ряд ценных замечаний, внесенных при 'редактировании материала.

Список литературы

[1] Э. Арендт. «Экстремальные» базы данных: Оамые большие и самые быстрые. Чему учит нас опыт работы с «экстремальными» базами данных, developerWorks Россия, IBM, 2010, URL http://www.ibm.com/ developerworks/ru/library/DBMag_Issue109_Extreme/ t 83, 84.

[2] С. Рассел, П. Норвиг. Искусственный интеллект.. Современный подход. Т. 1, Издательский дом «Вильямс», М., 2006, 1408 с. t 84.

[3] Н. Н. Непейвода, А. А. Цветков, М. М. Хаткевич, «Рациональнные агенты для случая управления сверхбольшими базами данных как взаимодействующие вероятностные автоматы», Вторая международная научно-практическая конференция «Технические науки: теория, методология и практика», Сб. научн. докл. (г. Москва, 28 ноября 2014 г.), АНО Изд. Дом «Научное обозрение», М., 2014, с. 34—41 t 84.

[4] N. N. Nepejvoda, A. Tsvetkov, M. Frolova. "Knowledge Structurization by Multi-agent Approach in a Non-formalizable Subject Area of Health and Medicine", Proceedings of the International Conference of Control, Dynamic Systems, and Robotics (Ottawa, Ontario, Canada, May 15-16, 2014), 102 t 84.

[5] M. Jarke, J. Koch. "Query Optimization in Database Systems", Computing Surveys, 16:2 (1984), pp. 111-152 t 91.

Рекомендовал к публикации Программный комитет

Третьего национального суперкомпьютерного форума НСКФ-2014

Об авторе:

Алексей Анатольевич Цветков

Главный специалист ИПС РАН, концепция и формализация для БД. Интересы: искусственный интеллект, адаптивное программирование, функциональное программирование, построение больших информационных систем

e-mail: [email protected]

Пример ссылки на эту публикацию:

А. А. Цветков. «Мультиагентный подход к управлению операционной средой, содержащей сверхбольшие базы данных», Программные системы: теория и приложения, 2015, 6:1(24), с. 83-97.

URL http://psta.psiras.ru/read/psta2015_1_83-97.pdf

Aleksei Tsvetkov. Multiagent approach to the controlling of the operational environment containing extremely large databases.

Abstract. A possible architecture of VLDB is considered based on co-operation of a system of the rational agents in the sense of [3], monitoring how VLDB works and providing adaptive control. (In Russian).

Key Words and Phrases: very large database, intelltcnual agent, rational agent, adaptive control, VLDB.

Sample citation of this publication

Aleksei Tsvetkov. "Multiagent approach to the controlling of the operational environment containing extremely large databases", Program, systems: theory and applications, 2015, 6:1(24), pp. 83—97. (In Russian.)

URL http://psta.psiras.ru/read/psta2015_1_83-97.pdf

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цветков Алексей Анатольевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Цветков Алексей Анатольевич

Текст научной работы на тему «Мультиагентный подход к управлению операционной средой, содержащей сверхбольшие базы данных»