Математическая модель оптимального размещения распределённой базы данных по узлам ЛВС на базе файл - серверной архитектуры
А. Н. Скоба, Е. В. Состина Южно-Российский государственный политехнический университет (НПИ) им.
М. И. Платова, Новочеркасск
Аннотация: В данной статье с использованием аппарата замкнутых экспоненциальных сетей массового обслуживания (СеМО), разработана математическая модель для решения задачи получения интегральных показателей распределённой информационной системы на базе локальной вычислительной сети (ЛВС) с использованием файл-серверной архитектуры. Представлен алгоритм оптимального размещения распределённой базы данных (РБД) по узлам ЛВС по критерию минимума среднего времени реакции системы на запросы пользователей. Приведены результаты численных экспериментов. Ключевые слова: распределённая информационная система, распределённая база данных, локальная вычислительная сеть, сеть массового обслуживания, концептуальная модель, экспоненциальный закон распределения случайной величины, стационарная вероятность, марковский процесс, уравнение глобального баланса, время реакции систиемы, нормализующая константа, итерационный процесс.
Как было отмечено в работах [1,2], одной из важных задач, без решения которой невозможна разработка распределённой информационной системы, является рациональная организация вычислительного процесса, реализованного в среде ЛВС. В процессе работы ЛВС поддерживает распределённую базу данных (РБД) [3], которая обладает несомненными преимуществом перед централизованной (меньшее время ответа для пользователей, меньшее время блокировки записей, более простое планирование заявок). Однако при проектировании таких систем будут существовать большие общие пересекающиеся массивы данных, в которых определенная информация будет присутствовать многократно. Неоптимальное обращение с информационными ресурсами может с одной
стороны увеличить время реакции системы на запросы пользователей, а с другой стороны, может стать очень дорогим для пользователей [4]. Поэтому в одной из задач, возникающих при проектировании распределённой информационной системы на базе ЛВС , является задача оптимального размещения информационных ресурсов (частей РБД) по узлам ЛВС, включающая выбор топологии сети, критерия эффективности, конструирование математической модели, разработку алгоритма оптимизации и ее программную реализацию.
Для формализации постановки задачи приняты следующие допущения [5]: топология сети - моноканал односегментный; тип запроса -однократный; предметная область - информационное обслуживание; однородность сети - выделенный файл-сервер; тип процесса - простой; режим информационного обслуживания - чтение; способ обеспечения целостности данных - отсутствует.
Математическая постановка задачи. Имеется ЛВС , включающая: множество узлов сети - и={и],.,из,.,ип}; множество пользователей -Л={Л],...,Л5,...,Лп}; множество отношений - К={К],.,К},.,Ка}; множество интенсивностей формирования запросов - Л={к],...,к8,...,кп}; множество запросов на чтение - 0={0],.,01,.,0д}; множество объёмов отношений -У={У],.,У},.,Уа}; скорость считывания в узлах - УУ={УУ],...,УУ8,...,УУп}; скорость записи в узлах - УВ={УВ],...,УО!1,...,УВп}; скорость передачи данных по каналу связи - в; постоянная задержка при передаче данных по каналу связи - в0; постоянная задержка при обработке в узле - а0; производительность процессора иг-го узла - Ри2, (2 = 1,п); матрица вероятностей формирования запросов пользователями -
/Л& = /1, (^ = 1, п, I = 1, q), где элемент // представляет собой
вероятность того, что ¿*-й пользователь сформировал 1-й запрос; матрица
ь
ь,
(/ = 1, ц, у = 1, 1), где Ь
объёмов считываемой информации В = объём считываемой информации по /-му запросу на чтение из у-го отношения; 8(В )= ) =||^/,| |, (/ = 1, Ц, у = 1,1), где
[1, если / - й запрос обращается к у - му отношению,
8Г = \
1 [0, такого отношения нет, 1 _
причём = 1, / = 1, ц; матрица распределения отношений по узлам ЛВС -
1=1
X =
х
яи
X
ук
I, (у = 1,1, к = 1, п), где
хук =
1, если Яу- е ик , 0 - в противном случае,
причём ^ х к = 1, у = 1,1.
к=1
Концептуальная модель. Ввиду того, что интенсивности формирования запросов пользователями различны, а также принимая во внимание то, что времена обслуживания заявок в узлах являются взаимно независимыми случайными величинами, распределёнными по экспоненциальному закону, изучение интегральных характеристик данной информационной системы (ИС) можно свести к исследованию замкнутой экспоненциальной сети массового обслуживания (СеМО) [6-8]. Концептуальная модель функционирования рассматриваемой ИС содержит: приборы - Р0, Рь,..., Рп, моделирующие работу соответственно канала и узлов иь,.ип; буферные памяти канала, предназначенные для хранения запросов пользователей -ВРСь,...,ВРС,..,ВРСп; буферные памяти узлов -ВРиь,.,ВРи5,.,ВРип. Данная концептуальная модель представлена на рис.1.
Р\
Т
HPl.li
п
п-1
ж
ВРС|
П-1
А|
Ж
Р:
Т
НРШ
п-1
Ж
ВРС:
* ■
п-1
Р|>
А?
Ж
IV
ври
п-1
Ж
ВРС
1
п-1
1ГК
Ан
Ж
рп тг
ври.
п-1
м
ВРСп
1
п-1
Лп
Ш
Рис. 1. Концептуальная модель информационной системы Определение стационарных вероятностей состояний сети. Для идентификации состояний сети введём векторное пространство состояний:
12п+],],.-,12п+],».-,12п+],п),
I = 1,р}, где
1, если £ - й пользователь (¿* = 1,п) находится в активном состоянии (формирует сообщение), 0 - в противном случае;
= ^
1
1
{¡г, £ = 2, п +1, г = 1, п} - описывает очереди к каналу и состояние канала, где
¡гг - количество запросов г-го пользователя в г-ой буферной памяти канала и
на обслуживании в канале; {1гг, £ = п + 2,2п +1, г = 1, п} - описывает очереди к
узлам и состояния узлов (ПЭВМ), где Iгг - количество сообщений г-го пользователя в буферной памяти узла и на обслуживании в узле. При этом
имеют место следующие ограничения:
2 п + 1 п
'кг
1) ЕЕ 1кг = п;
к = 1 г = 1
2 п+1 _
2) Е ¡кг =1 г=1 п;
к=1
3) 1кг > 0, У к = 1,2п +1, г = 1, п.
Представляющие интерес характеристики СеМО определяются стационарными вероятностями состояний сети. Пусть ) - стационарная вероятность того, что сеть находится в состоянии I, где
1=(\х,...,\г,..лхп;...;1гп+1у...,12п+1,г>->12п+1,п)- Можно показать, что процесс
изменения состояний сети описывается однородным регулярным марковским процессом [9]. Тогда уравнение глобального баланса относительно р( ) для стационарного режима функционирования имеет вид [6-8,10,11]:
2 п+1 п /_\ 2 п+12 п+1 п /_ _ _ \
ЕЕр (К =ЕЕЕр (+1т - 1кг КР (г), (1)
к=1 г=1 I=1 к=1 г=1
где Кгг, (г = 1, п, г = 1,2п +1) - интенсивность обслуживания в г-м узле сообщения г-го пользователя; 1гг - вектор, в г-ой координате которого (г = 1,2п +1) на г-м месте (г = 1, п) стоит 1, а все остальные значения равны нулю; Рк(г) - вероятность того, что сообщение г-го пользователя после обслуживания в 1-м центре попадёт в к-й центр.
Согласно [6-8] выражения для стационарных вероятностей состояний сети, описываемой уравнением (1), имеют мультипликативную форму и могут быть представлены в виде
р(г )= О- ((,..., Нп (г*).
(2)
*=1
Здесь О(Ы1,^,Ып) - нормализующая константа, выражение для которой, исходя из (2) и условия нормировки: 2 р(г ) = 1,
¿её ((,...,,Мп ;2п+1)
(где
2 п+1
Е(N ,...,Ып;2п + 1) = и/0 < г1к < Мк,1 < I < 2п + 1,1 < к < п, 2 Ч = N,N = П),
г=1
имеет вид
2п+1
1-1 /_ \
0(1,...,^ )= 2 П zs (г*),
гЕЕ(,...,Nn;2п+1) *=1
- I п )
г* - общее число сообщений в центре б г* = 2 ¿гг ),
(3)
* ^^ БГ
v г=1
^ (г* )= гт ±
1 I е
V
(4)
г=1 г ! V ^ ,
\ / 5Г у
В выражение (4) входят величины е*г, = 1,2п +1, г = 1, п), которые находятся из решения системы линейных алгебраических уравнений
(5)
2 п+1 ___
е =2 е Р (г), * = 1,2п +1, г = 1, п .
¿—1 ]Г \ /' ' ' '
]Г
1 =1
Число независимых уравнений в системе (5) на единицу меньше количества переменных, так что её решение единственно с точностью до мультипликативной константы. Для отыскания однозначного решения системы (5) достаточно произвольно задать значение е*Г, например, положить е1г = 1, (г = 1,п). В этом случае величины е*Г можно интерпретировать
как среднее число посещений сообщением г-го пользователя центра б между двумя последовательными посещениями им первого центра [6].
При расчёте величины ¡лг (я = 1,2п +1, г = 1, п) учитываются следующие три группы потока заявок [5]: первая группа включает запросы, формируемые пользователем, прикреплённым к и£-му узлу, т.е. запросы пользователя к базам данных, размещённым в собственной ПЭВМ; вторая группа включает запросы, сформированные пользователем и£-го узла, для выполнения которых необходимо обращение к базам данных, расположенным в других узлах. После реализации такого обращения должна быть выполнена окончательная обработка полученной информации в собственной ПЭВМ пользователя; третья группа включает запросы, формируемые пользователями других узлов, т.е. в и£-м узле размещены базы данных, которые необходимы для выполнения запросов, формируемых пользователями, прикреплёнными к другим узлам. Исходя из этого:
£ = 1,2п + 1, г = 1, п
Хг, £ = 1, г = 1, п;
в~\ г = 1, п, 2 = 1, п, £ = 1 + 2,2 = г;
С ч й V1
У } у
в+-
0 в
г = 1,п,2 = 1,п,£ = 1 + 2,2 ф г;
( ч й ч п й ч п й \
I /п I ¿уIЛII ¿уУЛ* I /п IIV,*
«с +
1=1 у=1
УУ
+
г=1 *=1 у=1
ри.
+
г=1 *=1 у=1
г = 1,п, 2 = 1,п, £ = п + 1 + 2, г = 2;
( Ч й \
I Л М^у
г=1 у=1
«0 +
УУ
, г = 1,п,2 = 1,п,£ = п + 1 + 2, г ф 2.
Элементы матрицы переходных вероятностей ||р* (£) для запросов б-го пользователя (/, * = 1,2п +1, £ = 1, п) определим следующим образом:
р. (* )=
1 -ЕЕ /А*!*, I =1к = * +1;
i=1 ;=1 д (
ЕЕ -/"А**, 1 = 1 к = " + * +1;
i=1 у=1
1,если ЕЕ/АуХ^ ф 0,при г = 1,п,I = г +1,1 ф * +1,к = 1;
I=1 ;=1
г = 1,п,/ = п +1 + г,г ф *,к = г + 1и г = *,к = 1;
д (
ЕЕ /А У
I=1 У=1_
д (
1-ЕЕ /Ах]*
I=1 У=1
если ЕЕ/*А*у ф 1,при I = * +1,г = 1,п,
1=1 у=1
к = п +1 + г, к ф п + * +1; 0, во всех остальных случаях.
v
Расчёт среднего времени реакции системы. Пусть Т - среднее время реакции системы на запрос пользователей. Величину Т определим как
^ 1
Т =
ЕЛ
г=1
ЕКТг,
(6)
г=1
где л, (г = 1, п) - интенсивность формирования запросов г-м пользователем; Тг, (г = 1, п) - среднее время реакции системы на запрос г-го пользователя. Величину Т г определим как
Т = N
Т г — —
Хг
(7)
где Ыг, (г = 1, п) - среднее количество заявок г-го пользователя в системе; Лг, (г = 1, п) - средняя интенсивность формирования заявок г-м пользователем. Величины N г и Л г определим как N г — 1 - Рг (1), л г =л р (1), где Рг(1) - вероятность того, что г-й пользователь системы находится в активном состоянии (формирует запрос). С учётом этого формула (6) примет вид
т =
с \ 1
п
I л
v г=1 у
I
1 - рг (1)
1 р (1)
(8)
Здесь р (1)= II... I I... 14(' (1), м),
г11=0 г1,г-1=0 г1,г+1 =0 гп1=0
где ^ (l)=(i11,..., ^г^1, i1,г+1,..., 21п ), М Мп ) .
Несложно показать, что
р('(''(1),м)= х4,...^)=I )((,),
(9)
геЕ ((,2 п+1) - "(г)т г1 =г 1 (1)
| геЕ((,2 п+1) }=2 21 =21 (1)
где н = (г11,...,г1г ,...,г1п ). Согласно (4) выражение (9) может быть приведено к
виду
р ((N)= (( - К)(1))- IIХ1га(м - 1г - )(1))
(10)
где х1г = Ц (г = 1, п).
Ц1г
Как видно из (10), расчёт величины Т сводится по существу к расчёту нормализующей константы О(М],.,Ып), вычисление которой по формуле (3) сопряжено со значительными вычислительными сложностями (при увеличении числа центров, классов сообщений, мощность пространства состояний быстро растёт). В работах [7,12] описан рекуррентный метод Бузена для расчёта О(М],.,Ып), в соответствии с которым расчёт нормализующей константы сводится к простой итерационной процедуре:
О (п)= О 1 (п)+1 х О (п - 1г),
т \ / т-1 \ / ^^ тг т \ / ?
(11)
г=1
где п = (п1,..., пг), пг = 0,1; х тг = , (т = 1,2п +1; г = 1, п). Предполагается также,
ц
г т
что
От (п)= 1, если все п = 0, (г = 1, п) и От (п - 1г )= 0, если хотя бы одна из
г
г=1
координат вектора п - 1г < 0. Значение нормализующей константы 0(Ы},...,Ып) получается по формуле (11) при т = 2п +1 и п = ((,...,Ып), где
N = 1, (/=Щ).
Решение оптимизационной задачи. Задача оптимального размещения РБД по узлам ЛВС по критерию среднего времени реакции системы сводится к задаче
Т = Т(Х) -К тгип "
при ограничении
Е =1, у =1 (
к=1
>
(12)
где X =
(/ = 1, = 1, Д) матрица, задающая взаимосвязь между
ПЭВМ и размещаемыми на них отношениями; Т (2] - имеет вид (8), для данного размещения, задаваемого матрицей X.
Задача (12) является задачей нелинейной комбинаторной оптимизации с буквенными переменными. Ввиду того, что функция Т имеет сложный вид, а
так же ввиду отсутствия в настоящее время алгоритмов решения такого класса задач (кроме как метод полного перебора) [5,12], для решения задачи (12) может быть применен следующий разработанный эвристический алгоритм, основанный на численном прогнозировании поведения целевой
функции. Обозначим Рц = - вероятность того, что /-
й
пользователь обратится к у-му отношению; Щ/^Ь,.^ = 1.П.] =1.с1) -
средний объем информации, циркулирующий между 1-м пользователем и у-м отношением.
1. Полагаем JTy = к=0.
2. Выбираем для У/=1,(А: Ку—тах{Ку}, (/= 1,я) и отношение помещаем в £-ю ПЭВМ.
3. Вычисляем значения {7^-}, по формуле (7), а значение Тпо формуле (8). Если кф0 - переходим на шаг 7, в противном случае - на следующий шаг.
4. Полагаем /=Цк и Г^ = Т
5. Выбираем ^ = тах < Г"'}, /=1^Г и где {JT^}: /=l,d,
6. Если ii^ = —1 или }={6}, то переходим на шаг 8, иначе отношение Rj помещаем в //-ю ПЭВМ, полагаем к=к+1 и переходим на шаг 3.
7. Если Т<Т^ - переходим на шаг 4, в противном случае полагаем л ■ = -1 и переходим на шаг 5.
8. Конец. (Полученное распределение будет оптимальным). Результаты численных экспериментов. Составлена программа расчета
данной модели (среднего времени реакции системы на запросы пользователей) и алгоритма оптимизации на языке С+ + . Расчет проводился на компьютере на базе процессора фирмы Intel, с тактовой частотой 3,0 ГГц. В таблице №1 приведены некоторые результаты машинных экспериментов.
Таблица №1
Результаты машинных экспериментов
Размерность >Я Я t* я )Я Я t* я
задачи nxdxq я я о я 1? я А,%
<D О Я т <D я cd Л <D н я Т <D Я <D Э <D а 1 cd Л <D н я т <D Я <D S3 <D а О <
л £ к Я <D £ Я сп о п о я !=г МПП Я <D £ я СП t* S <D Л pq я £ cd сп о п о я !=г А О я <D £ я СП t* S <D а PQ Я £ « cd сп
3x4x5 6,7718 81 1,8644 7,1 1 1,8787 1,02 -1
6x8x10 1,6890 0,6991 216 3 0,6298 16,35 -10
8x13x15 2,4534 giz - - 5 1,5490 142,6 -
10x15x20 1,0437 101& - - 8 0,4417 1182,4 -
Здесь МПП - метод полного перебора; ЭА - эвристический алгоритм; 7 -7 - среднее время реакции системы для оптимального размещения РБД, полученного МПП; Т^ - среднее время реакции системы для оптимального размещения РБД, полученного ЭА; А - относительная погрешность, выраженная в % между оптимальным размещением, полученным МПП и квазиоптимальным размещением, полученным с помощью ЭА.
Разработанная модель оптимального размещения РБД по узлам ЛВС может быть использована при внедрении интегрированных информационно-справочных систем на промышленных предприятиях.
Литература
1. Теоретические основы автоматизированного
управления / А.В. Меньков, В. А. Острейковский. Учебник для вузов. М.: Издательство Оникс, 2005. 640с.
2. Проектирование экономических информационных систем: Учебник / Г.Н. Смирнова, А.А. Сорокин, Ю.Ф. Тельнов; Под ред.Ю.Ф. Тельнова. М.: Финансы и статистика,2001. 512с.
3. Воробьёв С.П., Горобец В.В. Исследование модели транзакционной системы с репликацией фрагментов базы данных, построенной по принципам облачной среды // Инженерный вестник Дона. 2012. №4. URL: ivdon.ru/ru/magazine/archive/n4y2012/1149.
4. Павлов С.В., Самойлов А.С. Проектирование структуры распределённой базы пространственных данных в сложно
структурированных иерархических географических информационных системах // Инженерный вестник Дона. 2015. №1. URL: ivdon.ru/ru/magazine/archive/n1y2015/2755.
5. Черноморов Г. А. Теория принятия решений: Учебное пособие / Юж.-Рос.гос. техн.ун-т.-3-е изд. перераб. и доп. Новочеркасск : Ред. журн. «Изв. Вузов. Электроомеханика», 2005. 448с.
6. Вишневский В.М. Теоретические основы проектирования компьютерных сетей. М.: Техносфера, 2003.- 512 с.
7. Жожикашвили В. А., Вишневский В.М. Сети массового обслуживания. Теория и применение к сетям ЭВМ. М.: Радио и связь, 1988. 192с.
8. Герасимов А.И. Теория и практическое применение стохастических сетей. М.: Радио и связь,1994.-175с.
9. Клейнрок Л. Вычислительные системы с очередями: Пер. с англ.-М.Мир,1979. 600с.
10. Antunes C.H. et al. A Multiple Objective Routing Algorithm for Integrated Communication Network // Proc. ITC-16.-1999.V.3b. pp.1291-1300.
11. Chakka R., Harrison P.G. A Markov modulated multi-server queue with negative customers. Ihe MM CPP/GE/c/LG-queue // Acta Informatika/-2001.-v.37. pp.785-799.
12. Круглый З.Л. Алгоритмы расчёта моделей структур вычислительных систем с различными классами заданий // Управляющие системы и машины. 1980. №4. С.73-79.
References
1. Teoreticheskie osnovy avtomatizirovannogo upravleniya [Theoretical foundations of automated control]. A.V. Men'kov, V.A. Ostreykovskiy.Uchebnik dlya vuzov. M.: Izdatel'stvo Oniks, 2005. 640p.
2. Proektirovanie ekonomicheskikh informatsionnykh sistem [Designof economic information systems]: Uchebnik. G.N. Smirnova, A.A. Sorokin, Yu.F. Tel'nov; Pod red. Yu.F.Tel'nova. M.: Finansy i statistika, 2001. 512p.
3. Vorob'ev S.P., Gorobets V.V. Inzenernyj vestnik Dona (Rus), 2012. №4. URL: ivdon.ru/ru/magazine/archive/n4y2012/1149.
4. Pavlov S.V., Samoylov A.S. Inzenernyj vestnik Dona (Rus), 2015. №1. URL: ivdon.ru/ru/magazine/archive/nly2015/2755.
5. Chernomorov G.A. Teoriya prinyatiya resheniy [decision making theory]: Uchebnoe posobie. Yuzh. Ros.gos.tekhn. un-t. 3-e izd. pererab. i dop.Novocherkassk : Red. zhurn."Izv.vuzov.Elektromekhanika", 2005. 448p.
6. Vishnevskiy V.M. Teoreticheskie osnovy proektirovaniya komp'yuternykh setey [Theoretical foundations of computer network design] .M.: Tekhnosfera , 2003. 512p.
7. Zhozhikashvili V.A., Vishnevskiy V.M. Seti massovogo obsluzhivaniya. Teoriya i primenenie k setyam EVM [Queueing networks. Theory and its network application]. M.: Radio i svyaz', 1988. 192p.
8. Gerasimov A.I. Teoriya i prakticheskoe primenenie stokhasticheskikh setey [Theory and practical application of stochasticnetworks]. M.: Radio i svyaz', 1994. 175p.
9. Kleynrok L. Vychislitel'nye sistemy s ocheredyami [Queueing Systems]: Per. s angl. M.Mir, 1979. 600p.
10. Antunes C. H. et al. A Multiple Objective Routine Algorithm for Integrated Communication Network. Proc ITC-16. 1999. V. 3b. pp. 1291-1300.
11. Chakka R., Harrison P. G. A Markov modulated multi-server queue with negative customers-The MM CPP/GE/c/L G-queue.ActaInformatica, 2001, V. 37. pp.785-799.
12. Kruglyy Z.L. Algoritmy rascheta modeley struktur vychislitel'nykh sistem s razlichnymi klassami zadaniy . Upravlyayushchie sistemy i mashiny.1980. №4. pp.73-79.