Научная статья на тему 'Алгоритм выбора архитектуры параллельной системы баз данных по критерию стоимости'

Алгоритм выбора архитектуры параллельной системы баз данных по критерию стоимости Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
168
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЗЫ ДАННЫХ / ПАРАЛЛЕЛЬНЫЕ БАЗЫ ДАННЫХ / ОБРАБОТКА ЗАПРОСОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Григорьев Ю. А., Плужников В. Л.

В статье приводятся выражения, позволяющие оценить совокупную стоимость владения параллельных систем баз данных (ПСБД). Разрабатывается алгоритм выбора архитектуры ПСБД, учитывающий специфику сравнения архитектур ПСБД и особенности стоимостной оценки. Алгоритм путём последовательного наращивания число AMP-процессоров и SMP-узлов упорядочивает параллельные системы баз данных с архитектурами SE, CE и SN по возрастанию их стоимости. Показано, что в этой последовательности можно выделить подпоследовательность, в которой ПСБД упорядочены по убыванию среднего времени выполнения запросов. Так как в алгоритме последовательно анализируются все варианты ПСБД, то за конечное число итераций будет найдено оптимальное решение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритм выбора архитектуры параллельной системы баз данных по критерию стоимости»

НАУКА и ОБРАЗОВАНИЕ

Эл N° ФС 77 - 30569. Государственная регистрация №0421100025. 155Г1 1994-0406

Алгоритм выбора архитектуры параллельной системы баз данных по критерию стоимости 77-30569/270497

# 12, декабрь 2011

Григорьев Ю. А., Плужников В. Л.

УДК 004.657

МГТУ им. Н.Э. Баумана

[email protected] VPluzhnikov@, croc .ru

Оценка стоимости параллельных систем базы данных

Для тех проектов построения информационных систем, для которых важен экономический эффект, должна выбираться архитектура системы с минимальной совокупной стоимостью владения.

Совокупная Стоимость Владения (TCO - total cost of ownership ) - это методика расчета, созданная чтобы помочь потребителям и руководителям предприятий определить прямые и косвенные затраты и выгоды, связанные с любым компонентом компьютерных систем. [11] Также основной целью подсчета стоимости владения, кроме выявления избыточных статей расхода, является оценка возможности возврата вложенных в информационные технологии средств.

В процессе анализа оценки совокупной стоимости владения (ССВ) архитектуры параллельных систем баз данных должны учитываться соответствующие затраты. В работе предлагается проводить оценку ССВ архитектуры на основании следующей формулы:

СССВ СО + СПО + ^ С Эксплуатации + С Сервис.О + С Сервис.ПО + СОбслуживания ’ (1)

где

СО - изначальная стоимость оборудования, которая включает в себя стоимость серверов, систем хранения данных и активной сетевой инфраструктуры, обеспечивающей обмен данными в комплексе,

СПО - изначальная стоимость программного обеспечения комплекса,

СЭксплуатации - стоимость эксплуатации комплекса в гоД,

ССервис О - стоимость сервисной поддержки оборудования у производителя в

год,

ССервис ПО - стоимость сервисной поддержки программного обеспечения комплекса у производителя в год,

СОбслуживания - стоимость содержания персонала по обслуживанию комплекса в год и стоимость непрямых затрат на обслуживание комплекса,

Т - предполагаемое время эксплуатации время эксплуатации комплекса в

годах.

Детализируем значение стоимости эксплуатации комплекса

СЭксплуатации СЭл + С Конд + С Эксп.Др. ’ (2)

где

СЭл - стоимость электроснабжения комплекса в год,

СКонд - стоимость кондиционирования серверной комнаты в год,

СЭксп др - стоимость обслуживания других инженерных систем в год. Детализируем значение стоимости обслуживания комплекса

СОбслуживания С Персонала + С Аварии + СОбсл. Др. (3)

где

СПерсонала - стоимость содержания обслуживающего комплекс персонала в

год,

САварии - стоимость устранения аварийных ситуаций на комплексе в год,

СОбсл др - стоимость дополнительных расходов на обслуживание.

На основе формул (2) и (3), можно переписать формулу совокупной стоимости (1) как

Сссв = Со + с по + 2

т

(СЭл + СКонд + СДр.) + ССервис.О +

С Сервис.ПО + (С Персонала + С Аварии + СОбсл. Др.)

(4)

В расчетах стоимости оборудования необходимо учитывать специфику увеличения стоимости оборудования комплекса в зависимости от изменений технических характеристик.

Ниже приводятся формулы для оценки стоимости ПСБД, состоящей их нескольких БМР-систем (рис. 1). На рис. 1 введены следующие обозначения: пАМР - число процессоров в одной БМР-системе,

пБМР - число БМР-систем (вычисляется автоматически пБМР = п / пАМР), ЫЯ - число дисков, закреплённых за одной БМР-системой. Считается, что шина ввода/вывода очень быстродействующая.

ЫЯ = N / п8МР (5)

Такая конфигурация позволяет исследовать следующие архитектуры: о ББ (одна БМР-система), п = пАМР (т.е. пБМР=1), о СБ (кластер БМР-систем), пАМР > 1 и п > пАМР (т.е. пБМР>1), о БК (МРР-система с одним процессором в узле), пАМР=1 и п > пАМР (т.е. п8МР >1).

ByNet

Рис. 1. Общая схема комплекса, состоящего из нескольких 8МР систем.

Формулы для оценки стоимости ПСБД определяются особенностями зависимости стоимости системы от числа процессоров и числа дисков в дисковом массиве.

На рис. 2 показана зависимость стоимости БЫР-системы от числа процессоров.

Рис. 2 Зависимость стоимости 8МР-системы от числа процессоров.

На рис. 3 показана зависимость стоимости ЯАГО-массива от числа дисков

[12].

С

RAIDбазовя

стоимость одной полки

N

Рис. 3. Зависимость стоимости ИЛГО-массива от числа дисков.

Допуская, что комплексы с различными архитектурами требуют одинаковые инженерные системы и одинаковую численность обслуживающего персонала, а также то, что системы имеют соизмеримые коэффициенты готовности систем, можно переписать формулу стоимости совокупного владения комплексом, оптимизировав ее для сравнения архитектур параллельных систем баз данных, следующим образом:

C

ССВ. ПСУБД

CО + CПО + 2 [(СЭл + СКонд ) + C

Сервис. ПО

]

(6)

Для сравнительной оценки стоимости различных архитектур параллельных систем баз данных предлагается использовать оценку затрат ежемесячного ССВ комплекса на протяжении пяти лет без модернизации комплекса с выделением следующих компонентов ПСБД: БЫР-узлов, системы хранения и коммутационной сети. Таким образом, оценку стоимости определяется по формуле:

СССВ.ПСУБД М =

(ссхд (N) + П^МР х сбмр (пАМр) + С$ж (п8МР) + С0. др ) + Nсри х С по

60

+

(7)

(ссхд Эл(N) + П^МР х Сбмр.Эл (пАМр) + С8Ж Эл (пБМР) + СЭл. Др) +

(ССХДКонд (N) + п^МР х СБМР .Конд (пАМР) + СБШ .Конд (п^МР) + СКонд. Др ) +

КСРи х ССервис.ПО

12

где

СсХд (N) - стоимость системы хранения данных, зависящая от числа дисков

и дисковых полок в системе хранения ,

С8МР (пАМР) - стоимость БМР-сервера с количеством АМР-процессоров пАМР,

Сш (пБМР) - стоимость коммутатора сети Ву№1 на пБМР узлов в системе,

С о дР - стоимость дополнительного оборудования в комплексе (сеть хранения данных, терминальные системы и т.п.),

ССХд 'Эл (N) - стоимость электроснабжения системы хранения данных в год,

СШРЭл (пАМР)- стоимость электроснабжения БМР-сервера с количеством АМР-процессоров пАМР,

Сш Эл (пБМР) - стоимость электроснабжения коммутатора сети Ву№1 на пБМР узлов в системе,

СЭл др - стоимость электроснабжения дополнительного оборудования в

комплексе,

ССХд Конд (N)- стоимость теплоотвода от системы хранения данных в год, СМРКонд (пАМР) - стоимость теплоотвода БМР-сервера с количеством АМР-процессоров пАМР,

С8Ш Конд (п£МР)- стоимость теплоотвода коммутатора сети Ву№1 на пБМР узлов в системе,

СКонд др - стоимость теплоотвода дополнительного оборудования в комплексе.

Оценка ССВ в пересчете затрат на месяц позволяет рассчитать рентабельность системы и упрощает оценку построения систем по лизинговой схеме.

Алгоритм выбора архитектуры ПСБД

Учитывая специфику сравнения архитектур ПСБД и особенности стоимостной оценки, предлагается использовать следующий алгоритм для выбора архитектуры ПСБД.

Шаг 1. Рассчитать число дисков в ЯАГО-массиве.

Расчёт числа дисков проводится по формуле (8)

N =

Q

QD ' pD

X к

RAID

+ 2 • к

(S)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где

Q - общий объём хранимых данных (фактов и измерений),

Qd - объём диска,

pD - доля заполнения диска.

kRAID - коэффициент, учитывающий использование технологии RAID для защиты данных от физического отказа дисков. Значения данного коэффициента приведены в таблице 1,

2 • kenc - коэффициент, учитывающий использование технологии горячего резервирования дисков (hot spare).

Значения коэффициента kRAID

Таблица 1

Тип RAID Значения kRAID

RAID 0+І, RAID І+0 2

RAID 5 (3+І) " q

3 ■ QD ■ pD

RAID 5 (7+І) " q "

7 ■ Qd ■ Pd

RAID 6 (6+2) " q "

3 ■ QD ' pD

RAID 6 (І4+2) " q

7 ■ Qd ■ Pd

Шаг 2. Оценить стоимость дискового массива ссхд (N).

На данном шаге проводится запрос стоимости конфигурации системы хранения данных у официальных дистрибуторов оборудования.

Шаг 3. Проанализировать запросы к хранилищу данных.

Для каждого 1-го запроса

1) определить количество измерений, по которым выполняется поиск ( К ),

2) оценить число записей таблиц измерений в запросе (УРу, у = 1...К,),

3) рассчитать среднее значение VP =

K

\

К

ПуР.

У=1

Эти данные занести в табл. 2 и назначить граничные значения для среднего времени выполнения этих запросов.

Таблица 2

Сводная таблица параметров запросов с граничными значениями для среднего времени их выполнения

№ запроса VP K Г раничное значение для среднего времени выполнения

І VP! Kl Ті

2 VP2 K2 Т2

U V u Ku Ти

Шаг 4. Положить п=1 и пАМР=1

Это соответствует самой дешёвой конфигурации (одна БМР-система с одним процессором).

Шаг 5. Рассчитать среднее время выполнения запросов.

Рассчитать среднее время (М) для всех запросов из табл. 2, используя соответствующие формулы [10]. Если для какого-либо запроса время его выполнения превышает граничное значение, то перейти к Шагу 6, иначе перейти к Шагу 8.

Шаг 6. Проверить пАМР.

Если для текущего значения пАМР перегружается диск массива ЯДЮ (дальнейшее увеличение пАМР не приведёт к уменьшению времени выполнения запросов) или пАМР > пАМРКР (см. рис. 2), то перейти к Шагу 7, иначе положить п := (п / пАМР) х (пАМР +1)- сохраняем число БМР-систем, пАМР = пАМР +1 -увеличиваем число процессоров в каждой БМР-системе, перейти к Шагу 5.

Шаг 7. Увеличить число SMP-систем.

Положить п := (п / пАМР) +1, пАМР = 1, перейти к Шагу 5.

Шаг 8. Полученная конфигурация является оптимальной

(пАМР, пБМР = (п / пАМР)). Полученные значения п, пАМР, пБМР необходимо

использовать для расчета оценки ССВ архитектуры ПСБД по формуле (7). Завершить алгоритм.

Приведённый выше алгоритм путём последовательного наращивания пАМР и пБМР упорядочивает параллельные системы баз данных (ПСБД) с архитектурами БЕ, СЕ и БК по возрастанию их стоимости. Это следует из рисунка 2 и описания шага 6.

В этой последовательности можно выделить подпоследовательность, в которой ПСБД упорядочены по убыванию среднего времени выполнения запросов. Действительно, для ПСБД с параметрами пАМР и пБМР существует конфигурация ПСБД с параметрами пАМР и пБМР +1 (если до этого не было найдено оптимальное решение). Но в силу выражений для среднего времени выполнения запросов [10] эта конфигурация строго лучше по времени, чем предыдущий вариант, т.к. в алгоритме не исследуются системы с перегруженным разделяемым ресурсом (см. шаг 6). Этот вывод также следует из свойства внешней монотонности систем массового обслуживания [13].

Так как в алгоритме последовательно анализируются все варианты ПСБД, то за конечное число итераций будет найдено оптимальное решение.

ЛИТЕРАТУРА

1. М. Тамер Оззу, Патрик Валдуриз. Распределенные и параллельные системы баз данных: [Электронный ресурс]. [http://citforum.ru/database/classics/distr_and_paral_sdb/]. Проверено 26.11.2010.

2. Соколинский Л. Б., Цымблер М. Л. Лекции по курсу "Параллельные системы баз данных”: [Электронный ресурс]. [http://pdbs.susu.ru/CourseManual.html]. Проверено

04.12.2010.

3. Григорьев Ю.А., Плужников В.Л. Оценка времени соединения таблиц в параллельной системе баз данных// Информатика и системы управления. - 2011. - № 1. - С. 3-16.

4. Лисянский К., Слободяников Д. СУБД Teradata® для ОС UNIX®: [Электронный ресурс]. [http://citforum.ru/database/kbd98/glava5.shtml]. Проверено 14.03.2011.

5. Кузнецов С. Essential Modelling Options: [Электронный ресурс].

[http://citforum.ru/database/digest/dig_1612.shtml]. Проверено 14.03.2011.

6. Лев Левин. Teradata совершенствует хранилища данных: [Электронный ресурс]. [http://www.pcweek.m/themes/detail.php?ID=71626]. Проверено 26.11.2010.

7. Григорьев Ю.А., Плутенко А.Д. Теоретические основы анализа процессов доступа к распределённым базам данных. - Новосибирск: Наука, 2002. - 180 с.

8. Миллер Р., Боксер Л. Последовательные и параллельные алгоритмы. Общий подход. -М.: БИНОМ. Лаборатория знаний, 2006. - 406 с.

9. Григорьев Ю.А., Плужников В.Л. Оценка времени соединения таблиц в параллельной системе баз данных// Информатика и системы управления. - 2011. - № 1. - С. 3-16.

10. Григорьев Ю.А., Плужников В.Л. Анализ времени обработки запросов к хранилищу данных в параллельной системе баз данных // Информатика и системы управления. -2011. - № 2. - С. 94-106.

11. П. Тарасенко Расчет и распределение затрат [Электронный ресурс]. [http://www.eg-online.ru/article/52214/] Проверено 23.10.2011.

12. John P. Desmond Infrastructure: storage resource management software and SAN architecture seen lowering TCO // Journal Software Magazine Volume 22 Issue 2, 2002 P. 19-20.

13. Штоян Д. Качественные свойства и оценки стохастических моделей. - М.: Мир, 1979. -268 с.

electronic scientific and technical periodical

SCIENCE and EDUCATION

Cost-criterion selection algorithm of parallel system database architecture 77-30569/270497

# 12, December 2011 Г pnropbeB TO. A., Pluzhnikov V.L.

Bauman Moscow State Technical University [email protected] VPluzhnikov@ croc .ru

In the article the authors suggest expressions which make it possible to estimate the aggregate value of possessing database parallel systems (DPS). The authors developed an algorithm of DPS selection which allows for specific character of the comparison of DPS architectures and special feature of cost estimates. By means of sequential growth of the number of AMP-processors and SMP-units the algorithm orders the database parallel systems with SE, CE and SN architectures according to their cost increase. It is shown that in this sequence it is possible to isolate the subsequence in which DPS are ordered according to descending ordering of the mean time of responding to requests. As in the algorithm all DPS versions are consecutively analyzed, in the finite number of iterations optimal solution will be found

Publications with keywords: query processing time, Laplase-Stieltjes transformation in concurrent data base system, architecture of concurrent data base system

Publications with words: query processing time, Laplase-Stieltjes transformation in concurrent data base system, architecture of concurrent data base system

Reference

1. M. Tamer Ozzu, Patrik Valduriz, <http://citforum.ru/database/classics/distr_and_paral_sdb/>.

2. Sokolinskii L. B., Tsymbler M. L., < http://pdbs.susu.ru/CourseManual.html>.

3. Grigor'ev Iu.A., Pluzhnikov V.L., Informatika i sistemy upravleniia 1 (2011) 3-16.

4. Lisianskii K., Slobodianikov D., DBMS Teradata® for OS UNIX®, <http://citforum.ru/database/kbd98/glava5.shtml>.

5. Kuznetsov S., Essential Modelling Options, <http://citforum.ru/database/digest/dig_1612.shtml>.

6. Lev Levin, <http://www.pcweek.ru/themes/detail.php?ID=71626>.

7. Grigor'ev Iu.A., Plutenko A.D., Theoretical fundamentals of the analysis of the processes of access to distributed databases, Novosibirsk, Nauka, 2002, 180 p.

8. Miller R., Bokser L., The serial and parallel algorithms. The general approach, Moscow, BINOM. Laboratoriia znanii, 2006, 406 p.

9. Grigor'ev Iu.A., Pluzhnikov V.L., Informatika i sistemy upravleniia 1 (2011) 3-16.

10. Grigor'ev Iu.A., Pluzhnikov V.L., Informatika i sistemy upravleniia 2 (2011) 94-106.

11. P. Tarasenko, <http://www.eg-online.ru/article/52214/>.

12. John P., Desmond Infrastructure: storage resource management software and SAN architecture seen lowering TCO, Journal Software Magazine 22 (2) (2002) 19-20.

13. Shtoian D., Qualitative properties and evaluation of stochastic models, Moscow, Mir, 1979, 268 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.