Научная статья на тему 'Автоматизированное распределение больших объёмов данных высоконагруженных систем'

Автоматизированное распределение больших объёмов данных высоконагруженных систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
163
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕНИЕ ДАННЫХ / DISTRIBUTION OF DATA / ВЫСОКОНАГРУЖЕННЫЕ СИСТЕМЫ / HIGH-LOAD SYSTEM / БОЛЬШИЕ ОБЪЁМЫ ДАННЫХ / BIG DATA / КЛАСТЕРИЗАЦИЯ / CLUSTERING / КРУГОВОЕ РАСПРЕДЕЛЕНИЕ / CIRCULAR DISTRIBUTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Викулов Е. О., Леонов Е. А., Денисова Л. А.

Объектом исследования являются методы, алгоритмы и технологии распределения больших объемов данных высоконагруженных систем.На сегодняшний день можно выделить ряд информационных систем работающих с большими объемами данных. В сети интернет: «социальные сети», хранилища данных, такие как «Яндекс Диск», «Google Drive», dCache[3].Рассмотрим методы, используемые вышеупомянутыми системами при распределении данных. Существует два основных метода решения задачи распределения данных и последующей их быстрой доставки пользователю:сети доставки и дистрибуции данных,системы балансировки нагрузки.Сети доставки и дистрибуции данных состоят из географически распределённых многофункциональных платформ, взаимодействие которых позволяет максимально эффективно обрабатывать и удовлетворять запросы пользователей при получении данных.Системы балансировки нагрузки это решения, основанные на распределении данных между серверными станциями. Здесь выравнивание нагрузки это распределение процесса выполнения заданий между несколькими серверами сети с целью оптимизации использования ресурсов и сокращения времени обработки данных. Данный метод является одним из наиболее удачных и часто используемых решений, как для кластерных вычислений, так и для вычислений на отдельных серверах. Наиболее популярным решением в данном методе является алгоритм Round-robin [1].

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HIGLOAD BIG DATA AUTOMATIC DISTRIBUTION

The object of investigation methods, algorithms and technologies for the distribution of large amounts of data systems heavily.Today we can identify a number of information systems dealing with large volumes of data. In the Internet, "social networking", data storage, such as "Disk Yandex», «Google Drive», dCache [3].Consider the methods used in the distribution systems of the above data. There are two basic methods for solving the problem of data distribution and their subsequent rapid delivery to the user:delivery network and distribution dataload balancer.Delivery network and distribution data consist of geographically distributed multifunctional platforms whose interaction maximizes process and meet the needs of users when retrieving data.Load balancer it solutions, based on the distribution of data between server stations. Here, load balancing the distribution of the process of implementation of tasks between multiple servers on the network in order to optimize the use of resources and reduce the processing time. This method is one of the most successful and commonly used solutions for cluster calculations, and for calculations on separate servers. The most popular solution in this method is the algorithm Round-robin [1].

Текст научной работы на тему «Автоматизированное распределение больших объёмов данных высоконагруженных систем»

УДК 004.6

Е.О. Вику лов. Е.О. Vihdov ЕЛ. Леонов, Е.А. Leonov Л.А. Денисова, L.A. Denisova

Омский государственный технический университет, г. Омск, Россия Omsk State Technical University, Omsk, Russia

АВТОМАТИЗИРОВАННОЕ РАСПРЕДЕЛЕНИЕ БОЛЬШИХ ОБЪЁМОВ ДАННЫХ ВЫСОКО НАГРУЖЕННЫХ СИСТЕМ

HIGLOAD BIG DATA AUTOMATIC DISTRIBUTION

Объектом всследовання являются методы, алгоритмы н технологии распределения больших объемов данных высоконагруженных систем.

146

На сегодняшний день можно выделить ряд информационных систем работающих с большими объемами данных. В сети интернет: «социальные сети», хранилища данных, такие как «Яндекс Диск». «Google Drive». dCache[3],

Рассмотрим методы, используемые вышеупомянутыми системами при распределении данных. Существует два основных метода решения задачи распределения данных и последующей их быстрой доставки пользователю:

- сети доставки и днстрноуцни даннык.

- системы балансировки нагрузки.

Сети доставки и дистрибуции данных состоят из географически распределенных многофункциональных платформ, взаимодействие которых позволяет максимально эффективно обрабатывать и удовлетворять запросы пользователей при получении данных.

Системы балансировки нагрузки - это решения, основанные на распределении данных между серверными станциями. Здесь выравнивание нагрузки - это распределение процесса выполнения заданий между несколькими серверами сети с целью оптимизации использования ресурсов и сокращения времени обработки данных. Данный метод является одним ю наиболее удачных и часто используемых решений, как для кластерных вычислений, так н для вычислений на отдельных серверах. Наиболее популярным решением в данном методе является алгоритм Round-robin [1 ].

The object of investigation methods, algorithms and technologies for the distribution of large amounts of data systems heavily.

Today we can identify a number of information systems dealing with large volumes of data. In the Internet, "social networking'1, data storage, such as "Disk Yandex», «Google Drive», dCache [3].

Consider the methods used in the distribution systems of the above data. There are two basic methods for solving the problem of data distribution and their subsequent rapid deli wry to the user:

- delivery network and distribution data

- load balancer.

Delivery network and distribution data consist of geographically distributed multifunctional platforms whose interaction maximizes process and meet the needs of users when retrieving data.

Load balancer - it solutions, based on the distribution of data between server stations. Here, load balancing -the distribution of the process o:f implementation of tasks between multiple servers on the network in order fo optimize the use of resources and reduce the processing time. This method is one of the most successful and commonly used solutions for cluster calculations, and for calculations on separate servers. The most popular solution in this method is the algorithm Round-robin [1].

Ключевые слова: Распределение данных, высоконагруженные системы, большие объёмы данных, кластеризация, круговое распределение.

Keywords: Distribution of data, high-load system, big data, clustering, circular distribution.

Постановка задачи оптимизации на основе кластерных методов Для решения задачи оптимизации выбора серверной станции важно выбрать информацию, которая позволит провести оптимальное распределение данных по узлам системы. Исходные данные для поставленной задачи представим в виде матрицы размером п

х

X,

lfc 1 „I к

лк jft

i

"ik

■я

X

Я

r Fti * П

(1)

где 11 - количество переданных в систему файлов, ш - количество параметров для проведения оптимизации. В качестве параметров оптимизации примем следующие факторы:

„1Й „1й _. г а

- загруженность жесткого диска в процентах, - расстояние до серверной станции. Лг

- информация о данных переданных пользователем в систему, ооъём, тип. Отсюда количество параметров в системе т=3. число серверных станций к= - номер серверной станции. I = - номер переданного в систем}7 файла.

Оптимизацию распределения данных на основе выявленных параметров проведём, применив методы кластерного анализа.

Применение принципа кластеризация методом к-шеал; (к-средннх)

Поставленная задача оптимизации решается при помогли метода к - средних [4], заключающегося в следующем: заданному фиксированному числу к кластеров сопоставляются наблюдения так, что центроиды в кластере (для всех переменных) максимально возможно отличаются друг от друга. Центроидом - является геометрический центр фигуры.

В качестве меры близости используется Евклидово расстояние [4]:

I? д

ll.v-.vll = - УгТ

, (2)

где ЕЙ". Рассмотрим ряд наблюдений С* £ Метод к-средних

разделяет т наблюдений на £ = .,, г кластеров, чтобы минимизировать

суммарное квадратичное отклонение точек кластеров от центроидов этих кластеров:

к

Л* -

Л1|

(3)

где

х>к е= Я

йЕ й п м . центроид для кластера -"I. Зная меру расстояния между точкой и центроидом, задача сводится к начальному выбору центров кластеров и итерационному перестроению кластеров. Так как из исходных данных нельзя вычленить идеальный вариант распределения данных за начальные центры кластеров примем первый набор наблюдений.

Затем отнесём наблюдения к тем кластерам, чье среднее (центроид) к ним ближе всего. Центроид каждого 1-го кластера перевычисляется по следующему правил}*:

лЛ 4 п (4)

Таким образом, алгоритм метода ^-средних заключается в перевычислении на каждом шаге центроида для каждого ктастера. полученного на предыдущем шаге.

Алгоритм останавливается, когда значения не меняются:

ь» =

, где £ ~ шаг

работы алгоритма или количество шагов перестроения превышает заданное. Применение пришита кластеризация на основе сети Кохонена Для решения задачи кластеризации применим Нейронные сети Кохонена [5]3 основным элементом которых является слой Кохонена [5], состоящий из некоторого количества и параллельно действующих линейных элементов. Все они имеют одинаковое число входов я и получают на свои входы один и тот же вектор входных сигналов ^ " ^. На выходе т - го линейного элемента получаем сигнал

п

У! = У

й , (5)

где весовой коэффициент £ - го входа / — го нейрона , * пороговый коэффнци-

После прохождения слоя линейных элементов сигналы посылаются на обработку по правилу «победитель забирает всё»: среди выходных сигналов ¥4 ищется максимальный; его аг^П пни 1!!!1

номер ' . Окончательно, на выходе сигнал с номером ^какО равен

единице, остальные — нулю.

Решение задачи оптимизации

Решим поставленную задачу' оптимизации распределения данных при помощи метода к-шеаи^ и сети нейронной Кохонена, промоделировав их работу в среде МАТЬАВ [б]. Рассмотрим тестовую выборку, состоящую из 100 случаев загрузки файлов различных размеров. Для наглядности разделим тестовую выборку на 3 группы, основываясь на показателе загрузки серверной станции: слабо загружена(0 % - 40 %); средне загружена(50 % - 70 %); сильно загружен а(70 % - 100 %).

Проведём эксперимент, в котором:^" Полученные

результаты сведём в таблицу 1. Сравним по.тученный результат распределения данных при помоши методов кластеризации, и результат, полученный на основе субъективного суждения опытного специалиста, эксперта по работе с распределением больших объемов данных.

Таблица 1

Сравнение резу.тьтагов

Метод распределения Сервер1 Сервер2 СерверЗ Результат

экспертная оценка 0 1 0 С2

метод к-средннк 1 0 0 С1

сеть Кохонена 1 0 0 С1

Из таблицы 1 видно, что оба метода кластеризации отнесли файл в 75 МБ отправленный одним пользователем, на сервер 1, приняв решение на основе тестовой выборки. Тогда как человек, эксперт, предположил бы, что данные стоит отправить на сервер 2, посчитав, что метрика расстояния здесь, более важна, нежели место на жестком диске, не имея при этом тестовой выборки, и не проводя никакого анализа данных. Кроме того основываясь на расстоянии между серверной станцией и клиентом выбор эксперта был бы аналогичным, файл был бы отправлен на второй сервер, так как он является наиболее близким к клиенту*.

Заключение

В результате работы предложен новый способ оптимизации распределения данных вы-соконагруженных систем на основе методов кластерного анализа. В рамках поставленной задачи исследованы методы кластерного анализа k-means и нейронные сети Кохонена. Проведены эксперименты подтверждающие, что разрабатываемый метод решения является пригодным и может оптимально распределять данные по серверным станциям, что снизит нагрузку на серверные станции без ущерба производительности работе системы с пользователем.

Библиографический список

1. DNS Round Robin: The Technology chronicle [Электронный ресурс]. - Режим доступа : http://thetechnoh>gychromcle_blogspot ш/20 13/1 l/dns-roumtrobmiilinL

2. Hoftnanw Markus. Beaumont (2005). Content Networking: Architecture, Protocols, and Practice f Markus Hofmarm, R. Leland. Morgan Kaufmann Publisher.

3. dCache - system for storing and retrieving data [Электронный ресурс] И dCache, the Overview. - Режим доступа : http //www dcache OT^/maimals/dcach^whitepaper-light pdf

4. К—means and K—medoids [Электронный ресурс] Ii K-means standard algorithm - Режим доступа : http: //www math .le. ас. uk'people/ag 153 /homepage/RmeansKmedoids/Kmean &

KmedoidsJrtml#Ll.

5. Kohonen, T. (1989/1997/2001), Self-Organizing Maps. - Berlin-New York : SpringerVerlag. First edition 1989, second edition 1997, third extended edition 2001.

6. Дьяконов, В. П. Справ очник по применению системы PC МАТЬ AB / В. П. Дьяконов. -М. : Физматлит, 1993. - 112 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.