Научная статья на тему 'МЕТОД ОЦЕНИВАНИЯ БЫСТРОДЕЙСТВИЯ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ С КЛАСТЕРИЗАЦИЕЙ ТРАНЗАКЦИЙ'

МЕТОД ОЦЕНИВАНИЯ БЫСТРОДЕЙСТВИЯ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ С КЛАСТЕРИЗАЦИЕЙ ТРАНЗАКЦИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
36
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТРАНЗАКЦИЯ / КЛАСТЕРИЗАЦИЯ ТРАНЗАКЦИЙ / БОЛЬШАЯ ИНФОРМАЦИОННАЯ СИСТЕМА / СЕТЬ МАССОВОГО ОБСЛУЖИВАНИЯ / ГРАФ / БЫСТРОДЕЙСТВИЕ СИСТЕМЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шелест М. Н., Татарникова Т. М.

Предложен метод оценивания верхнего и нижнего граничных значений показателя быстродействия больших информационных систем с учетом соблюдения требования к целостности данных системы. Целостность обеспечивается путем блокировки необходимых для выполнения транзакции вычислительных ресурсов и их освобождения при завершении или откате транзакции. Кластеризация транзакций позволяет организовать параллельную обработку запросов пользователей, принадлежащих разным кластерам. Особенности обработки запросов не позволяют аналитически оценить быстродействие больших информационных систем, а натурный или имитационный эксперимент требует значительных временных затрат. Модель большой информационной системы формализуется в виде сети массового обслуживания. Полное множество маршрутов в сети массового обслуживания задается числом кластеров схожих транзакций. Быстродействие оценивается временем отклика системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD FOR ESTIMATING THE PERFORMANCE OF LARGE INFORMATION SYSTEMS WITH TRANSACTION CLUSTERING

A method for estimating the upper and lower bounds of large information system performance with the account for the system data integrity requirement, is proposed. The integrity is ensured by locking the computing resources necessary for the transaction execution and releasing them when the transaction is completed or cancelled. Clustering of transactions allows for parallel processing of different user requests belonging to different clusters. The features of query processing give no way of analytical assessment of large information systems performance, and a full-scale or simulation experiment is time consuming. The model of a large information system is formalized in the form of a mass service network. The complete set of routes in the queuing network is given by the number of clusters of similar transactions. The performance is estimated by the system response time.

Текст научной работы на тему «МЕТОД ОЦЕНИВАНИЯ БЫСТРОДЕЙСТВИЯ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ С КЛАСТЕРИЗАЦИЕЙ ТРАНЗАКЦИЙ»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ И СИСТЕМЫ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

INFORMATION TECHNOLOGIES AND SYSTEMS, COMPUTER TECHNIQUE

УДК 004.065

DOI: 10.17586/0021-3454-2022-65-9-623-629

МЕТОД ОЦЕНИВАНИЯ БЫСТРОДЕЙСТВИЯ БОЛЬШИХ ИНФОРМАЦИОННЫХ СИСТЕМ С КЛАСТЕРИЗАЦИЕЙ ТРАНЗАКЦИЙ

М. Н. Шелест*, Т. М. Татарникова

Санкт-Петербургский государственный университет аэрокосмического приборостроения,

Санкт-Петербург, Россия ги

Аннотация. Предложен метод оценивания верхнего и нижнего граничных значений показателя быстродействия больших информационных систем с учетом соблюдения требования к целостности данных системы. Целостность обеспечивается путем блокировки необходимых для выполнения транзакции вычислительных ресурсов и их освобождения при завершении или откате транзакции. Кластеризация транзакций позволяет организовать параллельную обработку запросов пользователей, принадлежащих разным кластерам. Особенности обработки запросов не позволяют аналитически оценить быстродействие больших информационных систем, а натурный или имитационный эксперимент требует значительных временных затрат. Модель большой информационной системы формализуется в виде сети массового обслуживания. Полное множество маршрутов в сети массового обслуживания задается числом кластеров схожих транзакций. Быстродействие оценивается временем отклика системы.

Ключевые слова: транзакция, кластеризация транзакций, большая информационная система, сеть массового обслуживания, граф, быстродействие системы

Ссылка для цитирования: Шелест М. Н., Татарникова Т. М. Метод оценивания быстродействия больших информационных систем с кластеризацией транзакций // Изв. вузов. Приборостроение. 2022. Т. 65, № 9. С. 623—629. DOI: 10.17586/0021-3454-2022-65-9-623-629.

METHOD FOR ESTIMATING THE PERFORMANCE OF LARGE INFORMATION SYSTEMS WITH TRANSACTION CLUSTERING

M. N. Shelest*, T. M. Tatarnikova

St. Petersburg State University of Aerospace Instrumentation, St. Petersburg, Russia *mshshelest@mail.ru

Abstract. A method for estimating the upper and lower bounds of large information system performance with the account for the system data integrity requirement, is proposed. The integrity is ensured by locking the computing resources necessary for the transaction execution and releasing them when the transaction is completed or cancelled. Clustering of transactions allows for parallel processing of different user requests belonging to different clusters. The features of query processing give no way of analytical assessment of large information systems performance, and a full-scale or simulation experiment is time consuming. The model of a large information system is formalized in the form of a mass service network. The complete set of routes in the queuing network is given by the number of clusters of similar transactions. The performance is estimated by the system response time.

© Шелест М. Н., Татарникова Т. М., 2022 JOURNAL OF INSTRUMENT ENGINEERING. 2022. Vol. 65, N 9

Keywords: transaction, transaction clustering, big information system, queuing network, graph, system performance

For citation: Shelest M. N., Tatarnikova T. M. Method for estimating the performance of large information systems with transaction clustering. Journal of Instrument Engineering. 2022. Vol. 65, N 9. P. 623—629 (in Russian). DOI: 10.17586/0021-3454-2022-65-9-623-629.

Введение. В последнее время особое внимание уделяется большим информационным системам (ИС) с распределенной структурой. К таким системам относятся платформы для интернет-магазинов, портал оказания госуслуг, банковские системы и др. [1]. Запросы пользователей, как правило, представляют собой группы сильно связанных транзакций. Связанность обусловлена набором операций, составляющих транзакции [2].

Соблюдение свойств атомарности, согласованности, изолированности и устойчивости транзакций приводит к необходимости резервирования вычислительных ресурсов, которые планируются для выполнения операций [3]. Отмена блокировки ресурсов происходит при условии завершения транзакции или ее откате. Благодаря механизму резервирования обеспечивается сохранение целостности данных в системе, а возникновение взаимных блокировок при откате транзакций сводится к нулю [4].

В связи с тенденцией применения больших данных приобрели актуальность вопросы не только анализа данных, но и быстродействия больших информационных систем, обеспечивающих хранение и доступ к этим данным [5].

Оценить быстродействие больших информационных систем можно в результате проведения натурного или имитационного эксперимента в течение длительного времени. С другой стороны, используя аналитический метод, возможно определить верхние граничные значения показателя быстродействия информационной системы, что позволит заранее выявить ее потенциальные возможности при наличии требований к средней задержке отклика системы [6, 7].

В настоящей статье предлагается аналитический метод оценивания быстродействия большой информационной системы, основанный на определении граничных значений.

Модель большой информационной системы с кластеризацией транзакций. Введем модель рассматриваемого типа системы на основе сети массового обслуживания (МО). Ресурсам информационной системы соответствуют обслуживающие устройства сети, транзакциям — заявки, а процессу выполнения транзакции — прохождение заявки по маршруту внутри сети МО. Маршруты представляют собой простые цепи. Множество разрешенных маршрутов в сети — это множество типов транзакций, которое определено заранее и конечно [8].

Транзакции в сети МО задаются пересекающимися маршрутами заявок, что позволяет все множество маршрутов разбить на кластеры схожих транзакций и представить в виде графа зависимости маршрутов [9,10]. Обозначим ¡-ю транзакцию как Т, / = 1^, где Q — число транзакций, принадлежащих одному кластеру. При этом сами кластеры могут оказаться слабо связанными между собой.

На рис. 1, а приведен пример графа зависимости маршрутов заявок (транзакций), на рис. 1, б — сеть массового обслуживания, соответствующая этому графу. Каждая из 16 транзакций определяется последовательностью обслуживающих устройств.

а)

Кластер 1: Т=[1 2 3]; Т2=[1 4 5 6]; Тз=[4 5]; Т4=[1 2 3 4]; Т5=[2 7]

Кластер 2: Тб=[7 8 9 10]; Т7=[9 11 13]; Т8=[9 12 13]; Т9=[9 12]

Кластер 3: Тю=[10 14 15]; Тц=[14 16]; Т12=[14 15 16]

Кластер 4: Т13=[17 19]; Т14=[13 17 18 19]; Т15=[18 20]; Т16=[1718 20]

б)

КЭт^

«К

Рис. 1

Для каждого типа транзакций на входе системы установлен отдельный буфер, выполняющий функцию точки отката транзакции и одновременно диспетчера, определяющего порядок поступления заявок на обслуживание. Как только заявка поступает в этот буфер, срабатывает механизм блокировки ресурсов маршрута транзакции. Механизм блокировки обеспечивает порядок, при котором с одними и теми же ресурсами одновременно может работать только одна транзакция.

Метод определения граничных значений показателя быстродействия информационной системы. Предлагаемый метод основан на добавлении избыточных зависимостей и дублировании некоторых обслуживающих узлов при определении верхней границы показателя быстродействия большой ИС, а также удалении пересечений, играющих роль слабой связи между соседними кластерами сети МО. Использование метода позволяет записать замкнутое выражение для определения интервала среднего времени пребывания заявки в сети массового обслуживания.

Рассмотрим модель большой ИС, представленную в виде сети массового обслуживания с частым пересечением некоторых групп маршрутов. Сеть состоит из 20 элементарных систем массового обслуживания и транзакции в ней заданы набором из 16 маршрутов разной длины, как показано на рис. 1.

Первоначально может создаться впечатление, что заявки, проходящие по маршрутам из разных кластеров, зачастую могут обслуживаться параллельно. На деле же каждый такой кластер не может работать независимо от других из-за механизма блокировки ресурсов. Поступая на обслуживание, заявка блокирует все системы массового обслуживания на своем маршруте. Это приводит к тому, что и все смежные маршруты также окажутся заблокированными,

так как они имеют общие вычислительные ресурсы. А это означает, что за счет блокировки маршрутов, соединяющих соседние кластеры (т.е. связующих узлов Т5, Т6, Т10, Т8 и Т14 для графа на рис. 1), средняя задержка в подграфах, образующих кластеры, не может быть рассчитана независимо от времени обработки заявок на подобных маршрутах.

Исходя из вышесказанного, предлагается следующий метод оценивания верхней границы среднего времени пребывания заявки в сети МО с кластеризацией маршрутов обслуживания: осуществляется дублирование связующих узлов и введение в граф зависимости маршрутов дополнительных фиктивных соединений, чтобы кластер вместе со всеми смежными связующими узлами образовал отдельный полносвязный подграф. На рис. 2 приведен пример такого преобразования графа зависимости маршрутов. На данном примере видно, что связующие узлы Т5, Т6, Т10, Т8 и Т14 продублированы для включения в каждый связанный с ними подграф. Поскольку узел Т6 связан с тремя подграфами, то было создано еще два дубля, чтобы учесть задержу, которую данный узел оказывает на смежные подграфы. После чего полученные подграфы были дополнены связями до образования полносвязных подграфов.

Рис. 2

Так как полученные подграфы могут независимо от других обслуживать только одну заявку, то каждый из них можно представить в виде составной системы массового обслуживания.

За счет добавления дополнительных узлов и связей среднее время выполнения транзакции будет несколько увеличено, но данное преобразование позволит вычислить среднюю задержку заявки в сети для каждого кластера. Таким образом, выражение для оценки верхней границы средней задержки для всей исходной сети МО имеет следующий вид:

(

к

= 1Р к=1

Л к

| г 2фк {г )йг

Фк {г

1

1 -Л к | хФк {х

Ми

где Рк — вероятность поступления заявки в к-й полносвязный подграф, Лк — интенсивность поступления заявок в к-й полносвязный подграф, фк(г) — плотность вероятности времени обслуживания заявок в к-м полносвязном подграфе, Мк — интенсивность обслуживания заявок в к-м полносвязном подграфе.

Декомпозиция графа зависимости маршрутов для определения нижнего граничного значения показателя быстродействия большой ИС представляется очевидной. Для того чтобы разделить граф зависимости маршрутов на отдельные полносвязные подграфы, необходимо удалить ребра, соединяющие связующие узлы, как показано на рис. 3.

Численный эксперимент. Результат моделирования работы сети МО и определения верхних и нижних граничных значений с помощью описанных методов приведен на рис. 4, где по оси ординат т — среднее время пребывания заявки в сети МО, по оси абсцисс X — интенсивность входного потока, 1 — верхняя граница, 2 — моделирование сети МО, 3 — нижняя граница.

Рис. 4

С увеличением размеров кластеров „коридор" между верхней и нижней границами будет сужаться — это говорит о том, что при асимптотическом анализе сложных систем с крупными кластерами схожих транзакций данные оценки покажут точный результат. На рис. 5 представлен график соотношения верхней и нижней границ среднего времени пребывания заявки в сети при наращивании размеров кластеров.

0 20 30 40 50 60 70 £> Рис. 5

Заключение. Представлены методы определения верхнего и нижнего граничных значений для среднего времени пребывания заявки в сети массового обслуживания. Предложенные методы основаны на добавлении/удалении избыточных зависимостей и на работе группы параллельных систем массового обслуживания. Асимптотический анализ структуры больших ИС показал, что точность верхней границы средней задержки в сети МО, основанной на избыточной зависимости, напрямую зависит от размеров кластеров схожих транзакций. При довольно больших размерах кластеров данный метод позволяет получить практически точную оценку временной характеристики системы.

СПИСОК ЛИТЕРАТУРЫ

1. Проскуряков Н. Е., Ануфриева А. Ю. Анализ и перспективы современных систем хранения цифровых данных // Изв. ТулГУ. Технические науки. 2013. Вып. 3. C. 368—377.

2. Challawala S., Mehta C., Patel K., Lakhatariya J. MySQL 8 for Big Data: Effective Data Processing with MySQL 8, Hadoop, NoSQL APIs, and Other Big Data Tools. Packt Publishing, 2017. 226 p.

3. Фомин Д. С., Бальзамов А. В. Проблематика обработки транзакций при использовании микросервисной архитектуры // Изв. вузов. Поволжский регион. Технические науки. 2021. Т. 58, № 2. С. 15—23. DOI: 10.21685/2072-3059-2021-2-2.

4. Богатырев В. А., Богатырев А. В., Богатырев С. В. Оценка надежности выполнения кластерами запросов реального времени // Изв. вузов. Приборостроение. 2014. Т. 57, № 4. С. 46—48.

5. Бурмистров В. Д., Заковряшин Е. М. Создание хранилища данных для распределенной системы // Молодой ученый. 2016. № 12. C. 143—147.

6. Татарникова Т. М., Вольский А. В. Оценка вероятностно-временных характеристик сетевых узлов с дифференциацией трафика // Информационно-управляющие системы, 2018. № 3(94). С. 54—60.

7. Шелест М. Н. Анализ средней задержки для одной модели сети массового обслуживания с резервированием ресурсов // Информационно-управляющие системы. 2022. № 2. С. 32—41. DOI: 10.31799/1684-8853-2022-232-41.

8. Богатырев В. А., Кармановский Н. С., Попцова Н. А., Паршутина С. А., Воронина Д. А., Богатырев С. В. Имитационная модель поддержки проектирования инфокоммуникационных резервированных систем // Научно-технический вестник информационных технологий, механики и оптики. 2016. Т. 16, № 5(105). С. 831—838. DOI: 10.17586/2226-1494-2016-16-5-831-838.

9. Харари Ф. Теория графов. М.: Ленанд, 2018. 304 с.

10. Shelest M. N., Bakin E. A. Analysis of parallel queueing network with mutual expectations // Wave Electronics and its Application in Information and Telecommunication Systems (WECONF). Pitsataway, NJ, 2018. P. 1—4.

Сведения об авторах

Мария Николаевна Шелест — аспирант; Санкт-Петербургский государственный университет

аэрокосмического приборостроения; E-mail: mshshelest@mail.ru

Татьяна Михайловна Татарникова — д-р техн. наук, профессор; Санкт-Петербургский государственный

университет аэрокосмического приборостроения, Институт информационных технологий и программирования; директор; E-mail: tm-tatarn@yandex.ru

Поступила в редакцию 14.06.2022; одобрена после рецензирования 27.06.2022; принята к публикации 30.07.2022.

REFERENCES

1. Proskuryakov N.E., Anufrieva A.Yu. News of the Tula State University. Technical Sciences, 2013, no. 3, pp. 368-377. (in Russ.)

2. Challawala S., Mehta C., Patel K., Lakhatariya J. MySQL 8 for Big Data: Effective Data Processing with MySQL 8, Hadoop, NoSQL APIs, and Other Big Data Tools. Packt Publishing, 2017, 226 p.

3. Fomin D.S., Bal'zamov A.V. University Proceedings. Volga Region. Technical Sciences, 2021, no. 2(58), pp. 15-23, DOI:10.21685/2072-3059-2021-2-2 (in Russ.)

4. Bogatyrev V.A., Bogatyrev A.V., Bogatyrev S.V. Journal of Instrument Engineering, 2014, no. 4(57), pp. 46-48. (in Russ.)

5. Burmistrov V.D., Zakovryashin E.M. Molodoy uchenyy (Young Scientist), 2016, no. 12, pp. 143-147. (in Russ.)

6. Tatarnikova T.M., Volskiy A.V. Information and Control Systems, 2018, no. 3(94), pp. 54-60. (in Russ.)

7. Shelest M.N. Information and Control Systems, 2022, no. 2, pp. 32-41, D0I:10.31799/1684-8853-2022-2-32-41. (in Russ.)

8. Bogatyrev V.A., Karmanovsky N.S., Poptsova N.A., Parshutina S.A., Voronina D.A., Bogatyrev S.V. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2016, no. 5(16), pp. 831-838, DOI: 10.17586/2226-1494-2016-16-5-831-838. (in Russ.)

9. Harary F. Graph Theory, Addison-Wesley, 1969.

10. Shelest M.N., Bakin E.A. Wave Electronics and its Application in Information and Telecommunication Systems (WECONF), Pitsataway, NJ, 2018, pp. 1-4.

Data on authors

Maria N. Shelest — Post-Graduate Student; St. Petersburg State University of Aerospace In-

strumentation; E-mail: mshshelest@mail.ru

Tatiana M. Tatarnikova — Dr. Sci., Professor; St. Petersburg State University of Aerospace Instrumen-

tation, Institute of Information technologies and Programming; Director of th^

Institute; E-mail: tm-tatarn@yandex.ru

Received 14.06.2022; approved after reviewing 27.06.2022; accepted for publication 30.07.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.