Научная статья на тему 'ПОДХОДЫ К ПРИБЛИЖЕННОЙ ОБРАБОТКЕ АНАЛИТИЧЕСКИХ ЗАПРОСОВ В РЕЛЯЦИОННЫХ СИСТЕМАХ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ'

ПОДХОДЫ К ПРИБЛИЖЕННОЙ ОБРАБОТКЕ АНАЛИТИЧЕСКИХ ЗАПРОСОВ В РЕЛЯЦИОННЫХ СИСТЕМАХ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
41
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРИБЛИЖЕННАЯ ОБРАБОТКА ЗАПРОСОВ / ОНЛАЙН АГРЕГИРОВАНИЕ / СИСТЕМЫ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ / БАЗЫ ДАННЫХ / АНАЛИЗ МНОГОМЕРНЫХ ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козлов Сергей Викторович, Невров Алексей Александрович, Латышев Илья Петрович, Филимонов Алексей Валерьевич

Введение: Дальнейшее развитие методов глубинного анализа данных позволит извлекать из данных знания, полезность которых сильно ограничена во времени. С другой стороны, применение таких методов предполагает немедленную аналитическую обработку вновь поступившей в базу данных информации. В современной архитектуре хранилищ данных затруднительно обеспечить выполнение двух критериев одновременно. Таким образом, становится актуальной задача разработки такого подхода, который позволит снизить время отклика в системе с момента поступления новых данных до момента учета их в аналитической обработке. Цель исследования: Снижение времени отклика в хранилище данных на основе реляционных систем управления базами данных. Результаты: В статье проведен анализ аналитических запросов с причинами снижения производительности выполнения аналитических запросов. Приведены исследования показывающие, что даже при высокой степени сжатия данных, информация о закономерностях, которым подчиняются эти данные, мало изменяется. Это положение позволяет сделать предположение о том, что достижение заявленной цели исследования будет возможно за счет применения приближенной обработки запросов. Приведен анализ существующих подходов приближенной обработки запросов, в результате которого были продемонстрированы ограничения приводящие к сложности применения таких подходов в современных хранилищах данных. Представлен класс вероятностных алгоритмов на основе случайных блужданий, применение которых предположительно снимет некоторые ограничения исследованных подходов и методов. Практическая значимость: реализация методов приближенной обработки запросов лежит в плоскости развития концепции гибридной транзакционно-аналитической обработки данных и позволит расширить сферу применения таких систем. Обсуждение: применимость алгоритмов на основе случайных блужданий в условиях реального потока запросов требует проведения дальнейших исследований. Остается неясным вопрос нахождения эффективного плана для вложенных запросов в случае перехода к модели приближенной обработки запросов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Козлов Сергей Викторович, Невров Алексей Александрович, Латышев Илья Петрович, Филимонов Алексей Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPROACHES TO APPROXIMATE PROCESSING OF ANALYTICAL QUERIES IN RELATIONAL DATABASE MANAGEMENT SYSTEMS

Introduction: Further development of data mining methods will allow extracting knowledge from the data, the usefulness of which is very limited in time. On the other hand, the use of such methods involves the immediate analytical processing of newly received information in the database. In the modern architecture of data warehouses, it is difficult to ensure that two criteria are met simultaneously. Thus, the task of developing such an approach becomes urgent, which will reduce the response time in the system from the moment new data is received to the moment it is taken into account in analytical processing. Purpose: is to reduce the response time in the data warehouse based on relational database management systems. Results: The article analyzes analytical queries with the reasons for the decrease in performance of analytical queries. The research shows that even with a high degree of data compression, information about the patterns that these data obey changes little. This provision allows us to make an assumption that the achievement of the stated research goal will be possible through the use of approximate query processing. The analysis of existing approaches to approximate query processing is given, as a result of which the limitations leading to the complexity of using such approaches in modern data warehouses were demonstrated. A class of probabilistic algorithms based on random walks is presented, the use of which is expected to remove some of the limitations of the approaches and methods studied. Practical relevance: the implementation of methods of approximate query processing lies in the development of the concept of hybrid transactional and analytical data processing and will expand the scope of application of such systems. Discussion: The applicability of algorithms based on random walks in the conditions of a real flow of requests requires further research. The question of finding an effective plan for nested queries remains unclear in the case of switching to an approximate query processing model

Текст научной работы на тему «ПОДХОДЫ К ПРИБЛИЖЕННОЙ ОБРАБОТКЕ АНАЛИТИЧЕСКИХ ЗАПРОСОВ В РЕЛЯЦИОННЫХ СИСТЕМАХ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ»

ПОДХОДЫ К ПРИБЛИЖЕННОЙ ОБРАБОТКЕ АНАЛИТИЧЕСКИХ ЗАПРОСОВ В РЕЛЯЦИОННЫХ СИСТЕМАХ УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ

Козлов Сергей Викторович

кандидат технических наук, сотрудник Академии ФСО России, г. Орел, Россия, kozlov_sv@mail.ru Невров Алексей Александрович

кандидат технических наук, сотрудник Академии ФСО России, г. Орел, Россия, newrow@mail.ru Латышев Илья Петрович

сотрудник Академии ФСО России, г. Орел, Россия, ostilia@mail.ru Филимонов Алексей Валерьевич

сотрудник Академии ФСО России, г. Орел, Россия, filimonov1024@gmail.com

АННОТАЦИЯ_

Введение: Дальнейшее развитие методов глубинного анализа данных позволит извлекать из данных знания, полезность которых сильно ограничена во времени. С другой стороны, применение таких методов предполагает немедленную аналитическую обработку вновь поступившей в базу данных информации. В современной архитектуре хранилищ данных затруднительно обеспечить выполнение двух критериев одновременно. Таким образом, становится актуальной задача разработки такого подхода, который позволит снизить время отклика в системе с момента поступления новых данных до момента учета их в аналитической обработке. Цель исследования: Снижение времени отклика в хранилище данных на основе реляционных систем управления базами данных. Результаты: В статье проведен анализ аналитических запросов с причинами снижения производительности выполнения аналитических запросов. Приведены исследования показывающие, что даже при высокой степени сжатия данных, информация о закономерностях, которым подчиняются эти данные, мало изменяется. Это положение позволяет сделать предположение о том, что достижение заявленной цели исследования будет возможно за счет применения приближенной обработки запросов. Приведен анализ существующих подходов приближенной обработки запросов, в результате которого были продемонстрированы ограничения приводящие к сложности применения таких подходов в современных хранилищах данных. Представлен класс вероятностных алгоритмов на основе случайных блужданий, применение которых предположительно снимет некоторые ограничения исследованных подходов и методов. Практическая значимость: реализация методов приближенной обработки запросов лежит в плоскости развития концепции гибридной транзакци-онно-аналитической обработки данных и позволит расширить сферу применения таких систем. Обсуждение: применимость алгоритмов на основе случайных блужданий в условиях реального потока запросов требует проведения дальнейших исследований. Остается неясным вопрос нахождения эффективного плана для вложенных запросов в случае перехода к модели приближенной обработки запросов.

КЛЮЧЕВЫЕ СЛОВА: приближенная обработка запросов; онлайн агрегирование; системы управления базами данных; базы данных; анализ многомерных данных.

Введение

Использование современных методов машинного обучения, обнаружения знаний налагают дополнительные требования к системам управления базами данным на выполнение сложных произвольных (ad hoc) запросов для решения задач аналитической обработки с низкой задержкой. Такие запросы характеризуются вовлечением большого объема данных из множества соединенных отношений и возвратом результата выполнения в виде агрегированных значений [1]. При этом часто возникает ситуация, когда невозможно заранее определить подмножество отношений, участвующих в соединении, так как в глубинном анализе данных (data mining) полезные и пригодные для интерпретации знания могут содержаться в независимых, как предполагалось на этапе информационного моделирования, отношениях [2]. Таким образом, задача оптимизации структуры хранилища данных и определения необходимых индексов становится затруднительной.

В настоявшее время, сформировался инженерный подход разделения информационной системы на транзакционную подсистему обработки транзакций в реальном времени (OLTP-хранилища) и подсистемы интерактивной аналитической обработки данных (OLAP-хранилища) [3, 4]. Такая архитектура предполагает, что структура OLTP-хранилищ оптимизирована под работы с высокоинтенсивным потоком запросов к базе данных, который, однако, ограничен невысокой сложностью транзакций. При этом от подсистемы требуется обеспечить минимальное время отклика. В обобщенном виде функции OLTP и OLAP подсистем представлены на рисунке 1.

ОН

сн

Хранилище данных i—1

Характеристики ОЬТР:

• Интенсивный поток транзакций

• Чувствительность к задержкам

• Маленький объем данных участвующих в транзакции

• Баланс между нагрузками чтение/запись или повышенная нагрузка на запись

Характеристики OLAP:

• Сравнительно низкая интенсивность потока транзакций

• Чувствительность к пропускной способности

• Большой объем данных участвующих в транзакции

• Повышенная нагрузка на чтение (исполнение низкоселективных запросов)

Рис. 1. Взаимодействие OLAP и OLTP клиентов с хранилищем данных

Для агрегированной (суммарной) обработки данные представляются в виде многомерных структур, для работы с которыми используется подсистема OLAP-хранилища, оптимизированная для операций выборки (select) над денормализованными отношениями с относительно невысокой скоростью. Конструктивно такие операции состоят из большого спектра

SQL-выражений (с несколькими объединениями, группированием столбцов, агрегирующими выражениями и выборками). Эти запросы можно выделить в отдельный класс - Select-Project-Join-Aggregation (SPJA).

Данные из OLTP-хранилища поступают в OLAP-хранилище посредством конвейера ETL (ETL pipeline - Extract Transform Load, конвейер извлечения-преобразования-загрузки). В процессе ETL над данными извлеченными из OLTP подсистемы производится последовательность преобразований, в том числе направленных на очистку (data cleansing) и преобразования структуры (data wrangling). Этот процесс занимает время и расходует ресурсы как на стороне OLTP, так и на стороне OLAP-хранилища, прежде чем актуальные данные смогут быть включены в последующую аналитическую обработку. Примерная структура процесса ETL представлена на рисунке 2.

Рис. 2. Примерная структура процесса Е^

Описанный факт приводит к сложностям при организации системы, в которой поступающие данные должны быть немедленно учтены в аналитической обработке всей информации, что особенно актуально, когда обрабатываемые данные описывают состояние некоторого нестационарного процесса (например, обширная сенсорная сеть беспилотных транспортных средств или процесс функционирования фондовой биржи), так как полезность получаемых моделей и знаний может быть сильно ограничена во времени.

Стоимость и план выполнения SPJA-запросов

Формальное представление SPJA- запроса изображено на рисунке 3.

Рис. 3. Обобщенное представление SPJA-запрос на языке SQL

Выражение SELECT используется для определения каждого столбца как Outb в котором Aj является атрибутом группирования, а Fj является агрегацией, которая соответствует Outj. Каждое агрегирование Fj является одним из основных операторов агрегирования (например: COUNT, SUM, AVG, MAX и MIN), которые могут быть применены к любому реляционному атрибуту A. В выражении WHERE объединяются как предикаты соединения, так и предикаты выбора. Предикаты соединения обозначаются как Jb ... , JY, где каждый Jj является одним из ребер из J(G), а у - количество ребер в подграфе J(G). Предикаты выбора обозначаются как Сь ... , Cn, где каждый Cj выражается как A op X, где A - реляционный атрибут, op - оператор сравнения, а X - постоянное значение. Выражение HAVING содержит условие Fj op р, где Fj один из столбцов агрегации, управляемый параметром р, который может быть либо постоянным значением X, либо другим столбцом агрегации Fj.

Стоимость выполнения запроса зависит от множества факторов, среди которых - количество соединяемых отношений, количество строк в этих отношениях, индексы. Увеличение количества соединяемых отношений приводит к росту стоимости выполнения запроса близкому к экспоненциальному, при этом часто встречаются запросы в которых предикаты выбора не обладают высокой селективностью, в таком случае планировщик переходит на использование методов последовательного сканирования, так как применение индексов в таком случае неэффективно. Наличие в запросах операторов агрегирования приводит к тому, что время выполнения определяется полной оценкой стоимости.

При вовлечении в запрос большого количества отношений также усложняется процедура нахождения оптимального плана его выполнения, так как количество возможных планов соответствует числу перестановок выбранных в запросе отношений. В частности, СУБД PostgreSQL для поиска оптимального плана использует алгоритм динамического программирования, но при превышении указанного в конфигурации числа таблиц, планировщик переключается на применение генетического алгоритма, что позволяет оптимизировать запрос в разумных временных пределах в

ущерб точности оптимизации. В условиях потока произвольных запросов это приводит к увеличению дисперсии времени обработки запроса.

По существу, можно сделать вывод, что реляционные СУБД малопригодны для выполнения запросов аналитической обработки нормализованных данных, в условиях интенсивного потока изменяющих транзакций. Кроме того, в случае применения архитектуры хранилища данных (data warehouse) построенной на взаимодействии OLTP и OLAP хранилищ посредством конвейера ETL, время выполнения объемных SPJA запросов может также выходить за границы временного ограничения полезности полученных результатов.

Для решения задачи снижения времени выполнения SPJA запросов можно рассмотреть подход подразумевающий переход от получения точного результата к приближенному на основе статистических оценок. Эта идея также обосновывается тем, что методы глубинного анализа данных работают на одном уровне эффективности, как на точных, так и на приближенных данных. Заявленный факт основан на исследованиях, показывающих, что даже при высокой степени сжатия данных, информация о закономерностях, которым подчиняются эти данные, мало изменяется. Это положение имеет принципиальную важность для осуществления аналитической обработки данных [5, 6].

Применение сжимающих преобразований в процессе ETL

Один из подходов, который позволяет обеспечить приближенную обработку запросов, является применение в конвейере ETL на этапе преобразования данных некоторого сжимающего отображения над данными. После чего в OLAP-хранилище загружаются приближенные данные, таким образом запросы к этому хранилищу будут выполняться в приближенном стиле [7, 8]. План выполнения таких запросов затрагивает меньший объем памяти при последовательном сканирования запоминающего устройства, а также позволяет размещать данные в памяти в отсортированном виде, что повысит корреляцию расположения кортежей отношения и последовательности считываемых страниц памяти. Такое решение позволяет получить прирост скорости выполнения аналитических запросов. Кроме того, в некоторых случаях возможно использовать СУБД, размещающие данные в основном запоминающем устройстве с произвольным доступом (IMDBMS - in-memory database management system), такие решению обеспечат существенное снижение времени отклика в системе хранилища данных [9].

Известен подход, представленный в исследованиях Григорьева Ю.А. и Ухарова А.О., решающий задачу приближенной обработки запросов, применением алгоритмов сжатия с потерями над данными на основе сжимающих преобразований. Эта идея базируется на извлечении из OLTP-хранилища данных с последующим сжимающим преобразованием и загрузкой сжатого представления в OLAP-хранилище. В рамках приведенного исследования были разработаны: метод специального вейвлет-преобразования для приближенной аналитической обработки многомерных данных, снижающий объем хранимых коэффициентов до объема исходных значений; метод восстановления исходного значения данных; выражение для оценки величины ошибки восстановления исходных элементов и суммарного значения.

Предложенный подход решает некоторые вопросы, прежде всего позволяет вычислять агрегирующие выражения с небольшим числом слагаемых и единичные значения без значительного роста погрешности [10]. Также обеспечиваются снижение динамики роста стоимости построения многомерных данных при увеличении размерности. В исследовании показано, что среднее время выполнения запросов снижается на 50% при сжатии данных на уровне 60%. При этом относительная погрешность восстановления исходного элемента оценивается на уровне 15%, а погрешность восстановления значения агрегирующего выражения оценивается в 5%. Упрощенная структура схемы хранилища данных с функцией приближенной обработки запросов представлена на рисунке 4.

Рис. 4. Упрощенная структурная схема хранилища данных с функцией приближенной обработки запросов

В описываемой работе [5] применена возможность использовать существующие архитектурные решения по организации хранения, управления и доступа к многомерным данным. Были использованы многомерные OLAP-хранилища для размещения приближенного представления и осуществления запросов к нему. Вейвлет-декомпозиция исходного набора данных представляется в виде многомерного куба, содержащего вместо исходных значений вейвлет-коэффициенты. Доступ к коэффициентам сжатия осуществляется средствами языка MDX (Multidimensional Expressions), который позволяет оперировать многомерными данными. Компонент администрирования управляет параметрами вейвлет-декомпозиции. При-

менением библиотеки вейвлет-декомпозиции достигается сжимающее отображение исходных данных и их дальнейшее обновление. С помощью библиотеки сжатия вейвлет-декомпозиции производится расчет погрешности восстановления значений при заданной степени сжатия и расчет степени сжатия при заданной погрешности. Буфер запросов содержит клиентские запросы к сжатому представлению данных (многомерному кубу) и возвращает клиенту полученный приближенный результат. Библиотека приближенных вычислений на основе пользовательского MDX запроса определяет множество коэффициентов для восстановления запрашиваемых значений, после чего формирует MDX запросы, возвращающих нужные коэффициенты сжатия и, таким образом, производит восстановление искомых значений [11, 12].

Наряду с широкими преимуществами, данный подход содержит некоторые недостатки. Во-первых, необходимая точность получаемых данных определяется на этапе применения сжимающего преобразования, таким образом, отсутствует возможность оперативного изменения уровня достоверности или доверительных интервалов в процессе выполнения запросов. Во-вторых, выполнение аналитических запросов над данными с учетом вновь поступившей в OLTP-хранилище информации требует выполнения процедур извлечения-сжатия-загрузки. Так как применение алгоритма сжатия с потерями не предполагается в оперативном режиме, то данные в OLAP-хранилище будут поступать с некоторой задержкой, которая может быть критична для приложений, формирующих запросы.

Обработка запросов онлайн-агрегирования в OLTP- хранилищах

Одним из направлений, устраняющих представленные выше недостатки методов приближенной обработки запросов, использующих алгоритмы сжатия с потерями, является исследование способов перехода к приближенной обработке запросов в OLTP-хранилищах за счет применения итерационного процесса выполнения, который может быть остановлен пользователем, как только результат достигнет требуемого интервала достоверности или уровня значимости, что потребует меньшего времени по сравнению с традиционным процессом получения точного ответа [13, 14]. Такой подход позволит не только получить систему с низким временем отклика, но и даст возможность эффективно потреблять ограниченные вычислительные ресурсы при выполнении потока запросов в базе данных.

Часть таких решений основана на применении различных вариаций алгоритма ripple join. В рамках направления онлайн агрегирования [15] был разработан целый класс алгоритмов, основанных на повторной случайной выборке кортежей из каждого отношения. Операция соединения выполняется над данными выборками и, затем, полученные результаты экстраполируется на всю генеральную совокупность данных.

Исследования в данном направлении показывают необходимость значительного расширения ядра реляционной СУБД для поддержки интерактивного и управляемого процесса приближенной обработки запросов. В качестве прототипа была использована СУБД Post-greSQL, логика обработки запросов которой была расширена выражениями онлайн-агрегации, группировки и устранения дубликатов за счет применения хэш-функций, управлением индексами. Также была проведена незначительная оптимизация и применен новый программный интерфейс приложения (API). На основе этого прототипа был спланирован и выполнен статистический эксперимент, целью которого являлось выявление «узких мест», возникающих в ходе обработки запросов, модифицированным вариантом СУБД PostgreSQL.

Проводилось оценивание оперативности выполнения вложенных запросов (nested queries), содержащих агрегированные данные как в подзапросах, так и в запросах верхнего уровня, результаты которых зависимы от результатов выполнения нижележащих запросов. В ходе их традиционной обработки по узлам требуется, чтобы дочерние узлы запросов обрабатывались перед родительскими, что является блокирующей моделью выполнения, что приводит к снижению производительности. Использование неблокирующего подхода влечет за собой сложности в оценке доверительных интервалов. Вопрос заключается в необходимости исследования возможности распределения обработки между узлами различного уровня, как в последовательных, так и в параллельных конфигурациях.

Онлайн-агрегирование имеет преимущества перед методом, описанным в предыдущем разделе, прежде всего в решении вопроса обработки вновь поступивших данных в OLTP-хранилище [16], а также возможность выполнять онлайн запросы с различной точностью и доверительным интервалом без необходимости дополнительных операций (сжатие исходных данных под необходимый уровень), что делает систему более пригодной для использования. При этом требуется проведение дополнительных исследований, определяющих:

- зависимость производительности выполнения запросов от доли кортежей в случайной выборке, удовлетворяющих условиям соединения. На практике эта доля часто имеет маленькие значения, особенно для наиболее распространенных естественных соединений (natural join);

- эффективность использования алгоритма ripple join при выполнении условия случайного порядка хранения кортежей в каждой таблице, что требует существенных изменений уровня ядра системы управления базами данных.

Заключение

На фоне исследований в области рандомизированных (вероятностных) алгоритмов выглядит перспективно идея, основанная на применении случайных блужданий (random walks) при обработке приближенных запросов [17]. Подход состоит в следующем: производится случайный выбор кортежа из одного отношения, после этого происходит случайное блуждание от выбранного кортежа к кортежам отношений смежных по операции соединения. Таким образом, шаги случайных блужданий вовлекают только те кортежи данных, которые потенциально могут привести к фактическому результату соединения. Такая процедура является более целенаправленной и управляемой по сравнению с упомянутым в предыдущем разделе алгоритмом ripple join и, следовательно, можно ожидать повышение производительности обработки запросов. Кроме того, алгоритм на основе случайных блужданий не чувствителен к формату хранения данных и к блокам обработки транзакций (transaction processing units), что позволяет реализовать его в системе управления базами данных, не затрагивая ее ядра. Предполагается, что применение алгоритмов случайных блужданий позволит получать более оптимальные планы в процессе обработки приближенных запросов [18, 19], отличающиеся от планов выполнения точных запросов, с которыми работают современные СУБД.

Данное направление исследований хорошо согласуется с концепцией гибридной тран-закционно-аналитической обработки [20], которая призвана решить несколько проблем. Во-первых, при аналитической обработке в HTAP-хранилищах, нет необходимости переносить

данные с помощью процесса ETL из OLTP в OLAP хранилища. Во-вторых, данные транзакций доступны для аналитической непосредственно с момента своего создания. В-третьих, детализация данных (drill-down) из аналитических агрегатов верхнего уровня всегда ведет к свежим данным HTAP-приложений. В-четвертых, устраняется или по меньшей мере уменьшается потребность в размножении копий одних и тех же данных. Таким образом, использование хранилищ, соответствующих данной концепции может дать возможность эффективного применения более совершенных методов глубинного анализа данных [21] в условиях ограниченных вычислительных мощностей.

Литература

1. Guoliang L., Xuanhe Z., Lei C. AI Meets Database: AI4DB and DB4AI. SIGMOD/PODS '21: Proceedings of the 2021 International Conference on Management of Data, 2021, № 6, P. 2859-2866. doi:10.1145/3448016.3457542

2. Petrov A. Database Internals: A Deep Dive into How Distributed Data Systems Work. Sebastopol, CA: O'Reilly Media, 2019. 376 p.

3. SIGMOD '19: Proceedings of the 2019 International Conference on Management of Data, 2019, № 6, P. 54-68. doi:10.1145/3299869.3324960

4. Модель многоуровневого хранения данных // Волновая электроника и инфокоммуникационные системы: Двадцать вторая международная научная конференция ГУАП: сборник статей: в 2 частях, Ч. 1. СПб.: ГУАП, 2019. С. 263-267.

5. Ух А О Метод приближенной обработки запросов в системах оперативного анализа данных Автореферат диссертации на соискание ученой степени кандидата технических наук : Автореф. дис. ... канд. техн. наук : 05.13.17 / Ухаров А.О.; МГТУ им. Н.Э. Баумана. 2011.

6. Proletarskaya V.А. Models of Data Storage Tables Connection Processes by MapReduce/Spark Technology [Electronic resource] / V. А. Proletarskaya, u. A. Grigoriev // Herald of the Bauman Moscow State Technical University. Series Instrument Engineering. 2019. № 5 (128). P. 79-94. doi:10.18698/0236-3933-2019-5-79-94

7. Chakravarthy S.R. Efficient Redundancy Techniques in Cloud and Desktop Grid Systems using MAP/G/c-type Queues [Electronic resource] / S. R. Chakravarthy, A. Rumyantsev // Open Engineering. 2018. Vol. 8, № 1. P. 17-31. doi:10.1515/eng-2018-0004

8. Абб с Э. . Improving the performance of large databases and application services operating on their basis [Electronic resource] / Э. М. Аббасов, С. Н. Польшин // Informacionno-technologicheskij vestnik. 2020. № 1(23). — P. 42-54. doi:10.21499/2409-1650-2020-23-1-42-54

9. Zhang X. DCUDP: scalable data transfer for high-speed long-distance networks [Electronic resource] / X. Zhang, N. Gu, J. Su // Concurrency and Computation: Practice and Experience. 2016. Vol. 29, № 4. P. 38-46. doi:10.1002/cpe.3846

10. Кл ссе Р К Р хл В А Повышение эффективности clusterix-подобных СУБД для аналитической обработки больших данных [Электронный ресурс] // Информационные технологии и вычислительные системы. 2019. doi:10.14357/20718632190405

11. Chrobak M. Online aggregation problems [Electronic resource] / M. Chrobak // ACM SIGACT News. 2014. Vol. 45, № 1. — P. 91-102. doi:10.1145/2596583.2596603

12. Y. M. Nam, D. Han, M. S. Kim, SPRINTER: A Fast n-ary Join Query Processing Method for Complex OLAP Queries. SIGMOD '20: Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 2020, № 6, pp 2055-2070. doi:10.1145/3318464.3380565

13. Wang Y. Skew-aware online aggregation over joins through guided sampling [Electronic resource] / Y. Wang [et al.] // Concurrency and Computation: Practice and Experience. 2018. Vol. 30, № 20. P. 46-95. doi:10.1002/cpe.4695

14. Chaudhuri S., Ding B., Kandula S. Approximate Query Processing: No Silver Bullet. SIGMOD '17: Proceedings of the 2017 ACM International Conference on Management of Data, 2017, № 5, 511-519. doi:10.1145/3035918.3056097

15. Kraska T. Approximate Query Processing for Interactive Data Science. SIGMOD '17: Proceedings of the 2017 ACM International Conference on Management of Data, 2017, № 5, P. 525. doi:10.1145/3035918.3056099

16. Liang X., Sintos S., Shang Z., Krishnan S. Combining Aggregation and Sampling (Nearly) Optimally for Approximate Query Processing. SIGMOD/PODS '21: Proceedings of the 2021 International Conference on Management of Data, № 6, P. 1129-1141. doi:10.1145/3448016.3457277

17. Ding B., Huang S., Chaudhuri S., Chakrabarti K., Wang C. Sample+seek: Approximating aggregates with distribution precision guarantee. In Proceedings of the 2016 International Conference on Management of Data, 2016, P. 679-694. doi:10.1145/2882903.2915249

18. Gan E., Bailis P., Charikar M. Coopstore: Optimizing precomputed summaries for aggregation. Proceedings of the VLDB Endowment, 13(12), 2020 P. 2174-2187. doi:10.14778/3407790.3407817

19. Kandula S., Lee K., Chaudhuri S., Friedman M. Experiences with approximating queries in microsoft's production big-data clusters. Proceedings of the VLDB Endowment, 12(12), 2019, P. 2131-2142. doi:10.14778/3352063.3352130

20. Liu X. Hybrid storage management for database systems / X. Liu, K. Salem // Proceedings of the VLDB Endowment. 2013. Vol. 6, № 8. P. 541 - 552.

21. Adrian M., Heudecker N., Feinberg D. Critical Capabilities for Operational Database Management Systems // Gartner. 2018.

APPROACHES TO APPROXIMATE PROCESSING OF ANALYTICAL QUERIES IN RELATIONAL DATABASE MANAGEMENT SYSTEMS

SERGEI V. KOZLOV

PhD. employee, Russian Federation Security Guard Service Federal Academy Orel, Russia, kozlov_sv@mail.ru

ALEKSEI A. NEVROV

PhD. employee, Russian Federation Security Guard Service Federal Academy Orel, Russia, newrow@mail.ru

ILIA P. LATYSHEV

Employee, Russian Federation Security Guard Service Federal Academy Orel, Russia, ostilia@mail.ru

ALEKSEI V. FILIMONOV

Employee, Russian Federation Security Guard Service Federal Academy

Orel, Russia, filimonov1024@gmail.com

ABSTRACT

Introduction: Further development of data mining methods will allow extracting knowledge from the data, the usefulness of which is very limited in time. On the other hand, the use of such methods involves the immediate analytical processing of newly received information in the database. In the modern architecture of data warehouses, it is difficult to ensure that two criteria are met simultaneously. Thus, the task of developing such an approach becomes urgent, which will reduce the response time in the system from the moment new data is received to the moment it is taken into account in analytical processing. Purpose: is to reduce the response time in the data warehouse based on relational database management systems. Results: The article analyzes analytical queries with the reasons for the decrease in performance of analytical queries. The research shows that even with a high degree of data compression, information about the patterns that these data obey changes little. This provision allows us to make an assumption that the achievement of the stated research goal will be possible through the use of approximate query processing. The analysis of existing approaches to approximate query processing is given, as a result of which the limitations leading to the complexity of using such approaches in modern data warehouses were demonstrated. A class of probabilistic algorithms based on random walks is presented, the use of which is expected to remove some of the limitations of the approaches and methods studied. Practical relevance: the implementation of methods of approximate query processing lies in the development of the concept of hybrid transactional and analytical data processing and will expand the scope of application of such systems. Discussion: The applicability of algorithms based on random walks in the conditions of a real flow of requests requires further research. The question of finding an effective plan for nested queries remains unclear in the case of switching to an approximate query processing model.

Keywords: approximate query processing; online aggregation; database management systems; databases; multidimensional data analysis.

REFERENCES

1. Guoliang L., Xuanhe Z., Lei C. AI Meets Database: AI4DB and DB4AI. SIGMOD/PODS '21: Proceedings of the 2021 International Conference on Management of Data, 2021, № 6, P. 2859-2866. doi:10.1145/3448016.3457542

2. Petrov A. Database Internals: A Deep Dive into How Distributed Data Systems Work. Sebastopol, CA: O'Reilly Media, 2019. 376 p.

3. SIGMOD '19: Proceedings of the 2019 International Conference on Management of Data, 2019, № 6, P. 54-68. doi:10.1145/3299869.3324960

4. Poymanova E.D., Tatarnikova T.M. Model' mnogourovnevogo khraneniya dannykh [Multilevel Data storage model] // Volnovaya elektronika i infokommunikatsionnye sistemy: Dvadtsat vtoraya mezhdunarodnaya nauchnaya konferentsiya GUAP: sbornik statei: v 2 chastyakh, Ch. 1 [Wave Electronics and Infocommunication systems: The Twenty-second GUAP International Scientific Conference: collection of articles: in 2 parts, Part 1]. SPb.: GUAP, 2019. P. 263-267.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Ukharov A.O. Metod priblizhennoy obrabotki zaprosov v sistemakh operativnogo analiza dannykh Avtoreferat dissertatsii na soiskanie uchenoy stepeni kandidata tekhnicheskikh nauk : Avtoref. dis. ... kand. tekhn. nauk : 05.13.17 [Method of approximate query processing in operational data analysis systems Abstract of the dissertation for the degree of Candidate of Technical Sciences: 05.13.17] / A.O. Ukharov..; MGTU im. N.E. Baumana [Bauman Moscow State Technical University], 2011.

6. Proletarskaya V.A. Models of Data Storage Tables Connection Processes by MapReduce/Spark Technology [Electronic resource] / V. A. Proletarskaya, u. A. Grigoriev // Herald of the Bauman Moscow State Technical University. Series Instrument Engineering. 2019. № 5 (128). P. 79-94. doi:10.18698/0236-3933-2019-5-79-94

7. Chakravarthy S.R. Efficient Redundancy Techniques in Cloud and Desktop Grid Systems using MAP/G/c-type Queues [Electronic resource] / S. R. Chakravarthy, A. Rumyantsev // Open Engineering. 2018. Vol. 8, № 1. P. 17-31. doi:10.1515/eng-2018-0004

8. Abbasov E.M. Improving the performance of large databases and application services operating on their basis [Electronic resource] / E. M. Abbasov, S. N. Polshin // Informacionno-technologicheskij vestnik. 2020. № 1(23). — P. 42-54. doi:10.21499/2409-1650-2020-23-1 -42-54

9. Zhang X. DCUDP: scalable data transfer for high-speed long-distance networks [Electronic resource] / X. Zhang, N. Gu, J. Su // Concurrency and Computation: Practice and Experience. 2016. Vol. 29, № 4. P. 38-46. doi:10.1002/cpe.3846

10. Klassen R.K., Raikhlin V.A Povyshenie effektivnosti clusterix-podobnykh SUBD dlya analiticheskoy obrabotki bol'shikh dannykh [Improving the efficiency of clusterix-like DBMS for analytical processing of big data] // Informatsionnye tekhnologii i vychislitel'nye sistemy [Information technologies and computing systems]. 2019. doi:10.14357/20718632190405

11. Chrobak M. Online aggregation problems [Electronic resource] / M. Chrobak // ACM SIGACT News. 2014. Vol. 45, № 1. — P. 91-102. doi:10.1145/2596583.2596603

12. Y. M. Nam, D. Han, M. S. Kim, SPRINTER: A Fast n-ary Join Query Processing Method for Complex OLAP Queries. SIGMOD '20: Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data, 2020, № 6, pp 2055-2070. doi:10.1145/3318464.3380565

13. Wang Y. Skew-aware online aggregation over joins through guided sampling [Electronic resource] / Y. Wang [et al.] // Concurrency and Computation: Practice and Experience. 2018. Vol. 30, № 20. P. 46-95. doi:10.1002/cpe.4695

14. Chaudhuri S., Ding B., Kandula S. Approximate Query Processing: No Silver Bullet. SIGMOD '17: Proceedings of the 2017 ACM International Conference on Management of Data, 2017, № 5, 511-519. doi:10.1145/3035918.3056097

15. Kraska T. Approximate Query Processing for Interactive Data Science. SIGMOD '17: Proceedings of the 2017 ACM International Conference on Management of Data, 2017, № 5, P. 525. doi:10.1145/3035918.3056099

16. Liang X., Sintos S., Shang Z., Krishnan S. Combining Aggregation and Sampling (Nearly) Optimally for Approximate Query Processing. SIGMOD/PODS '21: Proceedings of the 2021 International Conference on Management of Data, № 6, P. 1129-1141. doi:10.1145/3448016.3457277

17. Ding B., Huang S., Chaudhuri S., Chakrabarti K., Wang C. Sample+seek: Approximating aggregates with distribution precision guarantee. In Proceedings of the 2016 International Conference on Management of Data, 2016, P. 679-694. doi:10.1145/2882903.2915249

18. Gan E., Bailis P., Charikar M. Coopstore: Optimizing precomputed summaries for aggregation. Proceedings of the VLDB Endowment, 13(12), 2020 P. 2174-2187. doi:10.14778/3407790.3407817

19. Kandula S., Lee K., Chaudhuri S., Friedman M. Experiences with approximating queries in microsoft's production big-data clusters. Proceedings of the VLDB Endowment, 12(12), 2019, P. 2131-2142. doi:10.14778/3352063.3352130

20. Liu X. Hybrid storage management for database systems / X. Liu, K. Salem // Proceedings of the VLDB Endowment. 2013. Vol. 6, № 8. P. 541 - 552.

21. Adrian M., Heudecker N., Feinberg D. Critical Capabilities for Operational Database Management Systems // Gartner. 2018.

i Надоели баннеры? Вы всегда можете отключить рекламу.