Научная статья на тему 'Особенности кластеризации SQL-запросов на основе механизма регуляризации'

Особенности кластеризации SQL-запросов на основе механизма регуляризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
165
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЭФФЕКТИВНЫЙ SQL-ЗАПРОС / КЛАСТЕРИЗАЦИЯ / САМООРГАНИЗУЮЩАЯСЯ НЕЙРОННАЯ СЕТЬ / ШИРИНА ТОПОЛОГИЧЕСКОЙ ОКРЕСТНОСТИ / РЕГУЛЯРИЗАЦИЯ / ОШИБКА ОБОБЩЕНИЯ / РОБАСТНАЯ НЕЙРОННАЯ СЕТЬ / INEFFICIENT SQL-QUERY / CLUSTERING / SELF-ORGANIZING MAP / TOPOLOGICAL NEIGHBORHOOD WIDTH / REGULARIZATION / GENERALIZATION ERROR / ROBUST NEURAL NETWORK

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алгазали Салах Махди Мадлол, Кузнецова Алла Витальевна, Айвазов Вадим Григорьевич

В процессе роста объёмов данных крупных распределенных клиентских систем наблюдаются эффекты падения производительности при отсутствии явных причин. Наличие сотен и тысяч запросов в единицу времени на реально работающих клиентских системах требует от специалистов быстрого реагирования в поиске неэффективных SQL-запросов. Целью работы является разработка робастного алгоритма обучения самоорганизующейся нейронной сети для решения задачи анализа большого числа многомерных объектов, функционирующих в постоянно изменяющейся среде. Обучение самоорганизующейся нейронной сети осуществляется на основе оптимального значения ширины топологической окрестности нейрона-победителя. Оптимальное значение ширины окрестности определяется путем вычисления ошибки обобщения самоорганизующейся нейронной сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алгазали Салах Махди Мадлол, Кузнецова Алла Витальевна, Айвазов Вадим Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURES OF CLUSTERING SQL-QUERIES BASED ON REGULARIZATION MECHANISM

During the data volumes growth of large distributed client systems, there are effects of a drop in performance in the obvious reasons absence. The hundreds and thousands query per unit of time on actually working client systems requires specialists to respond quickly in the search for inefficient SQL queries. Objective is to develop a robust learning algorithm for a self-organizing neural network to solve the problem of analyzing a large number of multidimensional objects which operating in a constantly changing environment. The self-organizing neural network training is carried out on the basis of the winning neuron optimal topological neighborhood width. The optimal width value neighborhood is determined by calculating the self-organizing neural network generalization error.

Текст научной работы на тему «Особенности кластеризации SQL-запросов на основе механизма регуляризации»

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE. 2019. No 4

УДК 004.658 DOI: 10.17213/0321-2653-2019-4-31-38

ОСОБЕННОСТИ КЛАСТЕРИЗАЦИИ S^b-ЗАПРОСОВ НА ОСНОВЕ МЕХАНИЗМА РЕГУЛЯРИЗАЦИИ

© 2019 г. С.М.М. Алгазали, А.В. Кузнецова, В.Г. Айвазов

Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия

FEATURES OF CLUSTERING SQL-QUERIES BASED ON REGULARIZATION MECHANISM

S.M.M. Alghazali, A.V. Kuznetsova, V.G. Aivazov

Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia

Алгазали Салах Махди Мадлол - аспирант, кафедра Salach M.M. Alghasali - Postgraduate Student, Department «Программное обеспечение вычислительной техники», «Software Computer Engineering», Platov South-Russian Южно-Российский государственный политехнический State Polytechnic University (NPI), Novocherkassk, Russia. университет (НПИ) имени М.И. Платова, г. Новочеркасск, E-mail: alghazali.salah@yandex.ru Россия. E-mail: alghazali.salah@yandex.ru

Кузнецова Алла Витальевна - канд. техн. наук, доцент, Kuznetsova Alla Vitalievna - Candidate of Technical Sciences, кафедра «Программное обеспечение вычислительной Associate Professor, Department «Software Computer Engi-техники», Южно-Российский государственный политехни- neering», Platov South-Russian State Polytechnic University ческий университет (НПИ) имени М.И. Платова, г. Ново- (NPI), Novocherkassk, Russia. E-mail: alvitkuz@yandex.ru черкасск, Россия. E-mail: alvitkuz@yandex.ru

Айвазов Вадим Григорьевич - магистр, кафедра «Программное Aivazov Vadim Grigorievich - Master Student, Department обеспечение вычислительной техники», Южно-Российский «Software Computer Engineering», Platov South-Russian государственный политехнический университет (НПИ) State Polytechnic University (NPI), Novocherkassk, Russia. имени М.И. Платова, г. Новочеркасск, Россия. E-mail: E-mail: olmm2@ya.ru olmm2@ya.ru

В процессе роста объёмов данных крупных распределенных клиентских систем наблюдаются эффекты падения производительности при отсутствии явных причин. Наличие сотен и тысяч запросов в единицу времени на реально работающих клиентских системах требует от специалистов быстрого реагирования в поиске неэффективных SQL-запросов. Целью работы является разработка робастного алгоритма обучения самоорганизующейся нейронной сети для решения задачи анализа большого числа многомерных объектов, функционирующих в постоянно изменяющейся среде. Обучение самоорганизующейся нейронной сети осуществляется на основе оптимального значения ширины топологической окрестности нейрона-победителя. Оптимальное значение ширины окрестности определяется путем вычисления ошибки обобщения самоорганизующейся нейронной сети.

Ключевые слова: неэффективный SQL-запрос; кластеризация; самоорганизующаяся нейронная сеть; ширина топологической окрестности; регуляризация; ошибка обобщения; робастная нейронная сеть.

During the data volumes growth of large distributed client systems, there are effects of a drop in performance in the obvious reasons absence. The hundreds and thousands query per unit of time on actually working client systems requires specialists to respond quickly in the search for inefficient SQL queries. Objective is to develop a robust learning algorithm for a self-organizing neural network to solve the problem of analyzing a large number of multidimensional objects which operating in a constantly changing environment. The self-organizing neural network training is carried out on the basis of the winning neuron optimal topological neighborhood width. The optimal width value neighborhood is determined by calculating the self-organizing neural network generalization error.

Keywords: inefficient SQL-query; clustering; self-organizing map; topological neighborhood width; regularization; generalization error; robust neural network.

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE 2019. No 4

Введение

Под ^2^'запросом понимается команда к базе данных, направленная на определение структуры и манипулирование данными, на осуществление настроек для доступа к данным, на установку параметров СУБД. Ниже понятие SQL-запроса будет ассоциироваться, прежде всего, с наиболее ресурсоёмкими командами манипулирования данными, исполнение которых связано с отбором, просмотром, обработкой и изменением больших объёмов информации в БД. В рамках системного анализа SQL-запрос рассматривается как сложный объект, представленный:

1) текстом запроса в совокупности с набором параметров, доступных для редактирования как во время разработки, так и во время выполнения;

2) планом исполнения, генерируемым специальным компонентом СУБД - оптимизатором;

3) набором реляционных операторов, соответствующих плану исполнения и непосредственно воздействующих на таблицы БД; 4) набором статистических данных (статистик) о процессе исполнения запроса, которые формируются системой управления базой данных и хранятся в её внутренних таблицах в течение определенного срока; 5) набором обрабатываемых данных, записываемых SQL-запросом в БД или возвращаемых в программу. Размещение отдельных компонентов и исполнение операторов запроса осуществляется в программной среде, в среде клиент-серверной СУБД и БД.

Актуальность

С ростом объёмов баз данных распределенных клиентских систем всё более острой становится проблема появления так называемых неэффективных SQL-запросов. Под неэффективным (ресурсоёмким, длительным, проблемным) будем понимать запрос, на обработку которого серверу БД требуется недопустимо много времени и/или значительное количество ресурсов. Для программно-насыщенных систем промышленного и коммерческого уровня с большим количеством клиентов временная длительность таких запросов может увеличиваться в 101 - 103-4 раз относительно оптимальной производительности.

Анализ падения производительности в крупных системах при отсутствии явных причин связан с просмотром сотен, тысяч и даже десятков тысяч запросов - их планов исполнения и статистических данных производительности. Эта работа ведётся системными администраторами

баз данных (DBA, data base administrator) с помощью оригинального служебного ПО конкретной СУБД и утилит сторонних производителей. Информационными источниками для отыскания проблемных объектов в служебном инструментарии выступают основные характеристики плана исполнения и/или статистические параметры, характеризующие потребление временных ресурсов процессора и системы ввода-вывода [1]. Количество SQL-запросов с неприемлемо большими значениями характеристик в общем числе анализируемых объектов может быть весьма велико, но далеко не всегда длительные запросы будут действительно неоптимальными. И если задаче оптимизации проблемных запросов посвящено немало научно-практических рекомендаций [2], то вопросы их эффективного поиска в случае значительных объёмов статистической информации практически не рассматриваются. Сократить время поиска кандидатов на дальнейшее исследование и оптимизацию можно на основе процедуры нейросетевой кластеризации, обеспечивающей выявление групп однородных объектов и отдельных нетипичных экземпляров, размещённых в структурно-сложном пространстве признаков. Несомненным достоинством кластеризации на основе самоорганизующихся сетей (SOM - self-organization map) является наличие множества модификаций, обеспечивающих гибкую подстройку к особенностям обучающих выборок и предметной области в целом [3].

Особенности кластеризации »У^-запросов

Использование классического базового алгоритма обучения самоорганизующейся сети и его наиболее известных модификаций для решения задачи кластеризации SQL-запросов, представленных многомерными векторами характеристик производительности, затруднено по следующим причинам:

1) число выполненных SQL-запросов в интересующий DBA период времени (час, день, неделя) очень велико - от 103 до 104-5;

2) объекты кластеризации относятся к классу многомерных; количество информативных параметров по оценкам экспертов может составлять от двух до четырёх-пяти десятков;

3) подавляющее большинство статистических параметров производительности SQL-запросов имеет весьма значительный разброс значений от 100 - 1012-13;

4) распределения параметров производительности имеют резко асимметричный характер

ISSN 0321-2653 ИЗВЕСТИЯ ВУЗОВ. СЕВЕРО-КАВКАЗСКИЙ РЕГИОН._ТЕХНИЧЕСКИЕ НАУКИ. 2019. № 4

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE. 2019. No 4

(с положительной асимметрией); при этом наличие длинных «хвостов», не являющихся выбросами, свидетельствует о том, что структура пространства предметной области подвержена сильным флуктуациям [4];

5) если один из основных признаков производительности запроса имеет значение, близкое к максимальному, то совсем не обязательно другие признаки (даже высококоррелированные) будут иметь максимальные «хвостовые» значения;

6) на группировку SQL-запросов в соответствии с критерием их эффективности оказывают непосредственное влияние как отдельные признаки, так и их разнообразные комбинации;

7) плотность объектов в пространстве признаков неравномерная, поскольку число эффективных SQL-запросов преобладает над числом нетипичных запросов, а многообразие и тех и других в значительной мере зависит от внешних факторов;

8) число кластеров заранее неизвестно даже приблизительно (последний признак не относится к уникальным, но является определяющим при выборе в качестве метода анализа нейросе-тевой кластеризации).

Кроме вышеперечисленных причин, немаловажным фактором является высокая зависимость параметров SQL-запросов от состояния окружения, в рамках которого производился сбор данных. К таким факторам можно отнести повышенное, или наоборот, незначительное число пользователей программной системы, перебои в работе серверного оборудования, сетевые проблемы, неудачные настройки СУБД и т.п.

Использование для разведочного анализа SQL-запросов, представленных набором статистических параметров производительности, алгоритма на основе базового правила «победитель забирает всё» (WTA, winner takes all), позволяет получить лишь общую картину, довольно размытую и подверженную искажениям, поскольку спроецировать многомерную выборку на плоскость без искажений в общем случае невозможно. Значительное число нейронов сети оказывается незадействованным, так как нейроны попадают в области, где невозможно стать победителем. Уменьшение размеров сети с целью сокращения незадействованных нейронов приводит к увеличению размеров кластеров, потере информативности и, соответственно, росту ошибки квантования. Применение механизма «мягкой конкуренции» (WTM, winner takes most), согласно которому производится подстройка сразу нескольких нейронов, находящихся в окрестности

нейрона-победителя, позволило ускорить сходимость процесса обучения на начальных итерациях по сравнению с WTA и уменьшить число неза-действованных нейронов. Однако, независимо от характера изменения размера окрестности (сиг-моидального, гауссовского или линейного), длительное обучение методом WTM с практически нулевыми значениями размера окрестности приводило к так называемому эффекту переобучения или переподгонки (overtraining, overfitting). Несмотря на то что, согласно рекомендациям Т. Кохонена, для получения хорошей статистической точности количество обучающих циклов на этапе точной подстройки должно превышать число циклов первичного топологического упорядочивания (103) и достигать величин порядка 103 4 [5], излишняя подгонка делает невозможным использование уже обученной сети для кластеризации сходных наборов SQL-запросов, полученных в других временных промежутках.

Диагностирование эффекта переобучения

Переобучение традиционно связано с сетями прямого распространения сигнала и обучением с учителем, в котором имеют место подмножество данных, не использовавшихся для обучения и имеющих сходство с реальными данными, к которым нейронная сеть будет применяться. Рост ошибки обобщения Egen (generalization error), т.е. ошибки, которую обучаемая модель показывает на примерах, не участвовавших в процессе обучения, а в пределе - превышение ошибки на обучающей выборке (training error), является неоспоримым фактором проявления переобучения. Для нейронных сетей Кохонена вычисление ошибки обобщения в классической интерпретации невозможно, поскольку в обучающей выборке отсутствуют метки кластеров и понятие контрольного множества не имеет смысла. Косвенно оценить обобщающую способность сети при решении задачи кластеризации с заранее неизвестным числом нецентриро-ванных кластеров можно на основе точности и качества обучения. Формальная оценка обобщающей способности SOM производится на основе ряда статистических оценок, наиболее известные из которых - ошибка квантования и энтропия [3]. Однако эти оценки не могут выступать в качестве достаточно надёжного критерия для предотвращения эффекта переобучения самоорганизующейся сети и останова процесса обучения, поскольку опираются только лишь на элементы входных векторов. Наблюдение за

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE 2019. No 4

поведением Еч и Н в процессе обучения отражает точную подстройку сети под известные данные, никак не оценивая неизвестные флуктуации обучающего множества. В работе [6] сохранить обобщающую способность сети, предотвратив её переобучение, предлагается за счёт контролирования текущего радиуса обучения Ксиггеш и его сравнения с так называемым радиусом средней населённости Яр, вычисляемым на основе количества входных векторов ОМа812е и количестве узлов сети SizeSOM:

ISizeSOM р ~ 2 V DataSize '

По утверждению авторов, после того как текущий радиус становится меньше радиуса Rp, происходит обоюдное замедление уменьшения среднеквадратического отклонения сети (аналога ошибки квантования) для обучающих и тестовых данных. Точность кластеризации практически не увеличивается, а с течением времени начинает уменьшаться из-за роста ошибки на тестовых данных. Поэтому имеет смысл останавливать обучение при переходе критического значения Rp. Выражая согласие с авторами в части использования радиуса обучения (аналога топологической окрестности) в качестве единственного параметра регуляризации, задав константу для скорости обучения, позволим себе усомниться в универсальности предложенного критерия останова обучения. В случае, когда: 1) искомые кластеры не центрированы и не имеют чётких границ; 2) число кластеризуемых SQL-запросов велико и в несколько раз превышает число узлов сети, достижение условия Rcurrent < Rp приводит к росту числа циклов обучения, в результате которых ошибка квантования достигает практически нулевых значений и сеть по-прежнему подстраивается под особенности обучающей выборки.

Одним из способов диагностирования процесса переобучения самоорганизующейся нейро-сети при кластеризации значительных объёмов данных может стать подход, основанный на определении оптимального значения эффективной ширины о (effective width) топологической окрестности hjxii (topological neighborhood) с центром в победившем нейроне j. В классическом варианте SOM ширина окрестности о выступает в качестве основного параметра функции соседства, представленной гауссианом:

h

1 ( x),i

= exp

d 2

Л

2а2 (t )

где j - индекс победившего нейрона; i - индекс нейрона, соседствующего с победителем; d -расстояние между нейронами; о - эффективная ширина топологической окрестности. Величина о экспоненциально уменьшается от начального значения о0 практически до нуля от итерации к итерации и оказывает влияет на размер окрестности нейрона-победителя h, в которую попадают соседние нейроны [5]. Большинство известных модификаций алгоритма SOM связано с эвристическим выбором вида и параметров функций h(t) и o(t), с определением оптимального числа эпох обучения n применительно к кластеризуемым данным [7 - 12], в результате чего самоорганизующиеся сети приобретают те или иные особенности. В отличие от предлагаемых решений, задачу определения оптимальной ширины топологической окрестности сформулируем как оптимизационную, т.е. величина oopt будет определяться на основе минимума целевой функции - ошибки обобщения Egen. Соответственно, сеть, обученная на основе использования величины oopt, будет служить решением задачи оптимизации. Подобно алгоритмам обучения с учителем, определяющим ошибку обобщения на контрольном множестве векторов (validation set) и сравнивающим её с ошибкой на обучающем множестве (training set), для алгоритма обучения самоорганизующейся сети можно попытаться выделить аналог контрольного множества и предложить некоторый способ вычисления ошибки обобщения. Главными трудностями на этом пути являются уже упомянутое выше отсутствие таксономических метрик и ограниченные объёмы входных данных. В случае кластерного анализа SQL-запросов указанные трудности могут быть преодолены за счёт избыточного количества статистической информации об исполнении запросов в хранилищах СУБД [1]. Входные данные, на которых обучается сеть, легко могут быть удвоены, утроены и т.д. за счёт использования хранимой информации в аналогичные предшествующие периоды времени и имеющей сходные статистические характеристики. Типичным исследуемым периодом поведения программной системы являются час, несколько часов, сутки, неделя. А промышленные СУБД (Oracle, MS SQL), при соответствующих настройках, хранят данные за месячный период, что позволяет достаточно легко отобрать соответствующие данные для контроля обучения. На сходные, но не абсолютно равные, экземпляры обоих множеств должны реагировать одни и те

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

TECHNICAL SCIENCE. 2019. No 4

же группы нейронов. Информация, отобранная для контроля обучения, как и в случае обучения с учителем, не будет использоваться для подстройки сети. В отличие от классического контрольного множества, объём которого составляет приблизительно 15 - 20 % от объёма обучающего множества, соотношение указанных множеств имеет смысл выбирать равным 50^50. А использовать контрольное множество для вычисления Е^еп, напротив, следует гораздо чаще, чем в обучении с учителем, а именно - в каждом цикле обучения.

Предложенный способ формирования репрезентативного контрольного множества при наличии достаточного объёма исходных данных позволит вычислять ошибку обобщения Е^еп самоорганизующейся сети следующим образом:

11 w 1

Egen = — Я [Etv ]2 + Т [VarTV ] ;

gen PNj-t Г 21

ETV = E(xT ) _ E(xv );

VarTy = Var (xT ) + Var (xy );

(1)

\V,

1 1 N

E =

sen PN

E + — Var

etv ' 2 V u'tv ,

xt, xv ev;v ф {0},

1

1 Q

q=1

Xt , Xv eVq; v = {0}; Vq ф {0},

(2)

ч— Var

n ^ TV ~ u'rv'

где P - размерность пространства признаков; N - количество нейронов в сети; xT - вектор элемента обучающей выборки; Xv — вектор элемента контрольного множества; Vj - область активации, соответствующая j-му нейрону (нейрону-победителю). ETV - квадрат расстояния между средними значениями признаков T- и V-векторов (Expected value), попавших в область активации j-го нейрона. VarTV - усреднённая дисперсия каждого признака (Variance) для обучающих и проверочных элементов относительно соответствующих весовых коэффициентов j-го нейрона. Монотонно уменьшая ширину топологической окрестности и отслеживая характер убывающей при этом ошибки обобщения, можно найти такое значение oopi, которое соответствует минимальному значению Egen, а значит, и наилучшей конфигурации нейронной сети. Последующий рост ошибки обобщения и будет свидетельствовать о «переобученности» сети, о её подстройке к случайным флуктуациям обучающего множества.

Совершенствование предложенной методики может быть связано с учётом топологических свойств «невыигравших» нейронов, для которых оба члена формулы (1) имеют нулевое значение:

где Q - число ближайших «не пустых» областей активации нейронов, являющихся победителями хотя бы для одного объекта обучающего и одного объекта проверочного множеств. Исходя из того, что на более близких расстояниях может оказаться значительное число нейронов, не являющихся изначальными структурными соседями нейрона-победителя, было принято решение ограничить число Q из (2) размерностью решётки нейронной сети.

Практическое определение оптимального параметра обучения

Вычислительная процедура определения ошибки обобщения по формуле (2) для каждого параметра 30-мерного множества SQL-запросов, содержащего порядка 103 элементов обучающего и контрольного множеств, очень затратна с точки зрения временных ресурсов. Выходом стала процедура сокращения размерности обучающего множества на основе метода главных компонент, определенных на исходном множестве признаков [13]. Подавляющее большинство реализаций процедуры обучения («80 %) в серии из 500 запусков завершалось средним значением Еявп«1,2 (рис. 1).

Egen 102

0 2 4 6 8 10 12 14 16 18 20 22 24

Число итераций

Рис. 1. Вычисление Egen (500 итераций) / Fig. 1. Egen calculation (500 iterations)

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE 2019. No 4

Многократный запуск процедуры обучения с вычислением ошибки Егеп в каждом цикле обучения при линейно-уменьшающемся значении о от 20 до 0 позволил определить опытным путём значение величины оорЬ равное 7,2. Увеличение ошибки обобщения в серии проведённых экспериментов, в среднем, начинало проявляться уже на 15^20 эпохах обучения. После этого дальнейшее уменьшение эффективной ширины топологической окрестности всегда приводило к росту ошибки, указывая на то, что структура сети начинает следовать случайным флуктуациям обучающих данных. Полученное значение осрЛ было применено для обучения нейронной сети на ранее использовавшихся тестовых данных. Для контрольного множества был определён новый набор.

б

Рис. 2. Фрагменты карт расстояния от нейронов до средних значений признаков: а - при использовании а от 20^0; б - при использовании aop(=7,2 / Fig. 2. Fragments of distance maps from neurons to average characters values: a - using а from 20^0; б - when using aopt = 7,2

На рис. 2, а представлены фрагменты специализированных раскрасок - карт Кохонена для первых четырех главных компонент. Каждый нейрон карты имеет цвет, соответствующий расстоянию между его весовым коэффициентом и средним значением признака (главной компоненты) элементов, которые попали в область его активации. Сеть обучена на реальных данных с применением линейно убывающей эффективной ширины топологической окрестности. В верхней строке отражены результаты, полученные на обучающей выборке, в нижней строке - результаты, полученные на контрольном множестве. Попарное сравнение величин, приписанных одному и тому же нейрону (или группе нейронов),

на обучающем и контрольном множествах позволяет обнаружить эффект переобучения. Если значение, приписанное нейрону в контрольном множестве, выше (полигон ближе к белому цвету), чем у нейрона в обучающем множестве, значит, нейроны в этих участках карты в процессе обучения сильнее «притянулись» к обучающим векторам и, соответственно, имеют меньшее расстояние между собственным весом и средним значением элементов. Окружности указывают на области, где явно произошло переобучение.

На рис. 2, б представлены фрагменты раскрасок сети, обученной на тех же данных, что и в предыдущем примере, но с использованием предлагаемой методики (2). Практически одинаковое расстояние между весами нейронов и средними значениями параметров принадлежащих ему элементов на Т- и К-множествах свидетельствуют об отсутствии эффекта переобучения, устойчивости карты к различного рода выбросам и помехам в обучающих данных.

Эксперименты с использованием оптимальной величины топологической окрестности как на всём интервале обучения, так и только на этапе подстройки, продемонстрировали сходные результаты на обучающем и проверочном множествах.

Визуальный анализ традиционно раскрашенных карт по средним значениям главных компонент показывает, что сеть, обученная с применением классического ЖТМ (рис. 3, а), менее упруга, точнее описывает данные, воспроизводя случайные шумы, имеющие место в обучающем множестве исходных данных.

Сеть, обученная с применением ор (рис. 3, б), представляет собой более гладкую модель, слабо реагирующую на малые отклонения от истинной структуры многомерного пространства.

б

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Фрагменты традиционной раскраски карт Кохонена: а - при использовании а от 20^0; б - при использовании aopt=7,2 / Fig. 3. Fragments of traditional Kohonen maps coloring: a - using а from 20^0; б - when using а opt = 7,2

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.

Применительно к задаче кластеризации SQL-запросов, указанные различия позволяют построить робастную модель, наилучшим образом соответствующую истинной структуре данных и предотвратить попадание неэффективных или нетипичных экземпляров запросов «не в свои» группы.

Заключение

Сети, обученные с использованием минимизации значения ошибки обобщения, позволяют отображать наиболее достоверное размещение элементов априорных и апостериорных данных в многомерном пространстве признаков по сравнению с сетями, для обучения которых использовался нулевой или уменьшающийся до нуля параметр регуляризации. В результате такого обучения самоорганизующаяся сеть становится более эластичной. В то же время недопущение роста ошибки обобщения не позволяет ей начинать улавливать особенности случайных внешних воздействий, имеющих место в обучающем множестве.

Предлагаемый способ вычисления и использования масштабирующей константы aopt и новые способы учёта близости нейронов имеют большое значение для анализа многомерных сложно-структурированных пространств, позволяя впоследствии использовать нейросетевую модель для тех данных, которые не участвовали в её построении. Указанное утверждение относится к таким сложно-структурированным и вы-соко-зашумлённым множествам объектов, как SQL-запросы, представленные значительным набором статистических параметров времени исполнения.

Литература

1. Алгазали С.М.М., Айвазов В.Г., Кузнецова А.В. Совершенствование процесса поиска неэффективных SQL-запросов в СУБД Oracle // Инженерный вестн. Дона,

TECHNICAL SCIENCE. 2019. No 4

2017. № 4. [Электронный ресурс] URL:ivdon.ru/ru /magazine/ archive/n4y2017/4511 (дата обращения 03.11.18).

2. Шичкина Ю. Подходы для ускорения обработки данных в реляционных базах данных // 13-й Междунар. симп. по интеллектуальным системам, INTELS 2018; Санкт-Петербург; секция «Компьютерные науки», 2019, Т. 150, С. 131 - 139.

3. Рыжков В.А. Совершенствование самоорганизующихся нейронных сетей Кохонена для систем поддержки принятия решений: дис.... канд. техн. наук 2010, М., 2008.

4. Прохоров Ю.В. Вероятность и математическая статистика // Большая Российская энциклопедия. М.: Энциклопедия. -1999. 910 с.

5. Kohonen T. Self-Organizing Maps (Third Extended Edition), New York, 2001, 501 p.

6. Бендерская Е.Н., Шварц Д.Р. Подход к определению параметров нейронной сети Кохонена в задачах анализа структуры многомерных данных // Науч.-техн. ведомости СПбГПУ. 2010. № 93. C. 18-26.

7. Lampinen J., Kostiainen T. Overtraining and model selection with the self-organizing map // Proceedings of the International Joint Conference on Neural Networks, 1999, Vol. 3, pp. 1911 - 1915.

8. Ultsch A., Morchen F. ESOM-Maps tools for clustering, visualization data // Data Bionics Research Group / University of Marburg. Marburg. Germany. March 17. 2005.

9. Sinha S., Singh T.N., Singh V.K., Verma A.K. Epoch determination for neural network by self-organized map (SOM) // Computational Geosciences. 2010. Vol. 14, Issue 1, pp. 199 - 206.

10. Vidaurre D., Muruzabal J. A quick assessment of topology preservation for SOM structures // IEEE Transactions on Neural Networks. 2007. Vol. 18, Issue 5, pp. 1524 - 1528.

11. Hazan H., Saunders D., Sanghavi D.T., Siegelmann H., Kozma R. Unsupervised Learning with Self-Organizing Spiking Neural Networks // Proceedings of the International Joint Conference on Neural Networks. 2018. Vol. 2018-July, 10 October, numb. 8489673

12. Kamimura R., Takeuchi H. Flexible Self-Organizing Maps by Information Maximization // Proceedings of the International Joint Conference on Neural Networks. 2003. Vol. 4, pp. 2734 - 2739.

13. Алгазали С.М.М., Кузнецова А.В. Кластеризация неэффективных SQL-запросов // Фундаментальные основы, теория, методы и средства измерений, контроля и диагностики: Материалы 19-й Междунар. науч.-практ. конф., г. Новочеркасск, 26 - 27 фев. 2018 г. / Юж.-Рос. гос. по-литехн. ун-т (НПИ) им. М.И. Платова. - Новочеркасск: ООО «Лик», 2018. С. 111 -117.

References

1. Algazali S.M.M., Aivazov V.G., Kuznetsova A.V. Sovershenstvovanie protsessa poiska neeffektivnykh SQL-zaprosov v SUBD Oracle [Improving the search for inefficient SQL queries in Oracle DBMS]. Inzhenernyi vestnik Dona, 2017, no. 4. (In Russ.) Available at: http://www.ivdon.ru/ru/magazine/archive/n4y2017/4511. (accessed 03.11.18)

2. Shichkina Yu. [Approaches to accelerate data processing in relational databases]. 13-i Mezhdunarodnyi simpozium po intellektual'nym sistemam [3th international Symposium on intelligent systems]. 2019, vol. 150, pp. 131 - 139. (In Russ.)

3. Ryzhkov V.A. Sovershenstvovanie samoorganizuyushchikhsya neironnykh setei Kokhonena dlya sistem podderzhki prinyatiya reshenii. Diss. kand. tekhn. nauk [Improvement of Kohonen's self-organizing neural networks for decision support systems. Cand. sci.diss.] Moscow, 2008.

ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE 2019. No 4

4. Prokhorov Yu.V. Veroyatnost' i matematicheskaya statistika [Probability and Mathematical Statistics]. Moscow: Bol'shaya Rossiiskaya entsiklopediya, 1999, 910 p.

5. Kohonen T., Self-Organizing Maps (Third Extended Edition), New York. 2001. 501 p.

6. Benderskaya E.N., Shvarts D.R. Podkhod k opredeleniyu parametrov neironnoi seti Kokhonena v zadachakh analiza struktury mnogomernykh dannykh [Approach to determining the Kohonen neural network parameters in the problems of analyzing the structure of multidimensional data]. Nauchno-tekhnicheskie vedomosti SpbGPU, 2010, no. 93, pp. 18 - 26. (In Russ.)

7. Lampinen J., Kostiainen T. Overtraining and model selection with the self-organizing map // Proceedings of the International Joint Conference on Neural Networks. Vol. 3. 1999. Pp. 1911 - 1915.

8. Ultsch A., Morchen F. ESOM-Maps tools for clustering, visualization data // Data Bionics Research Group / University of Marburg. Marburg. Germany. March 17. 2005.

9. Sinha S., Singh T.N., Singh V.K., Verma A.K. Epoch determination for neural network by self-organized map (SOM) // Computational Geosciences Vol. 14. Issue 1. 2010. Pp. 199 - 206.

10. Vidaurre D., Muruzabal J. A quick assessment of topology preservation for SOM structures // IEEE Transactions on Neural Networks. Vol. 18. Issue 5. 2007. Pp. 1524 - 1528.

11. Hazan H., Saunders D., Sanghavi D.T., Siegelmann H., Kozma R. Unsupervised Learning with Self-Organizing Spiking Neural Networks // Proceedings of the International Joint Conference on Neural Networks. Vol. 2018-July, 10 October 2018, numb. 8489673.

12. Kamimura R., Takeuchi H. Flexible Self-Organizing Maps by Information Maximization // Proceedings of the International Joint Conference on Neural Networks. Vol. 4. 2003. Pp. 2734 - 2739.

13. Algazali S.M.M., Kuznetsova A.V. [Clustering inefficient SQL queries Fundamental principles, theory, methods and means of measurement, control and diagnostics]. Mater. 19-i Mezhdunar. nauch.-prakt. konf. "Fundamental'nye osnovy, teoriya, metody i sredstva izmerenii, kontrolya i diagnostiki" [Proceedings of the 19th international. science.- pract. Conf. "Fundamentals, theory, methods and means of measurement, control and diagnostics»]. Novocherkassk, 2018, pp. 111 - 117. (In Russ.)

Поступила в редакцию /Received 02 июля 2019 г. / July 02, 2019

i Надоели баннеры? Вы всегда можете отключить рекламу.