Научная статья на тему 'Методика расширения возможностей визуального OLAP-анализа'

Методика расширения возможностей визуального OLAP-анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
128
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
K-MEANS / ЭНТРОПИЯ / ENTROPY / КЛАСТЕРИЗАЦИ / НЕИРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ / СОКРАЩЕНИЕ ИЗБЫТОЧНОСТИ / REDUNDANCY REDUCTION / СЭМПЛИНГ ДАННЫХ / DATA SAMPLING / OLAP / РЕЛЯЦИОННАЯ МОДЕЛЬ / RELATIONAL MODEL / CLUSTERING / NON-HIERARCHICAL CLUSTERING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Волович Михаил Евгеньевич, Зизганов Илья Сергеевич

В статье предлагается методика автоматизированного сокращения признакового пространства, основанная на оценке информационного содержания реляционной модели и оценке результатов кластеризации входных данных. Также в статье рассматривается, как часть приведенной методики, формирование дополнительного измерения OLAP-куба на основе методов неиерархической кластеризации. Рассмотрен алгоритм оценки информационного содержания реляционной модели данных. Приведен неиерархический алгоритм кластеризации, используемый при сокращении признакового пространства, базирующийся на идее использования расстояния Хэмминга. Предложен метод, основанный на одной из модификаций алгоритма K-means, который формирует дополнительный критерий для проведения последующего OLAP-анализа. Также приводятся результаты анализа использования предложенной методики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methodology of expanding the possibilities of visual OLAP analysis

The article proposes a methodology for automated reduction attribute space, based on the evaluation of the information content of the relational model and the evaluation of the results of the clustering of input data. The article also considers the formation of an additional OLAP-cube dimension on the basis of non-hierarchical clustering methods as a part of this methodology. The algorithm for evaluating the information content of the relational data model is demonstrated. The non-hierarchical clustering algorithm, used in the reduction of the attribute space, based on the idea of using Hamming distance is given. The method, based on one of the modifications of the algorithm K-means, which forms an additional criterion for conducting the subsequent OLAP-analysis, is proposed. Article contains the results of the analysis of the use of the proposed methodology.

Текст научной работы на тему «Методика расширения возможностей визуального OLAP-анализа»

УДК 004.62

МЕТОДИКА РАСШИРЕНИЯ ВОЗМОЖНОСТЕЙ ВИЗУАЛЬНОГО

OLAP-АНАЛИЗА

Волович Михаил Евгеньевич, кандидат технических наук, доцент, Зизганов Илья Сергеевич, магистрант;

Московский технологический университет, Москва, РФ

В статье предлагается методика автоматизированного сокращения признакового пространства, основанная на оценке информационного содержания реляционной модели и оценке результатов кластеризации входных данных. Также в статье рассматривается, как часть приведенной методики, формирование дополнительного измерения OLAP-куба на основе методов неиерархической кластеризации. Рассмотрен алгоритм оценки информационного содержания реляционной модели данных. Приведен неиерархический алгоритм кластеризации, используемый при сокращении признакового пространства, базирующийся на идее использования расстояния Хэмминга. Предложен метод, основанный на одной из модификаций алгоритма K-means, который формирует дополнительный критерий для проведения последующего OLAP-анализа. Также приводятся результаты анализа использования предложенной методики. Ключевые слова: K-means; энтропия; кластеризаци;, неирархическая кластеризация; сокращение избыточности; сэмплинг данных; OLAP; реляционная модель.

METHODOLOGY OF EXPANDING THE POSSIBILITIES OF VISUAL OLAP ANALYSIS

Volovich Mikhail Evgen'evich, PhD (Cand. Tech. Sci.), associate professor, Zizganov Il'ya Sergeevich, the undergraduate;

Moscow Technological University, Moscow, Russia

The article proposes a methodology for automated reduction attribute space, based on the evaluation of the information content of the relational model and the evaluation of the results of the clustering of input data. The article also considers the formation of an additional OLAP-cube dimension on the basis of non-hierarchical clustering methods as a part of this methodology. The algorithm for evaluating the information content of the relational data model is demonstrated. The non-hierarchical clustering algorithm, used in the reduction of the attribute space, based on the idea of using Hamming distance is given. The method, based on one of the modifications of the algorithm K-means, which forms an additional criterion for conducting the subsequent OLAP-analysis, is proposed. Article contains the results of the analysis of the use of the proposed methodology.

Keywords: K-means; entropy; clustering; non-hierarchical clustering; redundancy reduction; data sampling; OLAP; relational model.

Для цитирования: Волович М. Е., Зизганов И. С. Методика расширения возможностей визуального OLAP-анали-за // Наука без границ. 2018. № 4 (21). С. 85-93.

Введение

ОЬАР-системы предоставляют аналитику средство проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез, ко-

торые он формирует, основываясь на своих знаниях и опыте. Однако возможности человеческого восприятия количественно ограничены, высокая степень детализации информации приводит к невозможности

её осмысленного восприятия. Появляется необходимость выделения наиболее значимых фактов в больших информационных массивах и исключения незначащих и избыточных признаков из модели данных. При сокращении количества используемых признаков снижаются размерности векторов наблюдений, которые являются записями исходной выборки, что в свою очередь приводит к снижению размерности OLAP-кубов. Сокращение признаков не только способствует повышению качества модели, но и делает процесс моделирования более эффективным.

Подходы к сокращению размерности входных данных

В настоящее время существует большое количество подходов к решению задачи сокращения размерности входных данных. Методы решения основаны на статистических оценках, корреляционном анализе и других математических подходах, которые позволяют оценить степень взаимосвязи данных с целями анализа. Goudarzvand S. в [3] исследует возможность обнаружения скрытых закономерностей в данных с использованием алгоритмов поиска ассоциативных правил и иерархических алгоритмов кластеризации. Buda T. S., Murphy J., Kristiansen M. Towards в [5] предлагают инструмент для анализа зависимостей в реляционной базе данных. Chakravorty A. в [4] рассматривает использование алгоритма G-means и предлагается представлять каждый набор данных через его центроид, что в результате приводит к значительному сокращению избыточности данных. Сокращение объема данных достигает в данном случае 90 %. В [1, 6, 10] рассматриваются методы: Singular Value Decomposition (SVD), Principal Component Analysis (PCA), Self-Organizing Map (SOM), FastlCA. В [7] авторы предлагают использовать автоассоциативную сеть. В [8] авторы Янцен Д. Д., Цымблер М. Л. предлагают алгоритм

репрезентативного сэмплинга. Бондарев А. Е., Галактионов В. А. в [9] предлагают построение технологической цепочки алгоритмов обработки многомерного объема данных.

Обобщая вышеперечисленный опыт, делаем важный вывод о применении комплексного подхода при решении задачи сокращения размерности входных данных.

Предлагаемая методика выявления скрытых взаимосвязей в реляционных структурах данных

Нами предлагается методика сокращения признакового пространства, основанная на оценке информационного содержания реляционной модели данных и использовании алгоритмов неиерархической кластеризации. Применение данной методики позволяет сократить малозначимые и избыточные признаки модели и сформировать дополнительный критерий для проведения OLAP-анализа. Предлагаемую методику можно описать следующим рядом шагов:

1. Строится представление, описывающее исходную реляционную модель данных;

2. Алгоритм на основе формулы (3) оценивает энтропию входящих в представление таблиц;

3. Алгоритм ранжирует таблицы по убыванию в зависимости от информационного содержания и исключает из модели те, у которых информационное содержание ниже установленного порога значимости, тем самым выделяя и исключая из модели малозначимые признаки;

4. На следующем шаге алгоритм кластеризует данные и строит зависимость количества кластеров от размерности пространства кластеризации, которая способствует быстрому выявлению избыточных признаков;

5. Лицо, принимающее решение (ЛПР), исключает избыточные признаки, оставляя те из них, которые, по его мнению, от-

вечают целям анализа. На основе отобранных признаков алгоритм строит таблицу. Из нее ЛПР отбирает признаки, которые будут являться индексами массива - измерениями (dimensions) OLAP-куба, и признаки, которые будут являться значениям элементов массива - мерами (measures) OLAP-куба. Далее построенная таблица передается в алгоритм кластеризации K-means;

6. K-means кластеризует данные пространства Rm, компонентами векторов которого являются меры (measures), отобранные ЛПР на предыдущем шаге. В результате формируется структура кластеров, которая после загрузки в OLAP-куб, становиться его дополнительным измерением.

Созданное измерение позволяет проводить drill-up/drill-down операции по иерархиям измерений и формировать дополнительные срезы куба, основанные на информации, содержащейся в структуре кластеров. Использование дополнительного измерения добавляет новые возможности для проведения OLAP-анализа и повышает качественный уровень системы в целом.

Сокращение незначащих признаков на основе информационного содержания реляционной модели

При всем многообразии подходов, применяемых для сокращения числа признаков основным критерием, является незначительное изменение информационного содержания результирующего множества относительно исходного. То есть характеристики информационного содержания должны изменяться не более чем на заданную величину.

Энтропия есть мера нашего незнания о системе [2]. Следовательно, наиболее информативными для целей анализа являются признаки, содержащие наибольшее значение энтропии. Чем более гладким является ряд данных, тем меньше будет

у него энтропия. С увеличением разнообразия увеличивается и энтропия, которая в данном случае является мерой информационной насыщенности признака. При работе с категориальными признаками очевиден подход с использованием классической формулы информационной энтропии (Н) К. Шеннона:

где п - множество возможных событий;

р. - вероятность /-го события.

Причем результат расчета не меняется при изменении основания логарифма и, используя свойства функции ех, можно сразу перейти к общей формуле расчета средней энтропии:

(2)

где п - множество значений признака; р. - вероятность /-го значения признака. Данный подход хорошо работает для анализа одного признака, однако в случае, когда оценивается реляционная модель в целом, формула приобретает вид:

н =

_ZjL1IgalPiinpi

(3)

1п к

где к - количество признаков;

п - множество значений признака; р. - вероятность /-го значения признака. Так как энтропия - это величина вещественная и ограниченная, с максимальным значением слагаемого 1/е = 0,531, то смысл использования множителя 1/1пк заключается в том, чтобы исключить влияние количества признаков на результат расчета.

В рассматриваемой методике алгоритм рассчитывает энтропию по формуле (3) и исключает из модели таблицы, у которых информационное содержание в сумме ниже установленного порога значимости. Порог значимости для модели в целом подбирается экспериментально, но не должен превышать 15.. .20 %.

Сокращение избыточных признаков

с использованием методов неиерархической кластеризации

Подход основывается на итеративном использовании алгоритма неиерархической кластеризации. В данном случае все примеры исходной выборки рассматриваются как ^-компонентные вектора признакового пространства. В реализованном алгоритме предлагается использование расстояния Хэмминга (й?н) в качестве меры отношения элемента к кластеру, которое в общем случае служит метрикой различия объектов одинаковой размерности и может применяться после преобразования как к числовым, так и к категориальным признакам:

(4)

где х - вектор признакового пространства;

п - размерность вектора.

На первом шаге алгоритм получает множество всех уникальных значений, соответствующее векторам признакового пространства, а на следующем шаге присваивает элементам набора данных метки, разбивая тем самым набор на множество устойчивых групп, используя dн(хi, х.) = 0. В случае использования полного признакового пространства в качестве вектора кластеризации можно утверждать, что представители полученных групп будут эквивалентны. Размерность пространства кластеризации повышает уникальность значений и, следовательно, пропорциональна количеству групп, получаемых в результате работы алгоритма. Алгоритм строит графически данную зависимость и аналитику остается исключить из созданного графика горизонтальные участки, которые говорят об избыточности признаков.

Алгоритм показывает высокое быстродействие и качество разбиения на группы, соответствующее задаче предобработки

данных.

Формирование дополнительного измерения OLAP-куба с использованием алгоритмов неирерхической кластеризации

Следующим шагом перед процессингом в гиперкуб является кластеризация данных в пространстве, составленном из признаков, выбранных в качестве мер (measures). В результате это дает формирование нового измерения (dimension) OLAP-куба, которое будет являться дополнительным критерием для последующего анализа. Подобного результата невозможно добиться при работе с OLAP-кубом посредством формирования срезов. В качестве алгоритма кластеризации реализована одна из разновидностей K-means, обеспечивающая наибольшее быстродействие [11, 14, 15]. Объекты подмножеств предполагают их представление в виде точек m-мерного пространства Rm. В алгоритме используется евклидово расстояние (d2):

(5)

где х - вектор пространства Rm;

m - размерность вектора.

Задача выбора начальных центроидов решается с использованием алгоритма, созданного Дэвидом Артуром и Сергеем Вассильвитским [12].

При оценке качества кластеризации используется индекс оценки силуэта (Silhouette index), основанной на силуэтной статистике, введенной Кауфманом и Руссо [13,16]. Значение индекса делится на три интервала:

• низкое качество: от -1 до 0,2;

• среднее качество: от 0,2 до 0,5;

• хорошее качество: от 0,5 до 1.

Оценка качества разбиения проводится аналитиком итеративно и может быть остановлена в случае достижения поставленных им целей. В процессе работы

после каждой итерации аналитик может видеть количество групп, значения центроидов, количество элементов в каждой группе и результаты оценки качества кластеризации, тем самым получая не этапе предобработки представление о структуре данных.

Анализ результатов

Эксперименты проводились с использованием следующей платформы: двух ядерный процессор Intel™Core™i5-2410M

2.3GHz; объем оперативной памяти 16 Гб; СУБД Oracle 11.2.0.3. Собранная статистика по таблицам базы данных приводится в табл. 1.

В экспериментах используются данные, представленные реляционной моделью на рис. 1:

При установленном пороге значимости 20 % алгоритм выявил 4 таблицы с наибольшим информационным содержанием, результаты приводятся в табл. 2:

Таблица 1

Таблицы реляционной модели

Таблица Количество строк Средняя длина строки Количество столбцов

MODELPRODUCTS 113 28 5

PRODTRANSACTIONS 202696 42 9

PRODUCTORDERS 72591 50 10

PRODUCTS 504 98 24

PRODUCTVENDORS 460 34 9

SCRAPREASONS 16 33 3

SUBCATEGORYS 37 24 4

VENDORS 104 55 8

MTUUSER.PRODTRANSACTIONS

Р ' PRODTRANSACTIONSJD NUMBER

F " PRODUCTID NUMBER

REFERENCEORDERID NUMBER

REFERENCE ORDERLINEID NUM8ER

TRANSACTIONDATE DATE

TRANSACTIONTYPE VARCHAR2 (255 BYTE)

QUANTITY NUMBER

ACTUALCOST NUMBER

MODIFIEDDATE DATE

S> PRGDTRANSACTlONS_PK(PRODTRANSACTIONSjD)

=3f PRODTRANSACTIONS_PRODUCTS_FK(PRODUCTID)

® PRODTRANSACTIQNSJTRANSACTIONIDJDX(PRODTRAI

MTUUSER.PRQDUCTVENDQRS

PF* PRODUCTID PF" VENDORlD

AVERAOELEADTIME STANDARD PRICE LASTRECEIPTCOST LAS TREC EIP T D AT E MINORDERQTY MAXOROEROTY U NIT ME AS IIREC О D E

NUMBER

NUMBER

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

NUMBER

NUMBER

NUMBER

DATE

NUMBER

NUMBER

VARCHAR2 (255 BYTE)

J* PRODUCTVENDORJD (PRODUCT ID. VENDORlD)

j PRODUCTVENDORS_PRODUCTS_FK (PRODUCT ID) f PRODUCTVENDORS_VEMDORS_FK (VENDORlD)

<> PRODUCTVENDOR_ID(PRODUCTID. VENDORlD) -i-

MTUUSER.VENDORS

P " VENDORlD NUMBER

ACCOUNTNUMBER VARCHAR2 (255 BYTE)

NAME VARCWAR2 (255 BYTE)

CREDlTRATlNG NUMBER

PREFERREDVENDORSTATUS NUMBER

ACTIVEFLAG NUMBER

PURCHASINGWEBSER VICE URL VARCHAR2 (255 BYTE)

MODIFIEDDATE DATE

G> VENDORJD (VENDORlD)

Ф VENDORJD (VENDORlD)

MTUUSER. PRODUCTS

P ' PRODUCTID NUMBER

NAME VARCHAR2 (255 BYTE)

PRODUCTNUMBER VARCHAR2 (255 BYTE)

MAKEFLAO NUMBER

FINISHED GOODS FLAG NUMBER

COLOR VARCHAR2 (265 BYTE)

SAF E T YS TOCKLEVEL NUMBER

REORDERPOINT NUMBER

STANDARDCOST NUMBER

USTPRICE NUMBER

PSIZE VARCHAR2 (255 BYTE)

SEEUNITMEASURECODE VARCHAR2 (255 BYTE)

WEIGHTUNITMEASURECODE VARCHAR2 (255 BYTE)

WEIGHT NUMBER

DAYSTOMANUFACTURE NUMBER

PRODUCTLINE VARCHAR2 (255 BYTE)

CLASS VARCHAR2 (255 BYTE)

STYLE VARGHAR2 (255 BYTE)

F - PRODUCTSUBCATEGORY!D NUMBER

F ' PRODUCT MODE LID NUMBER

SELLSTARTDATE DATE

SELLENDDATE DATE

DISCONTINUEDDATE DATE

MODIFIEDDATE DATE

a» PRODUCTJD (PRODUCTID)

Щ PRODUCTS.MODELPRODUCTS _FK (PRODUCTMODELID)

"g PRODUCTS_SUBCATEGORYS_FK (PRODUCTSUBCATEGOR

PRODUCTJD (PRODUCTID)

MTU U SER. P R ODU CTORDE R S

P ' ORDERID NUMBER

F 1 PRODUCTID NUMBER

ORDEROTY NUMBER

STOCKEDQTY NUMBER

SCRAPPEDOTY NUMBER

STARTDATE DATE

ENDDATE DATE

DUEDATE DATE

F 1 SCRAPREASOHID NUMBER

MODIFIEDDATE DATE

lia ORDERJD (ORDERID)

^PRODUCTORDERS_PRODUCTS_il

MTUUSER MODELPROOUCTS

P PRODUCTMODELID NUMBER

NAME VARCHAR2 (255 BYTE)

CATALOGDESCRIPTION VARCHAR2 (255 BYTE)

INSTRUCTIONS VARCHAR2(25S BYTE)

MODIFIEDDATE DATE

PRODUCTMODELJD (PRODUCTMODELID)

ч> PRODUCT MO DEL_ID (PRODUCTMODELID)

MTUUSER.SUBCATEGORYS

' PRODUCTSUBCATEGORYID NUMBER

PRODUCTCATiGORYID NUMBER

NAME VARCHAR2 (255 BYTE)

MODIFIEDDATE DATE

SUBCATEGORYS_PK (PRODUCTSUBCATEGORYID)

О SUBCATEGORYS_PK (PRODUCTSUBCATEGORYID)

MTUUSER.SCRAPREASONS

1 SCRAPREASOHID NUMBER NAME VARCHAR2 (255 BYTE)

MODIFIEDDATE DATE

J» SCRAP REASONJD (SCRAP REASONID)

SCRAP REASONJD (SCRAP REASONID)

Рис. 1. Реляционная модель данных

Таблица 2

Таблицы с наибольшим информационным содержанием

Таблицы модели Рис. 2. Оценка полного информационного содержания

Оценка полного информационного содержания по формуле (3), результаты расчетов приведены на рис. 2.

Из 72 признаков было сокращено 20 малозначимых. Время выполнения алгоритма для данного набора данных составило 12,594 секунды.

На следующем шаге строится график зависимости количества кластеров от раз-

мерности вектора кластеризации. Исходная таблица содержит 220 590 записей, количество признаков 38. В эксперименте было проведено 100 запусков алгоритма, размерность пространства кластеризации менялась от 38 до 1, результаты анализа времени выполнения алгоритма представлены на рис. 3.

Построенный алгоритмом график зави-

Рис. 3. Влияние размерности вектора кластеризации на время выполнения

Рис. 4. Зависимость количества кластеров от размерности вектора кластеризации

симости количества кластеров от размерности вектора кластеризации представлен на рис. 4, на графике видны горизонтальные участки, которые говорят о том, что признаки, находящиеся в данных интервалах, не влияют на информационное содержание и являются избыточными.

Очевидно, что часть признаков, находящихся в интервалах: [1-3], [11-15], [19-37] могут быть рекомендованы к удалению, т. к. это не повлечет за собой изменения информационной насыщенности экспериментальной модели.

На следующем шаге, после сокращения избыточных признаков, алгоритм K-means в процессе работы выявил 3 кластера (табл. 3). Общее количество обработанных записей 11 136, время работы алгоритма 11,922 секунд. Время работы алгоритма оценки индекса силуэта (Silhouette

Выявленные алгорит

index) составило 1,609 секунды. Чем ближе значение индекса оценки силуэта к 1, тем лучше данное решение распределяет объекты по кластерам, в данном случае индекс равен 0,85 и находится в интервале от 0,5 до 1, что является хорошим результатом разбиения: good separation quality: 0,85 > 0,5.

Заключение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В статье предложена методика выявления скрытых взаимосвязей в реляционных структурах, позволяющая проводить предпроцессинговую обработку данных и расширяющая возможности проведения визуального OLAP-анализа. Приведенная методика дает возможность итерационного сокращения незначащих и избыточных признаков модели, а также формирования дополнительного измерения OLAP-куба на основе методов неиерархической кла-

Таблица 3

ом K-means кластеры

Номер кластера Центройд Количество записей

1 132,9334289 9519

2 6519,789474 38

3 1015,815104 1579

стеризации.

В статье приведен алгоритм оценки информационного содержания реляционной модели данных. Рассмотрен неиерархический алгоритм кластеризации, базирующийся на идее использования расстояния Хэмминга, позволяющий использовать его в методах сокращения признакового пространства, а также в методах семплирова-ния данных. Рассмотрен метод итерационного сокращения избыточных признаков, основанный на зависимости количества кластеров от размеров пространства кла-

стеризации, который может находить применение в ряде практических задач сокращения признакового пространства. Также предложен метод, основанный на одной из модификаций алгоритма К-теаш, позволяющий сформировать новое измерение OLAP-куба, которое является дополнительным критерием при проведении анализа. Результаты анализа времени выполнения приведенных в статье алгоритмов говорят о возможности использования их в работе с промышленными объемами данных.

СПИСОК ЛИТЕРАТУРЫ

1. Sembiring R. W., Sembiring S., Zain J. M. An efficient dimensional reduction method for data clustering // Bulletin of Mathematics. 2018. Vol. 4. No. 01. Pp. 43-58.

2. Чумак О. В. Энтропии и фракталы в анализе данных. М.-Ижевск: НИЦ «Регулярная и хаотическая динамика», Институт компьютерных исследований. 2011.

3. Goudarzvand S. et al. Extracting Knowledge in Data Warehouses using Fuzzy AprioriTid // Rae. 2015. Vol. 1. No. 1. P. 1.

4. Chakravorty A. et al. A Distributed Gaussian-Means clustering algorithm for forecasting domestic energy usage // Smart Computing (SMARTCOMP), 2014 International Conference on. IEEE, 2014. Pp. 229-236.

5. Buda T. S., Murphy J., Kristiansen M. Towards realistic sampling: generating dependencies in a relational database. 2013.

6. Shlens J. A tutorial on principal component analysis // arXiv preprint arXiv:1404.1100. 2014.

7. Аджемов С. С., Терешонок М. В., Чиров Д. С. Снижение размерности признакового пространства в задачах идентификации излучающих объектов по данным радиомониторинга с использованием искусственных нейронных сетей // T-Comm-Телекоммуникации и Транспорт. 2008. № 6.

8. Янцен Д. Д., Цымблер М. Л. Алгоритм репрезентативного сэмплинга для параллельных реляционных систем баз данных // Научный сервис в сети Интернет: многообразие суперкомпьютерных миров. 2014. С. 32-40.

9. Бондарев А. Е., Галактионов В. А. Визуальный анализ кластерных структур в многомерных объемах данных // Научная визуализация. 2016. Т. 8. №. 3. С. 1-24.

10. Орлов А. И., Луценко Е. В. Методы снижения размерности пространства статистических данных // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета. 2016. № 119.

11. Мандель И. Д. Кластерный анализ. М. : Финансы и статистика, 1988.

12. Arthur D., Vassilvitskii S. k-means++: The advantages of careful seeding //Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics, 2007. Pp. 1027-1035.

13. Kaufman L., Rousseeuw P. J. Finding groups in data: an introduction to cluster analysis. John Wiley & Sons, 2009. Vol. 344.

14. Нейский И. М. Классификация и сравнение методов кластеризации // ББК 32.813 И 76 Составитель: Ю. Н. Филиппович. 2006. С. 130.

15. Jain A. K., Murty M. N., Flynn P. J. Data clustering: a review // ACM computing surveys (CSUR).

1999. Vol. 31. No. 3. Pp. 264-323.

16. Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. 2011. №. 4. С. 14-31.

REFERENCES

1. Sembiring R. W., Sembiring S., Zain J. M. An efficient dimensional reduction method for data clustering. Bulletin of Mathematics. 2018, vol. 4, no. 01, pp. 43-58.

2. Chumak O. V. Entropii I fraktaly v analize dannyh [Entropy and fractals in data analysis]. Moscow, Izhevsk, NITS «Regular and chaotic dynamics», Institut komp'yuternykh issledovanii, 2011.

3. Goudarzvand S. et al. Extracting Knowledge in Data Warehouses using Fuzzy AprioriTid. Rae, 2015, vol. 1, no. 1, pp. 1.

4. Chakravorty A. et al. A Distributed Gaussian-Means clustering algorithm for forecasting domestic energy usage. Smart Computing (SMARTCOMP), 2014 International Conference on. IEEE, 2014, pp. 229-236.

5. Buda T. S., Murphy J., Kristiansen M. Towards realistic sampling: generating dependencies in a relational database, 2013.

6. Shlens J. A tutorial on principal component analysis. arXiv preprint arXiv:1404.1100, 2014.

7. Adzhemov S. S., Tereshonok M. V., Chirov D. S. Snizhenie razmernosti priznakovogo prostranstva v zadachah identifikatsii izluchayushchih ob'ektov po dannym radiomonitoringa s ispol'zovaniem iskusstvennyh neironnyh setei [Reducing the dimension of the feature space in the problems of identification of emitting objects according to radio monitoring using artificial neural networks]. T-Comm-Telekommunikatsii i Transport, 2008, no. 6.

8. Jantsen, D. D., Tsymbler M. L. Algoritm reprezentativnogo sehmplinga dlya parallel'nyh relyatsionnyh sistem baz dannyh [Algorithm for representative sampling for parallel relational database systems]. Nauchnyi servis v seti Internet: mnogoobrazie superkomp'yuternyh mirov, 2014, pp. 32-40.

9. Bondarev A. E., Galaktionov V. A. Vizual'nyi analiz klasternyh struktur v mnogomernyh ob'emah dannyh [Visual analysis of cluster structures in multidimensional volumes of data]. Nauchnaya vizualizatsiya, 2016, vol. 8, no. 3, pp. 1-24.

10. Orlov A. I., Lutsenko E. V. Metody snizheniya razmernosti prostranstva statisticheskih dannyh [Methods of reducing the dimension of statistical data space]. Politematicheskii setevoi ehlektronnyi nauchnyi zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta, 2016, no. 119.

11. Mandel' I. D. Klasternyi analiz [Cluster analysis]. Moscow, Finansy i statistika, 1988.

12. Arthur D., Vassilvitskii S. k-means++: The advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics, 2007, pp. 1027-1035.

13. Kaufman L., Rousseeuw P. J. Finding groups in data: an introduction to cluster analysis. John Wiley & Sons, 2009, vol. 344.

14. Neiskii I. M. Klassifikatsiya i sravnenie metodov klasterizatsii [Classification and comparison of methods for clustering]. Contributor Yu. N. Filipovich. 2006, 130 p.

15. Jain A. K., Murty M. N., Flynn P. J. Data clustering: a review. ACM computing surveys (CSUR), 1999, vol. 31, no. 3, pp. 264-323.

16. Sivogolovko E. V. Metody otsenki kachestva chyotkoi klasterizatsii [Methods of evaluating crisp clustering]. Computer tools in education, 2011, no. 4, pp. 14-31.

Материал поступил в редакцию 20.04.2018 © Волович М. Е., Зизганов И. С., 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.