Научная статья на тему 'Big data, кластерный анализ и оптимизация в системном анализе'

Big data, кластерный анализ и оптимизация в системном анализе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
416
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BIG DATA / КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER ANALYSIS / СИСТЕМНЫЙ АНАЛИЗ / SYSTEM ANALYSIS / МЕТОД СААТИ / METHOD OF SAATY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Филипчик Егор Федорович, Перскевич Денис Тадеушевич, Герман Олег Витольдович

В данной работе нами предложена техника оптимизации для некоторого диапазона практических задач большой размерности. Идея этого подхода состоит в том, чтобы выполнять расчеты на эталонных представителях кластеров, на которые разбиваются входные экземпляры, а не на индивидуальных многомерных объектах. Число кластеров мы делаем как можно большим, но удовлетворяющим некоторым априорным ограничениям. Эта идея позволяет снять ограничения на размерность решаемых задач, например, в EXCEL (Поиск решения).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Филипчик Егор Федорович, Перскевич Денис Тадеушевич, Герман Олег Витольдович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Big data, кластерный анализ и оптимизация в системном анализе»

Литература

1. Международная организация гражданской авиации (ИКАО): Состояние безопасности полетов в мире. © ИКАО, 2013. Опубликовано в Монреале, Канада, Международная организация гражданской авиации. 999. University Street, Montreal. Quebec, Canada.

2. Международная организация гражданской авиации (ИКАО) Doc 10004, 2014-2016: Глобальный план обеспечения безопасности полетов. Номер заказа: 10004. ISBN 978-92-9249-379-0. © ИКАО, 2014. Опубликовано в Монреале, Канада, Международная организация гражданской авиации. 999. University Street. Montreal. Quebec. Canada. H3C 5H7.

3. Воплощение «Мечты». [Электронный ресурс]. Режим доступа: testpilot.ru/russia/antonov/225/mria_2.htm/ (дата обращения: 25.12.2016).

4. Международная организация гражданской авиации (ИКАО) Doc 9859-AN / 474: Руководство по управлению безопасностью полетов (РУБП) / утв. Ген. секретарем и опубликовано с его санкции. З-е изд. Канада. Монреаль: ИКАО. 2013. ISBN 978-92-9249-334-9.

5. Международная организация гражданской авиации (ИКАО) Doc 9824-AN / 450: Основные принципы учета человеческого фактора в руководстве по техническому обслуживанию воздушных судов. ИКАО, 2010. ISBN 978-92-9231-696-9.

BIG DATA, CLUSTER ANALYSIS AND OPTIMIZATION IN SYSTEM

ANALYSIS Filipchik E.1, Perskevich D.2, German O.3 BIG DATA, КЛАСТЕРНЫЙ АНАЛИЗ И ОПТИМИЗАЦИЯ В СИСТЕМНОМ

АНАЛИЗЕ

Филипчик Е. Ф.1, Перскевич Д. Т.2, Герман О. В.3

'Филипчик Егор Федорович /Filipchik Egor — магистрант; 2Перскевич Денис Тадеушевич / Perskevich Denis — магистрант, кафедра информационных технологий автоматизированных систем, направление: системный анализ, управление и обработка информации; 3Герман Олег Витольдович / German Oleg — кандидат технических наук, доцент, Белорусский государственный университет информатики и радиоэлектроники, г. Минск, Республика Беларусь

Аннотация: в данной работе нами предложена техника оптимизации для некоторого диапазона практических задач большой размерности. Идея этого подхода состоит в том, чтобы выполнять расчеты на эталонных представителях кластеров, на которые разбиваются входные экземпляры, а не на индивидуальных многомерных объектах. Число кластеров мы делаем как можно большим, но удовлетворяющим некоторым априорным ограничениям. Эта идея позволяет снять ограничения на размерность решаемых задач, например, в EXCEL (Поискрешения).

Abstract: in this paper, we proposed the optimization technique for a range of practical large scale problems. The idea of this approach is to perform calculations on the reference representatives of the clusters, which split the input instances, and not on the individual multidimensional objects. The number of clusters we make as large as possible, but satisfy some a priori constraints. This idea allows to remove restrictions on the dimensions of tasks, for example, in EXCEL (solver).

Ключевые слова: BIG DATA, кластерный анализ, системный анализ, метод Саати. Keywords: BIG DATA, cluster analysis, system analysis, method of Saaty.

ВВЕДЕНИЕ.

Обработка больших массивов данных в задачах оптимизации может быть сопряжена с весьма большими трудностями. Например, задача линейного программирования с десятками и сотнями тысяч неравенств может даже не быть формализована в таких широко используемых пакетах как EXCEL PROBLEM SOLVER. Вместе с тем, для практических целей вполне можно использовать не оптимальное, но близкое к нему решение. Будем рассматривать следующую задачу в качестве иллюстрации. Пусть дана обучающая таблица очень большого размера вида

№ X1 X2 X3 Xm Y

1 xii xi2 xi3 xim Yi

2 x21 x22 x23 x2m Yr

3 x31 x32 x33 x3m Y3

4 x4i x42 x43 x4m Y4

N xni XN2 xn3 xNm Yn

Здесь X1, X2, ..., Xm - критерии (факторы, атрибуты) входных многомерных объектов; Y -выходной (результирующий) признак. Для ясности, пусть значение Y > 0 соответствует классу А, а везде, где Y < 0 объект не относится к классу А. Для удобства пусть первые t строк таблицы соответствуют объектам класса А, а остальные строки t+1, ...,N соответствуют другим классам, отличным от А. Задача формулируется так:

L = ,pi-(ai)2+p2-(a2)2+.. .+pm'(am)2 ^ max a1 • x11 + a2 x12 .... + am • x1m > 0 a1 • x21 + a2 x22 ... + am • x2m > 0

at • xt1 + a2 xt2 ..+ am • xtm > 0 - ai • xt+ll - a2' xt+12 .. - am • xt+1m > - s -a1 • xN1 - a2' xN2 .. - am • xNm > - s

s > 0. (1)

Обсудим эту систему. Здесь pb p2, ..., pm - приоритета: критериев. Приоритет тем выше, чем больше значение неизвестного коэффициента по модулю. Действительно, коэффициенты, вносящие незначительный вклад, должны иметь малый приоритет. Для выбора приоритетов критериев мы используем метод Т. Саати, как определено далее в этой работе.

Если целевую функцию вообще исключить, то, как нетрудно видеть, задача сводится к отысканию коэффициентов линейного распознавателя с m входами. Очевидно, что даже в этом случае система может не иметь решения. Таким образом, два обстоятельства не позволяют в общем случае применить «стандартную» технику решения:

■ число ограничений очень велико;

■ система неравенств несовместна.

Описываемый здесь подход к решению заключается в том, чтобы разбить исходное множество многомерных объектов на кластеры следующим образом:

■ в кластер попадают похожие объекты;

■ число кластеров максимально возможно, но обеспечивает отыскание решения.

Последовательно рассмотрим реализацию нашего плана [3].

РАЗБИЕНИЕ НА КЛАСТЕРЫ.

Техника разбиения на кластеры достаточно богата [1-3]. Можно использовать любой известный метод из отмеченных. Нам нужно разбиение на заданное число кластеров K > 1. Начинаем с K=2. Этот случай как раз соответствует исходной таблице. Поэтому два кластера мы гарантированно имеем. Находим типичных (эталонных) представителей в каждом кластере. Получаем упрощенную систему:

L = Pf(ai)2+P2-(a2)2+.. .+pm-(am)2^ max

ai • xb + ar X2э .... + am • Xmэ > 0

ai • Л - a2 угэ .... - am • Лэ > -s s > 0 (2)

Здесь класс А представлен эталоном (x1:3 x^ ,...., xm).

Далее переходим к трем кластерам: K=3. Для этого класс с наибольшим разбросом (внутриклассовой дисперсией) разбиваем на два подкласса и снова решаем задачу оптимизации. Если задача имеет решение, то продолжаем разбиение классов по аналогии: всегда делим класс с наибольшей внутриклассовой дисперсией на два кластера. Каждый из полученных кластеров представляется объектом-эталоном (т.е. эталон получается как объект с усредненными значениями признаков (критериев) в пределах класса). Этот процесс дихотомического деления ведем до тех пор пока выполняются два условия:

■ число кластеров максимально возможно, но обеспечивает отыскание решения;

■ эталонные представители кластеров отличаются не менее, чем на заданное пороговое значение.

Данное требование означает, что нет смысла дробить кластеры на подкластеры с близкими значениями эталонных представителей. Выбор порогового значения можно из практических соображений определить на уровне 10-15% [1].

ВЫБОР ПРИОРИТЕТОВ КРИТЕРИЕВ.

Критерии имеют тем больший приоритет, чем больше они коррелируют с выходным признаком. Таким образом, приоритеты критериев оцениваются как коэффициенты корреляции рху. Вместе с тем, коэффициенты корреляции могут иметь отрицательные значения. Поэтому мы несколько изменим технику, введя в рассмотрение матрицу критериев Саати вида [2].

Таблица 2. Матрица критериев Саати

Х1 Х2 Хт

XI 1 abs(рl,у/р2,у) abs(рl,у/рm,у)

Х2 abs(р2,у/рl,у) 1

Хт abs(рm,у/рl,у) abs(рm,у/р2,у) 1

Отношения аЬ8(рм, у/ри у) приводятся к метрической шкале Т. Саати.

ИСПОЛЬЗОВАНИЕ ПОЛУЧЕННОГО РЕШЕНИЯ.

Для произвольного объекта ..., гт) определяем, к какому кластеру он наиболее близок. Затем

используя формулу

«1 • 71 + а2 72 ... + ат • 2т = У, (3)

находим значение выходной величины, соответствующей этому объекту.

ПРИМЕР.

Нас будет интересовать процесс расхода топлива и постановка прогноза, когда при данном графике расхода запасы топлива полностью иссякнут. Существует большое количество методов прогнозирования, но с помощью этих методов возможно контролировать процесс лишь по прошедшему периоду без учёта факторов, влияющих на формирование прогноза.

Таблица 3. Обучающая таблица

Дневной расход (х1) Запас на складе (х2) Дисперсия (х3) Ожидаемый срок выработки (х4) Реальный срок выработки У

2 100 2 50 58

3 120 2 40 48

3 30 1,5 10 11

4 200 3 50 45

4 120 2 30 32

4 40 1 10 10

2 50 2 25 40

4 20 2 5 8

Пусть текущая ситуация характеризуется следующими данными:

Дневной расход - 3;

Запас на складе - 45;

Дисперсия - 2.

Ожидаемый срок выработки - 15.

Требуется получить оценку реального срока выработки ресурса. Заметим, что ожидаемый срок выработки вычисляется как запас на складе деленный на величину дневного расхода. В реальных вычислениях таблица может содержать тысячи и более строк. Согласно нашей концепции, разобьем записи на два кластера (сначала). В первый кластер попадут записи с реальным сроком выработки, превосходящим ожидаемый срок выработки на 5 и более дней. Пусть этот кластер будет А0. В кластер В0 попадут записи, где реальный срок отклоняется от ожидаемого не более, чем на 5 дней. Для расчетов ограничимся усеченной таблицей:

дневной расход (x1) Дисперсия (x2) ожидаемый срок выработки (x3) реальный срок выработки Y

2 2 50 58

3 2 40 48

3 1,5 10 11

4 3 50 45

4 2 30 32

4 1 10 10

2 2 25 40

4 2 5 8

Составляем систему

L = a12+a22+a32 ^ max ai • xb + ar Х2э + a3 • х3э > 0 -ai • У1э - a? У2э - a3 • > -0.01 (4) Координаты эталонных объектов для кластеров А0 и B0 находим как средние значения в соответствующих разрядах. В нашем случае имеем:

L = a12+a22+a32 ^ max a1 • 2.75 + a2- 2.25 + a3 • 47.25 > 0 -a1 • 3.75 - a2- 7.67 - a3 • 73.75 > -0.01 (5) Находим решение (ограничив значение L=100): a1 = -5.9; a2= 8.0; a3 = 0.78. Подставляя исходные данные, найдем -5.9*3+2*8+15*0.78=10>0.

Вывод: для исходных данных задачи реальный срок превзойдет ожидаемый более чем на 5 дней. Чтобы получить более точную оценку, нужно найти запись, где реальный срок превзошел ожидаемый не менее чем на пять дней, причем такую, которая «наиболее точно» соответствует исходным данным.

В таблице подходящей записью будет: 2, 50, 2, 25. Реальный срок выработки ресурса может составить порядка 40 дней.

Ясно, что в этом примере мы ограничились только двумя кластерами. Можно было бы продолжить «дробление» кластеров по схеме, описанной в этой статье. ЗАКЛЮЧЕНИЕ

Нами предложена техника оптимизации для некоторого диапазона практических задач большой размерности. Идея подхода состоит в том, чтобы выполнять расчеты на эталонных представителях кластеров, на которые разбиваются входные экземпляры, а не на индивидуальных многомерных объектах. Число кластеров мы делаем как можно большим, но удовлетворяющим некоторым априорным ограничениям. Эта идея позволяет снять ограничения на размерность решаемых задач, например, в EXCEL (Поиск решения).

Литература

1. Динг C., Хе X. K-средства кластеризации с помощью анализа главных компонентов: Труды двадцать первой Международной конференции по вопросам машинного обучения, 2004. С. 1-9.

2. Маккуин Ж. Б. Некоторые методы классификации и анализа многомерных наблюдений: Труды симпозиума по Беркли математической статистике и теории вероятности, 1967. С. 281-297.

3. Эстер M., Кригель H. P., Сандер J., Виммер M., Ксю X. Инкременатальная кластеризация для добывания полезных ископаемых в среде хранилищ данных: Труды Международной конференции по очень большим базам данных, 1998. С. 323-333.

i Надоели баннеры? Вы всегда можете отключить рекламу.