УДК 539.3+519.86
Модель многомерной деформируемой сплошной среды для прогнозирования динамики больших массивов индивидуальных данных
© Ю.И. Димитриенко, О.Ю. Димитриенко МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
На основе разработанной авторами ранее модели многомерных сплошных сред в пространствах высокой размерности (более трех) предложена концепция применения этой модели для одной из главных задач, возникающих в теории обработки больших массивов данных — прогнозирования динамики изменения кластеров данных. Модель многомерных сплошных сред в пространствах высокой размерности включает в себя интегральные законы сохранения, которые сформулированы для кластеров информационных данных, а также модель кинематики движения и деформации кластеров. Разработана модель деформируемого многомерного кластера, движение которого в многомерном пространстве данных включает в себя поступательное, вращательное движение и однородную деформацию растяжения-сжатия. Сформулирована система дифференциальных тензорных уравнений, описывающих движение деформируемого многомерного кластера во времени. Разработан численный алгоритм решения этой системы дифференциальных уравнений для эллипсоидальной модели многомерного кластера. Рассмотрен пример применения разработанной модели для прогнозирования динамики экономических данных — данных о покупках товаров в крупном супермаркете. Приведены результаты прогнозирования данных о покупках различных групп покупателей.
Ключевые слова: многомерные сплошные среды, большие массивы данных, многомерное пространство признаков, лагранжевы координаты, деформируемый кластер, законы сохранения, кластер данных, прогнозирование, динамика изменения данных, тензор вращения кластера.
Введение. Прогнозирование изменения больших массивов данных является актуальной задачей во многих областях, в которых используются большие объемы информации: микро- и макроэкономике, финансовой сфере, социологии, интернет-технологиях, образовании и др. Кроме статистических методов обработки данных [1], традиционно применяемых для анализа больших массивов данных, в последнее время особую актуальность приобретают методы интеллектуального анализа данных, основанные на различных моделях внутренних закономерностей и моделях динамики их изменения [2-11]. В работах [12-17] предложен принципиально новый подход к построению таких моделей анализа динамически изменяющихся данных, основанный на кластеризации данных в специальном многомерном пространстве, переходе к их континуальному описанию и использовании законов со-
хранения для многомерных континуумов — аналогов законов сохранения массы, импульса и момента импульса в классической механике. Обобщение законов механики сплошных сред (МСС) на многомерный случай высоких размерностей (более трех) также предложено в работе [12]. В работах [13-15] приведена частная модель многомерной сплошной среды — модель жесткого кластера, основанная на гипотезе о многомерной сплошной среде (твердом теле), у которой расстояния между точками не изменяются в процессе движения. Результаты применения этой модели для прогнозирования динамики движения кластеров в многомерном пространстве экономических данных показали эффективность разработанного нового направления.
В работе [16] предложена концепция дальнейшего развития теории построения моделей многомерной МСС применительно к задачам моделирования экономических процессов. Сформулированы основные гипотезы модели деформируемых кластеров в многомерных пространствах.
Целью настоящей работы является развитие теории многомерных сплошных сред применительно к задачам прогнозирования динамики больших массивов информационных данных, включая специальные типы динамически изменяющихся экономических данных.
Многомерное пространство признаков и подвижный массив индивидуальных данных. Пусть имеется множество I индивидуумов р1, г = 1, ...,I, число I которых достаточно велико, например, I = = 106. Для каждого момента времени г., где г. > 0, у = 1, ..., 7, для каждого индивидуума р1 имеется строка однородных данных
у1®)'...' УУ)' где у(у)ем, г=1..., I, у=1..., ^ к=1,..., п где п —
число типов данных — признаков, характеризующих рассматривае-
к
мые данные. Введем массив накопительных данных х^к = ^ У. и
к '=1
образуем многомерное точечно-евклидово пространство признаков Еп, элементами которого являются строки (векторы) накопительных
данных х1, ..., хп. Тогда каждому индивидууму р1 в любой момент времени г. в пространстве Еп соответствует точка данных
Х(у) = {х(гу)...х(Пу)}. Набор точек данных х(.), соответствующих одному индивидууму рг, но для разных моментов времени г., образует след траектории перемещения индивидуума рг в пространстве признаков Еп . Множество точек х(.), соответствующих всем индивидуумам рг из I для одного и того же фиксированного момента времени г у, образует некоторый массив индивидуальных данных Я (г.).
При изменении времени tj массив индивидуальных данных Я (tj) может перемещаться в пространстве Еп .
Поскольку массив индивидуальных данных Я (tj) содержит большое число точек х (^, ему можно поставить в соответствие модель — континуальное, распределенное множество точек х(^), представляющих собой непрерывную область V (tj) в пространстве Еп, которую
будем называть кластером индивидуальных данных. В этом континуальном множестве (кластере) точки х (j), соответствующие разным
индивидуумам, будем перечислять с помощью лагранжевых координат Хк е Vx. Эти координаты для всех моментов времени сохраняются неизменными для каждого индивидуума как в МСС [18, 19]:
Х( j) = Х (Х>С' tj ^ Х ^ С Еп.
Таким образом, для любого г > 0 введено векторное поле инди-
к г
видуальных данных х = х ек в пространстве Еп, которое подчиняется закону движения х = х(Хк, г), где хк — по аналогии с МСС назовем декартовыми (эйлеровыми) координатами индивидуума, ек — векторы базиса в пространстве Еп.
Законы сохранения для кластеров данных в многомерном пространстве признаков. Основополагающая аксиома развиваемой теории динамики индивидуальных данных заключается в том, что близкие в начальный момент г = 0 точки индивидуальных данных х = х(Хг, 0), выделенные в момент г = 0 лагранжевыми координатами и движущиеся в пространстве признаков Еп при г > 0 по определенным траекториям, взаимодействуют между собой так, что их движение подчиняется некоторым коллективным закономерностям и они остаются близкими и для всякого г > 0. По аналогии с трехмерной МСС для континуальной многомерной модели индивидуальных данных — кластера V(t) — положим справедливыми законы сохранения числа индивидуумов в кластере, изменения скорости индивидуальных данных в кластере и изменения момента скорости индивидуальных данных в кластере:
й ¡р^ = 0; (1)
=г; (2)
d [рх X vdV = п"2 Д. (3)
ЛJ
Здесь р = Лт / ЛУ — плотность кластера, представляющая собой отношение числа Лт индивидуумов в элементарном объеме ЛУ дан-
б дх(Х, t)
ных к этому объему ЛУ; V =--вектор скорости изменения
дt
данных индивидуума; М = [ рЛУ — число индивидуумов в кластере;
У
V = [ рvdУ — вектор скорости изменения данных в кластере;
У
п~2 т = [рх х vdУ — тензор момента скорости изменения индивиду-
У
альных данных в кластере.
Запишем суммарный вектор внешних воздействий и тензор моментов внешних воздействий на кластер:
$ = [ р$тЛУ + [ 1 еЛЕ; п"2 Д = [ рх X $тЛУ + [ х х 1Е Л Е,
У Е У Е
где — вектор плотности внешних массовых воздействий на кластер; ^ — вектор поверхностных воздействий на кластер. Все основные элементы пространства Еп, в том числе векторное произведение а1 ха2 = (а2 ®а!)• пэ; тензорное произведение а2 ®а! и скалярное произведение векторов а2 • а!, введены в работах [12, 13], где пэ = в^ п е1 ®...®е'п — тензор Леви-Чивиты, в^ п — п-мерные символы Леви-Чивиты [12, 13]. Под внешними воздействиями будем понимать такие воздействия, которые обусловлены причинами, не связанными непосредственно с индивидуумами.
Модель деформируемого кластера. Введем модель деформируемого кластера, закон движения х = х(Хк, ?) которого представляет собой суперпозицию трех видов движения: поступательного движения центра масс кластера, мгновенно-вращательного движения всего кластера как жесткого целого вокруг центра масс и растяжения-сжатия кластера по некоторым главным осям 0'ру, т. е.
х = х0 + 8 • О • х'. (4)
Тензор ортогональный поворота О, радиус-вектор х' рассматриваемой точки в лагранжевом описании и радиус-вектор мгновенного центра поворота кластера х соответственно имеют вид
Q = Q (Oe ® ej; Х = ХЦ; xo = (t)e,. (5)
Тензор растяжения S принимаем симметричным, положительно определенным, для него существует вещественнозначный собственный базис py, в котором этот тензор имеет диагональный вид:
S = Sjej ® e, = ]TSypу® pу, (6)
у=1
где S- — симметричная матрица деформаций кластера; Sy — вещественные положительные собственные значения тензора S.
Будем полагать, что единственной причиной изменения расстояний между точками кластера (т. е. деформации кластера) является изменяющееся соотношение между некоторой скалярной функцией, называемой внутренней энергией кластера e и ее начальным значением eo.
Поэтому собственные значения Sy аксиоматически принимаются заданными в виде функций Sy = Sy (e - e0), в простейшем случае принимаем, что эта зависимость является линейной:
Sy= 1 + Ay (e - eo), (7)
где Ay — константы.
Примем также, что главные оси O'py тензора растяжения S по отношению к главным осям инерции кластера O'ey являются неподвижными, и базисы p y и ey связаны ортогональным тензором
G = Gjв, ® ej, компоненты которого Gj не зависят от времени:
p y (t) = G • ey(t) = Gy Ъ (t), Gj = const. (8)
Во введенном деформируемом кластере деформация осуществляется без приложения внешних сил, только за счет изменения внутренней энергии e. Из общих теорем дифференциальной геометрии
следует [18-20], что изменение объема кластера определяется произ-
o
ведением коэффициентов Sy : V/ V = S1 ,..., Sn.
Вектор скорости деформируемого кластера. Дифференцируя
... dx
(4) по t, получаем выражение для вектора скорости: v = — =
dt
= х о (/) + (8 • О) • х'. Введем скорость движения центра вращения кластера v0 = х 0 и относительный радиус-вектор х = х - х0, тогда эту формулу можно записать в виде
V = V 0 + (8 • О) • (8 • О)-1 • х.
—1 т
С учетом ортогональности тензора поворота О = О получаем итоговую формулу
V = V 0 + х • XV, (9)
которая описывает распределение скорости в деформируемом кластере и заменяет п-мерную обобщенную формулу Эйлера [18-20]. В (10) введен новый тензор
= 8—1 • X • 8 + 8—1 • 8, (10)
который не является кососимметричным, а X = О • (От — кососим-метричный тензор вращения кластера.
Вычислим производную от тензора 8 (6) с учетом (8) и формулы
е' = — х • е:
8^ода® е+£ ^ еда® е^ еда® е =
у=1 у=1 7=1
= £ 5,070/ е ' ® е - х • 8+8 • х.
7=1
Вычисляем далее
8-1 • 8=£ ^(—10|к0р е ® е •£ вдо/е ® е' - 8-1 • х • 8+х= (=1 7=1
= £ ^0рк0(е ® е; - 8-1 • х • 8 + х.
7=1
(11)
(12)
Первое слагаемое во второй строке (12) представляет собой производную Яуманна от логарифмического тензора растяжения
1п 8 = £ 1п р 7 ® р 7 = £ 1п 57 оке ек ® е;; (13)
7=1 7=1
п
1п 83 = £^(1п ^о$а!к ®е = ¿^ад^е; ®ц, (14)
7=1 М 7=1
поскольку матрица 07{ не зависит от t. Подставляя (13) и (14) в (12), получаем
8-1 • 8 = 1п 83 - 8-1 • W • 8 + W. (15)
После подстановки (15) в (10) приходим к следующему результату:
= W + 1п 83. (16)
Уравнения движения деформируемого кластера в неподвижном базисе. Подвижную систему отсчета О'Ц выбираем таким образом, чтобы центр вращения — точка Хо — совпадала с центром масс кластера, тогда JpХdV = 0 и средняя скорость кла-
V
стера совпадает с у0:
V = М jpvdV = М-1 (руо +рХ • \У) dV = Уо. (17)
V V
Подставляя формулы (16) и (9) в интеграл |рх х уdV, получаем
V
выражение для тензора момента скорости изменения данных деформируемого кластера:
п-2т = |рххуdV = Мх0 хУ0 + (WГ •Х)-пэ + (1п83 •Х)--пэ, (18)
V
где Х = | рХ ® ХdV — тензор моментов инерции кластера. Из (18)
V
следует, что тензор моментов изменения данных для деформируемого кластера по сравнению с жестким кластером [13-15] включает в себя дополнительный момент (1п83 • Х)••пэ за счет деформирования кластера в процессе движения.
Подставляя (17) и (18) в (2) и (3), получаем систему уравнений движения деформируемого кластера:
= г; (19)
dt
—х,
-0 = (20)
ш
—^т • I) ••п э +—(1п 83 • I) ••п э = п-2 Д . (21)
—
Дополнив (19-21) начальными условиями
0 0 , р. п-2 — п-2 — /'ооч
х0 = х0; у0 = у0; . = 0: т = т0. (22)
получим задачу Коши, описывающую поступательное движение центра тяжести кластера и вращение кластера относительно центра тяжести с учетом его деформирования.
Уравнения вращения деформируемого кластера в подвижном
базисе. Дифференцируя произведения тензоров Wт • I и 1п 83 • I, согласно правилу дифференцирования [18-20] тензоров в подвижном базисе ё
— ^т • I) = Wт3 • I - W • Wт • I + Wт • I • W; (23)
— (1п 83 • I) = 1п 833 • I - W • 1п 83 • I + 1п 83 • I • W, (24)
—.
где двукратная производная Яуманна
п — 2 п —21п £
1п833 =£-у(1п)Ц ®ё} ТТ^ЧЧ'ё ®е, (25)
и учитывая, что (Wт • I • W) ••пэ = 0, после подстановки (23) и (24) в (21) получаем следующее уравнение:
(Wт3 •I- W• Wт •I)-пэ + (1п833 •I)--пэ--(W• 1п83 • I- 1п83 • I• W)••пэ = п-2Д.
(26)
Умножив левую и правую части уравнения (26) (п - 2)-кратным скалярным умножением на тензор Леви-Чивиты п э способом, приведенным в работе [13], получим окончательный вид уравнения, описывающего вращение деформируемого кластера в подвижном базисе:
I • WJ + WJ • I = W2 • I -1 • W2 + WS • W - W • WS + MS + M. (27)
Здесь кососимметричные тензоры имеют вид
WS = I • ln SJ - ln SJ • I; MS = I • ln S77 - ln S77 • I; (28)
M = ( jp(X ® fm - fm ® x)dV + j(X ® ts -1s ® X)dZ), (29)
где 1п 833 — вторая производная Яуманна. Для частного случая, когда отсутствуют деформации кластера, тензоры Ws и Д5 равны нулю (поскольку 8 = Е — единичный тензор), и (27) точно совпадает с уравнением вращения жесткого кластера [13-15].
В компонентах в базисе е7 систему уравнений (19), (20) и (27 )
можно записать следующим образом (с учетом диагональности матрицы инерции в подвижном базисе /а = /а8'а):
»✓ dv0i . М—= £; dt '
dx0i
= v0i ;
dW'аР = ^ 7Р 'ОкШфк
dt
n
^W 'akW,pk +
где
dt 4+ Jp к=1 —\— (w ,akw S- w^w ,kp+^Sap+),
1 a + ^P
+ QkWk = 0, a,P = 1...n,
dt
n d2ln S.
(30)
(31)
А3ар= (/а- /р ^;
7=1 dt
п d 1п V
жа*=(/а-/р °7чр.
7=1 т
Начальные условия к системе уравнений (30) имеют вид
0 0 t = 0: % = Х0; % = ^; & = О*; Ж= Ж. (32)
Здесь , W'/ — компоненты тензоров ДS = Д1JS e ' ® ej и
Ws = WS ® ej.
Сравнивая системы уравнений (30) для деформируемого и жесткого кластеров [13-15], заключаем, что движение этих кластеров принципиально отличается за счет наличия в системе уравнений вращения кластера (30) линейных по W' ak слагаемых и свободного члена ДSaP, который отличен от нуля даже при отсутствии внешних
воздействий на кластер. Уравнения (30) обобщают хорошо известные в механике уравнения вращения абсолютно твердых трехмерных тел [21] на случай многомерных сред высокой размерности с учетом их деформирования.
Модель внешних сил. Для плотности внешних массовых воздействий fm в работе [17] предложена потоковая модель, согласно которой
fm = df, hs = h0 (1 + Aeq), A = Aoexp (-|i|2 / xr2); tz = 0. (33)
Здесь h0s0 — вектор стабильного процесса накопления данных; A0, q — константы, характеризующие изменение потока накопления
данных вследствие внешних воздействий на кластер; xr — константа, характеризующая неравномерность распределения внутренней энергии e в кластере (предполагается, что это распределение изменяется по нормальному закону). В стабильном процессе e = const и hs = const, поэтому fm = 0.
Вычислительные алгоритмы. Основное предназначение разработанной модели — прогнозирование динамики кластеров данных во времени. В качестве исходных данных при этом задается положение кластера в некоторый начальный момент времени. Алгоритм кластеризации описан в работе [13], для аппроксимации данных применяет-
' х ^2
v ^ у
= 1 [13, 14, 22] в ла-
ся модель многомерного эллипсоида £
а=1
гранжевых координатах, где Яа — полуоси эллипсоида, которые находят путем решения задачи минимизации объема кластера с ограничениями на вхождение в эллипсоид 95 % точек.
Векторы базиса (0) = (0)ег- в начальный момент определяют
путем построения матрицы инерции Г' = | рх'Х'-У по экспериментальным точкам и нахождения ее собственных векторов.
Для вычисления многомерных интегралов применяли четыре метода, описанные в работе [13]: п-мерных шаров, равного веса точек, нормального распределения, локальных групп.
Численное решение задачи Коши (30), (32) осуществлялось на основе пошагового разностного метода вместе с процедурой линеаризации на временных шагах и использованием неявной разностной схемы для уравнений вращения:
Ж'аР - Ж'аР ( п ^
(/а+ /рр -1 =(/а- /р) X +ж;арж;_рр
^к=1, к*р ^
(34)
+ X ж;а1кщкр+ Е ж^Ж^+Ж^Ж^ -Ж'^Ж'^ ар+дар,
к=1,кк=1, к^а
где Ж'а = Ж 'ар ) — значения функций в узлах разностной сетки.
Применение разработанной модели для прогнозирования динамики массовых продаж. В качестве примера применения разработанной модели рассмотрим задачу о прогнозировании динамики массовых продаж в крупном магазине. Тогда в качестве координат х выберем суммарное число i-го товара, а в качестве индивидуумов рассмотрим отдельных покупателей. Внутренняя энергия е в данном случае представляет собой финансовый запас кластера покупателей. В числовом конкретном примере пространство признаков Еп считалось пятимерным. Для модели рынка массовых продаж, рассмотренной в работе [13], внутренними связями между покупателями, обусловливающими их коллективное поведение, являются определенные стереотипы экономического поведения покупателей из одних социальных групп, а также наличие возможности обмена информацией о покупаемых товарах. Тогда покупатели, близкие в некоторый момент t = 0 в пространстве признаков Еп, остаются близкими и в другие моменты времени. Разработанная модель деформируемого кластера была применена для анализа экспериментальных данных, рассмотренных в работе [13], по продажам автомобилей через интернет-магазин в течение 30 месяцев. В качестве осей координат X пространства признаков Еп введены суммарные значения купленных или планируемых к покупке автомобилей пяти ценовых классов, поэтому размерность п пространства товаров Еп равнялась 5. Данные анализировались через три месяца в моменты времени tm, т = 1, ..., 11. Моменты времени t5
и t7 были идентифицированы как первая и вторая волна финансового кризиса, который выражался в изменении экономического запаса е покупателей согласно модели (31).
С помощью предложенного в работе [13] алгоритма кластеризации данных в пространстве En для фиксированного момента времени t было введено несколько кластеров данных. Для модели деформируемого кластера в отличие от жесткого кластера необходимо задать значения констант A в (7), характеризующих изменение размеров
эллипсоида в зависимости от изменения финансового запаса покупателей. Для этой цели были использованы экспериментальные данные по покупкам еще для одного момента времени t5, а динамика изменения финансового запаса кластера e(t) - e0 была принята совпадающей с динамикой индекса DAX, отражающего изменение финансового состояния покупателей, в том числе в области автомобильных продаж.
Результаты исследования движения центра масс кластеров (функций x0i (t)) показали линейный характер движения по всем
осям товаров X в пространстве E5 (рис. 1) при отсутствии внешних
сил. Наличие внешних воздействий (кризисных явлений) приводит к изменению углов наклона линейной траектории движения кластеров. Модель (30) хорошо прогнозирует движение центра масс кластера как при отсутствии внешних воздействий, так и при их наличии.
Рис. 1. Движение центра масс кластера покупателей х0г (V) во времени V:
1-5 — г равно 1, 2, 3, 4, 5 соответственно
На рис. 2 показано движение деформируемого кластера на плоскости (х3, х4) для нескольких моментов времени. Крестиком обозначены точки, не попадающие внутрь аппроксимирующего эллипсоида. Видно, что происходит достаточно существенное изменение длин полуосей кластера (деформация) в процессе его движения.
Динамика вращения кластера, представленная значениями независимых компонентов матрицы поворота О/ (V), рассчитанных по уравнениям (30), приведена на рис. 3, где введены следующие обозначения: О12 = 01, О13 = О2, О14 = 03, О15 = О4, О" = О5, О24 = 06, О25 = 07, О34 = 08, О35 = 09, О45 = О10 . Установлено, что изменение
0 2 4 6 8 10 t, мес
Рис. 2. Движение деформируемого кластера покупателей в форме «-мерного эллипсоида (показано положение кластера в плоскости
/3 4\
(х , х ) для моментов времени ¿2, ¿5 и tU)
¿
0,2 0 -0,2 -0,4 -0,6 -0,8 -1,0
gzz^g----В"—-g—Ъ-
□----□----
Д----д----
----о-----□
*-*-*-*-*-#-*-*-Ж-*
8 9
10 мес
Рис. 3. Вращательное движение кластера покупателей (изменение независимых компонентов
матрицы поворота Q■ (^), рассчитанных по модели деформируемого кластера с использованием метода «-мерных шаров):
1-10 — а равно 1-10 соответственно
компонентов матрицы поворота 0/ (/) происходит практически по
линейному закону.
Графики изменения длин полуосей пятимерного эллипсоида, построенного по модели деформируемого кластера покупателей приведены на рис. 4. Здесь же для сравнения показаны графики изменения длин полуосей эмпирического эллипсоида, который строится в каждый момент времени как наилучшая аппроксимация экспериментальных данных о покупках в данный момент времени, без учета модели деформируемого кластера. Результаты сравнения показывают, что модель деформируемого кластера в целом достаточно хорошо предсказывает изменение геометрической формы и положения кластера покупателей во времени.
На рис. 5 приведены зависимости количества попадающих точек (%) в деформируемый пятимерный эллипсоид при разных моментах
х 1
6
5
4
3
2
1
О
9 10 мес
Рис. 4. Изменение длин полуосей пятимерного эллипсоида, построенного по модели деформируемого кластера (сплошные линии), в сравнении с длинами полуосей эмпирического эллипсоида (штриховые):
1-5 — I равно 1-5 соответственно (аналогично и для экспериментальных зависимостей)
Рис. 5. Изменение точности модели деформируемого кластера покупателей в зависимости от времени совершения покупок:
1, 3 — и-мерные шары; 2, 4 — нормальное распределение
времени совершения покупок и разных способах аппроксимации начальных данных — матрицы поворота эллипсоида QгJ (0) и матрицы
инерции эллипсоида I. (0). Сплошные линии — результаты прогноза,
полученные по модели деформируемого кластера, штриховые — с помощью аппроксимации экспериментальных данных эллипсоидом для каждого момента времени без решения системы уравнений (28). Кластер 1 с большим число точек показывает большее расхождение в точности методов аппроксимации, однако само абсолютное значение точности модели для кластера 1 выше. Для кластера 1 максимальная точность составляет 88,55 % при использовании метода жесткого кластера в последней контрольной точке. Для кластера 2 максимальная точность равна 82 %. Резкие скачки точности модели видны в контрольных точках, в которых отмечается уменьшение длин полуосей эллипсоида — тогда при фиксированном объеме в эллипсоид попадает больше точек. Такую закономерность можно наблюдать в точке t5 для обоих кластеров. Следует также отметить, что точность модели деформируемого кластера выше точности, получаемой по модели жестких кластеров (98 % и 72 % соответственно). Однако модель жесткого кластера требует меньшего количества предварительной информации: не нужно вводить в модель данные о влиянии финансового запаса покупателей на изменение числа покупок. В тех случаях, когда такая информация недоступна, модель жестких кластеров может оказаться предпочтительной. Для более точного прогнозирования динамики
данных может быть рекомендована разработанная модель деформируемых кластеров.
Выводы. Разработана модель многомерных деформируемых сплошных сред в пространствах высокой размерности (более трех) и концепция ее применения для задач прогнозирования динамики больших массивов индивидуальных данных. Модель сведена к системе дифференциальных уравнений в пространстве высокой размерности. Уравнения получены путем применения методов механики многомерных сплошных сред для движения кластеров индивидуальных данных, которые совершают поступательное, вращательное и деформационное движение с предписанным видом деформации растяжением-сжатием по главным осям. Предложены численные алгоритмы решения систем нелинейных дифференциальных уравнений в этой модели. Представлен пример анализа и прогнозирования экспериментальных данных рынка продаж; показано, что разработанная модель деформируемых многомерных эллипсоидов позволяет достаточно хорошо описывать динамику движения кластеров во всем рассматриваемом диапазоне времени, включая этапы воздействия экономических кризисных явлений на покупательский рынок. Модель обладает достаточно высокой точностью прогнозирования динамики данных (до 98 %), что превышает точность предложенной ранее модели недеформируемых жестких кластеров, однако для ее применения необходима дополнительная информация о динамике финансового запаса покупателей.
ЛИТЕРАТУРА
[1] Шипунов А.Б., Балдин Е.М., Bолкова П.А., Коробейников А.И., Назарова С.А., Петров CB., Суфиянов B.r. Наглядная статистика. Используем R! Москва, ДМК Пресс, 2O14, 298 с.
[2] Демин И.С. Кластеризация как инструмент интеллектуального анализа данных. Ч. 1: Новые информационные технологии в образовании, Москва, 1 С-Паблишинг, 2011, с. 98-103.
[3] Демин И.С. Кластеризация равномерно распределенных множеств методами нейронных сетей. Модели экономических систем и информационные технологии. Москва, Финансовая академия, 2007, с. 34-38.
[4] Орешков B^. Интеллектуальный анализ данных как важнейший инструмент формирования интеллектуального капитала организаций. Креативная экономика, 2011, № 12, с. 84-89.
[5] Журавлев Ю.И., Рязанов B.B., Сенько O.B. Распознавание. Математические методы. Программная система. Практические применения. Москва, Изд-во Фазис, 200б, 17б с.
[6] Айвазян С.А., Бухштабер BM., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности. Москва, Финансы и статистика, 1989, б07 с.
[7] Барсегян А.А., Куприянов М.С., Степаненко B.B., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. Санкт-Петербург, БХБ-Петербург, 2004, с. 33б.
[8] Han J., Kamber M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001, 744 с.
[9] Konar A. Artificial intelligence and soft computing: behavioral and cognitive modeling of the human brain. Florida, CRC Press LLC, Boca Raton, 2000, 784 с.
[10]Mitra S., Acharya T. Data Mining. Multimedia, Soft Computing and Bioinfor-matics. John Wiley & Sons, Inc., Hoboken, New Jersey, 2003, 40l с.
[11] Димитриенко О.Ю. Сравнительный анализ современных информационных систем обработки данных для задач маркетинга. Информационные технологии, 2007, № 11, с. 74-80.
[12] Димитриенко Ю.И., Димитриенко О.Ю. Обобщение законов механики сплошных сред на многомерный случай. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки, 2010, № 3, с. 56-71.
[13] Димитриенко Ю.И., Димитриенко О.Ю. Кластерно-континуальное моделирование экономических процессов. Доклады Академии наук, 2010, т. 435, № 4, с. 466-469.
[14] Димитриенко Ю.И., Димитриенко О.Ю. Кластерно-континуальное моделирование в экономике на основе методов механики многомерных сплошных сред. Информационные технологии, 2010, № 8, с. 54-62.
[15] Dimitrienko Yu.I., Dimitrienko O.Y. Cluster-Continuum Modeling of Economic processes. DokladyMathematics, 2010, vol. 82, no. 3, pp. 982-985.
[16] Димитриенко Ю.И., Димитриенко О.Ю. Модель деформируемых кластеров для анализа динамики экономических данных. Доклады Академии наук, 2011, т. 440, № 2, с. 168-171.
[17] Димитриенко Ю.И., Димитриенко О.Ю. Кластерно-континуальное моделирование динамики кластеров экономических данных в условиях внешних кризисных воздействий. Информационные технологии, 2012, № 1, с. 55-61.
[18] Димитриенко Ю.И. Нелинейная механика сплошной среды. Москва, Физ-матлит, 2009, 624 с.
[19] Димитриенко Ю.И. Механика сплошной среды. В 4 т. Т. 1: Тензорный анализ. Москва, Изд-во МГТУ им. Н.Э. Баумана, 2011, 367 с.
[20] Димитриенко Ю.И. Тензорное исчисление. Москва, Высшая школа, 2001, 575 с.
[21] Жилейкин М.М., Сарач Е.Б. Математическая модель движения многоосной колесной машины с податливой на кручение несущей системой. Математическое моделирование и численные методы, 2015, № 3, с. 17-40.
[22] Зиновьев А.Ю. Визуализация многомерных данных. Красноярск: Изд-во Красноярского государственного технического университета, 2000, 180 с.
Статья поступила в редакцию 15.12.2015
Ссылку на эту статью просим оформлять следующим образом:
Димитриенко Ю.И., Димитриенко О.Ю. Модель многомерной деформируемой сплошной среды для прогнозирования динамики больших массивов индивидуальных данных. Математическое моделирование и численные методы, 2016, № 1 (9), с. 105-122.
Димитриенко Юрий Иванович родился в 1962 г., окончил МГУ им. М.В. Ломоносова. Д-р физ.-мат. наук, профессор, зав. кафедрой «Вычислительная математика и математическая физика» МГТУ им. Н.Э. Баумана, директор Научно-образовательного центра «Суперкомпьютерное инженерное моделирование и разработка программных комплексов» МГТУ им. Н.Э. Баумана. e-mail: [email protected]
Димитриенко Ольга Юрьевна родилась в 1985 г., окончила Российский экономический университет им. Г.В. Плеханова. Канд. физ.-мат. наук, старший научный сотрудник Научно-образовательного центра «Суперкомпьютерное инженерное моделирование и разработка программных комплексов» МГТУ им. Н. Э. Баумана. e-mail: [email protected]
A model of multidimensional deformable continuum for forecasting the dynamics of large scale array of individual data
© Yu.I. Dimitrienko, O.Yu. Dimitrienko
Bauman Moscow State Technical University, Moscow, 105005, Russia
The article considers the concept of applying the multidimensional continuum model to one of the main problems emerging in the theory of large scale data array treatment i.e. forecasting the dynamics of data cluster change. The concept is based on the model of multidimensional continua in spaces of high dimensionality (more than three) earlier developed by the authors. The model includes the integral conservation laws, which are reformulated for informational data clusters, as well as the model of motion kinematics and cluster deformation. The model of deformable multidimensional cluster is developed. The movement of the cluster in multidimensional data space includes translational and rotational motion and uniform tension-compression strain. The system of differential tensor equations describing the dynamics of the deformable multivariate cluster motion over time is formulated. A numerical algorithm for solving the system of differential equations for the ellipsoidal model of multidimensional cluster is worked out. An example of the developed model application for predicting the dynamics of economic data (data on goods purchases in a large supermarket) is considered. The results of forecasting the data on purchases of different consumer groups are shown.
Keywords: multidimensional continua, large scale data array, multidimensional space of features, Lagrangean coordinates, deformable cluster, conservation laws for data cluster, forecasting the dynamics of data change, cluster rotation tensor.
REFERENCES
[1] Shipunov A.B., Baldin E.M., Volkova P.A., Korobeinikov A.I., Nazarova S.A., Petrov S.V., Sufiyanov V.G. Naglyadnaya statistika. Ispolzuem R! [Visual Statistics. Use R!]. DMK Press Publ., 2014, 298 p. ISBN 978-5-94074-828-1.
[2] Demin I.S. Klasterizatsiya kak instrument intellektualnogo analiza dannykh [Clustering as a Tool of Intellectual Data Analysis]. Novye informatsionnye tekhnologii v obrazovanii, Chast 1 [New Information Technologies in Education. Part 1], Moscow, 1S-Publishing, 2011, pp. 98-103.
[3] Demin I. S. Klasterizatsiya ravnomerno raspredelennykh mnozhestv metodami neyronnykh setey [Clustering Uniformly Distributed Sets by Methods of Neural Networks]. Modeli ekonomicheskikh sistem i informatsionnye tekhnologii [Models of Economic Systems and Information Technology], Moscow, Fi-nansovaya akademiya Publ., 2007, pp. 34-38.
[4] Oreshkov V.I. Kreativnaya ekonomika — Creative Economics, 2011, no. 12, pp. 84-89.
[5] Zhuravlev Yu.I., Ryazanov V.V., Senko O.V. Raspoznavanie. Matematichaskie metody. Programmnaya sistema. Prakticheskie primenenia [Recognition. Mathematical Methods. Software system. Practical Applications]. Moscow, "Phazis" Publ., 2006, 176 p. ISBN 5-7036-0108-8.
[6] Aivazyan S.A., Bukhshtaber V.M., Enukov I.S., Meshalkin L.D. Prikladnaya statistika. Klassifikatsiya i snizhenie razmernosti [Applied Statistics. Classification and Dimension Reduction]. Moscow, Finansy i statistika Publ., 1989.
[7] Barsegyan A.A., Kupriyanov M.S., Stepanenko V.V., Kholod I.I. Metody i modeli analiza dannykh: OLAP and Data Mining [Methods and Models of Data Analysis: OLAP and Data Mining]. St. Petersburg, BKhV-Peterburg Publ., 2004.
[8] Han J., Kamber M. Data mining: Concepts and Techniques. Morgan Kaufmann Publ., 2001.
[9] Konar A. Artificial intelligence and soft computing: behavioral and cognitive modeling of the human brain. Boca Raton, Florida, CRC Press LLC Publ., 2000.
[10] Mitra S., Acharya T. Data Mining. Multimedia, Soft Computing, and Bioinfor-matics. Hoboken, New Jersey, John Wiley & Sons Inc. Publ., 2003.
[11] Dimitrienko O.Yu. Informatsionnye Tekhnologii — Information Technologies, 2007, no. 11, pp. 74-80.
[12]Dimitrienko Yu.I., Dimitrienko O.Yu. Vestnic MGTU im. N.E. Baumana. Seria Estestvennye nauki — Herald of the Bauman Moscow State Technical University. Series: Natural Sciences, 2010, no. 3, pp. 56-71.
[13]Dimitrienko Yu.I., Dimitrienko O.Yu. Doklady Akademii Nauk — Doklady Mathematics, 2010, vol. 435, no. 4, pp. 466-469.
[14]Dimitrienko Yu.I., Dimitrienko O.Yu. Informatsionnye Tekhnologii — Information Technologies, 2010, no. 8, pp. 54-62.
[15]Dimitrienko Yu.I., Dimitrienko O.Yu. Doklady Mathematics, 2010, vol. 82, no. 3, pp. 982-985.
[16]Dimitrienko Yu.I., Dimitrienko O.Yu. Doklady Akademii Nauk — Doklady Mathematics, 2011, vol. 440, no. 2, pp. 168-171.
[17]Dimitrienko Yu.I., Dimitrienko O.Yu. Informatsionnye Tekhnologii — Information Technologies, 2012, no. 1, рр. 55-61.
[18] Dimitrienko Yu.I. Nelineinaya mekhanika sploshnoi sredy [Nonlinear Continuum Mechanics]. Moscow, Fizmatlit Publ., 2009, 624 p.
[19] Dimitrienko Yu.I. Mekhanika sploshnoi sredy. V 4 tomakh. Tom 1. Tenzornyi analiz [Continuum mechanics. In 4 vols. Vol. 1. Tensor analysis]. Moscow, BMSTU Publ., 2011, 367 p.
[20]Dimitrienko Yu.I. Tenzornoe ischislenie [Tensor Calculus]. Moscow, Vysshaya shkola Publ., 2001, 575 p.
[21]Zhileikin M.M., Sarach E.B. Matematicheskoe modelirovanie i chislennye menody — Mathematical Modeling and Computational Methods, 2015, no. 3, pp. 17-40.
[22] Zinovyev A.Yu. Vizualizatsia mnogomernykh dannykh [Visualization of Multidimensional Data]. Krasnoyarsk, Krasnoyarsk State Technical University Publ., 2000, 180 p.
Dimitrienko Yu.I. (b. 1962) graduated from Lomonosov Moscow State University in 1984. Dr. Sci. (Phys & Math.), Professor, Head of the Computational Mathematics and Mathematical Physics Department, Director of Scientific-Educational Center of Supercomputer Engineering Modeling and Program Software Development, Bauman Moscow State Technical University. Member of the Russian Academy of Engineering Science. Author of over 300 publications in the field of computational mechanics, gasdynamics, thermomechanics of composite materials, mathematical simulations in material science. e-mail: [email protected]
Dimitrienko O.Yu. (b. 1985) graduated from Plekhanov Russian University of Economics in 2007. Cand. Sci. (Eng.), Senior Researcher, of Scientific-Educational Center of Supercomputer Engineering Modeling and Program Software Development, Bauman Moscow State Technical University. Author of 10 publications in the field of computational economics. e-mail: [email protected]