Научная статья на тему 'Агрегация и регрессионный подход к численному моделированию больших данных'

Агрегация и регрессионный подход к численному моделированию больших данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
215
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / АГРЕГАЦИЯ / ГИСТОГРАММНАЯ РЕГРЕССИЯ / ЧИСЛЕННЫЙ ВЕРОЯТНОСТНЫЙ АНАЛИЗ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Овечкина О.О.

В статье рассматриваются вопросы обработки, представления и численного моделирования данных больших объемов. Для построения процедур агрегации применяется гистограммный подход. На основе агрегированных данных рассматриваются вопросы численного моделирования для выявления зависимостей между входными и выходными характеристиками. Анализируется ряд подходов к построению гистограммных регрессионных моделей с использованием различных метрик в пространстве гистограмм.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Агрегация и регрессионный подход к численному моделированию больших данных»

116

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

- повышение комфорта общественного транспорта за счет ускорения его движения (это будет стимулировать отказ от личного транспорта в пользу общественного для основных регулярных поездок);

- использование экологически безопасных средств передвижения в пределах города;

- модернизация подвижного состава;

- внедрение более удобных систем оплаты проезда;

- анализ городских потоков с учетом строительства новых жилых комплексов;

- внедрение современных надземных видов общественного транспорта (например, монорельсовых дорог);

- использование приречных территорий для совершенствования транспортной инфраструктуры города;

- создание современных многоуровневых транспортных развязок, транспортно-пересадочных узлов (ТПУ) с «перехватывающими» парковками и торговыми площадями. Проектирование многоуровневых ТПУ позволит обеспечить комфортную, быструю и безопасную пересадку пассажиров с одного вида транспорта на другой.

Список литературы:

1. Общественная палата Самарской области. Транспортные коллапсы крупных мегаполисов Самарской области: проблемы и решения. Аналитическая справка по результатам исследования. СГОО «Исследовательская группа «Свободное мнение». - Самара, Тольятти. Август-октябрь 2014. - 40 с.

2. Шр://новостройки63.рф.

3. https ://yandex.ru/company/researches/2015/samara/jams.

4. Презентация. Повышение качества транспортного продукта для жителей Самарской области. Заместитель начальника Куйбышевской железной дороги - филиала ОАО «РЖД» Блохин С.Г Сентябрь 2014 г. - Самара - 16 с.

АГРЕГАЦИЯ И РЕГРЕССИОННЫЙ ПОДХОД К ЧИСЛЕННОМУ МОДЕЛИРОВАНИЮ БОЛЬШИХ ДАННЫХ

© Овечкина О.О.*

Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск

В статье рассматриваются вопросы обработки, представления и численного моделирования данных больших объемов. Для построения

Магистрант.

Технические науки

117

процедур агрегации применяется гистограммный подход. На основе агрегированных данных рассматриваются вопросы численного моделирования для выявления зависимостей между входными и выходными характеристиками. Анализируется ряд подходов к построению гистограммных регрессионных моделей с использованием различных метрик в пространстве гистограмм.

Ключевые слова: большие данные, агрегация, гистограммная регрессия, численный вероятностный анализ.

С развитием информационных технологий все чаще и чаще возникает проблема обработки данных больших. Это связано с тем, что существующие методы обработки и анализа данных неспособны справиться с их разнообразием и объемами. Актуальность хранения, обработки и анализа данных больших объемов с целью извлечений знаний становится актуальной задачей, требующих как больших вычислительных мощностей, так и новых методов анализа данных. Феномену взрывного роста объёмов информации и многообразию обрабатываемых данных и связанных с ним технологических перспектив в парадигме вероятного скачка «от количества к качеству» посвящен в 2008 году был посвящен специальный выпуск журнала Nature под редакцией Клиффорда Линча. Считается, что именно с этого момента понятие «большие данные» стало использоваться специалистами и исследователями в сфере информационных технологий. В настоящее время понятие «большие данные» рассматривается с трех точек зрения - увеличения объемов информации, роста скорости обмена данными и состава информационного разнообразия [4, 5, 6].

Одним из способов справляться с большими данными является процедура агрегирования, которая представляет собой обработку первоначальных данных для последующего их анализа с целью сжатия информации с сохранением ее внутренних свойств. Агрегация может рассматриваться как процесс преобразования данных с высокой степенью детализации к более обобщенному их представлению за счет вычисления так называемых агрегатов -значений, получаемых в результате применения данного преобразования к некоторому набору фактов, связанных с определенным измерением [6].

В качестве примера агрегаций могут служить следующие типичные ситуации: первая если измеряется, например, температура по некоторой области, как обычно бывает при зондировании Земли из Космоса. При этом в каждый момент времени измерения получается N значений температуры. Обычно в этих случаях используют среднее значение или интервал изменения. Понятно, что при этом значительная часть информации теряется. Агрегирование информации по пространственному признаку с помощью гистограмм позволяет более точно представить измеренную информацию. Такая агрегация называется - распределенной агрегацией [5, 6].

Второй способ агрегации называется «временной» и возникает, когда переменная наблюдается, например, раз в секунду или в минуту, но должна

118

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

быть проанализирована на более низкой частоте, скажем за день. В этом случае, использование средних значений или интервального анализа, приводят к потере информации.

Эти две ситуации описывают распределенную и временную агрегации, соответственно. В каждом из этих случаев представление данных в виде плотностей вероятности, является более информативным представлением, чем другие способы.

Отметим, что процедуры агрегации имеют как положительные, так и отрицательные свойства. Положительным свойством агрегации является то, что детализированные данные часто оказываются очень изменчивыми из-за воздействия различных случайных факторов, что затрудняет обнаружение общих тенденций и закономерностей исследуемого процесса, а именно обнаружение закономерностей и тенденций составляет одну из основных задач моделирования и анализа данных. Важным является, то, что применение таких процедур агрегирования, как усреднение, может привести к потере важной и значительной части информации об объекте исследования.

Заметим, что численные процедуры над агрегатами требуют применения новых методов и подходов как в моделировании, так и последующем анализе его результатов. В статье рассматривается гистограммный подход к обработке, численному моделированию и анализу больших объемов данных, который представляет собой раздел численного вероятностного анализа [1, 2, 7].

Суть данного подхода состоит в том, что гистограмму можно рассмотреть как математический объект, который удобен для описания и вычисления математических процедур и операций. Простая и гибкая структура гистограмм существенно упрощает их использование в численных расчетах и имеет наглядный визуальный образ. Гистограмма представляет собой кусочно-постоянную функцию, заданную сеткой, на каждом отрезке которой гистограмма принимает постоянное значение. В рамках Численного вероятностного анализа (ЧВА) [7] разработана гистограммная арифметика, которая позволяет выполнять различные арифметические операции над гистограммными переменными. На основе численного вероятностного анализа предлагается концептуально гистограммный подход, который применяется для разработки процедур агрегирования информационных потоков, а так же для численного моделирования и представления характеристик природных объектов [4].

Гистограммный подход может успешно применяться в численном моделировании, например, в регрессионном анализе, где входными и выходными переменными являются уже агрегаты как результат гистограммного представления экспериментальных данных. Такой подход на стадии подготовки данных к моделированию позволяет провести предварительный анализ данных с целью их «сжатия», извлечения полезной информации и ори-

Технические науки

119

ентировать вычислительный процесс на оптимизацию численных процедур, необходимых для построения регрессионных моделей. В силу специфики гистограмм, для численного моделирования гистограммных регрессионных зависимостей в работе [6] используются специальные подходы к количественной оценке расстояний между гистограммами. С этой целью предлагается использовать несколько метрик, которые можно применить в регрессионном моделировании гистограммных зависимостей. Например, предлагается гистограммный аналог метрики EMD, где EMD - известное компьютерное расстояние, которое используется для того, чтобы измерить несходства между гистограммами текстуры и цвета. EMD между двумя гистограммами - наименьшее количество объема работы, чтобы был преобразовать одну гистограмму в другую:

Pw (f , g) = £ IF-1 (t) - G l (t) Idt,

Pm (f, g) = (£ (F-1 (t) - G- (t))2 dt )v 2,

где Fl(t), G~l(t) - обратные функции к функции распределения.

Для вычисления функциональных зависимостей над гистограммными переменными применяются методы, разработанные в рамках ЧВА. В основе данных процедур используются понятия вероятностного и гистограммного расширений.

Сформулируем задачу гистограммной регрессии следующим образом.

Пусть входные данные X = (x1, ..., xn) и целевая переменная Y являются гистограммными переменными, для вектораX = (x1, ..., xn) известна совместная функция плотности вероятности p(x1, ..., xn). Аналогично классической параметрической регрессии для каждой пары (X, Y) можно записать

Y = f (X,, a) + Si, i = 1,..., N, или в случае линейной модели

n

Yi = ao +Z ajxij +si, i = 1,..., N.

j=i

Таким образом, для нахождения неизвестных параметров a0, a1 можно записать задачу оптимизации

N n

Ф(а) = 'LpVi, a+Z ajXji)2 ^ min,

i=1 j=1

где p - некоторая метрика в пространстве гистограмм. Заметим, что в силу нелинейности операции сложения гистограммных переменных, для решения задачи (1) можно использовать, например, метод наискорейшего спуска.

, ., an (1)

120

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

Список литературы:

1. Добронец Б.С., Попова О.А. Элементы численного вероятностного анализа // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. - 2012. - № 2 (42). - С. 19-23.

2. Добронец Б.С., Попова О.А. Численный вероятностный анализ неопределенных данных: монография / Сибирский федеральный университет, Институт космический и информационных технологий. - Красноярск, 2014. -167 с.

3. Добронец Б.С., Попова О.А. Представление и обработка неопределенности на основе гистограммных функций распределения и P-Boxes // Информатизация и связь. - 2014. - № 2. - С. 23-26.

4. Добронец Б.С., Попова О.А. Гистограммный подход к представлению и обработке данных космического и наземного мониторинга // Известия ЮФУ Технические науки. - 2014. - № 6 (155). - С. 14-22.

5. Попова О.А. Гистограммный информационно - аналитический подход к представлению и прогнозированию временных рядов // Информатизация и связь. - 2014. - № 2. - С. 43-47.

6. Попова О.А. Численный вероятностный анализ для агрегации, регрессионного моделирования и анализа данных // Информатизация и связь. -2015. - № 1. - С. 15-21.

7. Dobronets B.S., Krantsevich A.M., Krantsevich N.M. Software implementation of numerical operations on random variables // Журнал Сибирского федерального университета. Серия: Математика и физика. - 2013. - Т. 6, № 2. -С. 168-173.

ПРЕДСТАВЛЕНИЕ МНОГОМЕРНЫХ ДАННЫХ ДЛЯ ВИМ-ТЕХНОЛОГИЙ

© Погорелый Е.С.*

Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск

В статье дается анализ способов представления многомерных данных и рассматривается их роль в визуально-интерактивном моделировании.

Ключевые слова многомерные данные, визуально-интерактивное моделирование, принятие решений.

Принятие решений является одной из сложных и ответственных составляющих человеческой деятельности. Многообразие целей, сложность задач, ограничения и неопределенность требуют компьютерной поддержки про-

Магистрант I курса.

i Надоели баннеры? Вы всегда можете отключить рекламу.