116
НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ
- повышение комфорта общественного транспорта за счет ускорения его движения (это будет стимулировать отказ от личного транспорта в пользу общественного для основных регулярных поездок);
- использование экологически безопасных средств передвижения в пределах города;
- модернизация подвижного состава;
- внедрение более удобных систем оплаты проезда;
- анализ городских потоков с учетом строительства новых жилых комплексов;
- внедрение современных надземных видов общественного транспорта (например, монорельсовых дорог);
- использование приречных территорий для совершенствования транспортной инфраструктуры города;
- создание современных многоуровневых транспортных развязок, транспортно-пересадочных узлов (ТПУ) с «перехватывающими» парковками и торговыми площадями. Проектирование многоуровневых ТПУ позволит обеспечить комфортную, быструю и безопасную пересадку пассажиров с одного вида транспорта на другой.
Список литературы:
1. Общественная палата Самарской области. Транспортные коллапсы крупных мегаполисов Самарской области: проблемы и решения. Аналитическая справка по результатам исследования. СГОО «Исследовательская группа «Свободное мнение». - Самара, Тольятти. Август-октябрь 2014. - 40 с.
2. Шр://новостройки63.рф.
3. https ://yandex.ru/company/researches/2015/samara/jams.
4. Презентация. Повышение качества транспортного продукта для жителей Самарской области. Заместитель начальника Куйбышевской железной дороги - филиала ОАО «РЖД» Блохин С.Г Сентябрь 2014 г. - Самара - 16 с.
АГРЕГАЦИЯ И РЕГРЕССИОННЫЙ ПОДХОД К ЧИСЛЕННОМУ МОДЕЛИРОВАНИЮ БОЛЬШИХ ДАННЫХ
© Овечкина О.О.*
Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск
В статье рассматриваются вопросы обработки, представления и численного моделирования данных больших объемов. Для построения
Магистрант.
Технические науки
117
процедур агрегации применяется гистограммный подход. На основе агрегированных данных рассматриваются вопросы численного моделирования для выявления зависимостей между входными и выходными характеристиками. Анализируется ряд подходов к построению гистограммных регрессионных моделей с использованием различных метрик в пространстве гистограмм.
Ключевые слова: большие данные, агрегация, гистограммная регрессия, численный вероятностный анализ.
С развитием информационных технологий все чаще и чаще возникает проблема обработки данных больших. Это связано с тем, что существующие методы обработки и анализа данных неспособны справиться с их разнообразием и объемами. Актуальность хранения, обработки и анализа данных больших объемов с целью извлечений знаний становится актуальной задачей, требующих как больших вычислительных мощностей, так и новых методов анализа данных. Феномену взрывного роста объёмов информации и многообразию обрабатываемых данных и связанных с ним технологических перспектив в парадигме вероятного скачка «от количества к качеству» посвящен в 2008 году был посвящен специальный выпуск журнала Nature под редакцией Клиффорда Линча. Считается, что именно с этого момента понятие «большие данные» стало использоваться специалистами и исследователями в сфере информационных технологий. В настоящее время понятие «большие данные» рассматривается с трех точек зрения - увеличения объемов информации, роста скорости обмена данными и состава информационного разнообразия [4, 5, 6].
Одним из способов справляться с большими данными является процедура агрегирования, которая представляет собой обработку первоначальных данных для последующего их анализа с целью сжатия информации с сохранением ее внутренних свойств. Агрегация может рассматриваться как процесс преобразования данных с высокой степенью детализации к более обобщенному их представлению за счет вычисления так называемых агрегатов -значений, получаемых в результате применения данного преобразования к некоторому набору фактов, связанных с определенным измерением [6].
В качестве примера агрегаций могут служить следующие типичные ситуации: первая если измеряется, например, температура по некоторой области, как обычно бывает при зондировании Земли из Космоса. При этом в каждый момент времени измерения получается N значений температуры. Обычно в этих случаях используют среднее значение или интервал изменения. Понятно, что при этом значительная часть информации теряется. Агрегирование информации по пространственному признаку с помощью гистограмм позволяет более точно представить измеренную информацию. Такая агрегация называется - распределенной агрегацией [5, 6].
Второй способ агрегации называется «временной» и возникает, когда переменная наблюдается, например, раз в секунду или в минуту, но должна
118
НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ
быть проанализирована на более низкой частоте, скажем за день. В этом случае, использование средних значений или интервального анализа, приводят к потере информации.
Эти две ситуации описывают распределенную и временную агрегации, соответственно. В каждом из этих случаев представление данных в виде плотностей вероятности, является более информативным представлением, чем другие способы.
Отметим, что процедуры агрегации имеют как положительные, так и отрицательные свойства. Положительным свойством агрегации является то, что детализированные данные часто оказываются очень изменчивыми из-за воздействия различных случайных факторов, что затрудняет обнаружение общих тенденций и закономерностей исследуемого процесса, а именно обнаружение закономерностей и тенденций составляет одну из основных задач моделирования и анализа данных. Важным является, то, что применение таких процедур агрегирования, как усреднение, может привести к потере важной и значительной части информации об объекте исследования.
Заметим, что численные процедуры над агрегатами требуют применения новых методов и подходов как в моделировании, так и последующем анализе его результатов. В статье рассматривается гистограммный подход к обработке, численному моделированию и анализу больших объемов данных, который представляет собой раздел численного вероятностного анализа [1, 2, 7].
Суть данного подхода состоит в том, что гистограмму можно рассмотреть как математический объект, который удобен для описания и вычисления математических процедур и операций. Простая и гибкая структура гистограмм существенно упрощает их использование в численных расчетах и имеет наглядный визуальный образ. Гистограмма представляет собой кусочно-постоянную функцию, заданную сеткой, на каждом отрезке которой гистограмма принимает постоянное значение. В рамках Численного вероятностного анализа (ЧВА) [7] разработана гистограммная арифметика, которая позволяет выполнять различные арифметические операции над гистограммными переменными. На основе численного вероятностного анализа предлагается концептуально гистограммный подход, который применяется для разработки процедур агрегирования информационных потоков, а так же для численного моделирования и представления характеристик природных объектов [4].
Гистограммный подход может успешно применяться в численном моделировании, например, в регрессионном анализе, где входными и выходными переменными являются уже агрегаты как результат гистограммного представления экспериментальных данных. Такой подход на стадии подготовки данных к моделированию позволяет провести предварительный анализ данных с целью их «сжатия», извлечения полезной информации и ори-
Технические науки
119
ентировать вычислительный процесс на оптимизацию численных процедур, необходимых для построения регрессионных моделей. В силу специфики гистограмм, для численного моделирования гистограммных регрессионных зависимостей в работе [6] используются специальные подходы к количественной оценке расстояний между гистограммами. С этой целью предлагается использовать несколько метрик, которые можно применить в регрессионном моделировании гистограммных зависимостей. Например, предлагается гистограммный аналог метрики EMD, где EMD - известное компьютерное расстояние, которое используется для того, чтобы измерить несходства между гистограммами текстуры и цвета. EMD между двумя гистограммами - наименьшее количество объема работы, чтобы был преобразовать одну гистограмму в другую:
Pw (f , g) = £ IF-1 (t) - G l (t) Idt,
Pm (f, g) = (£ (F-1 (t) - G- (t))2 dt )v 2,
где Fl(t), G~l(t) - обратные функции к функции распределения.
Для вычисления функциональных зависимостей над гистограммными переменными применяются методы, разработанные в рамках ЧВА. В основе данных процедур используются понятия вероятностного и гистограммного расширений.
Сформулируем задачу гистограммной регрессии следующим образом.
Пусть входные данные X = (x1, ..., xn) и целевая переменная Y являются гистограммными переменными, для вектораX = (x1, ..., xn) известна совместная функция плотности вероятности p(x1, ..., xn). Аналогично классической параметрической регрессии для каждой пары (X, Y) можно записать
Y = f (X,, a) + Si, i = 1,..., N, или в случае линейной модели
n
Yi = ao +Z ajxij +si, i = 1,..., N.
j=i
Таким образом, для нахождения неизвестных параметров a0, a1 можно записать задачу оптимизации
N n
Ф(а) = 'LpVi, a+Z ajXji)2 ^ min,
i=1 j=1
где p - некоторая метрика в пространстве гистограмм. Заметим, что в силу нелинейности операции сложения гистограммных переменных, для решения задачи (1) можно использовать, например, метод наискорейшего спуска.
, ., an (1)
120
НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ
Список литературы:
1. Добронец Б.С., Попова О.А. Элементы численного вероятностного анализа // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. - 2012. - № 2 (42). - С. 19-23.
2. Добронец Б.С., Попова О.А. Численный вероятностный анализ неопределенных данных: монография / Сибирский федеральный университет, Институт космический и информационных технологий. - Красноярск, 2014. -167 с.
3. Добронец Б.С., Попова О.А. Представление и обработка неопределенности на основе гистограммных функций распределения и P-Boxes // Информатизация и связь. - 2014. - № 2. - С. 23-26.
4. Добронец Б.С., Попова О.А. Гистограммный подход к представлению и обработке данных космического и наземного мониторинга // Известия ЮФУ Технические науки. - 2014. - № 6 (155). - С. 14-22.
5. Попова О.А. Гистограммный информационно - аналитический подход к представлению и прогнозированию временных рядов // Информатизация и связь. - 2014. - № 2. - С. 43-47.
6. Попова О.А. Численный вероятностный анализ для агрегации, регрессионного моделирования и анализа данных // Информатизация и связь. -2015. - № 1. - С. 15-21.
7. Dobronets B.S., Krantsevich A.M., Krantsevich N.M. Software implementation of numerical operations on random variables // Журнал Сибирского федерального университета. Серия: Математика и физика. - 2013. - Т. 6, № 2. -С. 168-173.
ПРЕДСТАВЛЕНИЕ МНОГОМЕРНЫХ ДАННЫХ ДЛЯ ВИМ-ТЕХНОЛОГИЙ
© Погорелый Е.С.*
Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск
В статье дается анализ способов представления многомерных данных и рассматривается их роль в визуально-интерактивном моделировании.
Ключевые слова многомерные данные, визуально-интерактивное моделирование, принятие решений.
Принятие решений является одной из сложных и ответственных составляющих человеческой деятельности. Многообразие целей, сложность задач, ограничения и неопределенность требуют компьютерной поддержки про-
Магистрант I курса.