Научная статья на тему 'ОБРАБОТКА БОЛЬШИХ МАССИВОВ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АНАЛИТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ'

ОБРАБОТКА БОЛЬШИХ МАССИВОВ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АНАЛИТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
79
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / АНАЛИТИЧЕСКИЕ МЕТОДЫ / ПАРАЛЛЕЛЬНАЯ ОБРАБОТКА / РЕПРЕЗЕНТАТИВНАЯ ВЫБОРКА / КОМБИНИРОВАНИЕ МОДЕЛЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лазченко В.Р.

В статье рассматривается назначение «больших данных», а также принципы работы аналитических методов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лазченко В.Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROCESSING OF LARGE DATA ARRAYS WITH USING ANALYTICAL METHODS OF DATA ANALYSIS

The article discusses the purpose of" big data", as well as the principles of analytical methods

Текст научной работы на тему «ОБРАБОТКА БОЛЬШИХ МАССИВОВ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АНАЛИТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ДАННЫХ»

УДК 004.062

Лазченко В.Р. студент бакалавриата 3 курса факультет «Информатика и вычислительная техника»

научный руководитель: Калайда А.В.

ст. преподаватель Донской Государственный Технический Университет

Россия, г. Ростов-на-Дону ОБРАБОТКА БОЛЬШИХ МАССИВОВ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ АНАЛИТИЧЕСКИХ МЕТОДОВ АНАЛИЗА

ДАННЫХ

Аннотация

В статье рассматривается назначение «больших данных», а также принципы работы аналитических методов.

Ключевые слова

Big data, аналитические методы, большие данные, IT, параллельная обработка, репрезентативная выборка, комбинирование моделей.

Lazchenko V.R. Undergraduate student 3 year, Faculty of informatics and Computer Science Scientific adviser: Kalaida A. V, st.pr.

Don State Technical University Russia, Rostov-on-Don PROCESSING OF LARGE DATA ARRAYS WITH USING ANALYTICAL METHODS OF DATA ANALYSIS

Abstract

The article discusses the purpose of' big data", as well as the principles of analytical methods

Keywords

Big data, analytical methods, big data, it, parallel processing, representative sampling, combining models

На сегодняшний день одним из самых актуальных вопросов в сфере информационных технологий является вопрос обработки больших объемов данных. Это обусловлено тем, что количество информации, необходимое для принятия решений в различных сферах жизни, возрастает в геометрической прогрессии. Возникают проблемы анализа и систематизации информации, полученной ещё на этапе сбора. Для решения этих проблем были созданы технологии работы с «большими» данными (Big Data). Использование подобных технологий на практике началось сравнительно недавно.

Рассмотрим сферы деятельности, в которых Big Data наиболее востребованы:

1. Производство - данные о сырье, расходах и других факторах на

всех этапах производства

2. Финансовая сфера (банки, фин. гос.организации) - регулярные потоки информации об изменении курсов валют, стоимости акций, также информация о деталях финансовых операций и др.

3. Здравоохранение - результаты анализов, истории болезней пациентов, масса других диагностических показателей

4. Наука - различного рода вычисления, показатели приборов, массивы исходных данных и промежуточных результатов

Интеграция и применение Big Data в той или иной области полностью зависит от возможностей существующих алгоритмов и методов. Основная задача которых заключается в определении закономерностей исходных данных с их последующей систематизацией в индивидуально заданную форму.

Анализ закономерностей исходных данных происходит за счет использования аналитических методов. Основной особенностью применения данных методов является использование ранее полученных экспериментальных данных. Необходимость в экспериментальных значениях обусловлена отсутствием единой математической модели, способной описать закономерности данных, полученных в результате различного рода деятельности. Например, изменения значений курса валют на фондовом рынке могут существенно отличаться от ряда показаний научных приборов.

Поэтому аналитические методы включают в себя следующие этапы:

1. Сбор экспериментальных данных

2. Систематизация данных

3. Поиск модели, объясняющей имеющиеся данные

4. Проверка полученной модели практикой

5. Эксплуатация

6. Добавление новых данных

Существует три основных аналитических метода обработки больших данных:

1. Репрезентативные выборки

2. Параллельная обработка

3. Комбинирование моделей

При репрезентативной выборке происходит построение модели, затем применение построенной модели к новым данным. Особенность данного метода заключается в том, что модель строится с учетом лишь некоторой части экспериментальных данных. Берется минимальная часть от общего количества значений, достаточная для построения полноценной модели данных. Использование данного алгоритма предполагает существенное сокращение затрат времени на обработку экспериментальных данных. При этом время, затраченное на построение модели, увеличится по сравнению с другими алгоритмами.

Алгоритм параллельной обработки подразумевает под собой

использование всего объема экспериментальных данных. Но при этом они предварительно разбиваются на несколько частей, каждая из которых имеет собственную закономерность в распределении. Затем на основе каждой из частей строится простая модель данных взамен одной сложной. Полученный результат представляет собой множество простых моделей, рассматриваемых в контексте одной составной модели. Данный подход позволяет значительно увеличить скорость обработки за счет возможности распараллеливания всего процесса.

Метод комбинирования моделей позволяет обрабатывать информацию с использованием различных алгоритмов. Идея состоит в том, чтобы сократить время обработки за счет использования наиболее простых алгоритмов. Поскольку исходные данные разнородные, данный процесс происходит в несколько этапов. Строится иерархия алгоритмов - начиная от простых, заканчивая сложными. Затем они последовательно применяются ко всему объему данных. Часть данных, которая не была обработана одним алгоритмом, передается на следующий этап, в котором будет использован более сложный алгоритм.

Вышеописанные методы являются основой для построения более точных узконаправленных алгоритмов, применяемых на практике. Примерами таких алгоритмов являются генетические, краудсорсинговые алгоритмы, алгоритмы машинного обучения и другие.

Использованные источники:

1. Натан Марц, Джеймс Уоррен. Большие данные. Принципы и практика построения масштабируемых систем обработки данных в реальном времени. - Вильямс, 2017 г - 368[104;123]

2. Фрэнкс Билл. Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Манн, Иванов и Фербер, 2014 г - 352[2;30]

i Надоели баннеры? Вы всегда можете отключить рекламу.