Научная статья на тему 'BigData. Развитие, анализ и технологии'

BigData. Развитие, анализ и технологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
381
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИЯ / INFORMATION / BIGDATA / ТЕХНОЛОГИИ / TECHNOLOGY / БАЗА ДАННЫХ / DATABASE / ИНСТРУМЕНТЫ BIGDATA / TOOLS OF BIGDATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Царькова Н.И., Смолянов А.С.

В статье рассматриваются новые технологии обработки, хранения и использования информации - BIGDATA. Рассматриваются и анализируются характеристики BIGDATA, методики BIGDATA, области применения и дальнейшее перспективное развитие, а также проблемы применения BIGDATA.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «BigData. Развитие, анализ и технологии»

1 2 © Царькова Н.И. , Смолянов А.С.

12 К.п.н., доцент кафедры «Прикладная информатика»; магистр.

Московский государственный машиностроительный университет (МАМИ), Институт

информационных технологий

BIGDATA. РАЗВИТИЕ, АНАЛИЗ И ТЕХНОЛОГИИ

Аннотация

В статье рассматриваются новые технологии обработки, хранения и использования информации - BIGDATA. Рассматриваются и анализируются характеристики BIGDATA, методики BIGDATA, области применения и дальнейшее перспективное развитие, а также проблемы применения BIGDATA.

Ключевые слова: информация, BIGDATA, технологии, база данных, инструменты BIGDATA.

Keywords: information, BIGDATA, technology, database, tools of BIGDATA.

В современной экономической теории одним из важных факторов производства является информация. На сегодняшний день информация рассматривается как ресурс всех экономических процессов. Она может являться как предметом, так и средством труда, а ее многофункциональность и возможность неограниченного использования объясняет ееценность как ресурса. В связи с этим введем понятие информации как фактора-ресурса. Информация как фактор - ресурс, который включает:

1. Информационные системы и технологии

a. Базы данных

b. Программное Обеспечение

c. Технологии (Big Data, Business Intelligence, Internet of Things)

d. Моделирование и т.д.

2. Человеческие знания и опыт

a. Инновации

b. Наука

c. Роялти

d. Патенты

e. Результаты интеллектуального труда и т. д.

3. Индустриальный комплекс

a. Производство СМИ

b. Технические средства(носители информации, вычислительные системы) и т.д.

4. Организационное и правовое обеспечение

a. Конституция, кодексы

b. Этика, моральные нормы

© Царькова Н.И., Смолянов А.С., 2016 г.

Рис. 1. Информация как фактор и ресурс

В настоящее время объемы информации растут по экспоненциальному закону. Чтобы получить конкурентные преимущества, быстрее реагировать на изменения, повысить эффективность производства нужно добыть, обработать и проанализировать огромное количество данных. И речь идет не о гигабайтах и терабайтах данных, с которыми на данный момент может справиться средний ПК, а о петабайтах и эксабайтах. Для работы с такими объемами информации инженерам пришлось модернизировать инструменты для анализа всех данных. Так в 2000-х годах сформировалось понятиеЫ§;Оа1а(Большие Данные).

Сам термин BigData появился 3 сентября 2008 года, когда Клиффорд Линч, редактор журнала Nature, подготовил специальный номер журнала на тему: «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором были собраны материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда»[1].

Для Больших Данных не существует строгого определения. Это целая серия инструментов и методов для обработки огромных структурированных и неструктурированных объемов данных разнообразных форматов и находящихся в различных местах. Консалтинговая компания Forrester дает краткую формулировку этого термина: "Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности". Также по данным McKinseylnstitute термин большие данные' относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. Но BigData безусловно один из основных современных трендов развития ИТ [2].

Большие данные обычно характеризуются тремя "V": Объем (Volume), Разнообразие (Variety), Скорость (Velocity). Впоследствии добавились еще Достоверность (Veracity) и Ценность (Value) [3].

Таблица 1

Характеристики BigData

Volume-объем Большие данные работают с объемами информации, которые нельзя обработать средствами традиционных СУБД. Как правило, это объемы, превышающие 1 петабайт(РВ). Основной идеей работы с таким объемом информации является параллельная обработка (один из видовобработки информации, когда несколько операций могут выполняться одновременно).

Variety-разнообразие Технологии BigData работают с различными данными. Это могут быть как структурированные отчеты фирм, так и аудио-видео файлы, изображения, информация из социальных сетей (отзывы, комментарии) и т. д.

Velocity- скорость Когда говорят о скорости, подразумевают не только скорость роста количества информации в мире, но и скорость реакции на ее изменение. Технологии Больших Данных должны быстро реагировать на изменения уже имеющихся данных и корректировать результат с поправкой на них. В идеале - в режиме реального времени.

Veracity-достоверность При таком объеме данных, с которыми работают Большие Данные, особую ценность представляет именно отделение достоверной информации от недостоверной, так как от этой информации зависит правильность принятых решений.

Value- ценность Собираемые данные должны оправдывать затраты на их обработку и анализ. Информация должна быть ценной и полезной.

Известно, что большие данные существовали задолго до появления самого термина. Поисковики и социальные сети изначально строили свои сервисы на технологиях обработки BigData. Сегодня к большим данным обратился и традиционный бизнес. Прежде всего, в датамайнинге заинтересованы представители зрелых и высококонкурентных рынков — им очень нужны новые инструменты повышения эффективности.

Технологии Больших Данных начинают внедряться во все отрасли нашей жизни: финансы, здравоохранение, сельское хозяйство, телекоммуникации, розничная торговля, образование, муниципальное управление, ЖКХ, военная промышленность, госструктуры и т.д.

Судя по открытым источникам, решения по анализу больших данных внедрены в Сбербанке, Газпромбанке, ВТБ24, «Альфа-Банке», ФК «Открытие», «Райффайзенбанке», «Ситибанке», «Нордеа-Банке», банке «Уралсиб», «ОТП Банке», компании «Тройка Диалог», «Всероссийском банке развития регионов» и «Уральском банке реконструкции и развития», а также у главных телеком-операторов. Из крупных ритейлеров этими технологиями пользуются X5 RetailGroup, «Глория Джинс», «Юлмарт», сеть гипермаркетов «Лента», «М.Видео», Wikimart, Ozon, «Азбука вкуса», из нефтяных компаний — «Транснефть», «Роснефть» и «Сургутнефтегаз». Также, по словам экспертов, среди госструктур обработку BigData внедрили Федеральная налоговая служба, аналитический центр правительства России, Пенсионный фонд, правительство Москвы, Фонд обязательного медицинского страхования, Федеральная служба безопасности, Следственный комитет и Служба внешней разведки[4].

Технологии больших данных позволяют обработать большой объем неструктурированных данных, систематизировать их, проанализировать и выявить

закономерности там, где человеческий мозг никогда бы их не заметил. Это открывает совершенно новые возможности по использованию данных.

Для анализа данных применяются различные методики. Проанализируем основные из

них.

1. Методы класса DataMining(глубинный анализ данных).

Основная особенность DataMining - это сочетание широкого математического инструментария (от классического статистического анализа до новых кибернетических методов) и последних достижений в сфере информационных технологий.

К методам и алгоритмам DataMining относятся следующие: искусственные нейронные сети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшего соседа, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методы поиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченного перебора, эволюционное программирование и генетические алгоритмы, разнообразные методы визуализации данных и множество других методов[5].

2. A/B-тестирование (A/Btesting, Splittesting) — метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того, чтобы выяснить, какие из изменений улучшают целевой показатель. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

3. Краудсорсинг - методика сбора данных из большого количества источников.

4. Машинное обучение. Направление в информатике (исторически за ним закрепилось название "искусственный интеллект"), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

5. Сетевой анализ - набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

6. Прогнозная аналитика - класс методов анализа данных, концентрирующийся на прогнозировании будущего поведения объектов и субъектов с целью принятия оптимальных решений [6].

7. Имитационное моделирование - метод, позволяющий строить модели, описывающие процессы так, как они проходили бы в действительности. Такую модель можно «проиграть» во времени как для одного испытания, так и заданного их множества. При этом результаты будут определяться случайным характером процессов. По этим данным можно получить достаточно устойчивую статистику[7].

8. Распознавание образов - раздел информатики и смежных дисциплин, развивающий основы и методы классификации и идентификации предметов, явлений, процессов, объектов и т.д., которые характеризуются конечным набором некоторых свойств и признаков [8]. И множество других методов.

Существует множество инструментов BigData. Рассмотрим самые популярные из

них.

NoSQL (notonly SQL, не только SQL), в информатике — термин, обозначающий ряд подходов, направленных на реализацию хранилищ баз данных, имеющих существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL.

Традиционные СУБД ориентируются на требования ACID к транзакционной системе: атомарность (atomicity), согласованность (consistency), изолированность (isolation), надёжность (durability), тогда как в NoSQL вместо ACID может рассматриваться набор свойств BASE:

• базовая доступность (basic availability) — каждый запрос гарантированно завершается (успешно или безуспешно).

• гибкое состояние (softstate) — состояние системы может изменяться со временем, даже без ввода новых данных, для достижения согласования данных.

• согласованность в конечном счёте (eventualconsistency) — данные могут быть некоторое время рассогласованы, но приходят к согласованию через некоторое время.

Термин «BASE» был предложен Эриком Брюером, автором теоремы CAP, согласно которой в распределённых вычислениях можно обеспечить только два из трёх свойств: согласованность данных, доступность или устойчивость к разделению.

Разумеется, системы на основе BASE не могут использоваться в любых приложениях: для функционирования биржевых и банковских систем использование транзакций является необходимостью. В то же время, свойства ACID, какими бы желанными они ни были, практически невозможно обеспечить в системах с многомиллионной веб-аудиторией, вроде amazon.com. Таким образом, проектировщики NoSQL-систем жертвуют согласованностью данных ради достижения двух других свойств из теоремы CAP. Некоторые СУБД, например, Riak, позволяют настраивать требуемые характеристики доступности-согласованности даже для отдельных запросов путём задания количества узлов, необходимых для подтверждения успеха транзакции.

Решения NoSQL отличаются не только проектированием с учётом масштабирования. Другими характерными чертами NoSQL-решений являются:

• Применение различных типов хранилищ.

• Возможность разработки базы данных без задания схемы.

• Использование многопроцессорности.

• Линейная масштабируемость (добавление процессоров увеличивает производительность).

• Инновационность: «не только SQL» открывает много возможностей для хранения и обработки данных.

• Сокращение времени разработки.

• Скорость: даже при небольшом количестве данных конечные пользователи могут оценить снижение времени отклика системы с сотен миллисекунд до миллисекунд [9].

Hadoop является одной из основополагающих технологий BigData [10]. Разработка была инициирована в начале 2005 года Дугом Каттингом (Doug Cutting) с целью построения программной инфраструктуры распределённых вычислений для проекта Nutch — свободной программной поисковой машины на Java, её идейной основой стала публикация сотрудников Google Джеффри Дина и Санжая Гемавата о вычислительной концепции MapReduce. Новый проект был назван в честь игрушечного слонёнка ребёнка основателя проекта [11].

Технология Hadoop представляет собой программный фреймворк, позволяющий хранить иобрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce.

MapReduce — это фреймворк для вычисления некоторых наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»), образующих кластер.

Работа MapReduce состоит из двух шагов: Map и Reduce.

На Map-шаге происходит предварительная обработка входных данных. Для этого один из компьютеров (называемый главным узлом — masternode) получает входные данные задачи, разделяет их на части и передает другим компьютерам (рабочим узлам — workernode) для предварительной обработки. Название данный шаг получил от одноименной функции высшего порядка.[12]

На Reduce-шаге происходит свёртка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат — решение задачи, которая изначально формулировалась.

Рис 2. Схема вычислений Map Reduce

Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером.

В основе технологии лежит распределённая файловая система HDFS (HadoopDistributedFileSystem) - распределенная файловая система, созданная для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечения высокой скорости доступа к этой информации. Файлы хранятся в избыточной форме на нескольких машинах для обеспечения их устойчивости при возможных ошибках и высокой доступности параллельным приложениям.

Таким образом, если один или несколько узлов кластера выходят из строя, то риск потериинформации сводится к минимуму и кластер продолжает работу в штатном режиме.

Кластер HDFS строится из NameNode и DataNodeсерверов. Как правило, это один или два NameNode-сервера и множество DataNode-серверов. NameNode-сервер хранит метаданные и используется для быстрого обращения к файлам.Чтобы открыть файл, клиент обращается к NameNode и получает список расположения блоков, составляющих файл. Эти адреса идентифицируют DataNode, который хранит каждый блок. Затем клиенты считывают информацию напрямую с серверов DataNode, возможно, параллельно. NameNode не принимает непосредственного участия в этом обмене объемами данных, сводя его накладные расходы к минимуму [13].

Кластер HDFS является горизонтально масштабируемым, что позволяет изменять вычислительные мощности путем добавления новых серверов в кластер.

Таблица 2

Описание некоторых утилит из экосистемы Hadoop.[14,15]

Название Краткое описание

HBase NoSQL база данных для хранения данных огромного объема. Позволяетвыдавать информацию в режиме близком к реальному времени.

Hive Самая первая и до сих пор одна из самых популярных СУБД на этой платформе. В качестве языка запросов использует HiveQL — урезанный диалект SQL, который, тем не менее, позволяет выполнять довольно сложные запросы над данными, хранимыми в HDFS.

Impala Продукт компании Cloudera и основной конкурент Hive. В отличие от последнего, Impala никогда не использовала классическийМарЯ^исе, а

изначально исполняла запросы на своём собственном движке. Кроме того, в последнее время Impala активно использует кеширование часто используемых блоков данных и колоночные форматы хранения, что очень хорошо сказывается на производительности аналитических запросов.

Pig Надстройка для Hadoop, позволяющая создавать программы дляобработки данных на высокоуровневом языке.

Mahout Первая большая библиотека, реализовавшая многие популярные алгоритмы средствами MapReduce. Включает в себя алгоритмы для кластеризации, коллаборативной фильтрации, случайных деревьев, а также несколько примитивов для факторизации матриц.

Spark Проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений, таких как Spark SQL (позволяет выполнять SQL-запросы над данными), SparkStreaming (надстройка для обработки потоковых данных), SparkMLlib (набор библиотек машинного обучения), GraphX (предназначено для распределённой обработки графов)

Rhadoop Надстройка над Hadoop для выполнения программ, написанных наязыке R. Как и Mahout позволяет использовать алгоритмы DataMining.

Oozie Утилита позволяет создавать workflow из программ MapReduce,запросов Hive и Pig.

Hue Web интерфейс к Hadoop для мониторинга заданий, выполняющихся накластере, и облегчения обслуживания кластера.

Sqoop Утилита для загрузки данных из реляционных баз данных в кластерHadoop и для выгрузки данных обратно БД.

В 2013 году появилась версия Hadoop 2.0, в которой добавился модуль YARN.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Он отвечает за управление ресурсами кластеров и планирование заданий. Работать под управлением YARN могут как MapReduce-программы, так и любые другие распределённые приложения, поддерживающие соответствующие программные интерфейсы. YARN обеспечивает возможность параллельного выполнения нескольких различных задач в рамках кластера и их изоляцию.[16]

Рис 3. Модуль YAR^ Hadoop

SAPHANA

Еще одним популярным инструментом является SAP HANA (High-Performance Analytic Appliance)[17]. Это высокопроизводительная NewSQL платформа для хранения и обработки данных, в основе которой лежит технология вычислений In-MemoryDataGrid(IMDG)(способность размещать всю БД в оперативной памяти и обрабатывать ее там, не обращаясь к медленной дисковой подсистеме)с использованием принципа поколоночного хранения данных, платформы, разработанной и выведенной на рынок компанией SAP SE. Архитектура HANA обеспечивает как высокоскоростную обработку транзакций, так и работу со сложными аналитическими запросами, совмещая решение этих задач в рамках единой платформы [18].

В этой БД все данные хранятся в оперативной памяти поколоночно и в сжатом виде. Поскольку все операции не требуют обращения к диску и выполняются очень быстро, отпадает нужда в индексах, материализованных представлениях, предварительно вычисляемых суммах и иных агрегатах, что позволяет уменьшить объем БД на 95% по сравнению с традиционными системами. Транзакционные и аналитические приложения могут функционировать одновременно на одном и том же экземпляре БД. SAP удалось решить основные проблемы БД с поколоночным хранением, такие как поддержка параллелизма (с помощью механизмов Multiversion Concurrency Control) и производительность операций вставки и обновления. HANA предоставляет ряд дополнительных сервисов БД, таких как обработка геоинформационных и текстовых данных, OLAP, анализ графов и др.

На момент написания статьи самый мощный сервер может содержать до 20 процессоров и до 15 TB оперативной памяти. Аппаратные конфигурации кластеров могут насчитывать более 100 серверов, которые в сумме могут обеспечить колоссальные вычислительные мощности. Но высокая стоимость всех составляющих вынуждает применять на практике менее производительные системы [19,20].

По заявлению SAP на 2016 год Клиентская база насчитывает около 300 000 компаний в 190 странах мира. Также компания активно занимается облачными вычислениями(SAP HANA CloudPlatform) и разработками в области IoT.

PivotalGemFire - проект, выполненный при поддержке ApacheGeode, использующий технологиюIn-MemoryDataGrid(IMDG). Суть технологии состоит в том, что все данные хранятся в оперативной памяти, впоследствии чего скорость работы с данными увеличивается более чем в 1000 раз по сравнению с обычными NoSQL базами данных, использующими жесткие диски.

GemFire обеспечивает линейную масштабируемость, что позволяет предсказуемо повысить пропускную способность для числа операций в секунду и увеличить объемы хранения данных просто путем добавления дополнительных узлов в кластер. Распределение данных и использование системных ресурсов регулируется автоматически по мере добавления или удаления узлов, что позволяет быстро реагировать на ожидаемые или неожиданные всплески спроса.

GemFire автоматически оптимизирует распределение данных между узлами для оптимизации задержек и использования системных ресурсов. Также имеется возможность настроить разбиение на разделы для дальнейшей оптимизации времени отклика приложений.

GemFire позволяет разработчикам управлять данными из классов, определенных пользователем, а также документов в формате JSON. Предусмотрена поддержка приложений на языках программирования Java, C++ и C#. Приложения, написанные на других языках программирования, могут получить доступ к тем же функциям, с помощью REST API. Другие поддерживаемые API, включают в себя JavaHashMap, Memcached и SpringDataGemFire [21].

В связи с увеличением доступности оперативной памяти(RAM) и снижения цен на нее все большую популярность приобретают инструменты, использующие in-memory технологии. Использование оперативной памяти позволяет увеличить скорость обработки

данных более чем в 1000 раз, по сравнению с жесткими дисками, что, безусловно, благотворно скажется на результатах. Продукты, использующие технологии in-memory хорошо проявят себя в таких областях, как анализ рисков, электронная коммерция, онлайн игры и т. д.

Несмотря на явные преимущества и достоинстваBigData, есть и свои проблемы.

Технологии BigData достаточно свежая тема. Многие считают, что у BigData большое будущее и это настоящий прорыв в информационных технологиях. Действительно, у технологий больших данных огромная сфера применения и в каждом отдельно взятом случае можно извлечь пользу от использования данных технологий. Но нужно четко понимать плюсы и минусы.

Во-первых, можно обмануть множество инструментов, основанных на BigData. Так как используется неструктурированная информация из различных источников, не всегда можно доверять выводам системы, которая может найти некоторую закономерность между абсолютно не связанными событиями.

Как сказал в своем интервью профессор университета Калифорнии в Беркли Майкл Джордан: «Когда у вас есть огромное количество данных, то ваши аппетиты к выдвижению теорий также приобретают тенденцию расти. И если они растут быстрее, чем статистическая прочность данных, тем больше ваших выводов будут неверными. Вероятнее всего, они будут белым шумом».

Также он высказался о том, что может ждать сферу больших данных: «Главным образом это «устаревание» больших данных. После шумихи, когда люди проинвестируют деньги, а многие компании наобещают сверх меры без проведения каких-либо серьезных исследований, все обрушится. И вскоре, через два года, или 5 лет люди скажут: «Вся эта задумка с большими данными пришла и ушла. Все затихло. Вся идея была неверной». Я предсказываю такой исход. Это то, что произойдет, при всем том обмане и громких утверждениях, не основанных ни на понимании реальных проблем, ни на том, что их решение займет десятилетия. Прогресс движется медленно, но верно - в этом направлении у нас никогда не было значительных скачков. Затем проследует период, в течение которого будет очень сложно раздобыть ресурсы, чтобы провести анализ данных. Область продолжит двигаться вперед, потому что это действительно нужно, но неблагоприятные последствия могут повредить большому количеству важных проектов» [22].

Во-вторых, в области BigData на данный момент очень мало специалистов. А обучением в этой сфере гораздо выгоднее заниматься компаниям при «выращивании» своих сотрудников, нежели университетам.

В своем интервью Сергей Мацоцкий, председатель правления IBS, высказал свое мнение по поводу технологий Больших Данных: «Мне кажется, еще очень рано говорить о лидерах. Мы в России еще даже первый шаг не сделали во внедрении BigData, только ногу занесли. Просто есть те, кто думают, что что-то понимают в этой теме. В начале ты ничего не знаешь. Потом, кажется, что все знаешь. Потом ты узнаешь больше и опять понимаешь, что ничего не знаешь. Мы в IBS вплотную занялись темой BigData года два назад, и теперь, как мне кажется, дошли до этой третьей фазы" [23].

В-третьих, решения и технологии, основанные на BigData, требуют значительных финансовых вложений. Вследствие этого могут развиваться монополии, когда фирма-гигант, способная позволить себе передовые технологии, значительно оторвется от конкурентов, впоследствии поглотив их. Хотя развитие информационных технологий позволяет приобретать все более производительные технологии за меньшую сумму, инструменты анализа Больших Данных все равно остаются достаточно дорогостоящими.

На данный момент нельзя точно определить будущее Big Data, но эти технологии, безусловно, имеют ряд неоспоримых преимуществ. Большие Данные открывают перед нами новые горизонты в планировании производства, образовании, здравоохранении и других отраслях. Если их развитие будет продолжаться, то технологии Больших Данных могут поднять информацию, как фактор производства, на совершенно новый качественный

уровень. Информация станет не только равноценна труду и капиталу, но и возможно станет

наиважнейшим ресурсом современной экономики.

Литература

1. Большие данные // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/Большие_ данные (дата обращения 07.06.2016).

2. BigData в российских банках. Начало большого пути // PCWEEK: сайт Режим доступа: http://www.pcweek.ru/idea/article/detail.php?ID=176526 (дата обращения 07.06.2016).

3. Сухобоков А. А., Лахвич Д. С., Влияние инструментария BigData на развитие научных дисциплин, связанных с моделированием // Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон.журн. 2015. № 03. С. 207-240. (дата обращения 07.06.2016).

4. Соколова А., Как устроен рынок BigData в России // Rusbase: сайт, 1 сентября 2015. Режим доступа: http://rusbase.com/howto/big-data-in-russia/ (дата обращения 07.06.2016).

5. Особенности, методы и стадии DataMining в сфере информационных технологий // Веб студия X-ON: сайт. Режим доступа: http://old.x-on.ru/work/2-2-metody-i-stadii-data-mining/ (дата обращения 07.06.2016).

6. Предсказательная аналитика // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/ Предсказательная_аналитика (дата обращения 07.06.2016).

7. Имитационное моделирование // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/ Имитационное_моделирование (дата обращения 07.06.2016).

8. Теория распознавания образов // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/ Теория_распознавания_образов (дата обращения 07.06.2016).

9. NoSQL// Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/NoSQL (дата обращения 07.06.2016).

10. Apache Hadoop // Apache Hadoop: сайт. Режим доступа: http://hadoop.apache.org (дата обращения 07.06.2016).

11. Hadoop // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/Hadoop (дата обращения 07.06.2016).

12. MapReduce // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/MapReduce (дата обращения 07.06.2016).

13. Module 2: The Hadoop Distributed File System//Yahoo! Developernetwork: сайт. Режим доступа: https://developer.yahoo.com/hadoop/tutorial/module2.html (дата обращения 07.06.2016).

14. Hadoop: что, где и зачем // Хабрахабр: сайт, 16 октября 2014. Режим доступа: https://habrahabr.ru/ post/240405/ (дата обращения 07.06.2016).

15. The Hadoop Ecosystem Table : сайт. Режим доступа: http://hadoopecosystemtable.github.io (дата обращения 07.06.2016).

16. Serdar Yegulalp, Hadoop 2: Big data's big leap forward//InfoWorld: сайт, 16 октября 2013. Режим доступа: http://www.infoworld.com/article/2612793/hadoop/hadoop-2--big-data-s-big-leap-forward.html (дата обращения 07.06.2016).

17. What is SAP HANA? // SAP: сайткомпании. Режим доступа: https://hana.sap.com/abouthana.html (дата обращения 07.06.2016).

18. SAP HANA // Википедия: сайт. Режим доступа: https://ru.wikipedia.org/wiki/SAP_HANA (дата обращения 07.06.2016).

19. SGI UV 300H for SAP HANA // sgi: сайткомпании. Режим доступа: http://www.sgi.com/products/ servers/uv/uv_300h.html (дата обращения 07.06.2016).

20. CERTIFIED SAP HANA® HARDWARE DIRECTORY // SAP: сайткомпании. Режим доступа: http://global.sap.com/community/ebook/2014-09-02-hana-

hardware/enEN/appliances.html#order=SocketAmountDesc(дата обращения 07.06.2016).

21. Pivotal GemFire// Pivotal: сайткомпании. Режим доступа: http://pivotal.io/big-data/datasheet/pivotal-gemfire (дата обращения 07.06.2016).

22. Lee Gomes, Machine-Learning Maestro Michael Jordan on the Delusions of Big Data and Other Huge Engineering Efforts // IEEE Spectrum: сайт, 20 октября 2014. Режим доступа: http:// spectrum.ieee.org/robotics/artificial-intelligence/machinelearning-maestro-michael-jordan-on-the-delusions-of-big-data-and-other-huge-engineering-efforts (дата обращения 07.06.2016).

23. Носов Н., Развитие системной интеграции в России. Как это было.// PC Week/RE №13-14 (890891) 25 августа 2015. Режим доступа: http://www.pcweek.ru/business/article/detail.php?ID=175111 (дата обращения 07.06.2016).

i Надоели баннеры? Вы всегда можете отключить рекламу.