УДК 316.6
Соколова Е.Г.
Рогатых Д.А.
Российская академия народного хозяйства и государственной
службы при Президенте РФ Россия, г. Санкт-Петербург BIG DATA - НАЧАЛО БУДУЩЕГО
Аннотация: В статье указаны актуальные методы исследования огромных массивов данных
Ключевые слова: информация, технология, Big-data
Sokolova E. G.
Rogatykh D.A.
Russian Academy of National Economy and Public Service. St.
Petersburg
Annotation: In the article the actual methods of research of huge data files
Keywords: Information, technology, Big-data
Мы живем в 21 веке, веке информационном, когда IT - технологии оказывают влияние на жизнь каждого, когда информация становится ценнейшим ресурсом. Постепенно увеличивается население Земли, а вместе с этим и увеличивается количество информации, которое нужно обрабатывать. Именно поэтому людям пришла идея Big data.
В первые термин big data ввел редактор журнала Nature Клиффорд Линч еще в 2008 году, в специальном выпуске, посвященном взрывному росту мировых объемов информации.
Big data - это методы и инструменты обработки данных любого, даже самого огромного объёма, для более эффективного восприятия её человеком.
Big data применяется по отношению к информации, которая:
1. Имеет объем более 100 ГБ;
2. Не обрабатывается через инструменты Excel;
3. Обрабатывается более чем одним компьютером.
Обобщая - big data это не конкретный объём данных и даже не сами
данные, а различные методы их обработки, благодаря которым можно обрабатывать любую информацию.
Big data имеет безграничные области применения - начиная от сигналов с GPS автомобилей, заканчивая данными, снимаемыми с датчиков в большом Андроном коллайдере.
В повседневной жизни каждого человека эта система задействована почти во всех сферах. Мы ежедневно делимся массивами информации. Но она не пропадает бесследно. В банке, поликлинике или почте - ваши данные заносятся в систему big data. И даже когда вы стоите на остановке и используете приложение для отслеживания необходимого вам автобуса, в котором ежедневно совершаете привычный для маршрут до работы и обратно,
вы даже не подозреваете, что становитесь частью обработки огромных объемов данных. Благодаря этому система может среди тысяч автобусов в стране выбрать нужный именно вам, оцифровать эту информацию и вывести на экран вашего смартфона его точные координаты.
Основные принципы работы с big data:
1. Горизонтальная маштабируемость. Основное условие работы системы - возможность увеличиваться объемов данных. Основная функция системы - расширение. При увеличении данных в 3 раза потребуется в 3 раза больше оборудования для возможности дальнейшего эффективного функционирования системы.
2. Беспрерывная работа. В кластере системы должно быть столько машин, чтобы при поломке одной, или даже части всего оборудования система не выходила из строя. Так, например, у Hadoop - кластера Yahoo - на счету более 42000 машин.
3. Локальность данных. Если данные будут храниться на одном сервере, а передаваться на другой, то издержки от их передачи займут значительную часть средств из-за их объема, именно поэтому данные обрабатываются на той же машине, на которой и хранятся.
На сегодня существует всего лишь несколько компаний, которые могут обработать гигантские, даже по современным меркам, объемы информации: NoSQL, MapReduce, Hadoop, R.
По данным компании IBS, к 2005 году мир накопил 5 эксабайтов данных (1 ЭБ = 1 млрд гигабайтов). К 2008 году этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1024 эксабайта), к 2011 году — до 1,76 зеттабайта, к 2013 году — до 4,4 зеттабайта. В мае 2017 года глобальное количество данных превысило 6,5 зеттабайта.
К 2020 году, по прогнозам, человечество сформирует 40-44 зеттабайтов информации. А к 2025 году вырастет в 10 раз, говорится в докладе The Data Age 2025, который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут предприятия, а не обычные потребители.
Аналитики исследования считают, что данные станут жизненно-важным активом, а обеспечение их безопасности — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет осуществлять контакт с подключёнными устройствами почти 5000 раз в день.
Технологии big date являются дорогостоящими, отчасти потому первыми в России их начали использовать крупные банки, такие как Сбербанк, Альфа-Банк, ВТБ и Тинькофф-банк.
В 2017 году Альфа-Банк приобрёл технологию для анализа социальных сетей и поведения пользователя сайта, оценки кредитоспособности, прогнозирования оттока клиентов, персонализации контента и вторичных продаж. Для этого он работает с платформами хранения и обработки данных Oracle Exadata, Oracle Big data Appliance и фреймворком Hadoop.
Мир стремительно меняется, еще 10 лет назад сложно было представить беспроводные наушники или сенсорные телефоны, уже такие привычные для каждого сегодня. Технологии все больше и больше влияют на нашу жизнь, вплетаются в её повседневные алгоритмы. Объемы информации стремительно растут. Big data проникает в каждую из сфер жизни, становясь механизмом, который позволяет этим сферам эффективно функционировать и развиваться. Эта тема актуальна сейчас и будет набирать значимость в будущем. Но мир меняется так быстро, массивы информации растут с еще большими темпами, и для того чтобы не «отставать» от жизни и трендов, удержаться на плаву зеттабайтов данных, необходимо понимать суть современных технологий и учиться работать с ними.
Использованные источники:
1. Введение в «Цифровую» экономику под общей редакцией Кешелава А.В.,Москва 2017, 405 с
2. Цифровая экономика: Цифровые навыки населения., Абдрахманова Г. И., Ковалева Г. Г..,москва 2017, 345 с
3. https://rb.ru/howto/chto-takoe-big-data/
4. http://www.clouderp.ru/tags/big data/
5. http://tass.ru/ekonomika/5138017