УДК: 004.67
ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ТЕХНОЛОГИИ BIG DATA
Д. С. Гуськов Научный руководитель - Е. В. Филюшина
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: filyushina@sibsau.ru
Технология больших данных может поднять информацию как фактор производства на совершенно новый уровень качества. Информация не только эквивалентна труду и капиталу, но и может стать важнейшим ресурсом в современной экономике.
Ключевые слова: BigData, обмен информацией, технологии больших данных, обработка информации.
PROSPECTS FOR USING BIG DATA TECHNOLOGY
D. S. Guskov Scientific supervisor - E. V. Filushina
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation
E-mail: filyushina@sibsau.ru
Big data technology can take information as a factor of production to a whole new level of quality. Information is not only equivalent to labor and capital, but can also become an essential resource in the modern economy.
Keywords: BigData, information exchange, big data technologies, information processing.
Любой обмен информацией в социальных сетях неизбежно влечет за собой дальнейшую обработку, анализ и активное использование данных компаниями. Мы генерируем статистику. Любое подключенное устройство отправляет материал на центральный сервер. Если большие данные - это технология, то мы - ее ресурс [1].
В настоящее время объем информации растет в геометрической прогрессии. Чтобы быстрее реагировать на изменения рынка, получать конкурентные преимущества и повышать производительность, необходимо собирать, обрабатывать и анализировать большие объемы данных. Чтобы обработать такой большой объем информации, инженеры были вынуждены модернизировать инструмент, чтобы проанализировать все данные.
Таким образом, в 2000-е годы сформировалась концепция BigData, которая была интересна лишь узкому кругу экспертов. Теперь это слово слышит каждый, кто интересуется областью информационных технологий. И это определение в последнее время стало очень популярным и имеет важное стратегическое значение. Технология больших данных позволяет обрабатывать большие объемы неструктурированных данных, организовывать данные, анализировать данные и выявлять закономерности, которые человеческий мозг никогда не заметит.
Это открывает совершенно новые возможности для использования данных. Понятие больших данных подразумевает не только большое количество слоев данных. Это огромные
Актуальные проблемы авиации и космонавтики - 2021. Том 2
массивы из сотен гигабайт хранения и обработки, даже петабайт данных. Важно отметить, что объем данных, обрабатываемых с помощью BigData, растет, как и скорость обработки. Развитие этого направления вполне соответствует современному миру, стремительному инновационному развитию [5].
На данный момент BigData - это не просто поле деятельности мировых IT-гигантов. Это направление, благодаря таким решениям, как Hadoop от Apache Software Foundation, набор облачных сервисов от IBM, Amazon, Google, становится доступным практически для любой компании, работающей в сфере IT. Такие решения, как Clickhouse, Cassandra, InfluxDB, даже позволяют людям войти в сферу использования больших данных. Использование больших данных в настоящее время становится необходимым условием развития крупных ИТ-компаний.
Основные принципы использования больших данных. Горизонтальная масштабируемость: поскольку может быть большой объем данных, система, хранящая эти данные, должна быть масштабируемой. Если объем данных увеличивается в 2 раза, то количество кластеров увеличивается в 2 раза [4].
Отказоустойчивость: горизонтальная масштабируемость означает, что в кластере имеется большое количество машин. Конечно, эти машины почему-то выйдут из строя. Например, кластер Hadoop Yahoo насчитывает более 42 000 машин. Подход к использованию BigData должен учитывать это и продолжать работать без существенных потерь.
Локальность данных: в больших системах данные распределяются между большим количеством машин. Важным вопросом при проектировании больших данных является принцип локальности данных, при котором они хранятся в одном и том же месте для обработки информации.
Следует также отметить, что большие данные являются одним из самых быстрорастущих направлений информационных технологий, согласно статистике, общий объем получаемых и хранимых данных удваивается каждые 1-2 года. В период с 2017 по 2021 год объем данных, передаваемых мобильными сетями, увеличивался на 81% в месяц.
В результате BigData уже является зрелой технологической областью, и, несмотря на свой относительно молодой возраст, она получила широкое распространение во многих сферах бизнеса и играет важную роль в развитии компании.
К наиболее распространенным методам обработки данных относятся:
SQL - это структурированный язык запросов, позволяющий работать с базами данных. Вы можете создавать и изменять данные с помощью SQL, а массив данных управляется соответствующей системой управления базами данных [3].
NoSQL - этот термин не просто расшифровывается как SQL (не просто SQL). Он содержит ряд методов, предназначенных для реализации баз данных, отличных от моделей, используемых в традиционных реляционных СУБД. Они удобны в использовании, когда структуры данных постоянно меняются.
MapReduce - модель для расчета распределений. Используется для выполнения параллельных вычислений на очень больших наборах данных. Принцип работы заключается в обработке данных по порядку, с помощью карты и сокращения двумя методами.
Hadoop - это механизм реализации поиска и контекста для высоконагруженных сайтов -eBay, Amazon и др. Отличительной особенностью является то, что система защищена от сбоя любого узла кластера, поскольку каждый блок имеет хотя бы одну копию данных на другом узле.
SAP HANA - это высокопроизводительная платформа NoSQL для хранения и обработки данных. Обеспечивает высокую скорость обработки запросов. Еще одной примечательной особенностью является то, что SAP HANA упрощает системную среду и снижает затраты на поддержку аналитических систем.
Проблему систем больших данных можно свести к трем основным группам: объем, скорость обработки и не структурированность. Хранение больших объемов информации требует особых условий, что является вопросом пространства и емкости. Скорость связана не только с замедлением и "торможением", которое могут вызвать старые методы обработки, но и с интерактивностью: чем быстрее процесс, тем сильнее воздействие, тем эффективнее результаты. Неоднородность и неструктурированные проблемы возникают из-за различий в источнике, формате и качестве [1].
Для того чтобы объединить данные и эффективно их обработать, требуется не только работа по приданию им жизнеспособной формы, но и определенные аналитические инструменты. Существует проблема с пределом "амплитуды" данных. Его трудно построить, а значит, трудно предсказать, какие технологии и сколько вливаний капитала потребуется развивать дальше. Ресурсы не безграничны, и в какой-то момент хранение всех возможных данных становится нецелесообразным. И надо отказаться от части данных.
Собственно, это и есть основная причина задержки внедрения компанией проекта BigData. Выбор алгоритмов обработки данных и анализа также является проблемой, поскольку люди не понимают, какие данные следует собирать и хранить, а какие можно игнорировать. Еще одна "болевая точка" в отрасли становится очевидной отсутствие профессиональных экспертов, которые могли бы доверять углубленному анализу, создавать отчеты для решения бизнес-задач и тем самым извлекать прибыль из больших данных. Еще одна проблема с большими данными - этическая. А именно: в чем разница между сбором данных и нарушением границ конфиденциальности? Поэтому информация хранится в поисковых системах Google и Яндекс и позволяет им постоянно совершенствовать свои сервисы, делать их удобными для пользователя и создавать новые интерактивные программы.
Поисковые системы фиксируют каждый клик пользователя в интернете, они знают его IP-адрес, географическое местоположение, интересы, онлайн-покупки, личные данные, электронную почту и т. д. То есть по умолчанию все собирается в BigData и затем хранится на серверах этих сайтов.
Здесь можно затронуть еще один вопрос - обеспечение безопасности хранения и использования данных. Вопрос о том, является ли аналитическая платформа, на которую потребители автоматически передают данные (только потому, что они посетили сайт), безопасной, является предметом больших споров. Современная вирусная активность и хакерство не пугают даже сверх защищенные серверы правительственных спецслужб [5].
Библиографические ссылки
1. Медетов А. А. Термин Big Data и способы его применения // Молодой ученый, 2016. № 11. С. 207-210.
2. Иванов П.Д., Вампилов В.Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: Наука и инновации, 2019.
3. Что такое Big Data (BigData) в маркетинге: проблемы, алгоритмы, методы анализа // Landing Page Generator — платформа создания и оптимизации посадочных страниц. URL: http://lpgenerator.ru/blog/2015/11/17/chto-takoe-big-data-bolshie-dannye-v-marketinge-problemy-algoritmy-metody-analiza/ (дата обращения: 18.01.2021).
4. Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce // Хабрахабр. URL: https://habrahabr.ru/company/dca/blog/267361/ (дата обращения: 18.01.2021).
5. Аналитический обзор рынка Big Data // Хабрахабр. URL: https://habrahabr.ru/company/moex/blog/256747/ (дата обращения: 18.01.2021)
© Гуськов Д. С., 2021