Научная статья на тему 'Проблемы безопасности системы обработки больших данных Hadoop'

Проблемы безопасности системы обработки больших данных Hadoop Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
471
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / HADOOP / BIG DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Астапенко Т.С., Соколин Д.Д.

Рассматриваются основные проблемы платформы обработки больших данных Hadoop, собираемых с летательных аппаратов, предпосылки возникновения этих проблем и пути их решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Астапенко Т.С., Соколин Д.Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SECURITY PROBLEMS OF HADOOP - A BIG DATA PROCESSING SYSTEM

This article discusses the main problems of the platform for processing large Hadoop data collected from aircraft, the prerequisites for the occurrence of these problems and the solutions to them.

Текст научной работы на тему «Проблемы безопасности системы обработки больших данных Hadoop»

Решетневские чтения. 2018

УДК 004.056.53

ПРОБЛЕМЫ БЕЗОПАСНОСТИ СИСТЕМЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ HADOOP

Т. С. Астапенко, Д. Д. Соколин

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: tatyana.astapenko1995@gmail.com

Рассматриваются основные проблемы платформы обработки больших данных Hadoop, собираемых с летательных аппаратов, предпосылки возникновения этих проблем и пути их решения.

Ключевые слова: большие данные, Hadoop.

SECURITY PROBLEMS OF HADOOP - A BIG DATA PROCESSING SYSTEM

T. S. Astapenko, D. D. Sokolin

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: tatyana.astapenko1995@gmail.com

This article discusses the main problems of the platform for processing large Hadoop data collected from aircraft, the prerequisites for the occurrence of these problems and the solutions to them.

Keywords: Big Data, Hadoop.

В настоящее время всё больше крупных организаций собирают, анализируют и принимают решения на основе анализа огромного количества наборов данных из разных источников (т. н. Big Data), и безопасность в этом процессе становится все более важной. В то же время все больше и больше организаций вынуждены применять ограничения доступа и ограничения конфиденциальности этих наборов данных для соответствия нормативным требованиям, таким как HIPAA, GDPR и другим законам о защите персональных данных. Количество инцидентов ИБ от внутренних и внешних злоумышленников растет, часто требуются месяцы для проведения расследований, а пострадавшие несут убытки. Организации, которые должным образом не контролировали доступ к своим наборам данных, сталкиваются с судебными процессами, порчей репутации и административной ответственностью.

Одной из самых популярных платформ для обработки больших данных является Apache Hadoop. Первоначально разработанный без учета требований к безопасности Hadoop продолжает развиваться. Его популярность растет, и поскольку специалисты по безопасности продолжают указывать на потенциальные риски безопасности при обработке Big Data с помощью Hadoop, это приводит к дальнейшим изменениям безопасности в Hadoop. На рынке «Hadoop security» произошел взрывной рост: производители выпускают «защищенные» дистрибутивы Hadoop и решения, которые дополняют безопасность Hadoop. Об этом свидетельствуют такие продукты, как Cloudera Sentry, IBM InfoSphere Optim Data Masking, DataGuise для Hadoop, Protectity Big Data Protector для

Hadoop, Revelytix Loom, Zettaset Secure Data Warehouse и так далее [1-3].

Актуальность статьи заключается в исследовании возможности Hadoop удовлетворить разнообразным требованиям к безопасности обрабатываемых в нем данных, для хранения данных телеметрии со спутников.

Первоначально Hadoop использовался для управления большими объемами общедоступных веб-данных, и задачи обеспечения ИБ просто не существовало. Изначально предполагалось, что кластеры Hadoop будут состоять из взаимодействующих, доверенных машин, используемых доверенными пользователями в надежной среде. Hadoop не аутентифици-ровал пользователей или сервисы, доступ к данным не разграничивался, а сами данные не шифровались. Поскольку Hadoop был разработан для выполнения кода по распределенному кластеру машин, любой мог бы отправить код, и он был бы выполнен. Из-за этих и других проблем безопасности сообщество Hadoop осознало, что необходимы более надежные средства контроля безопасности, и, как результат, команда Yahoo! решила сосредоточиться на реализации аутентификации и выбрала Kerberos в качестве механизма аутентификации для Hadoop, что опубликовано в их статье в 2009 году. И наконец, в выпуске дистрибутивов Hadoop.20.20x была частично решена проблема механизмов аутентификации, при помощи следующих инструментов:

- взаимная аутентификация с помощью Kerberos RPC (SASL / GSSAPI);

- обеспечение прав доступа к файлам HDFS;

- делегирование токенов для последующих проверок проверки подлинности;

Информационная безопасность

- блокировка токенов доступа для контроля доступа к блоку данных;

- токены задания для принудительной авторизации заданий.

Но несмотря на все доработки и изменения модель безопасности Hadoop в целом осталась прежней. Со временем некоторые компоненты экосистемы Hadoop применили свою собственную безопасность как слой над Hadoop - например, Apache Accumulo обеспечивает авторизацию на уровне ячеек, а HBase предоставляет элементы управления доступом на уровне столбцов и семейств [4].

Некоторые из проблем безопасности уже можно устранить при помощи встроенных возможностей Hadoop, однако большую часть невозможно устранить без использования дополнительных средства поддержки Hadoop, которые существуют в отрасли. Ниже приведено несколько причин, по которым производители выпускают продукты безопасности, которые дополняют Hadoop:

1. Нет шифрования «Data at Rest». В настоящее время данные в HDFS не зашифровываются. Для реализации соответствующих требований безопасности, связанных с шифрованием данных в кластерах Hadoop, компании вынуждены использовать сторонние инструменты для внедрения шифрования на уровне диска HDFS или расширения Hadoop.

2. Kerberos-центрический подход. Безопасность Hadoop основана на аутентификации Kerberos. Для компаний, использующих другие подходы, не связанные с Kerberos, это означает создание на предприятии отдельной системы аутентификации.

3. Ограниченные возможности авторизации. Хотя Hadoop можно настроить для авторизации на основе прав пользователей и групп и списков контроля доступа (ACL), этого может быть недостаточно для каждой организации.

4. Сложность модели безопасности и конфигурации. В аутентификации Hadoop имеется ряд потоков данных - аутентификация Kerberos RPC для приложений и служб Hadoop, аутентификация HTTP SPNEGO для веб-консолей и использование делегирования токенов, блокировки токенов и токенов задания. Для сетевого шифрования также должны быть настроены три механизма шифрования: SASL и SSL

для веб-консолей, шифрование передачи данных HDFS. Все эти настройки необходимо настраивать отдельно - и в этом легко ошибиться.

Разработчикам, которым необходимы функции безопасности, не предоставляемые в стандартной поставке Hadoop, приходится обращаться к интеграции сторонних инструментов, использовать расширенный Hadoop-дистрибутив поставщика или разрабатывать другие инструменты [5].

В нашем быстро развивающемся и связанном мире, где большие данные распространены повсеместно, важно понимать необходимость безопасности при обработке и анализе огромных объемов данных. Это начинается с понимания наших данных и связанных с ними политик безопасности, а также вращается вокруг понимания политик безопасности в наших организациях и того, как их необходимо применять. Текущие изменения в Hadoop, вероятно, смогут повысить эффективность создания систем безопасности в Hadoop и, тем самым, повысить её защищенность.

References

1. Zettaset "The Big Data Security Gap: Protecting the Hadoop Clustef'. Available at: https://www.zettaset.com/ wp-content/uploads/2014/04/zettaset_wp_security_0413.pdf (accessed: 08.09.2018).

2. Devaraj Das, Owen O'Malley, Sanjay Radia, and Kan Zhang "Adding Security to Apache Hadoop". Available at: http://hortonworks.com/wp-content/uploads/ 2011/08/adding_security_to_apache_hadoop.pdf (accessed: 08.09.2018).

3. Horton works "Technical Preview for Apache Knox Gateway". Available at: http://public-repo-1.hortonworks.com/HDP-LABS/Projects/Knox/1.3.3.0-59/KnoxTechnicalPreview.pdf (accessed: 08.09.2018).

4. Kevin T. Smith "Big Data Security: The Evolution of Hadoop's Security Model". Available at: https:// www.infoq.com/articles/HadoopSecurityModel (accessed: 08.09.2018).

5. Vinay Shukla s "Hadoop Security: Today and Tomorrow". Available at: https://hortonworks.com/ blog/hadoop-security-today-and-tomorrow/ (accessed: 08.09.2018).

© Астапенко Т. С., Соколин Д. Д., 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.