Решетневские чтения. 2018
УДК 004.056.53
ПРОБЛЕМЫ БЕЗОПАСНОСТИ СИСТЕМЫ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ HADOOP
Т. С. Астапенко, Д. Д. Соколин
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 E-mail: [email protected]
Рассматриваются основные проблемы платформы обработки больших данных Hadoop, собираемых с летательных аппаратов, предпосылки возникновения этих проблем и пути их решения.
Ключевые слова: большие данные, Hadoop.
SECURITY PROBLEMS OF HADOOP - A BIG DATA PROCESSING SYSTEM
T. S. Astapenko, D. D. Sokolin
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
This article discusses the main problems of the platform for processing large Hadoop data collected from aircraft, the prerequisites for the occurrence of these problems and the solutions to them.
Keywords: Big Data, Hadoop.
В настоящее время всё больше крупных организаций собирают, анализируют и принимают решения на основе анализа огромного количества наборов данных из разных источников (т. н. Big Data), и безопасность в этом процессе становится все более важной. В то же время все больше и больше организаций вынуждены применять ограничения доступа и ограничения конфиденциальности этих наборов данных для соответствия нормативным требованиям, таким как HIPAA, GDPR и другим законам о защите персональных данных. Количество инцидентов ИБ от внутренних и внешних злоумышленников растет, часто требуются месяцы для проведения расследований, а пострадавшие несут убытки. Организации, которые должным образом не контролировали доступ к своим наборам данных, сталкиваются с судебными процессами, порчей репутации и административной ответственностью.
Одной из самых популярных платформ для обработки больших данных является Apache Hadoop. Первоначально разработанный без учета требований к безопасности Hadoop продолжает развиваться. Его популярность растет, и поскольку специалисты по безопасности продолжают указывать на потенциальные риски безопасности при обработке Big Data с помощью Hadoop, это приводит к дальнейшим изменениям безопасности в Hadoop. На рынке «Hadoop security» произошел взрывной рост: производители выпускают «защищенные» дистрибутивы Hadoop и решения, которые дополняют безопасность Hadoop. Об этом свидетельствуют такие продукты, как Cloudera Sentry, IBM InfoSphere Optim Data Masking, DataGuise для Hadoop, Protectity Big Data Protector для
Hadoop, Revelytix Loom, Zettaset Secure Data Warehouse и так далее [1-3].
Актуальность статьи заключается в исследовании возможности Hadoop удовлетворить разнообразным требованиям к безопасности обрабатываемых в нем данных, для хранения данных телеметрии со спутников.
Первоначально Hadoop использовался для управления большими объемами общедоступных веб-данных, и задачи обеспечения ИБ просто не существовало. Изначально предполагалось, что кластеры Hadoop будут состоять из взаимодействующих, доверенных машин, используемых доверенными пользователями в надежной среде. Hadoop не аутентифици-ровал пользователей или сервисы, доступ к данным не разграничивался, а сами данные не шифровались. Поскольку Hadoop был разработан для выполнения кода по распределенному кластеру машин, любой мог бы отправить код, и он был бы выполнен. Из-за этих и других проблем безопасности сообщество Hadoop осознало, что необходимы более надежные средства контроля безопасности, и, как результат, команда Yahoo! решила сосредоточиться на реализации аутентификации и выбрала Kerberos в качестве механизма аутентификации для Hadoop, что опубликовано в их статье в 2009 году. И наконец, в выпуске дистрибутивов Hadoop.20.20x была частично решена проблема механизмов аутентификации, при помощи следующих инструментов:
- взаимная аутентификация с помощью Kerberos RPC (SASL / GSSAPI);
- обеспечение прав доступа к файлам HDFS;
- делегирование токенов для последующих проверок проверки подлинности;
Информационная безопасность
- блокировка токенов доступа для контроля доступа к блоку данных;
- токены задания для принудительной авторизации заданий.
Но несмотря на все доработки и изменения модель безопасности Hadoop в целом осталась прежней. Со временем некоторые компоненты экосистемы Hadoop применили свою собственную безопасность как слой над Hadoop - например, Apache Accumulo обеспечивает авторизацию на уровне ячеек, а HBase предоставляет элементы управления доступом на уровне столбцов и семейств [4].
Некоторые из проблем безопасности уже можно устранить при помощи встроенных возможностей Hadoop, однако большую часть невозможно устранить без использования дополнительных средства поддержки Hadoop, которые существуют в отрасли. Ниже приведено несколько причин, по которым производители выпускают продукты безопасности, которые дополняют Hadoop:
1. Нет шифрования «Data at Rest». В настоящее время данные в HDFS не зашифровываются. Для реализации соответствующих требований безопасности, связанных с шифрованием данных в кластерах Hadoop, компании вынуждены использовать сторонние инструменты для внедрения шифрования на уровне диска HDFS или расширения Hadoop.
2. Kerberos-центрический подход. Безопасность Hadoop основана на аутентификации Kerberos. Для компаний, использующих другие подходы, не связанные с Kerberos, это означает создание на предприятии отдельной системы аутентификации.
3. Ограниченные возможности авторизации. Хотя Hadoop можно настроить для авторизации на основе прав пользователей и групп и списков контроля доступа (ACL), этого может быть недостаточно для каждой организации.
4. Сложность модели безопасности и конфигурации. В аутентификации Hadoop имеется ряд потоков данных - аутентификация Kerberos RPC для приложений и служб Hadoop, аутентификация HTTP SPNEGO для веб-консолей и использование делегирования токенов, блокировки токенов и токенов задания. Для сетевого шифрования также должны быть настроены три механизма шифрования: SASL и SSL
для веб-консолей, шифрование передачи данных HDFS. Все эти настройки необходимо настраивать отдельно - и в этом легко ошибиться.
Разработчикам, которым необходимы функции безопасности, не предоставляемые в стандартной поставке Hadoop, приходится обращаться к интеграции сторонних инструментов, использовать расширенный Hadoop-дистрибутив поставщика или разрабатывать другие инструменты [5].
В нашем быстро развивающемся и связанном мире, где большие данные распространены повсеместно, важно понимать необходимость безопасности при обработке и анализе огромных объемов данных. Это начинается с понимания наших данных и связанных с ними политик безопасности, а также вращается вокруг понимания политик безопасности в наших организациях и того, как их необходимо применять. Текущие изменения в Hadoop, вероятно, смогут повысить эффективность создания систем безопасности в Hadoop и, тем самым, повысить её защищенность.
References
1. Zettaset "The Big Data Security Gap: Protecting the Hadoop Clustef'. Available at: https://www.zettaset.com/ wp-content/uploads/2014/04/zettaset_wp_security_0413.pdf (accessed: 08.09.2018).
2. Devaraj Das, Owen O'Malley, Sanjay Radia, and Kan Zhang "Adding Security to Apache Hadoop". Available at: http://hortonworks.com/wp-content/uploads/ 2011/08/adding_security_to_apache_hadoop.pdf (accessed: 08.09.2018).
3. Horton works "Technical Preview for Apache Knox Gateway". Available at: http://public-repo-1.hortonworks.com/HDP-LABS/Projects/Knox/1.3.3.0-59/KnoxTechnicalPreview.pdf (accessed: 08.09.2018).
4. Kevin T. Smith "Big Data Security: The Evolution of Hadoop's Security Model". Available at: https:// www.infoq.com/articles/HadoopSecurityModel (accessed: 08.09.2018).
5. Vinay Shukla s "Hadoop Security: Today and Tomorrow". Available at: https://hortonworks.com/ blog/hadoop-security-today-and-tomorrow/ (accessed: 08.09.2018).
© Астапенко Т. С., Соколин Д. Д., 2018