Научная статья на тему 'Облачные технологии: основные модели, приложения, концепции и тенденции развития'

Облачные технологии: основные модели, приложения, концепции и тенденции развития Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
17848
3310
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБЛАЧНЫЕ ВЫЧИСЛЕНИЯ / WEB-ПРИЛОЖЕНИЕ / ВИРТУАЛИЗАЦИЯ СЕРВЕРОВ / ХРАНИЛИЩЕ ДАННЫХ / ЦЕНТР ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мурзин Ф. А., Батура Т. В., Семич Д. Ф.

В статье дается обзор по облачным информационным технологиям. Под облачными вычислениями (также используется термин «облачная (рассеянная) обработка данных») обычно понимается предоставление пользователю компьютерных ресурсов и мощностей в виде интернет-сервисов. Рассмотрены основные модели предоставления услуг облачных вычислений: IaaS, PaaS и SaaS, особенности облачных платформ, предлагаемых компаниями Amazon, Google, Microsoft, IBM, Oracle и др. Приведены примеры наиболее удачного применения облачных решений, в том числе в крупных российских ИТ-компаниях. Облачные вычисления применяются для решения задач в ряде предметных областей: семантический поиск, социальные сети, базы знаний, моделирование фотонных кристаллов, поиск последовательностей ДНК и т.д. Большое количество работ посвящено эффективному хранению и обработке данных в облачных системах. В статье приведены некоторые задачи, возникающие перед разработчиками облачных сервисов и перед специалистами, их использующими, обсуждаются тенденции развития облачных вычислений, в частности, возникающие вызовы и риски (challenges and risks).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мурзин Ф. А., Батура Т. В., Семич Д. Ф.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Облачные технологии: основные модели, приложения, концепции и тенденции развития»

УДК 004.6:004.75 Дата подачи статьи: 07.06.2014

ОБЛАЧНЫЕ ТЕХНОЛОГИИ: ОСНОВНЫЕ МОДЕЛИ, ПРИЛОЖЕНИЯ, КОНЦЕПЦИИ И ТЕНДЕНЦИИ РАЗВИТИЯ

Т.В. Батура, к.ф.-м.н., старший научный сотрудник; Ф.А. Мурзин, к.ф.-м.н., зам. директора; Д.Ф. Семич, к.ф.-м.н., старший научный сотрудник (Институт систем информатики им. А.П. Ершова СО РАН, просп. Лаврентьева, 6, г. Новосибирск, 630090, Россия, [email protected]; [email protected]; [email protected])

В статье дается обзор по облачным информационным технологиям. Под облачными вычислениями (также используется термин «облачная (рассеянная) обработка данных») обычно понимается предоставление пользователю компьютерных ресурсов и мощностей в виде интернет-сервисов. Рассмотрены основные модели предоставления услуг облачных вычислений: IaaS, PaaS и SaaS, особенности облачных платформ, предлагаемых компаниями Amazon, Google, Microsoft, IBM, Oracle и др. Приведены примеры наиболее удачного применения облачных решений, в том числе в крупных российских ИТ-компаниях. Облачные вычисления применяются для решения задач в ряде предметных областей: семантический поиск, социальные сети, базы знаний, моделирование фотонных кристаллов, поиск последовательностей ДНК и т.д. Большое количество работ посвящено эффективному хранению и обработке данных в облачных системах. В статье приведены некоторые задачи, возникающие перед разработчиками облачных сервисов и перед специалистами, их использующими, обсуждаются тенденции развития облачных вычислений, в частности, возникающие вызовы и риски (challenges and risks).

Ключевые слова: облачные вычисления, web-приложение, виртуализация серверов, хранилище данных, центр данных.

Received 07.06.2014

CLOUD TECHNOLOGIES: BASIC MODELS, APPLICATIONS, CONCEPTS AND DEVELOPMENT TENDENCIES Batura T. V., Ph.D. (Physics and Mathematics), Senior Researcher;

Murzin F.A., Ph.D. (Physics and Mathematics), Deputy Director in Science; Semich D.F., Ph.D. (Physics and Mathematics), Senior Researcher (A.P. Ershov Institute of Informatics Systems (IIS), Siberian Branch of the Russian Federationn Academy of Sciences, Lavrenteva Ave. 6, Novosibirsk, 630090, Russian Federation, [email protected]; [email protected]; [email protected]) Abstract. The article represents the review on cloud information technologies. Cloud computing (also "cloud (distributed) data processing") is usually represented as the providing computer resources and capacities to a user in the form of Internet services. The article considers the basic models of cloud calculations services: IaaS, PaaS, and SaaS; features of the cloud platforms offered by Amazon, Google, Microsoft, IBM, Oracle, etc. The examples of the most successful cloud decisions application including large Russian IT-companies are represented. Cloud calculations are applied to solve problems in a number of subject domains: semantic search, social networks, knowledge bases, modelling of photon crystals, search of DNA sequences etc. A large number of works is devoted to questions of effective data storage and data processing in cloud systems. The article considers some problems for of cloud services developers and users. In conclusion, tendencies of cloud computing development are discussed, in particular, arising challenges and risks.

Keywords: cloud computing, web-application, servers virtualization, data storage, data center.

Идея облачных вычислений появилась еще в 1960 году, когда Джон Маккарти высказал предположение, что когда-нибудь компьютерные вычисления будут производиться с помощью общенародных утилит. Под облачными вычислениями (от англ. cloud computing) обычно понимается предоставление пользователю компьютерных ресурсов и мощностей в виде интернет-сервисов. Вычислительные ресурсы предоставляются пользователю в «чистом» виде, и пользователь может не иметь понятия, какие компьютеры обрабатывают его запросы, под управлением какой операционной системы это происходит и т.д.

В настоящее время крупные вычислительные облака состоят из тысяч серверов, размещенных в центрах обработки данных (ЦОД). Они обеспечивают ресурсами десятки тысяч приложений, которые одновременно используют миллионы пользователей [1].

Основные модели предоставления услуг облачных вычислений

Модели развертывания облачных технологий. По модели развертывания облака разделяют на частные, общедоступные (публичные) и гибридные [2, 3].

Частные облака - это внутренние облачные инфраструктура и службы предприятия. Эти облака находятся в пределах корпоративной сети. Организация может управлять частным облаком самостоятельно или поручить управление внешнему подрядчику.

Общедоступные (публичные) облака - это облачные услуги, предоставляемые поставщиком. Облака находятся за пределами корпоративной сети. Пользователи не имеют возможности управлять данным облаком или обслуживать его - вся ответственность возложена на владельца облака.

Гибридные облака сочетают в себе общедоступные и частные облака. Обычно они создаются предприятием, а обязанности по управлению ими распределяются между предприятием и поставщиком общедоступного облака.

Частное облако не всегда территориально размещено у заказчика. Частное облако означает конфиденциальность, а не конкретное местоположение, владение ресурсами или самостоятельное управление.

Основные свойства облачных технологий. Национальный Институт стандартов и технологий NIST (National Institute of Standards and Technology, USA) в своем документе "The NIST Definition of Cloud Computing" [4] определяет следующие характеристики облаков: возможность в высокой степени автоматизированного самообслуживания системы со стороны провайдера; наличие системы Broad Network Access; сосредоточенность ресурсов на отдельных площадках для их эффективного распределения; быстрая масштабируемость - ресурсы могут неограниченно выделяться и высвобождаться с большой скоростью в зависимости от потребностей; управляемый сервис - система управления облаком автоматически контролирует и оптимизирует выделение ресурсов, основываясь на измеряемых параметрах сервиса: размер системы хранения, ширина полосы пропускания, число активных пользователей и т.д.

Самообслуживание по требованию (On-demand self-service). У потребителя есть возможность получить доступ к предоставляемым вычислительным ресурсам в одностороннем порядке по мере потребности, автоматически, без необходимости взаимодействия с сотрудниками поставщика услуг.

Широкий сетевой доступ (Broad network access). Предоставляемые вычислительные ресурсы доступны по сети через стандартные механизмы для различных платформ, тонких и толстых клиентов, мобильных телефонов, планшетов, ноутбуков, рабочих станций и т.п.

Объединение ресурсов в пулы (Resorce pooling). Вычислительные ресурсы провайдера объединяются в пулы для обслуживания многих потребителей по многоарендной (multi-tenant) модели. Примерами такого рода ресурсов могут быть системы хранения, вычислительные мощности, память, пропускная способность сети.

Мгновенная эластичность (Rapid elasticity). Ресурсы могут быть легко выделены и освобождены, в некоторых случаях автоматически, для быстрого масштабирования соразмерно спросу. Для потребителя возможности предоставления ресурсов являются неограниченными, то есть они могут быть присвоены в любом количестве и в любое время.

Измеряемый сервис (Measured service). Облачные системы автоматически управляют и оп-

тимизируют ресурсы с помощью средств измерения, реализованных на разном уровне абстракции применительно для разного рода сервисов (например, управление внешней памятью, обработкой, полосой пропускания или активными пользовательскими сессиями). Использованные ресурсы можно отслеживать и контролировать, что обеспечивает прозрачность как для поставщика, так и для потребителя, использующего сервис.

Модели обслуживания облачных технологий. В настоящее время принято выделять три основные модели обслуживания облачных технологий, которые иногда называют «слоями облака» [3-7]. Эти три слоя - услуги инфраструктуры, услуги платформы и услуги приложений - отражают строение не только облачных технологий, но и информационных технологий в целом.

К услугам инфраструктуры (Infrastructure as a Service - IaaS) можно отнести набор физических ресурсов, таких как серверы, сетевое оборудование и накопители, предлагаемые заказчикам в качестве услуг. Услуги инфраструктуры решают задачу надлежащего оснащения центров обработки данных, предоставляя вычислительные мощности по мере необходимости.

Примерами услуг инфраструктуры служат IBM SmartCloud Enterprise, VMWare, Amazon EC2, Windows Azure, Google Cloud Storage, Parallels Cloud Server и многие другие.

Услуги платформы (Platform as a Service -PaaS) - это модель обслуживания, в которой потребителю предоставляются приложения как набор услуг. В него входят, в частности, промежуточное ПО как услуги, обмен сообщениями как услуги, интеграция как услуги, информация как услуги, связь как услуги и т.д. Например, рабочее место как услуга (Workplace as a Service - WaaS) позволяет компании использовать облачные вычисления для организации рабочих мест своих сотрудников. Данные как услуга (Data as a Service -DaaS) предоставляют пользователю дисковое пространство, которое он может использовать для хранения больших объемов информации. Безопасность как услуга (Security as a Service - SaaS) дает возможность пользователям быстро развертывать продукты, позволяющие обеспечить безопасное использование веб-технологий.

Примерами услуг платформы служат IBM SmartCloud Application Services, Amazon Web Services, Windows Azure, Boomi, Cast Iron, Google App Engine и др.

Услуги приложений (Software as a Service -SaaS) предполагают доступ к приложениям как к сервису, то есть приложения провайдера запускаются в облаке и предоставляются пользователям по требованию как услуги. Приложения доступны посредством различных клиентских устройств или через интерфейсы тонких клиентов, например, такие, как веб-браузер, или веб-почта, или интер-

фейсы программ. Потребитель при этом не управляет базовой инфраструктурой облака, в том числе сетями, серверами, операционными системами. На конечном пользователе лежит ответственность только за сохранность параметров доступа (логинов, паролей и т.д.) и выполнение рекомендаций провайдера по безопасным настройкам приложений.

Примерами SaaS являются Gmail, Google Docs, Netflix, Photoshop.com, Acrobat.com, Intuit Quick-Books Online, IBM LotusLive, Unyte, Salesfor-ce.com, Sugar CRM и WebEx. Реализацией SaaS является и значительная часть растущего рынка мобильных приложений.

Обзор решений ведущих вендоров

В настоящий момент основными поставщиками облачной инфраструктуры считаются Amazon, Google и Microsoft. У каждой из компаний имеется целая линейка предоставляемых услуг. Здесь описаны только некоторые из них, наиболее популярные. Также не обсуждается, к какой именно модели относится та или иная услуга и какие вендоры предоставляют только публичные облака, а какие могут участвовать в создании частных облаков.

Проведем сравнение платформ Google [8], Amazon [9] и Microsoft [10].

Google Drive - облачное хранилище данных, принадлежащее компании Google и позволяющее пользователям хранить свои данные на серверах в облаке и делиться ими с другими пользователями в Интернете. Google Drive отличается лаконичным интерфейсом и предлагает установить удобные программные клиенты для смартфонов и планшетов на базе ОС Android, ПК и ноутбуков под управлением ОС Windows или MacOS, мобильных устройств iPhone и iPad. Работать с файлами в Google Drive можно прямо в браузере.

Google Docs - бесплатный онлайн-офис, включающий в себя текстовый, табличный процессор и сервис для создания презентаций, а также интернет-сервис облачного хранения файлов с функциями файлообмена. Позволяет создавать и редактировать стандартные документы, таблицы и презентации, а также поддерживает функции совместной работы над ними.

Google App Engine - сервис хостинга сайтов и web-приложений на серверах Google. Бесплатно предоставляется до 1 Гб дискового пространства, 10 Гб входящего трафика в день, 10 Гб исходящего трафика в день, 200 миллионов гигациклов CPU в день и 2 000 операций отправления электронной почты в день. Платформа Google конкурирует с аналогичными сервисами от Amazon, которые предоставляют возможность размещать файлы и веб-приложения, используя свою инфраструктуру.

Google Cloud Storage - сервис хостинга файлов, основанный на IaaS. Все файлы, записываемые или перезаписываемые на серверы, автоматически шифруются по алгоритму AES-128. Сервис является конкурентом продукта Amazon S3.

Amazon Simple Storage Service (Amazon S3) -онлайновая веб-служба, предлагаемая Amazon Web Services, предоставляющая возможность для хранения и получения любого объема данных, в любое время из любой точки сети, так называемый файловый хостинг. В марте 2012 года компания Nasuni провела опыт, во время которого поочередно передавала массивный объем данных (12 Тб) из одного облачного сервиса в другой [11]. В эксперименте участвовали наиболее рейтинговые облака: Amazon S3, Windows Azure и Rack-space. К удивлению исследователей, скорость передачи данных сильно отличалась в зависимости от того, какое облако принимало данные. Самый лучший показатель скорости записи данных оказался у Amazon S3, передача данных из двух других сервисов занимала всего 4-5 часов, в то время как передача данных в Rackspace заняла чуть меньше недели, а в Windows Azure - 40 часов.

Amazon Elastic Compute Cloud (Amazon EC2) - веб-сервис, предоставляющий вычислительные мощности в облаке. Он дает пользователям полный контроль над вычислительными ресурсами, а также доступную среду для работы. Amazon EC2 позволяет пользователям создать Amazon Machine Image (AMI), который будет содержать их приложения, библиотеки, данные и связанные с ними конфигурационные параметры или использовать заранее настроенные шаблоны образов для работы Amazon S3.

Microsoft SkyDrive - интернет-сервис хранения файлов с функциями файлообмена, созданный и управляемый компанией Microsoft. Сервис SkyDrive позволяет хранить до 7 Гб информации (или 25 Гб для пользователей, имеющих право на бесплатное обновление) в виде стандартных папок. Пользователи могут просматривать, загружать, создавать, редактировать и обмениваться документами Microsoft Office (Word, Excel, PowerPoint и OneNote) непосредственно в веб-браузере.

Windows Azure - платформа облачных сервисов, разработанная Microsoft. Реализует модели PaaS и IaaS. Платформа предоставляет возможность разработки и выполнения приложений и хранения данных на серверах, расположенных в распределенных центрах данных.

• Windows Azure Compute - компонент, реализующий вычисления на платформе Windows Azure, предоставляет среду выполнения на основе ролевой модели.

• Windows Azure Storage - компонент хранилища, предоставляет масштабируемое хранилище. Не имеет возможности использовать реляционную модель и является альтернативой (либо

дополняющим решением) SQL Databases (SQL Azure) - масштабируемой «облачной» версией SQL Server.

• Windows Azure Fabric - по своему назначению является «контролером» и ядром платформы, выполняя функции мониторинга в реальном времени, обеспечения отказоустойчивости, выделения мощностей, развертывания серверов, виртуальных машин и приложений, балансировки нагрузки и управления оборудованием.

В работе [12] рассматриваются несколько типовых задач и сравниваются их возможные решения на каждой из платформ Amazon EC2, Google App Engine, Windows Azure.

Для полноты исследования необходимо рассмотреть еще некоторых крупных поставщиков облачных технологий.

IBM SmartCloud [13]. Облачное решение, предлагаемое компанией IBM, реализует все три модели (IaaS, SaaS, PaaS) в рамках не только публичного, но и частного и гибридного облаков. В его состав входит облачный сервис, ранее называемый IBM Lotus Live, предоставляющий бизнес-приложения по модели SaaS. Содержит полный набор интерактивных сервисов, которые предоставляют масштабируемые решения для организации защищенной системы электронной почты, проведения web-конференций и коллективной работы.

Rackspace Cloud [14]. Платформа предлагает набор продуктов для автоматизации хостинга и облачных вычислений, реализуется модель PaaS. Благодаря серверной виртуализации пользователи получают возможность развертывать сотни облачных серверов одновременно и создавать архитектуру, обеспечивающую высокую доступность. Является конкурентом Amazon Web Services.

Oracle Exalogic Elastic Cloud [15]. На сегодняшний день компания ORACLE признана одним из ведущих поставщиков программного обеспечения, построенного по технологии облака, и работает более чем с 5,5 млн пользователей. Для облачных вычислений компания ORACLE предлагает две ключевые технологии: виртуализация и кластеризация серверов. Для разработки новых приложений программисты могут использовать знакомые среды проектирования, такие как JDeveloper, NetBeans и Eclipse, а также сетевые инструменты WebCenter Page Composer, BI Composer и BPM Composer.

Аппаратные комплексы Oracle Exadata. Данные аппаратные комплексы выпускаются в виде стандартных стоек для размещения в ЦОД. Они состоят из серверов, использующих процессоры Intel XEON, основанные на архитектуре x86 и x64. В Oracle Exadata используются два типа серверов: серверы хранения данных и серверы обработки. В качестве моста между серверами используются коммутаторы InfiniBand и Ethernet.

Salesforce.com [16]. Система управления взаимоотношениями с клиентами (CRM-система -Customer Relationship Management) предоставляется заказчикам исключительно под модели SaaS. Под наименованием Force.com компания предоставляет PaaS-платформу для самостоятельной разработки приложений, а под брендом Database.com - облачную систему управления БД. В качестве такой системы платформа Force.com использует три реплицируемых кластера Oracle RAC, по восемь узлов в каждом.

Parallels [17]. Предлагается целый ряд продуктов для автоматизации хостинга и облачных вычислений, основанных на IaaS. Parallels Cloud Server объединяет в себе Parallels Cloud Storage, Parallels Virtuozzo Containers и Parallels Hypervisor, позволяя значительно повысить надежность, производительность и рентабельность серверов.

Slidebar [18]. Облачная инфраструктура, предоставляемая в аренду (IaaS), продвигается под брендом SlideBar. Масштабируемые в реальном времени виртуальные машины с почасовой оплатой за мощность, измеряемую количеством арендованных процессорных ядер и объемом предоставленного хранилища данных. Дополнительно клиент может заказать гарантированную мощность процессоров (с учетом всех используемых ядер). SlideBar построен на облачной платформе Parking Cloud, использующей виртуализацию аппаратного обеспечения Microsoft Hyper-V R2 и кластеризацию для распределения нагрузки, повышения надежности и работоспособности системы. Физически кластеры SlideBar размещаются в трех ЦОД компании Parking.ru, находящихся в Москве. Серверы кластеров построены на платформе HP с процессорами Intel серии 5500 и используют разделяемое сетевое хранилище (SAN) Cluster Shared Volume.

ЦОД «ТрастИнфо». Совместное предприятие финской компании Tieto и российской компании «Ай-Теко». Российское облако предполагается сделать частью глобальной облачной сети Tieto, которая включает Санкт-Петербург, Хельсинки, Стокгольм, Осло и Копенгаген. Заказчикам будут гарантированы международный уровень качества услуг и доступ к сервисам и ресурсам Microsoft, Cisco и EMC. ЦОД «ТрастИнфо» имеет общую площадь 3 000 м2, количество стоек - 800, среднее энергопотребление на стойку - 5 кВт, пропускную способность волоконно-оптических линий связи -до 10 Гбит/с.

Опыт удачного применения готовых облачных решений. Первые масштабные проекты по внедрению Windows Azure в крупных российских ИТ-компаниях были представлены журналистам компанией Microsoft [19]. Так, известный разработчик электронных словарей и систем оптического распознавания текста компания ABBYY открыла OCR-сервис FineReader Online на платфор-

ме Windows Azure. Согласно ее оценке, миграция на облачную платформу Microsoft позволит сократить расходы на поддержку сервиса в полтора раза. Платформу Windows Azure активно осваивает также компания «Медиалогия» - разработчик первой в России автоматической системы мониторинга и анализа СМИ в режиме реального времени. Она разрабатывает системы анализа в Интернете российских и зарубежных блогов и СМИ с последующим предоставлением своим заказчикам мониторинга по темам и ключевым словам.

В Санкт-Петербургском национальном исследовательском университете информационных технологий, механики и оптики разрабатывается облачная платформа CLAVIRE для обработки данных больших объемов [20]. В основном платформа используется для обработки большого объема данных, получаемых в ходе наблюдений, экспериментов и в процессе математического моделирования на основе численных методов или компьютерной графики.

Популярный в Интернете сервис для хостинга слайдов SlideShare реализовал переконвертацию нескольких миллионов накопленных документов из Flash к формату HTML5 при помощи виртуальных серверов, предоставленных компанией Amazon [21]. Причин для апгрейда три. Во-первых, презентации на HTML5 отображаются на всех устройствах, включая смартфоны/планшеты iPho-ne/iPad и Android, и на десктопе - и это один и тот же файл. Таким образом, уменьшается объем данных на хостинге. Во-вторых, документы стали на 40 % компактнее и загружаются на 30 % быстрее. В-третьих, документы теперь индексируются поисковыми системами. Текст без проблем выделяется мышкой и копируется, что всегда было затруднительно с Flash.

Известно, что технологии HP сыграли ключевую роль в создании многих кинокартин компании DreamWorks [22]. Чтобы справиться с обработкой больших объемов данных, необходимых для производства, например, фильма «Кот в сапогах», DreamWorks внедрила облачные сервисы HP.

Опыт компании Microsoft. В многочисленных докладах Фабрицио Гальярди [23], имеющихся в сети Интернет, четко выражена позиция компании Microsoft относительно дальнейшего развития облачных вычислений и дается информация о ведущихся проектах.

Облака основываются на больших центрах по сбору данных. Местонахождение наиболее важных ЦОД некоторых компаний: Google - Lenoir, TN; Apple - Apple, NC; Microsoft - Chicago, IL; Yahoo - La Vista, NE [24].

В [25] дана достаточно подробная информация о центрах данных компании Google. На момент написания статьи у Google было 19 центров в США, 12 в Европе, один в России, один в Южной Америке и три в Азии. В действительности Google

иногда арендует место в центрах данных других компаний.

Специалисты компании Microsoft отмечают, что в настоящее время еще необходимо провести исследования и сделать детальный экономический анализ деятельности для малого центра данных (1 тысяча серверов) и для большого (100 тысяч серверов). Центр данных компании Microsoft в Чикаго имеет размер в 11,5 раза больше размера футбольного поля, и можно только догадываться, сколько серверов в нем сосредоточено. Компания Microsoft Research подписала большое количество соглашений с партнерами в Европе, Азии и Латинской Америке по развитию облачных вычислений, например, в рамках Европейского проекта Virtual multidisciplinary EnviroNments USing Cloud infrastructures (VENUS-C).

Обработка больших объемов данных и некоторые задачи

Для моделирования в различных предметных областях широко используются графы, позволяющие отобразить взаимоотношения объектов и динамику процессов. Постоянно увеличивающиеся объемы данных в различных приложениях приводят к необходимости для анализа графов использовать масштабируемые платформы и параллельные вычислительные архитектуры. Облачные вычисления применяются для решения задач в ряде предметных областей: семантический поиск [26], социальные сети, базы знаний, моделирование фотонных кристаллов [27], поиск последовательностей ДНК [28] и т.д.

Вопросам эффективного хранения и обработки данных в системах такого рода посвящено немало работ [29-31]. Конечно, имеется большое количество проблем, прямо не связанных с графами. Рассмотрим некоторые задачи, возникающие перед разработчиками облачных сервисов и перед использующими их специалистами.

Задачи распределения и использования ресурсов. При организации вычислительных процессов в сетях с облачной инфраструктурой объектами являются виртуальные машины, сервисы, программы, наборы данных, заявки; позициями - вычислительные узлы, устройства памяти, места в очередях на исполнение. При этом рассматривается ряд количественных характеристик: интенсивность поступающих запросов и степень загрузки центральных устройств, интенсивность межмашинного взаимодействия через сетевые адаптеры и др. Могут также учитываться характеристики индикаторного типа, например, наличие необходимого пакета на данном вычислительном узле. Далее возникают, вообще говоря, оптимизационные задачи на графах, связанные с распределением и использованием ресурсов и составлением расписаний.

Модель распределенных вычислений MapRe-duce. Данная модель компании Google используется для параллельных вычислений над очень большими объемами данных. Точнее, MapReduce - это фреймворк для организации вычислительных процессов на распределенных системах, содержащих большое количество компьютеров, называемых нодами. Работа MapReduce состоит из двух шагов: Map и Reduce. На Map-шаге осуществляется предварительная обработка входных данных. Для этого один из компьютеров, называемый главным узлом (master node), получает входные данные задачи, разделяет их на части и передает другим компьютерам, называемым рабочими узлами (worker node), для предварительной обработки. На Reduce-шаге происходит свертка предварительно обработанных данных. Главный узел получает ответы от рабочих узлов и на их основе формирует результат, то есть решение задачи.

Защита облачной инфраструктуры. В облачной информационной среде возникают многочисленные проблемы информационной безопасности: распространение вредоносного ПО, его обнаружение, выявление ПО, не являющегося вредоносным, но содержащим в себе ошибки, которые могут привести к возникновению деструктивных процессов. Для решения возникающих задач обычно используются существующие решения: антивирусное ПО, системы обнаружения вторжений, системы предотвращения вторжений.

Однако в силу большого количества вычислительных узлов и больших объемов информации, циркулирующей в среде, а также неоднородности (например многоплатформенности) среды все задачи существенно усложняются.

Обеспечение надежности работы множества серверов. Очевидно, что в распределенной системе отдельные серверы могут выходить из строя и необходимо иметь средства для восстановления потерянной информации. Простое дублирование (реплицирование) данных - далеко не лучший способ, удобнее использовать коды, корректирующие ошибки.

Гомоморфные коды. Гомоморфное шифрование - это форма шифрования, позволяющая производить определенные математические действия с зашифрованным текстом и получать зашифрованный результат, который соответствует результату операций, выполняемых с открытым текстом. Обычно рассматривают операции сложения и умножения. Частично гомоморфные криптосистемы являются гомоморфными относительно только одной операции (сложения или умножения). Например, коды RSA и Эль-Гамаля гомоморфны относительно операции умножения. В 2009 году Крейгом Джентри из компании IBM был предложен полностью гомоморфный код [32], то есть код, гомоморфный для операций умножения и сложения одновременно. Очевидно, что гомо-

морфные коды естественно использовать в облачных средах. Однако при повышении уровня безопасности размер зашифрованного текста стремительно растет, что затрудняет применение метода Крейга Джентри на практике. Тем не менее компания IBM выпустила свободную криптографическую библиотеку HElib с поддержкой гомоморфного шифрования [33].

Идентификация спам-страниц. Наглядным примером использования крупномасштабного графа является задача идентификации спам-страниц в поисковых сервисах сети Интернет. Поскольку для определения страниц, содержащих спам, требуются большие вычислительные возможности, разумно пытаться решать данную задачу посредством облачных технологий. Например, в работе [34] проблема идентификации спама представлена как задача бинарной классификации с обучаемым классификатором. В этой работе предлагается применять «алгоритм с мягким зазором для метода опорных векторов» (Soft margin SVM - Soft margin Support Vector Machines).

Поиск информации. Еще один яркий пример применения облачных технологий - организация поиска. Например, в работе [35] рассматривается задача нечеткого поиска по ключевым словам в зашифрованных данных.

В заключение необходимо сделать следующие выводы. В настоящее время развитие информационных технологий идет очень быстрыми темпами, поэтому естественны попытки в той или иной мере прогнозировать будущее. В частности, обсуждаются различные возникающие вызовы и риски (challenges and risks), с которыми может столкнуться общество. Авторы данной статьи попытались сделать определенные выводы на эту тему и не исключают, что с течением времени какие-то из высказанных положений могут оказаться неверными.

По мнению авторов, в строительстве больших центров данных можно заметить стремление некоторых транснациональных корпораций типа Microsoft, IBM, Google овладеть большими объемами информации. Если экстраполировать происходящие сегодня события, то можно представить себе следующее их развитие. Например, некая компания сообщает, что наряду с обычным разработанным ею ПО имеется облачный вариант. Обычному пользователю облачный вариант может оказаться ненужным, но его может использовать какая-то компания. При этом рекламируются удобство для коллективного использования и безопасность хранения данных, однако данные становятся доступными для «владельцев облаков», то есть для владельцев серверов.

Возможно, компания заявит, что в дальнейшем она не будет поддерживать обычный вариант программ, только облачный. Конечно, можно поддерживать обычный вариант на своем компьюте-

ре, но через некоторое время компьютер выйдет из строя, так как при производстве изначально заложен ограниченный ресурс времени его эксплуатации. А на новом компьютере обычный вариант программ (не облачный) уже не будет работать, как не будут работать еще множество программ других компаний. Таким образом, не останется ничего другого, как «отправиться в облака», что сделает ваши данные доступными для посторонних. Конечно, их можно кодировать, но специалисты более высокого класса почти все могут декодировать.

Центры данных позволяют аккумулировать разнообразную информацию - политическую, военную, экономическую, социологическую, технологическую и др. - и, используя автоматизированные методы, вести одновременный диалог с большим количеством людей. Например, компания IBM для обсуждения ряда технологических проблем привлекла около 140 тысяч человек. На специальном сайте Innovation Jam 2008 обсуждались вопросы изменения бизнес-моделей, взаимодействия с потребителями, глобальной интеграции и защиты окружающей среды. Innovation Jam строится на разработанном в IBM инструментарии для Web 2.0. Пройдя регистрацию, участник попадает на регулируемый модераторами сайт, где в форме форумов и чатов идет обсуждение по заданным темам и ответвляющимся от них вопросам. Здесь же в реальном времени отображается подробная статистика по дискуссиям в мире и отдельных странах. Помощь модераторам в слежении за ходом разговоров и в их последующей классификации оказывает автоматизированное средство обработки текста e-Classifier. То есть, грубо говоря, сегодня возможно осуществлять «мозговые штурмы» с участием 140 тысяч человек.

Отдельная тема - социальные сети, представляющие собой интерактивный многопользовательский веб-сайт, контент которого наполняется самими участниками сети. Сайт представляет собой автоматизированную социальную среду, позволяющую общаться группе пользователей, объединенных общими интересами. К ним, в частности, относятся и все активнее развивающиеся тематические форумы, особенно отраслевые. Количество зарегистрированных пользователей только одной сети может превышать население целой страны. В последнее время все больше и больше говорят о персональных данных в Интернете, об анонимности и других подобных вещах. Касается эта проблема и социальных сетей, в которых хранится много личных данных. Самым безобидным можно считать использование личных данных самими владельцами социальных сетей для развития своего бизнеса, но личными данными могут воспользоваться и преступники, в том числе совершающие финансовые махинации в электронных сетях. Отдельно можно упомянуть

рекламные технологии. Многие социальные сети предоставляют прямую возможность проведения рекламы, данные технологии быстро развиваются, начиная от простого разделения по полу (как, например, у сети FaceBook) и заканчивая сложными системами слежения и анализа действий пользователя, на основе которых ему и будет показана реклама. Существуют целые схемы с применением методов психологического воздействия с целью получения секретной информации, как правило, коммерческого характера.

Также заслуживают внимания технологии коллективного создания энциклопедий типа Wiki-pedia. Некоторые компании создают внутренние закрытые системы типа Wikipedia, содержащие технологическую информацию. Облачные вычисления расширяют эти возможности.

Как уже было отмечено, в центрах данных могут сосредоточиваться персональные данные. Предполагается, что через некоторое время можно будет оперативно устанавливать координаты почти любого человека на планете. Через пять-десять лет он за относительно небольшую сумму сможет получить свои генетические данные. Появление этих данных создаст новые проблемы, так как из них можно будет выяснить не только предрасположенность к определенным заболеваниям и какими лекарствами человека лечить, но и какими ядами или вирусами на него легко воздействовать.

Центры данных могут быть потенциально интересными объектами для террористов и как средство получения информации, и как объекты террористических акций. В случае военных конфликтов центры данных могут стать важными целями. Естественно, что военные и спецслужбы типа Агентства национальной безопасности США уже создают свои центры данных, в том числе глубоко законспирированные.

Отметим, что создание центров данных на данном этапе крайне нерентабельно. Их стоимость может превышать 1 миллиард долларов. Компенсируются затраты за счет других видов деятельности, например, предоставления рекламных услуг в Интернете. Объемы данных, циркулирующих в обществе, по-видимому, еще долго будут намного превышать технические возможности по их накоплению и обработке, поэтому процесс овладения большими объемами информации будет идти не так успешно, как хотелось бы.

Подытоживая, отметим, что тенденция развития облачных вычислений, несмотря на вызовы и риски, все-таки существует. Поэтому целесообразно участвовать в описанных выше процессах для того, чтобы использовать новые возможности, появляющиеся в связи с развитием облачных вычислений и больших центров данных.

Расширенный вариант статьи опубликован в электронном журнале «Программные продукты, системы и алгоритмы» (http://www.swsys-web.ru).

Литература

1. Miller R. Who Has the Most Web Servers? URL: http://www.datacenterknowledge.com/archives/2009/05/14/whos-got-the-most-web-servers/ (дата обращения: 29.05.2014).

2. Медведев А. Облачные технологии: тенденции развития, примеры исполнения // Современные технологии автоматизации. 2013. № 2. С. 6-9.

3. Amrhein D., Quint S. Cloud computing for the enterprise: Part 1: Capturing the cloud. URL: http://www.ibm.com/developer-works/websphere/techjournal/0904_amrhein/0904_amrhein.html (дата обращения: 29.05.2014).

4. Облачные вычисления (Cloud computing). URL: http://www.tadviser.ru/index.php/Статья:Облачные_вычисления_ (Cloud_computing) (дата обращения: 12.03.2014).

5. Орландо Д. Модели сервисов облачных вычислений: инфраструктура как сервис. URL: http://www.ibm.com/deve-loperworks/ru/library/cloudservices1iaas/ (дата обращения: 13.03.2014).

6. Орландо Д. Модели сервисов облачных вычислений: платформа как сервис. URL: http://www.ibm.com/developer-works/ru/library/cloudservices2paas/ (дата обращения: 13.03.2014).

7. Орландо Д. Модели сервисов облачных вычислений: программное обеспечение как сервис. URL: http://www.ibm. com/developerworks/ru/library/cloudservices3saas/ (дата обращения: 24.03.2014).

8. Google App Engine. URL: http://en.wikipedia.org/wiki/ Google_App_Engine (дата обращения: 29.05.2014).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Amazon S3. URL: http://ru.wikipedia.org/wiki/Ama-zon_S3 (дата обращения: 29.05.2014).

10. Windows Azure. URL: http://en.wikipedia.org/wiki/Win-dows_Azure (дата обращения: 24.03.2014).

11. Не все облачные хранилища одинаковы. URL: http://www.hi-lo.ru/news/survey-not-all-storage-clouds-are-alike (дата обращения: 29.05.2014).

12. Новиков И. Облачные вычисления: на пороге перемен. URL: http://www.pcmag.ru/solutions/sub_detail.php?ID=44441& SUB_PAGE=1 (дата обращения: 16.01.2014).

13. Surana A., Vellal D., Guru R. Introducing IBM LotusLive. URL: http://www.ibm.com/developerworks/lotus/library/lotuslive-intro/index.html (дата обращения: 16.01.2014).

14. Rackspace Cloud. URL: http://en.wikipedia.org/wiki/ Rackspace_Cloud (дата обращения: 29.05.2014).

15. Exalogic. URL: http://ru.wikipedia.org/wiki/Exalogic (дата обращения: 14.02.2014).

16. Salesforce.com. URL: http://ru.wikipedia.org/wiki/Sales-force.com (дата обращения: 29.05.2014).

17. Parallels. URL: http://ru.wikipedia.org/wiki/Parallels (дата обращения: 16.01.2014).

18. Slidebar. URL: http://ru.wikipedia.org/wiki/Slidebar (дата обращения: 29.05.2014).

19. Рудницкий Г. Microsoft представила первых крупных российских клиентов Windows Azure. URL: http://www.it-week-ly.ru/market/business/29410.html (дата обращения: 29.05.2014).

20. Васильев В.Н., Князьков К.В., Чуров Т.Н., Насонов Д.А., Марьин С.В., Ковальчук С.В., Бухановский А.В. CLAVIRE: облачная платформа для обработки данных больших объемов // Информационно-измерительные и управляющие системы. 2012. Т. 10. № 11. С. 7-16.

21. Dignan L. SlideShare dumps Flash goes HTML5: Developer resources vs. multiple apps. URL: http://www.zdnet. com/blog/btl/slideshare-dumps-flash-goes-html5-developer-resour-ces-vs-multiple-apps/59006 (дата обращения: 29.05.2014).

22. Tadviser. URL: http://www.tadviser.ru/index.php/Новости (дата обращения: 29.05.2014).

23. Fabrizio Gagliardi - Director for Research Connections at Microsoft Research. URL: http://eai.eu/bio/fabrizio-gagliardi-direc-tor-research-connections-microsoft-research (дата обращения: 29.05.2014).

24. Kumar S., Buyya G., Buyya R. Green Cloud computing and Environmental Sustainability. IEEE Xplore Digital Library, 2012. Cloud Computing and Distributed Systems (CLOUDS) Laboratory, Dept. of Comp. Sci. and Software Engineering, Univ. of Melbourne, Australia, 27 p.

25. New Datacenter Locations. URL: http://royal.pingdom. com/2008/04/11/map-of-all-google-data-center-locations/ (дата обращения: 29.05.2014).

26. Sheu P.C.-Y., Wang S., Wang Q., Hao K., Paul R. Semantic Computing, Cloud Computing, and Semantic Search Engine. IEEE Intl Conf. on Semantic Computing, 2009, pp. 654-657.

27. O'Brien N.S., Johnston S.J., Hart E.E., Djidjeli K., Cox S.J. Exploiting Cloud Computing for Algorithm Development. IEEE Intl Conf. on Cyber-Enabled Distributed Computing and Knowledge Discovery, 2011, pp. 336-342.

28. Doddavula S.K., Saxena V. Implementation of a Secure Genome Sequence Search Platform on Public Cloud. Third IEEE Intl Conf. on Cloud Computing Technology and Science, 2011, pp. 205-212.

29. Papadopoulos A., Katsaros D. A-Tree: Distributed Indexing of Multidimensional Data for Cloud Computing Environments. Third IEEE Intl Conf. on Cloud Computing Technology and Science, 2011, pp. 407-414.

30. Weinman J. Mathematical Proof of the Inevitability of Cloud Computing. URL: http://www.JoeWeinman.com/Resources/ Joe_Weinman_Inevitability_Of_Cloud.pdf (дата обращения: 29.05.2014).

31. Петров Д.Л. Алгоритмы миграции данных в высоко-масштабируемых облачных системах хранения // Автореф. ... канд. дисс. СПб: Изд-во Санкт-Петербургского гос. электро-технич. ун-та «ЛЭТИ» им. В.И. Ульянова (Ленина). 2011. 18 с.

32. Gentry C. Fully Homomorphic Encryption Using Ideal Lattices. Proc. of 41st Annual ACM Symposium on Theory of Computing (STOC' 09). ACM, NY, USA, 2009, pp. 169-178.

33. Github. URL: https://github.com/shaih/HElib (дата обращения: 29.05.2014).

34. Chen J., Xu Y., Li Y. Research about spam page identification based on cloud computing in search service. 4th IEEE Intl Conf.on Intelligent Human-Machine Systems and Cybernetics, 2012, pp. 77-80.

35. Li J., Wang Q., Wang C., Cao N., Ren K., Lou W. Fuzzy keyword search over encrypted data in cloud computing. Proc. of IEEE INFOCOM, Mini-Conf., 10 Marth 2010, San Diego, CA, USA, 2010, pp. 441-445.

References

1. Miller R. Who Has the Most Web Servers? 2012. Available at: http://www.datacenterknowledge.com/archives/2009/05/14/ whos-got-the-most-web-servers/ (accessed May 29, 2014).

2. Medvedev A. Cloud technologies: development trends and examples of implementation. Sovremennye tekhnologii avtomati-zatsii [Contemporary Technologies in Automation]. Moscow, STA-Press, 2013, no. 2, pp. 6-9 (in Russ.).

3. Amrhein D., Quint S. Cloud computing for the enterprise. Part 1: Capturing the cloud. 2012. Available at: http://www.ibm. com/developerworks/websphere/techjournal/0904_amrhein/0904_a mrhein.html (accessed May 29, 2014).

4. Cloud computing. 2012. Available at: http://www.tadviser. ru/index.php/Статья:Облачные_вычисления_(Cloud_computing) (accessed Mart 12, 2014).

5. Orlando D. Modeli servisov oblachnykh vychisleniy: infra-struktura kak servis [Models of services of cloudcomputing: Infrastructure as a Service]. 2012. Available at: http://www.ibm.com/de-veloperworks/ru/library/cl-cloudservices1iaas/ (accessed Mart 13, 2014).

6. Orlando D. Modeli servisov oblachnykh vychisleniy: Chast 2. Platforma kak servis [Models of services of cloudcomputing: Platform as a Service]. 2012. Available at: http://www.ibm.com/ developerworks/ru/library/cl-cloudservices2paas/ (accessed Mart 13, 2014).

7. Orlando D. Modeli servisov oblachnykh vychisleniy: programmnoe obespechenie kak servis [Models of services of cloudcomputing: Software as a Service]. 2012. Available at: http:// www.ibm.com/developerworks/ru/library/cl-cloudservices3saas/ (accessed Mart 24, 2014).

8. Google App Engine. 2012. Available at: http://en.wiki-pedia.org/wiki/Google_App_Engine (accessed May 29, 2014).

9. Amazon S3. 2012. Available at: http://ru.wikipedia.org/wi-ki/Amazon_S3 (accessed May 29, 2014).

10. Windows Azure. 2012. Available at: http://en.wikipedia. org/wiki/Windows_Azure (accessed Mart 24, 2014).

11. Ne vse oblachnye khranilishcha odinakovy [Not all cloud storages are similar]. 2012. Available at: http://www.hi-lo.ru/news/ survey-not-all-storage-clouds-are-alike (accessed May 29, 2014).

12. Novikov I. Oblachnye vychisleniya: na poroge peremen [Cloud computing: on a threshold of changes]. 2012. Available at: http://www.pcmag.ru/solutions/sub_detail.php?ID=44441&SUB_P AGE=1 (accessed January 16, 2014).

13. Surana A., Vellal D., Guru R. Introducing IBMLotusLive. 2012. Available at: http://www.ibm.com/developerworks/lotus/lib-rary/lotuslive-intro/index.html (accessed January 16, 2014).

14. Rackspace Cloud. 2012. Available at: http://en.wikipedia. org/wiki/Rackspace_Cloud (accessed May 29, 2014).

15. Exalogic. 2012. Available at: http://ru.wikipedia.org/ wiki/Exalogic (accessed February 14, 2014).

16. Salesforce.com. 2012. Available at: http://ru.wikipedia. org/wiki/Salesforce.com (accessed May 29, 2014).

17. Parallels. 2012. Available at: http://ru.wikipedia.org/wiki/ Parallels (accessed January 16, 2014).

18. Slidebar. 2012. Available at: http://ru.wikipedia.org/wiki/ Slidebar (accessed May 29, 2014).

19. Rudnitsky G. Microsoft predstavila pervykh krupnykh ros-siyskikh klientov Windows Azure [Microsoft has presented the first large Windows Azure Russian clients]. 2012. Available at: http:// www.it-weekly.ru/market/business/29410.html (accessed May 29, 2014).

20. Vasilev V.N., Knyazkov K.V., Churov T.N., Naso-nov D.A., Maryin S.V., Kovalchuk S.V., Boukhanovskiy A.V. CLAVIRE: cloud computing platform for data-driven computing. Informatsionno-izmeritelnye i upravlyayushchie sistemy [Information-measuring and control systems]. 2012, vol. 10, no. 11, pp. 7-16 (in Russ.).

21. Dignan L. SlideShare dumps Flash goes HTML5: Developer resources vs. multiple apps. 2012. Available at: http://www. zdnet.com/blog/btl/slideshare-dumps-flash-goes-html5-developer-resources-vs-multiple-apps/59006 (accessed May 29, 2014).

22. Tadviser. 2012. Available at: http://www.tadviser.ru/in-dex.php/HoBocra (accessed May 29, 2014).

23. Fabrizio Gagliardi — Director for Research Connections at Microsoft Research. 2012. Available at: http://eai.eu/bio/fabri-zio-gagliardi-director-research-connections-microsoft-research (accessed May 29, 2014).

24. Kumar S., Buyya G., Buyya R. Green Cloud computing and Environmental Sustainability. IEEE Xplore Digital Library. 2012. Cloud Computing and Distributed Systems (CLOUDS) Laboratory. Univ. of Melbourne, Australia, 27 p.

25. New Datacenter Locations. 2008. Available at: http://ro-yal.pingdom.com/2008/04/11/map-of-all-google-data-center-locati-ons/ (accessed May 29, 2014).

26. Sheu P.C.-Y., Wang S., Wang Q., Hao K., Paul R. Semantic Computing, Cloud Computing, and Semantic Search Engine. IEEE Int. Conf. on Semantic Computing. 2009, pp. 654-657.

27. O'Brien N.S., Johnston S.J., Hart E.E., Djidjeli K., Cox S.J. Exploiting Cloud Computing for Algorithm Development. IEEE Int. Conf. on Cyber-Enabled Distributed Computing and Knowledge Discovery. 2011, pp. 336-342.

28. Doddavula S.K., Saxena V. Implementation of a Secure Genome Sequence Search Platform on Public Cloud. 3rd IEEE Int. Conf. on Cloud Computing Technology and Science. 2011, pp. 205-212.

29. Papadopoulos A., Katsaros D. A-Tree: Distributed Indexing of Multidimensional Data for Cloud Computing Environments. 3rd IEEE Int. Conf. on Cloud Computing Technology and Science. 2011, pp. 407-414.

30. Weinman J. Mathematical Proof of the Inevitability of Cloud Computing. 2011. Available at: http://www.JoeWeinman. com/Resources/Joe_Weinman_Inevitability_Of_Cloud.pdf (accessed May 29, 2014).

31. Petrov D.L. Algoritmy migratsii dannykh v vysokomasshta-biruemykh oblachnykh sistemakh khraneniya [Algorithms of migration of data in high-scaled cloud storage systems]. Ph.D. thesis, St. Petersburg, St. Petersburg Electrotechnical University (LETI),

2011, 18 p. (in Russ.).

32. Gentry C. Fully Homomorphic Encryption Using Ideal Lattices. Proc. of 41st Annual ACM Symp. on Theory ofComputing (STOC' 09). ACM New York, NY, USA, 2009, pp. 169-178.

33. Github. 2012. Available at: https://github.com/shaih/HElib (accessed May 29, 2014).

34. Chen J., Xu Y., Li Y. Research about spam page identification based on cloud computing in search service. 4th IEEE Int. Conf. on Intelligent Human-Machine Systems and Cybernetics.

2012, pp. 77-80.

35. Li J., Wang Q., Wang C., Cao N., Ren K., Lou W. Fuzzy keyword search over encrypted data in cloud computing. Mini-Conf. IEEEINFOCOM. 2010, pp. 441-445.

i Надоели баннеры? Вы всегда можете отключить рекламу.