Научная статья на тему 'Вычислительный центр следующего поколения'

Вычислительный центр следующего поколения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
97
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Вычислительный центр следующего поколения»

Протокол передачи Zmodem with Crash Recovery. Радиосвязь (IEEE 802.11b) организовывалась на радиоканале № 6 (2437 МГц) в полосе 22 МГц. Источник помех работал на радиоканале № 11 (2462 МГц) и на канале № 8 (2457 МГц). В обоих случаях передача прошла с ошибками при приеме, но без разрыва соединения.

С работающим источником помех на радиоканале № 6 (2437 МГц) при использовании протокола передачи Zmodem with Crash Recovery передача прошла без разрыва соединения, но с ошибками во время приема.

В результате проведенных экспериментов с использованием маршрутизаторов Cisco 2651 с модулем NM-8A/S и конвертора DE-311 было установлено, что передача асинхронного трафика через TCP/IP сеть с использованием туннелирова-ния на базе маршрутизаторов Cisco Systems либо на базе конвертора производства Moxa Technologies DE-311 NPort Express успешно и эффективно решает задачу передачи сырых данных через сети пакетной передачи данных согласно требованиям систем телемеханики и подобным им.

При этом применение маршрутизаторов (в силу особенности инкапсуляции данных) позволяет обеспечить большую надежность связи даже в условиях присутствия интенсивных помех.

Кроме того, использование маршрутизаторов на таких узлах позволяет не только обеспечить передачу сырых данных через существующую сеть, но и обеспечит канал для передачи разнородных IP данных, голосовой связи (VoIP) и пр. с обеспечением технологии QoS, приоритизации и списков доступа.

При необходимости решения только задачи передачи сырых данных через сеть пакетной передачи данных можно рассмотреть возможность использования конвертора интерфейсов "x to IP over Ethernet", например производства Moxa Technologies DE-311 NPort Express. Хотя такое решение позволяет относительно снизить капитальные расходы на развертывание сети, но не обеспечивает расширения функциональности, передачу данных от других устройств локального узла, поддержку качества обслуживания (QoS), то есть увеличивает операционные издержки.

ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР СЛЕДУЮЩЕГО

ПОКОЛЕНИЯ

А.Г. Быков

Темпы перемен нашей жизни являются движущей силой постоянного изменения, в том числе и архитектуры инфраструктуры информационных технологий (ИТ-инфраструктуры). Ведущие компьютерные фирмы активно пропагандируют свое видение и предложения для этой новой архитектуры: Adaptive Enterprise (Hewlett-Packard), стратегия TRIOLETM (Fujitsu-Siemens), Business On-Demand (IBM), Utility Computing, Oracle Information Architecture, ILM стратегия компании EMC2. Что же позволяет нам утверждать, что это -архитектура вычислительного центра следующего поколения?

Старший вице-президент по бизнес-приложениям и главный технолог компании Microsoft Дэвид Васкевич (http://www.microsoft.com/presspass /exec/dvaskevitch/default.asp) в своей книге «Стратегии клиент-сервер. Руководство по выживанию специалистов по реорганизации», изданной IDG еще в 1993 году, достаточно убедительно очертил основную роль компьютерных технологий как инструмента оптимизации системы управления, инструмента, исполняющего правила управления, или программы. Этот инструмент сам является

сложной многокомпонентной системой, к которой применимы законы управления. И поэтому рассмотрение архитектуры ИТ-инфраструктуры мы будем делать под углом ее адекватности потребностям по выполнению правил управления.

Рассмотрим хорошо известные архитектуры ИТ-инфраструктуры. Вначале архитектура ИТ-инфраструктуры была централизованной. В центре информационной системы (ИС), в главном вычислительном центре располагались главный вычислитель - мейнфрейм, главная шина данных и подсистема памяти (подсистема хранения данных, включая ОЗУ, диски и ленты), к которым были подключены терминалы. Компонентов было относительно немного, управление было эффективным, но центральный вычислительный центр был единой точкой отказа всей ИС, да и стоимость мейнфреймов была очень высока для большинства, и поэтому они были доступны только крупным организациям. С кибернетической точки зрения (закон Эшби: «Только разнообразие может справиться с разнообразием») явно требовалось увеличить разнообразие системы для обеспечения ее

отказоустойчивости и удешевления, что и произошло.

Появление персональных компьютеров начало эру распределенных и значительно более доступных вычислений - систем клиент-сервер, заметный расцвет которых пришелся на 90-е годы прошлого века. Вычислительные устройства и подсистема памяти распределились поближе к терминалам, обеспечив более полное соответствие архитектуре приложений. Такое распределение потребовало бурного развития технологий шины данных - системы коммуникаций.

Эта, вторая архитектура ИТ-инфраструктуры относительно долгое время отвечала требованиям бизнеса. Но при таком обеспечении соответствия архитектуре приложений было постепенно потеряно преимущество эффективного управления ею. Даже в самом начале ее распространения появились проблемы с организацией адекватного управления такими распределенными системами, с обеспечением надежности и эффективности. Возможности системы ее управления все более отставали от увеличения разнообразия ИТ-инфраструктуры.

Времена изменились. Все большее понимание роли и места ИТ в нашей жизни и бизнесе повлекло за собой взрывообразный рост объема и возрастание важности компьютерных данных. Несмотря на то что прошла эйфория бума электронного бизнеса, все большему количеству ИС организаций уже нужно быть on-line 24 часа в сутки, 7 дней в неделю. Все большее число руководителей начинают оценивать затраты на ИТ с инвестиционной точки зрения и хотят получать как можно больше на вложенные средства. И поэтому перед современными ИТ-менеджерами стоят многочисленные проблемы, вызванные постоянным давлением требований «делать больше с меньшими ресурсами», улучшать уровень ИТ-сервисов наряду со снижением операционных расходов.

Ответом на новые потребности стало рождение третьей по счету архитектуры ИТ-инфраструктуры, в которой предпринята попытка соединить преимущества как централизованной, так и распределенной архитектур; попытка использовать принципы, которые применимы в управлении другими крупными, сложными и распределенными системами. С точки зрения управления ИТ-инфраструктурой и с учетом закона Эшби нас интересуют способы уменьшения существующего разнообразия ее компонентов и увеличение разнообразия способов воздействия на нее как на систему. Ключевыми словами здесь являются консолидация и виртуализация.

Консолидацией называют процесс объединения более мелких объектов в более крупные. При этом в случае консолидации компьютерных систем она может быть физической и логической.

Физическая консолидация означает физическое размещение серверов и системы хранения данных в одном или нескольких ограниченных помещениях или вычислительных центрах, использование нескольких мощных серверов вместо десятка или сотен более мелких.

Уменьшение количества серверов, количества производителей используемого оборудования, количества интерфейсов управления дает ощутимый эффект снижения общей стоимости владения прежде всего за счет снижения административных расходов. Не надо забывать, что стоимость процессорной мощности все время снижается, и при этом стоимость необходимого пространства, электропитания, установки, интеграции и администрирования находится на том же уровне и остается одинаковой независимо от загруженности вашего сервера.

Но одной физической консолидации в настоящее время уже недостаточно. По мнению Gartner Group, назвавшей 2004 год годом виртуализации, современные организации должны думать сегодня прежде всего не о консолидации серверов, а именно о стратегии виртуализации серверов (Predicts 2004: Server Visualization Evolves Rapidly). В этом случае мы сталкиваемся с другим видом консолидации - логической.

Технологии виртуализации серверов - это способ спрятать физическую природу ресурсов за счет расслоения всей системы на различные уровни управления. Этим обеспечивается кардинальное уменьшение количества управляемых серверных компонентов за счет стандартизации, а за счет добавления инструментов осуществляется более гранулярное управление этими стандартными компонентами, необходимое увеличение количества способов управления ими. Добавление многоуровневой организации управления всей ИТ-инфраструктурой на базе определения сервисов, например с использованием стандартов ITIL, еще более увеличивает разнообразие воздействия на ИТ-инфраструктуру, делая управление адекватным всему разнообразию управляемой системы.

Слой виртуализации обеспечивает разделение реальных физических ресурсов - процессоров, подсистемы памяти, в том числе системы хранения данных, а также сетевого оборудования - и программного обеспечения, которое выполняется на них. Такая технология виртуализации используется в мейнфреймах под именами управления смешанной нагрузкой и логических разделов. Ее можно обнаружить практически во всех современных ОС (например, HAL уровень в Windows или архитектура TIMI для IBM AS/400 и OS/400®). Одним из ярких результатов использования инструментов гранулярного управления этой технологией является, например, тот факт, что обычная средняя полезная загруженность мейнфрейма находится в районе 80 %, что вдвое превышает

обычную среднюю загрузку RISC-сервера и намного выше средней 5-15 % загруженности серверов с Inte/s>-архитектурой. Практическое изменение загруженности при использовании технологий виртуализации составляет от 30 % и более для RISC и как минимум более чем в два раза для Intel-серверов.

Дополнительно к достижению более рациональной загруженности процессорных мощностей технологии виртуализации серверов позволяют достичь следующих результатов:

- предоставление компьютерных мощностей для новых приложений в течение десятков секунд, а не дней;

- время отклика на проведение изменений измеряется в минутах;

- обслуживание аппаратных компьютерных ресурсов производится без прерывания работы (zero-downtime);

- создание высокоустойчивых конфигураций со временем восстановления, измеряемом в минутах, за гораздо меньшие деньги.

Новые технологии виртуализации, такие как распределенные менеджеры нагрузки, SAN и grid-вычисления дополнительно расширяют границы применения виртуализации за пределы одного физического сервера.

С точки зрения организации технологии виртуализации серверов позволяют обеспечить необходимый уровень стабильности исполнения правил управления (программ), быстро реагировать на изменившуюся обстановку, потребности системы управления организацией в целом, делают ИТ-сервисы по-настоящему гибкими, согласованными и более дешевыми.

Вторым стимулом изменений, приведших к возникновению новой архитектуры ИТ-инфраструктуры, явились бурный рост объемов информации с одновременным нарастанием ее важности, ценности для бизнеса. Использование прямого подключения системы хранения данных к серверу (Direct attached storage - DAS) долгие годы удовлетворяло потребности организаций при приемлемом уровне затрат. Но при больших объемах информации стоимость системы хранения данных вместе со всеми мерами по защите информации стала значительно превышать стоимость всех остальных компонентов ИС. В такой ситуации уже и система хранения данных требует стратегического планирования.

Аналогично ситуации с процессорными ресурсами сегодня мы не можем уже мириться с недоиспользованием дискового пространства на уровне 15-50 %. Разнообразие компонентов системы памяти стало недопустимо превышать требуемое разнообразие инструментов управления системой памяти.

Ответом на все эти требования стала технология сетей хранения данных (Storage area network -

SAN), которая является примером логической консолидации ресурсов хранения данных.

Аналогично сетям LAN, которые позволяют эффективно разделять свои ресурсы для клиентов, сети SAN дают возможность так же эффективно разделять ресурсы системы хранения данных между серверами.

Внедрение SAN позволяет достичь:

- эффективного использования ресурсов системы хранения данных на уровне 80-85 %;

- снижения в 7-10 раз расходов на управление системами хранения данных (включая резервирование и восстановление данных, управление свободным пространством, производительностью и планирование восстановления после катастроф);

- появления возможности обеспечения реальной непрерывности бизнеса (business continuity - BC) и быстрого восстановления после возникновения чрезвычайных обстоятельств (disaster recovery - DR) за сопоставимую с возможными потерями цену.

Как часть собственной стратегии по созданию адаптивной и адекватной ИТ-инфраструктуры и в результате сотрудничества с компаниями-производителями (прежде всего с EMC2 и VMware, Sun Microsystems и Hewlett-Packard) компания «S&T Софт-Троник» предлагает несколько вариантов решений построения современного вычислительного центра, базирующихся на серверах и RISC, и Intel-архитектуры, систем хранения данных и соответствующего ПО управления компании EMC2, ПО виртуализации серверов Intel-архитектуры VMware, Solaris Containers (Solaris 10), HP Virtual Server Environment (HP-UX 11i). Эти решения никак не конкурируют с созданием систем grid-вычислений или кластеров с высокой производительностью, которые предпочтительны для крупных и/или специализированных решений.

Такие решения, например, находясь в рамках бюджета покупки 30 двухпроцессорных brandname серверов (согласно идеологии старой архитектуры), позволяют сразу же:

• обеспечить тот же или даже более высокий уровень производительности;

• внедрить отказоустойчивую SAN;

• организовать удаленный офис «горячей» замены для обеспечения непрерывности бизнеса и быстрого восстановления после чрезвычайных событий;

• организовать централизованное управление и мониторинг;

• купить библиотеку резервного копирования;

• дополнительно обучить новым технологиям двух системных администраторов.

Приведенный пример моментальных экономических выгод использования новой архитектуры ИТ-инфраструктуры показывает такие очевид-

ные преимущества, что, согласно принципу бритвы Оккама («Не умножай сущности без

необходимости»), долговременные выгоды в этом случае даже можно и не учитывать.

СИСТЕМА ПРЕДОТВРАЩЕНИЯ МАССОВЫХ РАССЫЛОК НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

И.В. Машечкин, М.И. Петровский, А.Н. Розинкин

По оценкам различных источников, от 40 до 80 % всех электронных сообщений в Интернете являются спамом [1,2]. Ущерб, наносимый несанкционированными рассылками, очевиден - это реальные материальные потери компаний и пользователей сети. Например, убытки только крупных 1Т-компаний в США 2003 в году от спама оцениваются в $20.5 миллиарда [3]. Излишняя нагрузка на сети и оборудование, потраченное время на сортировку и удаление писем, потраченные деньги на оплату трафика - это неполный перечень проблем, которые приносит спам.

Разработаны различные методики борьбы со спамом. Их можно разделить на две большие категории.

Первая - это различные административные и технические методы, пытающиеся ограничить рассылку спама. Например, такими могут являться законодательные меры, ограничивающие распространение нежелательной корреспонденции; использование протоколов обмена сообщениями, основанных на подтверждении отправления письма; введение платы за каждое отправленное сообщение; блокирование почтовых серверов, пользователи которого рассылают спам.

Другая часть - это методы, направленные на предотвращение получения спама пользователями, так называемые методы фильтрации спама. Их, в свою очередь, можно разделить на две группы: традиционные, использующие фиксированный набор правил или сигнатур для фильтрации спама, и адаптивные, основанные на методах статистики и искусственного интеллекта.

Многие традиционные методы основаны на использовании различных типов черных списков с адресами спамеров и адресами почтовых серверов, которые используются для рассылки спама [4,5]. Также к традиционным относятся методы, использующие базы знаний ключевых слов, правил и сигнатур писем со спамом. Такие базы знаний составляются вручную экспертами и требуют регулярного обновления.

Системы, основанные на таких методах, как правило, имеют невысокий уровень обнаружения спама (порядка 60-70 %). Другой их недостаток -необходимость постоянно поддерживать базы

знаний в консистентном состоянии. Система привязана и зависима от оперативности конкретного сервиса - провайдера обновлений. В период между появлением нового спама и обновлением базы знаний система остается незащищенной. Традиционные методы, как правило, не персонифицированы, то есть не учитывают особенности переписки конкретного пользователя, что также отрицательно влияет на их точность.

Системы, использующие черные списки почтовых серверов, получили довольно широкое распространение благодаря простоте их использования. Тем не менее, в последнее время появляется достаточно много сообщений о том, что такие системы имеют множество ложно-положительных ошибок из-за того, что в списки попадают целые диапазоны адресов Интернет-провайдеров. Политика, по которой строятся эти списки, иногда непоследовательна, и важно понимать, что, используя такую систему, пользователь целиком полагается на провайдера, который ее поддерживает.

Относительно новым направлением среди методов обнаружения спама являются интеллектуальные методы. Они устраняют часть недостатков, присущих традиционным методам.

Интеллектуальные методы используют алгоритмы машинного обучения. Такие алгоритмы способны разделять объекты на несколько категорий, используя для классификации модель, построенную заранее на базе прецедентной информации [6].

Таким образом, для того чтобы такая система фильтрации спама работала, первоначально ее необходимо обучить на множестве писем, для которых заранее известна их принадлежность к спаму или к нормальной переписке. На основании такого обучения строится модель, которая в дальнейшем используется при классификации новой почты.

Модель строится на анализе некоторого количества характеристик письма. В качестве подобных характеристик могут служить, например, слова (лексемы), входящие во все письма. В результате такого анализа метод выделяет некоторые характерные для данного класса писем признаки.

Наибольшее распространение из интеллектуальных методов в настоящее время получил метод

i Надоели баннеры? Вы всегда можете отключить рекламу.