№ 6(24) 2009
Ю. В. Леонова, А. М. Федотов
Исследование пользовательских предпочтений для управления интернет-трафиком организации
В статье рассмотрены вопросы, связанные с оптимизацией потребления интернет-трафика и повышения эффективности работы интернет-канала, описаны проблемы управления информационными ресурсами и их защиты, основные принципы и понятия, методика поэтапного сокращения затрат на интернет-трафик и потерь рабочего времени, связанных с нецелевым использованием сети Интернет, на примере научно-образовательной сети ННЦ СО РАН.
Проблемы управления информационными ресурсами и их защиты
Одной из особенностей развития сети Интернет является то, что на определенном этапе оно было стихийным. С одной стороны, это обеспечило массовый характер его использования, а с другой — породило ряд проблем с серьезными последствиями [4].
1. Поскольку Интернет — это канал связи с внешним миром, он является основным источником распространения вредоносного мобильного кода (вирусов, червей, троянских программ).
2. Глобальная сеть стала использоваться в качестве канала, через который осуществляются атаки на локальные вычислительные сети организаций, отдельные серверы и компьютеры. Многие интернет-ресурсы включают различные программные коды — JavaScript, Flash, ActiveX и другие. Злоумышленники могут эксплуатировать этот код для организации атак на корпоративные сети и пользовательские рабочие места.
3. В настоящее время Интернет может рассматриваться как один из основных каналов утечки конфиденциальной информации. Например, информационные ресурсы компаний подвергаются серьезным угрозам из-за использования сотрудниками этих компаний бесплатных почтовых ящиков. Многие сотрудники различных компаний, помимо внутренних корпоративных почтовых адресов, актив-
38 >
но используют бесплатные почтовые ящики, предоставляемые различными провайдерами. Имея доступ к Интернету со своего рабочего места и зная, что канал не контролируется, любой пользователь может беспрепятственно отправить за пределы организации любую конфиденциальную информацию. Но даже понимая это, не каждая компания запрещает использовать бесплатные почтовые сервисы, тем самым позволяя своим сотрудникам решать, как и какую информацию отправить за пределы компании.
4. Бесконтрольный доступ к Интернету значительно снижает производительность труда в коллективе. Простота освоения, легкость поиска необходимой информации и другие полезные свойства Интернета — вот причины того, что данный сервис широко применяется, в том числе и для личных целей. Не секрет, что у многих уже давно появилась привычка начинать рабочий день с чтения новостей, просмотра сводок погоды и т. п. Сотрудники различных организаций и компаний используют Интернет в целях, не имеющих прямого отношения к их работе. Это и «походы» в Интернет-магазины, и сетевые игры, и просто поиск информации.
5. Наконец, еще одно следствие неконтролируемого использования Интернета — это снижение пропускной способности сети. Сотрудники организаций используют корпоративные ресурсы для просмотра видео, прослушивания аудиозаписей (через потоковые
№ 6(24) 2009
аудио- и видеоканалы), играют в сетевые игры, загружают файлы большого объема (например, файлы мультимедиа: графические, музыкальные файлы, фильмы и т.п.), что создает значительную нагрузку на локальные вычислительные сети.
Таким образом, проблемы управления информационными ресурсами вычислительных сетей и их защиты становятся все более актуальными для организаций.
Контроль и оптимизация интернет-трафика
Аудит сети
Первым шагом для решения вышеперечисленных проблем является аудит сети организации, что позволит выявить «дыры» и узкие места в компьютерной системе организации, в том числе даст картину потребления интернет-трафика. В результате аудита можно получить не только данные о том, что происходит в сети организации, в каком состоянии находятся ее ресурсы, какова структура интернет-трафика, но и о том, чем конкретно занимаются сотрудники на рабочих местах.
Контроль доступа
Следующим шагом по сокращению затрат на интернет-трафик может стать контроль доступа к Интернет-ресурсам, который можно решить двумя способами:
1) запрещение использования Интернета без необходимости, когда пользователям разрешается доступ только к строго определенным сайтам;
2) контроль действий сотрудников, при этом сотрудник может свободно пользоваться ресурсами Интернета; но если он выполнит действия, противоречащие политике безопасности, это будет обнаружено и пресечено.
Второй способ контроля является наиболее гибким и более распространенным, но именно при его применении возникают существенные проблемы, которые состоят в том, что практически невозможно однозначно определить, к какой информации следует запретить доступ.
Необходимой составляющей решения этих проблем является разработка и внедрение политики безопасности сети и политики использования ресурсов.
Политика безопасности
Политика безопасности сети — это набор законов, правил и практических рекомендаций, на основе которых строится управление, защита и распределение защищаемых информационных ресурсов. Она должна охватывать все особенности процесса использования информационных ресурсов сети организации, определяя поведение системы в различных ситуациях. Ключевым шагом разработки политики безопасности является определение критичных для организации ресурсов и возможных угроз доступности, конфиденциальности и целостности этих ресурсов. При этом может применяться несколько подходов, в том числе ранжирование сетевых ресурсов по их стоимости, по вероятности реализации угроз и по серьезности их последствий для организации. Последняя не всегда связана с раскрытием конфиденциальной информации или выходом из строя дорогостоящих устройств. Она также может быть следствием снижения производительности ресурсов, которые активно используются сотрудниками организации при исполнении служебных обязанностей. Поэтому выявление таких сетевых информационных ресурсов является важной задачей при разработке политики безопасности.
Существует несколько решений этой задачи, но наиболее эффективным представляется прослеживание истории сетевых взаимодействий путем накопления и анализа статистики обращений к сетевым серверам и предоставляемым ими сервисам. Сохраняя в базе данных структурированную информацию по сетевому трафику, извлеченную из заголовков передаваемых по сети пакетов, и обрабатывая накопленные данные с помощью автоматизированных алгоритмов анализа, можно составить четкую схему использования информационных ресурсов сети, необходимую для формирования сбалансированной политики безопасности сети, без выполнения трудоемкой и рутинной ручной работы. При этом рас-
«о о € о
ш
е
«о
о %
о
39
№ 6(24) 2009
а а
г
з is
I
а а.
ш а 5.
а а
IS
1
со
<3
Si J
>а а
is IP
0 с
1 С
а
«о о
S3 §
с
U
a §
«о о
ш р
смотренный механизм позволяет не только учесть сетевые взаимодействия внутри организации, но и обращения к информационным ресурсам из внешних по отношению к организации источников, в частности удаленный доступ к ресурсам сети, и таким образом выявить источники потенциальных угроз.
Политика использования интернет-ресурсов
Для обеспечения гибкости контроля использования интернет-ресурсов в организации вводится политика использования ресурсов. Эта политика может реализовываться на основе анализа и фильтрации веб-трафика. На сегодняшний день существует множество как коммерческих, так и некоммерческих решений. К наиболее распространенным коммерческим продуктам можно отнести: open-source систему Poesia [8], коммерческие системы CyberPatrol [6], SurfControl [9], NetNanny [7] и др.
Можно выделить два основных признака систем фильтрации и анализа трафика — способ и время анализа трафика.
По способу анализа все системы можно разбить на два больших класса:
• анализирующие лишь общую (мета-) информацию о ресурсе;
• анализирующие в том числе и содержимое (контент) ресурса.
По времени анализа все системы можно также разбить на два класса:
• анализирующие информацию в реальном времени (онлайн), т. е. во время запроса пользователем интернет-ресурса;
• анализирующие информацию в отложенном режиме (оффлайн), т. е. после того, как пользователь получил доступ к ресурсу.
В данной работе рассматриваются системы, анализирующие метаинформацию в отложенном режиме.
Применение системы контроля использования интернет-ресурсов нельзя представить без анализа событий, происходящих в системе. Администраторам необходимо оперативно получать информацию о текущем состоянии системы, а также сводные отчеты об ис-
пользовании интернет-ресурсов пользователями или группами пользователей. Такая информация позволяет не только контролировать использование интернет-ресурсов, но и проверять эффективность политики безопасности и динамически адаптировать ее к изменяющимся условиям и задачам. Поэтому в большинстве существующих средств контроля использования интернет-ресурсов есть возможность формирования статистических отчетов, а также интерактивного наблюдения за доступом к внешним ресурсам.
Существует несколько способов представления статистических данных о трафике. Первый способ предполагает использование внутренних возможностей продукта, т. е. встроенной системы генерации отчетов. Как правило, в состав такой системы входят подсистема генерации отчетов и база данных, в которую в виде журналов записывается вся информация о событиях, а также некоторые запросы пользователей (например, команды POST). С помощью внутренних средств производятся SQL-запросы к базе данных, результаты которых дают наглядную картину трафика и действий пользователей. При этом могут создаваться типовые запросы (например, «100 часто загружаемых сайтов», «100 пользователей, переславших наибольшие объемы данных за указанный период», «100 самых активных пользователей» и т. п.) с изменяемыми параметрами (например, по дате и времени).
Другой способ предполагает получение отчетов с помощью стандартных средств, таких как Crystal Reports, Oracle Reports и т. п. Эти средства интегрируются с системой контроля использования интернет-ресурсов и тоже используют базу данных, которая создается в результате фильтрации трафика.
Установка кэширующих серверов и зеркал
Еще одним способом оптимизации интернет-трафика является использование кэши-рующих серверов и системы зеркал, на которые в «прозрачном» для конечного пользователя режиме перенаправляются HTTP-запросы пользователей. Использование кэширующих
40
№ 6(24) 2009
серверов и системы зеркал преследует две основные цели:
1) улучшение производительности: снижение нагрузки на каналы провайдера, используемые для выхода в Интернет и уменьшение времени ожидания загрузки данных для пользователей;
2) сокращение затрат: размер трафика на канал в Интернет после установки кэширую-щих серверов и зеркал уменьшится, что приведет к снижению платежей за передачу информации по этим каналам.
Создание системы кэширования интернет-трафика позволяет увеличить пропускную способность канала связи, одновременно снизив среднее время ожидания ответа на запрос пользователя. Кэширование минимизирует задержки при передаче файла примерно в 5200 раз. Суть кэширования веб-трафика состоит в том, что запрос пользователя на получение документа перенаправляется на кэш-сервер, который сначала проверяет наличие документа в своем кэше, после чего продолжает обслуживание запроса. Если документ в кэше не найден, то кэш-сервер направляет запрос на сервер-источник документа или другому кэш-серверу. Когда сеть объединяет большое количество рабочих станций, нагрузка на кэш-сервер многократно увеличивается. В этом случае применяется каскадирование кэш-серверов, и точка доступа во внешнюю сеть получается распределенной за счет увеличения количества серверов. При создании иерархической сети кэш-серверов появляется возможность установки отношений наследования информации (parent) и взаимоподдержки (sibling). В тех случаях, когда разные кэш-сервера имеют различную коннективность, появляется возможность динамической оптимизации «расстояния» от источника информации до потребителя.
Система кэширования с иерархической сетью создана, например, в Научном центре в Черноголовке, объединенной с кэш-серверами в Ярославле, Перми, Челябинске, МНФ (Москва), ИТФ им. Л. Д. Ландау (Москва), ИОХ им. Н. Д. Зелинского (Москва) [3].
После введения данной системы в эксплуатацию были достигнуты следующие показатели:
• сокращен объем данных, принимаемых через внешние каналы связи, в среднем на 30% для международных каналов и 40-50% для междугородних каналов (региональные сети);
• сокращено время доступа к данным в среднем на 70 %;
• сокращена нагрузка на серверы системы доменных имен (DNS).
Развертывание зеркал позволяет разместить наиболее востребованные данные «ближе» к пользователю. Зеркала обеспечивают максимальную скорость передачи данных от сервера к пользователю — при запросе файла с веб-сайта его передает локальное зеркало. Под зеркалированием интернет-ресурсов понимается создание полных или частичных копий (зеркал) этих ресурсов на географически удаленных серверах, обновление которых может производиться во время минимальной загрузки каналов, например, ночью. Прозрачное перенаправление на зеркало (незаметное для пользователя) реализуется посредством редиректора, который выполняет первоначальную обработку URL, и либо возвращает прежний иРЬдля дальнейшей обработки прокси-серверу в случае, если все в порядке, либо возвращает тот, который, по его мнению, является более правильным.
Естественно, что сам процесс зеркалирова-ния создает определенную нагрузку на центральный сервер и каналы связи (порой сравнимую, а иногда и превышающую выигрыш от зеркал). Зеркалирование увеличивает общую сложность системы (проблемы с администрированием, распределением прав, увеличением технического парка и т.д.). Можно утверждать, что необдуманное внедрение зеркал приведет к негативному результату. С другой стороны, зеркала могут ощутимо повысить надежность и общую производительность системы.
При решении вопроса о внедрении зеркал необходимо учитывать следующие факторы:
• характер зеркалируемой информации (тип информации, частота модифицирования, объем, затребованность аудиторией и т. д.);
• характер аудитории интернет-ресурса (ожидаемое количество и расположение пользователей, распределение активных и пассивных ролей и т.д.);
«о о S о
е
Si «о
о %
о
41
№ 6(24) 2009
а а
г
з is
I
а
.
ш a
.
a a
IS
I
CO <3
Si J
>a a
is IP
0 с
QJ &
1
i
а
«о о
S3
i! с
a
iS «0 о
QJ
P
• предполагаемое количество и расположение зеркал (с учетом каналов связи, распределением пользователей по ролям и каналам и т. д.);
• способ зеркалирования (что именно будет зеркалироваться и каким образом).
Система зеркал была реализована при создании региональной научно-образовательной сети в интернет-центре Новгородского государственного университета [1], что позволило уменьшить внешний трафик организации.
Исследование веб-трафика
В рамках данной работы было проведено исследование статистики обращений к вебсерверам, на основе которого рассмотрены вопросы, связанные с оптимизацией трафика и ускорением работы Интернета, в том числе задание и приложение правил обслуживания и учета трафика HTTP прокси-сервером, а также задание и реализация политики безопасности. Основной принцип корпоративной сетевой политики сводится к тому, что пользователи научно-образовательной сети работают в первую очередь с научно-образовательной информацией.
С момента своего появления технология Веб стала предметом исследований [5]. Основная цель большинства исследований в Вебе — это поиск таких свойств трафика, которые позволят совершенствовать саму технологию, увеличить скорость передачи информации к пользователю, уменьшить время загрузки нужного документа. Повышенный интерес к исследованиям веб-трафика вызван тем, что в настоящее время он доминирует в общем трафике всех компьютерных сетей.
В одной из первых работ по исследованию веб-трафика [2] было замечено, что популярность документов в Вебе распределена очень неоднородно. Большинство запросов приходят на очень небольшое количество документов, в то время как многие документы запрашиваются всего несколько раз. Для описания свойств популярности веб-документов очень удобно использовать технику ранговых распределений.
Рассмотрим информацию, которую можно получить на основе анализа логов прокси-сервера.
1. Информационный ресурс. Информационный ресурс представляет собой совокупность информационных объектов. Основные параметры информационного объекта:
□ тип информации — текст, изображения, аудио-, видеоданные, потоковые данные, бинарные файлы, медиаданные;
□ объем информации;
□ приемлемая скорость доступа к объекту;
□ полезность;
□ частота модификации;
□ потребность в объекте;
□ права доступа на объект.
2. Потребитель ресурса — пользователи или компьютеры. Основные параметры потребителя ресурса:
□ текущее и потенциальное количество пользователей ресурса;
□ интенсивность запросов к каждому информационному объекту, объем потребления, генерируемый трафик;
□ удовлетворенность качеством доступа.
3. Канал передачи данных. Канал передачи данных между информационным ресурсом и потребителем. Основные параметры:
□ полоса пропускания;
□ загрузка канала (входящий / исходящий трафик);
□ доля трафика ресурса в общей загрузке канала;
□ стоимость работы по каналу.
Анализ полученной информации может быть
использован для решения следующих задач.
1. Оптимизация (уменьшение) трафика. Как правило, наиболее «узким» местом является внешний канал научно-образовательной сети, когда большое количество пользователей одновременно работает с разнообразными интернет-ресурсами и возникает перегрузка канала. Решение этой проблемы заключается в кэшировании и классификации наиболее важных и востребованных информационных ресурсов, например статей, с последующим размещением их для использования научным сообществом внутри локальной сети. В ре-
42
№ 6(24) 2009
зультате при уменьшении количества перекачек повышается надежность сети.
2. Изучение информационных потребностей. Данный анализ позволяет получить информацию о поведении пользователей локальной сети в Интернете, выявить самых активных пользователей и посмотреть, какие ресурсы они посещают, получить общее представление о распределении трафика по сайтам, дням недели и времени суток и многое другое. При обнаружении наиболее напряженных участков скачивания «важных» ресурсов может быть увеличена пропускная способность на данном направлении.
3. Ограничение нецелевого использования. Большой эффект по разгрузке канала дает ограничение трафика с нежелательным содержанием, например, порно-сайтов или развлекательных ресурсов типа «Одноклассники», различных «непрофильных» ресурсов аудио- и видеосерверов.
Установка или настройка существующих корпоративных прокси-серверов позволяет уменьшить внешний трафик организации и повышает качество работы с ресурсами. Для этого производится дополнительная настройка прокси-серверов:
• ограничивают доступ к непрофильным серверам;
• вводят ряд ограничений по пропуску типов файлов (AVI, MP3 и т. д.);
• ограничивают пользователей по скорости доступа;
• при необходимости увеличивают размер кэша;
• при необходимости изменяют время хранения документов в кэше востребованных ресурсов.
Исследование наборов данных
Напомним основной принцип работы протокола HTTP. Для того чтобы получить нужный документ, пользователь направляет запрос к веб-серверу, на котором находится этот документ. Веб-сервер в ответ возвращает пользователю требуемый документ. Кроме того, пользователь может посылать запрос не напрямую к веб-серверу, а на сервер-посредник,
с которым у него имеется высокая скорость соединения (например, к прокси-серверу в его локальной сети). Веб прокси-сервер, как правило, имеет кэш и, если запрашиваемый документ находится в кэше прокси-сервера, то скорость получения этого документа значительно возрастает.
Таким образом, имеется несколько способов получения информации о веб-трафике. Можно исследовать запросы, приходящие к отдельно взятым веб-серверам, можно собирать информацию о действиях отдельных пользователей или анализировать запросы пользователей к кэш-серверам. Основное отличие между этими способами состоит в том, что в первом случае мы получаем данные о трафике для очень небольшого подмножества Веб, которым является множество документов на нескольких выбранных веб-серверах, а информация, полученная из машин пользователей или прокси-серверов, дает нам представление о трафике, создаваемым небольшой группой пользователей.
Поскольку нас интересовали исследование свойств для запросов второго вида, в качестве источника информации для исследования веб-трафика были взяты логи информации кэш-сервров. Для анализа использовались лог-файлы кэш-серверов сети ННЦ СО РАН: proxy.ict.nsc.ru (СО РАН) и proxy.nsu.ru (НГУ) — типичные прокси-серверы, обслуживающие запросы локальных пользователей организации. Мы проанализировали данные, собранные в течение одного месяца. Детальное описание наборов данных дано в табл. 1.
На рассматриваемых серверах установлено программное обеспечение Squid. Его лог представляет собой текстовый файл, в который записывается информация обо всех запросах, поступивших на кэш-сервер. После получения очередного запроса кэш-сервер добавляет в лог-файл одну строку с информацией, характеризующей полученный запрос, например
1210274283.328 1010 194.22 6.177.55 TCP_HIT/20 067 526 GET http://stats.iihf.com/Hydra/13 2/ IHM132 000_85K_6_0.pdf — DIRECT/80.231.19.71 application/pdf
«о о S о »о
е
«о
о %
о
43
m 6(24) 2009 ^
Таблица 1
Набор данных
Обозначение Кэш-сервер Период Число запросов Число сайтов Объем
ICT1 proxy.ict.nsc.ru 3 недели 20 250 832 104249 337,29 G
ICT2 proxy.ict.nsc.ru 2 недели 11 402 797 63 190 240.09 G
NSU1 proxy.nsu.ru 2 недели 34 040 909 113 324 276,52 G
NSU2 proxy.nsu.ru 2 недели 32 908 553 121 999 253,42 G
Здесь 1 210 274 283.328 означает время поступления запроса в формате UTC (Universal Coordinated Time), 1010 — сколько времени (в мс) заняла обработка запроса, IP-адрес машины пользователя (194.226.177.55), пославшего запрос, TCP_HIT/200 — код результата а выполнения запроса, 599 — размер запрашиваемого ресурса (в байтах), GET-метод прото-3 кола HTTP. Большинство запросов к кэш-серве-
5 ру используют GET-метод получения нужного ^ ресурса по протоколу HTTP. http:/stats.iihf.com/ § Hydra/132/IHM132 000_85K_6_0.pdf — адрес "f^ запрашиваемого ресурса, application/pdf — ît MIME — тип документа, в данном случае доку-§ мент в формате PDF.
Далеко не все запросы пользователей § к кэш-серверу благополучно им обрабатыва-g ются, например кэш-сервер может быть на-| строен таким образом, что он обрабатывает за-§ просы только от определенной группы пользователей, а остальные игнорирует. В другом JI случае пользователь может сделать ошибку 'g при вводе URL, запросить несуществующий | документ или документ, для получения кото-g рого необходимо ввести пароль, который <§ пользователь вводит неверно. Наконец, во
6 время передачи данных может просто разо-g рваться связь. Результат обработки запроса | (код HTTP) кэш-сервер заносит в соответст-§ вующее поле лог-файла.
§ Для того чтобы верно судить о скачиваемо-| сти документов, мы будем анализировать 5 только запросы, успешно обработанные кэш-§ сервером, имеющие код результата выполне-J ния 200.
е- Таким образом, на втором этапе обработки ^ данных мы оставляем только те записи в лог-
44 V
файлах, у которых в поле результата выполнения запроса записано 200.
На следующем этапе обработки данных мы выделяем из полей URL-документы. Затем подсчитываем количество появлений каждого документа в лог-файле — f, и, сортируя документы по убывающим значениям f,, получаем ранговое распределение популярности скачивания документов. Выделяя из поля URL название веб-сайта, аналогично определяем популярность веб-сайтов. Тем же образом определяется ранговое распределение объема скачивания документов. Далее для определения предпочтений пользователей выполняется категоризация полученных данных по областям деятельности в два этапа. На первом этапе категоризация выполняется на основе классификатора каталога сайтов Яндекса.
Каталог Яндекса, содержащий описания сайтов русскоязычного Интернета, систематизированных по тематическим категориям, построен на основе фасетной классификации (табл. 2). Такая классификация, с одной стороны, позволяет легко организовать поиск ресурсов не только по тематике, но и по типу информации, а с другой стороны, предотвращает углубление рубрикатора и неоднозначность тематического отнесения ресурсов. На первом уровне дерева каталога имеется 13 тем, а число уровней в глубину не превышает четырех. Рубрики сгруппированы определенным образом. В первой группе представлены темы «Человек и его окружение»: дом, учеба, работа, общество, коммуникации. Вторая группа — «Развлечения»: отдых, юмор, спорт, музыка и др. Третья группа — «Бизнес и экономика». Зато, помимо тем, в каталоге
имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации), жанру (художественная литература, научно-техническая литература и т. д.), цели (предложение товаров
^ № 6(24) 2009
«о
и услуг, интернет-представительство) и т. д. §
Классификатор Яндекса приведен в табл. 2. <§
Посредством программы-робота, запро- ®
граммированного на обход каталога сайтов ^ Яндекса по различной глубине вложенности,
был сформирован классификатор, на основе §
которого выполнялась категоризация трафи- ^
ка по областям деятельности. «а
На втором этапе выполняется категориза- 2 ция оставшегося трафика на основе сигна-
Таблица 2
Классификатор Яндекса
ПК, Интернет, связь Мода и красота Музеи
Hardware Покупки Изобразительные искусства
Интернет Общество Танец
Мобильная связь Власть Спорт
Программы Законы СМИ
Безопасность НКО Периодика
Сети и связь Политика Информационные агентства
Интерфейс Религия Телевидение
Работа Развлечения Радио
Учеба Игры Бизнес
Высшее образование Юмор Финансы
Курсы Непознанное Недвижимость
Среднее образование Личная жизнь Строительство
Школы Отдых Производство и поставки
Науки Где развлечься Реклама
Учебные материалы Туризм Деловые услуги
Дом Хобби Все для офиса
Квартира и дача Культура Справки
Кулинария Музыка Транспорт
Все для праздника Литература Афиша
Семья Кино Авто
Домашние животные Театры
Здоровье Фотография
45
№ 6(24) 2009
□ %,i
30,28
22,58
0,90
8,96
Я
0,42
11,12
iL
9,86
4,47
Л
0,67
OQ Ol
га x 5 ^
S: 5- о s
s ч: ¡5 :£ <5
□ %,Bytes
13,15
20,09
5,1Э П
|~| . O^jS 1^09 0,10 | | 0,10 0,21 ^gs Qjg Qjs
<-> ЭГ
s
о =1
ICH
ICT2
а а
г
з §
Ig %,Bytes!
n« 2,17 3,07 W „78
Л. h. n .w
28,93
]□ %, Bytes!
18/43
15,52
3,66
lTL
5,86 ,„. 5,56
,°Д5. П w, 2Ä2,3ff, П №
i о ^ % § 4 S-
I
а a.
u 5
s.
s a
IS
1 CO
<3 &
J
>a a
5
i
0 с
QJ
6
1 i
а
«о
о §
с
a §
«o о
QJ
P
N501 миг
Рис 1. Ранговое распределение объема трафика по категориям для кэш-серверов
турного подхода, основанный на использовании экспертной базы знаний адресов интернет-ресурсов. Такая база знаний содержит адреса ресурсов, с каждым из которых связан набор тем (категорий), к которым, по мнению экспертов, относится данный интернет-ресурс.
Для категоризации трафика был разработан классификатор доменных имен с рубрикацией, аналогичной классификатору Яндекса.
Полученные результаты исследования приведены на рис. 1.
Обработка результатов
Можно заметить, что ранговое распределение предпочтений пользователей для различных кэш-серверов различаются, но близки друг к другу. Массовыми категориями, на долю которых приходится основной объем трафика, являются: для ИВТ СО РАН «ПК, Интернет, связь», «Новости, СМИ» — 58,61 %, а для НГУ
«ПК, Интернет, связь», «Культура», «Развлечения», «Справки» — 74,15 %.
Ясно, что для самых массовых категорий («Культура», «Развлечения») кэширование не является оправданным, поскольку наиболее популярными являются сервисы, предоставляющие мультимедийные услуги, такие как просмотр флэш-, видеороликов, прослушивание радио и музыкальных файлов, использование других клиентских приложений, которые в своей работе используют передачу динамической информации. Категория «Новости, СМИ» также содержит в большей степени информацию динамического характера. В этом случае доля статической (кэшируемой) информации составляет малую часть общего веб-трафика. И эффективность использования кэширования сводится к нескольким единицам процентов.
Очевидно, что существенной экономии трафика можно добиться кэшированием ресурсов статического характера, таких как архивы, полные тексты, программное обеспече-
46
№ 6(24) 2009
44,61
0,84
35,62
2 S
8,96
XI
□ %, Bytes
0,41 . 0,65
59,57
□ %, Bytes
0,06
33,28
£ £
6,79
0,03 , 0,06
«о о S о
е
«о
о %
о
ICT1
ICT2
1,81
37,17
£ г
15,69
II
1,37
]□ %, Bytes!
0/1
NSU1 NSU2
Рис 2. Ранговое распределение трафика в категории «ПК, Интернет, связь»
ние и т. п. Поэтому для дальнейшего анализа • 2GIS;
была выбрана наиболее массовая категория • Adobe Acrobat;
«ПК, Интернет, связь», на долю которой прихо- • Adobe Macromedia Flash
дится более 30 % трафика. Проведем дальней- • Adobe Photoshop;
шую детализацию данной категории (рис. 2). • CentOS;
Видно, что подкатегориями, на которые • Debian;
приходится основной трафик, являются «Ин- • Eclipse;
тернет», «Программы» и «Безопасность». В под- • FCKeditor;
категории «Интернет» преобладают динами- • JRE, JDK;
ческие ресурсы — электронная почта, запро- • KDE;
сы к поисковым системам, баннерные сети, • Linux fedora;
счетчики и рейтинги. В подкатегории «Про- • Lotus;
граммы» преобладают статические ресурсы — • Miktex;
программное обеспечение, а подкатегория • Mozilla;
«Безопасность» также содержит статические • Nero;
ресурсы — антивирусное ПО, ПО для защиты • Oracle;
от взлома и спама и т. п. • Pascal;
Далее было произведено ранжирование • Safari;
сайтов подкатегории «Программы» по объему • Suse;
трафика (рис. 3 (на с. 48)). • Tinymce;
Дальнейший анализ выявил наиболее «объ- • VMWare;
емное» скачиваемое ПО и его обновления: • Windows XP, Vista.
47
№ 6(24) 2009
□ %, Bytes
-7,27
5.91 5,755,62
4,92
4,14 4,09 4,05
2п2п2Д5 2'191161151,801,77
П.П.П.П.П.П.п.п
1,70 1,61
НИ
1,441,43
дд
Е Е '
Е<5
8 8 8 я « ч
-Si S1
с У й ■
те
РЕ?!
ООО!
г ее гг
О. 8---
■S Е
о о = 4-J
a з -в = а. —. •Е I §-= Ё° г
1
ICT1
14,92 11,8511,53
□ %, Bytes
П п 2,732,56 2,39 2,181,95 1,88 1,82 ,„.„.„
5г о ■о с
S
8РЕ Е Е Е Е Е Е1 ■й ° 8= «i 8 8 ч
H'gs ¡11 1 S.E-1 = | I 1 f I -g E i
ш
ICT2
7,45
6,56
5,655,55
3,98,
Шл
2,07 2,07 ! 89
jhul
□ %, Bytes
1Д91,431,381,34 1,231,18
П.п.п.п.п.п
□ %,Bytes
W3.
П П П П ni 180 i662/l3
.11.11.П.П.П п.п.п.п
УЗ 1,71
Ил
а а
гГ
3 §
I
а а.
ш а 5.
а а
IS
I
со
<3 t J
>а а
is IP
0 с
1 i
а «о о
S3
i! с
U
a
iS
«о о
ш
р
Е1 о
й-
Е Е
Е Е Е Р ES
и fi Я 9 Я =
о
-s Е ■ ¡С .й: <= Е
г g^ja .2= .г
я с а> о М S
о м te о а) _ О ZZ iff —
о _OJ
S ч= 1
Е Е Е Е Е
'И й £
я, D-g- го —
ет О О OJ сп
Е Е1 S §
ю 2
Е 3 Е ё
ЗЕЕЕЕЕЕ S ° ° «
Е о .2 £ и ™ g
с о о о с
■ " '! .2 | 1=5 о
1,501,36133
п.п.п
Е
о
« О «i
1.141,090,76
.n.n.r-i
Е Е Е1« Ei Е Е й
О О О С О X О ОС
i и ч ° 5 g
О -С .
£ й о 2 ~
В й
NSU1
NSU2
РисЗ. Ранжирование сайтов по объему трафика (20 хитов)
На основе данного списка ресурсов будет приниматься решение о целесообразности создания зеркала для конкретного информационного ресурса, исходя из стоимости создания зеркала и поддержки его функционирования, возможностей зеркалирования ресурса, организационных, административных и юридических аспектов. В настоящее время в ИВТ СО РАН создан зеркальный сервер, содержащий обновления Windows XP, на который осуществляется «прозрачное» перенаправление пользователей.
СПИСОК ЛИТЕРАТУРЫ
1. Герасимов В. В., Курмышев Н. В. Типовой проект создания регионального зеркала // Интернет-порталы: содержание и технологии: сб. науч. ст. Вып.3 / редкол.: А.Н.Тихонов (пред.) [и др.]; ФГУ ГНИИ ИТТ «Информика». М.: Просвещение, 2005. С. 379-392.
2. Крашаков С. А., ТеслюкА. Б., Щур Л. Н. Об универсальности рангового распределения популярности веб-серверов II Вестник РФФИ. 2004. №1. С. 46-66.
3. Крашаков С. А., ЩурЛ.Н. Кеширование информационных потоков и стратегия оптимизации маршрутов в распределенных системах: тезисы докл. 2-й Всерос. конф. «Научный сервис в сети Интернет». Новороссийск. 2000. Сентябрь. С. 145-148.
4. СлеповО., ОттА. Контроль использования интернет-ресурсов/ Jet Info. 2005. № 2. С. 2-20.
5. A caching Relay for the World Wide Web. Proc. 1st International Conference on the World Wide Web. CERN, Geneva (Switzerland). May 1994. Elsevier Science. P. 69-76.
6. CyberPatrol Internet Security Software. URL: http:Zwww.cyberpatrol.com.
7. NetNanny Parental Control. URL: http:/ www.netnanny.com.
8. Open-Source Filtering Software. URL: http:/ www.poesia-filter.org.
9. SurfControl url and keyword-based Internet filtering and blocking software. URL: http:/ www.surfcontrol.com.
48