УДК 004.9(043)
МЕТОДЫ ДИНАМИЧЕСКОЙ ФИЛЬТРАЦИИ ВЕБ-КОНТЕНТА
© И.Э. Стрекалов, А.А. Новиков, Д.В. Лопатин
Ключевые слова: динамическая фильтрация; контент; безопасность; Интернет.
Описаны современные системы фильтрации веб-контента. Показано, что статические способы блокирования информационных ресурсов ненадежны и легко преодолимы. Обозначены ключевые особенности современной системы динамической фильтрации контента (кэширование, гибкая система фильтрации). Во время проектирования программного обеспечения, предназначенного для блокирования информационно-коммуникационных угроз, необходимо учитывать ряд факторов: вероятную нагрузку на сервер системы фильтрации, масштабируемость программного обеспечения, а также использование модульной системы надстройки фильтра. Рассмотрена библиотека SharpPcap для работы с сетевыми пакетами.
На данный момент существует две группы подходов к фильтрации контента: статические и динамические. Основной идеей статических подходов является блокирование нежелательных веб-ресурсов на основе постоянно пополняемых баз данных «черных» и «белых» списков. В настоящее время в системах контентной фильтрации применяются методы ограничения доступа к веб-ресурсу: по имени DNS или конкретному IP-адресу, по ключевым словам внутри веб-контента и по типу файла. Чтобы блокировать доступ к определенному веб-узлу или группе узлов, необходимо задать множество URL-ресурсов или IP-адресов, содержащих нежелательный контент. Принцип действия статического подхода следующий: пользователь вводит адрес в браузер, система фильтрации принимает его и начинает поиск в базе данных «черных» списков, в случае если адрес присутствует в этом списке, пользователю выводится шаблонная страница (заранее сгенерированная системой фильтрации) с сообщением о том, что данная страница была обнаружена в списке запрещенных. Однако если такая страница была обнаружена в «белом» списке, то она выводится пользователю без изменений. Но, что делать с «серой» страницей (страница, которая отсутствует в обоих списках), система, как правило, не знает и зачастую выводит ее пользователю, несмотря на ее содержимое. Именно факт наличия «серых» страниц побудил специалистов в области информационной безопасности к разработке систем защиты от нежелательного контента на основе алгоритмов динамического анализа содержимого страницы.
В основе таких систем фильтрации лежит принцип обработки страницы «на лету», т. е. пользователь вводит адрес веб-сайта в адресную строку браузера, адрес передается системе фильтрации, которая делает HTTPGET-запрос на данный веб-сайт и получает содержимое страницы в виде текста, в котором ищется негативный контент, и далее в зависимости от настроек фильтра пользователю предоставляют либо всю страницу целиком, если на ней не был обнаружен негативный контент, либо выводится шаблонное сообщение с указанием причины блокировки, либо страница выводится частично (скрывая от пользователя негативный
контент). Такая система имеет ряд преимуществ по сравнению со статической системой фильтрации. В первую очередь, это связано с тем, что система каждый раз сканирует страницу заново, исключая ошибочное срабатывание, в случае если содержимое страницы изменилось с момента последнего сканирования. Однако такой подход является одновременно и минусом, т. к. частый повтор сканирования страниц увеличивает нагрузку на компьютер пользователя, в случае если система установлена локально, или нагрузку на сервер фильтрации, если фильтр установлен на сервер, соответственно. Частично этот минус можно устранить, используя систему кэширования последних результатов сканирования. Таким образом, система будет проверять адрес сначала в кэше фильтра и повторно сканировать веб-страницу, в случае если в кэше последних результатов сканирования данный адрес отсутствует.
Во время проектирования программного обеспечения, предназначенного для блокирования информационно-коммуникационных угроз, необходимо учитывать ряд факторов: вероятную нагрузку на сервер системы фильтрации, масштабируемость программного обеспечения, а также использование модульной системы надстройки фильтра.
Особенный интерес при разработке динамической системы фильтрации представляет библиотека SharpPcap, являющаяся оболочкой библиотеки Pcap [1]. SharpPcap имеет множество полезных нам методов и функций для перехвата пакетов, их модификации и возврата пользователю. Capture Device List содержит в себе информацию обо всех обнаруженных на компьютере сетевых подключениях, это позволит определить, с каким именно интерфейсом необходимо работать. Для обнаружения пакетов в интерфейсе I Capture Devices существует метод On Packet Arrival, который регистрирует факт получения пакета. Метод Open для переключения выбранного адаптера в режим приема пакетов имеет несколько перегрузок, в т. ч. Open (DeviceMode mode), Open (DeviceMode mode, int read_timeout). DeviceMode - параметр, отвечающий за варианты приема пакетов. Есть два режима: Normal и Promiscuous. В обычном режиме сетевой адаптер будет
перехватывать только те пакеты, что предназначены только ему. В другом же режиме - все пакеты, проходящие через сеть [2]. После получения сетевой пакет можно просмотреть либо изменить его содержимое по необходимости.
Используя библиотеку SharpPcap существует возможность создать полноценную систему динамической фильтрации нежелательного контента, т. к. библиотека обладает необходимым набором методов для обработки сетевых пакетов, что позволит модифицировать содержмимое HTML-кода в реальном времени. Библиотека SharpPcap распространяется бесплатно, что уменьшает расходы на разработку на начальном этапе, а в последующем снизит цену готового программного обеспечения.
ЛИТЕРАТУРА
1. SourceForge // SharpPcap. URL: http://sourceforge.net/projects/sharp-pcap/ (accessed: 8.11.2013)
2. CodeProject // SharpPcap - A Packet Capture Framework for .NET. URL: http://www.codeproject.com/Articles/12458/SharpPcap-A-
Packet-Capture-Framework-for-NET (accessed: 8.11.2013).
Поступила в редакцию 20 ноября 2013 г.
Strekalov I.E., Novikov A.A., Lopatin D.V. METHODS OF WEB-CONTENT DYNAMIC FILTERING
The article describes the system current web-content filtering. It is shown that static methods of blocking information resources are unreliable and easily surmountable. The paper shows the basic design approaches dynamic filtration system showing its advantages as compared to other solutions. The article shows the key features of a modern system of dynamic content filtering (caching, flexible filter system). During the design of software destined to block threats to information and communication must take into account a number of factors: the likely load on the server filtration systems, scalability, and the use of a modular system of add-filter. We consider the SharpPcap library for work with network packets.
Key words: dynamic filtering; content; security, internet.
Стрекалов Илья Эдуардович, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, студент специальности «Организация и технология защиты информации» института математики, физики и информатики, e-mail: [email protected]
Strekalov Ilya Eduardovich, Tambov State Technical University, Tambov, Russian Federation, Student of “Organization and Technology of Information Protection” Specialty of Mathematics, Physics and Informatics Institute, e-mail: [email protected]
Новиков Артем Алексеевич, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, студент специальности «Организация и технология защиты информации» института математики, физики и информатики, e-mail: [email protected]
Novikov Artyom Alekseyevich, Tambov State Technical University, Tambov, Russian Federation, Student of “Organization and Technology of Information Protection” Specialty of Mathematics, Physics and Informatics Institute, e-mail: [email protected]
Лопатин Дмитрий Валерьевич, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, кандидат физико-математических наук, доцент, доцент кафедры информатики и информационных технологий, e-mail: [email protected]
Lopatin Dmitriy Valeryevich, Tambov State Technical University, Tambov, Russian Federation, Candidate of Physics and Mathematics, Associate Professor, Associate Professor of Informatics and Information technologies Department, e-mail: [email protected]