УДК 004.72
А. П. Зайцев
ФИЛЬТРАЦИЯ HTTP-ТРАФИКА НА ОСНОВЕ АНАЛИЗА СТРУКТУРЫ WEB-СТРАНИЦЫ
Введение
Современный этап развития вычислительной техники точно назван «веком информации». Объем информации неудержимо увеличивается, вовлекая многих молодых людей в ряды пользователей персональных компьютеров. В последнее время основным источником информации становится глобальная компьютерная сеть Интернет. Интернет предлагает доступ к огромному количеству образовательных, развлекательных и других материалов, представляющих интерес для молодежи. К сожалению, Интернет насыщен также информацией, неприемлемой для молодежи. Повсеместное использование сети Интернет в качестве источника информации и способа времяпрепровождения требует разработки надежного механизма фильтрации и борьбы с нежелательным контентом.
В последнее время стоимость доступа к сети Интернет значительно сократилась. На первый план выходит не количество информации, поступающей из всемирной паутины, а стоимость рабочего времени, затраченного на поиск нужной информации. Для многих людей Интернет является рабочим инструментом: некоторым просто необходимо время от времени читать новости по определенной теме; другим - искать новых клиентов, используя возможности глобальной сети; третьим - общаться с контрагентами по ICQ. В этих случаях речь не идет о нецелевом использовании Интернета, которое необходимо блокировать.
Современный подход к фильтрации HTTP-трафика заключается в минимизации времени, затрачиваемого сотрудником на посещение нецелевых ресурсов в Сети. В учебных заведениях целью фильтрации является запрет нецелевого использования ресурсов глобальной сети студентами во время Интернет-занятий, а также защита психологического здоровья студента от воздействия насилия и порнографии.
Чтобы разработать систему web-фильтрации, прежде всего нужно понять, каким требованиям должна отвечать работа такой системы. Основными требованиями к современным системам фильтрации являются:
1. Эффективный контроль нецелевого использования Интернет-доступа. Это самая главная задача системы web-фильтрации. Здесь речь идет о точности классификации ресурсов Интернета.
2. Возможность классификации web-страниц на лету. Самым быстрым способом фильтрации себя зарекомендовал способ фильтрации на основе списков доступа, включающих URL-адреса классифицированных web-страниц.
3. Возможность блокировать доступ к информации, наносящей вред (различные фишинговые сайты и шпионские программы).
4. Контроль различных видов трафика, передаваемого не только по HTTP-протоколу, но и p2p, и протоколам служб IM.
5. Возможность использовать различные политики для разных пользователей; для учебных заведений актуальна привязка к тематике или предмету Интернет-занятия.
К сожалению, в настоящее время на рынке не существует решения, которое «на все сто» отвечало бы перечисленным требованиям. В силу исторических причин продукты разных вендоров, предназначенные для URL-фильтрации, являются либо антивирусами с возможностью URL-фильтрации (например, Kaspersky Security для интернет-шлюзов, Trend Micro Web Security Suite или McAfee Secure Internet Gateway), либо средствами URL-фильтрации с некоторой возможностью защиты от вредноносного кода (например, решения от Websense, SurfControl или CyberGuard).
Чтобы создать алгоритм эффективной классификации информации, сначала необходимо рассмотреть структуру информации, которую Интернет предлагает пользователям. А предлагает он информацию, заключенную в web-страницы. Web-страницы в настоящее время пишутся на языке HTML (Hyper Text Markup Language). С помощью HTML можно размещать
на web-страницах текст, графику, а также указатели на другие страницы. Он является языком разметки, т. е. языком, описывающим способ форматирования документа. Таким образом, языки разметки содержат подробные команды форматирования.
Web-страница, как правило, оформляется в виде таблицы или вложенных таблиц HTML, при этом отдельные элементы страницы вынесены в различные ячейки. Большинство web-ресурсов можно визуально разделить на несколько составных частей: обрамление и содержательную часть. Как правило, в обрамлении содержится какой-либо элемент навигации по данному сайту либо рекламные баннеры.
Особое внимание при классификации web-страницы следует уделять одной из особенностей сети Интернет - в отличие от обычного хранилища информации web-пространство характеризуется большим количеством скрытых в нем неявных экспертных оценок, реализованных в виде гиперссылок. Именно гиперссылки являются базой для построения модели web-пространства. Структура web соответствует ориентированному графу, в котором вершины соответствуют страницам, а ребра - гиперссылкам, соединяющим страницы.
Таким образом, для классификации web-страниц необходимо проанализировать следующее:
1. HTML-структуру страницы.
2. Содержательную часть.
3. Ссылки на другие источники информации.
Каждая web-страница разделена на отдельные части посредством языка разметки HTML. Составные части одной страницы могут относиться как к одной теме, так и к совершенно различным. Кроме того, в теле web-страницы содержится служебная и рекламная информация, что должно быть учтено при классификации ресурса. Следовательно, для классификации ресурса необходимо первоначально выделить его составные части, т. е. построить его структурнологическую схему (рис.).
Структурно-логическая схема web-страницы
На схеме показаны основные теги и элементы, их образующие, которые присущи большинству web-страниц и которые целесообразно использовать для их классификации.
На схеме выделена служебная информация, которая хранится в «голове» каждой web-страницы:
— <Ше> - заголовок страницы;
— <ше1а> - служебная метаинформация;
— <МЕТА паше-'аиШог" ... - указанное имя автора;
— <МЕТА name="copyright" ... - авторские права, название фирмы;
— <МЕТА name="keywords" ... - список терминов и ключевых слов;
— <МЕТА name="description" ... - краткое описание сайта.
Метаинформация скрыта от глаз пользователя и предназначена в первую очередь для поисковых роботов и механизмов. Данная информация должна отображать основные ключевые слова и краткое содержание web-страницы.
Классификация web-страницы на основе метаинформации затруднена тем, что четкой границы между сообществами web-документов не существует. По этой причине в данной ситуации имеет смысл использовать нейронечеткие классификаторы. Одной из их особенностей является наличие между классами непрерывной границы с перекрывающимися областями, в которой любой объект частично присутствует в каждом из классов [1].
Заключение
Наличие систем фильтрации HTTP-трафика напрямую влияет на производительность предприятия, т. к. позволяет повысить эффективность использования Интернет-доступа. В образовательных учреждениях данная система ограждает молодых людей от просмотра сайтов, пропагандирующих насилие и порнографию, которые распространены в Интернете.
Классификация web-страниц - один из самых сложных этапов фильтрации. Необходимо учитывать по крайней мере три особенности передаваемой в Интернет информации: HTML-структуру, содержательную часть и связь с другими ресурсами. При классификации web-страниц необходимо учитывать структурные особенности. Работа в данном направлении на данном этапе предполагает поиск модели нейронечеткого классификатора и её проверку на адекватность.
СПИСОК ЛИТЕРАТУРЫ
1. Методы и модели анализа данных: OLAP и Data Mining / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. - СПб.: БХВ-Петербург, 2004. - 336 с.
Статья поступила в редакцию 22.12.2008
FILTERING OF HTTP-TRAFFIC BASED ON THE ANALYSIS OF THE WEB PAGES STRUCTURE
A. P. Zaitsev
The widespread use of the Internet as a source of information and pastime requires a reliable mechanism for filtering. Classification of Web pages is one of the most difficult stages of filtering. It should be borne in mind: html-structure, content and communication with other resources through hyperlinks. Particular attention should be paid to metainformation, that should reflect the basic keywords and a brief summary of Web pages. Classification of Web pages based on the metainformation is considered to be difficult because of the absence of clear boundaries between the communities of web documents. In this situation, it is necessary to use neural network classifiers.
Key words: Web, HTML, HTTP, Internet, filtering, structure, metainformation.