Научная статья на тему 'Контентная фильтрация и управление доступом к ресурсам сети Интернет в образовательных учреждениях'

Контентная фильтрация и управление доступом к ресурсам сети Интернет в образовательных учреждениях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1281
114
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНТЕНТНАЯ ФИЛЬТРАЦИЯ / ФИЛЬТРАЦИЯ ПО КЛЮЧЕВЫМ СЛОВАМ / ДИНАМИЧЕСКАЯ ФИЛЬТРАЦИЯ / URL-ФИЛЬТРАЦИЯ / УПРАВЛЯЕМЫЙ ДОСТУП / ПОЛИТИКА ФИЛЬТРАЦИИ / КАТЕГОРИЗАЦИЯ ДАННЫХ / СТАТИСТИКА ПОСЕЩЕНИЙ САЙТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Масюк Андрей Александрович, Сараджишвили Сергей Эрикович

Статья посвящена исследованию методов фильтрации и управления доступом к ресурсам сети Интернет и созданию системы контентной фильтрации, которая должна предоставлять механизм распределения прав доступа к сетевым ресурсам, основанный на централизованной базе данных категоризированных Интернет-ресурсов и списках ключевых слов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article covers investigation of filtering mechanisms and management of access to Internet-resources. The main purpose of this investigation is to develop the content-filtering system, which should provide the mechanism of access rights distribution to net-resources based on categorized and centralized data base of Internet-resources and key-words.

Текст научной работы на тему «Контентная фильтрация и управление доступом к ресурсам сети Интернет в образовательных учреждениях»

Информационные и телекоммуникационные технологии в образовании

УДК 004.45 7

А.А. Масюк, С.Э. Сараджишвили

КОНТЕНТНАЯ ФИЛЬТРАцИЯ И УПРАВЛЕНИЕ ДОСТУПОМ К РЕСУРСАМ СЕТИ ИНТЕРНЕТ В ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЯХ

Компьютеризация и информатизация образовательных учреждений переживает период бурного развития. Интернет является важным элементом системы образования, т. к. содержит в публичном доступе ряд ценнейших первоисточников - электронные библиотеки, музеи, периодику, тематические подборки материалов, профессиональные справочники, словари, клубы по интересам, и в связи с тем, что начала компьютерной грамотности сейчас немыслимы без наглядной демонстрации и освоения приемов доступа в сеть, поиска информации, работы с электронной почтой и средствами персональных коммуникаций.

Однако Интернет, помимо образовательных целей, зачастую используется школьниками для развлечений: посещений чатов, игровых сайтов и сайтов сомнительного содержания (религиозных сект, террористических и криминальных организаций и других сайтов с нежелательным содержимым).

Другой проблемой при подключении школ к сети является необходимый минимум сетевой защиты. Школьная сеть должна быть защищена от несанкционированного проникновения, взлома, вандализма, хищения и порчи внутренних информационных ресурсов.

В силу социальной и экономической ситуации в стране двумя естественными ограничениями для построения полномасштабной системы защиты информации являются:

относительно невысокий бюджет школьной информатизации;

отсутствие в школах квалифицированных кадров для построения системы защиты.

Поэтому крайне важно обеспечить простое, эффективное и полнофункциональное решение

для построения информационной безопасности уровня школы или регионального сегмента учреждений образования.

Существует большой выбор межсетевых экранов, антивирусов и других программных и программно-аппаратных комплексов для решения подобных задач.

Однако до последнего времени недостаточно внимания и ресурсов уделялось проблеме управления доступом к формально безопасному, с точки зрения других компонент системы обеспечения безопасности, содержимому сайтов. Данную задачу решают при помощи контентной фильтрации, которая технологически реализуется различными способами, но конечная ее цель -изолировать пользователя от нежелательной информации.

Контентная фильтрация - это функция управления доступом пользователей к специфическим типам информации на основе анализа содержимого информационных объектов (веб-запросы пользователей, содержимое веб-страниц) и определения соответствия их параметров принятой политике безопасности.

Под политикой безопасности понимается набор правил по доступу к ресурсам сети, которые назначаются для пользователей и групп пользователей.

Постановка задачи

Система контентной фильтрации (СКФ) - это технологическое решение, основной задачей которого является предоставление сервиса управления доступом пользователей к ресурсам Интернет. СКФ отвечает за управление доступом пользователей к ресурсам Интернет в зависимо-

сти от категории запрашиваемых ресурсов и принятой организационной политики.

Лидирующие системы контентной фильтрации основываются на принципе анализа и категоризации Интернет-ресурсов, что признано наиболее эффективным методом фильтрации нежелательных данных. Эти системы используют регулярно обновляемые базы URL, гибкие настройки фильтра и развитые системы отчетности. Они хорошо работают с англоязычными сайтами, но имеют ограниченные возможности работы с данными на других языках.

В ситуации с русскоязычными сайтами существующие контентные фильтры имеют ряд недостатков, это:

некорректная работа с русскоязычными ресурсами по причине отсутствия специальных инструментов работы с информацией на русском языке;

бедность базы данных русскоязычных ресурсов;

отсутствие возможности объединения данных от разных организаций с целью консолидации отчетности.

Разрабатываемая СКФ должна быть ориентирована на русскоязычный контент и использовать эффективные алгоритмы URL-фильтрации. Однако наравне с отличной способностью работать с русскоязычными данными, СКФ также должна работать с другими основными языками мира.

СКФ должна проверять запросы на принадлежность ссылки к конкретной категории. В случае запрещенной категории обращение к ресурсу блокируется.

Когда локальный контентный фильтр не имеет информации о запрашиваемом Интернет-ресурсе, пользователь должен получить доступ к этому ресурсу, а контентный фильтр должен передать новую неизвестную ссылку в центральную базу системы категоризации. Там ресурс относится к одной из категорий, и соответствующая информация поступает в локальную базу ресурсов контентного фильтра при ближайшем обновлении списка ссылок.

СКФ должна предоставлять следующие возможности для настройки правил фильтрации:

настройка правил доступа для отдельного пользователя или групп пользователей;

управление доступом к ресурсам на уровне категорий и отдельных сайтов. «Черные» и «белые» списки;

календарь применения правил доступа; регулируемый уровень управления доступом: мониторинг, предупреждение о запросе к опасному ресурсу, блокирование опасного ресурса.

Важной особенностью СКФ должна являться гибкость и масштабируемость системы. Улучшенный механизм мониторинга, сбора и представления статистических данных по всей организации будет реализован с помощью специализирован-

Рис. 1. Группировка статистики

ного модуля сбора и обработки статистики обращений пользователей, собираемых локальными контентными фильтрами. Принцип работы такого модуля показан на рис. 1.

Методы контентной фильтрации

Наиболее широкое распространение получили три метода фильтрации:

1. Фильтрация по ключевым словам - когда конкретные слова или словосочетания используются для включения блокировки веб-сайта.

2. Динамическая фильтрация - когда содержимое запрашиваемого веб-сайта анализируется в момент обращения, и загрузка страницы блокируется, если содержимое определяется как нежелательное;

3. иК1-фильтрация - когда запрашиваемая страница или целый домен определены или кате-горизированы как нежелательный ресурс, и блокируются при попытке обращения.

Важными характеристиками методов являются нагрузка на сервер фильтрации и клиентскую машину, а также объем данных, которые клиент получает при запросе. В случае фильтрации по ключевым словам клиент полностью скачивает все данные и анализирует их. При этом сервер должен предоставлять клиенту список ключевых слов и периодически обновлять этот список. Если производится динамическая фильтрация, то сервер сам анализирует содержимое сайта и сообщает клиенту результат.

Если сайт заблокирован, то клиент не получает никаких данных, кроме команды блокировки. В этом случае при большом количестве клиентов очень сильно возрастает нагрузка на сервер. При иЯЬ-фильтрации клиент сначала проверяет ссылку по локальной базе категорий и, если адрес есть в базе, решение принимается без обращения к серверу. Если в локальной БД ссылки нет, то клиент отправляет на сервер запрос, содержащий адрес страницы и получает список категорий, с которыми эта ссылка связана. Категории проверяются на наличие запретов, и принимается решение о разрешении или запрещении доступа.

Необходимо так же учитывать объемы данных, хранимых на клиенте и сервере фильтрации. Эти требования важны не с точки зрения характеристик дисковых накопителей (что сейчас не является проблемой), а с точки зрения характеристик СУБД, используемых для работы с этими данными.

Проанализировав различные варианты, мы пришли к выводу, что иЯЬ-фильтрация, основанная на анализе и категоризации Интернет-ресурсов, - наиболее эффективный и гибкий метод фильтрации нежелательных данных.

Подходы к категоризации сайтов

При использовании метода иК1-фильтрации возникает необходимость категоризации сайтов. Мы уже использовали термин «категория» ранее, а теперь дадим ему определение и рассмотрим различные методы категоризации.

Категория - группа, к которой может быть отнесен сайт на основе некоторых признаков. Категории представлены иерархическим деревом, а в простейшем случае - списком. Категоризация Интернет-ресурсов осуществляется специальной системой тематической категоризации, которая предоставляет данную информацию клиентам СКФ.

Категоризация сайтов и размещенных на них данных может выполняться разными способами. В настоящее время выделяются следующие виды категоризации:

использование предопределенных баз категорий сайтов с регулярным обновлением списков сайтов и категорий;

категоризация данных на лету путем анализа содержимого страниц;

использование данных о категории, информацию о принадлежности к которой предоставляет сам сайт.

Категоризация данных и формирование баз категорий обычно производится в полуавтоматическом режиме: на первом этапе выполняются анализ содержимого и определение категории с помощью специально разработанных средств, которые даже могут включать в себя системы распознавания текстов в картинках. На втором этапе полученная информация часто проверяется людьми, принимающими решение о том, к какой категории можно отнести тот или иной сайт.

Многие компании автоматически пополняют базу категорий по результатам работы клиентов, если обнаруживается сайт, не отнесенный ни к одной из категорий.

В настоящее время используются два способа подключения предопределенных баз категорий сайтов.

• Использование локальной базы категорий с регулярным ее обновлением. Данный метод очень

удобен для больших организаций, имеющих выделенные серверы фильтрации и обслуживающие большое количество запросов.

• Использование базы категорий, размещенной на удаленном сервере, немного увеличивает нагрузку на каналы связи, но обеспечивает использование актуальной базы категорий. Этот метод часто применяется в различных устройствах -межсетевых экранах, ADSL-модемах и т. п.

Стоит заметить, что оба метода можно удачно скомбинировать, используя центральную базу и небольшой временный список ссылок на клиенте.

К преимуществам применения предопределенных баз категорий можно отнести то, что предоставление или запрет доступа производится еще на этапе выдачи запроса клиентом, что может существенно снизить нагрузку на каналы передачи данных. Главный недостаток использования данного подхода - задержки в обновлении баз категорий сайтов, поскольку для анализа потребуется некоторое время. Кроме того, некоторые сайты достаточно часто меняют свое наполнение, из-за чего информация о категории, хранящаяся в базе адресов, становится неактуальной. Некоторые сайты также могут предоставлять доступ к разной информации, в зависимости от имени пользователя, географического региона, времени суток и т. п.

Существующие математические модели категоризации

Простейшая тематическая категоризация.

Тематический профиль - это совокупность данных (перечень терминов), необходимая для принятия решения о принадлежности документа на основе анализа его текстовых данных к заданной категории.

Под термином понимается слово, словосочетание, логическая формула из слов и словосочетаний, содержащая логические операторы.

При автоматическом построении профиля в качестве терминов синтезируются только слова и словосочетания. Кроме того, при автоматическом построении профиля не синтезируются перечни терминов-исключений, когда документ автоматически относится или исключается из категории. Эти операции должен осуществлять эксперт на основе анализа результатов категоризации.

Перед началом категоризации проводится очистка ресурса: удаляется навигационная часть, теги html и скрипты. В случае более глубокого

анализа возможно удаление слов, не несущих смысловой нагрузки [1].

Пусть дан ресурс О, представимый как множество элементов текста О = {ёк} и категория С, состоящая из двух подмножеств С = (Са, СЬ}, где Са = {Са} - множество терминов, которые должны присутствовать в ресурсе О для его отнесения к категории С; СЬ = (СЬ.} - множество терминов, которые должны отсутствовать в ресурсе О для его отнесения к категории С. Вычислив количество элементов в пересечениях множеств |О Са| = Яа и |ОП| СЬ| = ЯЬ, можно сделать вывод о принадлежности ресурса к категории: если Яа > т и ЯЬ< Э, то ресурс О относится к категории С. Пороговые значения т и - задаются экспертом, либо вычисляются в процессе обучения.

Представленная модель применялась ранее в системах, предназначенных для домашнего использования. Системы, реализующие данную модель, нетребовательны к вычислительным ресурсам и легко администрируются. Основная проблема - невозможность учета количества вхождений термина в текст ресурса и веса термина, - все термины имеют одинаковый приоритет, что часто не соответствует требованиям, предъявляемым к системам фильтрации.

Семантическая категоризация. Семантический анализ - процесс выявления смыслового содержания слов и словосочетаний в предложении. Семантический анализ обеспечивает нормализацию синтаксической структуры предложений, распознавание терминов, классификацию терминов по семантическим признакам, с учетом синонимических и гипонемических (отношение «общее - частное») классов, выявление определений терминов.

Степень соответствия найденных документов запросу пользователя характеризуется понятием релевантность. Оно не является специфичным для систем информационного поиска. Это понятие возникло из философских теорий, объясняющих относительную связь между источниками информации, и изучается многими направлениями науки. Для организации наиболее релевантного поиска предлагается использовать онтологии.

Онтологии - новые интеллектуальные средства для поиска ресурсов в сети Интернет, новые методы представления и обработки знаний и запросов. Они способны точно и эффективно описывать семантику данных для некоторой предметной области и решать проблему несовместимости и противоречивости понятий [2, 3].

Формально определим онтологию как множество О = (Д C, ^, ^,Як^ где Ь = х.)} ,=1и -словарь терминов предметной области; ^ - термин; х . - рейтинг термина w . относительно других терминов в категории С = {с. т ; ^ (Ь) ^ С -функция интерпретации терминов; Рс (с..) ^ Ь -функция интерпретации категорий; Як - отношения иерархии между категориями (концепциями) в онтологии.

Запрос на определение соответствия ресурса категории представляется в виде множества терминов из Ь: и = ^ wm .

т

Итоговая формула для Р(с . | и) выглядит следующим образом [4]:

( \

Р^ | с.) соиМ(w, Ь)

P(c» = Х

^P(w \ c') ^count(w\L)

V c'eC

где P(w | с.) = х^ - вероятность вхождения термина w в категорию с вес данного термина в данной категории; count(w, Z) - отношение количества вхождений термина w к общей сумме вхождений всех терминов.

Основными недостатками семантических методов категоризации является их привязка либо к определенному языку, либо к группе языков. В приведенной выше модели для каждого языка требуется составление онтологии по каждой группе связанных категорий. Для других подходов семантической категоризации зачастую требуется разработка отдельных моделей для групп языков, примером такой системы является POESIA [5].

Следует отметить, что системы фильтрации на основе семантической категоризации дают очень хорошие результаты для тех групп языков, для которых они были разработаны (около 98 % ресурсов категоризируются правильно).

Тематическая категоризация на основе вычисления весовых коэффициентов терминов, принадлежащих категории. Пусть дано множество ресурсов D, разделенное на два непересекающихся подмножества T и T, называемых «обучающей» и «тестовой» выборкой. На основании обучающей выборки строится классификатор категорий, а на тестовой выборке проверяется качество категоризации. Пусть также дано соответствие между ресурсами и категорией C в виде Ф: D ^ {0,1}, устанавливающее значение 1, в случае, если ресурс принадлежит категории и 0 - в противоположном случае [6, 7].

Используя подмножество T, необходимо построить функцию Ф': D ^ {0,1} , аппроксимирующую Ф так, чтобы число ошибок на Ts было наименьшим: E = ^ | Ф - Ф'| ^ min .

Ts

Пусть T - множество терминов, выделенное из ресурса категории C. Тогда ресурс можно представить в виде вектора d. = (w , ..., wy.), где we [0,1] - нормированный вес термина t. в ресурсе d.. В таком случае, категорию можно представить в виде вектора той же размерности, что и вектор ресурса: C = (с1, ..., c|T|), где с. - вес термина t . в категории C [8].

Для получения веса термина используется частотный метод вычисления степени соответствия:

Tj ID| r /

w.. =---, где T - число терминов t в ре-

j ITI I Dj I' ',j Р ' Р

сурсе d.; T . - общее число терминов в ресурсе d; Dj - число ресурсов, в которых встречается термин t ; D - общее количество ресурсов категории, /е [1, D], je [1, T]. Таким образом, чем чаще термин встречается на странице некоторого ресурса, но реже встречается во всех ресурсах, тем выше будет его вес в данном ресурсе.

Решение о принадлежности ресурса к категории будем принимать, если степень соответствия

CSV(с, d.) = с ■ dj = ^cd. достигнет некоторого

порога т. Таким образом, получаем:

i1, CSV (с, d.) >т] Ф'(с,d.) = \' К J' \. j [0, CSV (с, dj) < т

Основная проблема для данной модели - процесс обучения, заключающийся в подборе весовых коэффициентов и порога, начальное значение которого должно задаваться экспертом. Оценка качества категоризации производится с использованием метрик информационного поиска, таких, как точность, полнота и F-мера [9]. Процесс обучения и уточнения коэффициентов должен производиться регулярно в связи с увеличением количества ресурсов, относимых к категориям. Методы подбора весовых коэффициентов обладают малой вычислительной масштабируемостью, что не позволяет использовать данную модель.

Разработанная модель тематической категоризации на основе вычисления относительной значимости

В основе предложенной авторами модели категоризации лежат законы Ципфа-Мандельброта [10]. Пусть дано множество ресурсов

w fc u

D = {d | /е [1, M]}, каждый ресурс d . с точки зрения модели представляет собой множество терминов d = {t. | je [1, Ж]}.

Далее рассмотрим статистические величины, отражающие информационную значимость терминов в множестве ресурсов. Частота встречаемости термина L в ресурсе d:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

DF d L count(t., d i) j ' 2 ^ count(tn, di)'

яе[1Д]

где count(t, d) - количество вхождений термина tj в ресурс d .. Частота DF(t. , d . ) является вероятностью выбрать термин t. в ресурсе d. при случайном выборе всех вхождений терминов, имеющихся в тексте ресурса.

Инверсная частота встречаемости термина в множестве ресурсов определяет количество информации, получаемое при снятии неопределенности наступления события встречи термина в одном из ресурсов множества:

IDF (t t, D) = Log 2 ——^--. Поскольку

j ' \D\

| d e D \ tj e d \

-> 1, то IDF(t., D) > 0. Для часто | d e D | tj e d | j

встречающихся терминов, IDF(t, D) близка к нулю, а для редких терминов она стремится слева к Log 2 | D |: 0 < IDF(t., D) < Log 2 | D |.

Рассмотрим подмножество текстов D' с D, представляющее собой тематическую группу ресурсов. Пусть d'е D' и tj e d', тогда возможно вычислить величину тематической IDF (tj, D'), а разность Д! (tj, D, D') = IDF (t j, D) - IDF(tj, D') определяет изменение информативности термина при отнесении d' к множеству D'. Значения разности могут быть как положительными, так и отрицательными, а поскольку отнесение ресурса к тематическому множеству означает снятие информационной неопределенности относительно тематики документа, но не внесение большей неопределенности, то AIDF(t, D, D') можно записать таким образом:

\Ы(t.,D,D') , Д/(t.,D,D') > 0 Д/DF (t., D, D') = J j j

j 1 0, Ы(tj,D,D') < 0

тогда можно определить границы значений:

0 < MDF(tj, D, D') < IDF(t., D) [11].

Согласно [10, 12] под значимостью термина tj в ресурсе d, входящего в множество D понимается величина: DFIDF(t., d, D) = DF(t d) ■ IDF(t., D). По аналогии рассмотрим DFTIDF{t., d, D, D') = DF(t., d) x

x AIDF(tj, D, D ') , которая характеризует значимость tj в ресурсе d с учетом того, что d с D'. Величину DFTIDF(t, d, D, D ') будем называть характеристикой относительной значимости. Поскольку 0 <MDF(tj,D,D') <IDF(tj,D), то DFTIDF(tj,d,D,D') <DFIDF(tj,d,D).

Пусть задано множество категорий C = {ck \ ke [1, N]}, Каждая категория представляет собой множество терминов c = {t}. Введем ме-

k j

такатегорию терминов, содержащихся во всех категориях C' = ^ ck . На этапе обучения для всех

ke[\,N ]

терминов должны быть рассчитаны IDF(t ,C ') и MDF(tj, ck, C').

Тогда мы можем вычислить суммарную относительную значимость терминов, содержащихся в ресурсе d по отношению к категории ck: S (d, ck, C ') = £ DFTIDF (t, d, ck, C '). Учитывая!,

teck ^d

что документ может не содержать все термины категории, можем записать нормированный вари-

S (d, ck, C ')

ант SN(d, ck, C ') =

£ DFIDF (t, d, C ')

0 < SN(d,

ек, С') < 1. Последнее соотношение позволяет использовать нормированную относительную значимость для принятия решения о категоризации ресурса: ресурс d относится к категории ск тогда и только тогда, когда SN(d, ск, С') > т, где т - пороговое значение, задаваемое экспертом, либо определяемое автоматически в процессе обучения.

Научная новизна и практическая ценность предложенной модели заключается в следующем.

• Модель базируется на законах Ципфа-Мандельброта, которые инвариантны языку кате-горизируемых ресурсов.

• Модель предполагает практически полную автоматизацию процесса категоризации. Для обучения и работы системы требуется только множество категорий и обучающая выборка ресурсов для установки значения порога.

• Оценку качества категоризации можно осуществлять при помощи метрик информационного поиска, таких, как точность и полнота [9]. Вычисляя метрики, можно устанавливать оптимальное значение порога, которое может быть различным: в некоторых случаях потребность в доступе наиболее важна, поэтому допустимы ложные срабатывания, т. е. полнота важнее точности. В случаях жесткого ограничения доступа точность важнее полноты.

Процедура категоризации имеет линейную сложность, трудоемкость линейно зависит от количества категорий и терминов. Это позволяет говорить о высокой скорости категоризации, что в свою очередь дает возможность рассматривать предложенную модель как универсальную: категоризация может производиться как на выделенном сервере, так и на локальных машинах пользователей.

Принципы работы URL-фильтра

При неуправляемом доступе к ресурсам Интернет запрос от пользователя локальной сети транслируется через точку доступа в сеть Интернет к любому ресурсу, и пользователь получает запрашиваемую информацию.

Если включить в цепочку систему контент-ной фильтрации, то перед исполнением запроса ресурс будет проверяться на принадлежность к конкретной категории, и, в случае запрещенной категории, запрос к ресурсу будет заблокирован.

Если пользователь запрашивает доступ к ресурсу, не определенному в системе контентной фильтрации, то запрос будет одобрен. Но одновременно СКФ запустит процесс категоризации нового ресурса. И если этот ресурс будет определен как нежелательный, то следующий запрос к тому же ресурсу будет заблокирован.

Архитектурные решения

Система представляет собой комплекс взаимодействующих между собой функциональных компонент: сервиса поддержки клиентов (СПК) и локального контентного фильтра (ЛКФ) который состоит из сервиса поддержки клиентской сети (ЛКФ-СПКС), управляющего модуля ЛКФ-УМ и интеграционного модуля ЛКФ-ИМ. Общая схема взаимодействий компонентов представлена на рис. 2.

СПК - центральный сервер системы, состоящий из ядра и двух пользовательских интерфейсов, организованных как «Сайт администратора СКФ» и «Сайт поддержки пользователей СКФ» (СПК-СПП).

Ядро СПК обеспечивает:

работу с категоризированными и некатего-ризированными ресурсами и сбор статистики с ЛКФ. Эта часть ядра должна быть реализована на опорных серверах фильтрации (СПК-ОСФ);

ведение базы данных клиентов СКФ;

ведение статистики работы клиентов СКФ. Сайт администратора СПК обеспечивает администратору СПК управление базой данных клиентов СКФ. Сайт поддержки пользователей СКФ (СПК-СПП) обеспечивает предоставление администраторам клиентов статистической информации о работе пользователей в соответствующих клиентских сетях.

Компоненты ЛКФ: СПКС, УМ и ИМ устанавливаются в каждой клиентской сети и обеспечивают для пользователей функциональность контекстной фильтрации. Все эти компоненты могут быть установлены на одном компьютере или на различных компьютерах сети и использовать общую базу данных.

Управляющий модуль ЛКФ отвечает за принятие решения о разрешении доступа к сетевому ресурсу для пользователя клиентской сети.

Модуль должен выполнять следующие функции:

отвечать на запросы интеграционного модуля о праве пользователя клиентской сети на запрос к некоторому сетевому ресурсу (решение принимается на основании информации о принадлежности ресурса к той или иной категории и политики установленной для пользователя);

сохранять статистику запросов в хранилище данных.

Сервис поддержки клиентской сети представляет собой приложение, используемое администратором клиентской сети ЛКФ.

ЛКФ-СПКС должен выполнять следующие функции:

создание и изменение политик (расписаний, прав на просмотр ресурсов определенных категорий) для пользователей;

предоставление статистики работы пользователей сети.

Интеграционный модуль должен выполнять следующие задачи:

перехват запросов к сетевым ресурсам по протоколу HTTP;

аутентификацию пользователя; выполнение запроса на разрешение доступа к ЛКФ-УМ;

блокировку запрещенных ресурсов.

Практические результаты

СКФ предоставляет обширные возможности для настройки правил фильтрации:

Рис. 2. Взаимодействие компонентов СКФ

настройка правил доступа для отдельного пользователя или групп пользователей;

управление доступом к ресурсам на уровне категорий и отдельных сайтов; «черные» и «белые» списки;

календарь применения правил доступа; регулируемый уровень управления доступом: мониторинг, предупреждение о запросе к опасному ресурсу, блокирование опасного ресурса.

Перечислим некоторые другие наиболее важные функциональные особенности СКФ:

наравне со способностью обрабатывать русскоязычные данные, СКФ работает с другими основными языками мира;

система отчетности о работе пользователей позволяет получить детальную статистику об использовании Интернет;

автоматическое обновление базы URL и терминов обеспечивает своевременное обновление базы СКФ и качественную, согласованную работу всех установленных копий системы;

подсистема регистрации и авторизации исключает нелегальное использование клиентской части системы фильтрации и доступ к базе данных категоризированных Интернет-ресурсов.

Локальная система фильтрации разработана с применением технологии COM, широко использует преимущества и возможности, предоставляемые данной платформой.

В ходе работы рассмотрены основные принципы контентной фильтрации и определены наиболее перспективные методики.

При изучении существующих контентных фильтров не были обнаружены реализации, архитектура которых позволяла бы использовать их как шлюзовые фильтры и как фильтры на машинах, не подключенных к локальным сетям, а использующих модемное соединение для работы в сети Интернет. Также были обнаружены разнообразные проблемы при работе с русским языком и сбором статистики. Многие системы применяют устаревшие и малоэффективные методы фильтрации.

Поэтому можно говорить о том, что на данный момент разработанная система не имеет аналогов для русскоязычного сегмента сети Интернет.

Описываемые работы проводились по проекту «Разработка и апробация в пилотных субъектах Российской Федерации пакета свободного программного обеспечения для использования в общеобразовательных учреждениях Российской Федерации», проводимому в рамках мероприятия «Внедрение современных образовательных технологий» приоритетного национального проекта «Образование». Система контентной фильтрации Интернет-ресурсов вошла в Стандартный базовый пакет лицензионного программного обеспечения (СБППО) для образовательных учреждений.

СПИСОК ЛИТЕРАТУРЫ

1. Некрестьянов, И.С. Обнаружение структурного подобия HTML-документов [Текст]/ И.С. Некрестьянов, Е.Ю. Павлова//Тр. IV Всерос. конф. RCDL'2002.-Дубна, 2002.-С. 38-54;

2. Добров, Б.В. Формирование базы терминологических словосочетаний по текстам предметной области [Текст]/Б.В. Добров, Н.В. Лукашевич, С.В. Сыромятни-ков//Тр. V Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2003 -СПб., 2003.

3. Загоруйко, Н.Г. На пути к автоматическому построению онтологии [Электронный ресурс]/Н.Г. Загоруйко, А.М. Налетов, И.М. Гребенкин http://www. dialog-21.ru/Archive/2003/Zagorujko.htm

4. Захарова, И.В. Об одном подходе к реализации семантического поиска документов в электронных библиотеках [Текст] /И.В. Захарова//Вестник УГАТУ Сер.Управление, вычислительная техника и информатика.-2009.-Т. 12.-№ 1(30).-С. 133-138.

5. Website of POESIA Project [Электронный ресурс] http://www.poesia-filter.org/

6. Поляков, И.Е. Опыт создания системы фильтрации агрессивного web-контента [Текст]/И.Е. Поляков// Тр. XII Всерос. науч.-метод. конф. «Телематика 2005», 6-9 июня 2005. -Изд-во СПбИТМО.

7. Sebastiani, F. Machine Learning in Automated Text Categorization [Электронный ресурс]/Т. Sebastiani// http://nmis.isti.cnr.it/sebastiani/

8. Свечников, С.В. Высокорелевантный поиск и автоматическая категоризация ресурсов Интернета [Текст]/С.В. Свечников//Сб. «Интернет-порталы: содержание и технологии». -Вып. 4. -ФГУ ГНИИ ИТТ «Информика».-М.: Просвещение, 2007.-С. 538-548;

9. Поляков, П.Ю. RCO на РОМИП 2006 [Текст]/ П.Ю. Поляков, В.В. Плешко//Тр. IV семинара по оценке методов информационного поиска.-СПб.: НИИ Химии СпбГУ, 2003.-С. 72-79.

10. Попов, А. Поиск в Интернете - внутри и снаружи [Электронный ресурс]/А. Попов//http://www. citforum.ru/pp/search_03.shtml

11. Тихомиров, И.А. Метод динамической кон-тентной фильтрации сетевого трафика на основе анализа текстов на естественном языке [Текст]/И.А. Тихоми-

ров//Вестник НГУ Сер. Информационные технологии. 2008.-Вып. 2. -Т. 6.-Новосибирск: НГУ-С. 94-100;

12. Han, E. Text Categorization Using Weight Adjusted k-Nearest Neighbor Qassificatюn[Текст]/E. Han, G. Karypis, V. Kumar//Proc. of the 16th International TOnf. on Machine Learning. -Denver.-1999.-P. 41-56.

i Надоели баннеры? Вы всегда можете отключить рекламу.