Научная статья на тему 'Система формирования безопасного контента'

Система формирования безопасного контента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
552
124
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЖЕЛАТЕЛЬНЫЙ КОНТЕНТ / ФИЛЬТРАЦИЯ / АЛГОРИТМЫ / INAPPROPRIATE CONTENT / FILTERING / ALGORITHMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Стрекалов Илья Эдуардович, Новиков Артем Алексеевич, Лопатин Дмитрий Валерьевич

Рассмотрены основные методы и подходы блокирования доступа к нежелательному контенту. Проанализированы алгоритмы, реализующие контентный поиск, в т. ч. полнотекстовый и поиск по сходству. Предложено решение проблемы фильтрации веб-контента на базе HTTP прокси-сервера. Описаны преимущества выбранного подхода, а также приведена общая структура разрабатываемого решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Стрекалов Илья Эдуардович, Новиков Артем Алексеевич, Лопатин Дмитрий Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The basic methods and approaches to block access to inappropriate content were described. Content search algorithms, including full text and approximate searching were analyzed. Solving the problem of web content filtering based on the HTTP-Proxy was discussed. The benefits of the chosen approach were described, and the general structure of the developed solutions was shown.

Текст научной работы на тему «Система формирования безопасного контента»

УДК 004.056

СИСТЕМА ФОРМИРОВАНИЯ БЕЗОПАСНОГО КОНТЕНТА

© И.Э. Стрекалов, А.А. Новиков, Д.В. Лопатин

Ключевые слова: нежелательный контент; фильтрация; алгоритмы.

Рассмотрены основные методы и подходы блокирования доступа к нежелательному контенту. Проанализированы алгоритмы, реализующие контентный поиск, в т. ч. полнотекстовый и поиск по сходству. Предложено решение проблемы фильтрации веб-контента на базе HTTP прокси-сервера. Описаны преимущества выбранного подхода, а также приведена общая структура разрабатываемого решения.

ВВЕДЕНИЕ

Проблемой блокировки интернет-сайтов с агрессивным содержанием занимается целый ряд российских и зарубежных компаний. Существует целый ряд обзоров, например [1-2], которые исследуют вопросы, связанные с блокировкой ресурсов Интернета. Общество и личность имеет право на защиту от вредоносного контента. При этом важно сохранить весь позитивный потенциал информационно-коммуникационных технологий. В настоящее время наблюдается низкий уровень грамотности населения в области использования информационно-коммуникационных технологий. Пользователи не имеют представлений о необходимой компьютерной гигиене, нормах поведения в современной информационной среде, реальных угрозах для себя, своей семьи, рабочего коллектива, о методах борьбы со злонамеренными информационными воздействиями. Решением перечисленных проблем может стать создание системы формирования безопасного контента, доставляемого пользователю. Цель работы: рассмотреть основные методы блокирования негативного контента и предложить схему формирования безопасного контента.

МЕТОДЫ И ПОДХОДЫ

Основными технологическими методами для блокирования доступа пользователей к нежелательному контенту являются: блокирование по IP-адресу сервера, на котором находится нежелательный материал; искажение DNS-записей; блокирование по URL-адресу; фильтрация через HTTP прокси-сервер; нарушение работы сети (DDoS атака на сервер, физическое отключение или изменение настроек сетевого оборудования). Главным преимуществом этих методов является относительная простота реализации с помощью базового сетевого оборудования, используемого интернет-провайдерами. Следует отметить, что при применении таких методов блокирования веб-сайтов, содержащих нежелательный контент, становится недоступным проведение операций с другими сервисами на данном сервере или домене. Другой проблемой является использование «белых» и «черных» списков разрешенных или запрещенных ресурсов, отнесенных к за-

прещенному контенту. В большинстве случаев формирование списков происходит в ручном режиме. Использование «черных» списков адресов имеет очевидный недостаток в скорости реагирования системы на возникновение новых ресурсов. При современном интенсивном развитии сети Интернет каждый день появляется много новых ресурсов, еще не зарегистрированных в системах безопасного доступа, а URL-адрес ресурса попадает в «черный» список уже после посещения его пользователем. Методы блокирования нежелательных сайтов, рассмотренные выше, легко обходятся при помощи различных технических решений, в частности, прокси-серверов и VPN.

Альтернативой технологическим методам является пакетная фильтрация, когда содержимое запрашиваемого интернет-сайта анализируется в момент обращения к этому ресурсу. Под содержимым интернет-сайта понимается доменное имя, различные метаданные, текст, изображения и т. д. Загрузка страниц сайта в браузер блокируется, если содержимое определяется как нежелательное. При использовании пакетной фильтрации изучаются не только заголовки пакетов, содержащих URL-адрес, но и все их содержимое. Метод позволяет фильтровать нежелательный контент не только в веб-страницах, но и в других сетевых протоколах: электронной почте, сервисах мгновенных сообщений и т. д.

Одним из самых важных элементов контентной фильтрации являются алгоритмы, реализующие контекстный (полнотекстовый) поиск. Наиболее известные алгоритмы, реализующие поиск всех вхождений подстроки в текст, приведены в работах [3-5]. Полнотекстовый поиск в силу объективных причин стал одним из первых реализованных подходов. Однако, несмотря на активную работу в этом направлении, существуют проблемы, связанные с низкой ревалентностью поиска. Проблемы вызваны существованием омонимов, синонимов, слов с совпадающими словоформами, профессионального и молодежного сленга, ошибок в правописании и ряд других. Все это приводит к низким результатам фильтрации контента реальных информационных ресурсов и пропуску нежелательной информации.

Одним из способов преодоления перечисленных трудностей является применение методов поиска по сходству. Алгоритмы поиска по сходству (нечеткого

Рис. 1. Схема связей в системе формирования безопасного контента с использованием прокси-сервера

поиска) являются основой систем проверки орфографии, полноценных поисковых систем, систем обнаружения антиплагиата. Алгоритмы без индексации не требуют предварительной обработки текста и могут работать с непрерывным потоком данных. Предназначены для поиска по заранее неизвестному тексту и могут быть использованы, например, в текстовых редакторах, программах для просмотра документов или в веб-браузерах для поиска по странице. Наиболее известным является алгоритм Baeza-Yates-Gonnet [6-7]. Современные реализации и приложения алгоритма рассмотрены в работе [8]. Особенностью всех алгоритмов поиска по сходству с индексацией является то, что индекс строится по словарю, составленному по исходному тексту, или списку записей в подготовленной заранее базе данных. Алгоритмы используют различные подходы к решению проблемы - одни из них используют сведения к точному поиску, другие используют свойства метрики для построения различных пространственных структур и т. д. Обзор алгоритмов приведен в работе [9]. На сегодняшний день для оптимального соотношения производительности и простоты реализации можно использовать развитие метода п-грамм или хеширование по сигнатуре.

Следует отметить, что весьма перспективным является использование метода поиска нечетких дубликатов (алгоритм шинглов) [10-11], который позволяет

предположить, являются ли два объекта частично одинаковыми или нет.

Алгоритмы, реализующие методы поиска по ключевым словам и поиска по сходству, имеют свои собственные достоинства и недостатки. Стоит отметить также то, что методы противоположны друг другу, т. е. что у одного является недостатком - у другого это преимущество. В основном это касается скорости работы алгоритма, точности работы, ресурсоемкости.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

В качестве собственного решения по фильтрации негативного веб-контента можно использовать НТТР-прокси сервер, т. к. подобный метод является наиболее оптимальным с точки зрения затрат на производство (не требуется разработка специального оборудования). Использование НТТР-прокси сервера предполагает возможность гибкой системы настройки фильтрации, что значительно уменьшит количество ложных срабатываний. Преимуществом использования НТТР-прокси сервера является то, что скорость фильтрации страницы не зависит от физических возможностей клиента. Не менее важным преимуществом прокси-сервера является возможность разработчика вносить изменения в алгоритм фильтрации без необходимости обновлять ПО, установленное у клиента. Наличие выделенного

удаленного сервера предполагает, что разработчикам будет предоставлена возможность расширить вычислительную мощность системы фильтрации.

Общая схема связей потоков в системе формирования безопасного контента представлена на рис. 1. После получения пользовательского веб-запроса прокси-сервер перенаправит его по месту назначения и получит в ответ страницу от запрашиваемого веб-сервера. Полученная веб-страница должна будет пройти проверку на наличие негативного контента, для этого балансировщик нагрузки вычислительных единиц определит наиболее свободную единицу и передаст вебстраницу на дальнейшую обработку.

Получив веб-страницу, вычислительная единица применит по отношению к ее содержимому разработанные алгоритмы поиска негативного контента. По результатам работы фильтрационных алгоритмов в отношении страницы будет вынесено решение об изменении ее содержимого. В случае отсутствия негативного контента страница будет возвращена пользователю без изменений. При наличии в содержимом веб-страницы нежелательного контента будет произведено изменение страницы и возврат пользователю переработанной версии страницы (возврат страницы с ошибкой загрузки, частичным содержанием или сформированным образовательным контентом). Изменения веб-страницы должны зависеть от степени «негативности» обнаруженного контента, настроек системы фильтрации, категории пользователя и ряда других свойств.

Перспективно создать клиентскую версию системы, реализованной виде собственного веб-браузера. Браузер предполагается создать на основе свободно распространяемого исходного кода проекта Chromium (компоненты которого распространяются под лицензиями Apache License, BSD license, ICU License, LGPL, libjpeg license, libpng license, MIT License, MS-PL, MPL/GPL/LGPL, zlib license). В таком случае можно надеяться на получение собственного многоплатформенного решения (Windows, MacOS X, Linux).

Отметим, что для корректной работы полноценной системы доставки безопасного контента необходима реализация механизмов защиты. Необходимо использовать многофакторную авторизацию, генерацию одноразовых ссылок, защиту от изменений настройки HTTP-прокси серверов, защиту от подмены сессий, от

программ автоматизированного взлома. Подобный подход является оправданным, т. к. основной целью системы доставки безопасного контента является обеспечение собственной безопасности, а также безопасности доверенных лиц.

ЛИТЕРАТУРА

1. Murdoch S.J., Anderson R. Access Denied: The Practice and Policy of Global Internet Filtering. Cambridge: MIT Press, 2008. P. 67-72.

2. Средства и методы фильтрации контента в Интернете // Фонд содействия развития гражданского общества. URL: http://civilfund.rU/research/6 (дата обращения: 01.02.2015).

3. Apostolico A., Galil Z. Pattern Matching Algorithms. Oxford: Oxford University Press, 1997. 377 р.

4. Charras C., Lecroq T. Hanbook exact string matching algorithms // College Publications. 2004. 256 р.

5. Borivoj M., Holub J., Polcar J. Text Searching Algorithms. V. 1: Forward String Matching, 2005. 225 р.

6. Baeza-Yates R.A., Gonnet G.H. A new approach to text searching // Commun. ACM. 1992. V. 35. № 10. P. 74-82.

7. Wu S., Manber U. Fast text searching: allowing errors // Commun. ACM. 1992. V. 35. № 10. P. 83-91.

8. Navarro G. A guided tour to approximate string matching // ACM Comput. Surv. 2001. V. 33. P. 31-88.

9. Boytsov L. Indexing methods for approximate dictionary searching: Comparative analysis // J. Exp. Algorithmics. 2011. V. 16. P. 1-81.

10. Broder A. Algorithms for duplicate documents. URL:: http://www.cs.princeton.edu/courses/archive/spr05/ cos598E/bib/Princeton.pdf (дата обращения: 01.02.2015).

11. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для веб-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: материалы 9 Всерос. науч. конф. URL: http://rcdl2007.pereslavl.ru/papers/paper_65_v1.pdf (дата обращения: 01.02.2015).

БЛАГОДАРНОСТИ: Работа выполнена при финансовой поддержке РФФИ, грант № 15-07-08378.

Поступила в редакцию 5 марта 2015 г.

Strekalov I.E., Novikov A.A., Lopatin D.V. SYSTEM OF SAFE CONTENT FORMING

The basic methods and approaches to block access to inappropriate content were described. Content search algorithms, including full text and approximate searching were analyzed. Solving the problem of web content filtering based on the HTTP-Proxy was discussed. The benefits of the chosen approach were described, and the general structure of the developed solutions was shown.

Key words: inappropriate content; filtering; algorithms.

Стрекалов Илья Эдуардович, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, студент института математики, физики и информатики, e-mail: strekalov.ilya@gmail.com

Strekalov Ilya Eduardovich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Student of Mathematics, Physics and Informatics Institute, e-mail: strekalov.ilya@gmail.com

Новиков Артем Алексеевич, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, студент института математики, физики и информатики, e-mail: doctor.gerdy@gmail.com

Novikov Artem Alekseevich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Student of Mathematics, Physics and Informatics Institute, e-mail: doctor.gerdy@gmail.com

Лопатин Дмитрий Валерьевич, Тамбовский государственный университет им. Г.Р. Державина, г. Тамбов, Российская Федерация, кандидат физико-математических наук, доцент, директор Центра компьютерной безопасности, e-mail: lopatin@tsu.tmb.ru

Lopatin Dmitriy Valeryevich, Tambov State University named after G.R. Derzhavin, Tambov, Russian Federation, Candidate of Physics and Mathematics, Associate Professor, Director of Center of Computer Security, e-mail: lopa-tin@tsu.tmb.ru

4б4

i Надоели баннеры? Вы всегда можете отключить рекламу.