Концепция обеспечения безопасного доступа детей к информации в общеобразовательных учреждениях с использованием радиочастотной идентификации

Жаринов Роман Феликсович; Трифонова Юлия Викторовна

НОВЫЕ ТЕХНОЛОГИИ В ОБРАЗОВАНИИ

УДК 004.4

КОНЦЕПЦИЯ ОБЕСПЕЧЕНИЯ БЕЗОПАСНОГО ДОСТУПА ДЕТЕЙ К ИНФОРМАЦИИ В ОБЩЕОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЯХ С ИСПОЛЬЗОВАНИЕМ РАДИОЧАСТОТНОЙ ИДЕНТИФИКАЦИИ

Р.Ф. Жаринов, Ю.В. Трифонова

Законодательство Российской Федерации устанавливает виды информации, запрещенные и ограниченные для распространения среди детей в зависимости от их возрастной категории. В работе авторами предложена концепция системы, позволяющая обеспечить безопасное использование информации при организации многопользовательского доступа для различных возрастных категорий пользователей с использованием существующей инфраструктуры идентификации личности человека. В частности, внимание уделено основным модулям - фильтрации информации и авторизации пользователей в системе. Модуль фильтрации предоставляет возможность детектирования и ограничения доступа к запрещенной информации на основе интеллектуального поиска корня слова, а также белых или черных списков. Политики безопасности для текстовой фильтрации используют базу данных DLP-системы. При этом кардинальное изменение схемы работы системы связано с перенаправлением режима работы фильтрации контента. Авторизация происходит с использованием существующей инфраструктуры бесконтактных смарт-карт, поддерживающих технологию радиочастотной идентификации (примером являются смарт-карты, используемые для проезда на общественном транспорте). Целью разработки системы являются такие параметры, как минимизация затрат при ее внедрении, а также отсутствие необходимости квалифицированного персонала при ее использовании. Ключевые слова: DLP-система, радиочастотная идентификация (RFID), информационная безопасность, фильтрация информации.

Введение

В сентябре 2012 года в России вступил в силу Федеральный закон от 29.12.2010 № 436-ФЗ «О защите детей от информации, причиняющей вред их здоровью и развитию» [1], который определяет не только виды информации, запрещенные к распространению среди детей, но и виды информации, ограниченные для распространения среди детей в зависимости от их возрастной категории. Таким образом, появляется задача создания системы, которая в зависимости от заданной возрастной категории пользователя будет производить фильтрацию загружаемого контента. Предлагается создать систему фильтрации обрабатываемого контента с использованием предварительно настроенной базы данных Data Leak Prevention (DLP)-системы. Такая система позволит организовать безопасную работу с информацией для несовершеннолетних, что особенно актуально для общеобразовательных учреждений, где обучающиеся во время работы в сети Интернет отчасти предоставлены самим себе.

Виды информации, запрещенные или ограниченные для распространения среди детей

Согласно законодательству Российской Федерации (РФ), к информации, запрещенной для распространения среди детей, относится [1]:

1. информация, побуждающая детей к совершению действий, представляющих угрозу их жизни и здоровью, в том числе к самоубийству;

2. информация, вызывающая желание употребить наркотики, психотропные и одурманивающие вещества, табачные изделия, алкогольную и спиртосодержащую продукцию, пиво;

3. информация, вызывающая желание принять участие в азартных играх, заняться проституцией, бродяжничеством или попрошайничеством;

4. информация, обосновывающая или оправдывающая допустимость насилия, жестокости по отношению к людям и животным;

5. информация, отрицающая семейные ценности и формирующая неуважение к родителям и другим членам семьи;

6. информация, оправдывающая противоправное поведение;

7. информация, содержащая нецензурную брань;

8. информация, содержащая информацию порнографического характера.

Кроме этого, была выделена информация, распространение которой среди детей определенных возрастных категорий ограничено. К ней относятся:

- информация, представляемая в виде изображения или описания жестокости, физического и психического насилия, преступления или иного антиобщественного действия;

- информация, вызывающая у детей страх, ужас или панику, в том числе представляемая в унижающей человеческое достоинство форме (ненасильственная смерть, заболевание, самоубийство, несчастный случай, авария, катастрофа или их последствия);

9

- информация, изображающая или описывающая половые отношения между мужчиной и женщиной;

- информация, содержащая бранные слова и выражения, не относящиеся к нецензурной брани.

Таким образом, информационную продукцию (ИП) разделяют на пять групп в зависимости от содержания в ней информации, распространение которой среди детей определенных возрастных категорий ограничено, для каждой группы определен соответствующий знак ИП:

1. «0+» - ИП для детей, не достигших возраста шести лет;

2. «6+» - ИП для детей, достигших возраста шести лет;

3. «12+» - ИП для детей, достигших возраста двенадцати лет;

4. «16+» - ИП для детей, достигших возраста шестнадцати лет;

5. «18+» - ИП, запрещенная для детей.

Для каждой возрастной группы в системе предлагается разработать свою политику безопасности, которая будет учитывать информацию, ограниченную для распространения среди детей конкретной возрастной категории.

Фильтрация с целью детектирования и ограничения доступа к запрещенной информации

Для организации безопасной работы с информацией необходимо производить фильтрацию данных различного вида, в том числе текстовой информации, изображений и аудио-видео информации.

Фильтрация текстовой информации. Для данного вида фильтрации, а также использования комплексного подхода ограничения доступа к информации предлагается использование DLP-системы. DLP-система - это технология методов и средств защиты от утечки конфиденциальной информации, которая позволяет обнаружить случайное или умышленное несанкционированное использование конфиденциальной информации пользователей Интранет-сети. В DLP-системе предусмотрены возможности автоматического и ручного анализа фактов утечки конфиденциальных данных в информационных потоках. Так как система может анализировать данные, выходящие за пределы локальной сети, на наличие конфиденциальной информации, то предлагается перенастроить ее режим прослушивания трафика таким образом, чтобы можно было бы использовать ее для анализа входящей информации, на наличие запрещенного контента. DLP-системы позволяют анализировать данные при их передаче по сетям, обработки на личных компьютерах, хранении в локальной сети (общих ресурсах хранения файлов, базах данных и других репозиториях данных). В настоящее время самыми распространенными DLP-системами на российском рынке программного обеспечения для корпоративных клиентов являются InfoWatch Traffic Monitor, SecurIT Zgate, Symantec DLP, Websense DSS. Сравнительный анализ указанных DLP-систем приведен в табл. 1.

В связи с тем, что в общеобразовательных учреждениях не предусмотрено финансирование для закупки специализированного дорогостоящего программного обеспечения, в таблице, кроме широко используемых платных DLP-систем, представлены открытые DLP-системы - OpenDLP и MyDLP. Под открытыми DLP-системами подразумеваются системы, которые распространяются как свободный программный продукт с открытым кодом. Таким образом, пользователю предоставлены неограниченные права на использование, модификацию и распространение программного продукта на бесплатной основе.

Исходя из сравнительных характеристик, представленных в табл. 1, для реализации Концепции была выбрана открытая система контроля утечек данных MyDLP. Основными функциями выбранной системы являются: анализ протоколов http и защищенной версии https, документов Microsoft Office, архивов (rar, 7zip, zip), вычисление цифровых отпечатков файлов при помощи криптографической хеш-функции md5, возможность интеграции с веб-прокси (например, Squid).

Функционально MyDLP-система состоит из четырех компонентов [2]:

1. MyDLP Network - сетевой сервер, который перехватывает TCP-пакеты для дальнейшего анализа. Сервер позволяет выдерживать высокие нагрузки при работе в «облаке»;

2. MyDLP Endpoint - агент, устанавливаемый на персональные компьютеры пользователей (поддерживаются операционные системы семейства Microsoft Windows), который позволяет контролировать большинство критических операций - копирование файлов, печать, создание снимка экрана, получение прав администратора и т.д.;

3. MyDLP Security Monitor - подсистема аудита передаваемых по интрасети данных. Также является централизованным компонентом для хранения и обработки отчетов безопасности;

4. MyDLP Web UI - инструмент управления настройками компонентов и актуализации политик безопасности. В выбранной DLP-системе необходимо доработать модуль анализа текстовой информации для возможности использования алгоритмов морфологического разбора слова, введения частоты встречаемости «запрещенных» слов.

К сожалению, использование международного опыта в направлении фильтрации текстовой информации неприменимо для русского языка ввиду его сложности и особенностей образования словоформ.

Наиболее эффективный алгоритм поиска «запрещенных» или потенциально опасных слов для русского языка - морфологический разбор слова. Под морфологическим разбором понимается интеллекту-

альный анализ текста, т.е. поиск ключевых слов во входном потоке информации. В русском языке существует большое количество слов, для которых нет однозначного разбора. На данный момент имеется несколько способов выделения основной части слова.

Фирма

Параметр Info Watch 8есиг1Т Symantec Websense MyDLP OpenDLP

Название системы Traffic Monitor Zgate Data Loss-Prevention Data Security Solutions Data Loss Prevention Data Loss Prevention

Модульность системы Нет Да Нет Да Нет

Места установки Сервер, клиент Сервер, клиент Сервер, клиент Сервер, клиент Сервер (linux), Клиент (windwos) Сервер

Роли Несколько Любое количество Любое количество Любое количество Несколько Нет

Текстовый анализ Словарь, лингвистический анализ, транслит Словарь, лингвистический анализ, транслит Словарь, лингвистический анализ Словарь, лингвистический анализ Полное совпадение, регулярные выражения Полное совпадение, регулярные выражения

Возможность написания дополнительных модулей Нет, только создание расширенных политик безопасности Нет, только создание политик безопасности Нет, только создание политик безопасности Нет, только создание политик безопасности Есть, Erlang, Python, php Есть, perl

Цена 2 500 000 р. После анализа заказчика После анализа заказчика После анализа заказчика Open Source Open Source

Таблица 1. Сравнение популярных и открытых DLP-систем

- Составление собственного морфологического словаря. Данный способ является трудоемким и не гарантирует 100% результат, что объясняется большим количеством словоформ русского языка.

- Использование алгоритма стемматизации - процесса поиска основы слова для входного значения [3]. Не используются словари, и выделение основы-корня осуществляется при помощи удаления суффиксов и окончания, применяя основные морфологические правила русского языка, вследствие чего алгоритм работает быстро, но с некоторой погрешностью.

- Определение исходного слова по аффиксу (окончанию и суффиксу слова). Данный метод позволяет преобразовывать слова к начальным словоформам. Пример: «продавать информацию» преобразуется алгоритмом в «продать информация». Также присутствуют дополнения, или так называемые слова-исключения, которые не изменяют свою форму (предлоги, «не», наречия, «столь» и т.д.). Для более точного преобразования слова необходимо добавить максимально возможное количество исключений.

На начальном этапе разработки системы предлагается использовать алгоритм стемматизации, так как он позволяет сформировать структуру слова, тем самым создавая более гибкие политики безопасности.

После морфологического разбора входных данных необходимо провести анализ частоты встречаемости «запрещенных» слов. Для каждого множества слов из политики безопасности (для каждой возрастной категории детей) офицером безопасности (или разработчиком системы) задается своя допустимая частота встречаемости в тексте. Информация порнографического характера запрещена для распространения среди несовершеннолетних, поэтому словам этой категории будут соответствовать минимальная допустимость встречаемости. Таким образом, если входное слово, находящееся во множестве значений политики безопасности (например, выявления слов порнографического характера), встретиться хотя бы раз, то доступ к содержанию запрашиваемого ресурса будет запрещен, тогда как слову из группы «табакокурения» будет соответствовать большая допустимая частота встречаемости (например, слово «курение» может встречаться в тексте не более 3 раз). В случаях, когда необходимо обойти политику безопасности, предусмотрен функционал временного отключения как отдельных правил, так и всей политики безопасности.

Фильтрация изображений. Для детектирования могут быть использованы следующие подходы:

- «вырезание баннеров» по ссылке, по размеру, по набору регулярных выражений (по «маске»);

- использование алгоритмов определения обнаженных тел;

- прочее.

Для блокировки и удаления рекламы, а также порнографических роликов и изображений используются регулярные выражения со сторонних сайтов. Интернет-сообщество в процессе своей работы создает библиотеку «масок» для блокировки рекламы (изображений), содержащей запрещенную, нежелательную и (или) навязчивую информацию [4].

Для фильтрации изображений могут использоваться различные сервисы и алгоритмы. Их сравнительный анализ приведен в табл. 2.

Сервис

Параметр piFilter LogiPik Finding Naked People Nudity Detection

Встраивание Обработка переданных изображений PHP5 библиотека Алгоритм [5] Алгоритм [6]

Точность 91,5% 90% 43% 94%

Стоимость 134$ за 60000 запросов Индивидуальный подход Open Source Open Source

Таблица 2. Сравнительный анализ сервисов и алгоритмов, производящих анализ изображений на наличие

информации порнографического характера

На первом этапе предлагается синтезировать открытые алгоритмы анализа изображений на наличие в них запрещенной информации для повышения надежности работы системы.

Фильтрация аудио-видео контента. Это самый сложный вид информации с точки зрения фильтрации. Открытых алгоритмов поиска запрещенной информации в аудио-видео контенте нет. По этой причине на первом этапе создания системы предлагается сделать фильтрацию аудио-видео контента путем введения белых списков. Так, например, прослушивание аудиодорожек может быть разрешено с ресурса music.yandex.ru [7], видео - с youtube.com [8], а также с отдельных подразделов выбранных ресурсов (т.е. прослушивание конкретного альбома или просмотр конкретного канала).

Знак информационной продукции

Федеральный закон «О защите детей от информации, причиняющей вред их здоровью и развитию» [1] вводит понятие знака ИП. По сути, это метка на информации, которая говорит о возрастной категории детей, начиная с которой эта информация возможна для распространения среди детей. Однако Федеральный закон позволяет владельцам Интернет-ресурсов самостоятельно принимать решение о необходимости маркировки своего контента. Кроме того, на сегодняшний день еще не разработаны нормативные документы, регламентирующие маркировку электронной информации [9]. В разрабатываемой системе предполагается предусмотреть возможность фильтрации информации в зависимости от указанного знака ИП. Но такая фильтрация не будет отменять работу всех ранее описанных фильтров, поскольку возможна подмена знака ИП.

Авторизация

В качестве уникального идентификатора личности, а также для увеличения удобства эксплуатации разрабатываемой системы авторизацию предлагается реализовать с использованием RFID-технологий на основе бесконтактной смарт-карты (БСК), которые применяются для проезда на общественном транспорте. В метрополитене используются RFID-карты MIFARE Classic одной из двух модификаций - 1K или 4K. Карта MIFARE Classic поделена на секторы (16 или 40 секторов в зависимости от модификации), доступ к которым защищен двумя 48-битными ключами A и B. На данных картах помимо служебной информации, хранится информация о держателе карты, включая такие данные как: фамилия, имя, отчество, пол и дата рождения. Эти данные находятся в секторах 13-14, доступ к которым осуществляется по определенному в стандарте «MIFARE Application Directory (MAD)» [10] ключу a0a1a2a3a4a5 hex или 0000000000 hex. Остальные сектора карты являются закрытыми, и получить доступ к ним можно лишь зная соответствующие ключи, или при помощи утилит, позволяющих восстановить ключи доступа к секторам.

Для получения информации от радиочастотной метки необходимо установить RFID-считыватели на каждое рабочее место или использовать современные ноутбуки со встроенными NFC-чипами, позволяющие эмулировать работу считывателя RFID-меток семейства MIFARE. Стоимость внешних RFID-считывателей, подходящих для решения рассмотренной задачи, составляет от 900 рублей за одну единицу товара (при массовой закупке) [11]. Радиочастотная смарт-карта должна находиться в поле видимости

считывателя на протяжении всего рабочего времени с системой. Если же RFID-карта не предъявлена, то по умолчанию действует политика безопасности для возрастной группы 0+.

Для исключения возможности использования чужой RFID-карты предложено использовать метод фильтрации «черный список». В данный список будут заноситься уникальные идентификаторы личных радиочастотных БСК, которые были утеряны или переданы другим лицам.

Заключение

Реализация представленной концепции позволит обеспечить безопасный доступ пользователей различных возрастных категорий к информации, которая передается по таким информационным каналам, как всемирная сеть Интернет, внутренняя сеть Интранет, и обрабатывается на рабочем месте пользователей. Возможность использования открытых алгоритмов позволит сократить время разработки системы, а также легко модифицировать или компоновать ее под конкретные требования. Основная функциональная часть системы (обнаружение потенциально опасной информации, получаемой из сети) является кроссплатформенной.

Выбранный способ авторизации на основе радиочастотной идентификации является примером использования существующей инфраструктуры идентификации пользователей.

На начальном этапе планируется реализовать модули общего назначения - модуль анализа текстовой информации, модуль детектирования изображений обнаженных тел и порнографического содержания, модуль авторизации с использованием смарт-карты RFID, а также фильтрацию аудио-видеоконтента на основе разрешительных и запретительных списков. Впоследствии планируется перевести базу данных, содержащую актуальные политики безопасности, в облачное хранение данных, тем самым актуализируя базы при помощи распределенных каналов передачи данных.

Литература

1. Федеральный закон от 29.12.2010 № 436-Ф3 «О защите детей от информации, причиняющей вред их здоровью и развитию».

2. Data Sheet MyDLP Data Leak Prevention [Электронный ресурс]. - Режим доступа: http://www.mydlp.com/wp-content/uploads/MyDLP-datasheet.pdf, свободный. Яз. англ. (дата обращения 20.09.2012).

3. Russian stemming algorithm [Электронный ресурс]. -http://snowball.tartarus.org/algorithms/russian/stemmer.html, свободный. Яз. англ. (дата обращения 20.09.2012).

4. Список правил блокирования и скрытия рекламы для русско- и украинско-язычных сайтов RU AdList [Электронный ресурс]. - Режим доступа: https://code.google.com/p/ruadlist, свободный. Яз. рус. (дата обращения 25.09.2012).

5. Finding Naked People [Электронный ресурс]. - Режим доступа: http://www.cs.hmc.edu/~fleck/naked.html, свободный. Яз. англ. (дата обращения 25.09.2012).

6. Rigan Ap-apid. An Algorithm for Nudity Detection [Электронный ресурс]. - Режим доступа: http://onebit.us/x/i/814381733331796005.pdf, свободный. Яз. англ. (дата обращения 25.09.2012).

7. Сервис Яндекс. музыка [Электронный ресурс]. - Режим доступа: music.yandex.ru, свободный. Яз. рус. (дата обращения 10.10.2012).

8. Сервис видеохостинга youtube [Электронный ресурс]. - Режим доступа: youtube.com, свободный. Яз. рус. (дата обращения 10.10.2012).

9. Трифонова Ю.В. Защита детей от нежелательного Интернет-контента // Формирование современного информационного общества - проблемы, перспективы, инновационные подходы: Материалы международного форума. - СПб: ГУАП, 2012 - C. 186-190.

10. MIFARE Application Directory (MAD) AN10787 [Электронный ресурс]. - Режим доступа: http://www.nxp.com/documents/application_note/AN10787.pdf, свободный. Яз. англ. (дата обращения 15.10.2012).

11. Интернет-магазин smart-card.ru [Электронный ресурс]. - Режим доступа: http://www.smart-card.ru/mifare-reader/, свободный. Яз. рус. (дата обращения 19.10.2012).

Жаринов Роман Феликсович - Санкт-Петербургский государственный университет аэрокосмического

приборостроения, аспирант, roman@vu.spb.ru Трифонова Юлия Викторовна - Санкт-Петербургский государственный университет аэрокосмического

приборостроения, ассистент, julia@vu.spb.ru

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жаринов Роман Феликсович, Трифонова Юлия Викторовна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жаринов Роман Феликсович, Трифонова Юлия Викторовна

CONCEPT OF PROTECTION SYSTEM FOR CHILDREN’S SAFETY ACCESS TO INFORMATION IN EDUCATION INSTITUTES USING RFID-TECHNOLOGY