практической конференции / Борисоглебск, ноябрь 2013 г. - Борисоглебск: ФГБОУ ВПО «БГПИ», 2013.-С. 14-25.
6. Жаринов В.Н. Объектное описание образовательного контента на императивно-семантическом языке. // Интеллектуальные технологии обработки информации и управления: Труды второй междун. конф. Междун. науч. изд. - Уфа: ФГБОУ ВПО УГАТУ, 2014. - Т.1 — С.164-170.
7. Жаринов В.Н. Некоторые вопросы графического представления потока управления императивных знаний. - В том же сборнике, 2014. - Т.1. - С.59-64.
8. Жаринов В.Н. Построение и языки учебно-производственных графических моделей процессов. // «Информационные и коммуникационные технологии в образовании»: Сб. материалов XIV Междун. научно-практической конференции / Борисоглебск, ноябрь 2013 г. -Борисоглебск: ФГБОУ ВПО «БГПИ», 2013. - С. 165-189.
9. Гегечкори А. Проблемы обучения информатике. // Информатика и образование. - 1988. - №4.
10. Жаринов В.Н. Императивная и дескриптивная семантика в описании профессионального контента. // Интеллектуальные технологии обработки информации и управления: Труды третьей междун. конференции. Междун. науч. изд. - Уфа: УГАТУ, 2015. - Т.1. - С.114-120.
11. МБОУ ДПО УМЦ г. Челябинска. Уроки Scratch. [Электронный ресурс]. [2011] URL: http://zarapina.blogspot.ru/p/scratch_2116.html (пров.: 3.05.2013).
12. Черемных С.В., Семёнов И.О., Ручкин В.С. Структурный анализ систем: IDEF-технологии. -М.: Финансы и статистика, 2001.
13. Ермаков И. Е., Жигуненко Н. А. Двумерное структурное программирование; класс устремлённых графов. (Теоретические изыскания из опыта языка «ДРАКОН») // Сборник трудов V Международной конференции «Инновационные информационно-педагогические технологии в системе ИТ-образования», Москва, 8-10 ноября 2010. - М.: Изд-во Московского ун-та имени М. В. Ломоносова, 2010. - с. 452-461. URL: http://2010.it; edu.ru/docs/C4/a4a%20Ермаков%20И.Е1287620722076198.doc.
14. Лаптев В.В., Грачёв Д.А. Разработка многоязыкового редактора на основе семантической модели программы // Вестник АГТУ. Сер.: Управление, вычислительная техника и информатика. - 2013. - №2. - С. 191-202.
УДК 004.942:81 '322.2(062)
ПРИМЕНЕНИЕ ОБЪЕКТНО-ОРИЕНТИРОВАННОГО ПОДХОДА К ПРОЕКТИРОВАНИЮ ИНФОРМАЦИОННОЙ СИСТЕМЫ ИДЕНТИФИКАЦИИ ЛИЦ, ПРИЧАСТНЫХ К СФЕРЕ НЕЗАКОННОГО ОБОРОТА НАРКОТИЧЕСКИХ СРЕДСТВ И ПСИХОТРОПНЫХ ВЕЩЕСТВ В ВИРТУАЛЬНЫХ СОЦИАЛЬНЫХ СЕТЯХ, С ИСПОЛЬЗОВАНИЕМ БАЗЫ ДАННЫХ ЖАРГОНИЗМОВ
Савва Юрий Болеславович, к.т.н., доцент кафедры «Информационные системы», Приокский государственный университет, Россия, г. Орел, 8ы [email protected] Давыдова Юлия Витальевна, ведущий программист ИВЦ, Приокский государственный университет, Россия, г. Орел, [email protected]
Анонимность в Интернете создает благоприятные условия для развития девиантного поведения среди пользователей. Сервисы виртуальных социальных сетей предоставляют широкие возможности для коммуникации. Ряд особенностей этих сетей, таких как высокая скорость реагирования, вирусный характер распространения информации, делают их хорошими средствами для пропаганды и реализации злоумышленных намерений криминальных и террористических организаций, в частности в сфере незаконного оборота наркотических средств и психотропных веществ. В настоящее время опасность распространения наркомании резко возросла в связи с тем, что наиболее популярными становятся «легкие» наркотики. По сравнению с «тяжелыми» видами, такие как героин,
«легкие» наркотики имеют отдаленные последствия в сфере здоровья [1]. Кроме того, девиантное поведение таких наркоманов не является ярко выраженным, часто протекает в латентной форме. Доступность «легких» наркотиков способствует их распространению в самых разных слоях общества.
Сохранение здоровья населения страны является одной из задач обеспечения национальной безопасности, для решения которой разрабатываются информационные системы мониторинга виртуальных социальных сетей с целью выявления лиц, пропагандирующих употребление наркотиков и распространяющих наркотические средства и психотропные вещества для последующего оказания противодействия подобным деструктивным воздействиям на пользователей Интернета. Так, для выявления активности участников виртуальных социальных сетей и последующей их кластеризации по различным признакам разработаны и используются на практике программы [2, 3]. Для эффективного применения этих программ для организации противодействия пропаганде и распространения наркотических средств и психотропных веществ необходимо проводить анализ текстов сообщений, которыми обмениваются участники виртуальных социальных сетей, с целью выявления в этих сообщениях специфических терминов - жаргонизмов. Использование жаргонизмов в сетевых коммуникациях является особенностью сферы незаконного оборота наркотических средств и психотропных веществ, что представляет собой наибольшую сложность при реализации информационного поиска с целью выявления лиц, связанных с наркотизацией [4]. Помимо специализированных названий веществ, способов приема, инструментов и т.д. особую сложность вызывает лексика, которая вне контекста наркотизации является общеупотребительным вариантом языка или сленга (т.е. имеет место явление семантической деривации).
В результате анализа предметной области были сформулированы следующие требования к информационной системе поиска жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ:
- наличие лингвистической базы данных с возможностью пополнения словаря имеющихся жаргонизмов. Лингвистическая база данных предполагает наличие семантической и грамматической составляющей. Семантический компонент позволит организовать жаргонизмы по принципу толкового словаря, а грамматическая информация необходима в процессе снятия омонимии. Деятельность в сфере незаконного оборота наркотических средств и психотропных веществ является уголовно наказуемой, поэтому язык наркоманов относится к «тайным» языкам, а, значит, имеет особую тенденцию к изменениям. Таким образом, необходим инструмент поддержания базы данных в актуальном состоянии. Кроме того, база данных должна содержать сведения о наркотических веществах и психотропных средствах;
• наличие возможности заданий условий поиска, например, ограничить поиск упоминаний в сообщениях терминов только о «легких» наркотиках;
• наличие возможности просмотра архива результатов поиска с ранжированием по степени риска. Некоторые жаргонизмы представляют собой узкоспециализированную лексику, тогда как другая их часть мигрировала в общеупотребительный сленг и не является однозначным сигнализатором о применении наркотических средств и психотропных веществ.
При разработке информационной системы поиска жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ были использованы объектно-ориентированный подход (ООП) и универсальный язык моделирования ЦМЬ, обоснование возможности применения которых для проектирования подобных систем приведено в работах [5, 6].
В результате анализа предметной области была разработана объектно-ориентированная модель информационной системы поиска жаргонизмов в сфере незаконного оборота
наркотических средств и психотропных веществ, диаграмма вариантов использования (use case diagram) которой представлена на рисунке 1 в нотации языка UML.
В настоящее время все чаще изобретаются новые виды наркотиков, в частности, синтетические «легкие» наркотики, поэтому пользователь может добавлять наркотические средства и психотропные вещества в базу данных. Также предоставляется возможность ассоциировать новое вещество с имеющимися группами наркотических веществ. Чтобы сделать этот процесс максимально простым и не требующим углубленных знаний в области химии и медицины, были выделены крупные группы наркотиков, такие как: опиаты, галлюциногены, курительные смеси и т.д.
Информационный поиск проводится с использованием псевдооснов жаргонизмов, что существенно уменьшает время поиска. Реализация прецедента «Добавить жаргонизм»: интерфейс системы проводит пользователя через ряд этапов грамматического определения нового жаргонизма, что позволяет разбить ключевые слова на псевдосегменты. При этом пользователю необходимо указать такую грамматическую информацию, как часть речи, число, род (для имен существительных и прилагательных), возвратность, спряжение (для глагола) и др. База данных содержит жаргонизмы, которые являются именами существительными, прилагательными, глаголами и наречиями. После указания грамматической информации на основе парадигм словоизменения система предложит пользователю вариант разбиения словоформы на псевдосегменты, в свою очередь, пользователю необходимо верифицировать данный вариант, подтвердив правильность разбиения или внеся изменения.
незаконного оборота наркотических средств и психотропных веществ
В зависимости от решаемой пользователем задачи информационный поиск в текстах сообщений участников виртуальных социальных сетей может осуществляться следующими тремя способами:
• с использованием всей базы данных жаргонизмов;
45
• только по отдельным выбранным группам наркотических средств и психотропных веществ;
• по жаргонизмам, относящимся к группе наиболее характерных для речи наркоманов и сигнализирующих об однозначной принадлежности авторов этих сообщений к сфере наркотизации.
Процесс поиска реализуется автономно, поэтому процедура «Просмотр архива результатов поиска» была выделена в качестве отдельного прецедента. Отчеты по результатам поиска позволяют пользователю сортировать данные, собранные за сутки, неделю и т.д. Кроме того, пользователю предоставлена возможность группировка данных по определенной тематике.
Для выявления жаргонизмов, занесенных в базу данных, в текстах сообщений необходимо решить задачу, которую согласно [7] называют идентификацией сущностей или распознаванием именованных сущностей (named-entity recognition, NER). В результате решения этой задачи были выделены следующие сущности:
• Substance — наркотическое средство или психотропное вещество;
• SubstanceGroups — группы наркотических средств и психотропных веществ;
• Semantics — сущность, обозначающая семантику жаргонизма;
• WordFroms — словоформа;
• PseudoBasis — псевдооснова жаргонизма.
На рисунке 2 представлен фрагмент диаграммы классов информационной системы поиска жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ (class diagram).
Наркотики в большинстве своем распределены по группам веществ (метод assignGroup), однако допускается наличие в базе данных веществ, не ассоциированных ни с одной из имеющихся групп. Методы add, change, delete позволяют добавить новый наркотик, редактировать существующий и удалить наркотическое вещество соответственно.
Пользователь имеет возможность создания новых групп наркотических веществ согласно любому желаемому критерию, например, лекарства, ограниченные в обороте или новые синтетические наркотические средства. Затем в новую группу вносятся вещества из базы данных.
Семантика жаргонизмов может представлять собой название наркотического средства или целой группы веществ, а также обозначать наркотическое состояние, инструменты, лица, распространяющие и употребляющие наркотики и т.д. Существует вероятность многозначности — один жаргонизм может обозначать несколько значений, и наоборот, один тип семантики может распространяться на множество жаргонизмов. Атрибут description сущности Semantics позволяет пользователю добавить расширенное текстовое описание для того или иного значения жаргонизма по принципу толкового словаря.
Для словоформ выделяются псевдоосновы, которые используются при информационном поиске. Атрибуты ending и pseudosuffix сущности WordForms представляют собой окончание и псевдосуффикс словоформы соответственно. Атрибут range определяет степень специализированности той или иной словоформы, basis представляет собой основу слова, если при словоизменении имеет место факт редуцирования, остальные атрибуты являются грамматическими признаками. Метод assignSemantics позволяет присвоить словоформе множество значений.
Лингвистический анализ текстов сообщений участников виртуальных социальных сетей с использованием разработанной базы данных жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ позволяет с использованием программ [2, 3] провести построение и анализ структуры этих сетей, а также свойств личных коммуникаций и тем самым решать задачи идентификации акторов, входящих в сообщества
лиц, пропагандирующих и распространяющих наркотические средства и психотропные вещества в Интернете.
Рис. 2 — Фрагмент диаграммы классов информационной системы поиска жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ С точки зрения интеллектуального анализа данных, виртуальная социальная сеть представляет собой гетерогенный мультиреляционный массив данных, представленный в виде графа. Поэтому для исследования структуры виртуальной социальной сети в программе [2] использованы алгоритмы кластерного анализа, позволяющие разбивать узлы сети, представляемые объектами, на классы, основываясь на их связях так же, как и на их атрибутах.
При анализе наиболее популярной в России виртуальной социальной сети «ВКонтакте» участники этой сети были представлены в качестве объектов «Participant», обладающих следующими атрибутами:
1. Основные поля:
• id (идентификатор);
• first_name (имя);
• last_name (фамилия);
• deactivated (возвращается в случае, если страница участника удалена);
• hidden (возвращает единицу, если страница участника скрыта от посторонних);
2. Дополнительные поля:
• photo_id (идентификатор фотографии участника);
• verified (возвращает единицу, если страница участника верифицирована, или нуль, если страница не верифицирована);
• blacklisted (возвращает единицу, если текущий участник находится в черном списке у запрашиваемого участника);
• sex (пол участника: 1 - женский, 2 - мужской, 0 - пол не указан);
• bdate (дата рождения);
• city (содержит два поля: id - идентификатор города и title - название города);
• country (содержит два поля: id - идентификатор страны и title - название страны);
• home_town (родной город участника);
• photo_50 (фотография участника шириной 50 пикселей);
• photo_100 (фотография участника шириной 100 пикселей);
• photo_200 (фотография участника шириной 200 пикселей);
• photo_max (фотография участника без ограничений в ширине);
• online (возвращает 1, если пользователь находится в данный момент на сайте «ВКонтакте», иначе 0);
• lists (идентификаторы списков друзей);
• domain (адрес страницы участника);
• has_mobile (возвращает 1 - если номер мобильного телефона известен, 0 - если не известен);
• contacts (номер мобильного телефона участника);
• site (указанный сайт в профиле участника);
• education (информация о высшем учебном заведении участника);
• universities (список высших учебных заведений);
• schools (список школ);
• status (статус участника);
• last_seen (время, когда участник был в последний раз в сети);
• followers_count (количество подписчиков участника);
• common_count (количество общих друзей с текущим участником);
• counters (количество различных объектов у участника, а именно: фотоальбомы, видеозаписи, аудиозаписи, друзья, группы и др.);
• occupation (род занятий участника);
• nickname (ник или отчество участника);
• relatives (список родственников участника);
• relation (семейное положение: 1 - не женат/не замужем, 2 - есть друг/подруга, 3 -помолвлен/помолвлена, 4 - женат/замужем, 5 - все сложно, 6 - в активном поиске, 7 - влюблен/влюблена, 0 - не указано);
• personal (информации из раздела «жизненная позиция»);
• wall_comments (1 - комментирование стены доступно, 0 - недоступно);
• activities (деятельность участника);
• interests (интересы);
• music (любимая музыка);
• movies (любимые фильмы);
• books (любимые книги);
• games (любимые игры);
• about (сведения, представленные участником о себе);
• quotes (любимые цитаты);
• timezone (временная зона участника);
• is_friend (является ли другом);
• friend_status (статус дружбы с участником);
• maiden_name (девичья фамилия участника).
Для поиска по ключевому слову на «стене» участника используется метод wall.search, который принимает в качестве параметров идентификатор пользователя и поисковой запрос. После успешного выполнения возвращает список найденных записей на стене.
Модель построения отношений между объектами «Participant» выполнена в виде диаграммы последовательностей, представленной на рисунке 3. Для фильтрации объектов пользователь использует ключевые слова из базы данных жаргонизмов в сфере незаконного оборота наркотических средств и психотропных веществ в одном или двух полях: «Поиск по анкетным данным» и «Поиск по стене». При этом пользователь вводит идентификатор или ключевое слово, после чего приложение посылает запрос с данным идентификатором на сервер «ВКонтакте». Сервер возвращает данные, которые потом используются при построении графа. Затем управление приложением возвращается к пользователю.
Для визуализации графа отношений между участниками сети «ВКонтакте» использован алгоритм физики частиц, разработанный в 1986 году специалистами по компьютерному моделированию Дж. Барнсом и П. Хатом [8], получившим название TreeCode.
Рис. 3 - Диаграмма последовательностей действий пользователя при построении графа отношений между участниками виртуальной социальной сети «ВКонтакте»
Практическое использование прототипа информационной системы идентификации лиц, причастных к сфере незаконного оборота наркотических средств и психотропных веществ, с использованием базы данных жаргонизмов не только показало ее эффективность, но и позволило вывить некоторые проблемы.
Регулярное использование участниками сообществ, пропагандирующих и распространяющих наркотические вещества, потенциально грамматически неверного написания (обфусицирование) слов и построения предложений в целом существенно усложняет проведение лингвистического анализа текстов сообщений. В качестве основных приемов обфусксции таких текстов в работе [4] нами выделены следующие:
• замена букв кириллицы на имеющие сходные начертания буквы латиницы (например, буквы «а», «о», «е», «с» и др.);
• использование цифр вместо отдельных букв и слов (например, цифра «4» вместо буквы «ч», цифра «0» вместо буквы «о», цифра «2» вместо предлога «к», цифра «5» в слове «о5» вместо слова «опять» и др.);
• вставка различных не буквенных символов для разделения слов (например, написание «с.п.а.й.с» вместо слова «спайс» и т.п).
Для преодоления обфускации текстов сообщений предполагается использовать методы кластеризации и распознавания образов при сравнении графов следования символов запутанных сообщений с шаблонами, хранящимися в базе данных информационной системы идентификации лиц, причастных к сфере незаконного оборота наркотических средств и психотропных веществ в виртуальных социальных сетях, с использованием базы данных жаргонизмов.
Литература
1. Девиантное поведение в современной России: алкоголь, наркотики, молодежный экстремизм (концепции и исследования) / Т.А. Хагуров, М.Е. Позднякова, В.Н.Ракачев и др. - М.: Институт социологии РАН. 2014. - 200 с.
2. Савва, Ю.Б. Программа кластеризации и шкалирования нечетких данных: свидетельство об офиц. регистрации программы для ЭВМ № 2015612445 Рос. Федерация/ Ю.Б. Савва; заявитель и правообладатель ФГБОУ ВПО «Госуниверситет - УНПК» (RU). - № 2014663471; заявл. 23.12.2014; зарегистрировано в реестре программ для ЭВМ 18.02.2015. - [1] с.
3. Савва, Ю.Б. Программа выявления активности участников виртуальных социальных сетей: свидетельство об офиц. регистрации программы для ЭВМ № 2015660186 Рос. Федерация/ Ю.Б. Савва, В.А. Савченко; заявитель и правообладатель ФГБОУ ВПО «Госуниверситет -УНПК» (RU). - № 2015616913; заявл. 28.07.2015; зарегистрировано в реестре программ для ЭВМ 24.09.2015. - [1] с.
4. Савва, Ю.Б. О проблеме лингвистического анализа сленга в задаче автоматизированного поиска угроз распространения наркомании в виртуальных социальных сетях [Текст] / Ю.Б. Савва, В.Т. Еременко, Ю.В. Давыдова // Информационные системы и технологии. - № 6 (92). -2015. -С. 68-75.
5. Савва, Ю.Б. Об объектно-ориентированном подходе к моделированию информационных воздействий при ведении противоборства в компьютерных сетях [Текст] / Ю.Б. Савва// Перспективы развития информационных технологий: сборник материалов ХХ Международной научно-практической конференции / Под общ. ред. С.С. Чернова. -Новосибирск: ЦРНС, 2014. - С. 14-19.
6. Савва, Ю.Б. Моделирование поведения акторов в виртуальных социальных сетях в задаче выявления источников пропаганды наркотиков [Текст] / Ю.Б. Савва // Вопросы безопасности России и постсоветского пространства: история и современность: Сборник статей Международной научно-практической конференции /МНИЦ ПГСХА. - Пенза: РИО ПГСХА, 2015. -С. 83-88.
7. Ингерсолл, Г.С. Обработка неструктурированных текстов. Поиск, организация и манипулирование [Текст] / Г.С. Ингерсолл, Т.С. Мортон, Э.Л. Фэррис. / Пер. с англ. Слинкин А.А. - М.: ДМК Пресс, 2015. - 414 с.
8. Barnes, J. A hierarchical O(N log N) force-calculation algorithm [Техт] / J. Barnes, P. Hut. - Nature - № 4 (324). - 1986. - P. 446-449.
УДК 004.4'6
РАЗРАБОТКА ПРОТОТИПА БАЗЫ ЗНАНИЙ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ОЦЕНКИ УСПЕВАЕМОСТИ ОБУЧАЮЩЕГОСЯ НА ОСНОВЕ ОБЪЕКТНО-
ОРИЕНТИРОВАННОГО ПОДХОДА
Трусов Роман Евгеньевич, студент, Комсомольский-на-Амуре государственный технический университет, Россия, Комсомольск-на-Амуре, [email protected] Горькавый Михаил Александрович, канд. тех. наук, доцент, Комсомольский-на-Амуре государственный технический университет Россия, Комсомольск-на-Амуре, [email protected]