УДК 51-77, 338.26, 004.852
А. В. Якушев*, С. А. Митягин**, А.В. Бухановский***, Ю.Н. Захаров****
Исследование социальных сетей в задаче моделирования наркотизации населения и противодействия незаконному обороту наркотиков
В работе рассматривается применение данных мониторинга социальных сетей в задаче моделирования наркотизации общества. Эмоционально-психологическое состояние членов интернет-сообществ и распространенность наркокультруры в социальных сетях выступают фактором распространения наркомании и являются угрозой развитию общества. В работе описывается анализ данных из социальной сети livejoumal.com посредством методов текстового анализа данных. Моделирование наркотизации населения осуществляется на основе агентной сетевой модели, позволяющей учесть личностные факторы приема наркотиков и структуру социальных связей в обществе. В процессе эксперимента рассматривалось распределение агентов согласно размещению жилых домов на территории Санкт-Петербурга, что позволило осуществить привязку к территории и выявить наиболее неблагоприятные зоны.
Ключевые слова: наркоситуация, социальные сети, краулинг, текстовый анализ данных, моделирование наркотизации населения, комплексные сети, агентное моделирование.
A.V. Yakushev*, S.A. Mityagin **, A.V. Boukhanovsky***, Y.N. Zaharov****. The application of social networks research in drug addiction modeling and combating drug trafficking. In this paper the researches of monitoring data of social networks in the problem of drug addiction modeling. Emotional and psychological state of online communities members and the prevalence of drug culture in social networks are the factors in the spread of drug abuse. Simulation of the population of drug addiction is based on agent-based network model to take into account personal factors of drug use and the structure of social relations in society.
Keywords: drug situation, social networks, indicators, crawl, text analysis, drug addiction modeling, complex network, agent-based modeling.
Введение
Влияние распространения наркомании на экономическое и демографическое развитие региона не вызывает сомнений. В стратегии национальной безопасности [1] наркомания обозначена как одна из угроз национальной безопасности. Специфика исследований в предметной области обусловлена скрытым и криминальным характером процесса распространения наркомании, недоступного для непосредственного наблюдения. Таким образом, основной задачей в исследовании наркотизации населения является выявление и оценка величины скрытого контингента потребителей наркотиков и наркозависимых.
Традиционным источником знаний о распространении наркомании в Российской Федерации являются данные официальной государственной статистики мониторинга наркоситуации, организация которого регламентирована рядом нормативно-правовых документов [3]. Таким образом, развитие наркоситуации наблюдается по ряду макро-показателей, данные по которым агрегируются на уровне муниципальных образований, районов или субъектов Российской Федерации. Следствием такого подхода является традиционное применение математических моделей прогнозирования развития наркомании на макро-уровне, оперирующих агрегированными величинами, что, в свою очередь, существенно затрудняет организацию мер противодействия наркомании и незаконному обороту наркотиков.
Рассмотренные особенности требуют применения комплексных методов, основанных на наблюдении процессов, характеризующих уровень развития наркомании на рассматриваемой территории на микроуровне (уровне индивидуума). Процесс наркотизации населения, так же как и эпидемия, развивается в сети социальных контактов, что делает возможным применение методов прямого моделирования, основанных на моделях комплексных сетей, позволяющих исследовать наркотизацию населения на личностном уровне, исходя из особенностей и феноменологии процесса наркотизации [4, 9, 10].
Однако построение реальной сети социальных связей, на основе которой можно было бы осуществлять моделирование распространения наркомании, невозможно, поскольку построение подобной сети не обеспечивается реальными данными. В таких условиях оправдано в задаче моделирования наркотизации населения рассмотрение случайной структуры графа социальной сети.
Постановка задачи
Отсутствие данных о распространении наркотиков от индивида к индивиду заставляет нас считать, что граф социальных связей случайный, что является достаточно грубым предположением. Для того чтобы оценить реальную структуру такого графа, необходимо использовать специальные методы установления связей между индивидами, например, анализ социальных сетей в интернет. Социальные сети, являющиеся своего рода слепком общества, доступны для наблюдения и позволяют произвести оценивание распространенности наркокультуры по ряду формальных признаков. Определение численных характеристик сегмента социальной сети позволяет построить комплексную сетевую модель наркотизации населения на данных социальной сети. Оценка наркотизации населения
Вестник Санкт-Петербургского университета МВД России № 4 (56) 2012
Вестник Санкт-Петербургского университета МВД России № 4 (56) 2012
Криминология, криминалистика
на основе комплексной сетевой модели, полученной на основе мониторинга социальных сетей, может являться смещенной в силу сложности получения репрезентативной выборки, но достоверно описывает психологическое состояние общества.
Таким образом, задача исследования наркотизации населения на основе данных социальных сетей включает две подзадачи: мониторинга социальных сетей с восстановлением топологии графа социальных связей и классификации узлов сети по критерию вовлеченности в наркоманию и моделирование наркотизации населения. Вследствие того, что объектом наблюдения является текстовый массив, содержащийся в узлах сети (на страницах пользователей), следует говорить не столько о вовлеченности в наркоманию, сколько о вовлеченности узла в наркокультуру. Тем самым вовлеченность членов социальных сетей в наркокультуру рассматривается в качестве фактора распространения наркомании, в частности, и безопасности общества в целом.
Методом моделирования социальных процессов, позволяющим учесть структуру социальных связей и личностных качеств членов общества, является агентное сетевое моделирование. Как было отмечено, распространение наркотиков является сетевым процессом на микроуровне. При этом наркотизация населения рассматривается как процесс распространения эпидемии путем передачи «заболевания» при личном контакте распространителей наркотиков и лиц, подверженных наркомании.
Имитационное моделирование наркотизации населения
Как было отмечено выше, используется метод моделирования ПНН на основе сетевой модели, параметрами которой являются макромасштабные факторы распространения наркомании. Сетевая модель позволяет описать ПНН, исходя из феноменологии наркомании [4, 7, 8, 9, 10]. Лица, вовлекаемые в процесс распространения наркотиков, могут находиться в одном из следующих состояний (рис. 1): имеющие иммунитет к наркомании (I); входящие в группу риска (5); состоящие на учете в учреждениях лечения и реабилитации с диагнозом «синдром
зависимости от наркотических веществ» (У); принимающие психоактивные вещества и не состоящие под наблюдением (X); распространители наркотических веществ (О).
На схеме также указаны: общее население территории (Р); лица, к которым применена мера наказания в виде лишения свободы (М).
С точки зрения имитационного моделирования процесс наркотизации рассматривается как цепная реакция процесса передачи наркотиков от источника наркомании (действующий наркоман, либо распространитель наркотиков) к восприимчивым лицам из группы риска, что позволяет представить данный процесс взвешенным неориентированным графом С.
Граф С определяется как совокупность (Xг, Е) конечного множества вершин I \ сНт(К) = N, п
множества ребер Е, состоящего пз множества неупорядоченных пар (г/,у), где и,\>^У н и^\. Вершиной графа является индивид, находящийся в одном из феноменологических состояний. Ребрами графа С являются социальные связи между индивидами. Эволюция сети социальных связей, представленной графом С, может быть описана посредством оператора эволюции сети
(Г,Е,ЛМ=Г(Г,Е,Л„ (Г,Е,Л,=0=(Г0,Е0,/0), (1)
где параметр / определяет вероятность смены состояния вершин; Г — оператор, отвечающий за эволюцию во времени отдельных узлов.
Эволюционный оператор Г является композицией компонент
Рис. 1. Структура состояний процесса распространения наркомании.
(2)
а) б)
Рис. 2. Представление графа социальных связей а) начало процесса (темные вершины — распространители наркокультуры; светлые — группа риска) б) завершающая стадия процесса.
Г=Г3®Г1®Г2®Г4(х)ГА.
где — появление новой вершины (индивидуума) с вероятностью ру вследствие рождения или миграционного прироста; Г2 — удаление вершины с вероятностью С[у вследствие гибели или миграционной убыли; Г3 — появление нового ребра с вероятностью рЕ вследствие вхождения вершины в сообщество или смены
социального статуса; Г4 — удаление ребра с вероятностью ЯЕ вследствие удаления одной из вершин, выхода вершины из сообщества или смены социального статуса; ГА — оператор смены состояния вершины с вероятностью g¡=l — f¡ согласно схеме, представленной на рис. 1. С учетом внешних макроэкономических факторов вероятность g¡ =\ —/. индивида каждого возраста перейти в соответствующую группу К(У)5 g, = Ркп-) представляется в форме регрессионной зависимости [7, 8]:
где вх,...,0п+1 — параметры регрессии, е. = (е1,...,еп)Т — вектор остатков, а РР„ —ппервых главных компонент внешних факторов ПНН (объясняющие до 90% дисперсии). В качестве внешних факторов в данной работе рассматриваются: демографические факторы (половозрастной состав населения, рождаемость, смертность, брачность и разводимость), экономические факторы (уровень доходов населения, концентрация доходов населения), криминогенные факторы (уровень уличной преступности, детская преступность), психологические факторы (удовлетворенность населения жизнью, оценка населением государственной антинаркотической политики) [3, 13].
Для идентификации параметров модели (3) используются статпстпческпе оценки gí = у/ /5., где у — чпсло впервые заретстрпрованных наркозавпспмых соответствующего возраста за заданный период, я. — численность группы риска определенного возраста. Сценарии изменения элементов остальных управляющих матриц определяются на основе показателей государственной статистики аналогичным образом.
С точки зрения имитационного моделирования процесс наркотизации населения рассматривается как процесс смены состояний узлов социальной сети, агрегированные оценки характеристик которой позволяют получить информацию о числе узлов в каждом из состояний.
Как было сказано выше, механизм распространения наркомании осуществляется путем личного взаимодействия людей (вершин графа С), тем самым скорость и характер наркотизации общества определяется структурой графа социальных связей О и состоянием его вершин.
Исследование социальной сети на предмет распространенности наркокультуры
Как было отмечено выше, оценивание структуры социальных связей на данный момент является открытым вопросом, поскольку не поддерживается реальными данными. Поэтому наиболее часто используются графы со случайным числом связей между вершинами с учетом возрастной структуры вершин. Методом, позволяющим восстановить структуру социальных связей, является исследование социальных сетей.
В процессе исследования был осуществлен краулинг социальной сети Ьгге]оита1, в результате которого была получена база узлов социальной сети общим объемом 136022 узла. При объеме базы знаний 454 словоформы и устойчивых выражения, а также 18500 правил, данный объем выборки является репрезентативным и достаточным для анализа наркокультуры. Задача определения принадлежности узла к одному из типов вовлеченности в наркокультуру основана на анализе текстовой информации. Решение данной задачи осуществляется разработкой ряда критериев, позволяющих отнести узел к тому или иному типу по степени вовлеченности члена общества в наркокультуру.
Классификация узлов социальной сети осуществляется путем создания базы знаний слов, характеризующих вовлеченность в наркокультуру. Построение базы знаний необходимо для учета характерных выражений, а также сочетаний слов, которые по отдельности не относятся к сленгу наркокультуры. Характерные (сигнальные) слова разделены на три группы (А, В, С), по степени важности в обобщенной оценке. Таким образом, весовой критерий оценки текста по содержанию сигнальных слов имеет вид
С.. = СА + Св + С С, (4)
У У У У ? \ /
СА = пЖА, С = П1ВЖВ + п2Я (Жв + Ж1)+пъв (Жв + Жв2) ССС = Пс^с (5)
где п— число отдельных слов соответствующей группы в тексте; Wi е — вес слова
соответствующей группы; п1 в — число отдельных слов группы В в тексте; п2 в — число слов группы В, образовавших устойчивые сочетания в тексте; п3в — количество слов группы В, встретившихся вместе с часто употребляемыми словами в тексте.
Рассмотрев классификацию узлов на основе критерия вовлеченности в наркокультуру (4), можно выделить следующие характерные группы узлов социальной сети: лица, не подверженные наркотизации (I); группа риска Б0 — лица, находящиеся в окружении, лояльном к наркотикам; ^1 — лица, вовлеченные в наркокультуру, хорошо осведомленные в области потребления наркотиков и часто употребляющие жаргон наркоманов; £2 — лица, вовлеченные в наркопотребление, имеющие опыт приема наркотиков лично, либо кого-то из близкого окружения; £3 — лица, скрыто или открыто пропагандирующие
наркотики и соответствующий образ жизни. Оценка численности и состава данных групп осуществляется на основе анализа рангового распределения величины критерия (4).
Таблица 1
Оценка численности групп вовлеченности в наркокультуру
Группа ^0 $1 ^ 2 $з
Доля узлов в выборке, % 15.3±0.2 4.1±0.03 0.2±0.02 0.03±0.01
Вестник Санкт-Петербургского университета МВА России N° 4 (56) 2012
Вестник Санкт-Петербургского университета МВД, России Nq 4 (56) 2012
Криминология, криминалистика
Таблица 2
Оценка численности групп лиц в соответствующих феноменологических состояниях
Г руппа S X Y D
Доля лиц соответствующей группы в структуре населения Санкт-Петербурга 12.0% 4.8% 1.2% 0.03%
Полученный массив узлов (страниц) социальной сети в большей степени содержит узлы, тексты которых содержат эпизодические упоминания о наркотиках и наркомании. Анализ сигнальных слов, выявленных в текстах, показал наличие характерных групп слов, определяющих вовлеченность лиц в наркокультуру. Полученное соотношение слов по критерию принадлежности жаргону свидетельствует о наличии центральной группы узлов, в текстах которых в равной мере представлены слова, описывающие приготовление, способ приема и производимый эффект. Наибольшая разница в оценке данных мониторинга
социальных сетей и результатов анализа состава населения наблюдается между группами S2 и Y, имеющими тяжелую форму зависимости от наркотиков. Это объясняется тем, что лица группы Y наименее полно представлены в интернет-сообществах, поскольку уже не могут являться их полноценными членами.
Численные результаты моделирования наркотизации населения Санкт-Петербурга
В данном примере осуществлялась апробация агентной сетевой модели наркотизации населения на примере города Санкт-Петербурга. Рассматривается детализация данных структуры населения до домов с учетом половозрастной структуры населения в районах Санкт-Петербурга. Таким образом, в модели учтены более 127 тыс. домов (адресов) Санкт-Петербурга, представленных в виде агентов, каждый из которых определяет состояние дома (адреса) как наличие или отсутствие наркозависимых среди жильцов. Тем самым учитывается демографическая структура населения с привязкой к географическим координатам соответствующих жилых построек на данной территории.
Возраст
а) б)
Рис. 3 Представление данных о составе населения на карте Санкт-Петербурга: а) созвездие адресов Санкт-Петербурга; б) плотность распределения населения в Санкт-Петербурге.
Тем самым учитывается демографическая структура населения с привязкой к географическим координатам соответствующих жилых построек на данной территории.
Таким образом, данный подход позволяет оценить вовлеченность населения в наркокультуру и осуществить прогнозирование развития данного явления в социуме на основе оценки социальной структуры по данным мониторинга социальных сетей Интернет. Под социальной структурой понимается выявление группы риска по данному явлению, половозрастной структуры группы риска, факторов, сопутствующих исследуемому процессу. Тем самым решается поставленная задача.
Выводы
Данные мониторинга социальных сетей подтверждают экспертное предположение о структуре сети распространителей наркотических веществ о пропорциональном соотношении между распространителями и покупателями наркотиков, а также о наличии группы риска, в лексиконе которых часто применяются термины наркокультуры, что используется в построении прогнозной модели наркотизации населения. Также данные мониторинга социальных сетей подтверждают оценку латентности величины У потребителей «легких» наркотиков. Как было отмечено выше, результаты исследования социальных сетей дают смещенную оценку психологического состояния общества, однако, как показали исследования, результаты мониторинга социальных сетей могут эффективно применяться в задачах моделирования и исследования скрытых социальных процессов, таких как наркомания.
Рис. 4 Размещение агентов на карте Санкт-Петербурга и результаты прогнозирования численности впервые зарегистрированных наркозависимых в Санкт-Петербурге на основе представленной модели.
С другой стороны, использование данных социальных сетей в моделировании позволяет поставить и разрешить ряд сопутствующих задач, таких как: насколько распространение наркокультуры в социальных сетях соответствует распространению наркокультуры в обществе; по какому сценарию может осуществляться наркотизация населения при условии, что скорость распространения информации в обществе эквивалентен скорости в социальных сетях и спровоцирует ли дальнейшее развитие социальных сетей эпидемию наркомании.
Рассмотренный подход интеграции социального моделирования криминальных процессов позволяет осуществить интеграцию анализа статистических данных с РИС и существенно упростить процесс планирования мероприятий противодействия негативным явлениям за счет большей детализации исходных данных, что позволяет его рассматривать как основу создания общей экспертной системы поддержки принятия управленческих решений. Данный метод имеет ряд недостатков, связанных с высокими требованиями к вычислительным средствам, необходимостью собирать, хранить и обрабатывать большие объемы данных.
Работа выполнена в рамках реализации постановлений № 220 и № 218 Правительства Российской Федерации при поддержке ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы» (проект № 07.517.11.4042 от 29 сентября 2011 г., шифр 2011-1.4-514-048-066)
Список литературы
1. Указ Президента РФ от 12 мая 2009 г. № 537 «Об утверждении Стратегии Национальной безопасности Российской Федерации до 2020 года».
2. Указ Президента РФ от 9 июня 2010 г. № 690 «Об утверждении Стратегии государственной антинаркотической политики Российской Федерации до 2020 года».
3. Постановление Правительства РФ от 20 июня 2011 г. № 485 «Об утверждении Положения о государственной системе мониторинга наркоситуации в Российской Федерации»
4. Боев, Б. В., Бондаренко, В. М. Прогностическая модель распространения наркомании и ВИЧ-инфекции среди молодежи / / Микробиология. — 2001. — № 5. — С. 76—81.
5. Боев, Б. В., Салман, Э. Р., Барашкова, Т. А., Баранчиков, А. В. Методология математического моделирования процессов наркотизации молодежи //Социология. — 2001. — № 13. — С. 76-96.
6. Иванов, С. В., Колыхматов, И. И., Бухановский, А. В. Моделирование эволюционной динамики ВИЧ / / Труды XV Всероссийской научно-методической конференции «Телематика-2008». — Т. 1. — 2008. - С. 103-104.
7. Митягин, С. А., Захаров, Ю. И., Бухановский, А. В., Слоот, П. М. А. Региональная демографическая модель распространения наркомании // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. — 2011. — № 6 (76). — С. 68-73.
8. Митягин, С. А. Построение демографической модели распространения наркомании в регионе / / Труды конференции ИММ0Д-2011. — Т. 2. — СПб., 2011. — С. 170-178.
9. Стародубов, В. И., Ратаркин, А. И. Влияние наркомании на социально-экономические развитие общества. — УрО РАН, 2006. — 381 с.
10. Фридман, Л. С., Флеминг, Л. Ф., Робертс, A. Х., Хайман, С. Е. Наркология / пер. с англ.; 2-е изд. испр. — М.; СПб.; “Издательство БИНОМ” — “Невский диалект”, 2000. — 320 с.
11. Newman, M. E. J. The structure and function of complex networks // SIAM Review. — 2003. — № 45. — Р. 167—256.
12. Sloot, P. M. A., Ivanov, S. V., Boukhanovsky, A. V., van de Vijver, D. A. M. C., Boucher, C. A. B. Stochastic simulation of HIV population dynamics through complex network modeling / / Int. J. Comput. Math. — 2008. — № 85(8). — Р. 1175—1187.
13. Российская Федерация. Федеральная служба государственной статистики // Официальный сайт. [Электронный ресурс]. — Режим доступа: http://www.gks.ru.
Вестник Санкт-Петербургского университета МВД России № 4 (56) 2012