ПРОГНОЗИРОВАНИЕ РИСКА ТЕРРОРИСТИЧЕСКИХ АКТОВ НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ

Новиков Андрей Вадимович

Национальная безопасность / nota bene

Правильная ссылка на статью:

Новиков А.В. — Прогнозирование риска террористических актов на основе алгоритмов машинного обучения // Национальная безопасность / nota bene. - 2022. - № 1. DOI: 10.7256/2454-0668.2022.1.36596 URL: https ;//nbpublish.com'library_read_article.php?id=36596

Прогнозирование риска террористических актов на основе алгоритмов машинного обучения

Новиков Андрей Вадимович

ассистент, Российский экономический университет им. Г.В. Плеханова 117997, Россия, Москва, г. Москва, пер. Стремянный, 36, каб. 339

И Camouflage@yandex.ru

Статья из рубрики "Информационное обеспечение национальной безопасности"

DOI:

10.7256/2454-0668.2022.1.36596

Дата направления статьи в редакцию:

06-10-2021

Аннотация: Данная статья посвящена анализу и прогнозированию риска террористических актов на основе сравнения различных алгоритмов машинного обучения. Для того чтобы определить важнейшие показатели всесторонне рассматриваются более тридцати внешних и внутренних факторов риска путем их количественной оценки и строится начальный набор исходных данных. В исследовании анализируются многомерные социально-экономические и политические данные для 136 стран за период с 1992 по 2020 год. Также прогнозируются четыре показателя, отражающие предполагаемую успешность террористических атак, вероятность получения социально-экономических последствий и общего ущерба от терроризма. Помимо классических моделей анализа проводится сравнение эффективности других четырех алгоритмов машинного обучения, которые могут быть использованы для анализа многомерных данных. Для прогнозирования риска террористических атак создается модель случайного леса, а также на основе статистических критериев оценивается эффективность и точность модели. Для определения важнейших исходных показателей использовался метод рекурсивного устранения признаков в случайном лесу. Главный результат данного исследования заключается в определении важнейших показателей прогнозирования риска терроризма и сокращении избыточных индикаторов, что позволяет улучшить понимание основных характеристик нападений. Между тем, результаты показывают, что необходимо принимать надлежащие упреждающие меры не только в виде силовых операций задержания, разведки и реагирования, но и по улучшению стабильности государства, достижения социального равновесия и

повышения качества жизни граждан.

Ключевые слова: терроризм, террористический риск, факторы риска, машинное обучение, случайный лес, модель, противодействие терроризму, прогнозирование, социальные последствия, материально-экономические последствия

Введение

Террористические нападения как один из наиболее актуальных видов конфликтов обычно происходят неожиданно, приводят к человеческим жертвам и в конечном итоге сеют хаос ИШ. По данным «Глобальной базы данных по терроризму» (GTD), число террористических нападений в мире выросло в среднем с 1000 случаев в год в начале

XXI века до более чем 7000 случаев в 2020 году Хотя правительства многих стран за этот период потратили огромные суммы на борьбу с терроризмом, результаты оказались не столь впечатляющими как могли бы быть. Контртеррористические операции, такие как упреждение и пресечение террористических атак, широко применяются, но иногда они могут еще больше подпитывать нападения, а не

предотвращать их I12!. Прогнозирование риска террористических актов полезно для разработки превентивных мер, а также для обеспечения более целенаправленного долгосрочного формирования политики. Однако факторы, влияющие на риск террористических нападений, многочисленны и сложным образом взаимосвязаны. Эта неоднозначность осложняет прогнозирование и может привести к необдуманным политическим решениям, которые бесконечно оттягивают ресурсы и создают панику среди населения. Поэтому очень важно определить важнейшие показатели, влияющие на риск террористических актов, на основе которых прогнозирование станет более четким и надежным, а решения по противодействию терроризму станут более активными

В последние годы, благодаря развитию технологий машинного обучения и их способности эффективно выявлять многофакторные взаимосвязи, соответствующие научные работы постепенно преодолевают кажущуюся «непредсказуемой» проблему

прогнозирования террористических атак -t^. Эти работы можно разделить на две категории. В первой категории в основном применяются показатели уровня отдельных террористических инцидентов для прогнозирования будущего характера терроризма. В работе Н. Мо отобраны 56 исходных атрибутов террористической атаки из базы GTD, включая время, местоположение, тип атаки и т.д., и классифицировали типы терроризма с помощью метода опорных векторов (SVM), наивного байесовского классификатора (NB)

и логит-регрессии (LR) [31]. Исследование К. Мину использует вейвлет-нейронные сети и GARCH-модели для прогнозирования будущего времени террористических атак на основе

исторических данных о численности нападений в месяц Х. М. Исмаил и Х. Кази

применяли 16 атрибутов уровня конкретного инцидента (таких как год, тип атаки, количество исполнителей и т.д.) для оценки характера террористических атак на основе ансамблевого классификатора, объединяющего байесовские модели и модели дерева

решений (DT) [26]. В работе Р. Т. Брандт использовалась байесовскую модель с переключением Маркова (англ. Markov-switching Bayesian model) для прогнозирования интенсивности будущих конфликтов на основе предыдущих террористических инцидентов J13!. Также ряд отечественных авторов использовали байесовские модели и случайные леса для моделирования вероятности терроризма [3, 5].

Однако в работах первой категории рассматриваются только показатели микроуровня, связанные конкретными атаками, и игнорируется влияние «коренных факторов»

терроризма, которые иначе связываются с макро-условиями или внешней средой Нападения происходят в более широком контексте терроризма и эти сложные условия охватывает политические, экономические, религиозные и другие факторы. Обширная группа работ сосредоточены на коренных причинах терроризма, начиная с М. Креншоу в

качестве наиболее репрезентативной ранней работы В этой литературе

используемые методологии включают качественный анализ, основанный на теоретических положениях, и количественные эмпирические исследования с использованием статистических инструментов. Основные выводы, касающиеся внешних факторов терроризма, включают: 1) бедность не может напрямую привести к терроризму 2) демократия снижает прямые издержки, связанные с совершением террористических нападений, но также увеличивает относительные издержки 3)

урбанизация является питательной средой для терроризма 4) страны с растущим населением, по-видимому, меньше страдают от терроризма ¿¿И; 5) терроризм плотно

связан с другими видами политического насилия, конфликтов и войн [141. В целом, можно достичь консенсуса в отношении того, что происхождение и распространение терроризма обусловлены широкими и далеко идущими политическими, экономическими, этническими и другими проблемами Однако эти факторы недостаточны для

объяснения конкретных случаев нападений [4]. В рамках усилий по прогнозированию во временных рядах необходимо учитывать как факторы инцидентов в качестве внутренних причин террористических атак, так и внешние условия.

Исходя из этого, исследования второй категории по прогнозированию атак учитывают факторы макроуровня при составлении прогнозов. С. Перри рассматривает 30 экономических показателей, которые измеряют такие факторы, как безработица, доходы и прогнозирует смертность от терроризма с использованием нейронных сетей обратного

распространения (ВР) 13Д1. Также Н. В. Вайдман и М. Д. Уорд используют четыре показателя внешних условий, содержащих численность населения, этнический состав и ландшафт для прогнозирования конфликтов на уровне муниципалитетов на основе

пространственно-временной логистической модели ¿З^!. В работе М. Хао используется случайная оценка плотности лесов и ядер для прогнозирования потенциального риска террористических нападений на полуострове Индокитай Главным образом в этой

работе с помощью 15 показателей внешних условий, содержащих три социальных показателя (хрупкость государства, плотность населения, распространение наркотрафика) и одиннадцать географических показателей, таких как средняя температура и топография. В отличие от такого подхода, который рассматривает только показатели первопричин, Ф. Динг рассматривает как характеристики инцидентов, так и

показатели макроуровня 12Ш. Здесь используется нейронная сеть обратного распространения (BPNN), и случайный лес (RF) для прогнозирования риска

террористических атак в различных странах в основном анализируя три индикатора инцидентов (таких как широта и долгота) и 10 макро-причин, содержащих пять географических показателей (например, среднее количество осадков), а также четыре демографических показателя. Во второй категории исследований по прогнозированию террористических атак оценивался статус факторов внешней среды.

Тем не менее, существующие исследования в области оценки риска в основном направлены на повышение точности прогнозирования на основе предварительно

выбранных показателей, представляющих различные факторы, связанные с террористическими актами, и реже возвращаются к обоснованности выбора показателей

Отчасти это связано с тем, что «черный ящик» моделей машинного обучения с многочисленными параметрами и сложными выводами затрудняет четкий анализ причинно-следственных связей между целевыми зависимыми и независимыми

переменными I34!. Таким образом, внутренний механизм модели обучения недостаточно ясен и взаимосвязь между показателями не может быть понята интуитивно. При этом после изменения входных показателей первоначальные выводы перестают быть надежными I15!.

Методология

Общая структура предлагаемого подхода состоит из четырех этапов. Прогнозирование риска террористических атак в разных странах за конкретный год производится с использованием скользящего окна с несколькими входами и выходами. Риск террористических атак как прогнозируемая цель состоит из четырех основных подкомпонентов: 1) Произойдет ли в следующем году более одного крупного террористического акта? 2) Каков максимальный уровень имущественного ущерба, причиненного террористическими актами в следующем году? 3) Каков максимальный уровень человеческих жертв в результате террористических нападений в предстоящем году? 4) Каков средний показатель успеха террористических атак в следующем году? Поскольку нецелесообразно считать каждое террористическое нападение одинаково важным и уделять им равное внимание, если не проводятся различия между серьезностью атак ПШ. В целом же это исследование больше касается риска нападений с тяжелыми последствиями.

Что касается входных данных (независимых переменных) для прогнозирования, то учитываются как внешние так и внутренние факторы. Внешние факторы играют роль невидимой руки и представляют различные аспекты состояния социальной аномии, непосредственно приводящие к распространению терроризма и косвенно к

террористическим нападениям [11]. Внутренние факторы являются как триггерами, так и последствиями террористических атак, подпитывая террористический феномен

посредством самовоспроизводящейся петли обратной связи В общей сложности в качестве предикторов были выбраны 28 показателей, из которых 17 - индикаторы макроуровня, а остальные 11 связанны с внутренними характеристиками нападений.

Исходные данные, используемые в этом исследовании, собраны из трех хорошо известных баз данных, таких как «Глобальная база данных о терроризме» (GTD), «Международное руководство по страновым рискам» (ICRG) и база данных «Всемирного

банка» [35, 36, 38]. GTD является одной из крупнейших баз данных о террористических атаках с открытым доступом, в которой с 1970 года регистрируются цель, тип атаки, местоположение и другие показатели террористических атак. ICRG регистрирует показатели каждой страны за каждый год в трех подкатегориях рисков: политических, финансовых и экономических. База данных «Всемирного банка» содержит надежные статистические социально-экономические данные на страновом уровне.

Выбор показателей и предварительная обработка данных

Террористические нападения вытекают из абстрактного контекста терроризма, в котором различные факторы способствуют процессу радикализации, а показатели представляют собой количественную интерпретацию факторов. Как показано на рис. 1, процесс

перехода от радикализма до террористических атак состоит из нескольких этапов И^!. Во-первых, терроризм распространяется из-за глубоко укоренившихся структурных причин. Во-вторых, некоторые граждане становятся террористами под влиянием внешних обстоятельств и субъективных индивидуальных причинных факторов. Наконец, из-за конкретных триггеров или воспроизводящейся обратной связи с предыдущими актами террористы совершают все новые и новые нападения

Рис. 1. Процесс перехода к терроризму под воздействием внешних факторов. Источник: составлено автором.

Структурные, ускоряющие и мотивационные факторы рассматриваются как три

подкатегории причин терроризма, основанные на исследовании Т. Бьорго Структурные причины - это факторы, влияющие на жизнь людей на макроуровне, которые люди могут осознавать или не осознавать. Ускоряющие факторы делают терроризм «привлекательным» и стимулируют людей становиться более склонными к политическому насилию или вступлению в террористические организации. Мотивационные факторы - это личный опыт людей, побуждающий их применять террористическую тактику, в том числе вступать в радикальные организации или готовиться к террористическим атакам. Факторы в этих трех подкатегориях в первую очередь способствуют распространению терроризма и вербовке боевиков. Причем мотивационные причины также потенциально могут привести к атакам, но только на подготовительном этапе. Провоцирующие и факторы обратной связи рассматриваются как два компонента причин на уровне конкретных инцидентов. Провоцирующие факторы являются прямыми предшественниками конкретных атак. Например, конкретные конфликты, спорные события и т.д. Факторы обратной связи в основном представляют собой весь предыдущий цикл террористических нападений. После совершения террористического акта в последующем процессе участвуют множество аудиторий, включая союзников, врагов, членов террористической организации, невинных гражданских лиц. Последствия, намерения и детали нападений могут быть раскрыты СМИ, что может привести к эффекту эскалации, еще больше повышая риск следующей атаки.

В таблице 1 приведены конкретные показатели, которые количественно измеряют вышеупомянутые факторы. Структурные факторы часто могут быть измерены

экономическими, политическими, культурными и другими показателями в качестве долгосрочного двигателя атак, такими как: стабильность правительства, социально-экономические условия, рост ВВП и безработица. Между тем, эти показатели также могут быть использованы в качестве среднесрочных мотивационных и ускоряющих факторов. Например, когда конкретный человек все еще имеет работу, безработица может быть лишь показателем абстрактной структурной причины, которая непосредственно им не ощущается. В свою очередь, когда этот человек безработный, реальность разочарования, может служить показателем ускорения или мотивационной причины. Поскольку показатели обычно могут функционировать на разных уровнях, в этом исследовании было отобрано 17 показателей из ICRG и «Всемирного банка» для представления этих факторов. Индикаторы «Критерии 1-3» из GTD могут представлять собой провоцирующие причины. «Критерий 1» показывает, является ли целью атаки достижение политической, экономической, религиозной или социальной цели, а не получение прибыли или чисто личного интереса. «Критерий 2» указывает, является ли целью нападения принуждение, запугивание или передача других сообщений более широкой аудитории, чем непосредственные жертвы. «Критерий 3» оценивает, была ли атака нацелена на жертв, не являющихся комбатантами. Таким образом, GTD уже предоставляет подробные индикаторы, позволяя выразить намерения, цели, движущие силы различных террористических атак. Аналогичным образом, в GTD имеются подробные показатели последствий террористических нападений и успеха или неудач каждого акта. Все индикаторы, использованные в этом исследовании, подробно описаны в та б лице 1.

Таблица 1. Описательная статистика независимых (входных) переменных.

Источник Индикаторы Среднее Дисперсия Минимум Максимум

GTD Тип местности атаки 0,656 0,136 -0,465 1,005

GTD Критерий 1 0,693 0,134 -0,386 1,134

GTD Критерий 2 0,714 0,123 -0,359 1,159

GTD Критерий 3 0,66 0,134 -0,465 1,092

GTD Успешность атаки в предыдущем году 0,557 0,169 -0,514 1,021

GTD Тип атаки 2,760 1,905 0,624 9

GTD Тип цели 7,308 22,408 1 22

GTD Тип оружия 6,046 2,783 1 13

GTD Материальный ущерб в предыдущем году 0,971 1,997 0 4

GTD Число жертв атак в предыдущем году 1,137 2,385 0 4

GTD Общий ущерб в предыдущем году 0,257 0,196 0 1

World Bank Рост ВВП 3,381 34,894 -64,047 123,137

World Bank Военные расходы 2,455 10,557 -0,771 117,386

World Bank Р о с т ч ис л е нно с ти населения 1,549 2,098 -5,814 16,332

World Bank Ч ис ле нно сть на с е л е ния (log) 7,003 0,541 4,843 9,139

World Бе з ра ботица 7 418 1 6 806 0,052 37 6

Bank

World Bank Рост городского населения 2,333 4,069 -7,115 16,583

ICRG Стабильность правительства 7,463 4,204 0,676 12

ICRG Социально-экономические условия 5,542 4,892 0 11

ICRG Инвестиционный профиль 7,255 6,004 0 12

ICRG Внутренний конфликт 8,689 5,855 0 12

ICRG Внешний конфликт 9,562 4,133 0 12

ICRG Участие армии в политике 3,677 3,038 0 6

ICRG Религиозная на пря ж е нно с ть 4,524 1,733 0 6

ICRG Законность и порядок 3,607 2,052 0 6

ICRG Этническая напряженность 3,894 1,897 0 6

ICRG Демократическая подотчетность 3,772 2,614 0 6

ICRG Качество бюрократии 2,102 1,322 0 4

Источник: составлено автором.

В этом исследовании используются многомерные данные из 136 стран за период с 1992 по 2020 год. Человеческие жертвы и материальный ущерб являются основными показателями риска террористических атак. Относительно «числа жертв», в этом исследовании человеческие потери классифицируются на четыре уровня в соответствии с тем, что: «0» - отсутствие раненных или убитых, «1» - от 1 до 3 раненых или погибших, «2» - от 4 до 10 травм или смертей, «3» - от 11 до 30 травм или смертей, «4» - более 31 травм или смертей.

В отношении прямых экономических потерь в исследовании используются критерии GTD для классификации тяжести ущерба террористических атак по шкале от 1 до 4, где: «0» - отсутствие материальных потерь, «1» - катастрофический (> 1 млрд. долл.), «2» -крупный (от 1 млн. до 1 млрд. долл.), «3» - незначительный (< 1 млрд. долл.), «4» -потери неизвестны.

В дополнение к использованию отдельных показателей для измерения социальных и экономических потерь, в статье предлагается интегральный показатель («Общий

ущерб»), основанный подходе, объединяющего эти два критерия в один [16]. Значение данного показателя равно 1, если в течение следующего года в данной стране произошло более одного террористического нападения, которое причинило как крупный или больший материальный ущерб и привело к не менее одиннадцати жертвам. За исключением вышеуказанных трех показателей, измеряющих потери, показатель успешности самого акта также является важным показателем террористического риска. В этом исследовании в качестве четвертого предиктора используется средний показатель успешности террористических атак в течение одного года в конкретной стране.

Большинство индикаторов имеют пропущенные значения, а некоторые из них даже имеют более 20% пропущенных данных. Таким образом, в этом исследовании для заполнения недостающих данных и построения взаимосвязи между недостающими значениями и наблюдениями использован метод высокоточного тензорного завершения низкого ранга (HALRTC) предложенный128^. HALRTC может эффективно решить проблему отсутствия

данных в многомерных объектах -t17^ В частности, в этом исследовании для трехмерного массива с отсутствующими значениямиЛ & " , "i ±JD означает, что есть 136

выбранных стран; = свидетельствует, что наблюдения отбирались за период в 29 лет с 1992-2020 гг.;пэ~28, обозначает 28 входных переменных. После завершения обработки данных все показатели нормализуются до интервала Ь-L-U, чтобы уменьшить ошибку, которая может быть вызвана различиями в измерении. Преимущество этого подхода к уменьшению масштаба заключается в том, что он не изменяет структуру распределения самих данных.

Прогнозирование на основе методов машинного обучения

Для решения задачи прогнозирования риска террористических атак модель случайного леса строит ансамбль необрезанных деревьев и делает прогноз на основе среднего

выходного значения дерева Каждое дерево строится путем начальной загрузки данных, что означает случайный выбор фиксированного набора переменных-кандидатов из всего набора при каждом разбиении.

Для оценки влияния случайного леса реализовано несколько моделей машинного обучения для сравнения с обычным RF. Сначала используется модель SVR, регрессионная форма модели SVM с хорошей способностью к обобщению и подгонке. Во-вторых, построена широко используемая в области прогнозирования временных рядов модель линейной регрессии (LR). Реализованы две модели нейронных сетей: модель нейронной сети с полной связью (FNN) и модель нейронной сети с долговременной памятью (LSTM). Первая представляет собой традиционную нейронную сеть обратного распространения с плотными слоями. В то время как вторая дополнительно добавляет чувствительные к временным рядам единицы LSTM.

Из-за множества параметров машинного обучения эмпирическая настройка может привести к непригодной модели. Поэтому в данном исследовании используется метод поиска по сетке с k -кратной (k = 8) перекрестной проверкой для оптимизации параметров. В частности, в модели RF установлены следующие параметры: max_features = auto , n_estimators = 2455, criterion = mse , min_samples_split = 30, min_samples_leaf = 5. Параметры модели SVR имеют значение: kernel = linear , epsilon = 0,2. Модель LR имеет значение: fit_intercept = True , normalize = False . Модель FNN имеет два плотных скрытых слоя со 128 и 64 ячейками соответственно. Модель LSTM имеет два слоя LSTM со 128 и 64 ячейками и плотный слой в качестве выходного. Обе модели FNN и LSTM используют relu в качестве функции активации и добавляют слой с dropout = 0,2 перед выходным слоем, чтобы предотвратить переобучение. Оптимизатором является Rmsprop , скорость обучения установлена на 0,001, размер пакета равен 500, а функция потерь -mse . Метод поиска по сетке и все модели реализованы с использованием библиотеки Python scikit-learn J32!.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для дальнейшего предотвращения переобучения весь набор данных случайным образом перетасован перед разделением обучающей и тестовой выборки. В случае прогнозирования сопоставления ввода-вывода для текущего года и текущей страны данные по всем странам и годам случайным образом не упорядочены. Это позволяет получить в наборе данных более неупорядоченное распределение и избежать ситуации, когда хорошо подготовленная модель, использующая информацию из определенных стран, не может эффективно предсказать риск террористических атак по тестовым наблюдениям других стран. После перетасовки предварительно обработанный набор данных делится на обучающий набор, содержащий 80% наблюдений, и тестовый набор,

содержащий оставшиеся 20% наблюдений. Чтобы лучше оценить надежность модели и ее способность к обобщению, процесс перетасовки и разделения всего набора повторяется десять раз. Каждая вновь созданная обучающая выборка будет использоваться для обучения модели RF и четырех других моделей. Затем обученные модели будут использоваться для прогнозирования неизвестных наблюдений. Для окончательной оценки надежности каждая модель будет построена десять раз.

Для оценки качества и точности модели используются три измерения. MAE и MSE являются измерениями погрешности. Меньшее значение MAE или MSE указывает на то, что результаты прогнозирования модели ближе к истинным значениям. R 2 - это коэффициент детерминации, измеряющий объяснительный эффект модели. В целом, большие значения R 2 указывают на то, что модель лучше способна объяснить тенденцию целевых показателей.

Точность прогнозирования пяти моделей показана в таблице 2. Для сравнения моделей регистрируются среднее и стандартное отклонение для MAE , MSE и R 2, полученные в десяти процессах обучения-тестирования. Для каждого из четырех выходных показателей прогнозирования риска террористических атак в таблице 2 в отдельных полях представлены показатели прогнозирования и общий случай в последнем поле. Результаты показывают, что RF превосходит другие модели с точки зрения всех показателей точности, за исключением немного худшего прогноза по «Материальному ущербу». Показатель MAE обеспечивает краткую оценку ошибки прогнозирования, в то время как MSE позволяет дополнительно оценить степень вариации данных и относительно более чувствителен к выбросам. RF значительно превосходит другие модели в обоих измерениях погрешности (в 12 из 15 сравнений). При этом его общая суммарная погрешность соответственно на 3% и 1,9% ниже, чем у неоптимальной модели. В дополнение к оценке ошибок необходимо учитывать качество модели по классическому измерению коэффициента детерминации (R 2). В этом плане RF также демонстрирует значительно лучший результат (более чем на 2%) по сравнению с другими моделями. Более того, у RF общее значение R 2 = 0,501, также является приемлемым результатом.

Таблица 2. Сравнение результатов прогнозирования моделей машинного обучения.

Зависимая переменная Показатель SVR LR RF FNN

Успешность атаки MAE 0,237(0,005) 0,232(0,009) 0,218(0,008) 0,227(0,008)

MSE 0,101(0,004) 0,0103(0,009) 0,087(0,008) 0,089(0,008)

R2 0,549(0,024) 0,558(0,037) 0,616(0,032) 0,602(0,03)

Материальный ущерб MAE 0,392(0,015) 0,434(0,011) 0,41(0,011) 0,415(0,013)

MSE 0,364(0,023) 0,323(0,016) 0,312(0,015) 0,31(0,015)

R2 0,289(0,053) 0,362(0,025) 0,383(0,024) 0,387(0,024)

Число жертв атак MAE 0,375(0,007) 0,397(0,01) 0,364(0,013) 0,38(0,02)

MSE 0,318(0,013) 0,289(0,02) 0,266(0,022) 0,279(0,021)

R2 0,469(0,029) 0,511(0,031) 0,55(0,033) 0,528(0,03)

Общий ущерб MAE 0,477(0,013) 0,483(0,008) 0,427(0,01) 0,455(0,017)

MSE 0,595(0,026) 0,455(0,012) 0,42(0,017) 0,441(0,015)

R2 0,218(0,029) 0,406(0,023) 0,451(0,023) 0,423(0,023)

Общий прогноз MAE 0,37(0,008) 0,385(0,007) 0,355(0,008) 0,369(0,012)

MSE 0,344(0,013) 0,291(0,012) 0,271(0,013) 0,28(0,011)

R2 0.382(0.028) 0.454(0.024) 0.501 (0.023) 0-486(0.018'

I_LR2_I ---v~'---- I " — v~'---- I ---v~'---- I " — v~'----

Источник: составлено автором.

Результаты показывают, что случайный лес наилучшим образом подходит для решения задачи прогнозирования риска террористических атак. Поэтому при следующем рекурсивном устранении признаков для выделения важнейших показателей применяется только модель случайного леса.

Выбор оптимальной модели случайного леса

Чтобы определить, какие показатели имеют решающее значение для риска террористических атак, используется рекурсивное устранение признаков на основе случайного леса. С помощью модели случайного леса для присвоения весов показателям основная идея RFE (англ. Recursive Feature Elimination) заключается в

рекурсивном отборе наименьшего набора показателей I23!. Во-первых, модель случайного леса обучается на начальном наборе данных и важность каждого показателя определяется полученным свойством важности признака. Затем наименее важные показатели отсекаются от текущего набора и процесс повторяется уже с отсеченным набором данных до тех пор, пока наконец не будет достигнуто заданное количество показателей. В этом процессе по мере уменьшения числа входных индикаторов теряется достоверная информация, что приводит к постепенному снижению точности прогнозирования модели. В точке хеджирования производительности модели находится наименьшее подмножество показателей гарантируя, что конечные независимые

переменные являются относительно наиболее важными J29!.

Общая процедура RF-RFE в основном оказывает фильтрующее воздействие на исходную выборку. Необработанные данные содержат 28 входных индикаторов с четырьмя зависимыми переменными. Их необходимо настроить так, чтобы для каждого запуска сохранялось n индикаторов. Тогда уменьшение числа показателей выполняется с помощью алгоритма RF-RFE. Остаточный набор данных становится n входными данными и четырьмя выходными переменными, которые иногда могут быть немного больше n , поскольку несколько показателей могут считаться одинаково важными. Впоследствии модель случайного леса будет делать прогнозы с использованием остаточного набора и записывать соответствующие характеристики прогнозирования. По мере постепенного уменьшения n производительность прогнозирования случайного леса будет постепенно ухудшаться. В то время как n уменьшается за пределами точки хеджирования, ухудшение эффективности прогнозирования будет быстро ускоряться. Входные независимые показатели, связанные с точкой хеджирования, считаются ключевыми.

Ядром RFE, использованного в этом исследовании, является RF. Расчет важности функций внутри RF-ядер основан на оценке ошибок переменных и «out-of-bag» (OOB). Данные OOB - это данные, которые исключаются из каждого обучения дерева и могут быть использованы для оценки производительности случайного леса. Между тем, поскольку существует четыре целевых показателя, традиционные методы RFE в основном представляют один результат, а важность функции может быть измерена только одним результатом в традиционном расчете. Поэтому, четыре модуля RF соединены на основе: RF-RFE0 для первого целевого зависимого показателя «Общий ущерб», RF-RFE1 для второй зависимой переменной «Успешность атаки», RF-RFE2 для третьего целевого показателя «Материальный ущерб» и RF-RFE3 для «Числа жертв атаки». Аналогичным образом, чтобы избежать случайных ошибок и переобучения, весь набор данных случайным образом перетасовывается и процесс RF-RFE запускается с десятью

пов то ре ния ми.

В частности, если задано сохранение n входных индикаторов, каждый отдельный RF-RFE; (i = 0, 1, 2, 3) модуль вернет список логических значений длиной 28, соответствующий исходным 28 независимым переменным. Если индикатор получает логическое значение 1 на конкретном выходе, это означает, что для целевого показателя i этот входной индикатор важен и его необходимо сохранить, и наоборот. Другими словами, один RF-RFE вернет список, тогда как сумма его логических значений равна n . Затем четыре модуля RF-RFE запускаются параллельно и повторяются десять раз, чтобы получить в общей сложности 40 списков логических значений. На этом этапе 40 этих логических значений каждого индикатора накапливаются, чтобы получить число num j (j = 1, 2... 28) раз сохранений каждой функции. То есть количество раз, когда логическому значению присваивается 1. Наконец, выбирается n самых больших переменных из num j и соответствующие функции сохраняются. С помощью такого метода взвешенного усреднения обеспечивается стабильность результатов процесса RF-RFE, а оценка всех четырех целевых показателей сохраняется в соответствии с важностью независимых переменных.

В RF-RFE процессе идентификации важнейших переменных количество входных индикаторов постепенно сокращается с 28 до 1, позволяя наблюдать за тем, как модель прогнозирования RF работает с различными входными измерениями. Для обеспечения достоверности результатов процесс разделения набора данных для обучающего теста повторяется десять раз для каждого подмножества входных показателей. В качестве показателей эффективности прогнозирования приняты MAE, MSE и R 2. Среднее значение показателей эффективности приведено в таблице 3. Результаты показывают, что с устранением входных переменных в процессе RF-RFE эффективность прогнозирования постепенно ухудшается. Ухудшение производительности быстро ускоряется, когда количество показателей становится меньше восьми. Таким образом, сценарий с восемью входными индикаторами рассматривается в качестве точки хеджирования RF-RFE.

Таблица 3. Эффективность прогнозирования с постепенным снижением числа входных независимых переменных.

n MAE MSE R2 n MAE MSE R2

28 0,355 0,271 0,501 14 0,363 0,283 0,485

27 0,361 0,281 0,491 13 0,364 0,283 0,470

26 0,359 0,279 0,495 12 0,368 0,290 0,467

25 0,362 0,281 0,489 11 0,368 0,288 0,476

24 0,365 0,283 0,486 10 0,368 0,284 0,480

23 0,362 0,278 0,492 9 0,368 0,288 0,470

22 0,358 0,274 0,498 8 0,383 0,295 0,427

21 0,365 0,284 0,485 7 0,388 0,303 0,420

20 0,362 0,275 0,491 6 0,399 0,315 0,401

19 0,361 0,280 0,483 5 0,400 0,317 0,390

18 0,361 0,278 0,488 4 0,398 0,318 0,390

17 0,362 0,280 0,494 3 0,403 0,323 0,362

16 0,363 0,283 0,489 2 0,417 0,343 0,330

15 0,359 0,275 0,495 1 0,506 0,434 0,172

Источник: составлено автором.

Для оценки важнейших показателей риска террористических атак в этом исследовании дополнительно исследуется, какие показатели нужно сохранить в качестве основных переменных, особенно в точке хеджирования процесса RF-RFE. Рис. 2 иллюстрирует, какие показатели сохраняются, а какие отбрасываются по мере их постепенного сокращения с 28 до 1. На рис. 2 каждая строка пикселей представляет новое подмножество входных индикаторов после обработки RF-RFE. Индикаторы с логическим значением 1 сохраняются, в то время как индикаторы с логическим значением 0 отбрасываются. Например, когда значение п равно 27, первая удаленная переменная -«Общий ущерб», тогда как другие входные индикаторы сохраняются. Наблюдения, приведенные на рис. 2 тройственны. Во-первых, по мере уменьшения п меняется оценка RF-RFE важности показателей означая, что подмножество показателей также меняется. Например, «Число жертв атак» удаляется RF-RFE, когдап составляет около 22, но снова становится решающим, когда п уменьшается до точки хеджирования, равной восьми. Это обеспечивает более динамичное понимание оценки показателей, чем обычный статический расчет важности признаков. Во-вторых, можно определить, что важнейшими показателями, которые наиболее часто сохраняются во время процесса уменьшения количества переменных и всегда считаются достойными сохранения RF-RFE прип = 8, являются: число жертв атак в предыдущем году, рост ВВП, военные расходы, рост населения, численность населения, безработица, рост городского населения, внутренний конфликт и т.д. Эти показатели можно считать наиболее важными для

понимания риска террористических нападений.

■

Исшвдгый: Ложный:

Сохраненный показатель Сохраненный показатель

Тип местности атаки Критерий 1 Критерий 2

Критерий 3

Успешность атаки Тип атаки Тип цели Т(ттт оружия Материальный ущерб Числи жертв атак Обшпй ущерб Рост ВВП Военные расходы Рост численности населения Численность населения

Безработица Рост городского населения Стабильность правительства Соцналытооконоилче с кие условия Инв е спщнонныЁ профиль Внутренний конфликт Внешний копфтнкт Участив армии а Политике Релцгмотная напряженность Законность п порядок Этническая напряженность Демократическая подотчетность Качество бюрократии

I 2 3 4 5 6 7 а 9 10 11 12 ¡3 Ы 15 16 17 18 19 20 21 22 23 24 25 26 27

Сохранение показателей и в КР-ГЦ-Е Рис. 2. Индикаторы, сохраняющие логические значения с 28 начальными переменными. Источник: составлено автором.

Сделанный вывод дополнительно подтверждается на рис. 3. В отличие от рис. 2 и на нем

отображено, сколько раз каждый индикатор считался важным и в каждом подмножестве, соответствующем уменьшающемуся п с максимальным значением 40. Означая, что индикатор входных данных оценивается как важный для всех четырех целевых индикаторов в десяти повторных запусках RF-RFE. При этом минимальное значение 0 означает, что он совершенно не важен.

Рис. 3. Время сохранения индикаторов при 28 начальных переменных.

Источник: составлено автором.

Заключение

В этой работе основное внимание уделяется выявлению важнейших показателей, влияющих на риск террористических нападений с точки зрения прогнозирования. Всесторонне рассмотрены факторы уровня первопричин и уровня инцидентов террористических актов. Внутренние факторы играют роль невидимой руки и представляют различные аспекты условий социального беспорядка. Факторы, связанные с террористическими нападениями, являются как последствиями, так и триггерами террористических нападений. Для количественной оценки этих абстрактных факторов в качестве исходного набора входных предикторов предлагаемой модели прогнозирования RF отобрано в общей сложности 28 показателей. Исходя из этого, предлагается метод RF-RFE для определения важнейших показателей путем рекурсивного сокращения числа переменных. Результаты исследования показывают, что минимальный набор входных показателей до того, как эффективность прогнозирования значительно ухудшится, включает: число жертв атак в предыдущем году, рост ВВП, военные расходы, темпы роста населения, численность населения, безработица, рост городского населения,

внутренние конфликты. Выявленные факторы следует считать важными и необходимыми для понимания риска террористических нападений. Выявленные важнейшие показатели указывают на то, что террористический риск обусловлен как первопричинами терроризма, так и предыдущими инцидентами политического насилия.

Известно, что усилия по снижению риска террористических атак могут предприниматься в двух направлениях. Относительно первого аспекта, необходимо постоянно устранять первопричины терроризма путем повышения стабильности и легитимности правительства, уменьшения внутригосударственных конфликтов и противоречий, увеличения свободы предпринимательства, увеличения динамики экономического роста и сокращения безработицы. Что касается второго аспекта, то необходимы меры по предотвращению нарастания терроризма путем сведения к минимуму положительного воздействия предыдущих терактов на возможные будущие атаки. Ключевые действия включают в себя снижение вероятности успеха террористических атак, сокращение числа человеческих жертв и материально-экономических потерь, которые они вызывают. Помимо этого, необходимо сведение к минимуму распространения негативной информации, такой как заявления о намерениях террористических организаций. Основное ограничение этой статьи заключается в том, что из-за сложности сбора данных и относительной чувствительности выборки было рассмотрено только 28 показателей. В будущих исследованиях следует проанализировать дополнительные факторы развития терроризма и сосредоточится на первоочередном влиянии политических рисков, например таких как стабильность правительства.

Библиография

1. Груздев, А. В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес. - М.: ДМК Пресс, 2018. - 642 с.

2. Максимов Д.А. Экономическая безопасность предприятия: оценка и управление // Славянский форум. - 2016. - № 3 (13). - С. 147-153.

3. Махутов, Н. А. Использование байесовских сетей для оценки террористических рисков и выбора оптимальной стратегии противодействия террористической угрозе / Н. А. Махутов, Д. О. Резников // Проблемы безопасности и чрезвычайных ситуаций. - 2007. - № 5. - С. 43-63.

4. Машечкин И.В., Петровский М.И., Царев Д.В., Чикунов М.Н. Методы машинного обучения для задачи обнаружения и мониторинга экстремистской информации в сети интернет// Программирование. - 2019. № 3. - С. 18-37.

5. Молотникова, А. А., Звонкова Д. В. Очерк проблем терроризма и прогнозирование терактов с использованием искусственных нейронных сетей / А. А. Молотникова, Д. В. Звонкова // Наука и образование: хозяйство и экономика; предпринимательство; право и управление. - 2018. - № 3(94). - С. 121-131.

6. Мохаддам, Ф. М. Терроризм с точки зрения террористов: что они переживают и думают и почему обращаются к насилию / [пер. В. А. Сосин]. - М.: Форум, 2011. -286 с.

7. Тихомиров Н.П., Максимов Д.А., Щербаков А.В. Верификация прогнозов на основе анализа рисков их ошибок // Вестник Российской экономической академии им. Г.В. Плеханова. - 2011. - № 3(39). - С. 103-113.

8. Тихомирова Т.М., Сукиасян А.Г. Статистический анализ рисков социальной напряженности в регионах РФ // Инновации на основе информационных и коммуникационных технологий. - 2014. - № 1. - С. 617-619.

9. Трамова А. М. Управление рисками и безопасностью / А. М. Трамова, И. А.

Киселева, Н. Е. Симонович [и др.]. - Нальчик : Федеральное государственное бюджетное образовательное учреждение высшего образования "Кабардино-Балкарский государственный аграрный университет имени В.М. Кокова", 2017. - 182 с.

10. Abadie, A. Poverty, political freedom, and the roots of terrorism // American Economic Review. - 2006. - V. 96 (2). - P. 50-56.

11. Agnew, R. A general strain theory of terrorism // Theoretical Criminology. - 2010. - V. 14(2). - P. 131-153.

12. Bjorgo, T. Strategies for Preventing Terrorism / Palgrave Macmillan. - London, England. - 2013.

13. Brandt, P.T., Freeman, J.R., Schrodt, P.A., Real time, time series forecasting of inter-and intra-state political conflict // Conflict Management and Peace Science. - 2011. -V. 28(1). - P. 41-64.

14. Campos, N.F., Gassebner, M., International terrorism, domestic political instability, and the escalation effect // Economics and Politics. - 2013. - V. 25(1). - P. 27-47.

15. Casalicchio, G., Molnar, C., Bischl, B., 2018. Visualizing the feature importance for black box models. 2018. Режим доступа: https://arxiv.org/pdf/1804.06620.pdf (дата обращения 01.10.2021).

16. Chen, C., Reniers, G., Khakzad, N. Cost-benefit management of intentional domino effects in chemical industrial areas // Process Safety and Environmental Protection. -2020. - V. 134. - P. 392-405.

17. Chen, X., He, Z., Chen, Y., Lu, Y., Wang, J., Missing traffic data imputation and pattern discovery with a bayesian augmented tensor factorization model // Transportation Research Part C Emerging Technologies. - 2019. - V. 104(7). - P. 6677.

18. Clauset, A., Young, M., Gleditsch, K.S. On the frequency of severe terrorist events // Journal of Conflict Resolution. - 2007. - V. 51(1). - P. 58-87.

19. Crenshaw, M. The causes of terrorism // Comparative Politics. - 1981. - V. 13(4). - P. 379-399.

20. Ding, F., Ge, Q., Dong, J., Fu, J., Hao, M., Yang, J.M., Understanding the dynamics of terrorism events with multiple-discipline datasets and machine learning approach. PLoS ONE. - 2017. - V. 12(6). doi: 10.1371/journal.pone.0179057

21. Drenher, A., Fischer, J., Government decentralization as a disincentive for transnational terror? an empirical analysis // International Economic Review. - 2010. -V. 51(4). - P. 981-1002.

22. Frey, B.S., Luechinger, S., How to fight terrorism: Alternatives to deterrence // Defence and Peace Economics. - 2003. - V. 14(4). - P. 237-249.

23. Guyon, I., Weston, J., Barnhill, S., Vapnik, V., Gene selection for cancer classification using support vector machines // Machine Learning. - 2002. - V. 46(1). - P. 389-422.

24. Hao, M., Jiang, D., Ding, F., Fu, J., Chen, S. Simulating spatio-temporal patterns of terrorism incidents on the Indochina peninsula with GIS and the random forest method. International Journal of Geo-Information. - 2019. - V. 8(3). - P. 1-19.

25. Institute for Economics & Peace. Global Terrorism Index 2020: Measuring the Impact of Terrorism, Sydney, November 2020. Режим доступа:

https ://www.visionofhumanity.org/wp-content/uploads/2020/11/GTI-2020-web-1.pdf (дата обращения 01.10.2021).

26. Ismail, H.M., Kazi, H. Use of predictive modeling for prediction of future terrorist attacks in Pakistan // International Journal of Computer Applications. - 2018. - V.

179(15). - P. 8-16.

27. Lewis, E., Mohler, G., Brantingham, P.J., Bertozzi, A.L. Self-exciting point process models of civilian deaths in Iraq // Security Journal. - 2012. - V. 25(3). - P. 244-264.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

28. Liu, J., Musialski, P., Wonka, P., Ye, J. Tensor completion for estimating missing values in visual data // IEEE International Conference on Computer Vision. - 2013. - V. 35(1). - P. 208-220.

29. Marchese Robinson, R.L., Palczewska, A., Palczewski, J., Kidley, N., 2017. Comparison of the predi ctive performance and interpretability of random forest and linear models on benchmark data sets // Journal of Chemical Information and Modeling. - 2017. - V. 57(8). - P. 1773-1792.

30. Minu, K., Lineesh, M., John, C.J. Wavelet neural networks for nonlinear time series analysis // Applied Mathematical Sciences. - 2010. - V. 4(50). - P. 2485-2495.

31. Mo, H., Meng, X., Li, J., Zhao, S. Terrorist event prediction based on revealing data / In: 2017 IEEE 2nd International Conference on Big Data Analysis (ICBDA), Beijing, China, 2017.- P. 239-244.

32. Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. Scikit-learn: Machine learning in Python // Journal of Machine Learning Research. -2011. - V. 12. - P. 2825-2830.

33. Perry, C. Machine Learning and Conflict Prediction: A Use Case // Stability: International Journal of Security and Development. - 2013. - V. 2(3). - P. 56.

34. Semmelbeck, J., Besaw, C. Exploring the determinants of crime-terror cooperation using machine learning // Journal of Quantitative Criminology. - 2020. - V. 36(1). - P. 527-558.

35. The Global Terrorism Database (GTD). 2021. Режим доступа: https://www.start.umd.edu/gtd/ (дата обращения 01.10.2021).

36. The International Country Risk Guide (ICRG). 2021. Режим доступа:

https ://www.prsgroup.com/explore-our-products/international-country-risk-guide/ (дата обращения 01.10.2021).

37. Weidmann, N.B., Ward, M.D. Predicting conflict in space and time // Journal of Conflict Resolution. -2010. - V. 54(6). - P. 883-901.

38. World Bank Open Data. 2021. Режим доступа: https://data.worldbank.org/ (дата обращения 01.10.2021)

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.

Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья посвящена построению прогностических моделей риска террористических актов с использованием элементов искусственного интеллекта, анализа данных и машинного обучения.

Актуальность рецензируемой работы обусловлена необходимостью предотвращения террористических атак, потребностью в прогнозировании возможных инцидентов на основе анализа больших массивов данных для выстраивания адекватной системы обеспечения антитеррористической безопасности.

Методология исследования базируется на обобщении примеров успешного применения искусственного интеллекта в контртеррористической деятельности, построении

прогностических моделей на основе анализа хорошо известных баз данных: «Глобальная база данных о терроризме» (GTD), «Международное руководство по страновым рискам» (ICRG) и базы данных «Всемирного банка» с применением алгоритмов машинного обучения.

К элементам научной новизны представленного исследования, по мнению рецензента, можно отнести систематизацию факторов уровня первопричин и уровня инцидентов террористических актов, а также обоснование на основе алгоритмов машинного обучения минимального набора входных показателей (число жертв атак в предыдущем периоде, рост ВВП, военные расходы, темпы роста населения, численность населения, безработица, рост городского населения, внутренние конфликты) для понимания и прогнозирования риска террористических нападений.

В структуре статьи выделены следующие разделы: Введение, Методология, Выбор показателей и предварительная обработка данных, Прогнозирование на основе методов машинного обучения, Выбор оптимальной модели случайного леса, Заключение, а также Библиография.

Во введении статьи справедливо отмечается, что прогнозирование риска террористических актов полезно для разработки превентивных мер, а также для обеспечения более целенаправленного долгосрочного формирования политики. При описании методологии изложены четыре этапа предлагаемого подхода, указаны источники данных для проведения анализа, а также а также названо количество анализируемых показателей - 28, из которых 17 - индикаторы макроуровня, а остальные 11 связанны с внутренними характеристиками нападений. В статье в виде схемы представлен процесс перехода к терроризму под воздействием внешних факторов, приведена описательная статистика независимых (входных) переменных. Несколько моделей машинного обучения сопоставляются по результатам прогнозирования успешности атаки, материального ущерба, числа жертв атак, величины общего ущерба и общего прогноза на основе значений показателей среднего и стандартного отклонений, а также коэффициента детерминации. Далее рассмотрена эффективность прогнозирования с постепенным снижением числа входных независимых переменных и обосновано какие показатели нужно сохранить в качестве основных переменных. Библиография представлена 38 источниками, на в тексте статьи имеются адресные ссылки, что свидетельствует о наличии апелляции к оппонентам. Текст иллюстрирован наглядными схемами и аналитическими таблицами. Рецензируемая статья не лишена недочетов в оформлении.

Во-первых, в тексте используются аббревиатуры (MAE и MSE), расшифровка которых приводится не сразу после их первого упоминания, а в следующем абзаце - это может затруднить восприятие для читателей, не знакомых с англоязычной терминологией математической статистики и современными инструментальными средствами анализа данных и моделирования.

Во-вторых, требуется корректировка отображения обозначения коэффициента детерминации, который визуально не выглядит как «R-квадрат», а воспринимается скорее, как R с индексом 2.

Тема рецензируемого материала весьма актуальна, соответствует тематике журнала «Национальная безопасность», статья отражает результаты проведенного анализа обширных данных с применением современных методов моделирования, может вызвать интерес со стороны потенциальных читателей, интересующихся как вопросами антитеррористической безопасности, так и проблемами применения машинного обучения для решения прикладных проблем. Материал рекомендуется к опубликованию.

ПРОГНОЗИРОВАНИЕ РИСКА ТЕРРОРИСТИЧЕСКИХ АКТОВ НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Экономика и бизнес»

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Новиков Андрей Вадимович

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Новиков Андрей Вадимович

FORECASTING THE RISK OF TERRORIST ATTACKS BASED ON MACHINE LEARNING ALGORITHMS

Текст научной работы на тему «ПРОГНОЗИРОВАНИЕ РИСКА ТЕРРОРИСТИЧЕСКИХ АКТОВ НА ОСНОВЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ»