Научная статья на тему 'Гибридно-нечеткие методы мониторинга экстремистских интернет-ресурсов'

Гибридно-нечеткие методы мониторинга экстремистских интернет-ресурсов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
177
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНТЕНТ-АНАЛИЗ / ГИБРИДНО-НЕЧЕТКИЕ МЕТОДЫ / ИНТЕРНЕТ-МОНИТОРИНГ / ПРОТИВОДЕЙСТВИЕ ЭКСТРЕМИЗМУ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Желудов Юрий Станиславович

В связи с глобальными процессами информатизации экстремисты осваивают новые методы вовлечения людей в противоправную деятельность посредством сети Интернет. В целях противодействия экстремистской деятельности в статье рассматриваются математические гибридно-нечеткие методы применительно к мониторингу ресурсов экстремистской направленности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Желудов Юрий Станиславович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Гибридно-нечеткие методы мониторинга экстремистских интернет-ресурсов»

Зародилась широкая система электронного библиотечного обслуживания, которая включает в себя:

• сеть информационных хранилищ, электронных изданий с доступом с отдельных рабочих мест через электронные читальные залы;

• сеть информационно-поисковых систем по библиотекам;

• базу подготовки и выпуска электронной информации (электронные издания);

• электронные каталоги с единой системой.

Данная система способствовала созданию комплексов рабочих мест с открытым доступом в сети Интернет. Электронные библиотеки обслуживают не только гуманитариев, но и специалистов разных областей знаний.

Подводя итог сказанному выше, можно с уверенностью сказать, что информационные и компьютерные технологии дают хороший плацдарм для гуманитарного образования. Российское образование тем лучше, чем масштабней внедрение и использование информационно-коммуникационных технологий в образовательный процесс. Постоянно создаются новые программные продукты, которые помогают преподавателям гуманитарных дисциплин и студентам активно развиваться в нужной траектории.

Список литературы

1. Завьялова М.П., Сухушин Д.В. Изменение установок гуманитарного образования в условиях становления информационного общества. Открытый междисциплинарный электронный журнал ТГУ «Гуманитарная информатика». [Электронный ресурс]. Режим доступа: http://huminf.tsu.ru/ (дата обращения: 01.09.2018).

2. Титова С.В. Информационно-коммуникационные технологии в гуманитарном образовании: теория и практика. Пособие для студентов и аспирантов языковых факультетов университетов и вузов. М., П-Центр, 2009. 240 с.

ГИБРИДНО-НЕЧЕТКИЕ МЕТОДЫ МОНИТОРИНГА ЭКСТРЕМИСТСКИХ ИНТЕРНЕТ-РЕСУРСОВ Желудов Ю.С.

Желудов Юрий Станиславович - магистрант, кафедра информационных технологий и защиты информации, Ростовский государственный экономический университет, г. Ростов-на-Дону

Аннотация: в связи с глобальными процессами информатизации экстремисты осваивают новые методы вовлечения людей в противоправную деятельность посредством сети Интернет. В целях противодействия экстремистской деятельности в статье рассматриваются математические гибридно-нечеткие методы применительно к мониторингу ресурсов экстремистской направленности. Ключевые слова: контент-анализ, гибридно-нечеткие методы, интернет-мониторинг, противодействие экстремизму.

Для выявления сообществ с экстремистской направленностью, а также оценки их степени и динамики деструктивного влияния на интернет-пользователей предлагается осуществлять контент-мониторинг информации Интернета посредством применения гибридно-нечетких нейросетей, рассчитывающих комплексную оценку на основе совокупности показателей.

Совокупность показателей состоит из четырех групп:

1) маркеры экстремистской направленности (по видам экстремизма);

2) маркеры лингвистического манипулирования;

3) показатели вербальной агрессии;

4) научные и публицистические термины.

Группа маркеров экстремизма состоит из трех подгрупп: религиозного, националистического и политического.

Подгруппа маркеров религиозного экстремизма включает в себя:

1) лексемы, означающие прямые призывы к возбуждению религиозной розни; пропаганду исключительности по признаку его религиозной принадлежности; нарушение прав, свобод и законных интересов человека и гражданина в зависимости от его религиозной принадлежности;

2) список религиозных экстремистских групп, их лидеров, активистов, центров;

3) искаженные географические названия, несущие идеологическую окраску;

4) специфические религиозно -манипулятивные термины, обозначающие ритуалы, адептов и противников религии;

5) религиозные экстремистские воззвания и лозунги;

6) призывы к денежным пожертвованиям, совершению паломничеств, вступлению в добровольческие отряды и прочее;

7) диверсионную лексику;

8) ссылки на материалы, включенные в список религиозных экстремистских материалов.

Подгруппа маркеров национализма, а также фашизма включает в себя:

1) лексемы, означающие прямые призывы к возбуждению социальной, расовой или национальной розни; пропаганду исключительности, превосходства либо неполноценности человека по признаку его социальной, расовой, национальной или языковой принадлежности; нарушение прав, свобод и законных интересов человека и гражданина в зависимости от его социальной, расовой, национальной или языковой принадлежности [1];

2) список названий фашистских и националистических групп, их лидеров, а также исторических личностей, дат и событий, значимых для интернет-сообществ соответствующей направленности (в том числе их аббревиатуры, числовые обозначения и сленговые названия);

3) список фашистских и националистических лозунгов, а также их аббревиатур и числовых обозначений;

4) наличие ура-патриотических лексем, в том числе лозунгов и воззваний;

5) список нацистской атрибутики или символики либо атрибутики или символики, сходных с нацистской атрибутикой или символикой до степени смешения, а также их числовых и сленговых обозначений;

6) список официально запрещенных фашистских и националистических изданий, музыкальных и прочих художественных произведений;

7) бранные и сленговые обозначения «врагов» - представителей национальных или (и) социальных групп, против которых направлен экстремизм;

8) признаки коверканья русского языка, имитирующего акцент представителей различных национальностей;

9) бытовой сленг представителей экстремистских группировок;

10) присутствие военно-патриотической, а также военно-спортивной терминологии и сленга;

11) характерные лексемы, призывающие к здоровому образу жизни;

12) интернет-магазины экстремистской символики, призывы к пожертвованиям, вступлению в добровольческие общества, дружины и пр.

Третья подгруппа - это политический экстремизм, состоит из маркеров, соответствующих:

1) прямым призывам к массовым беспорядкам, к участию в массовых мероприятиях, проводимых с нарушением установленного порядка;

2) диверсионной деятельности;

3) публичному оправданию терроризма и иной террористической деятельности;

4) употреблению терминов противоправного контента направленности политического экстремизма;

5) упоминанию материалов, включенных в список материалов политического экстремизма.

Группа маркеров психологического манипулирования включает в себя:

1) общие маркеры психолингвистического манипулирования (сослагательные наклонения, нарушение логики предпосылок и следствий и др.);

2) «рубленый» обилие побудительной лексики (глагольные формы совместного действия в первом лице; формообразующие суффиксы -и- во 2-м лице; составные формы в 3-м лице; модальные частицы и любые слова побуждающего характера) [1];

3) выделения в тексте;

4) так называемый «диалог с читателем»;

5) лексические иронические штампы экстремистской направленности (по видам экстремизма);

6) наличие в тексте эмоционально-психологических характеристик образа «врагов», в том числе перечисления уголовно-наказуемых либо социально порицаемых действий, стандартно приписываемых им экстремистами (по видам экстремизма) [2];

7) наличие в тексте эмоционально-психологических характеристик образа «героев», противопоставляемого образу «врагов»;

8) наличие в тексте образа «народа» как пассивной субстанции, страдающей от действий «врагов»;

9) наличие в тексте терминологии, характерной для современного исторического мифотворчества (по видам экстремизма);

10) критический объем упоминаний об исторических событиях в «горячих точках», военных событиях, природных, техногенных и социальных катастрофах с целью нагнетания атмосферы страха и неуверенности;

11) характерные лексемы, отражающие обращенность к молодежной аудитории [2];

12) наличие речевых повторов.

Группа вербальной агрессии является стандартной и содержит словари выражений, характеризующих лексики физического и психологического насилия и разрушения; лексики негативной эмоциональной оценки; лексики негативной рациональной оценки, ругательную и ненормативную лексику и пр. В соответствии с классификацией эмоций К.Е. Изарда, в экспрессивном тексте можно выделить три типа враждебных эмоций: гнев, отвращение и презрение. За ними следуют первичные эмоции - страх, обида, зависть, боль, печаль, унижение, пренебрежение и так далее.

Группа научных и публицистических терминов является стандартной и предназначена для отсеивания научных и публицистических статей по исследованию экстремистской тематики.

Словарь каждой из групп предполагается создать как на основе уже существующих словарей соответствующей направленности, так и на основе статистического анализа выборки текстов экстремистской направленности.

Очевидно, что различные лексические единицы характеризуются различной степенью принадлежности к экстремистской лексике [2]. Поэтому предлагается сопоставить им значения нечетких функций принадлежности на основе статистического анализа выборки эталонных текстов, для которых экспертным путем оценена степень выраженности исследуемых слов. Как альтернатива, могут быть использованы, например, попарные экспертные оценки.

Формирование оценки исследуемого текста на экстремистскую направленность предлагается осуществлять на основе систем нечетко-логических выводов, называемых нечеткими многоуровневыми [0,1] - классификаторами [3].

Предполагается, что при исследовании текста, вводятся в рассмотрение четыре лингвистические переменные, числовые значения которых соответствуют его оценкам по каждой из групп [3]:

gl = «комплексная оценка содержания маркеров экстремистской направленности»; = «комплексная оценка содержания маркеров психологического манипулирования»;

gз = «комплексная оценка содержания слов вербальной агрессии»; g4 = «комплексная оценка содержания научных и публицистических терминов». Каждая из оценок есть лингвистическая переменная, с универсальным множеством [0,1] и терм множеством из пяти термов в={в1, 02,в3,04,в5}. Термам можно присвоить следующий смысл (статические классификаторы или классификаторы первого типа):

в1 - «оценка 1, текст вообще не содержит исследуемой лексики»; в2 - «оценка 2, в тексте присутствуют одиночные элементы исследуемой лексики»;

в3 - «оценка 3, текст содержит элементы исследуемой лексики»; в4 - «оценка 4, текст содержит исследуемую лексику»; в5- «оценка 5, текст содержит исследуемую лексику в критическом объеме». Также вводится в рассмотрение лингвистическая переменная g = «комплексная оценка проверки текста на экстремистскую направленность». Ее числовое значение также рассчитывается на основе нечетких многоуровневых [0,1] - классификаторов, на основе агрегирования значений первых трех из перечисленных оценок.

Четвертая оценка используется для отсеивания научных статей и журналистских исследований; осуществляется поиск издания, проверка выходных данных публикации и пр. маркеров, однозначно свидетельствующих об опубликовании статьи, как прошедшего рецензирование материала. В случае, если поиск не дал результата, четвертая оценка не учитывается (т.е. выдвигается гипотеза, что перед нами «псевдонаучный» текст экстремистской направленности).

Проведение оценки при помощи гибридно-нечетких методов также подразумевает введение лингвистических переменных:

g = «комплексная оценка проверки текста на экстремистскую направленность» служит для ранжирования текстов, а также исследования динамики, например, контента сообщества во времени (что может служить для контроля за уровнем его экстремистской направленности).

Формирование каждой из четырех оценок текста, осуществляется на основе агрегирования (с помощью нечетких многоуровневых [0,1] - классификаторов) числовых значений показателей по соответствующей группе.

Оценки агрегируются на основе комплексов показателей [3]. Так, например, g1 = «комплексная оценка содержания маркеров экстремистской направленности» формируется на основе числовых значений шести показателей, соответствующих перечисленным подгруппам. Каждая из подгрупп, в соответствии с теорией нечетких многоуровневых [0,1] - классификаторов имеет свой вес, определяемый с помощью экспертных оценок. Для каждого показателя рассчитывается нормированное числовое значение. Для этого значение функции принадлежности каждого из встреченных маркеров умножается на относительные частоту его встречаемости слова в тексте; затем произведения суммируются.

Вводится лингвистическая переменная [5] В1= «уровень 1-го показателя» (1=1,2,...,6).

Множеством значений переменной Bi является терм-множество из пяти термов B={B1, B2,B3,B4,B5}:

B1- «очень низкий уровень показателя»;

B2 - «низкий уровень показателя»;

B3 - «средний уровень показателя»;

B4 - «высокий уровень показателя»;

B5 - «очень высокий уровень показателя».

Каждому исследуемому показателю будет сопоставлено значение функций принадлежности, относящих его к соответствующему терму лингвистической переменной [3]. Построение функции принадлежности является основной проблемой, которую можно решить с помощью гибридно-нечетких нейронных сетей. Возможными альтернативами являются функции принадлежности в виде нечетких треугольных чисел; нечетких трапециевидных чисел; сигмовидных функций; гауссовских функций и пр.

Для оценки динамики экстремистcки-ориентированных сообществ на основе их контент-анализа могут быть также использованы нечеткие многоуровневые [0,1] - классификаторы второго типа, или динамические классификаторы. Контент сообщений каждого из участников сообщества подвергается анализу по трем направлениям:

gl = «оценка динамики содержания сигнальных слов экстремистской направленности контента»;

g2 = «оценка динамики содержания маркеров психологического манипулирования»;

g3 = «оценка динамики содержания слов вербальной агрессии».

Каждая из оценок есть лингвистическая переменная, с универсальным множеством [0,1] и терм множеством из пяти термов G={G1, G2,G3,G4,G5}. Термам можно присвоить следующий смысл (статические классификаторы или классификаторы первого типа):

G1 - «устойчивый отход от исследуемой лексики»;

G2 - «отход от исследуемой лексики»;

G3 - «стагнация»;

G4 - «нарастание исследуемой лексики»;

G5- «устойчивое нарастание исследуемой лексики».

Направления должны быть проранжированы экспертами; по-видимому, наибольший вес должно иметь второе направление. В данном случае числовые оценки каждой из групп также рассчитываются на основе агрегирования показателей входящих в нее подгрупп [4]. Однако показатели подгрупп рассчитываются проще,

чем в предыдущем случае. Расчет нормированных значений X исследуемых

показателей за рассматриваемый период N рассматриваемых периодов (например, недель) осуществляется на основе схемы, учитывающей значимость различных временных периодов за счет весовых коэффициентов:

к. - весовые коэффициенты, определяемые по правилу Фишберна; нумерация

временных периодов ведется в обратном порядке. И- целочисленные функции, определяемые таким образом, что значению «1» соответствует увеличение по ьму показателю (ухудшение ситуации); значению «-1» - уменьшение по ьму показателю; значению «0» - стабилизация, отсутствие изменений [4]. При этом терм-множества показателей имеют тот же вид, что и выше, а функции принадлежности могут быть стандартными равномерными, например, трапециевидными.

Таким образом, предложенная методика мониторинга информации в интернет-сообществах, позволит оценить уровень их экстремистской динамики и тенденции их развития.

Методика обладает следующими преимуществами:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1) возможность проанализировать контент интернет-сообщества по четырем группам показателей, включающей в себя несколько подгрупп, отражающих оттенки экстремистской направленности; также сформировать итоговую числовую оценку интернет-сообщества с учетом как уровня отдельных показателей, так и их динамики;

2) возможность учесть для формирования оценки группы сколь угодно большое количество показателей без их обезразмеривания;

3) вклад каждого из показателей в итоговую оценку варьируется посредством весовых коэффициентов, которые могут быть изменены в соответствии с пожеланиями экспертов;

4) оценки, построенные для каждой из отдельных групп, служат материалом для построения комплексной оценки всей системы;

5) построенные оценки позволяют ранжировать интернет-сообщества по уровню их экстремистской агрессивности;

6) предложенная методика является относительно простой в реализации, легко формализуема в виде программных комплексов.

Методика обладает тем важным достоинством, что результатом ее применения является таблица оценок, в которую сведены унифицированные данные по отдельным показателям. Лингвистическое распознавание итоговой комплексной оценки позволяет судить о ситуации в интернет-сообществе целом, а числовое значение соответствующей нечеткой переменной - дать ему количественную оценку («насколько плохо» или «насколько хорошо»). Результат легко анализируется на основе таблицы оценок, что является материалом для дополнительных социологических и психологических исследований феномена экстремистских сообществ в Интернете.

Список литературы

1. Кукушкина О.В., Сафонова Ю.А., Секераж Т.Н. Теоретические и методические основы судебной психолого-лингвистической экспертизы текстов по делам, связанным с противодействием экстремизму. ГУ РФЦСЭ при Минюсте России, 2011.

2. Девяткин Д.А., Кузнецова Ю.М., Чудова Н.В., Швец А.В. Интеллектуальный анализ проявлений вербальной агрессивности в текстах сетевых сообществ // Искусственный интеллект и принятие решений, 2014. № 2. С. 27-41.

3. Сахарова Л.В., Стрюков М.Б., Алексейчик Т.В., Богачев Т.В., Куликова Ю.В. Методика комплексной оценки интенсивности сельскохозяйственного производства ростовской области с учетом позитивной и негативной динамики // Международный научно-исследовательский журнал. Екатеринбург, 2018. № 6 (72). С. 38-43.

4. Недосекин А.О. «Нечеткие множества и финансовый менеджмент». М.: AFA Library, 2003.

5. Леденёва Т.М., Моисеев С.А. Формализация свойств интерпретируемых лингвистических шкал и термов нечетких моделей. Синергия, 2012.

i Надоели баннеры? Вы всегда можете отключить рекламу.