Научная статья на тему 'МЕТОДЫ АВТОМАТИЗАЦИИ АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ НА РУССКОМ ЯЗЫКЕ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ЕЕ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ'

МЕТОДЫ АВТОМАТИЗАЦИИ АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ НА РУССКОМ ЯЗЫКЕ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ЕЕ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
187
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛИНГВИСТИЧЕСКАЯ ЭКСПЕРТИЗА / АВТОМАТИЗИРОВАННЫЙ ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ / ЭКСТРЕМИСТСКИЕ МАТЕРИАЛЫ / ВЕСА ФИШБЕРНА / СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / LINGUISTIC EXAMINATION / AUTOMATED LINGUISTIC ANALYSIS / EXTREMIST MATERIALS / FISHBURN WEIGHTS / SEMANTIC ANALYSIS OF THE TEXT

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Ажмухамедов Искандар Маратович, Завьялова Елена Евгеньевна, Кузнецова Валентина Юрьевна

В работе рассмотрены методы автоматизации анализа русскоязычной текстовой информации с целью выявления ее семантической направленности на примере выполнения лингвистических экспертиз экстремистских материалов. Обоснована актуальность проблемы выявления экстремистских материалов на русском языке посредством лингвистических экспертиз. Проанализированы существующие подходы к исследованию продуктов речевой деятельности и выявлены их основные особенности и недостатки. Описана последовательность действий эксперта при проведении лингвистической экспертизы. Доказана возможность автоматизации процесса лингвистической экспертизы русскоязычных материалов. Предложены методические рекомендации по автоматизированному анализу текстов для решения различных прикладных задач, например, с целью поиска запрещенного контента или материалов ограниченного доступа на просторах интернета, фильтрации возрастного контента, построения расширенных цифровых профилей заемщиков микрофинансовых и банковских организаций с использованием контента из социальных сетей для определения степени их дефолтного поведения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Ажмухамедов Искандар Маратович, Завьялова Елена Евгеньевна, Кузнецова Валентина Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF AUTOMATION OF ANALYSIS OF TEXT INFORMATION IN RUSSIAN IN ORDER TO IDENTIFY ITS SEMANTIC DIRECTION

The paper considers automation methods for analyzing Russian - language textual information in order to identify its semantic orientation using the example of linguistic examinations of extremist materials. The urgency of the problem of identifying extremist materials in Russian through linguistic examinations is substantiated. The existing approaches to the study of speech activity products are analyzed and their main features and disadvantages are revealed. The sequence of actions of an expert during a linguistic examination is described. The possibility of automating the process of linguistic examination of Russian - language materials is proved. Methodological recommendations on automated text analysis for solving various applied problems are proposed, for example, to search for prohibited content or restricted access materials on the Internet, filter age - related content, build advanced digital profiles of microfinance and banking organizations borrowers using content from social networks to determine the extent of their default behavior.

Текст научной работы на тему «МЕТОДЫ АВТОМАТИЗАЦИИ АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ НА РУССКОМ ЯЗЫКЕ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ЕЕ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ»

УДК 004.588

МЕТОДЫ АВТОМАТИЗАЦИИ АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ НА РУССКОМ ЯЗЫКЕ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ ЕЕ СЕМАНТИЧЕСКОЙ НАПРАВЛЕННОСТИ

Статья поступила в редакцию 31.03.2020, в окончательном варианте — 28.05.2020.

Ажмухамедов Искандар Маратович, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а,

доктор технических наук, профессор, декан факультета цифровых технологий и кибербез-опасности, профессор кафедры информационной безопасности, e-mail: aim_agtu@mail.ru

Завьялова Елена Евгеньевна, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а,

доктор филологических наук, заведующая кафедрой литературы, e-mail: zavyalovaelena@mail.ru Кузнецова Валентина Юрьевна, Астраханский государственный университет, 414056, Российская Федерация, г. Астрахань, ул. Татищева, 20а, ассистент, e-mail: arhelia@bk.ru

В работе рассмотрены методы автоматизации анализа русскоязычной текстовой информации с целью выявления ее семантической направленности на примере выполнения лингвистических экспертиз экстремистских материалов. Обоснована актуальность проблемы выявления экстремистских материалов на русском языке посредством лингвистических экспертиз. Проанализированы существующие подходы к исследованию продуктов речевой деятельности и выявлены их основные особенности и недостатки. Описана последовательность действий эксперта при проведении лингвистической экспертизы. Доказана возможность автоматизации процесса лингвистической экспертизы русскоязычных материалов. Предложены методические рекомендации по автоматизированному анализу текстов для решения различных прикладных задач, например, с целью поиска запрещенного контента или материалов ограниченного доступа на просторах интернета, фильтрации возрастного контента, построения расширенных цифровых профилей заемщиков микрофинансовых и банковских организаций с использованием контента из социальных сетей для определения степени их дефолтного поведения.

Ключевые слова: лингвистическая экспертиза, автоматизированный лингвистический анализ, экстремистские материалы, веса Фишберна, семантический анализ текста

METHODS OF AUTOMATION OF ANALYSIS OF TEXT INFORMATION IN RUSSIAN IN ORDER TO IDENTIFY ITS SEMANTIC DIRECTION

Azhmukhamedov Iskandar M., Astrakhan State University, 20a Tatishchev St., Astrakhan, 414056, Russian Federation,

Doct. Sci. (Engineering), Full Professor, Dean of the Faculty of Digital Technologies and Cyberse-curity, Professor of the Department of Information Security, e-mail: aim_agtu@mail.ru

Zavyalova Elena E., Astrakhan State University, 20a Tatishchev St., Astrakhan, 414056, Russian Federation,

Full Professor, Head of the Department of Literature, e-mail: zavyalovaelena@mail.ru Kuznetsova Valentina Yu., Astrakhan State University, 20a Tatishchev St., Astrakhan, 414056, Russian Federation,

Assistant, e-mail: arhelia@bk.ru

The article was received by the editorial board on 31.03.2020, in the final version — 28.05.2020.

The paper considers automation methods for analyzing Russian-language textual information in order to identify its semantic orientation using the example of linguistic examinations of extremist materials. The urgency of the problem of identifying extremist materials in Russian through linguistic examinations is substantiated. The existing approaches to the study of speech activity products are analyzed and their main features and disadvantages are revealed. The sequence of actions of an expert during a linguistic examination is described. The possibility of automating the process of linguistic examination of Russian-language materials is proved. Methodological recommendations on automated text analysis for solving various applied problems are proposed, for example, to search for prohibited content or restricted access materials on the Internet, filter age-related content, build advanced digital profiles of microfinance and banking organizations borrowers using content from social networks to determine the extent of their default behavior.

Keywords: linguistic examination, automated linguistic analysis, extremist materials, Fishburn weights, semantic analysis of the text

Graphical annotation (Графическая аннотация) Эксперт-лингвист

О

Programmer

Введение. Распространение экстремистских идей в Российской Федерации угрожает национальной безопасности государства. Если терроризм безусловно отвергается обществом, то экстремизм - ключевой элемент разрушения основ конституционного строя - все еще воспринимается гражданами как вполне допустимый инструмент политического противостояния.

Экстремизм - это приверженность к крайним взглядам и мерам [14]. К ним можно отнести публичное оправдание террористической деятельности, возбуждение социальной, национальной, расовой или религиозной вражды, пропаганда националистической атрибутики, финансирование таких деяний или любая помощь в их организации [15].

В настоящее время развитие коммуникационных технологий, доступность оружия, широкие возможности по переводу денежных средств, простота вербовки кадров для осуществления экстремистской деятельности способствуют расширению масштабов экстремизма во всём мире. Террористические организации, в том числе действующие в России, используют интернет для вербовки новых членов, включая террористов-смертников из числа экстремистски настроенной молодежи с целью привлечения их в радикальный ислам, а затем и для побуждения к совершению противоправной деятельности. Кроме того, интернет используется для формирования лояльно настроенной к террористическим организациям среды, играющей активную роль в их поддержке. В соцсетях создаются аккаунты и закрытые группы, в которых ведётся пропаганда идеологии экстремизма и терроризма. Помимо информационной функции социальные сети могут выполнять и функции по организации и координации массовых акций, имеющих своей целью открытую конфронтацию с законно избранной власти [6].

Существует перечень общественных и религиозных объединений, иных некоммерческих организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом «О противодействии экстремистской деятельности», и этот перечень регулярно обновляется [23]. Однако идеология подобных объединений пользуется популярностью, о чём можно судить на примере «Исламского государства» (ИГИЛ). Под его контролем находится целый ряд информационных агентств, печатных и электронных средств массовой информации Сирии, Ирака, Саудовской Аравии и ряда других стран. Создана масштабная разветвленная сеть интернет-ресурсов - около 500 сайтов и большое количество аккаунтов в социальных сетях [4]. Серьёзное внимание пропагандистские структуры указанной группировки уделяют вещанию на русском языке: объём материалов на нём лишь в незначительной степени уступает арабскому и английскому языкам. Данная статистика говорит о том, что российские граждане планомерно подвергаются деструктивному воздействию. Это также подтверждается отчетом американской компании Soufan Group, согласно которому Россия обошла другие страны по числу граждан, которые отправляются воевать за «Исламское государство» (около 3 500 человек) [11].

Число преступлений экстремистской направленности выросло в России в январе 2020 г. на 77,1 % по сравнению с аналогичным периодом 2019 г. - об этом сообщается на ведомственном портале правовой статистики Генпрокуратуры [18]. Несмотря на то, что по сравнению с 2017 г. отмечено снижение соответствующих преступлений, количество зарегистрированных преступлений в последние годы остается достаточно большим (рис.) [21]. Кроме того, высокая общественная

опасность рассматриваемых преступлений, их латентность требуют особого внимания к ним со стороны правоохранительных органов; комплексного подхода, в том числе при взаимодействии с экспертами-филологами для проведения лингвистических экспертиз подозрительных материалов.

2200 -

Рисунок - График, отражающий статистику по количеству преступлений экстремистской направленности (по данным сайта Генпрокуратуры) [21]

Это связано с необходимостью юридической оценки речевых действий с целью обнаружения признаков состава правонарушения, в частности, наличия или отсутствия в тексте «публичных призывов к осуществлению экстремисткой деятельности»; «признаков возбуждения социальной, расовой, национальной или религиозной ненависти либо вражды»; «признаков унижения национального достоинства человека, либо группы лиц»; «оскорбления, затрагивающего национальные или религиозные чувства» и т.п.

При этом проведение лингвистической экспертизы, которую назначает суд, достаточно дорогостоящее мероприятие - средняя стоимость данной услуги колеблется в пределах 20 тысяч рублей [25].

Постановка задачи и предполагаемые результаты. В связи с этим становится актуальной задача совершенствования процедур автоматизации лингвистического анализа текстовой информации. Компьютерный анализ рассматривается нами в качестве предварительного этапа оценки степени деструктивности анализируемого текста. При этом:

• сотрудники органов внутренних дел смогут самостоятельно выявлять подозрительные материалы в короткие сроки;

• поиск запрещенных материалов в интернете и уведомление ответственных лиц о найденном опасном объекте может осуществляться в фоновом режиме;

• за счёт использования автоматизации на предварительном этапе достигается снижение затрат на проведение трудоемких очных лингвистических экспертиз для проверки потенциально деструктивного материала.

Важно отметить, что автоматизация лингвистического анализа текстовой информации не предполагает полного отказа от работы эксперта-лингвиста, а будет являться лишь первым этапом проверки (выявления) потенциально опасной текстовой информации.

Анализ литературных источников по теме статьи. Научных работ, посвященных автоматизации лингвистического анализа русскоязычных текстов, не так много. Использование методов математической лингвистики связано с решением узкого перечня задач - например, определение падежей, склонений или семантики конкретного слова в тексте. Имеющиеся работы касаются анализа преимущественно англоязычных материалов. Это связано со спецификой самого языка: русский, в отличие от других, гибкий, и предложения в нём не строятся в соответствии со строгой последовательностью слов. Существует колоссальное количество синонимов, определяющих одно и то же понятие. Необходим учёт форм шести падежей (по которым меняются окончания не только существительных, но и

прилагательных), вида, спряжения, времени глаголов, сложных конструкций отрицания. Поэтому автоматизация анализа русскоязычных текстов является достаточно сложной и трудоемкой задачей.

Попытки системно охарактеризовать этапы проведения экспертизы экстремистских материалов на русском языке уже предпринимались. Например, Д. Л. Карпов сформулировал краткую модель анализа экстремистского текста в современной практике лингвокриминалиста [8-9], подразумевающую выявление следующих признаков: призывность, негативная оценка, враждебные высказывания, подчёркивание антагонизма, возлагание ответственности за негативные последствия, формирование страха как причины враждебного отношения, оправдание и пропаганду противоправных действий в отношении какой-либо группы лиц, в том числе угрозу подобных действий. Однако при этом признаки данных критериев сформулированы не были. Поэтому положить их в основу разработки автоматизированной методики не представляется возможным.

А. С. Арутюнов в ряде своих работ [2-3] освещает теоретические и философские аспекты анализа экстремистских текстов, а также обозначает базовые принципы и проблемы данного процесса. Однако конкретные приемы, которые используют эксперты и какие можно автоматизировать, не упоминаются.

Б. Я. Мисонжников и Г. С. Мельник считают целесообразным обратить внимание на условия, в которых находится анализируемый материал, и предлагают учитывать его контекст [12, 13]. Особенно это актуально для материалов, опубликованных в интернете на интерактивных сервисах: блоги, твиттер, «живой журнал» и др. В качестве исследуемых объектов в таких случаях выступают записи, которые имеют не только линейную последовательность букв, но и гипертекстовую структуру, то есть являются репликами письменного диалога, который в электронных документах оформляется с помощью гиперссылок. Поэтому исследуемые объекты необходимо анализировать не только по их бумажным копиям, но и в виде электронных документов, в их естественном интернет-контексте. При этом часть его в виде гиперссылок отражена на бумажных копиях, но по ним всесторонне не может быть изучена.

Анализ действий эксперта при лингвистической экспертизе. Для автоматизации процесса экспертизы необходимо сформулировать последовательность действий при проведении лингвистической экспертизы и основные маркеры, на которые обращает внимание эксперт при ее проведении.

Согласно нормативно-правовой базе РФ, «судебная лингвистическая экспертиза - это процессуально регламентированное лингвистическое исследование устного и (или) письменного текста, завершающееся дачей заключения по вопросам, разрешение которых требует применения специальных познаний в языкознании и судебном речеведении» [17].

К компетенции лингвистической экспертизы относятся интерпретация смысла высказываний и их лингвистическая квалификация. В этом смысле судебная лингвистическая экспертиза является одной из основных форм использования возможностей современного языкознания и речеведе-ния при отправлении правосудия [5]. «В случаях, если при производстве по делу об административном правонарушении возникает необходимость в использовании специальных познаний в науке, технике, искусстве или ремесле, судья, орган, должностное лицо, в производстве которых находится дело, выносят определение о назначении экспертизы» [10].

Как правило, до начала процедуры эксперт уже знает, на какие аспекты следует обратить внимание, так как в документе-направлении содержатся конкретные вопросы: «Носят ли выражения <... > характер оскорбления личности, групп, общества в целом?», «Имеется ли наличие признаков деятельности экстремисткой направленности?» и т.п.

При этом правовая квалификация деяния, установление вины и её форм, мотивов правонарушения в компетенцию экспертов не входят (согласно Постановлению Пленума Верховного суда России № 28 от 21.12.2010 «О судебной экспертизе по уголовным делам») [20].

При анализе текстов эксперт обращает внимание на следующее:

1) о ком (чём) говорится;

2) что именно сообщается;

3) как преподносится информация (характер высказываний);

4) зачем это делается (возможная цель).

Комплексный характер анализа - по всем трём составляющим - принципиально важен, так как отсутствие одного из пунктов анализа может привести к ложноположительным или ложноот-рицательным результатам экспертизы.

Помимо вышеперечисленного оценивается коммуникативная ситуация - система взаимодействующих факторов (реальных и воображаемых), определяющих речевое поведение: состояние автора, его языковая компетенция, степень спонтанности порождения текста, формат сообщения и проч. Речь зачастую характеризует неоднозначность и возможность разной интерпретации сказанного. В задачу

эксперта входит выявление скрытых, неявных смыслов путём экспликации лексически невыраженных компонентов. Это определяется как установление актуального значения языкового выражения.

Экспертом обращается внимание на негативную и позитивную оценку лиц, обстоятельств, событий. Нейтральная позиция в большинстве случаев в расчёт не принимается.

О. В. Кукушкина выделяет следующие типы важных оценок предмета речи [11]:

• общая (аксиологическая) оценка типа «хороший/плохой»;

• эмоциональная (экспрессивная) оценка «нравится/не нравится»;

• оценка типа «достоин/не достоин предмет речи определённого социального статуса и соответствующего ему отношения»;

• оценка типа «свой/чужой»;

• модальная оценка (какие действия считает автор необходимыми, допустимыми, возможными, желательными по отношению к предмету речи);

• оценка по степени важности.

К. Е. Изард называет три типа враждебных эмоций: гнев, отвращение и презрение [7]. Ю. В. Щербинина перечисляет чувства, их вызывающие: первый тип связывает с раздражением, недовольством, возмущением, негодованием, злостью, яростью, досадой, огорчением, разочарованием; второй - с неприязнью, омерзением, брезгливостью, гадливостью; третий - с высокомерием, пренебрежением, заносчивостью, надменностью [27].

Эксперт, как правило, идентифицирует эмоции интуитивно, а также «вымеряет» их по степени, длительности, способу проявления и т.д.

Предлагаемая методика. На основании анализа литературы по изучаемому вопросу и результатов опроса фокус-группы астраханских экспертов-лингвистов были сформулированы основные категории лексем, которые являются индикаторами тематики текста (табл. 1). Приведенные в таблице категории лексем, отсылающих текстовую информацию к той или иной семантической направленности, могут потенциально свидетельствовать о том, что анализируемый текст является экстремистским. Для каждой категории были приведены примеры слов-индикаторов, которые ее характеризуют.

Таблица 1 - Категории и примеры лексем-индикаторов

Категории тем (т) Предположение Примеры лексем-индикаторов

Цитаты из священных книг Возможна интерпретация религиозных идей Библия, Коран, Таинах, Ганджур и др.

Насилие Возможны призывы к экстремистской деятельности Кровь, война, смерть, враг, захват, мочить, к стенке, в бой, боевик, смертник, террор, угроза, шахид, жертвователь, взрывать, унижение

Религия Возможны попытки возбуждения религиозной розни Господь, Всевышний, Иблис, Шайтан, Сатана, божество, вера, вероисповедание, Вседержитель, Глас божий, Творец, закон

Возвышенная лексика Возможны попытки возбуждения религиозной розни Грядёт, посланник, сотоварищ, избранный, истинный, Священный, предшественник, предки, воспеть, предание, благоволить, благословил, благодеяние, бого-воплощение

Политика Возможны призывы к насильственному нарушению целостности государства Власть, система, силовики, авторитаризм, легитимность, узурпация, насилие, ватник, либераст, подтасовка, засудить, государство, ваххабиты, геноцид, президент, глава государства, страна, движение, идеология и т.д.

Шовинизм Возможны попытки возбуждения национальной розни Москаль, великорусский, хохол, узкоглазый, нигер, чёрный, жид, чурбан, зверь, хачик, нация, оккупанты, грязный, хач, корсак, чурка, еврей, чернокожий, негр, скинхеды, славяне, нацист, дискриминация, расовой, вражды, вражду, вражде, этнической, расовой, рознь, ислам, исламский фундаментализм

Подлог Возможны попытки возбуждения эмоциональной розни Махинации, вор, жулик, братки, понятия, мафия, банда, рэкет, тюрьма, подделка, мошенничество, криминал, вор, бандит, барыга, грабеж, оборот, разбой, коррупция, сговор

Обесцененная лексика Возможны попытки публичного заведомо ложного обвинения лиц «Русский матерный словарь»

Продолжение таблицы 1

Инвективная лексика Возможно наличие оскорблений «Словарь русских национальных ругательств»

Экспрессивная лексика Возможны негативные эмоции значительной интенсивности Избавиться, подавиться, захлебнуться, распоряжаться, разглагольствовать, призывать, отживать, истребить, бороться, сопротивляться, гибнуть, уничтожить, расправиться, напасть, нанести, подавить, истязать, принудить, лишить, порождать, исповедовать, господствовать, карать, вынудить, ужесточает, запрещенных, безответственное, подрывать, скандал, отстранение, опровергнуть, ударный, недопустимые, неприемлемые

Лексемы с семантикой должен-ствования Возможно наличие призывов к действию Должен, нужно, следует, требуется, будь, необходимо, обязательно, непременно, в обязательном порядке, придется, надлежит, подобает, надобно, нельзя не..., соответственно, обязан, облигаторный

Приведенная выше таблица 1 служит своего рода продукционной базой правил.

Например, фрагмент такой базы может выглядеть следующим образом:

Если в тексте встречается слово «захват», то в нём наличествует тема «насилие», что может свидетельствовать о том, что текст содержит призывы к экстремистской деятельности.

Если в тексте встречается слово «узурпация», то в нём наличествует тема «политика», что может свидетельствовать о том, что текст содержит призывы к насильственному нарушению целостности государства.

У слов-индикаторов в каждой категории есть свой вес - нормированная величина относительно всех других слов в категории. Для определения этих весов предлагается использовать модифицированную схему получения обобщенных на случай смешанного распределения предпочтений весов Фишберна. При её использовании для назначения весовых коэффициентов необходимо знать только то, насколько одно слово более существенно при анализе, чем другое, или, возможно, оба слова имеют одинаковый уровень важности [22].

Для примера рассмотрим распределение слов-индикаторов в категории «насилие» и нахождение для них весов Фишберна. Эксперту-лингвисту было предложено распределить слова из исследуемой категории по уровню их влияния. Целью являлось отнесение материала к тематике категории - чем выше слово в иерархии, тем большее воздействие оно оказывает на результаты анализа текста. При этом допускалось, что некоторые слова могут быть на одном и том же уровне по уровню их влияния.

Таким образом, в результате совместной работы с практикующим экспертом-лингвистом для категории «насилие» была получена иерархическая структура, состоящая из четырех уровней (табл. 2). Самые существенные (в отношении оценки силы влияния) слова в категории получили оценку «4», наименее существенные и «агрессивные» - оценку «1».

Таблица 2 - Результат работы эксперта-лингвиста по расстановке слов в соответствии с их степенью влияния в категории «насилие»

Оценка влияния (в баллах) - В Слово

4 мочить; смертник; террор; смерть; шахид

3 кровь; к стенке; боевик; угроза

2 война; враг; взрывать; захват

1 в бой; угроза, унижение

Для вычисления нормированного значения веса (V) для /-го слова по схеме Фишберна имеем следующую формулу:

V- =-^-

1 %к=1пкВк

где п - количество слов в категории; В - оценка существенности слова в категории; k - индекс категории слов.

Например, для слова «враг» в категории «насилие» вес определяется так:

V, =---= — = 0,0465.

' 4*5+3*4+2*4+1*3 43

При наличии весов слов-индикаторов в категориях можно просчитать параметр ут (принадлежность текста к категории т). Он характеризует то, насколько анализируемый текст принадлежит к категории «насилие»:

у = ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где - частота повтора /-го слова в тексте.

Аналогично проводятся расчеты для всех остальных категорий. В результате формируется отчет, в котором указано, насколько исследуемый текст принадлежит к каждой из категорий.

С использованием этой методики был проведен анализ материалов, ранее определенных экспертами как экстремистские. Тексты для анализа в количестве 4000 штук были получены из личных архивов экспертов-лингвистов. Объем каждого текста - в пределах 3000-5000 символов без пробелов.

Для указанных текстов были выявлены такие Ут, которые характеризуют типичные тексты экстремистской направленности.

Таблица 3 - Значимые показатели принадлежности текста к обозначенным категориям

Категории тем Типичный интервал величины

Цитаты из священных книг 0,578-0,711

Насилие 0,592-0,837

Религия 0,341-0,562

Возвышенная лексика 0,270-0,302

Политика 0,281-0,388

Шовинизм 0,210-0,342

Подлог 0,192-0,233

Обесцененная лексика 0,387-0,456

Инвективная лексика 0,482-0,537

Экспрессивная лексика 0,522-0,594

Лексемы с семантикой долженствования 0,634-0,688

Таким образом, если анализируемый текст по значению ут попадает в обозначенный в таблице интервал, то можно сделать вывод о том, что материал потенциально может относиться к категории экстремистских.

Важно отметить, что наличие политических, шовинистических мыслей, возвышенной, инвек-тивной и другой лексики строго не определяет экстремистские материалы, а лишь указывает на возможное проявление в них экстремистских идей. Поэтому автоматизированный анализ необходим исключительно для первичного анализа потенциально деструктивного контента с целью принятия решения о целесообразности передачи материала эксперту-лингвисту.

Заключение. Предложенная методика позволяет автоматизировать процесс предварительного анализа текстового материала для выявления в нем возможных проявлений экстремизма. Автоматизация лингвистического анализа позволит снизить нагрузку на экспертов-лингвистов, сэкономить бюджетные средства на проведение предварительных экспертиз, а также автоматизировать процесс поиска деструктивного контента в интернете в режиме реального времени. Кроме того, предложенную методику можно использовать для анализа текста любой направленности при подборе тематических категорий и слов-индикаторов, например, с целью поиска запрещенного контента или материалов ограниченного доступа на просторах интернета, фильтрации возрастного контента, построения расширенных цифровых профилей заемщиков микрофинансовых и банковских организаций с использованием контента из социальных сетей для определения степени их дефолтного поведения [28].

Библиографический список

1. Антонова Ю. А. Экстремистский текст и деструктивная личность : моногр. / Ю. А. Антонова, Л. Е. Веснина, М. Б. Ворошилова, К. В. Злоказов, Ю. Р. Тагильцева, А. А. Карапетян. - Екатеринбург : Урал. гос. пед. ун-т, 2014. - 276 с.

2. Арутюнов А. С. Методология производства судебной лингвистической экспертизы с целью установления проявлений экстремизма / А. С. Арутюнов // Общество и право. - 2019. - № 2. - С. 79-83.

3. Арутюнов А. А. Терроризм и террористы: современная Россия : монография / А. А. Арутюнов. -Москва : Центр политической информации, 2003. - 91 с.

4. Воронцов С. А. Терроризм 2016: Новые вызовы и угрозы / С. А. Воронцов // Северо-Кавказский юридический вестник. - 2016. - № 3. - С. 108-113.

5. Галяшина Е. Судебная лингвистическая экспертиза в гражданском судопроизводстве: востребованность и компетенции / Е. Галяшина // Межрегиональное бюро судебных экспертиз им. Сикорского. - Режим доступа: https://www.expertsud.ru/content/view/237/36/, свободный - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

6. Гладышев-Лядов В. Социальные сети как инструмент для пропаганды экстремизма / В. Гладышев-Лядов // Обзор НЦПТИ. - 2013. - № 2. - С. 28-31.

7. Изард К. Е. Эмоции человека / К. Е. Изард ; пер. с англ. ; под ред. Л. Я. Гозмана, М. С. Егоровой. -Москва : Изд-во МГУ, 1980. - С. 299.

8. Карпов А. В. Развитие способов противодействия экстремистским и террористическим проявлениям, подрывающим национальную безопасность и государственность Российской Федерации / А. В. Карпов, В. В. Ломакин // Национальные интересы: приоритеты и безопасность. - 2013. - № 8. - С. 2-8.

9. Карпов Д. Л. Сопоставительный анализ лингвистического и литературоведческого подходов в анализе экстремистского текста / Д. Л. Карпов // Сопоставительные исследования 2020.- Воронеж : ООО «РИТМ», 2020. - Вып. 17. - С. 197-202.

10. Кодекс Российской Федерации об административных правонарушениях от 30.12.2001 № 195-ФЗ (ред. от 01.04.2020, с изм. и доп., вступ. в силу с 12.04.2020). - Режим доступа: http://www.consultant.ru/document/cons_doc_LAW_34661/a51ab7ec50452cd0a2d08a5a54a1d48cac6f3468, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

11. Кукушкина О. В. Теоретические и методические основы судебной психолого-лингвистической экспертизы текстов по делам, связанным с противодействием экстремизму / О. В. Кукушкина, Ю. А. Сафонова, Т. Н. Секераж. - Москва : ЭКОМ-Паблишер, 2011. - С. 56.

12. Мельник Г. С. Социолингвистические маркеры экстремистского текста / Г. С. Мельник, Б. Я. Ми-сонжников // Гуманитарный вектор. - 2015. - № 4 (44). - С. 107-113.

13. Меркулова Н. Г. Менталитет - культурный код - язык культуры: к вопросу о корреляции понятий / Н. Г. Меркулова // Регионология. - 2015. - № 2 (91). - С. 188-196.

14. Ожегов С. И. Толковый словарь русского языка: 100 000 слов, терминов и выражений / С. И. Ожегов ; под общ. ред. Л. И. Скворцова. - Москва : Мир и образование, 2015. - 1375 с.

15. О противодействии экстремистской деятельности: Федеральный закон № 114-ФЗ от 25 июля 2002 г. -Режим доступа: http://base.garant.rU/12127578/https://www.expertsud.ru/content/view/237/36/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

16. О судебной экспертизе по уголовным делам. - Режим доступа: https://www.garant.ru/ products/ipo/prime/doc/12081630/, свободный. - Заглавие с экрана. - Яз. рус.

17. Письмо ФССП России от 18.09.2014 № 00043/14/56151-ВВ «О Методических рекомендациях» (вместе с «Методическими рекомендациями по порядку назначения и производства судебных экспертиз в рамках доследственных проверок и расследования преступлений...». - Режим доступа: http://www.consultant.ru/ document/cons_doc_LAW_148806, свободный - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

18. Портал новостного агентства «ТАСС». - Режим доступа: https://tass.ru/obschestvo/7056912, свободный - Заглавие с экрана. - Яз. рус. (дата обращения: 30.03.2020).

19. Портал новостного агентства «РБК». - Режим доступа: https://www.rbc.ru/politics/26/10/2017/ 59f129209a7947a28f9bf623, свободный - Заглавие с экрана. - Яз. рус. (дата обращения: 30.03.2020).

20. Постановление Пленума Верховного суда России № 28 от 21.12.2010 «О судебной экспертизе по уголовным делам». - Режим доступа: https://www.garant.ru/products/ipo/prime/doc/12081630/, свободный. -Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

21. Прокуратора Российской Федерации. - Режим доступа: http://crimestat.ru/24, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

22. Проталинский О. М. Системный анализ и моделирование слабо структурированных и плохо формализуемых процессов в социотехнических системах / О. М. Проталинский, И. М. Ажмухамедов // Инженерный вестник Дона. - 2012. - № 3.

23. Министерство юстиции РФ. - Режим доступа: https://minjust.ru/nko/perechen_zapret, свободный. - Заглавие с экрана. - Яз. рус.

24. Сайт РИА «Новости». Режим доступа: https://ria.ru/20200228/1565305050.htmlhttps:// www.expertsud.ru/content/view/237/36/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

25. Сайт научно-исследовательского центра экспертиз «Новости». - Режим доступа: https://astrakhan.gov-expertiza.ru/services/ekspertiza/lingvisticheskaya_ekspertiza/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 30.04.2020).

26. Симоненко Е. И. Взаимодействие следователя с экспертно-криминалистическими подразделениями при расследовании преступлений экстремистской направленности / Е. И. Симоненко, В. Ю. Васюкова // Научный портал МВД России. - 2019. - № 3. - С. 81-86.

27. Щербинина Ю. В. Вербальная агрессия / Ю. В. Щербинина. - Москва : URSS, 2008. - С. 34-35.

28. Azhmuhamedov I. M. Social Media Analytics for Better Detection of Fraudulent Applications for Online Microfinance Loans / I. M. Azhmuhamedov, V. Yu. Kuznetsova, O. M. Protalinskiy // The materials of 6th International Conference Engineering & Telecommunication - En&T-2019. - Moscow, 2019.

References

1. Antonova Yu. A., Vesnina L. E., Voroshilova M. B., Zlokazov K. V., Tagiltseva Yu. R., Karapetyan A. A. Ekstremistskiy tekst i destruktivnaya lichnost: monografiya [Extremist text and destructive personality : monograph]. Ekaterinburg, Ural State Pedagogical University, 2014. 276 p.

2. Arutyunov A. S. Metodologiya proizvodstva sudebnoy lingvisticheskoy ekspertizy s tselyu ustanovleniya proyavleniy ekstremizma [Methodology for the production of forensic linguistic expertise in order to establish manifestations of extremism]. Obshhestvo ipravo [Society and Law], 2019, no. 2, pp. 79-83.

3. Arutyunov A. A. Terrorizm i terroristy: sovremennaya Rossiya : monografiya [Terrorism and terrorists: modern Russia : monograph]. Moscow, The Center for Political Information Publ., 2003. 91 p.

4. Vorontsov S. A. Terrorizm 2016: Novye vyzovy i ugrozy [Terrorism 2016: New Challenges and Threats]. Severo-kavkazskiy yuridicheskiy vestnik [North Caucasian Legal Bulletin], 2016, no. 3, pp. 108-113.

5. Galyashina Ye. Sudebnaya lingvisticheskaya ekspertiza v grazhdanskom sudoproizvodstve: vostrebovannost i kompetentsii [Judicial linguistic examination in civil proceedings: relevance and competencies]. Mezhregionalnoe byuro sudebnykh ekspertiz imeni Sikorskogo [Interregional Bureau of Forensics Sikorsky]. Available at: https://www.expertsud.ru/content/view/237/36/ (accessed 30.04.2020).

6. Gladyshev-Lyadov V. Socialnye seti kak instrument dlya propagandy ekstremizma [Social networks as a tool for propaganda of extremism]. Obzor NTsPTI [Review of NCPTI], 2013, no. 2, pp. 28-31.

7. Izard K. Ye., Gozman L. Ya., Egorova M. S. (ed.) Emotsii cheloveka [Man's emotions]. Moscow, Moscow State University Publ., 1980, p. 299.

8. Karpov A. V, Lomakin V V Razvitie sposobov protivodeystviya ekstremistskim i terroristicheskim proyavleniyam, podryvayushhim natsionalnuyu bezopasnost i gosudarstvennost Rossiyskoy Federatsii [Development of ways to counter extremist and terrorist manifestations that undermine the national security and statehood of the Russian Federation]. Natsionalnye interesy: prioritety i bezopasnost [National interests: priorities and safety], 2013, no. 8, pp. 2-8.

9. Karpov D. L. Sopostavitelnyy analiz lingvisticheskogo i literaturovedcheskogo podkhodov v analize ekstremistskogo teksta [Comparative analysis of linguistic and literary approaches in the analysis of extremist text]. Sopostavitelnye issledovaniya 2020 [Comparative researches]. Voronezh, OOO «RITM» Publ., 2020, issue 17, pp. 197-202.

10. Kodeks Rossiyskoy Federatsii ob administrativnykh pravonarusheniyakh ot 30.12.2001 № 195-FZ (red. ot 01.04.2020, s izm. i dop, 12.04.2020) [Code of the Russian Federation on Administrative Offenses of 30.12.2001 No. 195-FZ (as amended on 01.04.2020, as amended and supplemented, entered into force on 12.04.2020)]. Available at: http://www.consultant.ru/document/cons_doc_LAW_34661/a51ab7ec50452cd0a2d08a5a54a1d48cac6f3468, (accessed 30.04.2020).

11. Kukushkina O. V, Safonova Yu. A., Sekerazh T. N. Teoreticheskie i metodicheskie osnovy sudebnoy psikhologo-lingvisticheskoy ekspertizy tekstov po delam, svyazannym s protivodeystviem ekstremizmu [Theoretical and methodological foundations of forensic psychological and linguistic examination of texts in cases related to countering extremism]. Moscow, EKOM-Pablisher Publ., 2011, p. 56.

12. Melnik G. S., Misonzhnikov B. Ya. Sotsiolingvisticheskie markery ekstremistskogo teksta [Sociolinguistic markers of extremist text]. Gumanitarnyy vector [Humanitarian vector], 2015, no. 4 (44), pp. 107-113.

13. Merkulova N. G. Mentalitet - kulturnyy kod - yazyk kultury: k voprosu o korrelyatsii ponyatiy [Mentality -cultural code - language of culture: on the question of the correlation of concepts]. Regionologiya [Regionology], 2015, no. 2 (91), pp. 188-196.

14. Ozhegov S. I., Skvortsova L. I. (ed.) Tolkovyy slovar russkogoyazyka: 100 000 slov, terminov i vyrazheniy [Explanatory dictionary of the Russian language: 100,000 words, terms and expressions]. Moscow, Mir i obrazovanie Publ., 2015. 1375 p.

15. O protivodeystvii ekstremistskoy deyatelnosti: Federalnyy zakon [On countering extremist activities: Federal Law], no. 114-FZ of July 25, 2002. Available at: http://base.garant.ru/12127578 /https://www.expertsud.ru/content/view/237/36/ (accessed 30.04.2020).

16. O sudebnoy ekspertize po ugolovnym delam [About forensic examination in criminal cases]. Available at: https://www.garant.ru/products/ipo/prime/doc/12081630/

17. Pismo FSSP Rossii ot 18.09.2014 № 00043/14/56151-VV«O Metodicheskikh rekomendatsiyakh» (vmeste s «Metodicheskimi rekomendatsiyami po poryadku naznacheniya i proizvodstva sudebnykh ekspertiz v ramkakh dosledstvennykh proverok i rassledovaniya prestupleniy...» [Letter of the FSSP of Russia dated 09/18/2014 No. 00043/14/56151-VV "On Methodological Recommendations" (together with "Methodological Recommendations on the procedure for the appointment and production of forensic examinations in the framework of pre-investigation checks and investigation of crimes ..."]. Available at: http://www.consultant.ru/document/cons_doc_LAW_148806, (accessed 30.04.2020).

18. Portal novostnogo agentstva «TASS» [Portal of the news agency "TASS"]. Available at: https://tass.ru/obschestvo/7056912 (accessed 30.03.2020).

19. Portal novostnogo agentstva «RBK» [Portal of the news agency "RBK"]. Available at: https://www.rbc.ru/politics/26/10/2017/59f129209a7947a28f9bf623 (accessed 30.03.2020).

20. Postanovleniyu Plenuma Verkhovnogo suda Rossii № 28 ot 21.12.2010 «O sudebnoy ekspertize po ugolovnym delam») [Resolution of the Plenum of the Supreme Court of Russia No. 28 dated 21.12.2010 "On forensic examination in criminal cases"]. Available at: https://www.garant.ru/products/ipo/prime/doc/12081630/ (accessed 30.04.2020).

21. Prokuratora Rossiyskoy Federatsii [Prosecutor's Office of the Russian Federation]. Available at: http://crimestat.ru/24 (accessed 30.04.2020).

22. Protalinskiy O. M., Azhmukhamedov I. M. Sistemnyy analiz i modelirovanie slabo strukturirovannykh i plokho formalizuemykh protsessov v sotsiotekhnicheskikh sistemakh [System analysis and modeling of poorly structured and poorly formalized processes in sociotechnical systems]. Inzhenernyy vestnik Dona [Engineering Bulletin of Don], 2012, no. 3.

23. Ministerstvo Yustitsii RF [Ministry of Justice of the Russian Federation]. Available at: https://minjust.ru/nko/perechen_zapret.

24. Sayt RIA «Novosti» [RIA Novosti website]. Available at: https://ria.ru/20200228/1565305050. htmlhttps://www.expertsud.ru/content/view/237/36/ (accessed 30.04.2020).

25. Sayt nauchno-issledovatelskogo tsentra ekspertiz «Novosti» [Site of the research center of expertise "Novosti"]. Available at: https://astrakhan.gov-expertiza.ru/services/ekspertiza/lingvisticheskaya_ekspertiza/ (accessed 30.04.2020).

26. Simonenko E. I., Vasyukova V. Yu. Vzaimodeystvie sledovatelya s ekspertno-kriminalisticheskimi podrazdeleniyami pri rassledovanii prestupleniy ekstremistskoy napravlennosti [Interaction of the investigator with forensic departments in the investigation of extremist crimes]. Nauchnyy portal MVD Rossii [Scientific portal of the Ministry of Internal Affairs of Russia], 2019, no. 3, pp. 81-86.

27. Shcherbinina Yu. V Verbalnaya agressiya [Verbal aggression]. Moscow, URSS Publ., 2008, pp. 34-35.

28. Azhmukhamedov I. M., Kuznetsova V. Yu., Protalinskiy O. M. Social Media Analytics for Better Detection of Fraudulent Applications for Online Microfinance Loans. The materials of 6th International Conference Engineering & Telecommunication - En&T-2019. Moscow, 2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.