Научная статья на тему 'ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ПРИЗНАКОВ ПРОТИВОПРАВНЫХ ТЕКСТОВ'

ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ПРИЗНАКОВ ПРОТИВОПРАВНЫХ ТЕКСТОВ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
141
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ / ИМЕННЫЕ ГРУППЫ / РАНГОВАЯ КОРРЕЛЯЦИЯ / ПСИХОЛИНГВИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ / ЭКСТРЕМИСТСКИЕ ТЕКСТЫ / AUTOMATED TEXT ANALYSIS / NOUN PHRASES / RANK CORRELATION / PSYCHOLINGUISTICS CHARACTERISTICS / EXTREMIST TEXTS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Аванесян Нина Левоновна, Соловьев Фёдор Николаевич, Тихомирова Елизавета Алексеевна, Чеповский Андрей Михайлович

Цель исследования: разработка методики определения частотными методами лексических характеристик и психолингвистических факторов, как дифференцирующих признаков для задач идентификации тематики противоправных текстов в целях информационной безопасности.Метод: применялся автоматический морфологический и синтаксический анализ, частотные методы, сравнение автоматически сформированных словарей методами корреляционного анализа. Полученные результаты: разработана методика частотного анализа лексики противоправных текстов, которая позволяет по частотным словарям сравнивать различные наборы текстов и выявлять дифференцируюшие признаки; приведена методика вычисления коэффициента попарной ранговой корреляции для сравнения частотных словарей различных лексических характеристик; проведен сравнительный анализ различных по тематике коллекций текстов противоправной направленности; показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью обнаружения противоправных ресурсов и сообщений; показаны возможности использования как морфологических характеристик слов и словосочетаний, так и буквосочетаний в качестве дифференцирующих признаков; показана возможность вычисления психолингвистических показателей противоправных текстов, основанных на автоматическом лингвистическом анализе текстов; выделены психолингвистические характеристики, характерные для текстов различных тематик.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Аванесян Нина Левоновна, Соловьев Фёдор Николаевич, Тихомирова Елизавета Алексеевна, Чеповский Андрей Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFYING THE SIGNIFICANT FEATURES IN ILLEGAL TEXTS

The purpose of the study: development of a technique for determining lexical characteristics and psycholinguistic factors as discriminative features for identifying the topics of illegal texts by frequency methods for information security purposes.Method: automatic morphological and syntactic analysis, frequency methods, comparison of auto-generated dictionaries by correlation analysis methods.Results: a technique of frequency analysis of the illegal texts vocabulary has been developed, which allows to compare different sets of texts using frequency dictionaries and identify discriminative features; a technique of calculating pairwise rank correlation coefficient for comparison of frequency dictionaries of various lexical characteristics has been presented; a comparative analysis of different illegal texts collections has been carried out; the possibility of using frequency lexical characteristics to study the properties of texts in order to detect illegal resources and messages has been shown; the possibilities of using both morphological characteristics of words and word combinations and letter combinations as discriminative features have been shown; the possibility of calculating the psycholinguistic indicators of illegal texts based on automatic linguistic text analysis has been shown; the psycholinguistic characteristics for texts of various topics have been highlighted.

Текст научной работы на тему «ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ПРИЗНАКОВ ПРОТИВОПРАВНЫХ ТЕКСТОВ»

I ВЫЯВЛЕНИЕ ЗНАЧИМЫХ ПРИЗНАКОВ ПРОТИВОПРАВНЫХ ТЕКСТОВ1

Аванесян Н.Л.2, Соловьев Ф.Н.3, Тихомирова Е.А.4, Чеповский А.М.5

Цель исследования: разработка методики определения частотными методами лексических характеристик и психолингвистических факторов, как дифференцирующих признаков для задач идентификации тематики противоправных текстов в целях информационной безопасности.

Метод: применялся автоматический морфологический и синтаксический анализ, частотные методы, сравнение автоматически сформированных словарей методами корреляционного анализа.

Полученные результаты: разработана методика частотного анализа лексики противоправных текстов, которая позволяет по частотным словарям сравнивать различные наборы текстов и выявлять дифференцирую-шие признаки; приведена методика вычисления коэффициента попарной ранговой корреляции для сравнения частотных словарей различных лексических характеристик; проведен сравнительный анализ различных по тематике коллекций текстов противоправной направленности; показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью обнаружения противоправных ресурсов и сообщений; показаны возможности использования как морфологических характеристик слов и словосочетаний, так и буквосочетаний в качестве дифференцирующих признаков; показана возможность вычисления психолингвистических показателей противоправных текстов, основанных на автоматическом лингвистическом анализе текстов; выделены психолингвистические характеристики, характерные для текстов различных тематик.

Ключевые слова: автоматический анализ текстов, именные группы, ранговая корреляция, психолингвистические характеристики, экстремистские тексты.

DOI: 10.21681/2311-3456-2020-04-76-84

1. Введение

Применение автоматического анализа текстов в задачах обеспечения информационно-психологической безопасности, выделения групп риска по социальным и психологическим показателям, определения экстремистских текстов методами искусственного интеллекта является актуальной задачей информационных технологий. [1, 2].

Для решения задач информационной безопасности необходимы методы вычисления психолингвистических маркеров и статистических показателей психологической характеристики для текстов на русском языке с целью повышения эффективности существующих методов обнаружения экстремизма в социальных сетях.

Разработке на базе реляционно-ситуационного анализа инструментов лингвостатистических исследований психолингвистических показателей посвящен цикл работ [3, 4, 5]. Проведённая в них работа позволила выявить текстовые признаки, наличие которых дает возможность отличить тексты, написанные людь-

ми с различным уровнем личностных особенностей, исследовать проблемы текстовой психодиагностики. Подробные исследования применения психолингвистических характеристик текстов для задач клинической психиатрии приведены в [6, 7], где методами реляционно-ситуационного анализа определялись частотные характеристики текстов, позволяющие оценивать выраженность в конкретной коллекции текстов лексики и маркеров, принадлежащих к различным психологическим состояниям.

В данной работе исследования проводились на корпусе текстов на естественном языке противоправной направленности, насчитывающий почти 3,3 миллиона словоупотреблений. Корпус описывался и использовался нами в работах [8, 9, 10]. Он содержит противоправные тексты семи категорий, а также нейтральные тексты со схожей лексикой:

Подкорпус «агрессия» — тексты агрессивной направленности, с призывами к беспорядкам.

1 Работа выполнена при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00806

2 Аванесян Нина Левоновна, студент магистратуры, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия. E-mail: nlavanesyan@edu.hse.ru

3 Соловьев Фёдор Николаевич, научный сотрудник, Институт физико-технической информатики, Москва, Россия. E-mail: the0@yandex.ru

4 Тихомирова Елизавета Алексеевна, доцент Московского государственного технического университета им. Н.Э. Баумана, Москва, Россия. E-mail: elizarti@bmstu.ru

5 Чеповский Андрей Михайлович, доктор технических наук, профессор, профессор Российского университета Дружбы Народов, Российского технологического университета МИРЭА, Национального исследовательского университета «Высшая школа экономики», Москва, Россия. E-mail: achepovskiy@hse.ru

Подкорпус «фашизм» — тексты, распространяющие фашистскую идеологию.

Подкорпус «идеология» — тексты, пропагандирующие идеологическое и религиозное превосходство.

Подкорпус «национализм» — тексты, распространяющие национализм.

Подкорпус «религиозные» — тексты, призывающие к религиозной ненависти.

Подкорпус «сепаратизм» — тексты, распространяющие сепаратизм.

Подкорпус «сепаратизм» — тексты террористической направленности.

Подкорпус «нейтральные» — нейтральные тексты.

Взятый для исследования корпус текстов противоправной направленности подробно анализировался в работах [11, 12, 13], в которых анализ подкорпусов базировался на платформе TXM, являющейся программным комплексом, предназначенным для разнообразного анализа текстов на естественном языке.

В работах [12, 13] было показано, что указанные выше подкорпуса хорошо разделяются по тематике между собой и противопоставлены нейтральному под-корпусу. Делается вывод, что сформированный корпус может быть использован для машинного обучения в задачах классификации текстов на предмет выявления заданного содержания с целью их углубленного экспертного анализа. Разработаны методы выявления различных дифференцирующих признаков и их комбинаций для тематической классификации подкорпусов текстов, решена задача выделения дифференцирующих признаков с целью применения методов классификации для выявления экстремистских текстов в Интернете. В [14] предложена и опробована методика сравнительного анализа подкорпусов рассматриваемого корпуса текстов, которая позволяет выявлять неявные связи между корпусами разнородных текстов и основана на методиках корпусного анализа.

В данной работе анализ проводится статистическими методами компьютерной лингвистики без использования средств корпусной лингвистики, сравнением частотных словарей лексических единиц. В рамках статистического анализа делается попытка сформировать психолингвистические факторы, позволяющие выявлять направленность текстов по их эмоциональному содержанию.

2. Применяемые методы автоматической обработки текстов

Характеристики текстов определялись процедурами автоматизированной обработки текстов на естественных языках, описанными в [15, 16].

Осуществлялся автоматический морфологический анализ словоформ на основе словарной компьютерной морфологии. Используемая морфологическая модель относит каждое слово к одному из 24 морфологических классов, включающих, помимо частей речи в традиционном понимании, такие разряды, как «неизменяемое слово», «аббревиатура», «топоним». Каждый из этих морфологических классов характеризуется набором грамматических характеристик: род, падеж, число, наклонение и

др. Каждая словоформа содержит свои грамматические характеристики и ее каноническую(начальную) форму.

Определялась именная группа, группа слов, у которой главное слово существительное, а другие слова связаны с ним подчинительными синтаксическими связями. При выделении именных групп решалась задача снятия омонимической неопределенности, проистекающей из множественности морфологических разборов отдельных словоупотреблений. Методика выделения именных групп основана на рассмотрении всего множества возможных морфологических разборов каждого слова.

В текстах выделялись глагольные группы, представляющие собой словосочетания, главным словом которых является глагол. Связи найденных именных групп с глаголами строятся на основе синтаксического анализа предложения. Определяется глагольное управления, как разновидность синтаксической подчинительной связи типа управления, в которой главным словом является глагол. При анализе глагольного управления главным словом (глаголом) накладываются ограничения на употребление зависимого словосочетания в виде набора вариантов допустимых комбинаций грамматических характеристик зависимого словосочетания. Анализ глагольного управления основан на электронном словаре глагольного управления, в который вошли первые две тысячи наиболее частотных глаголов русского языка. В отличие от отдельных слов, выделенные именные и глагольные группы несут информацию о конкретныхот-дельных аспектах содержания текста.

В качестве одной из лингвистических характер истик текста используется псевдооснова, под которой понимается часть слова, не содержащая суффиксов и префиксов. Способ автоматического выделения псекдо-основ состоит в сопоставлении рассматриваемой словоформы с множеством допустимых в языке структур некорневой части слова [16]. Псевдооснова слов а выделяется отбрасыванием всех соответствующих ок-ы-деленной структурной схеме аффиксов, описывающей допустимую в данном языке максимальную комбкик-ции префиксов и суффиксов. Метод псевдооснов п озво-ляет анализировать текстовые конструкции, опирвясь не только на точные словоформы.

3. Ранговый анализ частотных словарей

Сравнительный анализ подкорпусов проводился в первую очередь попарным сравнением частотных дно-варей различных лексических характеристик, соктас-ленных для всех исследуемых подкорпусов.

Для оценки близости частотных словарей устандк-ливаются ранги записей словаря после сортировки по частоте встречаемости занесенной в словарь характеристики. Словари сравниваются вычислением для каждой пары словарей разных подкорпусов коэффициеита попарной ранговой корреляции. Записи словарей рассматриваются как случайные величины. Связи между наборами таких элементов разных словарей оп ркде-ляется как Пирсоновская корреляция рангов значений этих случайных величин.

Определим непараметрическую меру ранговой корреляции двух случайных величин X, У.

Соответствующие этим величинам выборки обозначим Xй = {лу?! УЗ? о„ а через гдХ(, гдУ, - ранги олеменаов выборок. Тэчдц чноффициента госэп^у» 1-10 ¡ч |ванговои коррепяции. дая в ыбору к .лу-п еста коиффи-ци н) н т коррзлацит Пеасонгз иэнаов эрометиот вви он ¡в ы-Сэороее и опр едели еися как:

соу(гдХп,гдГп) , _ °

г = г(Хп, Ге) = р (г д Хп, г д Г1) =-о)( О, , (1)

в ' В он е , } р агдХпогдГ ' о е

Выборочная ковариация определя ется следуощиль образом:

n

соv(Xn,Yn) =-тУ№ - ^)(YÉ - У"),

П — 1 Z—i

(2 )

Хия того, чтобы сделать определе ни е коэффиц иен та попга|эной вой еорреляции однозначнлд и неза-висимыз от перестановок олементов с одиннкоеым значе ни ее, ^олеэсто °эаига гееЛT(l элемтнпа аф , совпадай ющего по дначннпю еинс ев элемдн тами Х1н, ...,X(ji выборки А™ и спользуонсп усрек н^^ннош по всей переста -ннт ки! рь ни е .Си ранг:

r9 Ф Z r gXiev '

TTESfc

Фор мально задается

гв'Хн = R + ■

k + 1

(8)

П )

Дисперсия в форме:

п

( Х, - Х)) 2 '

Полу чаем коэффицие нт кор ре/\я ц и и в виде :

(3)

£»=1 (гдХ - »-¿дгХХ»»:) (гд^ - г-щ-У)

2: U- КяХ - Г0-") о j ю= цСг? у, - гдг») 2

(4)

Полож ив срернее ран го в

гы-Л" = ■

п -I-1

) '

мы можем п ерописать (4) следующиi\- тбразо ич/i : _ 1С: п, ( гдЦЩ - г g У° -

1 - Р (г^ - ^ > 0 - ( вы

(5)

гдХр. = д но у.

грЕтЛС^ = й -и ЮГА

y g ' Xn = г gXn = -

n +О

(10)

Таким образом, равные по зн^^^ниоо эле мен Т1Ы по-/\учак^тг одинаковое значение псрорнеииоео ранге, пег занися щее <ат их иереатановаи. Когда все значения Хя различны, поллчаем rg'X, = rgXt.

Пусть имеются двр частотных слонаря ная множеством лекхичекких хгар /а<ре|:)ис;"тик W = {wÉ}.

= {d- = К/Са|иа «е ос} D2 = {tj;-» = (w i.f} )Рнао} То гда киоРЕэпп^харянmiae^^iT попирнчй роаго ез^й (но|:^|::)е;^я^и и

ЭТИЗ HU^Î..^ (¡¡/"со ^ciflIfEïÈÎ, (и уЧеТ+М иэ/\(:11\Л НТ"ОЕЗ я ОД ИН 1Эк0-

^tji ми чястота |\лie, нояжет Е3^1чис{\е^н (а уыщ îît'o ^ (:1.0) и подстаиовкими ir-jgr ' ез нле^тез rg ^fTT, Л2- и сосзт^елслтвенно ¡isivieïc^TO .ХЕК по с)з^|:)мнв/,ч1:3

1"HD (, D2 ) :=

, X4]L ri С От ив ~0 оИт

а- i

(1К)

В случ<а^ : если и меезте я нескшь ко э/\егяен тов Xh,.-,Xik ^ЬзЫоцоки Xй с оди н ai-ковыми ;з |к1Я1\ли ^OHPij = • =: -Kfj^) , и упезря гдо ч е н t°i i^t .Х^ к Xikт

к , тогда pakr i}-:го элем е нтгз îî ст1з

Z^Eini {И^^абГ^.;/1"11- ^ -.^^^^.ееи^ (пи'/в - ^"Пыт""""1)

^6)

гдч^ й - н^ лемкер п по порлд-

ку riDi^nnes ;E>^^i\/ie=!HT::)E5i .Хе , . . 1 ^ти1\л , ^то формула (5) не н ^кэмез дывает иикз^е^их огт)!^ тк^ч^ш.'!^ н ^ n:\)f3!RK:\ci^ ks/M^ivic^H'^o^, и[Н1 еющих o/:-i.ni-Hc:inoiBi:)i^ ^ i-r^. Значга,

ч а е , ксиг^^ ентч1 имиегютг яз/гш-г^гсое:!^.«:!

ЗН ачения, ОНИ (ТОГ^О" (УЗЕз'ТП:) :||ЯПО|-)!Т/3|Оп^1:ЗН1:)| СОГЛЭСКО 1ГЕ е^ Kj/xtenoi^i пересткновкч n е; ■S,(r и тс:)|-б^ ki

(7)

где й взят IE3 ([(:!).

Кео;э^№а|.1^|.Ее1 ^т ^ =з ^ЕЗ) ^ооее^т п|:зи нимаиь |))c:i е

знач/\,ния, в зав и симосоя оз выбера п-:;|:зес"1^сано1:зк|.^

Пос размеры словарей о2 могут

быть достаточно большим и , ма1 р)ассс1\Л(атюзиЕз;:а е^сл то/^1:)-ко (^о ^<ез 1-1частоты) оз эмеме т-^ ^с^Е^

К!51^^го 1.-1 ^ словарей, получая такнм о(И)|:)1а;е:э1^ словари ^ бочм1^ = I ^.лзг.сС4 ^ рем т}. 1й) е , ^сли Е5 ТЕ)1;"1 встречается слс-е:ю м/о, н^ встречающейся в В 2=, мы полагаем ето частоту ¡в п|Э1е| ьычислении ^:Е:1) еч^езной 0 с на1яТо|Э1^т. Вреальныхрас Ч1итахп0л^г"!эеаи1 лначеаие с =:100(Е^.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Коэффициент попарной ранговой корреляции (11) принимаетзначения на интервале [-1,1]. Близкие к 1 значения говорят о монотонной согласованности словарей: если в одном словаре в паре слов одно имеет частоту выше другого, то оно и в другом имеет частоту выше другого. И так для всех пар. Близкие к-1 - об обратном эффекте: если в одном словаре слово с частотой выше второго, то в другом - наоборот, его частота будет ниже. Тоже для всех пар. Если значение близко к 0, то словари несогласованы: соотношение между частотами слов в одном словаре независимо отсоотношениясчастотамивдругомсловаре.

и

4. Результаты анализа лексики

Исследование лексики в плане сравнения словарей различных подкорпусов проводилось для лексических характеристик в начальной форме слова с морфологическими признаками: существительных, глаголов и прилагательных, именных групп и глагольных групп. Анализировались частотные словари псевдооснов и буквосочетаний различной длины. Размеры сравниваемых словарей указанных лексических характеристик приведены в таблице 1.

Сравнение частотных словарей именных и глагольных групп показывает существенные различия между частотными словарями именных и глагольных групп подкорпусов по частотам использования словосочетаний. Словари попарно «обратны» по частотам использования словосочетаний в текстах. Это указывает на возможность выделения наиболее часто используемых в каждом из подкорпусов словосочетаний и возможности рассматривать словосочетания как дифференцирующие признаки. Более существенное противопоставление по частотам наблюдается на глагольных группах (Таблица 3).

Проведены сравнения по коэффициенту попарной ранговой корреляции частотных словарей буквосочетаний длиной от 3 до 6 для подкорпусов текстов. Было установлено, что частотные словари буквосочетаний длиной 3 практически совпадают при сравнении по коэффициенту попарной ранговой корреляции, что естественно: буквосочетания длиной 3 характеризуют язык, а все подкорпуса на русском литературном языке.

Сравнение частотных словарей буквосочетаний длиной 5 и 6 показывает различие между частотными словарями. Наибольшая несогласованность словарей наблюдалась на словарях буквосочетаний длиной 6 (таблица 4) из рассмотренных нами словарей буквосочетаний. Результаты исследований показывают, что

Сравнение частотных словарей существительных, прилагательных и глаголов для различных подкорпусов осуществлены по коэффициенту попарной ранговой корреляции. Наблюдаются существенные попарные несогласованности словарей для данных частей речи для различных подкорпусов. Пример такого сравнения приведен в таблице 2 для существительных. Результаты указывают на возможности использовать частей речи в качестве дифференцирующих признаков тематики текстов подкорпусов, но не отличающих их от нейтрального корпуса.

подкорпуса можно разделить по тематической (содержательной) и эмоциональной (психологичской) направленности на основе анализа буквосочетаний длиной более 5, что не подтверждается для задачи отделения их от нейтральных текстов.

5. Выделение психолингвистических характеристик.

Нами рассматривался набор статистических характеристик текстов, как возможные психолингвистические характеристики. Вычисление психолингвистических показателей основывалось на грамматических характеристиках отдельных словоупотреблений. При этом, для каждого словоупотребления рассматриваются все возможные варианты морфологического разбора. Считается, что словоупотребление обладает той или иной грамматической характеристикой, если она встречается хотя бы в одном из вариантов морфологического разбора.

Внутри каждого предложения анализируются словоупотребления, из которых выделяются именные и глагольные группы. В случае, если многозначность морфологического разбора отдельных словоупотреблений приводит к тому, что выделяются несколько именных (глагольных) групп, идентичных по составу, они признаются дубликатами, и из них все, кроме одной, выбираемой произвольно, отбрасываются.

Таблица 1

Размеры частотных словарей для подкорпусов корпуса противоправных текстов

№ Фактор/под-корпус текстов агрессивности фашистской идеологии идеологии превосходства националистические нейтральные Религиозной ненависти Распространяющие сепаратизм террористической направленности

1 Существительных 2577 1441 3531 3599 7390 1816 1773 2035

2 Глаголов 1498 761 2802 2334 4483 1281 1116 1403

3 Прилагательных 1208 751 1579 1456 3733 724 855 835

4 Псевдооснов 8050 4401 13417 11585 28445 5642 5629 6595

5 Именных групп 3867 2101 9769 5063 25986 1975 2454 3020

6 Глагольных групп 1425 725 5416 2237 11020 1054 839 1352

Таблица 2

Сравнение словарей существительных в канонической форме

Фактор/подкорпус текстов агрес-сив-ности фашистской идеологии идеологии превосходства нацио-налисти-ческие нейтральные Религиозной ненависти Распространяю-щие сепаратизм терро-ристи-ческой направленности

Агрессивности

Фашистской идеологии -0.03

Идеологии превосходства -0.01 0.10

Националистические 0.09 0.09 0.06

Нейтральные 0.28 0.27 0.28 0.26

Религиозной ненависти -0.09 -0.12 0.40 0.06 0.27

Распространяющие сепаратизм 0.02 -0.10 0.06 0.14 0.35 -0.15

Террористической направленности 0.01 -0.05 0.38 0.11 0.33 0.29 0.01

Таблица 3

Сравнение словарей глагольных групп в канонической форме

Фактор/подкорпус текстов агрессивности фашистской идеологии идеологии превосходства нацио-налисти-ческие нейтральные Рели-гиоз-ной ненависти Распространяю-щие сепаратизм терро-ристи-ческой направленности

Агрессивности

Фашистской идеологии -0.91

Идеологии превосходства -0.81 -0.70

Националистические -0.90 -0.84 -0.86

Нейтральные -0.86 -0.77 -0.94 -0.90

Религиозной ненависти -0.94 -0.99 -0.34 -0.87 -0.82

Распространяющие сепаратизм -0.91 -0.97 -0.65 -0.84 -0.79 -0.98

Террористической направленности -0.96 -0.98 -0.52 -0.90 -0.85 -0.66 -0.97

Таблица 4

Сравнение словарей буквосочетания длиной 6

Фактор/подкорпус текстов агрес-сив-ности фашистской идеологии идеологии превосходства нацио-налисти-ческие нейтральные Рели-гиоз-ной ненависти Распространяю-щие сепаратизм терро-ристи-ческой направленности

Агрессивности

Фашистской идеологии -0.06

Идеологии превосходства -0.04 -0.04

Фактор/подкор-пус текстов агрессивности фашистской идеологии идеологии превосходства националистические нейтральные Рели-гиоз-ной ненависти Распространяю-щие сепаратизм терро-ристи-ческой направленности

Националистические 0.10 -0.02 0.03

Нейтральные 0.17 0.02 0.12 0.19

Религиозной ненависти -0.07 -0.08 0.27 -0.01 0.07

Распространяющие сепаратизм 0.09 -0.04 0.01 0.12 0.20 -0.02

Террористической направленности 0.07 -0.01 0.31 0.12 0.21 0.37 0.08

Выделялись статистические показатели трех типов, определяющие общие структурные характеристики текстов (тип А), показывающие лексическое разнообразие текстов (тип В) и указывающие на использование синтаксических связей в словосочетаниях (тип С). Всего рассматривалось 22 показателя, разбитых на три группы. А. Общие статистические характеристики текста: А.1.Средняя длина словоупотреблений в символах. А.2. Средняя длина предложения в словоупотреблениях.

A.3. Отношение числа знаков препинания к общему количеству словоупотреблений.

B. Лексические характеристики текста:

В.1. Коэффициент лексического разнообразия - отношение числа уникальных лексем к числу словоупотреблений

В.2. Коэффициент разнообразия по псевдоосновам -отношение числа уникальных псевдооснов к числу словоупотреблений

В.3. Отношение числа местоимений к числу словоупотреблений.

В.4. Отношение числа наречий к числу словоупотреблений. В.5. Отношение числа прилагательные к числу словоупотреблений.

В.6. Коэффициент глагольности — отношение количества глаголов и глагольных форм (причастий и деепричастий) к общему количеству всех словоупотреблений. В.7. Коэффициент действия (КД) — отношение количества глаголов (деепричастия и причастия исключаются) к количеству прилагательных.

В.8. Коэффициент опредмеченности действия (КОД) — соотношение количества глаголов (деепричастия и причастия исключаются) к количеству существительных. В.9. Коэффициент логической связности — отношение общего количества служебных слов (союзов и предлогов) к общему количеству предложений. В.10.Коэффициент использования служебных слов — отношение общего количества служебных слов (союзов и предлогов) к общему количеству словоупотреблений. В.11.Коэффициент связности лексики — отношение числа

существительных и глаголов (деепричастия и причастия исключаются) к количеству прилагательных и наречий. С. Словосочетательные характеристики текстов: С.1. Средняя длина именных групп в словоупотреблениях. С.2. Отношение числа именных групп к числу словоупотреблений.

С.3. Среднее отношение числа именных групп к длине предложения в словоупотреблениях. С.4. Среднее количество числа «подгрупп» в одной именной группе.

С.5. Среднее отношение числа глагольных групп к длине предложения в словоупотреблениях. С.6. Отношение числа глагольных групп к числу словоупотреблений.

С.7.Среднее отношение числа глагольных групп к длине предложения в словоупотреблениях. С.8. Среднее количество числа «подгрупп» в одной глагольной группе.

По результатам расчетов мы выделили из 22 только 6 характеристик, значения которых отличаются для различных исследуемых подкорпусов. Эти факторы представлены в таблице 4.

Коэффициент действия (КД) значительно понижается на подкорпусах текстов распространяющих фашист-кую идеологию и сепаратизм и повышается на под-корпусах текстов, пропагандирующих идеологическое превосходство, религиозную ненависть. Интересно, что проявляются различия на двух специфичных показателях структурного многообразия, полученных при анализе синтаксических связей словосочетаний (показатели С4 и С8). Среднее количество числа «подгрупп» в словосочетаниях характерно изменяются для подкорпуса текстов агрессивной направленности (повышается) и подкорпуса текстов, пропагандирующих религиозную ненависть (понижается).

Таким образом, мы выделили лингвистические характеристики, которые можно рассматривать как предполагаемые психолингвистические факторы, характеризующие тексты противоправной направленности.

Таблица 5

Психолингвистические факторы для различных подкорпусов противоправных текстов

№ Характеристика / подкор-пус текстов агрессивности фашистской идеологии идеологии превосходства националистические нейтральные Религиозной ненависти Распространяю-щие сепаратизм террористической направленности

1 В.1. Коэффициент лексического разнообразия. 0.159 0.208 0.074 0.124 0.078 0.184 0.165 0.166

2 В.7. Коэффициент действия (КД) 1.043 0.766 1.941 1.348 1.226 1.849 0.894 1.525

3 В.9. Коэффициент логической связности. 2.42 2.55 2.94 1.96 2.35 3.19 3.0 2.80

4 В.11.Коэффи-циент связности лексики 3.06 2.92 4.36 3.33 3.39 4.13 2.84 4.14

5 С.4. Среднее количество числа «подгрупп» в одной именной группе. 5.87 4.54 3.90 4.39 4.47 3.45 5.07 4.56

6 С.8. Среднее количество числа «подгрупп» в одной глагольной группе. 7.21 7.15 5.41 5.21 6.04 4.69 6.59 5.97

6. Выводы

Предложена и опробована методика частотного анализа лексики противоправных текстов. Разработан метод вычисления коэффициента попарной ранговой корреляции для сравнения частотных словарей различных лексических характеристик.

На основе сравнительного анализа различных по тематике коллекций текстов противоправной направленности показана возможность использования частотных лексических характеристик для исследования свойств текстов с целью обнаружения противоправных ресурсов.. Показаны возможности использования как морфологических характеристик слов и словосочетаний,

так и буквосочетаний в качестве дифференцируюших признаков для разделения текстов по «узкой» тематической направленности.

Показана возможность выделения психолингвистических показателей противоправных текстов, основанных на автоматическом лингвистическом анализе текстов. Применимость данных факторов и поиск новых требует дополнительных исследований методами компьютерной лингвистики.

Данная работа вместе с работами [12, 13, 14] формирует единую методику исследования свойств экстремистских текстов с целью обнаружения противоправных ресурсов и сообщений в Интернете.

Литература

1. Hawkins, R. C. II, & Boyd, R. L. Such stuff as dreams are made on: Dream language, LIWC norms, and personality correlates. Dreaming, 2017, 27(2), 102-121.

2. Latov Y., Grishchenko L., Gaponenko V., Vasiliev F. Mechanisms of Countering the Dissemination of Extremist Materials on the Internet // Big Data-driven World: Legislation Issues and Control Technologies. - Springer, 2019. - P. 145-162.

3. Ковалёв А.К., Кузнецова Ю.М., Минин А.Н., Пенкина М.Ю., Смирнов И.В., Станкевич М.А., Чудова Н.В. Методы выявления по тексту психологических характеристик автора (на примере агрессивности) // Вопросы кибербезопасности. 2019. № 4(32). С. 7279. DOI: 10.21681/2311-3456-2019-4-72-79.

4. Кузнецова, Ю. М., Смирнов, И. В., Станкевич, М. А., Чудова, Н. В. Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 2. Машина РСА и опыт ее использования //Искусственный интеллект и принятие решений. - 2019. - №. 3. - С. 40-51.

5. Смирнов И.В., Шелманов А.О., Кузнецова Е.С., Храмоин И.В. Семантико-синтаксический анализ естественных языков. Часть II. Метод семантико-синтаксического анализа текстов // Искусственный интеллект и принятие решений. М.: ИСА РАН - 2014. - №1 - С. 11-24.

6. Ениколопов С. Н., Кузнецова Ю. М., Смирнов И. В., Станкевич М. А., Чудова Н. В. Создание инструмента автоматического анализа текста в интересах социо-гуманитарных исследований. Часть 1. Методические и методологические аспекты // Искусственный интеллект и принятие решений. - 2019. - №. 2. - С. 28-38.

7. Ениколопов С.Н., Медведева Т.И., Воронцова О.Ю. Лингвистические характеристики текстов при депрессии и шизофрении // Медицинская психология в России: электрон. науч. журн. - 2019. - T . 11, № 5(58) [Электронный ресурс]. - URL: http://mprj.ru (дата обращения: 25.06.2020).

8. Ананьева М. И., Кобозева М. В., Соловьев Ф. Н., Поляков И. В., Чеповский А. М. О проблеме выявления экстремистской направленности в текстах // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2016. Т. 14. № 4. С. 5-13.

9. Ананьева М. И., Девяткин Д. А., Кобозева М. В., Смирнов И. В., Соловьев Ф. Н., Чеповский А. М. Исследование характеристик текстов противоправного содержания // Труды Института системного анализа Российской академии наук. 2017 Т. 67 № 3 С. 86-97.

10. Chepovskiy A., Devyatkin D., Smirnov I., Ananyeva M., Kobozeva M., Solovyev F. Exploring linguistic features for extremist texts detection (on the material of Russian-speaking illegal texts), in: 2017 IEEE International Conference on Intelligence and Security Informatics: Security and Big Data, ISI 2017 Institute of Electrical and Electronics Engineers Inc., 2017 P. 188-190.

11. Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Создание специальных корпусов текстов на основе расширенной платформы TXM // Системы высокой доступности. 2018. Т. 14. № 3. С. 76-81.

12. Лаврентьев А. М., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов // Вестник Новосибирского государственного университета. Серия: Лингвистика и межкультурная коммуникация. 2018 Т. 16 № 3 С. 19-31.

13. Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы кибербезопасности. 2019. № 4(32). С. 54-60. DOI: 10.21681/23113456-2019-4-54-60

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Лаврентьев А. М., Рябова Д.М., Тихомирова Е. А., Фокина А. И., Чеповский А. М., Шерстинова Т.Ю. Сравнительный анализ специальных корпусов текстов для задач безопасности // Вопросы кибербезопасности. 2020. № 3(37). С. 58-65. DOI: 10.681/2311-3456-2020-03-58-65

15. Соловьев Ф. Н. Автоматическая обработка текстов на основе платформы TXM с учетом анализа структурных единиц текста // Вестник НГУ. Серия: Информационные технологии. 2020. Т. 18, №1. С. 74-82.

16. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. Второе издание, переработанное. М.: Национальный открытый университет «ИНТУИТ», 2015.

Рецензент: Баранов Александр Павлович, доктор физико-математических наук, академик Академии криптографии России, заместитель Генерального директора Главного научного инновационного внедренческого центра, г. Москва, Россия. E-mail:baranov.ap@yandex.ru.

IDENTIFYING THE SIGNIFICANT FEATURES

IN ILLEGAL TEXTS

Avanesyan N.L.6, Solovev F.N.7, Tikhomirova E.A.8, Chepovskiy A.M.9

The purpose of the study: development of a technique for determining lexical characteristics and psycholinguistic factors as discriminative features for identifying the topics of illegal texts by frequency methods for information security purposes.

Method: automatic morphological and syntactic analysis, frequency methods, comparison of auto-generated dictionaries by correlation analysis methods.

Results: a technique of frequency analysis of the illegal texts vocabulary has been developed, which allows to compare different sets of texts using frequency dictionaries and identify discriminative features; a technique of calculating pairwise rank correlation coefficient for comparison of frequency dictionaries of various lexical characteristics has been presented; a comparative analysis of different illegal texts collections has been carried out; the possibility of using frequency lexical characteristics to study the properties of texts in order to detect illegal resources and messages has

6 Nina Avanesyan, master's student, National Research University Higher School of Economics, Moscow, Russia. E-mail: nlavanesyan@edu.hse.ru

7 Fedor Solovev, postgraduate, Federal Research Center "Informatics and Management", Moscow, Russia. E-mail: daha-r@yandex.ru

8 Elizaveta Tikhomirova, associate professor of Bauman Moscow State Technical University, Moscow, Russia. E-mail: elizarti@bmstu.ru

9 Andrey Chepovskiy, Dr. Sc. (Eng.), professor, Peoples Friendship University of Russia (RUDN University), Moscow, Russia, Russian Technological University (RTU MIREA), Moscow, Russia, National Research University Higher School of Economics, Moscow, Russia. E-mail: achepovskiy@hse.ru

been shown; the possibilities of using both morphological characteristics of words and word combinations and letter combinations as discriminative features have been shown; the possibility of calculating the psycholinguistic indicators of illegal texts based on automatic linguistic text analysis has been shown; the psycholinguistic characteristics for texts of various topics have been highlighted.

Keywords: automated text analysis, noun phrases, rank correlation, psycholinguistics characteristics, extremist texts

References:

1. Hawkins, R. C. II, & Boyd, R. L. Such stuff as dreams are made on: Dream language, LIWC norms, and personality correlates. Dreaming, 2017, 27(2), 102-121.

2. Latov Y., Grishchenko L., Gaponenko V., Vasiliev F. Mechanisms of Countering the Dissemination of Extremist Materials on the Internet // Big Data-driven World: Legislation Issues and Control Technologies. - Springer, 2019. - P. 145-162.

3. Kovalev A.K., Kuznetsova Y.M., Minin A.N., Penkina M.Y., Smirnov I.V., Stankevich M.A., Chudova N.V. Metodi viayvleniay po tekstu psikhologicheskikh kharakteristik avtora (na primere agressivnosti) // Voprosi kiberbezopasnosti.. 2019. № 4(32). С. 72-79. DOI: 10.21681/2311-3456-2019-4-72-79. (in Russian).

4. Kuzneczova, Yu. M., Smirnov, I. V., Stankevich, M. A., Chudova, N. V. Sozdanie instrumenta avtomaticheskogo analiza teksta v interesax socio-gumanitarny~x issledovanij. Chast~ 2. Mashina RSA i opy~t ee ispoTzovaniya //Iskusstvenny~j intellekt i prinyatie reshenij. - 2019. - №. 3. - S. 40-51. (in Russian).

5. Smirnov I.V., Shelmanov A.O., Kuzneczova E.S., Xramoin I.V. Semantiko-sintaksicheskij analiz estestvenny~x yazy~kov. Chast~ II. Metod semantiko-sintaksicheskogo analiza tekstov // Iskusstvenny~j intellekt i prinyatie reshenij. M.: ISA RAN - 2014. - №1 - S. 11-24. (in Russian).

6. Enikolopov S. N., Kuzneczova Yu. M., Smirnov I. V., Stankevich M. A., Chudova N. V. Sozdanie instrumenta avtomaticheskogo analiza teksta v interesax socio-gumanitarny~x issledovanij. Chast~ 1. Metodicheskie i metodologicheskie aspekty~ // Iskusstvenny~j intellekt i prinyatie reshenij. - 2019. - №. 2. - S. 28-38.

7. Enikolopov S.N. , Medvedeva T .I. , Vorontsova O.Y u. Linguistic text characteristics in depression and schizophrenia. Med. psihol. Ross., 2019, vol. 11, no. 5 (in Russian). Available at: http://mprj.ru

8. Anan'yeva M. I., Kobozeva M. V., Solov'yev F. N., Polyakov I. V., Chepovskiy A. M.. The problem of detection of extremist texts // Vestnik NSU. Series: Information Technologies. 2016. Vol. 14. № 4. S. 5-13. (in Russian).

9. Anan'yeva M. I., Devyatkin D. A., Kobozeva M. V., Smirnov I. V., Solov'yev F. N., Chepovskiy A. M. Issledovaniye harakteristik tekstov protivopravnogo soderzhaniya // Trudy Instituta sistemnogo analiza Rossiyskoy akademii nauk. 2017 T. 67 № 3 S. 86-97. (in Russian).

10. Chepovskiy A., Devyatkin D., Smirnov I., Ananyeva M., Kobozeva M., Solovyev F. Exploring linguistic features for extremist texts detection (on the material of Russian-speaking illegal texts), in: 2017 IEEE International Conference on Intelligence and Security Informatics: Security and Big Data, ISI 2017 Institute of Electrical and Electronics Engineers Inc., 2017 P. 188-190.

11. Lavrent'ev A. M., Smirnov I. V., Solovyev F. N., Suvorova M. I., Fokina A. I., Chepovskiy A. M. Sozdaniye spetsial'nyh korpusov tekstov na osnove rasshirennoy platformy TXM // Sistemy vysokoy dostupnosti. 2018. T. 14. № 3. S. 76-81. (in Russian).

12. Lavrentyev A. M., Solovyev F. N., Suvorova M. I., Fokina A. I., Chepovskiy A. M. Novyy kompleks instrumentov avtomaticheskoy obrabotki teksta dlya platformy TXM i yego aprobatsiya na korpuse dlya analiza ekstremistskih tekstov // Vestnik Novosibirskogo gosudarstvennogo universiteta. Seriya: Lingvistika i mezhkul'turnaya kommunikatsiya. 2018 T. 16 № 3 S. 19-31. (in Russian).

13. Lavrent'ev A. M., Smirnov I. V., Solovyev F. N., Suvorova M. I., Fokina A. I., Chepovskiy A. M. Analis korpusov tekstov terroristicheskoi i antipravovoy napravlennosti // Voprosi kiberbezopasnosti. 2019. № 4(32). S. 54-60. DOI: 10.21681/2311-3456-2019-4-54-60 (in Russian).

14. Lavrentyev A. M., Raybova D.M., Tikhomirova E.A., Fokina A. I., Chepovskiy A. M., Sherstinova T.Yu. Sravnitelniy analis specialnikh korpusov tekstov dlay zadach bezopasnosty // Voprosi kiberbezopasnosti.. 2020. № 3(37). С. 58-65. DOI: 10.681/2311-3456-2020-03-58-65. (in Russian).

15. Soloviev F. N. Embedding Additional Natural Language Processing Tools into the TXM Platform. Vestnik NSU. Series: Information Technologies, 2020, vol. 18, no. 1, p. 74-82. (in Russian)

16. Chepovskiy A. M. Informatsionnyye modeli v zadachah obrabotki tekstov na yestestvennyh yazykah. Vtoroye izdaniye, pererabotannoye. M.: Natsional>nyy otkrytyy niversitet "INTUIT", 2015. (in Russian)^ основе следующих параметров:

i Надоели баннеры? Вы всегда можете отключить рекламу.