Научная статья на тему 'Интеллектуальный алгоритм идентификации деструктивной информации в тексте'

Интеллектуальный алгоритм идентификации деструктивной информации в тексте Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
401
88
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕНОРМАТИВНАЯ ЛЕКСИКА / ИНТЕЛЛЕКТУАЛЬНЫЙ АЛГОРИТМ / ДЕСТРУКТИВНАЯ ИНФОРМАЦИЯ / МОДИФИЦИРОВАННЫЙ ПОИСК / ИДЕНТИФИКАЦИЯ / СЛОВАРЬ / СТЕММИНГ / OFFENSIVE LANGUAGE / INTELLECTUAL ALGORITHM / DESTRUCTIVE INFORMATION / MODIFIED SEARCH / IDENTIFICATION / DICTIONARY / STEMMING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Давидюк Надежда Валерьевна, Гостюнина Валерия Андреевна, Байдулова Динара Робертовна

В контексте обеспечения информационно-психологической безопасности общества в Российской Федерации рассматривается проблема неконтролируемого роста деструктивного контента в сети Интернет. Решение задачи поиска и идентификации деструктивной информации требует минимальной доли субъективизма и максимальной автоматизации, поскольку в настоящее время она решается в основном экспертными методами с составлением реестров запрещенных источников. Рассмотрены существующие поисковые методы (экспертной обработки, тематического поиска, интеллектуальные методы обработки данных), применяемые для нахождения конкретных слов в тексте, отмечены преимущества и недостатки этих методов. Для решения поставленной задачи предлагается разработанный интеллектуальный алгоритм модифицированного поиска деструктивного контента на примере ненормативной лексики в текстовой информации. Предлагаемый подход отличается возможностью самопополнения словаря системой на основе суждения об идентификации незнакомого слова, отнесенного к классу ненормативных. Корректность пополнения словаря контролируется экспертом. Представлено подробное описание разработанного алгоритма. Приводится пример работы алгоритма и первоначальные результаты его апробации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Давидюк Надежда Валерьевна, Гостюнина Валерия Андреевна, Байдулова Динара Робертовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLIGENT ALGORITHM OF IDENTIFYING DESTRUCTIVE INFORMATION IN THE TEXT

In the context of ensuring the information and psychological security of a society in the Russian Federation, the problem of uncontrolled growth of the Internet destructive content is being considered. The problem of search and identification of destructive information demands the minimal subjectivity and the maximum automation, because it is still solved generally by expert methods with drawing up registers of the forbidden sources. Existing search methods (expert processing, thematic search, intelligent data processing methods) used to find specific words in the text have been considered, the advantages and disadvantages of these methods have been stated. For solving the task set the intellectual algorithm of the modified search of destructive content has been suggested using foul language in the textual information as an example. The suggested approach has a different system of self-replenishment of the dictionary on the basis of identification of the unknown words as foul ones. The correctness of the dictionary replenishment is controlled by an expert. A detailed description of the developed algorithm has been presented. The example of the algorithm operation and initial results of its approbation are given.

Текст научной работы на тему «Интеллектуальный алгоритм идентификации деструктивной информации в тексте»

КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ И ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

DOI: 10.24143/2072-9502-2019-2-29-39 УДК 004: 007.51

ИНТЕЛЛЕКТУАЛЬНЫЙ АЛГОРИТМ ИДЕНТИФИКАЦИИ ДЕСТРУКТИВНОЙ ИНФОРМАЦИИ В ТЕКСТЕ

Н. В. Давидюк, В. А. Гостюнина, Д. Р. Байдулова

Астраханский государственный технический университет, Астрахань, Российская Федерация

В контексте обеспечения информационно-психологической безопасности общества в Российской Федерации рассматривается проблема неконтролируемого роста деструктивного контента в сети Интернет. Решение задачи поиска и идентификации деструктивной информации требует минимальной доли субъективизма и максимальной автоматизации, поскольку в настоящее время она решается в основном экспертными методами с составлением реестров запрещенных источников. Рассмотрены существующие поисковые методы (экспертной обработки, тематического поиска, интеллектуальные методы обработки данных), применяемые для нахождения конкретных слов в тексте, отмечены преимущества и недостатки этих методов. Для решения поставленной задачи предлагается разработанный интеллектуальный алгоритм модифицированного поиска деструктивного контента на примере ненормативной лексики в текстовой информации. Предлагаемый подход отличается возможностью самопополнения словаря системой на основе суждения об идентификации незнакомого слова, отнесенного к классу ненормативных. Корректность пополнения словаря контролируется экспертом. Представлено подробное описание разработанного алгоритма. Приводится пример работы алгоритма и первоначальные результаты его апробации.

Ключевые слова: ненормативная лексика, интеллектуальный алгоритм, деструктивная информация, модифицированный поиск, идентификация, словарь, стемминг.

Для цитирования: Давидюк Н. В., Гостюнина В. А., Байдулова Д. Р. Интеллектуальный алгоритм идентификации деструктивной информации в тексте // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2019. № 2. С. 29-39. DOI: 10.24143/2072-9502-2019-2-29-39.

Введение

Прогресс науки и техники в настоящее время сопровождается интенсивным внедрением во многие сферы человеческой деятельности новых информационных технологий. Развитие сети Интернет приводит к неконтролируемому экспоненциальному росту количества различной информации, в большинстве своем представленной в текстовом виде.

Для обеспечения информационной безопасности большое значение имеет анализ в телекоммуникационных сетях контента, содержащего противоправную информацию, в том числе данные, связанные с терроризмом, наркоторговлей, подготовкой протестных движений или массовых беспорядков, содержащие оскорбительные высказывания в адрес государственной символики, ненормативную лексику и пр. [1]. В связи с этим, а также в условиях потенциального создания «закрытого» Интернет-пространства в Российской Федерации, решение задачи поиска и автоматической идентификации деструктивной информации является приоритетным направлением. При этом на сегодняшний день законодательные меры, принятые Российской Федерацией, недостаточны для обеспечения информационно-психологической безопасности общества [2].

Таким образом, возникает потребность в разработке специализированных систем поиска и категоризации информационных ресурсов. Кроме того, в связи с постоянно растущим объемом информационных ресурсов автоматизация процесса идентификации характера входной текстовой информации с целью дальнейшей блокировки опасного контента позволит не только сократить трудовременные затраты, но и минимизировать субъективизм и вероятность ошибок, обусловленных влиянием человеческого фактора.

Анализ существующих подходов

Для решения задачи автоматической идентификации деструктивной информации на примере поиска и выявления ненормативной лексики были проанализированы существующие поисковые методы, применяемые для нахождения конкретных слов в тексте [3, 4]. Выявлено, что указанные методы укрупненно делятся:

- на методы, полностью опирающиеся на экспертную обработку информации, результатом применения которых является создание «черных списков», реестров и т. д. (например, единый реестр доменных имен заблокированных ресурсов Роскомнадзора);

- автоматизированные методы, представляющие интерес в нашей работе, в числе которых так называемый тематический поиск (по словарю) и интеллектуальные методы обработки данных.

Поиск по словарю, заключающийся в поиске системой точного совпадения слова из словаря и его идентификации в тексте, является одним из самых распространенных видов обнаружения деструктивной информации [5]. Однако для решения задачи идентификации деструктивного контента на примере ненормативной лексики применение тематического поиска в «чистом» виде нецелесообразно ввиду следующих причин:

- необходимости постоянного пополнения словаря из-за возникновения новых форм и способов словообразования (на текущий момент насчитывается более 250 основных слов ненормативной лексики, образующих различные сочетания и словоформы);

- высокой вероятности пропуска ненормативного слова по причине применения в исследуемом тексте новой его формы, не известной системе.

Системы, работа которых основана на интеллектуальных методах обработки данных, обладают следующими преимуществами [3, 6-9]:

- символьная (смысловая) обработка информации в форме, близкой к человеческому мышлению;

- развитые коммуникативные способности, позволяющие вести интенсивный диалог с пользователями, в ходе которого уточняются имеющиеся и приобретаемые системой знания;

- формирование запросов к системе и получение ответов (решений задач) на естественном языке, близком к человеческому общению;

- способность к самообучению, т. е. к автоматическому пополнению и получению новых знаний на основе накопленного системой опыта анализа и решения задач пользователей;

- способность к адаптации (приспособляемости) системы к объективным изменениям предметной (проблемной) области функционирования системы и др.

Очевидно, что эффективная автоматизированная система идентификации ненормативной лексики должна поддерживать перечисленный функционал, в частности:

- автоматическое пополнение словаря в случае обнаружения «опасного» слова;

- запрос у эксперта проверки на корректность пополнения словаря (при необходимости);

- предоставление подробных отчетов о результатах аналитического поиска.

Таким образом, для решения поставленной задачи был разработан интеллектуальный алгоритм идентификации ненормативной лексики в тексте, реализующий модифицированный поиск по словарю.

Описание разработанного алгоритма

Рассмотрим функционирование алгоритма, блок-схема которого представлена на рис. 1.

Рис. 1. Интеллектуальный алгоритм модифицированного поиска по словарю

1. Стандартная процедура авторизации и аутентификации пользователя. При неверном вводе логина и/или пароля система оповещает об ошибке.

2. Осуществление загрузки исследуемого контента - входной текстовой информации (ввод источника).

3. Поэтапная нормализация вводных данных (является одним из критических этапов для результата работы алгоритма).

4. Блок анализа:

4.1. Пока не проанализированы все слова в проверяемом тексте, рассчитывается отношение суммы совпадающих символов анализируемого слова со словарным словом к количеству символов в проверяемом слове.

4.2. После того, как все значения отношений вычислены, производится расчет вероятности отнесения слова к ненормативной лексике, при превышении порогового значения которой система относит слово к ненормативным.

4.3. Наличие одного деструктивного слова достаточно для отнесения содержащего его текста к деструктивному.

5. Блок самообучения системы: при обнаружении нового для системы элемента ненормативной лексики происходит автоматическое обновление словаря.

Остановимся на основных блоках подробнее.

После этапа загрузки исследуемого контента следует нормализация входных данных.

Машинный анализ любой неструктурированной информации требует предварительной ее обработки. Основной проблемой анализа текстов считается большое количество слов в проверяемом тексте, тем более что далеко не все слова могут нести в себе искомую семантику. Проблема значительно усугубится, если входной поток информации не был «унифицирован»: возникнут временная избыточность работы алгоритма и некорректные результаты [7, 10].

В интеллектуальных системах анализа текстовой информации для различных целей нормализация исходной последовательности в большинстве случаев осуществляется с помощью стемминга -процедуры, позволяющей проводить анализ заданного слова путем нахождения его основы. В проведении предобработки текста используются следующие виды алгоритмов стемминга:

- алгоритмы поиска (полный перебор основы слова по списку);

- усечение окончаний (имеется небольшой список правил, по которым происходит нахождение основы слова);

- лемматизация (приведение слова к канонической или первоначальной словарной форме -лемме);

- стохастические алгоритмы (вероятностное определение корневой формы слова);

- статические алгоритмы (анализ ^грамм, алгоритмы сопоставления).

Практическая реализация алгоритмов стемминга - стеммер.

В конкретном случае процесс предварительной нормализации входной текстовой информации целесообразно представить в виде последовательности шагов, отраженных на рис. 2.

\7

Интерпретация результатов

/ \

Исключение 1 —N —i/

небуквенньгх Ц

символов

Приведение регистра

Разбиение

текста на N-граммы

Отсечение части слов

Рис. 2. Стемминг - подготовка входных данных к анализу на содержание деструктивной информации

Таким образом, в рамках решаемой задачи стеммер реализует следующий алгоритм стем-минга, адаптированный под поставленную задачу:

1. Исключение из текста всех небуквенных символов. К ним относятся цифры, знаки препинания и специальные символы.

2. Приведение регистра. Данный прием основан на преобразовании всех символов к единому регистру (верхнему или нижнему). Например, различные слова в разных написаниях типа «Алгоритм», «АЛГОРИТМ», «АлГоРиТм» приводятся к нижнему регистру «алгоритм».

3. Удаление стоп-слов. Стоп-словами являются вспомогательные слова, не несущие смысловую нагрузку в контексте анализа, к ним относят служебные части речи: частицы, предлоги, союзы, личные местоимения и междометия. Формируется дополнительный список вспомогательных слов с целью последующего их удаления из текстов.

4. Поиск и замена символов. На данном шаге буква «ё» в словах заменяется на «е», во-первых, в целях сокращения времени, во-вторых, во избежание ненахождения слов с буквой «ё» в словаре.

5. Разбиение текстовой информации на ^граммы и анализ ^грамм. В конкретном стем-мере реализовано выделение униграмм. Этот шаг необходим в целях идентификации и поиска нецензурной брани, т. к. именно с использованием униграмм производится модифицированный поиск по словарю.

6. Отсечение части слов - удаление приставок в словах текста путем посимвольного сравнения слов со списком существующих приставок.

7. Интерпретация результатов. Последний шаг заключается в представлении результатов на естественном языке или в их визуализации в графическом виде [10, 11].

После прохождения этапа нормализации текст готов к анализу непосредственно на содержание элементов ненормативной лексики. Входные данные для блока анализа:

- словарь, элементами которого являются ненормативные слова;

- нормализованный текст, подлежащий анализу.

Введем понятие «класса текста». Под классом будем понимать отнесение текста к категории, содержащей (в конкретном случае) или не содержащей ненормативную лексику. Количество и содержание категорий могут меняться в зависимости от поставленной задачи.

Таким образом, если в результате работы блока анализа выявляются элементы ненормативной лексики, текст относится к классу деструктивных. Если при этом выявленные слова являются «новыми», словарь автоматически пополняется. Второй вариант - отсутствие ненормативных слов, признание текста недеструктивным.

Таким образом, итоговыми выходными данными блока анализа является решение системы об отнесении входного текстового контента к категории деструктивных (D) или недеструктивных (nD) на основе промежуточной идентификации в нем элементов ненормативной лексики.

Процесс идентификации сведем к определению вероятности факта принадлежности слова к классу ненормативных.

Механизм расчета вероятности

Рассмотрим часть текста X, состоящую из определенного набора слов { X1, ..., , ..., Xn },

1 = 1, ..., п, где X - векторное представление текста; п - количество слов в тексте. Вследствие того, что в предлагаемом алгоритме использовано посимвольное сравнение, необходимо обработать каждый символ строки по отдельности. Соответственно, введем обозначение для каждого

слова текста Xi, которое имеет конечное число символов:

X = {XI,...,X;, ...,XI}, д = 1, ..., ш,

где ш - количество букв в слове.

Тогда векторное представление множества словарных слов описывается как

с = С ..., С}., ..., Ск}, ] = 1, ..., к,

где к - количество слов в словаре.

Для каждого слова из словаря С. символьный вектор будет иметь следующий вид:

сз = {С{, ..., сI, ..., С}, и> = 1, ..., г,

где г - количество букв в словарном слове.

Для повышения точности отнесения слова к ненормативной лексике необходимо при посимвольном сравнении двух слов не допустить превышения длины анализируемого слова над длиной словарного. При этом лишние символы подлежат отсечению. Тогда искомая вероятность представляет собой отношение количества символов анализируемого слова Xi, соответствующих символам слова из словаря С}., к количеству букв в слове:

P =

ZX. nC. f j = 1, ..., m, если m < t,

m

[j = 1, ..t в иных случаях,

i = 1, n,

(1)

где V - индекс рассчитываемой суммы каждых двух слов; ш - количество символов в слове; г - количество символов в словарном слове; п - количество слов в тексте.

Примем в рамках алгоритма в качестве точки отсечения некое Рп - пороговое значение, на основании сравнения рассчитанной вероятности Р1у, с которым система будет устанавливать факт наличия или отсутствия деструктивной информации в тексте. Критическое значение для данного показателя, установленное эмпирическим путем, предлагается принять в диапазоне [0,5; 1]. Тогда

вероятность отнесения текста X к классу деструктивных ф) или недеструктивных (nD) составляет

P = max PI =

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

\X е В, если Р е Рп, IX е пБ в иных случаях.

(2)

Таким образом, проведя сравнение между найденной вероятностью Р и пороговым значением Рп, система идентифицирует текст как деструктивный или недеструктивный.

Неотъемлемым этапом в интеллектуальном алгоритме является процесс пополнения словаря. Найденное в тексте слово, относящееся к классу ненормативных, будет являться новым в том случае, если значение его вероятности отнесения к данному классу будет удовлетворять пороговому значению Рс. Данное значение, выявленное эмпирическим путем, необходимо для отсечения тех слов, которые отличаются от существующих словарных слов только падежным окончанием или формой множественного числа. За пороговое значение примем диапазон [0,5; 0,75].Таким образом, словарь будет пополняться только новыми словами при следующих условиях:

IX е С, если Р; е Рс, [Xi £ С в иных случаях.

На основе расчетов вероятностей отнесения слов к ненормативной лексике при Р1у е Рс система будет автоматически пополнять словарь ненормативных слов. В целях оптимизации данного процесса будет целесообразно периодически проводить проверку корректности обновления словаря экспертом путем рассмотрения только вновь добавленных слов.

Апробация алгоритма

С целью апробации предложенного к рассмотрению интеллектуального алгоритма идентификации ненормативной лексики в тексте в среде VisualStudio 2017 на языке С# был разработан соответствующий программный модуль (рис. 3).

Рис. 3. Программный модуль работы интеллектуального алгоритма

Рассмотрим работу алгоритма на конкретном примере.

Шаг 1. Имеется следующий текст, который необходимо проверить: {Яблоневые сады на нашей планете охватывают пять миллионов гектаров. Это самое распространённое плодовое дерево. В яблоках содержится много витаминов}.

В связи с невозможностью использования реальных ненормативных слов в качестве словаря ненормативной лексики примем следующее множество: {гранат, виноград, яблоко, банан}. Имеется полный словарь приставок и стоп-слов.

Шаг 2. Применен стемминг:

- все небуквенные символы удалены из текста: {Яблоневые сады на нашей планете охватывают пять миллионов гектаров Это самое распространённое плодовое дерево В яблоках содержится много витаминов};

- текст приведен к нижнему регистру: {яблоневые сады на нашей планете охватывают пять миллионов гектаров это самое распространённое плодовое дерево в яблоках содержится много витаминов};

- исключены стоп-слова: {яблоневые сады планете охватывают пять миллионов гектаров распространённое плодовое дерево яблоках содержится много витаминов};

- замена символа «ё» на «е»: {яблоневые сады планете охватывают пять миллионов гектаров распространенное плодовое дерево яблоках содержится много витаминов};

- текст разбит на униграммы: {яблоневые, сады, планете, охватывают, пять, миллионов, гектаров, распространенное, плодовое, дерево, яблоках, содержится, много, витаминов};

- отсечены приставки: {яблоневые, сады, планете, хватывают, пять, миллионов, гектаров, страненное, плодовое, дерево, яблоках, держится, много, витаминов}.

Шаг 3. Результаты расчета вероятности отнесения каждого слова в тексте к ненормативным по формуле (1) сведены в таблицу.

Результаты расчета

-—^^^^Словарные слова Униграммы " -—____ Гранат Виноград Яблоко Банан

яблоневые 0 0 0,667 0

сады 0 0 0 0

планете 0 0 0 0

хватывают 0 0 0 0

пять 0 0 0 0

миллионов 0 0 0 0

гектаров 0,167 0 0 0

страненное 0 0 0 0

плодовое 0 0 0 0

дерево 0 0 0 0

яблоках 0 0 0,833 0

держится 0 0 0 0

много 0 0 0 0

витаминов 0 0,25 0 0

Если длина униграммы больше, чем длина словарного слова, лишние символы в униграмме с конца отсекаются. Например, «яблоневые» (9 символов) и «гранат» (6 символов). Так как количество символов не совпадает, извлекаем из «яблоневые» последние 3 буквы. Получаем: «яблоне».

Шаг 4. По формуле (2) определена вероятность отнесения анализируемого текста к соответствующему классу:

P = max (0,167; 0,25; 0,667; 0,833) = 0,833.

Шаг 5. Производится сравнение вероятностей с пороговым значением: Р = 0,833 ^ Р ^ Рп. Следовательно, текст автоматически относится к классу деструктивных (D).

Шаг 6. Обновление словаря. В данном примере обнаружились две униграммы с вероятностью, большей порогового значения: «яблоневые», «яблоках». Следовательно, они относятся к ненормативной лексике. Необходимо выяснить целесообразность добавления данных уни-грамм в словарь. В этом случае сравниваются вероятности отнесения этих слов к ненормативной лексике с пороговым значением Pc. Получается, что слово «яблоневые» является не только

ненормативным словом, но и новым. Значит, данное слово необходимо добавить в словарь ненормативной лексики. Соответственно, при работе предлагаемого алгоритма осуществляется самопополнение словаря.

Для определения эффективности и точности работы алгоритма было проведено 100 тестовых прогонов алгоритма. Из результатов теста следует, что в 65 текстах содержались слова из словаря ненормативных слов, в их числе встретились 12 словоформ, образованных от слов из словаря. В результате проанализированные тексты, содержащие ненормативную лексику, идентифицированы на 100 % (с выявленной минимальной вероятностью, равной 0,589). Соответственно, 65 текстов были отнесены к классу деструктивных, а словарь пополнился на 12 слов. На рис. 4 приведена форма разработанного приложения с отображением результатов работы интеллектуального алгоритма.

Идентификация деструктивной информации — □ X

Справка

Загрузка текста Введите расположение текста

| d:\X2.txt | Загрузить текст

Текст Нормализованный текст

N2 Униграммы А

► яблоневые

2 сады

3 планете

А -хпАзыааю!_ V

Идентификация и поиск деструктивной информации

Идентификация текста | Обновить словарь

№ Найденные "опасные" слова яблоневые • 2 яблоках к Ненормативная лексика Л

1Ш 2 гранат виноград

3 яблоко

4 банан

5 банановый

6 яблоня у

< >

| Количество слов в словаре | 16

Рис. 4. Результаты работы интеллектуального алгоритма

Проведенные эксперименты не выявили сбоев в работе алгоритма и доказали его эффективность.

Заключение

В работе описан подход к поиску и идентификации деструктивного контента в текстовой информации на примере ненормативной лексики, реализованный в виде интеллектуального алгоритма модифицированного поиска деструктивных слов по словарю. Одной из основных особенностей предложенного алгоритма является способность к самообучению, т. е. к автоматическому получению новых знаний на основе накопленного системой опыта анализа и решения задач пользователей, заключающемся в самостоятельном пополнении словаря. В процессе работы это свойство приведет к дальнейшему повышению эффективности функционирования алгоритма.

СПИСОК ЛИТЕРА ТУРЫ

1. Гостюнина В. А. Методы возрастной классификации информационной продукции // Наука и практика - 2018: материалы Всерос. междисциплинар. науч. конф. Астрахань: Изд-во АГТУ, 2018. С. 52.

2. О защите детей от информации, причиняющей вред их здоровью и развитию: Федеральный закон от 29 декабря 2010 г. № 436-Ф3. URL: https://www.rg.ru/2010/12/31/deti-inform-dok.html (дата обращения: 10.01.19).

3. Гостюнина В. А. Автоматизированная система возрастной категоризации информационного контента в сети Интернет // Математические методы и информационно-технические М34 средства: материалы XIII Все-рос. науч.-практ. конф. (Краснодар, 16 июня 2017 г.). Краснодар: Краснодар. ун-т МВД России, 2017. C. 70-72.

4. Давидюк Н. В. Разработка системы поддержки принятия решений для обеспечения физической безопасности объектов: дис. ... канд. техн. наук. Астрахань: Изд-во АГТУ, 2010. 209 с.

5. Байдулова Д. Р., Байтуменов А. З., Гостюнина В. А., Давидюк Н. В. Анализ содержательных индикаторов для решения задачи по возрастной классификации текстовой информации // Студенческая наука для развития информационного общества: сб. материалов IX Всерос. науч.-техн. конф. Ставрополь: Изд-во СКФУ, 2019. Ч. 1. С. 60-69.

6. Бялецкая Е. М., Квятковская И. Ю. О принципах когнитивного моделирования сложных систем // Вестн. Астрахан. гос. техн. ун-та. 2006. № 1 (30). С. 116-119.

7. Фам Куанг Хиеп, Квятковская И. Ю. Интеллектуальный анализ данных при оценке качества телекоммуникационных услуг // Материалы Междунар. науч. конф. науч.-педаг. работников Астрахан. гос. техн. ун-та, посв. 85-летию со дня основания вуза (59 НПР). Астрахань: Изд-во АГТУ, 2015. С. 93-94.

8. Замятин А. В. Введение в интеллектуальный анализ данных: учеб. пособие. Томск: Изд. дом Гос. ун-та, 2016. С. 120.

9. Гостюнина В. А., Савельев А. Н. Использование технологии Text mining для классификации web-ресурсов по возрастным категориям // Математические методы в технике и технологиях. Саратов: СГТУ им. Гагарина Ю. А., 2017. Т. 3. С. 111-115.

10. ДомингосП. Верховный алгоритм: как машинное обучение изменит наш мир / пер. с англ. В. Горохова; науч. ред. А. Сбоев, А. Серенко. М.: Манн, Иванов и Фербер, 2016. С. 336.

11. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А. А. Слинкина. М.: ДМК Пресс, 2015. С. 400.

Статья поступила в редакцию 15.01.2019

ИНФОРМАЦИЯ ОБ АВТОРАХ

Давидюк Надежда Валерьевна — Россия, 414056, Астрахань; Астраханский государственный технический университет; канд. техн. наук, доцент; доцент кафедры информационной безопасности; [email protected].

Гостюнина Валерия Андреевна - Россия, 414056, Астрахань; Астраханский государственный технический университет; аспирант кафедры системного анализа, управления и обработки информации; [email protected].

Байдулова Динара Робертовна - Россия, 414056, Астрахань; Астраханский государственный технический университет; студентка направления подготовки «Информационная безопасность»; [email protected].

INTELLIGENT ALGORITHM OF IDENTIFYING DESTRUCTIVE INFORMATION IN THE TEXT

N. V. Davidyuk, V. A. Gostyunina, D. R. Baidulova

Astrakhan State Technical University, Astrakhan, Russian Federation

Abstract. In the context of ensuring the information and psychological security of a society in the Russian Federation, the problem of uncontrolled growth of the Internet destructive content is being considered. The problem of search and identification of destructive information demands the minimal subjectivity and the maximum automation, because it is still solved generally by expert methods with drawing up registers of the forbidden sources. Existing search methods (expert processing, thematic search, intelligent data processing methods) used to find specific words in the text have been considered, the advantages and disadvantages of these methods have been stated. For

solving the task set the intellectual algorithm of the modified search of destructive content has been suggested using foul language in the textual information as an example. The suggested approach has a different system of self-replenishment of the dictionary on the basis of identification of the unknown words as foul ones. The correctness of the dictionary replenishment is controlled by an expert. A detailed description of the developed algorithm has been presented. The example of the algorithm operation and initial results of its approbation are given.

Key words: offensive language, intellectual algorithm, destructive information, modified search, identification, dictionary, stemming.

For citation: Davidyuk N. V., Gostyunina V. A., Baidulova D. R. Intelligent algorithm of identifying destructive information in the text. Vestnik of Astrakhan State Technical University. Series: Management, Computer Science and Informatics. 2019;2:29-39. (In Russ.) DOI: 10.24143/20729502-2019-2-29-39.

REFERENCES

1. Gostiunina V. A. Metody vozrastnoi klassifikatsii informatsionnoi produktsii [Age classification methods of information products]. Nauka i praktika - 2018: materialy Vserossiiskoi mezhdistsiplinarnoi nauchnoi konferentsii. Astrakhan', Izd-vo AGTU, 2018. P. 52.

2. O zashchite detei ot informatsii, prichiniaiushchei vred ikh zdorov'iu i razvitiiu: Federal'nyi zakon ot 29 dekabria 2010 g. № 436-FZ [On the protection of children from information harmful to their health and development: Federal Law of December 29, 2010 No. 436-FZ]. Available at: https://www.rg.ru/2010/12/31/deti-inform-dok.html (accessed: 10.01.19).

3. Gostiunina V. A. Avtomatizirovannaia sistema vozrastnoi kategorizatsii informatsionnogo kontenta v seti Internet [Automated system of age categorization of information content in the Internet]. Matematicheskie metody i informatsionno-tekhnicheskie M34 sredstva: materialy XIII Vserossiiskoi nauchno-prakticheskoi konferentsii (Krasnodar, 16 iiunia 2017g.). Krasnodar, Krasnodarskii un-t MVD Rossii, 2017. Pp. 70-72.

4. Davidiuk N. V. Razrabotka sistemy podderzhki priniatiia reshenii dlia obespecheniia fizicheskoi bezopasnosti ob"ektov. Dis. kand. tekhn. nauk [Development of a decision support system to ensure the physical security of objects. Dis... Cand. tech. sci.]. Astrakhan', AGTU, 2010. 209 p.

5. Baidulova D. R., Baitumenov A. Z., Gostiunina V. A., Davidiuk N. V. Analiz soderzhatel'nykh indi-katorov dlia resheniia zadachi po vozrastnoi klassifikatsii tekstovoi informatsii [Analysis of meaningful indicators for solving the problem of age classification of textual information]. Studencheskaia nauka dlia razvitiia informatsionnogo obshchestva: sbornik materialov IX Vserossiiskoi nauchno-tekhnicheskoi konferentsii. Stavropol', Izd-vo SKFU, 2019. Part 1. Pp. 60-69.

6. Bialetskaia E. M., Kviatkovskaia I. Iu. O printsipakh kognitivnogo modelirovaniia slozhnykh sistem [On the principles of cognitive modeling of complex systems]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta, 2006, no. 1 (30), pp. 116-119.

7. Fam Kuang Khiep, Kviatkovskaia I. Iu. Intellektual'nyi analiz dannykh pri otsenke kachestva telekom-munikatsionnykh uslug [Intelligent analysis of data in assessing the quality of telecommunications services]. Materialy Mezhdunarodnoi nauchnoi konferentsii nauchno-pedagogicheskikh rabotnikov Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta, posviashchennoi 85-letiiu so dnia osnovaniia vuza (59 NPR). Astrakhan', Izd-vo AGTU, 2015. Pp. 93-94.

8. Zamiatin A. V. Vvedenie v intellektual'nyi analiz dannykh: uchebnoe posobie [Introduction to Data Mining: Teaching guide]. Tomsk, Izd. dom Gos. un-ta, 2016. P. 120.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Gostiunina V. A., Savel'ev A. N. Ispol'zovanie tekhnologii Text mining dlia klassifikatsii web-resursov po vozrastnym kategoriiam [Using Text mining technology to classify web-resources by age categories]. Matematicheskie metody v tekhnike i tekhnologiiakh. Saratov, SGTU im. Gagarina Iu. A., 2017. Vol. 3. Pp. 111-115.

10. Domingos P. The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. Basic Books, 2015. 352 p. (Russ ed.: Domingos P. Verkhovnyi algoritm: kak mashinnoe obuchenie izmenit nash mir / per. s angl. V. Gorokhova; nauch. red. A. Sboev, A. Serenko. M.: Mann, Ivanov i Ferber, 2016. S. 336).

11. Flach P. Machine Learning: The Art and Science of Algorithms that Make Sense of Data. Cambridge University Press, 2012. 409 p. (Russ ed.: Flakh P. Mashinnoe obuchenie. Nauka i iskusstvo postroeniia algoritmov, kotorye izvlekaiut znaniia iz dannykh / per. s angl. A. A. Slinkina. M.: DMK Press, 2015. S. 400).

The article submitted to the editors 15.01.2019

INFORMATION ABOUT THE AUTHORS

Davidyuk Nadezhda Valerievna — Russia, 414056, Astrakhan; Astrakhan State Technical University; Candidate of Technical Sciences, Assistant Professor; Assistant Professor of the Department of Information Security; [email protected].

Gostyunina Valeriya Andreevna - Russia, 414056, Astrakhan; Astrakhan State Technical University; Postgraduate Student of the Department of System Analysis, Management and Information Processing; [email protected].

Baidulova Dinara Robertovna - Russia, 414056, Astrakhan; Astrakhan State Technical University; Student, Direction of training "Information Security"; [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.