Научная статья на тему 'ВЫБОР ОПТИМАЛЬНОЙ АРХИТЕКТУРЫ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВ'

ВЫБОР ОПТИМАЛЬНОЙ АРХИТЕКТУРЫ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
684
96
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКУРРЕНТНЫЕ НЕЙРОННЫЕ СЕТИ / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / АНАЛИЗ ТОНАЛЬНОСТИ ТЕКСТА / АВТОМАТИЗИРОВАННЫЕ АНАЛИЗ ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Черкасов Александр Николаевич, Туркин Егор Алексеевич

В связи с растущей потребностью изучения роли человеческого фактора в рамках информационной безопасности была предпринята попытка применить искусственные нейронные сети для решения социально значимых проблем, связанных с информационными рисками. Основная цель исследования заключается в выборе оптимальной архитектуры нейронной сети, которая способна наиболее эффективно определять тональность сообщений на Интернет-форумах. В статье проведен обзор ряда архитектур искусственных нейронных сетей, которые применяются для определения эмоциональной окраски текстов. Рассматриваемые модели были подвергнуты анализу на предмет качества определения тона текстов. Применение модели сверточной нейронной сети, совмещенной с элементами рекуррентной нейронной сети, позволило получить точность определения окраски текста, равную 87,77%. В дальнейшем отобранная модель станет базисом для комплексной аналитической платформы в виде программного обеспечения, которое нацелено на идентификацию особенностей лексических форм, входящих в основу вербальной модели потенциального злоумышленника в рамках информационной безопасности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Черкасов Александр Николаевич, Туркин Егор Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CHOOSING THE APPROPRIATE ARTIFICIAL NEURAL NETWORK ARCHITECTURE FOR TEXT CLASSIFICATION

In the context of the growing need to study the role of the human factor in information security, we made an attempt to apply artificial neural networks to solve socially significant problems related to information risks. The main purpose of the study is to choose the optimal neural network architecture, which is able to most effectively determine the tone of messages in Internet forums. This article provides an overview of a number of artificial neural network architectures that are used to determine the emotional tone of texts. The models discussed in this paper were analyzed for the quality of the text tone definition. Application of a model of a convolutional neural network combined with elements of a recurrent neural network made it possible to obtain accuracy of determination of text shadow equal to 87.77%. In the future, the selected model will become the basis for an integrated analytical platform in the form of software, which is aimed at identifying the features of lexical forms that form the basis of the verbal model of a potential cybercriminal within the framework of information security.

Текст научной работы на тему «ВЫБОР ОПТИМАЛЬНОЙ АРХИТЕКТУРЫ ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ ДЛЯ ЗАДАЧИ КЛАССИФИКАЦИИ ТЕКСТОВ»

УДК 004.032.26

ББК 32.818.1

Ч 48

Черкасов А.Н.

Кубанский государственный технологический университет, Краснодар, Россия, cherk@mail.ru

Туркин Е.А.

Кубанский государственный технологический университет, Краснодар, Россия,

wolfutur@mail.ru

Выбор оптимальной архитектуры искусственной нейронной сети для задачи классификации текстов

(Рецензирована)

Аннотация. В связи с растущей потребностью изучения роли человеческого фактора в рамках информационной безопасности была предпринята попытка применить искусственные нейронные сети для решения социально значимых проблем, связанных с информационными рисками. Основная цель исследования заключается в выборе оптимальной архитектуры нейронной сети, которая способна наиболее эффективно определять тональность сообщений на Интернет-форумах. В статье проведен обзор ряда архитектур искусственных нейронных сетей, которые применяются для определения эмоциональной окраски текстов. Рассматриваемые модели были подвергнуты анализу на предмет качества определения тона текстов. Применение модели сверточной нейронной сети, совмещенной с элементами рекуррентной нейронной сети, позволило получить точность определения окраски текста, равную 87,77%. В дальнейшем отобранная модель станет базисом для комплексной аналитической платформы в виде программного обеспечения, которое нацелено на идентификацию особенностей лексических форм, входящих в основу вербальной модели потенциального злоумышленника в рамках информационной безопасности.

Ключевые слова: рекуррентные нейронные сети, сверточные нейронные сети, анализ тональности текста, автоматизированные анализ текстов

Cherkasov A.N.

Kuban State University of Technology, Krasnodar, Russia, cherk@mail.ru

Turkin E.A.

Kuban State University of Technology, Krasnodar, Russia, wolfutur@mail.ru

Choosing the appropriate artificial neural network architecture for text classification

Abstract. In the context of the growing need to study the role of the human factor in information security, we made an attempt to apply artificial neural networks to solve socially significant problems related to information risks. The main purpose of the study is to choose the optimal neural network architecture, which is able to most effectively determine the tone of messages in Internet forums. This article provides an overview of a number of artificial neural network architectures that are used to determine the emotional tone of texts. The models discussed in this paper were analyzed for the quality of the text tone definition. Application of a model of a convolutional neural network combined with elements of a recurrent neural network made it possible to obtain accuracy of determination of text shadow equal to 87.77%. In the future, the selected model will become the basis for an integrated analytical platform in the form of software, which is aimed at identifying the features of lexical forms that form the basis of the verbal model of a potential cybercriminal within the framework of information security.

Keywords: recurrent neural networks, convolutional neural networks, text sentiment analysis, automated text analysis

Введение

Развитие технологии искусственного интеллекта и машинного обучения началось с 40-х годов прошлого столетия [1]. Однако из-за высоких требований к вычислительным ресурсам для обучения и работы нейронных сетей они применялись достаточно редко.

Современный уровень скорости вычисления и появление многих архитектур нейронных сетей позволили значительно расширить область их применения. Отдельно-

го внимания заслуживает область обработки и анализа текстов в целях оценки поведения пользователя. Например, такая информация позволяет адаптировать систему поддержки принятия решений для различных задач в рамках ситуационного центра [2].

Анализ тональности текста используется для выявления эмоционально окрашенной лексики [3]. Распознавание эмоциональной окраски сообщений пользователей позволяет определять их отношение к тем или иным объектам, темам и субъектам. Сегодня анализ тональности текстов актуален во многих сферах - экономика, политика, социология, маркетинг и менеджмент. В описанных выше областях использование NN (Neural Network) уже становится повсеместным явлением. Много реже NN используют в управленческих решениях, касающихся безопасности.

Искусственные нейронные сети могут быть использованы в качестве инструмента анализа текстов с целью определения лексических форм и общей семантики [4]. Впоследствии результаты анализа могут быть использованы экспертами для выявления склонности человека к определенным действиям, нарушениям в области информационной безопасности.

Несмотря на большое количество проведенных исследований, в области применения нейронных сетей обработки текстов существует ряд пробелов:

• Анализ тональности текстов применяется в области управления довольно часто, но применение его огранивается распределением данных на положительно окрашенные и отрицательно окрашенные;

• Лексические аспекты и общее настроение сообщений по конкретной теме могут быть использованы для определения поведенческих особенностей человека и выявления склонности к злонамеренным действиям;

• Проводится множество аналитических операций без практического применения результатов [5, 6], таких как сокращение преступлений в области информационной безопасности.

Методы и материалы исследования

В ходе выполнения данной работы были обучены несколько моделей нейронных сетей. Среди архитектур искусственных нейронных сетей, применяемых для обработки текстов, следует выделить сверточные нейронные сети - CNN (Convolutional Neural Network) [7] и рекуррентные нейронные сети - RNN (Recurrent Neural Network) [8], а также различные их комбинации. Изначально сверточные нейронные сети были предложены для обработки изображений [1, 9], однако со временем эта модель стала применяться и для задач обработки текстов. Использование CNN позволяет ускорить процесс обучения, поскольку их архитектура подразумевает возможность параллельных вычислений большого количества данных.

Были выбраны следующие варианты архитектур моделей для обработки текстов с помощью искусственных нейронных сетей:

1. Рекуррентная нейронная сеть из одного слоя LSTM. Далее эта архитектура будет наименоваться LSTM;

2. Рекуррентная нейронная сеть из двух слоев LSTM. Этой архитектуре будет дано название LSTM-2;

3. Сверточная нейронная сеть и рекуррентная нейронная сеть из одного слоя LSTM. Данная архитектура будет наименоваться CNN-LSTM.

Стоит отметить, что зачастую рекуррентная архитектура нейронной сети является более предпочтительной. Связано это с тем, что анализ каждого слова основан не только на значении его эмоциональной окраски, но и на значении предыдущих слов. Этот факт позволяет анализировать эмоциональную семантику отдельных слов, а также и эмоциональное значение цельного предложения.

Для выбранных архитектур моделей классификации были выделены следующие гиперпараметры:

1. Размерность словаря. Были опробованы словари размерности 10000 и 15000 слов;

2. Размерность фрагмента текста 128, 196 символов;

3. Максимальная длина текста 250 символов.

Набор данных для обучения содержал равное количество фрагментов текстов, помеченных как «положительные» и «отрицательные». Для оценки качества обучения была выбрана метрика Accuracy (точность). При прекращении роста параметра точности на валидационной выборке процесс обучения приостанавливался, поскольку далее имеет место переобучение модели.

Обучение выбранных моделей происходило по схеме обучения с учителем. Процент валидационной выборки данных составлял 10% от общего количества данных для обучения.

Тексты прошли предварительную подготовку к обработке:

• Все спец. символы были удалены;

• Из слов были выделены их стеммы (основы для заданных слов);

• Буква «ё» была заменена на букву «е».

Для борьбы с переобучением моделей была применена Dropout регуляция [10].

Алгоритм анализа моделей нейронных сетей может быть представлен следующей схемой (рис. 1).

Рис. 1. Алгоритм проведения анализа нейронных сетей

На основании описанных ранее условий было проведено обучение моделей с заданными архитектурами и гиперпараметрами. Результаты обучения приведены в таблице 1.

Таблица 1

Результаты обучения моделей

Наименование архитектуры Максимальная длина текста Длина обрабатываемого фрагмента Размер словаря Точность валидации Точность тестового просчета

LSTM 250 128 10000 87,60% 86,67%

128 15000 86,96% 85,42%

196 10000 86,96% 85,42%

196 15000 87,72% 87,08%

LSTM-2 250 128 10000 87,64% 86,69%

128 15000 88,28% 87,13%

196 10000 87,40% 86,43%

196 15000 88,56% 87,40%

CNN-LSTM 250 128 10000 88,48% 87,22%

128 15000 89,00% 87,77%

196 10000 88,40% 87,05%

196 15000 88,72% 86,57%

Лучшее значение метрики Accuracy на валидационном наборе данных показала модель CNN-LSTM с размерностью словаря 15000, длиной текста 250 и размером фрагмента 128.

Стоит заметить, что на тестовом наборе данных значение метрики Accuracy составило 87,77%.

Данная модель может быть представлена следующей схемой (рис. 2).

Текст в векторном Свёрточный Слой

представлении слой MaxPooling

Рис. 2. Структура модели CNN-LSTM

Выбранная модель искусственной нейронной сети использована как одна из технологий автоматизации анализа текстов и определения лексики, наиболее характерной для субъектов, склонных к тем или иным действиям в определенной ситуации. В качестве эксперимента рассматривались лексика и смысловые фразы в области информационной безопасности. Результаты эксперимента показали, что выбранная модель позволяет с достаточной точностью анализировать текст, определять лексику и действия субъекта.

Заключение

Проведены реализация и обучение нескольким моделям искусственных сетей с различными комбинациями настраиваемых параметров. По итогам обучения и последующего тестирования была выбрана СМЫ-ЬБТМ сеть, позволяющая составлять наиболее точные заключения об эмоционально-семантической окраске текста.

Данная модель может быть взята за основу в качестве многокритериального классификатора. Каждый текст будет подвергнут анализу, итогом которого будет заключение о склонности автора текста к определенным поведенческим паттернам.

Список литературы:

1. McCulloch Warren S., Walter Pitts. A logical calculus of the ideas immanent in nervous activity // Springer New York. 1943. P. 115-133.

2. Симанков В.С., Черкасов А.Н. Анализ и синтез системы поддержки принятия решений на основе интеллектуальных систем ситуационного центра // Глобальный научный потенциал. 2014. № 12 (45). С. 114-122.

3. Рубцова Ю. Автоматическое построение и анализ коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора // Инженерия знаний и технологии семантического веба. СПб.: Университет ИТ-МО, 2012. Т. 1. С. 109-116.

4. Тарасов Е.С. Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти: дис. ... канд. техн. наук. Краснодар: КубГТУ, 2011. 198 c.

5. Краснов Ф.В. Анализ тональности текста научно-практических статей по нефтегазовой тематике с помощью искусственных нейронных сетей // Вестник Евразийской науки. 2018. Т. 10, № 3. 10 с. URL:

https://esj.today/PDF/43ITVN318.pdf (дата обращения: 07.02.2020).

6. Смирнова О.С., Шишков В.В. Выбор топологии нейронных сетей и их применение для классификации коротких текстов // International Journal of Open Information Technologies. 2016. Т. 4, № 8. С. 50-54.

7. Kim Y. Convolutional neural networks for sentence classification // arXivpreprintarXiv: 1408.5882. 2014. P. 1746-1751.

8. Recurrent neural network based language model / T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, S. Khudanpur // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 1045-1048.

9. Gradient-based learning applied to document recognition / Yoshua Bengio, Yann LeCun, Leon Bot-tou, Patrick Haner // IEEE. 1998. No. 86 (11). P. 2278-2324.

10. Воронцов К.В. Курс лекций по машинному обучению. 2015. URL: https://ya-r.ru/2020/05/07/vorontsov-kurs-mashinnoe-obuchenie-2019-shkola-analiza-dannyh/

References:

1. McCulloch Warren S., Walter Pitts. A logical calculus of the ideas immanent in nervous activity // Springer New York. 1943. P. 115-133.

2. Simankov V.S., Cherkasov A.N. Analysis and synthesis of a decision support system based on intelligent systems of the situational center // Global Scientific Potential. 2014. No. 12 (45). P. 114-122.

3. Rubtsova Yu. Automatic construction and analysis of short texts (microblogging posts) for the task of developing and training tone classifier // Engineering of knowledge and technologies of semantic web. St. Petersburg: Saint Petersburg State University of Information Technologies, Mechanics and Optics, 2012. Vol. 1. P. 109-116.

4. Tarasov E.S. Development of linguistic-semantic methods for processing expert information for situ-ational centers of public authorities: Diss. for the Cand. of Techn. Sciences degree. Krasnodar: Kuban State Technological University, 2011. 198 p.

5. Krasnov F.V. Analysis of the tonality of the text of scientific and practical articles on oil and gas topics using artificial neural networks // Bulletin of Eurasian Science. 2018. Vol. 10, No. 3. 10 p. URL: https://esj.today/PDF/43ITVN318.pdf (access date: 07.02.2020).

6. Smirnova O.S., Shishkov V.V. The choice of the topology of neural networks and their application for the classification of short texts // International Journal of Open Information Technologies. 2016. Vol. 4, No. 8. P. 50-54.

7. Kim Y. Convolutional neural networks for sentence classification // arXivpreprintarXiv: 1408.5882. 2014. P. 1746-1751.

8. Recurrent neural network based language model / T. Mikolov, M. Karafiat, L. Burget, J. Cernocky, S. Khudanpur // Eleventh Annual Conference of the International Speech Communication Association. 2010. P. 1045-1048.

9. Gradient-based learning applied to document recognition / Yoshua Bengio, Yann LeCun, Leon Bot-tou, Patrick Haner // IEEE. 1998. No. 86 (11). P. 2278-2324.

10. Vorontsov K.V. Machine Learning Lecture Course. 2015. URL: https://ya-r.ru/2020/05/07/vorontsov-kurs-mashinnoe-obuchenie-2019-shkola-analiza-dannyh/

i Надоели баннеры? Вы всегда можете отключить рекламу.