Научная статья на тему 'Применение рекуррентных нейронных сетей в задаче выявления неискренних сообщений в онлайн сервисах'

Применение рекуррентных нейронных сетей в задаче выявления неискренних сообщений в онлайн сервисах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
269
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
бинарная классификация / текстовые данные / рекуррентные нейронные сети / функция активации / облегченный управляемый рекуррентный блок. / binary classification / text data / recurrent neural networks / activation function / facilitated controlled recurrent unit.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чернобаев Игорь Дмитриевич, Скорынин Сергей Сергеевич, Суркова Анна Сергеевна

В статье рассмотрено моделирование текстовых данных для последующей классификации. Рассмотрена возможность применение и проанализирована эффективность классических рекуррентных нейронных сетей в рамках задачи бинарной классификации текстовых последовательностей, а также представлена модифицированная рекуррентная нейронная сеть.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RECURRENT NEURAL NETWORKS APPLICATION IN THE TASK OF INSINCERE MESSAGES DETECTION IN ONLINE SERVICES

The article describes the modeling of textual data for subsequent classification. The possibility of using and analyzing the effectiveness of classical recurrent neural networks in the task of binary classification of text sequences is considered, and a modified recurrent neural network is presented.

Текст научной работы на тему «Применение рекуррентных нейронных сетей в задаче выявления неискренних сообщений в онлайн сервисах»

7. Дмитриев В.Т., Лазарев С.И. Методы повышения эффективности детектирования акустически взвешенных участков речевого сигнала // Перспективные технологии в средствах передачи информации - ПТСПИ' 17. - 2017. - С. 183-186.

8. Lyon R.F. Machine hearing: An emerging field // IEEE signal processing magazine. - 2010. - Т. 27. - №. 5. - С. 131-139.

9. Суворов Д. А. Аудиовизуальный детектор голосовой активности на базе глубокой сверточной сети и обобщенной взаимной корреляции / Суворов Д.А., Жуков Р.А., Тетерюков Д.О., Зенкевич, С.Л. // Мехатроника, автоматизация, управление. -2018. - № 19 (1) - С. 53-57.

10. Le Cornu T., Milner B. Voicing classification of visual speech using convolu-tional neural networks // FAAVSP-The 1st Joint Conference on Facial Analysis, Animation and Auditory-Visual Speech Processing. - 2015. - ISCA, Vienna, Austria. - P. 103-108.

11. Sehgal A., Kehtarnavaz N. A convolutional neural network smartphone app for real-time voice activity detection // IEEE Access. - 2018. - Т. 6. - С. 9017-9026.

УДК 004.912

Чернобаев Игорь Дмитриевич,

аспирант кафедры ВСТ.

Скорынин Сергей Сергеевич, аспирант кафедры ВСТ.

Суркова Анна Сергеевна,

д-р тезн. наук, доцент, доцент кафедры ВСТ

ПРИМЕНЕНИЕ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ

В ЗАДАЧЕ ВЫЯВЛЕНИЯ НЕИСКРЕННИХ СООБЩЕНИЙ

В ОНЛАЙН СЕРВИСАХ

Россия, Нижний Новгород, НГТУ им Р.Е. Алекссева, ichernobnn@gmail.com, skorynins@gmail.com, ansurkova@yandex.ru

Аннотация. В статье рассмотрено моделирование текстовых данных для последующей классификации. Рассмотрена возможность применение и проанализирована эффективность классических рекуррентных нейронных сетей в рамках задачи бинарной классификации текстовых последовательностей, а также представлена модифицированная рекуррентная нейронная сеть.

Ключевые слова: бинарная классификация, текстовые данные, рекуррентные нейронные сети, функция активации, облегченный управляемый рекуррентный блок.

Chernobaev Sergey, PhD student at the Department of CST.

Skorynin Sergey, PhD student at the Department of CST.

Surkova Anna,

DSc, associate professor at the Department of CST

RECURRENT NEURAL NETWORKS APPLICATION IN THE TASK OF INSINCERE MESSAGES DETECTION IN ONLINE SERVICES

Russia, Nizhniy Novgorod, Nizhny Novgorod State Technical University n.a.

R.E. Alekseev, ichernobnn@gmail.com, skorynins@gmail.com,

ansurkova@yandex.ru

Abstract. The article describes the modeling of textual data for subsequent classification. The possibility of using and analyzing the effectiveness of classical recurrent neural networks in the task of binary classification of text sequences is considered, and a modified recurrent neural network is presented.

Keywords: binary classification, text data, recurrent neural networks, activation function, facilitated controlled recurrent unit.

Сегодня важной задачей любого крупного веб-сайта, предназначенного для общения и обмена информацией, является выявление язвительного и сеющего распри контента. Крупные вопросно-ответные платформы, такие как Quora, StackOverflow, StackExchange и др. стремятся решить эту проблему, дабы дать пользователям возможность чувствовать себя в безопасности во время общения, публикации и аргументирования ответов. Сегодня эта задача решается алгоритмами машинного обучения и, поскольку существует вероятность ошибки алгоритма классификации, администраторами сайтов.

На Quora ежедневно множество пользователей задают вопросы, контактируют с друг с другом, делятся уникальными идеями, информативными ответами и полезными ссылками на источники информации. Вопросы, основанные на ложных предпосылках, заданные не с намерением обрести знание или вектор поиска информации, но с целью самоутверждения, заявления, уменьшают аудиторию пользователей и наносят ущерб репутации такого рода платформ. Такие вопросы относят к разряду неискренних (insincere questions). Например, неискренние вопросы: «Did Julius Caesar bring a tyrannosaurus rex on his campaigns to frighten the Celts into submission?» или « Why do Europeans say they're the superior race, when in fact it took them over 2,000 years until mid 19th century to surpass China's largest economy?», искренние вопросы: «Why does velocity affect time?», «How did Otto von Guericke used the Magdeburg hemispheres?» Ввиду большой аудитории, весьма затруднительно вручную обнаруживать вопросы и сообщения такого рода, поэтому одним из приоритетных направлений приведенных выше веб-сайтов является выявление и отсеивание неискренних вопросов и сообщений.

В данном исследовании решается задача бинарной классификации «Искренний-Неискренний» вопросов, анализируется применение рекур-

рентных нейронных сетей и их архитектурных модификаций. Исследование проводилось в рамках участия в соревновании «Quora Insincere Questions Classification» в онлайн сообществе Kaggle [1].

В работе использовались нейросетевые модели, основанные на рекуррентной архитектуре [2]. Такие модели хорошо зарекомендовали себя в задаче классификации последовательностей [3]. Рекуррентные связи нейрона содержат закодированную информацию о поступавших ранее на вход нейрона данных.

Сеть с долговременной краткосрочной памятью (LSTM) является модификацией рекуррентной нейронной сети (РНС), в основе которой заложены механизмы противодействия значимым проблемам каждой глубокой нейронной сети - исчезающему и зашкаливающему градиенту [2].

Рис. 1. Архитектура нейрона ЬБТМ сети

Следующие уравнения отражают процесс преобразования сигнала в нейроне:

Ь=*(и1 • ^^ + ^ • ^= а(и/ ' х, + ' \ -1}' ^ = а (и 0 • х, + • ^ -1), = tanhиg • х, + Wg •

с, = ц о gt + о с,-1), к, = 01 о с,

Здесь /, /, о, g - векторы фильтров сети, предназначенные для

контроля величины проходящего через них сигнала; а г), tanh(z) -функции активации - сигмоидальная и гиперболический тангенс соот-

ветственно; х - входной вектор; с — вектор внутреннего состояния ячейки сети; Ь - вектор скрытого состояния ячейки сети;

,иу, ио, Ug,^у,^о,Wg - матрицы весовых коэффициентов фильтров 1, Г о, g; 1 - индекс элемента обучающей последовательности.

Управляемый рекуррентный блок вЯИ [4] - вариант модификации ЬБТМ, в котором задано меньшее количество фильтров по сравнению с ЬБТМ. В [4] установлено, что его эффективность при решении задач моделирования музыкальных и речевых сигналов сопоставима с использованием ЬБТМ, а производительность выше за счет меньшего объема вычислений.

Рис. 2. Архитектура управляемого рекуррентного блока.

Уравнения ниже отражают процесс преобразования информации в нейроне управляемого рекуррентного блока:

Zt = s(Uz • x, + Wz • ht-j),rt = s(U r ■ xt + Wr • ht_j),

ht = tanh(UhXt + Wh • (rt o ht_1)), ht = zt о ht_j + (1 _ zt) о л,

Здесь z, r - векторы фильтров обновления и сброса соответственно, х - входной вектор, h - выходной вектор, Uz,Ur,Uh,Wz,Wr,Wh -матрицы весовых коэффициентов фильтров z, r и вывода h соответственно. Принцип действия фильтров аналогичен принципу в LSTM нейроне.

Облегченный управляемый рекуррентный блок (Light GRU) - новая модификация, представлена в [5], где авторы пересмотрели и провели оптимизацию архитектуры GRU нейрона.

Рис. 3. Архитектура облегченного управляемого рекуррентного нейрона.

1. Удаление фильтра сброса

Фильтр сброса вносит избыточность в архитектуру нейрона, ввиду наличия фильтра обновления. Идея в переложении функционала фильтра сброса на фильтра обновления. Таким образом, после удаления фильтра сброса, процесс обработки сигнала в нейроне описывается следующими уравнениями:

г, = а(БЫ (и 2 • ) + ■ к,_ 1), ~ = ЯеЬы(БЫ(икх1) + • км),

к = 0 к_1 + (1 _ г,) о ~

2. Функция активации ЯеЬи и нормализация батча

Выпрямленная линейная единица (ЯеЬи) - функция активации,

определяемая уравнением ЯеЬи = max (0 ,х). Данная функция обладает низкой вычислительной сложностью и потому часто используется на практике при моделировании нейронных сетей.

Зу0

2,0 ReLu

-3,0 - г,5 -2,0 -1,5 -1,0 - 3,5 0,0 0,5 1,0 ,5 2,0 2,5 3,0

Рис. 4. График функции ЯеЬи.

Функция имеет следующие ограничения:

• Функция не дифференцируема в точке 0

• Не ограничена сверху

• Функция возвращает 0 в половине области определения, «игнорирует» отрицательные значения, чем снижает возможности нейрона

по извлечению паттернов из входящего сигнала.

Обычно, для обучения нейронной сети, выполняется предварительная обработка поступающих на вход данных: все данные нормализуются таким образом, что становятся похожими на нормальное распределение - нулевое среднее и унитарная дисперсия. Предварительная обработка решает задачу регуляризации входных данных и предотвращает раннее насыщение нейронов.

Батч-нормализация — метод ускорения глубокого обучения, предложенный в 2015 году [6]. Метод решает следующую проблему, препятствующую эффективному обучению нейронных сетей: по мере распространения сигнала по промежуточным слоям сети, даже если мы нормализовали его на входе, пройдя через внутренние слои, он может сильно исказиться как по мат ожиданию, так и по дисперсии ввиду постоянно меняющегося распределения активаций и, как следствие, адаптации каждого слоя на каждом тренировочном шаге к новому распределению. Данная проблема получила название внутреннего ковариантного сдвига [6] и приводит к несоответствиям между градиентами на различных уровнях. Вследствие этого, приходится использовать методы регуляризации, замедляя тем самым темп обучения.

Нормализация производится во время обучения следующим образом:

1. Вычисление математического ожидания и дисперсии ввода слоя.

1 т

ть = — X Х1 - атематическое ожидание,

т {=1

1 т

=— X (хг — №ъ)2 - дисперсия.

т г=1

2. Нормализация ввода слоя за счет использования вычисленной ранее статистики батча.

х I г ъ

3. Масштабирование и сдвиг для того чтобы получить вывод

слоя. Уг = УХ1 + р

Стоит отметить, что у и в - гиперпараметры сети и их оптимальные значения определяются во время обучения.

Так, если каждый батч состоит из т примеров и всего в датасете ] батчей:

E x = — ^ mb1) - среднее значение вывода,

m i=i

т/ / m ч 1 Л , (iК2

Varx = (-) — ^ (sb ') - дисперсия логического вывода,

m -1 m i=1

g(x - Ex) д y = I + b - масштабирование и сдвиг вывода.

yjVarx + £

Во время тестирования, значение и дисперсия фиксированы. Они оцениваются с использованием ранее вычисленных средних и вариаций каждого тренировочного батча.

Объединение описанной выше функции активации с батч-нормализацией позволило использовать преимущества ReLu функции без численных проблем.

Облегченный управляемый рекуррентный блок с функцией активации swish. Функция активации ReLu широко применяется в глубоких нейронных сетях. Данная функция активации не имела лучших альтернатив до 2017 года, пока команда Google Brain не представила комплексное исследование функций активации [7]. В данной работе авторы предложили достойную альтернативу - функцию, которая получила название «swish». - f(x) = x * sigmoig(x). Эксперименты, проведенные исследователями, показали, что данная функция превосходит ReLu в моделях глубоких нейронных сетей на таких задачах как распознавание изображений и машинный перевод.

3,5 3,0 2,5 2,0 Swish ьь

-3,0 -2,5 -2,0 -1,5 -: L,0 -0,5 0,0 0,5 1,0 X ,5 2,0 2,5 3,0

Рис. 5. График функции swish.

Проблема с ЯеЬи заключается в том, что ее производная равна нулю для отрицательного диапазона данных, следовательно, это приводит к нулевому градиенту и «умиранию» нейрона - состоянию, в котором нейрон больше не активируется и становится рудиментом. Предложенная функция позволяет использовать более глубокие нейросетевые модели.

Рис/ 6. Архитектура облегченного управляемого рекуррентного нейрона с функцией

активации swish.

В соответствии с [7], в результате применения данной функции, этап батч-нормализации становится избыточным.

Тренировочный набор данных (датасет) «Quora Insincere Questions Classification» предоставлен платформой Quora. Каждому вопросу в да-тасете присвоен уникальный идентификатор и класс (1 - неискренний, 0 - искренний). Всего в датасете содержится более 1.3 млн. размеченных вопросов. После предварительной обработки датасета, включающей удаление стоп слов и замену сокращений (например, «aren't» на «are not») количество уникальных слов составило 166289. Максимальная длина вопроса составила 125 слов. Датасет был разделен на тренировочный и тестовый наборы - по 1175509 и 130613 вопросов соответственно. Эксперименты проводились на устройстве с 12.9 Гб ОЗУ и установленным GPU с 12Гб памяти. Каждая модель обучалась в течении трех тренировочных эпох. Для оценки классификации использовались метрики fl-меры, точности и чувствительности:

Точность - доля верных положительных решений классификатора среди всех (верных и ложных) положительных решений: TP

precision =-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

TP + FP .

Чувствительность - доля верных положительных решений классификатора среди всех верных (положительных и отрицательных) реше-

TP

ний классификатора: recall =-

* F TP + TN .

Здесь TP - True Positive, TN - True Negative, FP - False Positive. Мера F1 - гармоничное среднее точности и чувствительности:

F1 = 2 * precision * recall precision + recall Результаты приведены в таблице 1.

Таблица 1

Оценки классификации моделей

Время обу- Шаг обу- precision Recall

чения, мин чения, микро с f1-score

GRU 10.1 517 0.651 0.719 0.595

LSTM 12.0 660 0.642 0.677 0.610

LGRU 12.9 620 0.525 0.569 0.487

GRU w Swish 10.8 548 0.651 0.723 0.591

LSTM w Swish 13.5 690 0.610 0.638 0.585

LGRU w Swish 7.0 381 0.656 0.715 0.607

Полученные результаты свидетельствуют о том, что на используемом датасете опробованные модели и модификации, показывают примерно одинаковую эффективность. Использование батч-нормализации в LGRU, негативно отразилось на эффективности и производительности сети. Применение функции swish не дало ощутимых преимуществ в плане эффективности и производительности модификаций GRU, LSTM, но дало существенный выигрыш производительности в LGRU, что объясняется отсутствием этапа батч-нормализации ввиду использования функции Swish.

Результирующие оценки моделей свидетельствуют об актуальности применения РНС в задаче классификации текстовых последовательностей.

В данной работе для решения задачи бинарной классификации использовались широко известные и применяемые РНС, их модификации. LGRU впервые применена для решения задачи классификации текстовой последовательности. За три эпохи обучения выбранные модели достигли удовлетворительных результатов. Для получения лучших результатов, возможно, стоит использовать более продвинутые и глубокие архитектуры, например, двунаправленные сети, модель энкодер-декодер, глубо-

кие РНС с несколькими слоями, а также попытаться добавить в модели регуляризацию.

Список литературы

1. https://www.kaggle.eom/c/quora-insincere-questions-classification (дата обращения: 15.04.2019).

2. А. С. Суркова, И. Д. Чернобаев. Сравнение нейросетевых архитектур в задаче автоматической классификации текста.

3. Чернобаев И. Д., Суркова А. С., Панкратова А. З. МОДЕЛИРОВАНИЕ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ РЕКУРРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ. -2018.

4. Chung J. et al. Empirical evaluation of gated recurrent neural networks on sequence modeling //arXiv preprint arXiv:1412.3555. - 2014.

5. Ravanelli M. et al. Light gated recurrent units for speech recognition //IEEE Transactions on Emerging Topics in Computational Intelligence. - 2018. - Т. 2. - №. 2. -С. 92-102.

6. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift //arXiv preprint arXiv:1502.03167. - 2015.

7. Ramachandran P., Zoph B., Le Q. V. Searching for activation functions //arXiv preprint arXiv:1710.05941. - 2017.

УДК 62-405

Nie Jinliang,

Master Degree Student

CIFAR10 IMAGE CLASSIFICATION BASED ON RESNET

Russia, St.Petersburg, Peter the Great St.Petersburg Polytechnic University

272729768@qq.com

Abstract. We trained 4 different deep residual networks to classify 60 thousands low-resolution images in the Cifar10 dataset into 10 different classes. Then We compared these four different depth of residual net (ResNet- 20,ResNet56,Resnet110,ResNet164) and we found that among all networks we tried ,ResNet164 gave best performance ,achieved 94% accuracy on the test dataset. To reduce overfitting , in the fully-connected layers we employed a regularization method "drop out", also we employed data augmentation, batch normalization and decayed learning rate to combat overfitting.

Keywords: base, classification, fully-connected layers resnet.

1 Introduction

In recent years deep convolutional neural networks have achieved series of breakthroughs in the field of image classifications. Deep convolutional neural nets (CNNs) have a layered structure and each layers is consisted of convolutional filters. By convolving these filters with the input image, feature vectors for the next layer are produced and through sharing parameters, they can be learnt quite easily. Although deep networks can have better performance in classification most of the times, they are harder to train mainly due to two reasons:

i Надоели баннеры? Вы всегда можете отключить рекламу.