ИССЛЕДОВАНИЕ ПОДХОДОВ РАСПОЗНАВАНИЯ ТОКСИЧНЫХ СЛОВ В АУДИОСИГНАЛЕ В РЕАЛЬНОМ ВРЕМЕНИ

Нестеров А.А.; Юнусов А.В.

А.А. Нестеров, А.В. Юнусов

ИССЛЕДОВАНИЕ ПОДХОДОВ РАСПОЗНАВАНИЯ ТОКСИЧНЫХ СЛОВ В АУДИОСИГНАЛЕ В РЕАЛЬНОМ ВРЕМЕНИ

В статье рассматриваются алгоритмы, которые могут использоваться в качестве основы в системе распознавания и реагирования на звуковые шаблоны в реальном времени. Рассмотрены как классические алгоритмы, так и алгоритмы, основанные на нейронных сетях. Вынесены критерии для оценки алгоритмов между собой. Выделены наиболее перспективные алгоритмы, которые соответствуют большинству вынесенных критериев.

Ключевые слова: система распознавания, реальное время, аудиосигнал, ключевое слово, токсичное слово, сравнение, оценка, нейронные сети, вейвлеты, динамическая трансформация временной шкалы, временные ряды.

За последнее десятилетие в Интернете активно развивается рынок онлайн-трансляций. Такие он-лайн-платформы, как Youtube или Twitch, позволяют рядовым пользователям проводить трансляции для десятков и сотен тысяч зрителей. Для некоторых пользователей такой род деятельности является их основным источником дохода.

За последние пять лет на данных платформах также начали серьезно следить за соблюдением норм сообщества. Согласно нормам сообщества, пользователям запрещено произносить многие оскорбительные слова, даже если они были произнесены для создания юмористического эффекта [2]. Любой проступок пользователя может вылиться в запрет доступа к платформе. Для пользователей, у которых данный род деятельности является основным, запрет доступа к платформе будет означать серьезный удар по их благосостоянию [5].

Таким образом, становится актуальным программный комплекс, который позволил бы активным пользователям онлайн-платформ исключить попадание токсичных слов в их прямой эфир.

В данной работе исследуются алгоритмы, которые могут быть применены для решения задачи фильтрации токсичных слов. Для более объективного анализа алгоритмов следует выделить критерии оценки. В первую очередь, алгоритм должен работать в реальном времени. Кроме того, алгоритм должен быть персонализированным и подстраиваться под конкретного пользователя. Также, алгоритм не должен быть зависим от конкретного языка, так как это уменьшит актуальность разрабатываемой программы. Помимо этого, было выделено несколько общих критериев. В таблице 1 перечислены соответствующие критерии в табличном виде, их обоснование и критичность.

Таблица 1

Список критериев к алгоритму распознавания токсичных слов_

№ Критерий Обоснование Критичность

1 Реальное время (легковесность) Так как трансляции проходят в реальном времени, то и алгоритм также должен поддерживать работу в реальном времени. Необходимо

2 Персонализированность Так как с конечного пользователя можно будет взять лишь ограниченное число данных для обучения, алгоритм должен уметь обучаться на маленьком количестве данных, полученных лично от пользователя. Необходимо

3 Независимость от языка Алгоритм не должен быть завязан на какой-то конкретный язык (Русский, Английский), так как это негативно скажется на актуальности всей программы. Программу также станет затруднительно распространять на международный рынок. Необходимо

Научный руководитель: Петрова Инесса Викторовна - кандидат технических наук, доцент, Университет ИТМО, Россия.

Окончание таблицы 1

№ Критерий Обоснование Критичность

4 Автономность Так как конечных пользователей может быть достаточно много, нецелесообразно изменять алгоритм для каждого пользователя. Алгоритм должен быть достаточно автономен, чтобы он работал для людей с самым разным произношением. Необходимо

5 Точность Если алгоритм не будет точным, то он будет либо пропускать токсичные слова, либо фильтровать ненужные. Для пользователя критична точность. Необходимо

6 Простота реализации Простота реализации позволит прототипировать алгоритм без больших трудозатрат, а затем оптимизировать его, при необходимости. Желательно

Для исследования существующих методов решения задачи производился поиск научных статей в Интернете с помощью поисковой системы Google. Также, рассматривались и технические статьи с представленным исходным кодом.

Следующие методы были найдены в Интернете:

•Дискретное Вейвлет Преобразование (ДВП). Преобразование позволяет оценить подобность двух сигналов с помощью преобразования сигналов через специально-подобранные функции (вейвлеты) [1].

•Dynamic Time Warping (DTW). Данный алгоритм пытается с минимальными затратами привести два сигнала к общему виду. При этом более похожие сигналы привести к общему виду проще, чем разные сигналы [3]. Таким образом, этот алгоритм чем-то похож на нахождение расстояния Левенштейна для строк.

•Нейронные сети (НС). Такие методы основываются на применении нейронных сетей для решения задачи. Нейронные сети могут быть разных видов, а также применяться в совокупности с классическими алгоритмами. Например, можно произвести преобразование сигналов с помощью вейвлет-преобразования и подать результат нейронной сети для классификации сигнала [6].

В таблице 2 выбранные методы противопоставляются друг другу, согласно выбранным критериям.

Таблица 1

Список критериев к алгоритму распознавания токсичных слов_

\Алгоритм Требование ДВП DTW Сверточная НС Рекуррентная НС Составная НС

Реальное время + +[4] +[8] +[7] -

Персонализиро-ванность + + - - -

Независимость от языка + + + + +

Автономность + + + + +

Точность - - - - +

Простота реализации - + + - -

Общий балл 4 5 4 3 3

Сравнивая методы между собой, можно выделить лидера - метод, основанный на Dynamic Time Warping. Данный метод прост в реализации, не требует большого количества тренировочных данных, не является вычислительно трудоемким. Проблемы с точностью можно преодолеть с помощью предобработки данных и разработки более сложного метода.

Вслед за DTW, идет классический алгоритм вейвлет преобразований и алгоритм, основанный на свёрточных нейронных сетях. Чтобы добиться хорошей точности у Вейвлет преобразований, потребуется сильное усложнение алгоритма. Поэтому в таблице, напротив критериев "Точность" и "Простота реализации" стоят знаки "-". Свёрточную нейронную сеть легко реализовывать, так как в настоящее время существует большое количество готовых библиотек. Также, небольшая свёрточная нейронная сеть сможет легко выполняться в реальном времени. Существуют статьи, где такие нейронные сети исполняются на встраиваемых системах с ограниченными ресурсами. Однако, нейронным сетям необходимо большое ко-

личество тренировочных данных, получить которые будет крайне трудно. Необходимо прибегать к техникам генерирования данных из небольшого набора, предоставленного конечным пользователем. Таким образом, точность предсказаний будет сильно зависеть от качества сгенерированного набора данных.

Рекуррентные и составные нейронные сети являются более сложными аналогами свёрточных нейронных сетей. Их реализация труднее, они требуют более качественной генерации входных данных. Таким образом, к ним следует прибегать, если не устраивает точность предсказаний более простых моделей.

Заключение. Выделены 6 критериев для оценки пригодности алгоритмов распознавания токсичных слов в реальном времени на ПК. 5 методов противопоставлены друг другу на основе выделенных критериев. Классический алгоритм DTW показывает превосходство по всем критериям, за исключением точности преобразований. Возможно, следует использовать алгоритм DTW вкупе с ДВП или Нейронными сетями для достижения наилучшей точности.

Библиографический список

1. Alex J. S. R., Venkatesan N. Modified multivariate euclidean dynamic time warping based spoken keyword detection // International Journal of Intelligent Engineering and Systems. 2017. № 5 (10).

2. Cuellar W., Williams K., Stroud S. R. GAMING PLATFORMS AND SHOCKING SPEECH: THE ETHICS OF SPEECH REGULATION ON TWITCH // Media Ethics Initiative [Электронный ресурс]. URL: https://mediaethicsinitiative.org/wp-content/uploads/2020/09/90-twitch-free-speech-case-study.pdf (дата обращения: 14.02.2021).

3. Deriso D., Boyd S. A general optimization framework for dynamic time warping // arXiv. 2019.

4. Gisselbrecht T., Dureau J. Machine Learning on Voice: a gentle introduction with Snips Personal Wake Word Detector // Snips [Электронный ресурс]. URL: https://medium.com/snips-ai/machine-learning-on-voice-a-gentle-introduction-with-snips-personal-wake-word-detector-133bd6fb568e (дата обращения: 02.05.2021).

5. Partin W. C. Watch Me Pay: Twitch and the Cultural Economy of Surveillance // Surveillance & Society. 2019. № 17. C. 7.

6. Senthil D., Srinivasan B. A novel Keyword Spotting aprroach in speech mining using Wavelet Packing Transformation // International Journal of Current Research. 2016. № 8 (8). C. 36943-36946.

7. Team Siri Hey Siri: An On-device DNN-powered Voice Trigger for Apple's Personal Assistant - Apple // Apple Machine Learning Journal. 2017.

8. Zhang Y. [и др.]. Hello edge: Keyword spotting on microcontrollers // arXiv. 2017.

НЕСТЕРОВ АНДРЕЙ АНДРЕЕВИЧ - магистрант, Университет ИТМО, Россия. ЮНУСОВ АЛЕКСАНДР ВАРСОНОФЬЕВИЧ - магистрант, Университет ИТМО, Россия.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нестеров А.А., Юнусов А.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нестеров А.А., Юнусов А.В.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ПОДХОДОВ РАСПОЗНАВАНИЯ ТОКСИЧНЫХ СЛОВ В АУДИОСИГНАЛЕ В РЕАЛЬНОМ ВРЕМЕНИ»