Научная статья на тему 'СБОР ГОЛОСОВОГО КАРСЕТА И АНАЛИЗ ДАННЫХ'

СБОР ГОЛОСОВОГО КАРСЕТА И АНАЛИЗ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
голосовой корсет / сбор данных / системный анализ / анализ данных / машинное обучение / voice corset / data collection / system analysis / data analysis / machine learning

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — М.С. Алексеев, В.С. Деревянкина, В.В. Куцевалова, Е.И. Сивцова, С.Е. Маегов

В данной статье описывается способ сбора и анализа голосовых данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — М.С. Алексеев, В.С. Деревянкина, В.В. Куцевалова, Е.И. Сивцова, С.Е. Маегов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VOICE CORSET COLLECTION AND DATA ANALYSIS

This article describes how to collect and analyze voice data.

Текст научной работы на тему «СБОР ГОЛОСОВОГО КАРСЕТА И АНАЛИЗ ДАННЫХ»

Актуальные проблемы авиации и космонавтики - 2021. Том 2

УДК 004.418

СБОР ГОЛОСОВОГО КАРСЕТА И АНАЛИЗ ДАННЫХ

М. С. Алексеев*, В. С. Деревянкина, В. В. Куцевалова, Е. И. Сивцова, С. Е. Маегов Научный руководитель - И. А. Панфилов

Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

*E-mail: mihanik98@mail.ru

В данной статье описывается способ сбора и анализа голосовых данных.

Ключевые слова: голосовой корсет, сбор данных, системный анализ, анализ данных, машинное обучение.

VOICE CORSET COLLECTION AND DATA ANALYSIS

M. S. Alekseev*, V. S. Derevyankina, V. V. Kutsevalova, E. I. Sivtsova, S. E. Maegov

Scientific supervisor - I. A. Panfilov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *E-mail: mihanik98@mail.ru7

This article describes how to collect and analyze voice data.

Keywords: voice corset, data collection, system analysis, data analysis, machine learning.

Аудиоанализ — область, включающая автоматическое распознавание речи (ASR), цифровую обработку сигналов, а также классификацию, тегирование и генерацию музыки — представляет собой развивающийся под домен приложений глубокого обучения.

Есть группы населения, испытывающие дискомфорт при общении в обычной жизни. Проблема недопонимания преследует их со школьной скамьи так и на протяжении всей жизни. Различные дефекты речи, возникшие из-за заболеваний и нозологий.

Различные нозологии могут отличаться некоторыми характерными отклонениями речи, за пример возьмем ДЦП. Важнейшей особенностью речевых расстройств при ДЦП является тесная связь речевой патологии с сенсорными расстройствами и нарушениями в области интеллектуальной сферы. У 6—23% больных ДЦП может ухудшаться слух (при гиперкинетической форме частота этой патологии может достигать 60%), что является одной из ведущих причин задержки речевого развития, а в тяжелых случаях — общего недоразвития речи, причем в дальнейшем у таких детей отмечаются трудности при обучении чтению и письму. Особенно характерны снижение слуха на высокочастотные тона и сохранность на низкочастотные. У многих детей наблюдаются нарушения фонематического слуха (не различают звуки и звукосочетания, сходные по звучанию), недостаточность слухового восприятия и слуховой памяти [1].

Одна из сложностей, при решении данной проблемы — это сбор данных для анализа. Для этого нужны ресурсы, техника и достаточное количество участников. В этом нам помогла "Школа Дистанционного Образования". Место, которое специализируется на проведении занятий для учеников не имеющих возможность обучаться очно в обычных заведениях по разным причинам, в том числе и состоянию здоровья. Они могут предоставить достойное

Секция «Математические методы моделирования, управления и анализа данных»

оборудование и даже выезд на место до респондента, а также предоставлением различных мест хранения информации.

Таким образом, планируется собрать представительный корпус аудиоданных, которые будут использоваться для решения проблемы повышения качества жизни данной группы населения.

Для решения задач анализа данных разрабатывается информационная система, которая будет легко масштабироваться под новые задачи и появляющиеся инструменты анализа. В настоящий момент предлагается использовать 2 модуля для подготовки и проверки материала.

1) Librosa - модуль Python для анализа звуковых сигналов, предназначенный для работы с музыкой. Он включает все необходимое для создания системы MIR, подробно задокументирован вместе со множеством примеров и руководств.

2) IPython.display.Audio - с помощью этого модуля мы будем проигрывать наши аудиозаписи.

Рассмотрим несколько способов анализа: Спектральный центроид - Рассчитывается как взвешенное среднее частот, присутствующих в сигнале, определенное с помощью преобразования Фурье, с их величинами в качестве весов, рассмотрим формулу на рис. 1 [2].

Спектральный спад - это мера формы сигнала, представляющая собой частоту, в которой высокие частоты снижаются до 0. Чтобы получить ее, нужно рассчитать долю элементов в спектре мощности, где 85% ее мощности находится на более низких частотах.

Спектральная ширина - определяется как ширина полосы света на половине максимальной точки (или полная ширина на половине максимума [FWHM]) и представлена двумя вертикальными красными линиями и ХББ на оси длин волн.

Скорость пересечения нуля - простой способ измерения гладкости сигнала — вычисление числа пересечений нуля в пределах сегмента этого сигнала. Голосовой сигнал колеблется медленно. Например, сигнал 100 Гц будет пересекать ноль 100 раз в секунду, тогда как «немой» фрикативный сигнал может иметь 3000 пересечений нуля в секунду.

Мел-частотные кепстральные коэффициенты (МЕСС) - представляют собой небольшой набор признаков (обычно около 10-20), которые кратко описывают общую форму спектральной огибающей. Они моделируют характеристики человеческого голоса.

Создание и анализ данного голосового корпуса в дальнейшем послужит отправной точкой в создании машин для разрушения речевого барьера между людьми [3].

1. Немкова С. А. Речевые нарушения при детском церебральном параличе: диагностика и коррекция. Журнал неврологии и психиатрии им. С.С. Корсакова. 2019;119(5):112-119.

2. Питтерс Г. Технический отчет, опубликованный IRCAM в 2003 году. - 13/25 с.

3. Воробьева, С. А. Выделение границ фонем речевого сигнала с помощью мел-частотных спектральных коэффициентов [Электронный ресурс]. Молодой ученый, 2017. - № 13 (147). URL : https://moluch.ru/archive/147/41443/ (дата обращения: 20.04.2021).

© Алексеев М. С., Деревянкина В. С., Куцевалова В. В., Сивцова Е. И., Маегов С. Е., 2021

Centroid =

ES *<»)

Рис. 1. Расчет спектрального центройда

Библиографические ссылки

i Надоели баннеры? Вы всегда можете отключить рекламу.