Научная статья на тему 'Модель оценки частоты основного тона с использованием вейвлет преобразования для узбекской речи'

Модель оценки частоты основного тона с использованием вейвлет преобразования для узбекской речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
47
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
вейвлет преобразование / частота основного тона / кепстр / речевой сигнал / вейвлет ўзгартириши / асосий оханг частотаси / кепстр / нутқ сигнали.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Абдуллаева М.И.

Статья посвящена эффективной оценке частоты основного тона говорящего. На сегодняшний день существует ряд методов по выделению частоты основного. В данной статье приведен сравнительный анализ по данным методам, также выдвинуто предложение по улучшению данного процесса, позволяющее повысить такие параметры как скорость и время. Производительность предлагаемой модифицированной модели сравнивается с другими многоканальными моделями в среде MATLAB.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Ушбу мақола маърузачининг асосий оҳанг частотасини самарали баҳолашга бағишланган. Бугунги кунга келиб, асосий оханг частотасини ажратиш учун бир қатор усуллар мавжуд. Мақолада ушбу усулларнинг қиёсий таҳлили берилган, шунингдек, ушбу жараённи такомиллаштириш бўйича таклиф илгари сурилган, бу тезлик ва вақт каби параметрларни оширишга имкон беради. Таклиф қилинган модификацияланган моделнинг иш фаолиятини МАТЛАБ муҳитидаги бошқа кўпканалли моделлар билан таққослаш ва баҳолаш мумкинлиги намойиш этилган.

Текст научной работы на тему «Модель оценки частоты основного тона с использованием вейвлет преобразования для узбекской речи»

УДК 621.391

Абдуллаева М.И.

МОДЕЛЬ ОЦЕНКИ ЧАСТОТЫ ОСНОВНОГО ТОНА С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ ПРЕОБРАЗОВАНИЯ ДЛЯ УЗБЕКСКОЙ РЕЧИ

Абдуллаева М.И.- Мухаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети

Ушбу мацола маърузачининг асосий о^анг частотасини самарали ба^олашга багишланган. Бугунги кунга келиб, асосий оханг частотасини ажратиш учун бир цатор усуллар мавжуд. Мацолада ушбу усулларнинг циёсий та^лили берилган, шунингдек, ушбу жараённи такомиллаштириш буйича таклиф илгари сурилган, бу тезлик ва вацт каби параметрларни оширишга имкон беради. Таклиф цилинган модификацияланган моделнинг иш фаолиятини МАТЛАБ мущтидаги бошца купканалли моделлар билан таццослаш ва бауолаш мумкинлиги намойиш этилган.

Калит сузлар: вейвлет узгартириши, асосий оханг частотаси, кепстр, нут; сигнали.

This paper is devoted to the effective estimation of the speaker's basic tone frequency. To date, there are a number of methods for extracting the main frequency. This paper presents a comparative analysis on these methods, also a proposal to improve this process, allowing to increase such parameters as speed and time. The performance of the proposed modified model is compared and evaluated with other multi-channel models in MATLAB environment.

Key words: wavelet transform, base tone frequency, cepstrum, speech signal.

Введение. Акустический речевой сигнал, в отличие от письменной речи, переносит огромное количество дополнительной информации, связанной со смысловым значением сообщения (семантика), с индивидуальностью голоса диктора, с эмоциональным характером и стилем высказывания, типом речевого сообщения (монолог, диалог и т.п.), с окружающей обстановкой, состоянием голосового аппарата, половой принадлежностью, возрастом, ростом и весом диктора. Одним из важнейших параметров речевого сигнала является основной тон, содержащий информацию об интонационной структуре произнесения, особенности голоса диктора и его эмоциональном состоянии. [ 1]

Аудиосигнал — это представление звука, обычно в виде электрического напряжения. Частотный диапазон аудиосигнала составляет от 20 до 20000 Гц. Частота основного тона речи для всех голосов лежит в пределах от 75 (низкий тон низкого мужского голоса) до 500 Гц (высокий тон женского или детского голоса) [1]. Ещё больший диапазон изменений частоты основного тона голоса достигается при пении. Типичные средние значения частоты основного тона в речи, определённые в группе говорящих, составляют 132 Гц для мужчин, 223 Гц для женщин и 264 Гц для детей [4,12]. Аудиосигнал можно синтезировать напрямую или с помощью преобразователей, таких как микрофоны, фонограф и т. д. Высота звука -важный атрибут речи и является основной частью звукового сигнала. Корректная оценка высоты звука очень важна для её обработки. Высота звука определяет самый высокий или самый низкий тон определённого звука, который воспринимается нашим ухом. Человеческая речь является сложным и уникальным, из-за воздействия на неё артикуляторного (речевого, произносительного) аппарата. Артикуляторный аппарат — это система органов человека, расположенных в гортани, глотке и ротовой полости, и приспособленных для производства звуков речи. На сегодня имеется большое количество методов оценки и вычисления частоты основного тона человеческого звука. Сложность вычисления частоты основного тона увеличивается, когда в качестве входного сигнала являются не вокализированные звуки (согласные). Именно в данной группе звуков входной сигнал подвергается препятствиям артикуляторного аппарата. В статье описывается модель, которая эффективно и надёжно определяет частоту основного тона не вокализированных звуков.

Основная часть. В последние годы многие исследования были связаны с различными моделями восприятия человеческой речи [5-6, 11]. На сегодняшний день модель анализа основного тона наиболее эффективно определяется моделью, которая разработана Меддисом

и Омардом, и её предшественниками, Меддисом и Хэвитом. Данные модели являются одними из самых известных последних моделей анализа основного тона во временной области, где фильтр разделяет одноканальный сигнал на несколько каналов.

Согласно рис.1, входной сигнал проходит через полосовой фильтр. Огибающие канала вычисляются с использованием фильтрации нижних частот и полуволнового выпрямления. После вычисления огибающей процедуры каждого канала определяется периодичность традиционным методом автокорреляции [3,9]. Существует разные подходы для вычисления автокорреляционной функции. Автокорреляционная функция сигнала служит для определения степени отличия сигнала и его смещённой во времени копии. В методе автокорреляции сигнал в определенный момент времени сравнивается с его прошлыми и будущими значениями. Автокорреляция каждого канала суммируется, чтобы получить суммарную функцию автокорреляции.

Вход

Суммирование каналов

Рис. 1. Модель определения основного тона с использованием набора фильтров

Ансси П. Клапури в своих трудах предложил модель для определения высоты звука используя спектральную гладкость [5]. В другой статье авторами предположено, что спектральные огибающие реальных звуков являются продолжительными [9,10]. Операция сглаживания фиьлтром влияет на частоту основного тона заметно и исправляет около половины её ранее возникших ошибок. Используя принцип спектральной гладкости задача многоканальности сводится к оценке одноканальности.

Ещё одним методом определения высоты основного тона - использование функции средней разности величин (СРВ). Основная частота А - это основная часть высоты звука. В СРВ вместо корреляции входной речи с различными задержками формируется разностный сигнал между задержанной речью и её оригиналом. Затем для каждой задержки берётся абсолютное значение. Нелинейная обработка обычно используется для отслеживания высоты звука, чтобы уменьшить влияние структуры формант.

Важным параметром, описывающим спектр речевых сигналов, являются форманты.

Вхо^>

§ ц 3 а ^ 1 о и 5 *£ ^ о Высокая частота

Низкая частота

>

Полуволновое выпрямление

Обнаружение периодичности

Обнаруж

ение периодич ности

Суммирование по каналам +

-

Рис.2. Оценка высоты звука с использованием метода автокорреляции

Форманта представляет собой концентрации энергии в ограниченной частотной области. Для речевых сигналов принято вычислять от трёх до шести формант. Данная ограниченность формант по количеству связана с ограниченностью частотного диапазона речевого сигнала. Из шести формант первая по счёту является частотой основного тона (ЧОТ) речевого сигнала. Основным тоном речевого сигнала называют частоту, на которую приходится максимум мощности сигнала на частотах спектра, кратных частоте основного тона [8]. Другими словами, частота основного тона — это частота, через которую повторяются пики амплитудного спектра

В данной статье кратковременная корреляция входных сигналов устраняется с помощью фильтра предварительного отбеливания. Затем единственный канал сигнала делится на два канала ниже и выше 1000 Гц. Канал верхних частот снова подвергается полуволновому выпрямлению и производится фильтр нижних частот с целью отделить канал нижних частот. Периодичность каждого канала вычисляется с использованием автокорреляции. Автокорреляция использует дискретное преобразование Фурье (ДПФ) и обратное преобразование Фурье (ОДПФ). Автокорреляция вычисляется по следующей формуле

у2 = ОДПФ(|ДПФ(х/р)Г) + ОДПФ(|ДПФ(хЛр)|ш (1)

где х1р и хкр - сигналы низкого канала (ниже 1000 Гц) и высокого каналов (выше 1000 Гц). т определяет степень сжатия частотной области, и обычно т выбирают равным 0,7. Для увеличения скорости вычислений используется быстрое преобразование Фурье (БПФ) и обратное быстрое преобразование Фурье (ОБПФ).

Вывод суммарной автокорреляционной функции - индикатор периода основного тона, который не даёт эффективно оценить истинные пики. Поэтому суммарная автокорреляционная функция (САФ) генерирует пики на каждом фундаментальном периоде.

2 а р н К и н К Й

я К <и Л о о н И а

*

Э и « И и н С Й И и н

-*- ь

ОБПФ + -¥- —*— ОБПФ

Выявитель пика

Рис. 3. Блок-схема предлагаемого метода оценки высоты основного тона

Таким образом, для извлечения правильной частоты основного тона из сигнала САФ требуется улучшение. САФ сначала ограничивается только положительными значениями. Удаляются отрицательные пики из суммарной автокорреляционной функции. Затем увеличивается период времени и масштаб времени в два раза, который вычитается из исходного положительного ограниченного сигнала САФ. Эта разница содержит положительные и отрицательные значения. Таким образом, чтобы удалить отрицательные пики, его снова необходимо обрезать до положительных значений. Это улучшенная функция суммарной автокорреляции, а повторяющиеся пики удаляются в расширенной функции

суммарной автокорреляции. Результат суммарной автокорреляции может содержать как основные пики, так и повторяющиеся.

На рисунке 3 показана блок-схема предложенной модели, состоящая из четырех частей: предварительное отбеливание, разделение каналов, обнаружение периодичности и обнаружение пика.

Предлагаемая модель проверена для различных входных смешанных сигналов, таких как мужской и женский голос, женский и женский голос, мужской и женский голос с мужской доминантой, мужской и женский голос с женской доминантой. Для обработки речи используется речь из базы данных Т1М1Т. Результаты сравниваются с двухканальным методом, в котором для определения периодичности используется функция автокорреляции. (Рис.4.)

Таблица 1.

Средняя квадратическая ошибка для предложенного метода

Доминирующие Смешанные

Автокорреляция Кепстр Автокорреляция Кепстр

1 74 70 78 67

2 90 96 86 73

3 63 60 85 75

4 92 91 71 60

Таблица 2.

Средняя квадратическая ошибка для существующего метода

Доминирующие Смешанные

Автокорреляция Кепстр Автокорреляция Кепстр

1 128 112 137 95

2 136 138 96 71

3 125 116 101 70

4 134 130 138 96

В данных таблицах 1-2, 1-смешанный сигнал мужского голоса с мужским, 2-смешанный сигнал женского голоса с женским, 3-женский голос с доминирующим мужским, 4- мужской голос с доминирующим женским.

Согласно вышепридённым экспериментальным результатам можно утверждать, что предложенная модель дает лучшие результаты с точки зрения средней квадратической ошибки.

Заключение. В данной статье предложен новый модифицированный метод выделения частоты основного тона звукового сигнала, основанный на вейвлет-пакетном преобразовании и методе кепстра, который даёт высокие показатели точности и эффективности для узбеского языка. Согласно проведенным экпериментам процедура "предварительное отбеливание", основанная на искаженном методе линейного предсказания, эффективно устраняет кратковременную корреляцию между сигналами. Предлагаемая модель обеспечивает минимальную среднеквадратичную ошибку и снижает вычислительную сложность для узбекской речи.

ЛИТЕРАТУРА

1. Рабинер, Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер - М.: Радио и связь, 1981. - 496с.

2. Маркел Дж. Линейное предсказание речи / Дж. Маркел, А.Х. Грей. - М.: Связь, 1980. -308 с.

3. В.И. Парфенов, В.К. Бутейко. Корреляционная обработка радиосигналов. Учебно-методическое пособие для вузов. Издательско-полиграфический центр Воронежского государственного университета 2012. C-3

4. Коротченко В.В. Акустический анализ голоса у детей в норме и при заболеваниях гортани. Автореферат диссертации на соискание кандидата медицинских наук. // Москва. 2012. http://medical-diss.com/medicina/akusticheskiy-analiz-golosa-u-detey-v-norme-i-pri-zabolevaniyah-gortam#ixzz6 s6kgVOX 1;

5. Ансси П. Клапури «Оценка мультипитчей и разделение звука по принципу спектральной гладкости» Технологический университет Тампере, почтовый ящик 553, FIN-33101, Финляндия. 1016.

6. Мухасина Т. К, Лекшми М. Сб. Модель для оценки высоты тона с использованием метода кепстра на основе преобразования вейвлет-пакетов, Международная конференция по новым тенденциям в технике, науке и технологиях. 2011.

7. Гапочкин А.В. Определение основного тона речи с помощью вейвлет преобразования и его применение//Вестник МГУП имени Ивана Федорова, 2016. - № 1. - С. 22-24

8. Н.Ручай. Форматный метод текстовой проверки диктора. Вестник Челябинского государственного университета, №12, 2010, с.. 121-131

9. Е. Каприянова. Оценка частоты основного тона речевого сигнала на основе методов корреляции. Санкт-Петербург, 2017, с. 63

10. А.Иванов, А.Трушин, В.Маркелова, И.Рева. Исследование спектра формантов вынужденной речи. Вестник НГТУ, vol. 61, № 4, 2015, с. 63-73

11. Мусаев, М., Худжаёров, И., Очилов, М. Картиночный подход к распознаванию речи в CNN. В: ISCSIC 2019: 3-й Международный симпозиум по информатике и интеллектуальному управлению. С. 57: 1-57: 6. ACM (2019)

12. Мусаев, М., Худжайоров, И., Очилов, М . Разработка интегральной модели системы распознавания речи для узбекского языка. В: 14-я Международная конференция IEEE по применению информационных и коммуникационных технологий (AICT), 2020 г., стр. 1-6. IEEE (2020)

i Надоели баннеры? Вы всегда можете отключить рекламу.