Научная статья на тему 'Сегментация речевого сигнала на базе слоговых структур таджикского языка'

Сегментация речевого сигнала на базе слоговых структур таджикского языка Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
115
40
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Худойбердиев Х.А.

В статье рассмотрены проблемы в области распознавания речи и предложен подход решения на основе использования слоговой сегментации. В отличие от других подходов слоговой сегментации принимаются слоговые структуры, которые повышают вероятность распознавания речи на примере таджикской речи. При этом надежность распознавания звукового сигнала основан на точное деление речи на слоги, основанные на фонетические и грамматические правила таджикского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сегментация речевого сигнала на базе слоговых структур таджикского языка»

Новые информационные технологии в автоматизированных системах - 2018

Сегментация речевого сигнала на базе слоговых структур

таджикского языка

Худойбердиев Х.А., Худжандский политехнический институт Таджикского технического университета имени академика М.С.Осими

1а] Нп§уо@§таП. сот

Аннотация

В статье рассмотрены проблемы в области распознавания речи и предложен подход решения на основе использования слоговой сегментации. В отличие от других подходов слоговой сегментации принимаются слоговые структуры, которые повышают вероятность распознавания речи на примере таджикской речи. При этом надежность распознавания звукового сигнала основан на точное деление речи на слоги, основанные на фонетические и грамматические правила таджикского языка.

1 Введение

Процесс распознавания речи включает теоретические и практические направления для решения прикладных проблем. Одним из основных задач является автоматическое распознавание речи с целю преобразования речевого сигнал в текстовую информацию. Для решения задачи автоматического распознавания речи необходимо провести ряд процедур: сегментация речевого сигнала по определенным признакам, распознавание отдельных команд для управления устройств, распознавание существенных фраз в программных средствах, выявление некоторых ключевых слов в слитной речи.

В процессе предварительной обработки речевых сигналов на таджикском языке, т.е. сегментации сигнала на слоги требуется учитывать грамматические правила словообразования и структуру слогов.

Человек в процессе восприятия речи выводит свои гипотезы относительно звуковых фрагментов речи и получает соответственную информацию. В определенных случаях он заменяет звуковой сигнал на правильную смысловую часть и получает часть информации. Этот процесс доказывает то что речевой сигнал имеет ряд аспектов и решение задачи

преобразования речи в текст на базе простых прикладных приложений становится невозможным.

В данной статье приводятся методика сегментации речевого сигнала на базе слоговых структур таджикского языка. По правилам фонетической грамматики таджикского языка речевой сигнал проводится четко отделяющихся последовательностью слогов. Это правила способствует определят условные речевые отрезки, которые могут быть распознаны с помощью правил грамматики. Для этого необходимо провести анализ на базе имеющиеся фонетическим единицам языка -а именно слоговых структур слов таджикского языка [1]. Предусматривается выявит в потоке речевых сигналов сегменты с признаками, соответствующими определенным структурам слогов таджикского языка. Структурно-слоговая сегментация речи требует определение фонетического и структурного значения слога в речевом сигнале. В данном случае одна и та же структура слога может быть сопоставлена различным слогам в зависимости от заданного шаблона [2].

2 Многообразие структур слогов

Рассмотрим многообразие структур слогов в таджикском языке. Слоговые структуры таджикских слов разделены на слоги "вручную" (1-гласные, 0-согласные). В результате обнаружено всего лишь 9 различных структур слогов - 1, 10, 01, 010, 100, 0100 и 001, 0010, 00100.

Из них первые шесть свойственны природе таджикского языка, а три последние заимствованы из других языков.

Частота встречаемости (в процентах) упомянутых структур в обработанной текстовой информации указана в предложенной таблице.

Частота встречаемости (в %) слогов в символьной записи

Слоги 1 10 01 100 010 0100 001 0010 00100

Частота 8.10 5.74 56.56 0.78 25.75 2.95 0,05 0,06 0,01

Сегментация речевого сигнала на базе слоговых структур таджикского языка

Из таблицы видно, что двухбуквенные слоги типа «да», «ба», «ро», «на», «ни», «та», «ме», «ва» (в символьной записи - 01) и т.п. являются наиболее часто встречающимися, а трехбуквенные слоги типа «абр», «илм», «ишк», «умр», «орд» (в символьной записи -100) и т.п. - особо редкими. Кроме того, слоги 001, 0010 и 00100, заимствованные из других языков, эпизодически появляются в таджикских текстах (в сумме - 0.12%).

Отметим также, что 2 двухбуквенных слога 10 и 01 совместно с трехбуквенным слогом 010 составляют подавляющую часть слогов таджикского языка (88.05%). Кроме того, 2,3 - средняя размерность слогов в таджикском слове.

3 Область применения

Сегментация звукового сигнала - это процесс поиска границы слогов и фонем, которое состоит из нескольких этапов. В первом этапе проводится предварительная обработка речевого сигнала. Во втором этапе рассмотрены проблемы определения границ сигнала с соответствием характерных значений сло- 1 говых структур. Основной третий этап основано на сегментации речевого сигнала на части, в нашем случае на слоги, который явля- 2. ется важным этапом в процессе распознавания.

Для проведения сегментации моно ис- 3. пользовать один из следующих методов. Первый метод основан на наличии заранее известных последовательности распознаваемой фразы - база «звук-слог». В другом методе следует принимать базовые значения слогов и границы сегментов, которые определяются по степени изменения акустических характеристик звукового сигнала. Комбинируя два метода слоговой сегментации в потоке речи следует распознавание значимых единиц: паузы и слоги [3].

Слог - гласный или сочетание гласного с одним или несколькими согласными, который произносится с выдыхательным толчком речевого аппарата. Процесс распознавания слога - это состояние фонетического анализатора, при котором гласный звук соответствует его слоговой структуре. При этом гласный звук, раскрывает предшествующие и последующие звуки до пауз, граничащих с ним другими гласными звуками. В данном случае сегментация слоговых структур осу-

ществляется на этапах распознавания с применением фонетической грамматики языка.

После сегментации звукового сигнала проводится процесс распознавания звуков. Для распознавания звуковых сегментов используется алгоритм динамической трансформации шкалы времени. Задача данного процесса основан на автоматических измерениях звуковых характеристик и сходств двух временных последовательностей [4].

4 Выводы

Применение данного алгоритма требует стандартные образцы звуковых фрагментов, в нашем случае используется заранее подготовленный база «звук-слог». База сформирован озвучиванием слогов различными дикторами и на основе фонетических и артикуля-торных характеристик ручным способом предварительно обработаны.

Список литературы

Усманов З.Д., Худойбердиев Х.А. О слоговой структуре слов таджикского языка // ДАН РТ, Т.49, № 6, 2006. - с. 489-492.

Худойбердиев Х.А., О многообразии слогов таджикского языка // Известия АН РТ, № 2 (127), 2007. - с. 31-34.

Худойбердиев Х.А. Алгоритмы послогового распознавания таджикской речи в амплитудно-временном пространстве. Научно-практическая конференция «Приминение информационно-коммуникационных технологий для инновацио-оного развития Республики Таджикистан», ТУТ, Душанбе, 2017. -с.338-341.

4. Худойбердиев Х.А. Модель анализа и сегментации речевого сигнала для послогового распознавания таджикской речи. Вестник технологического университета Таджикистана. №4 (31). ТУТ, Душанбе, 2017. -с. 85-87.

i Надоели баннеры? Вы всегда можете отключить рекламу.