Научная статья на тему 'СИСТЕМА СЕГМЕНТНО-СЛОГОВОГО РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ ИЗ БОЛЬШИХ СЛОВАРЕЙ'

СИСТЕМА СЕГМЕНТНО-СЛОГОВОГО РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ ИЗ БОЛЬШИХ СЛОВАРЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
22
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ / СЛОГ / СЕГМЕНТНО-СЛОГОВОЕ РАСПОЗНАВАНИЕ / ТРАЕКТОРИЯ ПАРАМЕТРОВ / АЛГОРИТМ ЭВРИСТИЧЕСКОГО ПОИСКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савенкова Ольга Александровна

В статье рассмотрены основные модули системы сегментно-слогового распознавания изолированных слов из больших словарей, математические модели и алгоритмы сегментно-слогового синтеза эталонной траектории, положенные в их основу.The basic modules of the large vocabulary segment-syllabic recognition sys-tem of isolated words, the mathematical models and the segment-syllabic synthesis algorithms of a reference parameters trajectory are considered.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СИСТЕМА СЕГМЕНТНО-СЛОГОВОГО РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ ИЗ БОЛЬШИХ СЛОВАРЕЙ»

А-,!, . *

WT^ '_

m

54

Система сегментно-слогового распознавания изолированных слов из больших словарей

Савенкова О.А.

В статье рассмотрены основные модули системы сегментно-слогового распознавания изолированных слов из больших словарей, математические модели и алгоритмы сегментно-слогового синтеза эталонной траектории, положенные в их основу.

• система распознавания речи • слог • сегментно-слоговое распознавание • траектория параметров • алгоритм эвристического поиска.

The basic modules of the large vocabulary segment-syllabic recognition system of isolated words, the mathematical models and the segment-syllabic synthesis algorithms of a reference parameters trajectory are considered.

• speech recognition system • syllable eters trajectory • heuristic search.

segment-syllabic recognition • param-

Введение

Основные направления разработки систем распознавания речи (далее СРР): распознавание отдельно произносимых, не связанных по смыслу, слов, а также распознавание слитной речи как решение задачи декодирования языковой структуры речевого сообщения с использованием различных источников лингвистических знаний [1-10].

Решение задачи обработки и распознавания речи — задача структурной аппроксимации речевого сигнала (далее РС) как совокупности компонентов, так и иерархии категорий информации (информация о физической природе РС, о лингвистической структуре языка и речи). Существует актуальная проблема обеспечения соответствия между параметрическим, фонетическим и символьным представлениями речи [1, 4, 9]. Необходим комплексный подход к построению СРР, учитывающий взаимосвязи между иерархией представления информации о РС и решающий проблему акустико-фонети-ческого декодирования [1, 2, 5, 7, 9-11]. Данная проблема не имеет точного решения. Поэтому в основу её решения положим стратегию эвристического поиска с использованием специфических знаний о речевой информации на разных уровнях иерархии. Для этого согласно [12], исходную задачу сведём, во-первых, к выбору объектов, необходимых для решения задачи (алфавит объектов распознавания), а во-вторых, к разработке стратегий эффективного поиска потенциальных решений, которые могут быть сгенерированы с помощью выбранных объектов.

Однозначного ответа на вопрос о том, какие элементарные образы (фонема, слог, слово) и в каком количестве используются в процессе распознавания, пока не получено. Однако в ряде исследований показано, что обработка речи требует перехода от распознавания слов как целостных звуковых

образов к распознаванию звуковых единиц, которые меньше слова [3]. Сравнение моделей языка по количеству используемых разных языковых единиц в словаре и процентом непокрытых слов в текстовом материале показало, что чем меньше размер элементов, тем более полно они покрывают пространство слов языка [13].

Результаты исследований в области психоакустики и экспериментальной фонетики показывают, что любую речевую реализацию можно рассматривать как последовательность открытых слогов, которые представляют собой единство слогообразующего гласного (Г) и одного или более согласных (С). Фрагмент речи между паузами является цепочкой связанных между собой слогов. Причем единого деления на слоги внутри такого фрагмента не происходит, и в этом смысле слог не отличается от отдельного звука речи [10, 11, 14-18]. Таким образом, с одной стороны, слог — основа образования разнообразных звуков, а с другой — большого числа разных ритмических структур слов [11, 18-20]. Слоги являются оптимальными с точки зрения артикуляционной организации и надёжности распознавания. Их основное преимущество — учёт просодических свойств речи. О чём свидетельствуют существующие примеры систем анализа/синтеза речи, приведённые в [19, 21-24]

Элементы алфавита объектов распознавания для СРР из больших словарей должны иметь такую длину и быть подобраны в таком количестве, чтобы из них можно было построить любые слова или фразы и предложения [4, 25, 26]. Этим требованиям удовлетворяют слова-слоги длиной 2 и 3 символа-фонемы, причём в [25, 26] выявлено, что наиболее употребляемыми являются слоги, которые содержат 2 (С + Г) и 3 (С + С + Г) фонемы.

С учётом вышеизложенных фактов в данной работе рассмотрим модели и алгоритмы для решения задачи фонемно-слогового распознавания речи, в общем виде представленной в [4].

Пусть задан алфавит слогов 8Ь = {SL1,..., SLk,..., SLZ}, к = 1,..., Z . Каждый слог БЬк содержит К символов-фонем БЬк = ((,Р2,...,PK), VP¡ е Р (Р — множество всех символов-фонем). Для каждого слога 8Ьк задана последовательность

параметров ^ = ((, Уk2, Уы , Ушк), * = 1 • • •, N (траектория параметров (далее ТП) в пространстве признаков), определены границы сегментов-фонем

Sk =

Sk 2, Skj ,•••, SkL,

), j = — , Lk. Пусть

X = (xi,

,x,

также задана последователь) реализации РС, предъявленного для распозна-

ность параметров

вания. ДляХопределены границы сегментов-фонем S = (, s2,...,sL).Сегменты-фонемы Щ. (SG, = (^,•.., xsend), sbeg = st, send = sM, i = Ll составляющие последовательность параметров X = (SG1, SG2, •.., SGf, •.., SGL ) , могут быть объединены некоторым образом вМ групп-слогов XSLp по mp сегментов-

фонем каждая, причем ^ mp = L , p = 1, — ,M . Символьная последовательность

p

* / * * \

W = (P1 , P2, •..), которая соответствует последовательности параметров Хпредъявленной реализации РС, неизвестна. Необходимо траектории параметровХ наилучшим образом сопоставить траектории параметров слогов {Yk }, вычисляя

dist = Y min (xSLp # Yk ), p = 1, — ,M , k = 1, — ,Z , (1)

' k

p

где # — операция сопоставления. Таким образом, необходимо построить такую последова-

*

тельность параметров Х , которая будет близкой по своим параметрам к параметрам

*

предъявленной реализации речевого сигнала Х. Такую траекторию параметров Х будем называть эталонной траекторией параметров (далее ЭТП). Некоторую траекторию

55

параметров Х м, построенную из Хэлементов алфавита которая по количеству сегментов соответствует предъявленной траектории параметров Х, будем называть решением-кандидатом.

Для построения решений задачи (1) рассмотрим подход, основанный на применении методов поиска в пространстве состояний с учётом особенностей исследуемой задачи [12]: выбран алгоритм эвристического поиска в пространстве состояний, который в отличие от базовых стратегий поиска, использует определенного вида оценочную функцию (далее ОФ)_Дп), сокращающую объем перебора. В общем случае ОФ _Дп) для узла п имеет вид

Дп) = g(n) + Н(п), (2)

где g(n) — длина пути от начального узла к узлу п, Н(п) — эвристическая оценка расстояния из узла П к целевому узлу, для определения которой используют любую эвристическую информацию о решаемой задаче [12].

Структура системы распознавания речи «SPeach»

Структура системы «SPeach» (рис. 1) состоит из модулей, которые могут работать в режимах обучения и распознавания: (а) модуль обработки РС; (б) модуль формирования алфавита слогов; (в) модуль распознавания. В режиме обучения работают (а), (б), а в режиме распознавания — (а), (в).

ISLTY}

56

Рис. 1. Структура системы распознавания речи

Модель обучения

Последовательность этапов обработки информации о РС, которые составляют модель обучения, представлена на рис. 2.

1 2 3 4

> f

X XA, XE S, GT SL

Рис. 2. Модель обучения

Шаг 1. Ввод речевого сигнала с микрофона или открытие wav-файла из речевой базы данных (далее РБД).

Частота дискретизации речевых сигналов составляет FS = 22050 Гц. Шаг 2. Первичная обработка РС, формирование траектории параметров.

Интервал анализа РС, выбранный для исследований, ДT = 11,6 мс. В данной работе траектории параметров X = (x1, x2,..., xi,..., xT) , xi = (хг1, xi,2, ..., xi,., ..., xi,т ) ,

i = 1,...,Т (Т — количество интервалов анализа РС), . = 1,.,ш: спектрально-временное представление (далее СВП) ХА(с, /); спектрально-полосное представление (далее СПП) ХЕ (I, Г), I = 1,... ,9 [4, 27].

Для СВП ХА и СПП ХЕ разработаны модели аналитического описания в классе функций / е С (о), которые являются гладкими непрерывными функциями в соответствующих

частотно-временных областях определения О: [с0, со1 ]х[0, ]. Согласно им можно восстановить исходную траекторию параметров РС с минимальной погрешностью.

1. Построение аналитического описания СВП слогов

СВП ХА РС содержит произвольное количество всплесков/пиков спектральной энергии, которые произвольно расположены на определенной частотно-временной области Оа: С, сом ]х[ 0, ¿к]. Естественно найти набор функций в виде пиков, с помощью которых можно описать частотные и временные свойства РС [28].

Для построения аналитического описания ТП слогов, используется колоколообразная функция (далее КФ) модифицированный локон Аньези [4, 29 — 32].

Пусть в частотно-временной области Оа таблично задана спектрально-временная функция УА(а>^, ) для некоторого слога 8Ь., где ак, — дискретно заданные частота и время соответственно, к = 0,...,М, I = 0,...,N, . = 1,...,2. Для исходной траектории

параметров УА. слога 8Ь построим описание УЬА в виде суперпозиции произведений КФ:

ЗД)

a,

(i )

К ,

4 +

(TJ; )=4-п„,) •

(3)

где функции Zt(j)(1), 21 е [¿0, ], г = 1,...,Ь описывают временные свойства РС; функции %а>(1)(сок), е [с0, СОМ ], г = 1,...,Ь — частотные свойства РС. Произведение (т)• (о) описывает всплеск г = 1,...,Ь спектрально-временной

57

функции УЛ, который находится на частоте О, в момент времени Т. Областью определения произведений функций ) (Т )• (О) является область Вл. [(, (м ]х[0, ] . Тогда описание УЬЛ((й^, )в виде

суперпозиции Ь произведений КФ (3) в некоторой точке (щ, //) СВП имеет вид

YLA((Ok, t,) = £ Za(l)(щ)-Ztm(t,), к = 0,k,M, I = 0,k,N.

(4)

Определение неизвестных параметров КФ (3) а(¿), Ь(¿), с(¿), й^), Т^), О(г),

1 = 1,...,Ь выполняется по алгоритму, предложенному в [29, 30].

Пример аналитического описания СВП для некоторых слогов приведён на рис. 3-6.

Рис. 3. Исходное СВП слога «че»

Рис. 4. Описание СВП слога «че»

58

Рис. 5. Исходное СВП слога «век»

Рис. 6. Описание СВП слога «век»

2. Построение сплайн-описания СПП слогов

Анализируя вид СПП на интервалах продолжительностью сегмента-фонемы для разных звуков речи, можно сделать вывод: на каждом временном отрезке, который соответствует сегменту-фонеме, последовательности параметров СПП в каждой частотной полосе I = 1,...,9 имеют вид, который можно описать полиномами низких порядков Рп(х) , п < 3. Таким образом, для аналитического описания СПП элементов алфавита можно применить математический аппарат сплайн-функций [4, 33].

Пусть для слога £Ьк сформирована траектория параметров УЕк (СПП), найдены границы сегментов-фонем SGkn £ = (51, ..., 5п,..., ), к = 1,., 2, п = 1,., Ьк, Ьк = 2; 3; 4. Тогда модель сплайн-описания траектории параметров слога £Ьк , которая аппроксимирует исходную УЕк в частотной полосе, имеет вид

YSEk =

YSE,

YSE,

s1 < i < s2,

Sn-1 < i < Sn

YSE

YSEk ,n,i = ak ,n

k. L, + b

< i < s T

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k,

■ (tki - Sn-1 )+ ck,n • (tki - Sn-1 )2 + dk,n • (Yki - Sn-1 )3

(5)

(6)

где ак п, Ьк п, Ск п, dк п — коэффициенты Р3 (х), который описывает п-й сегмент-фонему к-го слога п = 1,...,Ьк.

Для нахождения параметров модели сплайн-описания траектории параметров УЕк в каждой частотной полосе I решается задача минимизации среднеквадратического приближения с условиями в точках сегментации (на основе эмпирических данных в качестве узлов сплайн-функции выбраны точки сегментации РС), которые обеспечивают требуемую гладкость и непрерывность:

Lk

^2 =ЁЕ (YSElXl -YEj,k)2 min

[32].

j=1 i=s

j-1

Шаг 3. Сегментация речевого сигнала методом верификации [4].

Шаг 4. Формирование алфавита слогов.

1. Выбор множества слов Ж = {Wj}, ] = 1,..., ЫЖ и соответствующей РБД

В качестве словаря, который используется для формирования алфавита слогов, выберем список частотных слов, построенный на основе представительного корпуса современного языка. Статистические данные о зависимости процента покрытия текстового корпуса (около 16 млн слов) частотными словами (Регс) от количества частотных слов представлены в [34].

2. Выбор структуры данных для хранения и эффективного использования информации

о слогах в системе распознавания речи

Для элемента £ЬМк, к = 1,., 2, М = 2; 3 из множестваМ-символьных слогов предложена структура данных, которая является совокупностью следующих категорий информации:

а) лингвистическая информация о к-том слоге (символьное представление $>Ьмк, транскрип-

ция £ЕГмк, идентификатор слова, в состав которого входит и др.);

59

П.!

s

L-1

k

k

n

60

б) вспомогательная информация об 8Ьк (идентификатор слога, количество

временных отсчетов NТмк, количество сегментов Ьк, границы сегментов

= ( ^ъ к, ), ТШП-транскрипция ОТк);

в) параметрическое представление (СВП, СПП, параметры модели описания

СВП в классе колоколообразных функций, параметры модели сплайн-описания СПП).

3. Декомпозиция слов W. на слоги

В модуле формирования алфавита слогов реализованы алгоритмы для следующей задачи [35].

Пусть задано некоторое множество слов Ж = {Ж}, j = 1, ..., NW, которому соответствует множество реализаций РС. Каждое слово Wj содержит ЬWj символов, т.е. Ж, = (м,, ). Для каждого слова Ж, найдена

j,LW/

транскрипция ЖТ = (м., ) длиной ЬЖТ. символов, ко-

торая соответствует сегментам-фонемам траектории параметров РС.

Процесс деления слов Ж = {Ж}, j = 1, ...,NW, с учетом транскрипции ЖТ,

в цепочку м-символьных слогов будем называть декомпозицией

DecompM (wj) = SLLf,..., SLMl

Бесошр : Ж _ , ьм,

где Ьм. — количество М-символьных слогов в слове Ж. (М = 2, 3).

(7)

Таким образом, в результате декомпозиции (7) для множества слов Ж сфор-

мирован алфавит £Ь, состоящий из М-символьных слогов

( 8Ь2,к = ,ш , ,ш+1} , $Ь3,к = ,ш , ,ш+1, ,ш+2} ,

Ш = 1,...,ЬЖ -М), общее количество которых составляет:

NW

Рзь (ж) = ^ ^ Ьм (М = 2, 3). Очевидно, что такой набор объек-

м=2

тов распознавания является избыточным, поэтому для покрытия множества слов Ж формируется такой алфавит £Ь*, что

FSL*(W)

^ Ш1П.

(8)

Проанализируем списки из 1000 (Ж1000), 5000 (Ж5000) и 9000 (Ж9000) наиболее частотных слов русского языка, для которых значения Регс: 64,07%, 82,06% и 87,82% соответственно [34].

Для выбранных списков частотных слов выполнено сравнение количества 2-и 3-символьных сочетаний, покрывающих указанные множества слов (результаты приведены на рис. 7). Выяснено, что множество таких 2- и 3-сим-вольных сочетаний, полученное с помощью (7) для Ж5000, покрывает почти 90% сочетаний, полученных для Ж9000.

Множество слов Ж5000 покрывает 82% текстового корпуса, который составляет 13 млн слов, что достаточно для создания СРР с большим словарём. Кроме того, начиная с Nw = 5000 частотных слов, значение прироста процента покрытия текстового корпуса этими словами увеличивается с достаточно малым шагом.

Поэтому считаем, что наиболее оптимальным для создания алфавита слогов является использование множества из 5000 наиболее частотных слов языка.

3

Рис. 7. Количественный анализ 1000, 5000, 9000 наиболее частотных слов

При формировании алфавита слогов необходимо также учитывать информацию о фонетическом представлении слов (обобщённая звуковая транскрипция, основанная на действующих в данном языке стандартных правилах чтения), которую можно получить с помощью правил транскрибирования (например, для украинского языка [22], для русского языка [19]) [1]. Так, например, для множества слов Ж5000 определено, что 92,8% 2- и 3-символьных сочетаний соответствуют 2-, 3- и 4-символьным сочетаниям в транскрипции, а 7,2% — соответствуют более длинным сочетаниям, которые можно получить объединением 2-, 3-, 4-символьных.

Известно, что ГС-сочетания сегментов С + Г, Г + С и С + С (Г — гласный, С — согласный) составляют три типа интеграции артикуляторных работ и составляют структуру артику-ляторного жеста в таких произносимых единицах, как слог и фонетическое слово [26]. Для множества слов Ж5000 был выполнен анализ количественного состава 2- и 3-сим-вольных ГС-сочетаний разных типов и определен порог N > 5% для включения их в алфавит (рис. 8).

Рис. 8. Структура множеств 2- и 3-символьных сочетаний для 5000 наиболее частотных слов

Сформулируем правило выбора элементов в алфавит на основе декомпозиции наиболее частотных слов языка: выбирать 2- и 3-фонемные слоги, составляющие все типы интеграции артикуляторных работ, и которым отвечают 2, 3 или 4 символа в транскрипции и соответствующему количеству сегментов в последовательности параметров РС.

4. Группирование слогов

Организация алфавита образов, которые используются в алгоритме распознавания, должна обеспечить максимально высокую скорость доступа к каждому элементу в процессе поиска. Для этого предложено применение следующих уровней группирования элементов алфавита (рис. 9).

61

62

Рис. 9. Схема группирования слогов

Группирование по количеству символов а = М и количеству сегментов в = Е-

SL2,2, SL3,2, SL2,3, SL3,3, SL2,4,

SL34 с SL

8Ь2 з (22 и 8Ь32) 8Ь3 з (23 и 8Ь33)

8Ь4 з (24 и 8Ь34), где 8Ьав, а = 2, 3, в = 2, 3, 4,. Коэффициент сокращения рассматриваемых элементов алфавита в каждом а -в-подмножестве- Кар = , где — количество сло-

гов в а - в-подмножестве, Z — общее количество слогов.

Пусть для каждого сегмента траектории параметров РС по некоторым правилам можно определить тип сегмента (признаки (Ш) шумного, (Т) тонального или (П) паузы). Тогда для слога можно сформировать ТШП-транскрипцию в виде символьной последовательности из обозначений типов сегментов и выполнить группирование элементов в а - в-подмножествах по типу ТШП-тран-скрипции (а - в - у-подмножества).

Информация о количественных данных алфавита слогов приведена в таблице 1 и рис. 10 (а, б, в).

Таблица 1

Количественные данные об алфавите слогов

Группа 8Ьав в = 2 в = 3 в = 4

а = 2 438 121 10

а = 3 0 1499 1579

Количество Ы^Х _ а,в 438 1620 1589

Количество Z 3647

Коэффициент Кар 8,33 2,25 2,3

Схема группирования слогов на первом уровне позволяет сократить множество рассматриваемых элементов алфавита в наилучшем случае в 8,33 раза (12,01% от общего количества слогов в алфавите), а в наиболее худшем — в 2,25 раза (44,42% от общего количества слогов в алфавите).

Ш-Ш 20%

mwmv&s;

Ш-Т 35%

Т-Т 17%

Т-Ш 28%

а) 2-сегментные слоги

Т-Т-Т T-LU-T 11,05% 15,43%

б) 3-сегментные слоги

в) 4-сегментные слоги

Рис. 10. Анализ алфавита слогов

5. Вычисление функции эвристической оценки состояний

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для выбора вида функции эвристической оценки состояний к(п) в оценочной функции Дп) (2) рассмотрены следующие характеристики сегментно-слогового представления информации о РС: вложенность слогов 8Ь2к £ SЬ3k на уровне слогов и траекторий параметров; тип сегментов; значение среднего расстояния между ТП слогов, которые принадлежат к разным способам сочетания признаков сегментов. Перечисленные характеристики можно использовать независимо для вычисления к(п). С учётом этого, выбраны следующие слагаемые оценки к(п) в Д(п) (2):

1) для узла п вычисляется значение оценки к(п) , на основе анализа вложенности слогов

^, £ SЬ Л,;

2,к 3,к

2) оценка к (п) вычисляется на основе анализа вариантов сочетания признаков сегментов

(Т-Т, Ш-Т и т.п.);

3) оценка расстояния к(п) для всех возможных переходов из узла п для разных вариантов

сочетания признаков сегментов;

4) оценка количества нераскрытых узлов к(п) , которые остаются нерассмотренными в про-

цессе поиска в направлении целевого узла.

Для каждого слагаемого 1)-4) экспертом задан соответствующий коэффициент (V, g, б, о), который имеет смысл веса соответствующей эвристической оценки, и правило нормирования весовых коэффициентов: 1/V + 1/g + Ий + 1/о = 1.

63

Савенкова О.А.

Система сегментно-слогового распознавания изолированных слов из больших словарей

64

Таким образом, выражение для вычисления значения эвристической оценки h(n) из узла n к целевому узлу имеет вид

h(n) = hv (n) + hg (n) + hd (n) + ho (n) =

=1 hv(n) + — hg(n) +1 hd(n) +1 ho(n). (9) v g d o

Для вычисления функции эвристической оценки состояний (9) был проанализирован словарь из 5000 наиболее частотных слов русского языка и соответствующие им записи из РБД [34]. Алгоритмы вычисления слагаемых функции эвристической оценки состояний и полученные результаты изложены в [36].

Модель распознавания

Последовательность этапов обработки информации о РС, которые составляют модель распознавания, представлена на рис. 11.

SL 1

1 2 3 4

> < > < г

XA, XE

S, GT

X , W

Рис. 11. Модель распознавания

Шаги 1-3 — аналогичные шагам 1-3 модели обучения, представленной на рис. 2.

В результате выполнения шагов 1-3 для предъявленного РС, сформирована траектория параметров в виде СВП ХА, СПП ХЕ, определены границы $ = {зр ..., sL} и тип ОТ сегментов.

Шаг 4. Поиск эвристических решений задачи сегментно-слогового распознавания.

На основе экспериментальных исследований сделан следующий вывод относительно использования представления ТП (СВП, СПП) при распознавании: СПП для предварительного распознавания и выделения списка из N-list решений-кандидатов для ЭТП; СВП — для выбора одного или нескольких решений-кандидатов из списка N-list по критерию максимальной близости в смысле (1) к ТП предъявленного РС и принятие решения о распознавании (или установление факта отказа от распознавания).

1. Поиск эвристических решений первого уровня

Для нахождения решений-кандидатов задачи сегментно-слогового распознавания (1) с помощью методов поиска в пространстве состояний (ПС) выполним формализацию задачи в терминах ПС:

1. ПС представим в виде корневого графа синтеза ЭТП X * (рис. 12): количество узлов пространства состояний определяется в зависимости от количества сегментов L ТП Х8 предъявленного РС; нумерация узлов на графе отвечает номерам сегментов 8О, i = 1,...,L в ТП предъявленного РС; коэффици-

ент разветвления Вг = 3; максимальная длина пути в ПС от начального узла к целевому

Len =

— ; глубина самого поверхностного целевого узла Dep = —

Рис. 12. Граф синтеза эталонной траектории параметров для Ь = 7

2. Состояние В:. ТПХ*м = (У У ..., У ..., Ум) на основе конкатенации ТП У слогов БЬ.,

г = 1, ...,М; ТП У. слогов БЬ. содержат Ь. = 2, 3, 4 сегмента-фонемы.

3. Начальное состояние £0: ЭТП X* не содержит ТП слогов, т.е. X* = 0.

4. Допустимые переходы на графе Г: дуги I. ^ ¡.+м, N = 2, 3, 4, которые соединяют узлы

на графе синтеза. Если не определены критерии для выбора дуги перехода из текущего состояния, то существует Вг! вариантов для перехода. Для выбранного перехода вычисляется значение стоимости дуги (евклидово расстояние) , которое характеризует близость группы сегментов УБЬ. предъявленного РС с траекторией параметров Ук некоторого слога 8Ьк .

5. Сумма стоимостей дуг, принадлежащих некоторому пути из начального в конечный узел,

определяет интегральное сходство X с Х*м

M

D = £ d,

i,i+ N

(10)

6. Целевое состояние £ : комбинация ТП У с минимальным значением (10) и соответствующая комбинация слогов £Ь., на пути от начального к конечному сегменту предъявленного РС. .

В результате анализа элементарных шагов сопоставления ^сегментных N = 2, 3, 4) траекторий параметров слогов с ТП предъявленного РС, которая сегментирована на Ь сегментов-фонем, определена математическая модель генерирования решений-кандидатов задачи (1) без учета порядка следования слогов внутри ЭТП:

АЯ, X, /) = 2 • п + 3 • X + 4 • /л, (11)

где п, X, /л — количество слогов, которые имеют 2-, 3- и 4-сегментные ТП соответственно. С помощью (11) можно оценить количество N уаг возможных решений-кандидатов для ЭТП: N уаг вычисляется исходя из количества наборов целочисленных значений {п, X, /л}, при которых выполняются условия 2 • п + 3 • X + 4 • /л = Ь, п, X, /л < Ь, п,

X, /л > 0, т.е.

N уаг = У /П Л,

65

66

где f (п, Л М) =

1, 2 п + 3-Л + 4 ju= L, п, Л, /и> 0, v 0, в другом случае.

Обозначим некоторое решение-кандидат таким образом Sol. = {path, X*, dist }, j = 1,..., N var, (путь решения path = 0 — ... — L ; в S0: path = {0}), тогда множество решений Sol= {Solp Sol2, ..., SolNvar}. Множество решений для примера графа синтеза (рис. 12) содержит Nvar = 5 возможных путей (рис. 13):pathx: 0 — 2 — 4 — 7;path2 0 — 2 — 5 — 7;path3: 0 — 3 — 5 — 7;path : 0 — 3 — 7;path : 0 -2 4 — 5.

®

..........................

Jcb ©Ö

jö 6

Рис. 13. Множество решений для случая L — 7

Зависимость N уаг от количества сегментов-фонем Ь в ТП предъявленного РС имеет экспоненциальный вид. Стратегия полного перебора вариантов практически не применима для поиска решений данной задачи вследствие большого объема вычислений при сопоставлении.

Один из способов поиска решений допустимых переходов l ^ l

- вычисление стоимостей ^ ,, для всех

1,1 + N "

Л на графе синтеза и нахождение оптимального пути из начальной вершины в конечную с помощью известных алгоритмов поиска кратчайшего пути, например, Дейкстры. Очевидно, что в зависимости от Ь такой поиск требует вычисления значений стоимостей в количестве

Cntedist (l) =

1, L = 2.

2, L = 3;

4, L = 4;

3x(L -3), L > 5.

Если количество слогов в алфавите Д то в общем случае для нахождения оптимального пути на графе синтеза необходимо осуществить, по меньшей мере, N = Ъ х СМей151(Ь) операций сравнения, что в свою очередь увеличивает время распознавания за счет лишних вычислений.

Другой способ использует предположение, что значения стоимостей всех дуг на графе синтеза неизвестны, и для нахождения ЭТП применяют стратегии направленного поиска, позволяющие сократить общее количество вычислений. Очевидно, что в наихудшем случае, используя второй способ поиска решений, необходимо осуществить Л2 = Ъ х Ьеп операций сравнения (Ьеп < Cntedist(L) для Ь ^ 5).

Эвристический алгоритм поиска решений задачи сегментно-слогового распознавания на основе алгоритма эвристического поиска в пространстве состояний, который использует оценочную функцию вида (2) с учетом (9)

и схему группирования (рис. 9), состоит из последовательности шагов А.1-А.7. Введены следующие обозначения: n, ng — начальный и целевой узлы соответственно; nSpisok, pSpisok — списки неразвёрнутых и развёрнутых узлов; CntPall — счётчик общего количества развёрнутых узлов; CntPg—счётчик количества узлов на пути от начального до целевого узла; WsortSpisok — упорядоченный список построенных решений-кандидатов, для которых выполняется условие D min < D < D max (D min, D max,

1 1 ' 1 1 ' J gr gr gr gr

определённые экспериментально границы оптимальности решения); CntW — счётчик в списке WsortSpisok.

А.1. Внести начальный узел ns = 0 в pSpisok, для каждого дочернего узла которого n = n + + N (N = 2, 3, 4) вычислить значение ОФ fn) (2) и внести эти узлы в nSpisok, cntPall = = 1; cntPg = 0, cntW = 0. Особенность вычисления ОФ fn) на этом шаге — для эвристической оценки состояний h(n) (9) не используется оценка hv (hv (n) = 0, поскольку для начального узла не существует родительских узлов, что делает невозможным её вычисление).

А.2. Если nSpisok пустой — окончание алгоритма, иначе — перейти к шагу А.3.

А.3. Выбрать из nSpisok узел n = n min с минимальным значением ОФ fn):

fmin = min([f (n, + 2), f (n + 3), f (n + 4), ...],..., f (n + 2), f (n + 3), f (n + 4)).

Изменить решение-кандидат для X*, добавив ТП слога из соответствующего a-, ß-, у-подмножества алфавита SL в i-тую позицию (i определяется номером текущего сегмента ТП предъявленного РС X). Вычислить значение стоимостей D. . + N . D (10).

А.4. Если узел n, . целевой, т.е. n, . = n , то выполняется операция композиция символь-

' fmin fmin g *

ной последовательности-решения задачи распознавания W**, которая отвечает найденной X*.

А.5. Если D < Dg min, то завершается работа алгоритма поиска и на выход поступает W*, в противоположном случае выполняются следующие опера-

g

найденный ответ

ции: узел n = nf min вносится в pSpisok (cntPall = cntPall + 1) и удаляется из nS-pi-sok; если D min < D < D max, то найденное решение вносится в WsortSpisok для следующего этапа принятия решения (cntW = cntW + 1); выполняется переход к шагу А.3.

А.6. Если nfmin Ф ng, развернуть узел nf min, построив все его дочерние узлы n = nfmin + N (N = 2, 3, 4). Внести узел nfmin в pSpisok (cntPall = cntPall + 1), удалив из nSpisok. Если для узла nf min отсутствуют дочерние узлы, то перейти к шагу А.2, в противоположном случае — к шагу А.7.

А.7. Для каждого дочернего узла n = nf min + N (N = 2, 3, 4) вычислить значение ОФ fn) и внести все узлы в nSpisok. Перейти к шагу А.2.

После завершения эвристического поиска на следующем этапе принятия решения выполняется анализ списка WsortSpisok и формирование списка «потенциальных» Nlist ответов распознавания W* или устанавливается факт отказа от распознавания. Нахождение списка из Nlist решений-кандидатов для ЭТП X* из условия наилучшей близости к траектории параметровXE предъявленного РС в смысле (1) осуществляется методом динамического программирования [1].

Построение траекторий параметров решений-кандидатов для ЭТП выполняется для случая СПП XEE с помощью сегметно-слогового сплайн-синтеза на основе следующей модели.

67

68

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть известно, что ЭТП для предъявленного РС состоит из ТП Я слогов. Модель сегментно-слогового сплайн-синтеза ЭТП в частотной полосе (для СПП) имеет вид:

Уц Ы,1 ), Ко < t < К^

Y (tj) =

Yr,i (t JR,), Ks-l < t < Ks,

где

У^ в^ )= ам + Ъм •(( - К)+см ■(( - К)) + dJJt •(( - К)),

0у,к ={а-к, Ъу,к, с!,к, dJ,k, К,}, У = Ъ-,Я, к = I,Ь}, Ь} = 2;3;4 , ^ = 1,-, S. В каждой частотной полосе I параметры сплайн-моделей

к = { к , Ъу,к , С7к , dJ,k , К, }, 7 = Я , к = ,

Ь = 2;3;4 для траекторий параметров слогов алфавита, составляющих ЭТП, вычисляются из условия минимизации ошибки аппроксимации

а 12 = ^^ (( - У17 к )2 ^ тт и условий, обеспечивающих гладкость

} к

и непрерывность в узлах сплайн-функций К = (К1, К 2,..„ KS,-, К8) в качестве которых выбраны точки сегментации ТП слогов и точки конкатенации ТП слогов внутри ЭТП.

На рис. 14 привёден пример (для 3, 5, 9 полос СПП) сегментно-слогового сплайн-синтеза ЭТП для предъявленного к распознаванию слова «человек».

*Г Траектория ш полосе 11? I" alii

1 [2 3 I« ¡5 17 je |э 1 ff ypttMtblKrwHroti

ЕЗо- 1

м о* 04 1

LZI 1

г ] 1

0? ол 0.1 о I ^--- г —\ ■

"Ту? лГ ¡1 ..... А

......^ ; 1 / ... .........

Г......... ..... ... ... 1

3 ! > 1С is 20 !5 3 0 35 10 i s so 5S 60 6 s к

Рис. 14. Пример сплайн-синтеза ЭТП в полосе

2. Поиск решений второго уровня

Для выбранных Nlist решений-кандидатов выполняется сегментно-слоговый синтез ТП XLA * в классе КФ из ТП YLA слогов алфавита для случая СВП и сопоставление с ТП XA предъявленного РС методом динамического программирования [1]. В результате сопоставления находится такая XLA *, которая наилучшим образом соответствует XA в смысле (1).

Модель сегментно-слогового синтеза ЭТП, состоящая из R слогов, в классе КФ имеет вид:

XLA * = YLA,. + YLA. +...+ YLA . +...+ YLAR, Nn < i < NR, (12)

1' 2г mг Ri 0 R' y '

где m = 1,..., R; Nm — количество временных отсчетов ТП YLAmi (4), t, e[1, NJ,...,

t e [1, N ] ,..., tR"e [1, Nr];N'0 = 1, nR = N, + N2 +...+ nR".'

m L 5 mJ ' ' R L 5 RJ' 0 ' R 12 R

Алгоритм сегментно-слогового синтеза ЭТП для СВП состоит из шагов Б.1-Б.3 [31]. Б.1. Нахождение области определения ЭТП D: [а ам] x [t tN].

Временной диапазон ЭТП 0, tN\, где tN = tN + tN +...+ tN . Диапазон частот ЭТП [а

12 К

а м\ совпадает с диапазоном частот УЬАт.

Б.2. Восстановление ТП УЬА выбранных К слогов из алфавита £Ь согласно (4) на всей области определения ЭТП ХЬА* В: [а ам\ х [t0, /\.

ТПу'-го слога определена в прямоугольной области ВА [а0, ам\ х [t0, tNj] и представлена параметрами а(0, Ь0), С(.), ё(Г), Т0), 0(Г) функций Zt(I.)(t¡), га(0, (ак) (3), г = 1,..., Ь., к = 1,..., м, I = 1,..., N..

Б.3. Синтез ЭТП ХЬА* согласно модели (12).

Описание СВП ХЬА * в некоторой точке (ак, t) представлено в виде суперпозиции К функций УЬАт (т = 1,..., К), которые являются аналитическим описанием СВП соответствующих т слогов из алфавита £Ь, таким образом

К / \ К ( Ьт \

XLA

ff, )=1 YLAmff, tf)=1 1 Щ,)(f)Zt(0()

m=1

m=1 ^ i=1

(13)

где Ьт — количество параметров КФ ZtI(t¡), Ха (ак) (3), . = 1,..., Ьт для соответствующего т-го слога ЭТП.

69

Савенкова О.А.

Система сегментно-слогового распознавания изолированных слов из больших словарей

70

На рис. 15 — 18 приведен пример реализации сегментно-слогового синтеза СВП для РС «человек».

Рис. 15. ТП слога «че» из алфавита, восстановленная на области определения ЭТП

Рис. 16. ТП слога «ло» из алфавита, восстановленная на области определения ЭТП

Рис. 17. ТП слога «век» из алфавита, восстановленная на области определения ЭТП

Рис. 18. ЭТП для РС «человек»

3. Композиция символьного ответа распознавания

Для предъявленного РС выполняется композиция символьного ответа распознавания Ж на основе конкатенации (& — операция конкатенации) символьной информации слогов алфавита, которые входят в ЭТПХЬА*: Ж = £Ь1 & £Ь2 & ... & £ЬК, или в фонемном

виде — Г = (р1, 1 & Р2, 1 [& Р3, 1\) & (р1, 2 & Р2, 2 [& Р3,2\) & " & РК & Р2, К [& Р3, Д

71

Эксперимент

Для исследований в»8РеасИ» использована РБД для списка Ж5000, которая содержит записи РС 10 мужчин и 10 женщин. Записи РБД сгруппированы в следующие выборки: (выборка РС для множества слов Ж1, из которых сформировано обучающее множество РЕ); 5Ж2 (выборка с другими реализациями РС для множества слов Ж1); 5Ж3 (выборка РС для множества слов Ж2, причём Ж1, Ж2 такие, что Ж1 П Ж2 = 0). Средняя длина реализации РС в сегментах без учета продолжительности сегментов:

Ь = 7. Средняя длительность реализации РС в РБД составляет t = 1,20 с. Примем это значение сопоставимым с реальным временем.

Проведены исследования адекватности моделей сегментно-слогового синтеза ЭТП, надёжности и быстродействия распознавания РС из РБД. Оценка адекватности моделей сегментно-слогового синтеза ЭТП выполнена по критерию надёжности распознавания для каждой выборки РС. Также вычислена оценка разборчивости синтезированного ответа системы распознавания, которая характеризует качество синтезированной ЭТП (оценка разборчивости измеряется процентом правильно распознанных слов аудиторами [37]). В экспериментах принимали участие 20 человек, которым было предложено записать услышанные слова (объём тестового словаря составил 100 слов). Количество верно распознанных слов аудиторами — 94%, что является приемлемым. Это свидетельствует о том, что эвристический алгоритм поиска решений задачи сегментно-слогового распознавания адекватно выбирает слоги из алфавита, а предложенная модель сегментно-слогового синтеза СВП в классе КФ позволяет с достаточной точностью восстановить ЭТП для распознаваемого РС из ТП слогов алфавита. Результаты исследований каждого этапа поиска эвристических решений приведены в таблице 2 (Тср — среднее время распознавания одной реализации РС; Егг — ошибка распознавания).

Таблица 2

Анализ алгоритмов сегментно-слогового синтеза

Критерии СВП СПП

SW1 SW2 SW3 SW1 SW2 SW3

Top, сек 0,5 0,55 0,45 0,5 0,35 0,40

Err, % 2,70 3,00 5,00 7,00 9,00 15,00

Nlist, % 7,00 10,00 10,00 10,00 12,00 15,00

72

Для предъявленной реализации РС время поиска на каждом этапе в среднем составляет 0,50 сек. Согласно результатам экспериментов, задержка между окончанием ввода РС с микрофона и ответом системы распознавания составляет в среднем 1,00 сек., что является допустимым для современных диалоговых систем. Использование эвристической оценочной функции позволяет уменьшить ошибку распознавания до 5%. Проведен анализ ошибок распознавания РС, в ходе которого выявлено, что большая часть ошибок распознавания связана с ошибками при определении границ сегментов, например, между безударной гласной и сонорными согласными. Поэтому одним из дальнейших направлений исследований является усовершенствование алгоритмов сегментации.

Литература

1. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. К.: Наукова думка, 1987.

2. Винцюк Т.К. Образный компьютер: Концепции, методология, подходы. // Системы технического зрения и искусственного интеллекта с обработкой и распознаванием изображений. К., 2001. С. 125-138.

3. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001.

4. Карпов О.Н. Технология построения устройств распознавания речи. Д.: Изд-во Дне-пропетр. ун-та, 2001.

5. Волошин В.Г. Компьютерная лингвистика. С.: ВТД, 2004.

6. Жожикашвили В.А., Петухова Н.В., Фархадов М.П. Компьютерные системы массового обслуживания и речевые технологии. // Проблемы управления. 2006. № 2. С. 3-7.

7. Ronzhin A.L., Yusupov R.M., Li I.V., Leontieva A.B. Survey of Russian speech recognition systems // SPEC0M'2006. St. Peterburg, 2006. P. 54-60.

8. Pylypenko V. Information retrieval based algorithm for extra large vocabulary speech recognition // SPEC0M'2006. St. Peterburg, 2006. P. 67-69.

9. КушнирДА,Харламов А.А. Распознавание речи в базисе многомерного сигнального пространства // Информационные технологии. 2005. № 5. С. 30-36.

10. Загоруйко Н.Г. Методы распознавания и их применение. М.: Сов. Радио, 1972.

11. Распознавание слуховых образов / Под ред. Н.Г. Загоруйко, Г.Я. Волошина. Н.: Наука, 1970.

12. Рассел С., Норвиг П. Искусственный интеллект. М.: Вильямс, 2006.

13. Карпов АА. Модели и программная реализация распознавания русской речи на основе морфемного анализа: Автореф. дисс. канд. техн. наук: 05.13.11. Санкт-Петербург, 2007.

14. Егоров А.И., Дубровский В.В. Об анализе слуховых образов речевого сигнала. http:// www.kcn.ru/tat_en/ science/fccl/ar1.htm

15. Теория слога. www.erudition.ru

16. Kopeccek I. Speech Recognition and Syllable Segments. // Workshop on Text, Speech and Dialogue TSD'99. Lectures Notes in Artificial Intelligence. Springer-Verlag, 1999. P. 203-208.

17. Shastri L, Chang S., Greenberg S. Syllable detection and segmentation using temporal flow neural networks // Int. Congress of Phonetic sciences. San Francisko, 1999. P. 138-146.

18. Белявский В.М., Светозарова Н.Д. Слоговая фонетика и три фонетики Л. В. Щербы. http://www.auditech.ru/doc/cherba.htm

19. Орлов И.А. Слоговой компиляционный синтез русской речи // Речевая информатика. М.: Наука, 1989. С. 119-139.

20. Лингвистический энциклопедический словарь. М.: Сов. энциклопедия, 1990.

21. Vasylyeva N, Sazhok M. Text selection for training procedures under phoneme units variety // SPEC0M'2005, St. Peterburg, June 25 — 29, 2005. St. Peterburg, 2005. P. 629-631.

22. Крак Ю.В., Горбань В.В. Один из подходов к разработке системы автоматического озвучивания текстов на украинском языке // Искусственный интеллект. 2004. № 1. С.196-203.

23. Togawa F., Hakaridani M., Iwahashi H. Voice activated word processor with automatic learning for dynamic optimization of syllable templates // ICASSP'86. Int. Conf. Acoust., Speech and Signal Process. New York, 1986. Vol. 2. P. 1121-1124.

24. Tsuboi T, Tomihisa A, Sugamura N. Japanese linguistic processing for continuous speech recognition // ICASSP'87. Int. Conf. Acoust., Speech and Signal Process. New York, 1987. Vol. 2. P. 805-808.

73

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

25. Бондарко Л.В., Зиндер Л.Р., Штерн А.С. Некоторые статистические характеристики русской речи // Слух и речь в норме и патологии. Л., 1977. Вып. 2. С. 3-16.

26. Дудник З.В., Затайдух О.В., Майдиков П.В. Использование Perl и Excel для создания базы данных и статистической оценки текстовых массивов в русском и украинском языках. http://www.philol.msu.ru/~rlc2004/ru/ participants/psearch.php?pid=19229

27. Савенкова ОА, Карпов О.Н. Некоторые эксперименты по повышению надежности распознавания слов заданного словаря // Системные технологии. 2004. Вып. 35. С. 60-66.

28. Романенко С.В., СтромбергА.Г. Классификация математических моделей аналитических сигналов в форме пиков // Журнал аналитической химии. 2000. Т. 55. № 11. С. 1144-1148.

29. Карпов О.Н. Вычислительные схемы представления функций многих переменных в классах функций меньшего числа переменных. Д.: Изд-во Днепропетр. ун-та, 2003.

30. Карпов О.Н., Габович А.Г., Марченко Б.Г. Компьютерные технологии распознавания речевых сигналов. К.: Полиграф-Консалтинг, 2005.

31. Савенкова О.О., Карпов О.Н. Применение колоколообразных функций в алгоритме сегментно-слогового синтеза // Математическое моделирование. 2008. T. 1(18). С. 5-9.

32. Савенкова О А, Карпов О.Н. Технология построения интеллектуальной системы распознавания речи // Искусственный интеллект. 2008. № 4. С. 785-795.

33. Де Бор К. Практическое руководство по сплайнам. М.: Радио и связь,

34. Частотный словарь. http://www.artint.ru/projects/frqlist.asp

35. Савенкова О.А. Разработка нейросетевого алгоритма поиска решений задачи распознавания речи // Вестник академии таможенной службы Украины. 2010. № 43. С. 137-144.

36. Савенкова ОА. Вычисление слагаемых функции эвристической оценки состояний в пространстве состояний задачи сегментно-слогового распознавания речи // Труды конф. Укр0браз'2010. Киев, 2010. С. 69-72.

37. Людовик Т.В., СажокН.Н. Использование речевых баз данных большого объема при синтезе речи в системах искусственного интеллекта. // Проблемы управления и информатики. 2003. № 6. С. 82-87.

Сведения об авторе

Савенкова Ольга Александровна —

Область интересов: обработка и рспознавание речевых сигналов, нейронные сети. E-mail: 2sol@ukr.net

1985.

74

i Надоели баннеры? Вы всегда можете отключить рекламу.