10) откат к рассмотрен нему последним ведущему элементу и получение следующего качественно другого решения (решение являеся таковым, если оно предотвращает причину несовместимости некоторого числа решений);
11) если решение найдено, то к п. 6, иначе к п. 9;
12) формирование выходного описания и завершение работы;
13). решение при данной постановке задачи и текущем содержании БД получить не представляется возможным. Пользователю предлагаетсяизменить постановку задачи или пребегнуть к другим методам решения проблемы.
УДК 681.390
С.М. Ковалев, В.В. Шаповалов, В.А. Зозуля МИНИМИЗАЦИЯ ЧИСЛА ЭТАЛОННЫХ ЭЛЕМЕНТОВ В МОДЕЛИ ЛПК-СИНТЕЗА РЕЧЕВЫХ СООБЩЕНИЙ
Одной из основных проблем, стоящих перед разработчиками автоматизированных рабочих мест (АРМ) оперативно-диспетчерского персонала является проблема выбора «дружественного» интерфейса между человеком и машиной. В этой связи, использование речевого вывода информации представляется в ряде случаев наиболее перспективным, а иногда и единственно возможным способом общения.
Исследования в области речевого синтеза [1] не уменьшают актуальность проблемы, поскольку к настоящему времени задача выбора между максимальным словарем, качеством синтезируемой речи и ресурсами ЭВМ так и остается открытой. Второе дыхание данная проблема получила в последние годы в связи с широким внедрением однокристальных микро-ЭВМ, у которых ресурсы памяти весьма ограничены.
Наиболее распространенной моделью синтеза речи является модель линейнопредикатного кодирования (ЛПК-синтез), являющаяся определенным компромиссом между качеством синтезируемой речи и объемом требуемой памяти. Достаточно естественное звучание ЛПК-синтез дает при затратах памяти 1000-1200 байт на 1 секунду речи. Дальнейшее «сжатие» речи можно получить без заметного ухудшения качества, решив две задачи. Во-первых, проводя более укрупненную факторизацию стационарных участков звучания, а во-вторых, используя субъективную модель оценки качества синтезируемой речи, объединяющую в себе основные факторы, влияющие на естественность звучания. Такая модель, построенная с привлечением аппарата теории нечетких множеств, приведена в [2].
В настоящей статье ставится и решается задача укрупненного разбиения интервала речевого сообщения на квазистационарные участки с использованием метола самосегментации, приведенного в [3]. Мера качества определяется нечеткой моделью на базовой шкале - ошибки фильтра предсказания.
Пусть речевые сообщения 8 представлены последовательностью gl,g2,...,gn элементов речи, каждый из которых является вектором ЛПК-параметров, полученным в результате анализа сигнала на интервале 15 мс [4], т.е. 5=^1,§2,.»*ёп}-
Пусть для некоторого К ^ п задано разбиение Р последовательности в на К непересекающихся подпоследовательностей (сегментов) ={Бп^|2»»>>Ы> (¡=1 ,...,К) из расположенных друг за другом элементов дев. Для произвольных е Б, определим меру близости (расстояния) р^£к) в качестве которой может выступать, например, минимальная дисперсия спектров.
Примечание. Для дальнейших рассуждений конкретный вид формулы меры близости р является непринципиальным. Важно лишь то, чтобы она количественно отражала «похожесть» интервалов звучания в смысле совпадения спектральных составляющих, что достаточно хорошо обусловлено в [4].
Тогда, существуют элементы §це8| , для которых па основе выбранной меры близости р, величина р(вц,8^= Р( £(/•£'/) , являющаяся суммарным расстоянием между g|j и
g¡|CS¡
всеми элементами из 8|, принимает минимальное значение. Назовем такие элементы эталонными и обозначим как е|, тогда последовательность Е(8)={е1,е2,..чек} назовем эталоном реализации 5 относительно разбиения Р.
Приведенное определение позволяет для любой реализации речевого сигнала в и любого се разбиения Р на сегменты (¡=1,—.,К) построить
конструкцию 8(Е(8),Р) = е1,е„...,е,, е2,е2,...,е2,..., ек,ек,...,си
¡1-раз ¡г-раз ¡к-раз
которая получена путем замещения в в всех элементов, входящих в один сегмент разбиения Р, на эталонный элемент в|. Если при этом количество К сегментов в! соответствует «динамике» изменения параметров речевого сообщения Б, последовательность в(Е(8),Р) можно использовать для замены исходной реализации в при речевом синтезе. Для синтеза речевого сообщения требуется хранить элементы С| и количество ИХ повторений В сегментах 81.
к
Определим величину р(Е(8),8)=2, р(е1,5’|) , характеризующую суммарное
1 = 1
расстояние эталонных элементов от всех остальных элементов речи в реализации в. Расстояние р(Е(8),8) несет количественную информацию о «похожести» звучания реализации 8(Е(в),Р) на звучание исходной в.
Задачу сжатия речевого сигнала можно сформулировать следующим образом. Для исходной последовательности в требуется найти минимальное разбиение Р на К сегментов (минимум значения К) для которого минимизировано расстояние р(Е(8),8).
В приведенной постановке задача является двухкритериальной. Причем первый критерий служит для как можно большего сжатия в, а второй для сохранения как можно более высокого качества синтезируемой речи. В силу того, что оба критерия конфликтуют, точное решение задачи возможно, если в постановке один из критериев заменить ограничением.
Пусть для некоторой реализации в речевого сигнала задана величина К(К<п), характеризующая число сегментов некоторого разбиения. Поставим задачу нахождения такого разбиения Р реализации в на К сегментов, при котором для получения эталона Е(в) величина р(Е(8),8) наименьшая из всех возможных таких разбиений.
Для решения поставленной задачи воспользуемся методом динамического программирования, впервые использованном для решения задач подобного рода в [3]. Приведенная процедура является базовой для решения поставленной задачи. Назовем такую процедуру К-сегментацией.
Далее применим К-сегмснтацию для исходной реализации 8(п-1) раз для к=п-1,к=п-2,...,к=1. Очевидно, что в каждом к-том случае (к-1,2,...) мы будем получать разбиение Рк, зависящее от К. Каждое разбиение индуцирует соответствующий эталон Ек со своей мерой близости р(Ек(8),8). Понятно, что с уменьшением К расстояние р будет увеличиваться. Построенная таким образом зависимость позволяет установить для наперед заданной меры р минимальное разбиение и, наоборот, для заданного числа сегментов в разбиении найти такое, которое минимизирует ошибку р.
Рассмотренный метод сегментирования позволяет существенно снизить затраты ЗУ на хранение речевых сообщений. Дальнейший резерв в «сжатии» заключается в замене эталонных элементов речи на элементы, извлекаемые из некоторого постоянного для данного диктора словаря. Такой подход напоминает фонемный синтезатор, компилирующий речевые сообщения из некоторого постоянного набора фонем, поэтому и получил название пофонемный.
Пусть задана некоторая достаточно длинная реализация S одного или нескольких речевых сообщений и некоторое ее разбиение Р на К сегментов. При достаточно большой последовательности S значение К может быть также достаточно велико. Или, что то же самое, велико число эталонных элементов. Понятно, что в этом случае велика вероятность дублирования некоторых элементов, если не абсолютно идентичными, то во всяком случае, очень «похожими». На физическом уровне это означает повторение стационарных участков для одной и той же фонемы или аллофона в одной или различных фразах. Это обстоятельство позволяет осуществить дальнейшее сжатие. Введем в рассмотрение некоторую величину е, характеризующую порог близости (расстояния) между элементами речи. Не оговаривая конкретное значение е, предположим пока лишь, что это расстояние является достаточно малым. Например таким, что если для некоторых е| и ej имеет место p(ei,ej)^E, то данные элементы соответствуют очень похожим на слух участкам речи. Тогда на множестве эталонных элементов E="{ei,e2,...,e„} можно определить граф GE=(E,r). соединив дугами те и только тс пары вершин ei,ej, для которых p(ei,ej)<£.
Напомним, что внешне устойчивым множеством графа G называется такое подмножество его вершин XqG, из которого «достижима» любая вершина графа, конкретнее
(УееЕ){Эх*ХНее1\х)).
Понятно, что любое внешне устойчивое множество графа G соответствует такому подбору элементов из Е, которого достаточно для описания эталона Е с точностью е. Практический интерес представляют минимальные внешние устойчивые множества, поскольку в этом случае мы приходим к минимальным «функционально полным» словарям.
Алгоритм поиска минимальных внешне устойчивых множеств приведен в [5].
Этот алгоритм позволяет строить для множества речевых реализаций S-единое минимальное множество эталонных элементов. При этом «сжатие» достигается по двум направлениям. Во-первых, за счет замены (10-12)-ти элементных векторов параметров geS номерами их эталонов в Е. Во-вторых, как только что было показано, за счёт уменьшения самого эталонного множества.
Приведённые в статье методы были апробированы на «сжатии» речевых сообщений, произносимых диктором-женщиной на рабочем словаре из пятидесяти слов железнодорожной тематики. При этом в словарь на первом этапе испытаний были включены только фразы, «лояльные» к ЛПК-преобразованиям. Последнее означает, что при замене прямых отсчётов речевого сигнала элементами речи с 15-ти миллисекундным интервалом и последующем синтезе по рекуррентным соотношениям качество синтезируемого сигнала было «отличным» по семибальной нечёткой шкале качества.
ЛИТЕРАТУРА:
1. Рабинер Л.Р.,Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ./ Под ред. М.В. Назарова и Ю.Н. Прохорова. - М.: Радио и связь, 1981.-496 с., ил.
2. Ковалёв С.М., Шаповалов В.В. Нечеткая модель оценки синтезированной речи в системах оперативно-диспетчерского управления. Статья в межвузовском сборнике: Ростов-на-Дону, РГУПС, 1997.
3. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. Киев, «Наукова думка», 1987 г.
4. Дж.Д. Маркел, А.Х. Грей. Линейное предсказание речи: Пер. с англ./ Под ред. Ю.Н. Прохорова и B.C. Звездина. М.: Связь, 1980. - 308 с., ил..
5. Ковалев С.М. О нахождении минимальных покрытий в гиперграфах. В книге «Методы построения алгоритмических моделей сложных систем», Таганрог, 1980 г.