К оценке эффективности параметров речевых сигналов

Б. Н. Епифанцев; В. П. Евменов

ИЗВЕСТИЯ

ОРДЕНА ОКТЯБРЬСКОЙ РЕВОЛЮЦИИ И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ПОЛИТЕХНИЧЕСКОГО ИНСТИТУТА имени С. М. КИРОВА

Том 194 ' 1972

К ОЦЕНКЕ ЭФФЕКТИВНОСТИ ПАРАМЕТРОВ РЕЧЕВЫХ

СИГНАЛОВ

Б. Н. ЕПИФАНЦЕВ, В. П. ЕВМЕНОВ

(Представлена научным семинаром кафедры вычислительной техники)

Известно, что при переходе от абсолютного описания речевых сигналов к системе признаков последние выбираются методом «проб и ошибок» [1]. Но чтобы оценить, насколько удачно был выбран тот или иной признак, необходим критерий, дающий количественную оценку признака с точки зрения его последующего применения. До последнего времени в качестве такого критерия в большинстве случаев использовался процент ошибок классификации. Для этого в пространстве выбранного признака (признаков) строились собственные области образов, оценивалась их форма (выпуклость, вогнутость), степень пересечения областей, относящихся к разным классам, и т. д. После этого предлагалась методика классификации, ставился эксперимент и проверялось, какую ошибку следует ожидать при распознавании данных образов. Указанной величиной ошибки характеризовалась эффективность признака (признаков). То ли в силу огромного числа признаков и их коррелированное™, то ли в результате применения не тех методик классификации, получить приемлемых результатов при ориентировке на рассматриваемый способ не удалось до сих пор. Нетрудно понять, что данная процедура оценки эффективности признаков не дает информации, в какой степени исследуемый признак важен для человека, распознающего речь. Поэтому мы не можем сказать, отражает ли процент ошибок классификации информацию, необходимую либо для понимания сказанного, либо для характеристики особенностей произношения. Этим, пожалуй, объясняется тот интерес, который сейчас проявляется к полуобъективному критерию, коэффициенту разборчивости и способам оценки эффективности признаков, отсюда вытекающим.

Одним из способов, основанным на коэффициенте разборчивости, является способ «анализа через синтез». Идея его состоит в том, что с помощью подбора параметров электрической модели речевого тракта синтезируются звуки и в случае получения приемлемого с точки зрения разборчивости сигнала производится математическое описание модели.

Другой способ может быть назван «способом искажений». Эффективность признаков по этому способу оценивается коэффициентом разборчивости речи, подвергнутой намеренным целенаправленным искажениям. Факт исчезающего малого влияния соотношения амплитуд в сигнале на разборчивость (клиппированная речь) получен в результате применения «способа искажения».

Несмотря на кажущуюся простоту, методика постановки рассмотренных методов (исключая первый) не разработана, чем, собственно, можно объяснить эпизодичность работ на их основе. С другой стороны, коэффициент разборчивости может быть использован для оценки отдельных признаков и ряда их совокупностей.

Ниже предлагается иной подход к оценке эффективности признаков. По существу он является продуктом объединения рассмотренных способов и позволяет получить ту информацию о признаке, которую не в состоянии дать существующее.

Анализ речи дал много фундаментальных фактов. Нас будут интересовать такие, как, например, увеличение разборчивости клиппирован-ной речи, предварительно пропущенной через четырехполюсник, амплитудно-частотная характеристика которого имеет подъем в сторону высоких частот, т. е. такие преобразования, которые, бесспорно, затрагивают информационную структуру речевых сигналов. Тогда влияние тех или иных преобразований может быть описано вектором 6, каждая орта которого ё. = (Л;/Л), где Л;—-коэффициент разборчивости речи, подвергнутой I преобразованию, Л — коэффициент разборчнзости неискаженной речи, знак „ + " ставится, когда Л<Л/, „ —44, когда Л > А-г

Но нетрудно получить аналогичный вектор а. При этом ±(с11!с10), где —критерий различения по выбранным признакам между классифицируемыми речевыми сигналами, подвергнутыми / преобразованию, с10~ тот же критерий для неискаженной речи, знак „-К' ставится при условии ¿0 < ¿1 „ —когда ¿/0 > Поскольку размерность векторов а и о одинакова, оценкой эффективности признака может служить величина

2 - з,-)2

а (о, = ~-.

2 (К-1 +1 з,-1)2 ¿=-1

Очевидно, 0 <¿(0, б) ^ 1, при этом, когда с?(сг, б) — 0, эффектив* ность рассматриваемых признаков максимальна (100%), при ¿/(ст, б) = 1 эффективность (Э) равна 0. Зависимость Э = 1[сЦау б)] является предметом специальных исследований. Величина б) содержит информацию о том, насколько важен при распознавании исследуемый признак (признаки) для человека и насколько близка применяемая процедура опознавания к используемой человеком.

Развитием этого способа может служить привлечение информации о влиянии факторов (громкость, длительность звуков и т. д.) на значение выбранного параметра (параметров) и эвристических соображений о функциональной зависимости коэффициента разборчивости от рассматриваемых факторов.

Проиллюстрируем сказанное примерами.

1. Требуется оценить эффективность средневозвыщенной частоты звуков (величины, пропорциональной плотности переходов функции через нуль рг3 , найденной на интервале существования звука Г3).

Для решения этой задачи звуки последовательно через преобразователь аналог—код вводились в оперативную память ЭВМ БЭСМ-2М. Программным путем для каждого звука подсчитывалось число переходов функции через нуль о т3 , которое затем делилось на время Г3} т. е. находилась величина

Контроль соответствия введенного в ЭВМ сигнала исходному осуществлялся прослушиванием записанной в машину информации путем вывода ее через синтезатор на громкоговоритель.

Каждый из гласных звуков у произносится одним диктором одинаковой громкостью по 40 раз и для каждой реализации г (1, 2...,

... 40) определялась величина /Ч . Затем по данным статистического

и

ряда вычислялись частоты многоугольника распределения Ры^Ц ' з/

попадающие в соответствующий ряд оГТз, и эвклидовы расстояния

<1{Р^Ты , = ]- Р**ти У-

По ряду значений ■) находилось общее расстояние

/я

путем усреднения всех возможных расстояний ]к(]Фк).

Следующий этап — получение величин ¿срФ), которые отли-

чаются от с1ср тем, что перед вводом в машину речь пропускалась либо через частотный корректор, имеющий подъем частотной характеристики в сторону высоких частот на 6 дб\окт, либо через фильтр (250—5000 гц). Возможны и другие искажения речи [2], которые мож_ но охарактеризовать величинами В нашем примере мы ограничим-

ся двумя (й%к\ ¿срФ))- Величины й%к), ¿срФ) приведены в табл. 1.

Из литературных источников известно [2, 3], что введение частотного корректора и полосового фильтра увеличивает разборчивость речи. Это значит, что указанные преобразования разносят собственные области образов, построенных в координатах признаков, по которым человек распознает речевые сигналы. Объективные же данные (¿ср, табл. 1) дают иную картину. Вывод единственный, при • распознавании звуков речи человек не использует такой параметр, как -Рг3.

Об этом же говорит величина введенного критерия й (а, б) = 1.

Таблица 1

Элемент проверки Объективный анализ Субъективный анализ

Неискаженная речь (ограничитель) ¿ср = 0,63

Частотный корректор-ограничитель А=97%

Полосовой фильтр-ограничитель ¿<;ф>=о,5з Л—95%

й (а, о) = 1, 3=0

Кстати сказать, отрезок синусоиды частотой Т7^, заданный на интервале 73, никогда не напоминает какой-либо из звуков, а приводимые в литературе примеры более удачного решения некоторых проблем, нежели это делает природа, в случае распознавания речи вряд ли приемлемы. Следует, наконец, заметить, что если факторы громкости и диктора оказывают существенное влияние на значение Рг3 , то для пони-

10. Известия ТПИ, т. 194. 145

мания сказанного человеку безразлично, кто из дикторов говорил и с незначительными допущениями, как громко произносились звуки.

2. В качестве второго примера оценим эффективность распределений плотности вероятностей длительности интервалов между нулями.

Поступая аналогично пункту 1, определим общие эвклидовы расстояния между усредненными по реализации распределениями / и к звуков для случаев с частотным корректором, полосовым фильтром и без них. Результаты этой работы приведены в табл. 2. Там же представлены и результаты исследования влияния факторов громкости и диктора на параметры рассматриваемых распределений, заимствованные из [4].

Таблица 2

Элемент проверки Объективный анализ Субъективный анализ

Неискаженная речь (ограничитель) аср = 0,42 А —92%

Частотный корректор-ограничитель <р =0,41 А=97%

Полосовой фильтр-ограничитель ср .4=95 %

о) « 1, Э = 0

Фактор громкости влияет не влияет

Фактор диктора влияет не влияет

Нетрудно сделать заключение, что форма распределений плотности вероятностей длительности интервалов между нулями безразлична для человека, распознающего речевые сигналы.

ЛИТЕРАТУРА

1. А. А. X а р к е в и ч. О выборе признакоо при машинном опознавании. Изв. АН СССР, ОТН, Техническая кибернетика, №2, 1963.

2. Ю. Г. Р о с т о в ц е в. О возможностях применения в системах связи предельного амплитудного ограничения речевых сигналов. «Электросвязь», №6, 1958.

3. Ю. С. Быков. Теория разборчивости речи и повышение эффективности радиотелефонной связи. Госэнергоиздат, 1959.

4. В. П. Е в м е н о в, Б. Н. Е п и ф а н ц е в. О распределении временных интервалов между нулями речевых сигналов. Данный сборник.

К оценке эффективности параметров речевых сигналов Текст научной статьи по специальности «Математика»

Похожие темы научных работ по математике , автор научной работы — Б. Н. Епифанцев, В. П. Евменов

Текст научной работы на тему «К оценке эффективности параметров речевых сигналов»