№ 1 (37) 2012
А. Ю. Орлянский, аспирант Российского нового университета, г. Москва
Реконструкция искаженных фонограмм методом сравнительной обработки текущего и эталонного графических образов
В последнее время появилась технология обработки речевых сигналов (РС) через преобразование их графических образов (ГО). Автором выдвинуто предположение о возможности ее использования для восстановления РС путем сравнения ГО искаженного сигнала и эталонного образа. В статье рассматривается задача реконструкции ГО сигнала, а также более существенная с практической точки зрения задача — восстановление искаженного речевого сигнала.
Введение
Сегодня ощущается острая необходимость создания новых специальных программно-аппаратных технических средств и комплексов для восстановления акустического сигнала (АС) на основе стандартных вычислительных устройств, в которых может быть достигнута значительная экономия временных и материальных ресурсов, затрачиваемых на разработку традиционных средств специальной техники. Кроме того, возможно увеличение срока использования такого вида новой техники за счет обновления как программных, прежде всего, так и аппаратных компонентов. И здесь нужны новые компьютерные технологии получения описаний и обработки речевого сигнала [5]. Следует отметить, что данный подход особенно эффективен для восстановления речевого сигнала, ввиду того что для восприятия речи достаточна небольшая частота дискретизации, к примеру 8000 Гц (телефон).
Статья охватывает две относящиеся к анализу изображений задачи: обнаружение объектов и совмещение изображений. Обнаружение изображений связано с установлением наличия объектов, относительно которых предполагается, что они имеются на картинке. Совмещение изображений со-
102 J-
стоит в нахождении поточечного соответствия (привязке) двух видов одной сцены. Кроме того, рассмотрены основные концепции спектрального анализа, получение графического образа аудиосигнала и особенности восстановления искаженного аудиосигнала.
Графическое представление аудиосигнала
Прежде чем приступить к рассмотрению поставленных вопросов, необходимо сказать несколько слов о методе построения графического образа аудиосигнала. Одно из важнейших понятий при данном подходе — спектрограмма (в некоторых источниках — сонограмма).
Спектрограммой (spectrogram) сигнала называется его мгновенный спектр, зависящий от времени. Для вычисления спектрограммы вектор сигнала разбивается на сегменты (возможно с перекрытием). Для каждого сегмента вычисляется спектр с помощью быстрого преобразования Фурье (БПФ, Fast Fourier transform — FFT) [5]. Пример спектрограммы дан на рис. 1. Набор спектров всех сегментов и образует спектрограмму.
Наложением (перекрытием) называется искажение спектра сигнала при вводе по-
№ 1 (37) 2012
бочных низкочастотных компонентов вследствие объединения недостаточного фильтра защиты от наложения спектров и слишком низкой частоты дискретизации [1].
Если рассматриваемый сигнал длителен по сравнению с интервалом времени, в течение которого можно считать, что сигнал имеет постоянные статистические моменты, оценка спектра с большой вероятностью будет неточной. Сказанное также справедливо в том случае, когда сигнал сильно зашумлен. В таких ситуациях необходимо сгладить оцененный спектр, чтобы получить улучшенную оценку, поскольку сглаживание спектра позволяет устранить элемент случайности.
В то же время разбиение данных на части приводит к тому, что при вычислении БПФ используется меньше выборок, а, следовательно, оценка спектра получается более грубой. Дискретное преобразование Фурье (ДПФ) выдает гармонические амплитудные и фазовые компоненты, равномерно размещенные по шкале частот. Густота размещения спектральных линий уменьшается с увеличением длины дискре-тизованного сигнала. Таким образом, если компонент сигнала расположен между двумя соседними частотными гармониками спектра, представить его надлежащим образом нельзя. Энергия такого компонента будет распределена между соседними гармониками, что приведет к искажению близлежащих спектральных «амплитуд». Отметим конечную ширину основных лепестков, центрированных на гармонических частотах, и то, что компонент сигнала на такой негармонической частоте нельзя представить соответствующим образом. Для решения этой проблемы гармонические компоненты должны размещаться более тесно и совмещаться с частотами сигнала. Этого можно достичь, введя в реальные данные дополнительные нули, которые называются дополняющими и нужны для увеличения точности — приближения оцененного спектра к истинному спектру без использования дополнительной информации. Итак, к N
1 I
Рис. 1. Волновая форма АС и спектрограмма (сонограмма) аудиосигнала
данным требуется добавить такое количество нулей N', чтобы удовлетворялось условие
N + N ' = 2т
в алгоритме двоичного быстрого преобразования Фурье, где т — целое. Кроме того, гармоники частоты 1/^ + N' - 1) Т, где Т обозначает интервал дискретизации, должны совпадать с частотами сигнала. Чтобы представить максимальное снижение выигрыша от обработки, которое возникает на частотах, расположенных посредине между гармонически связанными частотами, определяется гребешковое искажение [1].
Итак, всегда нужно помнить, что требования к точности оценки и необходимой спектральной гладкости противоречивы, и добиваться наилучшего компромисса между ними.
Взвешивающие (весовые, оконные) функции также оказывают сглаживающий эффект на спектр. В частности, функции с небольшими боковыми лепестками в частотной области отфильтровывают шум, который не входит в основной лепесток, и предлагают улучшенное сглаживание. Фактически для реализации этой разновидности спектрального сглаживания нужно свернуть спектр данных со спектром выбранной взвешивающей функции [1].
103
№ 1 (37) 2012
Спад многих весовых функций и их форму во многих случаях можно регулировать, выбирая значение параметра функции. Это позволяет варьировать ширину основного лепестка и уровень боковых лепестков. Частью искусства взвешивания является выбор методом проб и ошибок значения этого параметра, оптимизирующего результаты в конкретной ситуации. На рисунке 2 дан графический образ, взвешенный оконной функцией Гаусса.
Введем определение фонообъекта, представляющего собой реальный объект, генерирующий и излучающий акустический сигнал в полосе воспринимаемых слухом человека звуковых частот. Под категорию фо-нообъектов может попадать не только речь человека, но и любые другие акустические сигналы, в том числе и те, которые мешают правильному и качественному слуховому восприятию речи. Под сложным фонообъек-том будем понимать совокупность простейших звуков (простейших фонообъектов), его составляющих [4].
Характеристики речи
Речевой сигнал — носитель речевой информации, он является сложным акустическим сигналом в небольшом диапазоне частот (70- 12 000 Гц), который может включать целый спектр элементарных гармонических составляющих, квазистационарных на относительно коротких временных интервалах (до 30- 40 мс).
Поскольку речевой сигнал — это сложное акустическое колебание, стандартное Фурье-представление неприменимо к речевому сигналу, характеристики которого значительно меняются во времени. Тем не менее, такие изменяющиеся во времени характеристики речи, как энергию, переходы через нуль и корреляцию, можно считать постоянными на интервалах времени около 10 - 30 мс. Аналогичным образом и спектральные характеристики речи можно считать изменяющимися во времени сравнительно медленно.
Речь характеризуется четырьмя группами характеристик:
Семантические или смысловые характеристики речи — характеризуют смысл тех понятий, которые передаются при ее помощи, определяет суть передаваемого речевого сообщения и может быть представлена в письменной форме в виде текста.
Фонетические характеристики речи — данные, характеризующие речь с точки зрения ее звукового состава. Основной фонетической характеристикой звукового состава является частота встречаемости в речи различных звуковых сочетаний.
Физические характеристики — величины и зависимости, характеризующие речь как акустический сигнал.
Индивидуальные характеристики речи — параметры, идентифицирующие личность говорящего.
«
о
ч
о
13 *
в &
12
!
0
¡1 п 5: 12
1
(и
Рис. 2. Пример спектрограммы АС, сглаженной весовой функцией Гау^а
£
о
0
¡§
в
1
со £
€
о ?
и &
§ о
9
3
I
№ 1 (37) 2012
Критерии качества речи
Качество речи может быть оценено в соответствии с двумя критериями: разборчивость речи и ее качество как интегральная характеристика.
Разборчивость — это объективная количественная величина, характеризующая способность тракта телефонной связи передать содержащуюся в речи смысловую информацию в данных конкретных условиях акустической среды. Эта величина является объективной в том смысле, что разборчивость зависит от физических параметров тракта связи, а также от среды, в которой ведется разговор и не зависит от субъективных свойств конкретных, измеряющих разборчивость операторов.
Под мерой разборчивости понимается выраженное в процентах или долях единицы отношение числа правильно принятых элементов речи (звуков, слогов, слов, предложений) к достаточно большому общему числу переданных. В соответствии с этим различают разборчивость звуков D, слогов в, разборчивость слов W и разборчивость фраз I.
Измерение разборчивости методом артикуляции производится бригадой операторов путем передачи и приема по тракту серии артикуляционных таблиц, составленных из элементов речи (звуков, слогов, слов, фраз). В зависимости от используемых артикуляционных таблиц (звуковые, слоговые, словарные, фразовые) измеряют соответствующие виды разборчивости: звуковую, слоговую, словесную, фразовую.
Любые отношения субъективного характера, связанные с субъективными свойствами операторов, которые участвуют в передаче, могут привести к погрешности в оценке испытуемого тракта. К этим субъективным факторам относят дикцию и слух операторов, их уровень развития, образование, сообразительность, способность концентрировать внимание, степень знакомства с текстом, скорость передачи и др.
Ограничение влияния субъективных фак- | торов достигается путем строгой регламен- | тации артикуляционных измерений. Регла- § ментация касается вопросов комплектова- ё ния и тренировки бригад операторов, поряд- ^ ка проведения передачи, записи и проверки артикуляционных таблиц, обработки результатов измерения разборчивости. Особое место в регламентации методики измерения занимают артикуляционные таблицы.
Из всех типов артикуляционных таблиц (слоговых, словесных, фразовых) практическое применение находят первые две. При этом слоговые артикуляционные таблицы рассматриваются как основные, так как на практике в большинстве случаев рассматривается именно слоговая разборчивость.
Измерение разборчивости слогов и звуков производится путем передачи и приема слоговых артикуляционных таблиц. Результаты измерений в большой степени зависят от способа произношения и методики передачи слогов дикторами. При передаче слогов диктор должен произносить их ровным голосом, внятно, без преувеличенной под-черкнутости отдельных звуков и растягивания гласных [2].
Основная идея предлагаемого подхода реконструкции РС
Обычно в условиях сложности и слабой изученности объектов исследователь вынужден регистрировать заведомо многократно избыточное количество данных, так как заранее неизвестно, что именно в них является информативным. Для эффективной обработки таких массивов информации целесообразно использовать образный анализ — это новый научный подход к решению задач поиска информативных признаков и построения описаний сложных высокоразмерных структур экспериментальных данных. В его основе — нетрадиционное разделение функций между человеком и ЭВМ, при котором машина используется в основном для формирования различных звуко-
№ 1 (37) 2012
вых, контурных и цветояркостных полутоновых представлений данных, а человек визуально или на слух выявляет и описывает информативные признаки и целостные образы классов, подбирая в диалоге с ЭВМ представление, обеспечивающее решение задачи [4]. Такой подход применим для работы с аудиоданными, оцифрованными звуками и речью, представляемыми в виде компьютерных файлов.
Независимо от вида полученной информации осуществляется ее преобразование к общему виду единообразных первичных описаний в виде двухмерных матриц, элементы которых имеют неотрицательные значения, эти матрицы можно рассматривать как изображения, графические образы.
На основе общих принципов, методов и алгоритмов преобразуются полученные первичные описания для достижения поставленных целей (компактное бинарное представление, «шумоочистка», сравнение, сжатие, распознавание и др.) [4].
В рамках поставленной задачи необходимо в реальном масштабе времени реа-лизовывать различные алгоритмы обработки и восстановления речевого сообщения: выявлять и устранять сопутствующие помехи и искажения речевого сигнала, возможно изменять темп воспроизведения/записи речевого сообщения. Алгоритмической основой создания подобных методов аудио-преобразования может служить цифровой динамический спектральный анализ синтез
как наиболее полно соответствующий последним представлениям теории слухового восприятия. Под динамическим спектральным анализом здесь понимается обработка сигналов в реальном масштабе времени или близком к нему масштабе в процессе поступления акустических (аудио-) сигналов от различных источников информации.
Основная парадигма этого подхода — разработка и применение методов анализа, восстановления, реконструкции (модификации, добавления и удаления) и синтеза следов фонообъектов (узкополосных сигналов), составляющих исходный звук и присутствующих на частотно-временной сетке в виде полос различной толщины и цветовой насыщенности. Траектории, амплитуды и фазы среднего сечения таких полос в узлах частотно-временной сетки и есть параметры узкополосных сигналов или следы фонообъектов, зная которые можно восстановить или модифицировать исходный звук или речь [4]. Пример визуализации следов фонообъектов, спектрограммы, показанной на рис. 2, демонстрирует рис. 3.
Такие матрицы следов фонообъектов, т. е. элементарных узкополосных сигналов, составляющих общее звучание исследуемого фрагмента АС, при условии решения задачи качественного восстановления по ним акустического сигнала, могли бы служить их удобным описанием для проведения моделирования, первичного анализа и измерения параметров исследуемых и обрабаты-
№ 1 (37) 2012
ваемых АС в специализированных системах аудиообработки.
Исходя из этого, процесс восстановления АС сводится к сравнению следов фоно-объекта искаженного сигнала с уже имеющимся набором заранее подготовленных графических образов эталонного сигнала.
Сопоставление с эталоном
Один из основных способов обнаружения объектов на изображении состоит в сопоставлении с эталоном. При этом эталон интересующего объекта сравнивается со всеми неизвестными объектами, находящимися на изображении. Если сходство между неизвестным объектом и эталоном достаточно велико, этот объект помечается как соответствующий эталонному объекту. При работе эталон последовательно перемещается по полю изображения, и исследуется его сходство с различными участками изображения.
Полное совпадение эталона с какой-либо частью изображения редко из-за действия шумов и искажений, вызванных пространственной дискретизацией и квантованием яркости, а также вследствие отсутствия априорной информации относительно точной формы и структуры объекта, который требуется обнаружить. Поэтому обычно с помощью некоторой конкретной меры различия D (т, п) между эталоном и изображением в точке (т, п) указывают на наличие выделенного объекта там, где это различие меньше некоторого установленного порога LD (т, п). Как правило, порог выбирается постоянным для всех точек изображения. В качестве меры различия берется среднеквадратическая ошибка, определяемая как
D(m, п) = £ £[Р(j, к) - Т(у - т,к - п)]2, (1)
где F (у, к) — элемент массива изображения, на котором производится поиск, а Т (у, к) — элемент эталонного массива.
и
Поиск, конечно, ограничен областью перекрытия смещенного эталона и изображе- | ния. Считается, что имеется сходство с эта- § лоном в точке с координатами (т, п), если ё выполняется условие: ^
D(m,n) < LD(т,п). (2)
Теперь представим равенство (2) в следующем виде:
где
D(m, п) = D1(m, п) - 2D2 (т, п) + D3(m, п), Ц(т,п) = (у,к)]2
у к
Dг(m,n) = (у,к)]Т(у - т, к - п)
I к
Dз(m,n) = ££[Т(у - т,к - п)]2.
Слагаемое D3 (т, п) — это энергия эталона, которая постоянна и не зависит от координат (т, п). Энергия изображения в пределах окна, представленная первым слагаемым D1 (т, п), при изменении координат обычно меняется довольно медленно. Второе слагаемое — взаимная корреляция (т, п) изображения и эталона. При совпадении изображения и эталона взаимная корреляция должна быть велика, что приводит к малым значениям среднеквадрати-ческой ошибки. Однако величина взаимной корреляции не всегда адекватно отражает отличие изображения от эталона, поскольку энергия изображения Dj (т, п) зависит от значений координат. Взаимная корреляция может увеличиться даже при отсутствии соответствия изображения эталону, если яркость изображения в окрестности точки с координатами (т, п) велика. Эту трудность возможно обойти, сравнивая нормированную взаимную корреляцию
Иет (т, п) =
D2(m, п) D1(m, п)
££F(у,к)Т(у - т, к - п)
' к к)]2
ук
107
-N ПРИКЛАДНАЯ ИНФОРМАТИКА
№ 1 (37) 2012 ' -
со о to
si
о
а
S
5
6
12 и
о §
=£ Í2
t
fu
£ SI
о 'S
0
а
«
fi §
со
1 §
о
г
Si
ü &
§ о
I
S3 §
i (
с порогом LF! (т, п). Считается, что сходство с эталоном имеет место, если
RFT (т, п) > LR (т, п).
Нормированная взаимная корреляция имеет максимальную величину, равную единице, тогда и только тогда, когда изображение в окне точно совпадает с эталоном. Главный недостаток метода сопоставления с эталоном заключается в необходимости использования огромного количества эталонов для учета изменений объектов, возникающих при их повороте и увеличении (уменьшении) размеров [8]. По этой причине при сопоставлении с эталоном желательно ограничиться признаками, которые меньше зависят от изменений размера и формы объекта.
Программное обеспечение для проведения спектрального анализа
Для практической реализации предложенного метода следует проанализировать существующие программные разработки в данной области. На сегодняшний день имеется программное обеспечение, спо-
собное генерировать подобные изображения (ГО), к примеру, такие программные продукты, как Audacity, CoolEdit Pro, Sonogram, iZotope RX, Sound Forge, Tau Analyzer, Wave Lab, Wave Studio и др.
К сожалению, возможности визуального анализа звуковых сигналов у большинства вариантов перечисленного ПО сильно ограничены и не подходят для решения поставленной задачи. Тем не менее, следует отметить несколько интересных продуктов, а именно CoolEdit Pro, Sonogram, и iZotope RX. Рассмотрим эти инструменты подробнее.
Система Cool Edit Pro долгое время являлась эталоном в области спектрального анализа АС. Снимок рабочего экрана представлен на рис. 4. Но обработка аудиосигнала производилась разрушающим способом (первые версии программы были выпущены в 2000 г., соответственно, в то время у компьютеров еще не хватало мощностей, чтоб обрабатывать аудиосигналы неразрушаю-щим способом в режиме реального времени). Версия Cool Edit Pro v2 добавила поддержку неразрушающей обработки в режиме реального времени (real-time).
Рис. 4. Снимок рабочего экрана программы Cool Edit Pro
№ 1 (37) 2012
В 2003 году система Cool Edit была продана компании Adobe и, как следствие, позже переименована в Adobe Audition. Данный продукт теперь больше позиционируется как аудиоредактор, нежели как инструмент для спектрального анализа и синтеза АС. Он хотя и унаследовал часть функций спектрального анализа от предшественника, но практически не развивался (и не развивается) в этом направлении.
Название программы Sonogram (Соно-грамма) говорит само за себя, это программа, основная цель которой — визуальный анализ аудиосигналов. Возможности редактирования графического образа сигнала скромны, но данный инструмент имеет богатый набор функций и настроек для отображения спектрограмм.
По мнению большинства исследователей, лучшим программно-цифровым анализатором и редактором аудиосигналов, предназначенным для визуального анализа и изменения звуковых сигналов, на сегодняшней день является iZotope RX (рис. 5).
Этот продукт включает большую часть функций имеющихся аналогов, а также
невероятно большой объем инструмен- | тов для визуального редактирования АС | и представляет собой кросплатформенное § ПО, что, несомненно, является еще одним ё достоинством. Кроме того, ЛоЮре ИХ — ^ это единственная программа (из перечисленных выше), которая способна вычислять и показывать следы фонообъектов, которые нужны для решения поставленной задачи. Сдерживающим фактором для ее использования может послужить сравнительная дороговизна (от 400 до 2000 долл. США) в зависимости от версии и комплектации (набор плагинов-расширений). Еще один недостаток — невозможность дополнять данное программное обеспечение собственными дополнениями (плагинами).
Как уже говорилось, ни один из существующих программных продуктов не смог удовлетворить требованиям, необходимым для реализации поставленной задачи. Тем не менее, исследование данных программ позволяет судить о необходимости наличия тех или иных функций, а также о векторе развития новых средств и инструментов для спектрального анализа аудиосигнала.
№ 1 (37) 2012
Заключение
В современных системах восстановления речевых (аудио-) сигналов компьютерные технологии цифровой обработки сигналов и изображений находят все более широкое применение. Основные достоинства таких систем — быстрота и эффективность выполнения различных процедур обработки речевого сигнала с использованием стандартных недорогих технических средств компьютерной телефонии. Таким образом, § чисто программными методами можно доЛ биться хороших результатов при решении 5 задач реконструкции АС (РС). Предлагаемая технология графической визуализации
5 и восстановления аудиосигналов благодаря 1| дешевизне будет иметь большой практиче-о ский спрос.
§ Предложенный подход к реконструкции § искаженных фонограмм позволяет приме-^ нять методы цифровой обработки изобра-
0 жения для восстановления аудиосигнала, ц. а совместно с существующими подходами
может значимо повысить качество восста-
й
¡5 новленных аудиосигналов. Несомненно, се-<э годня метод является актуальным и значи-^ мым. Это особенно справедливо для рече-® вых сигналов — наиболее востребованной | сферы в области цифровой обработки сиг-¡3 налов в плане актуальности решения рас-| смотренной задачи.
Не исключено появление новых спосо-| бов реконструкции сигнала с использованием математического аппарата, заимствован-| ного из области цифровой обработки изо-| бражений. Возможно, следующим этапом Ц развития данного метода может послужить § обработка графических образов, основанная на метриках, учитывающих контуры изо-
1 бражения. Соответственно, этими контура-^ ми могут являться параметры узкополосных § сигналов (т. е. следы фонообъектов). Таким ^ образом, исходя из вышесказанного, мож-? но полагать, что в будущем одним из пер-
6 спективных направлений реконструкции ре-| чевых сообщений можно считать создание <£ и развитие компьютеризированных систем
с применением технологии сравнительной обработки текущего и эталонного графических образов.
Список литературы
1. Айфичер Э, Джервис Б. Цифровая обработка сигналов, М.: Вильямс, 2004.
2. Венедиктов М. Д., Горелов Г. В., Шалимов И. А. Компьютерная телефония в вопросах и ответах. М.: Московский государственный университет путей сообщения (МИИТ), 2009.
3. Гашников М. В. [и др.] Методы компьютерной обработки изображений: учеб. пособие. М.: Физматлит, 2001.
4. Дворянкин С. В. Речевая подпись / под ред. А. В. Петракова. М.: РИО МТУСИ, 2003.
5. Дворянкин С. В. Цифровая обработка изображений динамических спектрограмм аудиосигналов в задачах безопасности речевой связи // Специальная техника. № 3. 2000.
6. Сергиенко А. Б. Цифровая обработка сигналов. СПб.: Питер, 2002.
7. Стромков А. А., Зверев В. А. Выделение сигналов из помех численными методами. Нижний Новгород: ИПФ РАН, 2001.
8. ПрэттУ. К. Цифровая обработка изображений. 3-е изд. М.: Мир, 2007.
9. Arndt J. Algorithms for programmers, ideas and source code. 2002. URL: http://www.jjj.de/fxt/.
10. Bloomberg D., Vincent L., Goutsias J. Mathematical morphology and its applications to image and signal processing. Kluwer academic publishers. Boston: 2000.
11. Dudgeon D. E, Mersersau R. M. Multidimensional Digital Signal Processing. Prentice-Hall International, Inc., Signal Processing Series — Oppenheim A. V., Series Editor, 2001.
12. Pratt W. K. Digital image processing. New York: John Wiley & Sons, 2004.
13. Rorabaugh B. Digital Filter Design Handbook. New York: TAB Books Division of McGraw-Hill inc, 2004.
14. Johnson D. H, Wise J. D. Fundamentals of Electrical Engineering. 1999. URL: http://www.ece.rice. edu/~dhj/.
15. Levinson S. E. Mathematical models for speech technology. New York: John Wiley & Sons, 2005.