ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ВЕЙВЛЕТОВ
Горшков Юрий Георгиевич,
к.т.н., доцент кафедры "Информационная безопасность" МГТУ им. Н.Э. Баумана, Россия, Москва, [email protected]
Ключевые слова: речевой сигнал, вейвлет-преобразование, фонограмма, фоноскопическое исследование, сонограмма, шумоочистка.
Для решения задач инструментального исследования фонограмм или обработки аудиозаписей речевых сигналов предлагаются решения с использованием вейвлет-преобразова-ния. Большинство современных методов анализа звуков речи основываются на спектральной модели для стационарного сигнала. Основным недостатком этой модели является отсутствие характеристик для основных шумовых составляющих в произносимых согласных звуках, и это при том, что в большинстве языков основная речевая информация передается согласными. Традиционно разрабатываемые алгоритмы идентификации личности по голосу и распознавания речи основываются, как правило, на определении характеристик гласных звуков. Разработанная специалистами OOO "Центр Речевых Технологий" (Санкт-Петербург) методика криминалистической идентификации дикторов по речи на русском и других языках включает в себя на этапе инструментального анализа сравнение статистик основного тона голоса и формант, формантное "выравнивание", экспертное сравнение формант ударных гласных. Исследования, проведенные в МГТУ им. Н.Э. Баумана с использованием системы "Фон-№" показали, что вейвлет-спектрограммы намного более информативны, чем обычные Фурье-спектрограммы и, в отличие от последних, позволяют легко выявлять тончайшие локальные особенности акустических сигналов. Многоуровневый вейвлет-анализ сигналов позволяет решать задачи определения подлинности фонограмм, идентификации, оценки эмоциональной напряженности диктора, получения акустической обстановки окружения и шумоочистки речи с точностью, недоступной цифровой обработке на основе преобразования Фурье. Рассмотрена технология получения вейвлет-соно-грамм речи с высоким частотно-временным разрешением. Представлены результаты фоно-скопических исследований аудиозаписей при решении задач определения подлинности фонограмм, идентификации диктора и оценке его эмоциональной напряженности. Приводятся сонограммы сигналов акустической обстановки, а также аппаратно-программные средства шумоочистки речи на основе вейвлет-преобразования. Эффективное применение вейвлет-технологий на этапе инструментального исследования фонограмм возможно лишь при высокой точности регистрации речевых сигналов, которую обеспечивают специализированные средства. Разработанные программы многоуровневого вейвлет-анализа "WaveView MWA" с 2012 г. используются студентами 6 курса кафедры "Информационная безопасность" МГТУ им. Н.Э. Баумана при выполнении цикла лабораторных работ "Инструментальные методы криминалистического исследования фонограмм".
Для цитирования:
Горшков Ю.Г. Обработка речевых сигналов на основе вейвлетов // T-Comm: Телекоммуникации и транспорт. - 2015. - №2. - С. 46-53.
For citation:
Gorshkov Yu.G. Speech processing on the basis of wavelets // T-Comm. 2015. No.2. Рр. 46-53.
T-Comm #2-2015
Введение
В последние годы аудиоинформация или звуковая информация, зарегистрированная с применением специализированных регистраторов или диктофонов, находит все большее применение в судебной практике в качестве доказательного материала. Инструментальное исследование фонограмм, основой которого является компьютерный анализ аудиозаписей звуковой или речевой информации выполняется как сотрудниками государственных учреждений, так и в соответствии с законодательством, представителями коммерческих организаций, обладающими специальными знаниями. Важность фонодокументов в судебной практике определяется законодательной базой РФ, которая гласит, что «в качестве доказательств допускаются... аудио- и видеозаписи, иные документы и материалы», если они содержат «сведения о фактах, на основании которых арбитражный суд устанавливает наличие или отсутствие обстоятельств, обосновывающих требования и возражения лиц, участвующих в деле, а также иные обстоятельства, имеющие значение для правильного рассмотрения дела» (ч. I ст. 55 ГПК РФ, ст. 77 ГПК РФ; ч. 2 ст. 64 АПК РФ, ч. 2 ст. 89 АПК РФ). В связи с этим задачи, связанные с разработкой новых высокоточных методов исследования фонограмм - определения подлинности фонограмм, идентификации диктора, а также очистки речевого сигнала от шумов и помех следует отнести к актуальным.
1. Компьютерное исследование речи
Современный персональный компьютер в реальном масштабе времени может представить речь графически -во временной или спектральной области. Осциллограмму речи можно получить с помощью обычного микрофона и звуковой карты, а обработать и проанализировать простейшим звуковым редактором. Более информативный способ анализа - это спектральное представление. Разложение сигнала в спектр обычно проводится с помощью быстрого преобразования Фурье - БПФ, реализованного в большинстве компьютерных звуковых редакторов и специальных программах обработки речи [I, 2]. При проведении исследований чаще всего используют представление речевого сигнала в виде двухмерных сонограмм, на которых спектральная плотность (энергия) частотных составляющих отображается интенсивностью цвета в плоскости время - частота. На рис. I приведена двухмерная сонограмма, причём более яркому цвету на них соответствует большая спектральная плотность. Сонограммы представляют наглядную информацию о таких параметрах как основной тон и фор-мантные характеристики звуков речи [I, 3].
2. Экспертиза фонограмм
Судебная фоноскопическая экспертиза, или криминалистическая экспертиза звукозаписей, - это исследование фонограмм или звукоряда видеофонограмм с целью установления фактов, имеющих доказательственное значение и составление по результатам указанного исследования экспертного заключения (Заключение
специалиста) для его последующего использования в судопроизводстве [4].
В России судебная или криминалистическая фоноско-пия считается относительно новым видом специальных исследований. Начиная с 1971 г. заключения специалистов по данному виду экспертизы используются в качестве доказательства в суде. Появление и развитие судебной фо-носкопии стало возможным благодаря, прежде всего, развитию информационных технологий и созданию инструментальных средств анализа голоса и речи, применение которых позволило объективизировать исследования и добиться высокой надежности их результатов.
Рис. I. Фурье-сонограмма слова [терра], диктор - женщина.
Видна особенность в произношении звука [р] как многоударного звука (вертикально ориентированные разрывы спектральной картины)
Аппаратно-программные комплексы исследования фонограмм
Все множество акустических признаков голоса и речи исследуемого диктора может быть представлено в виде совокупности фонетических (акустических) классов: гласные звуки (ударные, безударные) и согласные (назальные, аффрикаты, щелевые, и др.). Эти акустические классы отражают артикуляторные особенности речи диктора, а также конфигурацию его речевого тракта [I].
Большинство современных методов анализа звуков речи основываются на спектральной модели для стационарного сигнала [3], Основным недостатком этой модели является отсутствие характеристик для основных шумовых составляющих в произносимых согласных звуках, и это при том, что в большинстве языков основная речевая информация передается согласными. Традиционно разрабатываемые алгоритмы идентификации личности по голосу и распознавания речи основываются, как правило, на определении характеристик гласных звуков. Разработанная специалистами ООО «Центр Речевых Технологий» (Санкт-Петербург) методика криминалистической идентификации дикторов по речи на русском и других языках [4] является развитием известной методики идентификации дикторов «Диалект» [5] и также включает в себя на этапе инструментального анализа сравнение статистик основного тона голоса и формант, формантное «выравнивание», экспертное сравнение формант ударных гласных.
На рис. 2 представлен один из типичных примеров формантного сравнения речи двух дикторов, приводимых в качестве иллюстрации к заключению эксперта [4].
47
T-Comm #2-2015
На рис. 7 представлена вейвлет-сонограмма речевого сигнала диктора, испытывающего волнение.
Признаками эмоциональной напряженности диктора, проявившимися на сонограмме его речи являются: «разрушение» спектрально-временной структуры гласных звуков; появление в низкочастотной части спектра колебаний {«тремора» голоса) с частотой 24-28 Гц.
Определение подлинности фонограмм
Проблемы создания и использования методов и средств обнаружения следов нарушения достоверности фонограмм в последние годы стали особо важными в практике экспертов-фоноскопистов. Развитие и широкое распространение относительно дешевых компьютерных средств обработки и монтажа фонограмм, доступность детальной информации о выполнении таких действий привели к ситуации, когда создание смонтированной фонограммы с измененными текстами реплик, составом дикторов и привнесенной при монтаже фоновой акустической обстановкой является относительно простой задачей даже для непрофессионала. Смонтированная (т.е. искусственно созданная) фонограмма может содержать ложную информацию о разговорах, фактах и действующих лицах, якобы зафиксированных на данной фонограмме в момент ее звукозаписи. Такие фонограммы не могут быть признаны достоверными доказательствами, так как не могут «служить средством для обнаружения преступления и установления обстоятельств ... дела», т.е. не удовлетворяют требованиям ч. I. п. 3 ст. 81 УПК РФ [4].
На рис. 8 представлен пример многоуровневого вейв-лет-анализа сигнала фонограммы с целью определения ее подлинности. Высокое частотно-временное разрешение представленного сигнала участка фонограммы позволило установить факт монтажа.
средств выделения информационных параметров речи при статистической обработке акустических сигналов. Выше, на рис. 2 представлен пример формантного сравнения речи двух дикторов, приводимых в качестве иллюстрации к заключению эксперта. Построение сонограмм осуществлялось программными средствами комплекса «ИкарЛаб» с использованием БПФ, Программа У5А» обес-
печивает построение вейвлет-сонограмм повышенного частотно-временного разрешения гласных звуков. На рис. 9 представлен пример сравнения сонограмм двух произвольных участков речевого сигнала гласной [э] длительностью 0,1 с, принадлежащих одному и тому же диктору.
Рис. 9. Сравнение вейвлет-сонограмм двух произвольных участков речевого сигнала гласной [э] одного и того же диктора
Рис. 8. Многоуровневая аейвлет-сонограмма начала сеанса телефонной связи. Длительность тональной посылки «вызова» составляет 0,768 с (6,51 -7,278 с), что на 0,232 с меньше ее стандартной длины I с. В конце тональной посылки выявлен участок «монтажного перехода»; сигнал на интервале 7,22 с - 7,278 с не является его истинным продолжением, а «состыкован» с тональным сигналом, взятым из другого сеанса связи
Идентификация диктора на основе сравнения вейвлет-сонограмм
Надежность систем идентификации диктора по голосу в значительной степени зависит от точности программных
Визуализация сигналов акустической обстановки окружения
Программа «УУауеУ^уу МУУА» обеспечивает построение вейвлет-сонограмм повышенного частотно-временного разрешения сигналов акустической обстановки окружения. На рис. 10 представлены результаты обработки звуковых сигналов, зарегистрированных специализированным диктофоном «Гном-2М» в различных помещениях, имеющих электропроводку и подключенные приборы. На сонограммах видны сигналы фона сети питания, которые являются индивидуальными признаками акустической обстановки окружения.
Аппаратно-программные средства шумоочистки на вейвлетах
Структурная схема аппаратно-программной реализации средств шумоочистки на вейвлетах (рис. I I) представляет собой систему цифровой обработки сигналов (ЦОС), включающую: аналого-цифровой и цифро-аналоговый преобразователи (АЦП, ЦАП); процессор с программной реализацией алгоритма шумоочистки с использованием вейвлет-преобразования; контроллер с программой управления; систему синхронизации; интерфейс; модули внешней памяти для хранения программы и данных.
Т-Сотт #2-2015
Рис. 13. Сигнал после шумоочистки
Разработанные программные средства многоуровневого вейвлет-анализа речевых сигналов при проведении инструментального исследования фонограмм обеспечивают повышенное частотно-временное разрешение тональных участков речи - гласных, а также выделение параметров
Многоуровневый вейвлет-анализ сигналов позволяет решать задачи определения подлинности фонограмм, идентификации, оценки эмоциональной напряженности диктора, получения акустической обстановки окружения и шумоочистки речи с точностью, недоступной анализу на основе преобразования Фурье. Эффективное применение вейвлет-технологий обработки речевых сигналов возможно лишь при использовании на этапе регистрации фонограмм специализированных средств.
СПО «WaveView MWA» с 2012 г. используется студентами 6 курса кафедры «Информационная безопасность» МГТУ и«. Н.Э. Баумана при выполнении цикла лабораторных работ «Инструментальные методы криминалистического исследования фонограмм».
1. Галяшина Е.И, Речь под микроскопом II Компьютер-
2. Матвеев Ю.Н., Симончик К.К., Тропченко А.Ю., Хитрое М.В>. Цифровая обработка сигналов: Учебное пособие. - СПб: Изд. СПбНИУ ИТМО, 2013. - 166 с.
3. Горшков Ю.Г. Анализ и засекречивание речевого сигнала: Учебное пособие. - М.: Изд. МГТУ им. Н.Э. Баумана,
4. Хит/зов МЯ. и др. Фоноскопическое исследование фонограмм речи: исследование достоверности фонограмм. Практическое пособие в 3-х книгах / Под ред. канд. техн. наук М.В. Хитрова, канд. техн. наук С.Л. Коваля. Кн. I. -СПб.: Изд. «Юридический центр-Пресс», 20! I. - 281 с.
5. Тимофеев E.H., Голощапова Т.И., Докучаев И.В. Применение автоматизированной системы «Диалект» на базе компьютерной речевой лаборатории CSL (США) при решении задач идентификации дикторов: Учебное пособие. - М.: Изд. ЭКЦ МВД России, 2000. - 120 с.
6. Горшков Ю.Г. Исследовательский комплекс частотно-временного анализа речевого сигнала с использованием вейвлет-технологии // Вестник МГТУ им. Н.Э. Баумана. Серия: Приборостроение. - 20! I. - №4. - С. 78-87.
SPEECH PROCESSING ON THE BASIS OF WAVELETS
Gorshkov Yu.G., Associate Professor of the Information safety department of the Bauman MSTU, the Candidate of Technical Sciences, [email protected]
Abstract
To solve the tasks of instrumental research of sound records or processing of audio records of speech signals the solutions involving wavelet transform are proposed. The most of modern methods of analysis of speech sounds are based on spectral model for a stationary signal. The main drawback of this model is absence of characteristics for basic noise terms in pronounceable consonant sounds, even though the basic verbal information is transferred by consonants. Traditionally developed algorithms of identification of a person by voice and speech recognition are generally based on definition of characteristics of vowel sounds. A method developed by specialists of STC "Speech Technology Center" (Saint Petersburg) for criminalistics identification of speakers by speech in Russian and in other languages at the stage of instrumental analysis includes comparison of statistics of the voice tone and formant, formant "adjustment", expert comparison of stressed vowels formants. Researches carried out in Bauman MSTU with the use of the "Fon-NI" system have shown that wavelet spectrograms are much more informative compared to traditional Fourier spectrograms and, in contrast to the latter ones, they allow to easily identify the finest local peculiarities of acoustic signals. Multi-level wavelet signal analysis allows to solve tasks of determination of authenticity of phonograms, identification, estimation of the speaker's emotional tension, specification of acoustic scenery and speech de-noising with precision unavailable at digital processing based on the Fourier transform. The technology of speech wavelet-sono-gram obtainment with high time and frequency resolution. Results of phonoscopic researches of audio recordings when solving tasks of definition of phonograms originality, identification of an announcer and evaluation of his/her emotional tension. Sonograms of signals of acoustic environment as well as hardware and software for speech cleaning on the basis of wavelet transformation. Efficient application of wavelet technologies at the stage of instrumental phonogram analysis is possible only under high precision of registering of verbal signals provided by special means. Starting from 2012, the developed "WaveView MWA" software for multi-level wavelet analysis is used by students of the "Information Security" department of Bauman MSTU for carrying out the "Instrumental methods of criminalistics phonogram analysis" cycle of laboratory works.
Keywords: speech signal, wavelet transformation, phonogram, phonoscopic research, sonogram, sound cleaning.
References
1. Galyashina E.I. (1999) Speech in the microscope. Komputerra.15 (4). Pp. 16-24. [in Russian]
2. Matveev Yu.N., Simonchik K.K., Tropchenko A.Yu. & Khitrov M.V. (2013) Digital processing of signals: Tutorial. Saint Petersburg: SPbNIU ITMO. 166 p. [in Russian]
3. Gorshkov Yu.G. (2007) Analysis and speech signal scrambling. Tutorial. Moscow: Bauman MSTU. 37 p. [in Russian]
4. Khitrov MV. et al. Khitrov M.V. & Koval S.L. (eds.) (2011) Phonoscopic research of speech phonograms: research of phonograms authenticity. Practical guide in 3 volumes. Saint Petersburg: "Yuridichesky Tsentr-Press". 281 p. [in Russian]
5. Timofeev E.N., Goloshapova T.I. & Dokuchaev I.V. (2000) Application of automated system "Dialekt" on the basis of computer speech laboratory CSL (USA) when solving tasks of announcers identification. Tutorial. Moscow: EKTs of MVD of Russia. 120 p. [in Russian]
6. Gorshkov Yu.G. (201 1) Research complex of time and frequency analysis of speech signal, using wavelet technology. Bulletin of the Bauman MSTU. Series: Instrument making. 4 (85). Pp. 78-87. [in Russian]