УДК 340.69
ОСОБЕННОСТИ СУДЕБНО-ЭКСПЕРТНОГО ИССЛЕДОВАНИЯ ГОЛОСА, ИЗМЕНЁННОГО ПРИ ПОМОЩИ КОМПЬЮТЕРНО-
ТЕХНИЧЕСКИХ СРЕДСТВ
А.К. Лебедева
В статье рассматриваются особенности использования компьютерно-технических средств для изменения некоторых обликовых характеристик говорящего, указывается то, каким образом, данное обстоятельство, может значительно осложнить диагностику некоторых обликовых характеристик личности в процессе производства судебной фоноскопической экспертизы. Компьютерно-технические средства для изменения голоса человека разделены на две группы, описаны некоторые приемы исследования измененного голоса.
Ключевые слова: судебная фоноскопическая экспертиза, обликовые характеристики диктора, маскировка голоса, питч-шифтинг.
Судебная фоноскопическая экспертиза обликовых характеристик личности является одним из видов судебной фоноскопической экспертизы и направлена на решение задач по диагностике различных обликовых характеристик личности по фонограммам речи.
К обликовым характеристикам диктора мы относим, например, такие характеристики как:
- половозрастные и анатомо-физиологические характеристики диктора,
- степень владения языком (на котором диктор говорит на исследуемой фонограмме),
- региональную принадлежность,
- эмоциональное состояние говорящего,
- его психофизиологическое состояние (отклонение от нормы, патологии),
- уровень образования и речевой культуры,
-социокультурный статус.
К сожалению, несмотря на все неоспоримые преимущества технического прогресса, у него есть и отрицательный эффект. Например, существует огромное количество компьютерно-технических средств, которые к тому же постоянно совершенствуются, способных искажать речь говорящего и затрудняющих решение, в том числе и задач по диагностике некоторых обликовых характеристик говорящего.
Большинство подобных компьютерно-технических средств направлены на изменение в первую очередь пола и возраста говорящего, поэтому именно на этой проблеме мы остановим свое внимание в данной статье.
Стоит отметить, что часто, когда говорят о половой принадлежности диктора, используют понятие «сексолект», которое обозначает «набор идентифицирующих индивидуальных признаков человека, относящихся к полу лица» [1, с. 314-320].
Существует множество различных по своим функциональным возможностям программ для изменения сексолекта диктора, например, «Voxal Voice Changer», «AV Voice Changer Diamond», «Audacity», «Поддельный голос», «Adobe audition», «Wave pad sound editor». Вышеуказанные программы созданы в первую очередь для персонального компьютера, однако существуют и приложения для изменения голоса для современных мобильных телефонов и смартфонов, которые с легкостью можно скачать в сети Интернет. Данные программы позволяют без труда изменить половую принадлежность и возраст диктора, и, таким образом, помочь преступникам сокрыть свою личность.
Большинство компьютерно-технических средств для изменения сексолекта диктора или его возраста работают на одном и том же алгоритме: они автоматически по заранее заложенным в них программам изменяют те параметры голоса, которые составляют функционально-динамический комплекс акустических навыков человека, в первую очередь, частоту основного тона голоса.
Существующие программы для изменения голоса мы предлагаем разделить на две группы:
1. Изменяющие речевой сигнал непосредственно перед его поступлением в канал записи, то есть в реальном времени.
2. Изменяющие уже записанный на фонограмме речевой сигнал посредством постобработки.
К первой группе мы относим те программные средства, которые изменяют речевой сигнал непосредственно в момент его произнесения человеком, то есть в реальном времени, например, при разговоре по телефону с помощью специальных приложений, или посредством программы «Skype». Такой способ используется, когда необходимо скрыть свою личность, но нет возможности избежать разговора в реальном времени. Аналогичный алгоритм, по которому работают программные средства, изменяющие голос в реальном времени, используется в гитарных эффект-процессорах. Схема работы данного алгоритма следующая: в начале, речевой сигнал преобразуется в цифровой код с помощью аналого-цифрового преобразователя (АЦП). Затем процессор пересчитывает данный код в соответствии с алгоритмом, записанном на процессоре. На выходе процессора цифровой код преобразуется обратно в электрический сигнал посредством уже цифро-аналогового преобразователя (ЦАП), который слышит адресат на другом конце телефонного провода.
При использовании таких программных средств часто имеют место задержки при передаче уже изменённого речевого сигнала. Перед записью голоса или перед разговором по телефону пользователь выбирает в программе, каким образом он хочет изменить свой голос, насколько понизить или повысить частоту основного тона, и только потом начинает соответственно запись или разговор.
При исследовании таких фонограмм сложность заключается в том, что никаких признаков неситуационных изменений, вносимых в фонограмму, не формируются, создаётся полностью новая, непрерывная фонограмма, с
записанным на ней речевым сигналом, изменённым непосредственно в процессе его записи.
Ко второй группе относятся те программы, которые проводят постобработку речевого сигнала, то есть изменениям подвергается уже сама фонограмма, записанная при помощи какого-либо устройства. При таком способе изменения сексолекта и возраста диктора возможна ситуация, когда фонограмму с записью голоса одного человека разбивают на части, и обрабатывают каждую часть по отдельности различными способами и программными средствами. Таким образом, в результате проделанных изменений могут быть получены несколько фонограмм с различающимися голосами из одной фонограммы с записью голоса одного человека. В таких случаях, кроме поиска признаков изменения акустических характеристик речевого сигнала, эксперту следует обратить внимание на возможность существования признаков монтажа фонограммы.
Обе группы указанных выше программ, изменяющих сексолект и возраст диктора, базируются на одном и том же алгоритме, в соответствии с которым производится изменение основного тона путём либо растягивания, либо сжатия коротких участков речи. Для сохранения естественного темпа речи в случае понижения тона (растягивания фрагментов) некоторые фрагменты удаляются, в случае повышения тона (сжатия фрагментов) некоторые фрагменты дублируются.
Процесс изменения высоты звука без изменения его скорости называется «питч-шифтинг» от английского «рйсИбЫй^» [2], что переводится как «изменение основного тона». Во избежание «искусственного» звучания голоса, чтобы он воспринимался как «естественный», применяют алгоритм коррекции формант, который восстанавливает позицию формантных частот после или в момент питч-шифтинга. Таким образом, мы изменяем частоту основного тона, но оставляем неизменным формантные частоты.
Профессор Потапова Р.К., которая свое внимание часто уделяла вопросам обликовых характеристик диктора, в своих работах [1, с. 314-320] указывала, что если удалить из спектра мужского голоса полосы частот от 100 Гц до 50 0 Гц, то измененный голос на предъявляемой слушателям фонограмме квалифицируется как принадлежащий диктору-женщине.
Исследование голоса, измененного при помощи компьютерно -технических средств, является сложной и спорной задачей судебной фоноскопической экспертизы. Вследствие того, что инструментальное исследование измененного голоса, записанного на фонограмме, до сих пор имеет ряд сложностей, эксперты на практике используют лингвистические методы выявления изменений, которые вносятся в фонограммы. Как нам известно, содержательная и смысловая часть речевого продукта характеризует целый ряд признаков личности, а в случае намеренного изменения голоса с помощью компьютерно-технических средств не происходит изменения содержательной части высказываний, а только акустических характеристик.
Процесс производства судебной фоноскопической экспертизы включает в себя комплекс разнообразных методов, не только лингвистического анализа, но
325
и инструментального. Вследствие этого, несмотря на то, что некоторые лингвистические характеристики голоса могут и не изменяться в случае использования компьютерно-технических средств для искажения пола и возраста говорящего, специалист должен уметь определить факт изменения голоса лица и при помощи инструментальных методов анализа.
Насколько нам известно, на данный момент нет методик исследования именно измененного голоса, поэтому мы проанализируем какие из существующих методов судебной фоноскопической экспертизы можно применить к исследованию измененного при помощи компьютерно -технических средств голоса.
При диагностике факта использования компьютерно-технических средств для изменения некоторых обликовых характеристик говорящего необходимо обращать внимание на признаки, указывающие на наличие акустической маскировки в фонограмме, относящиеся к неситуационным изменениям.
Тем не менее, весь процесс экспертного исследования фонограммы с предположением о намеренном изменении голоса не сводится только к поиску признаков, свидетельствующих о наличии изменений, внесённых в фонограмму. Необходимо также установить характер и причину возникновения выявленных признаков.
Необходимо также помнить, что современные программные средства умеют уничтожать следы изменений, вносимых в фонограмму. Например, в программе «Sound Forge» имеется возможность создать желаемую форму звуковой волны, подогнать темп и изменить спектральные характеристики, тембр и качество звучания исходной фонограммы, удалить следы монтажных переходов, что существенно затрудняет процесс производства судебной фоноскопической экспертизы.
Голос на фонограмме, измененный как первым, так и вторым способом, можно исследовать путем анализа служебной информации аудиофайлов, в рамках которого проводится изучение бинарной структуры аудиофайла, его метаданных и иных служебных свойств. Подобный анализ проводится с помощью таких программ, как «DUMP», «Exiftool», «WinHEX» или 16 -ричных редакторов, типа «Tiny Hexer».
Например, «DUMP» даёт детальный отчёт о структуре файла, в котором, например, содержится информация о том, является ли фонограмма оригиналом или копией, можно определить также, с помощью какого устройства, была создана фонограмма, и с помощью какого программного средства в неё вносились изменения.
В процессе инструментального анализа проводится исследование статистических и динамических, мелодических и спектральных речевых характеристик.
Основные положения инструментального исследования голоса построены на том, что спектральный состав голоса индивидуален для каждого человека, несмотря на общие механизмы образования тех или иных звуков.
Особое внимание в ходе инструментального анализа стоит обратить на сознательно практически не контролируемую индивидуальную специфику
326
произношения на уровне реализации спектрально-формантной микроструктуры отдельных звуков и звуковых комплексов, проявляющуюся в речи диктора.
Как отмечает профессор Е.И. Галяшина, одним из наиболее значимых акустических идентификационных признаков голоса человека, изучаемых в процессе инструментального анализа, являются характеристики формант: «абсолютные и относительные значения частоты формант, их амплитуда и ширина, скорость их изменения во времени» [3].
Как известно, именно гласные звуки отличаются друг от друга своей формантной структурой, которая зависит от геометрии речевого тракта в момент речеобразования - именно так их и различает человек на слух. Известно, что «диапазон значений первых трёх формантных частот (условно обозначаемые F1F2F3) ударных каждого языка значительно шире диапазона этих частот для каждого диктора в отдельности» [4, с. 81-104]. Это создаёт основу для различения дикторов в пространстве этих частот. Индивидуальность говорящего определяется общей формой спектра, то есть соотношением уровней сигнала в спектральных полосах. Существенно отметить при этом, что форманты служат способом реализации указанных полосных соотношений. Таким образом, точные численные значения формантных частот индивидуальны для каждого человека, но в тоже время относительное расстояние между формантами между имеет примерно одинаковые пропорции у всех людей, потому что в ином случае невозможно было бы распознавать звуки, произносимые людьми.
Следует учитывать, что формантные соотношения ^2/Р1, F3/F1, F3/F2) будут более информативными, чем просто значение формант. Данный тезис подтверждается результатами анализа экспертных заключений по вопросам распознавания диктора по реальным фонограммам, который доказывает, что при изменениях абсолютных значений формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и т.д.) соотношения формант почти не меняются. Таким образом, соотношения формант более устойчивы, чем просто абсолютные значения формант и поэтому являются более весомым идентификационным признаком.
В процессе исследования измененного голоса при помощи компьютерно -технических средств путем изменения частоты основного тона нами было обнаружено, что форманты в процессе редактирования и изменения речевого сигнала изменялись пропорционально, таким образом их соотношение сохранилось неизменным. Следовательно, можно предположить, что, несмотря на изменение частоты основного тона, такой значимый идентификационный признак, как соотношение формант, не изменяется. Маскировка некоторых обликовых характеристик диктора с помощью компьютерно-технических средств, использующих алгоритм изменения частоты основного, не позволила изменить все индивидуальные признаки голоса лица, что в совокупности с полной сохранностью лингвистических признаков делает идентификацию диктора принципиально возможной.
Таким образом, несмотря на отсутствие в настоящее время специальных методов исследования голоса, измененного при помощи компьютерно -технических средств, есть возможность как установления факта использования вышеуказанных средств, так и в некоторых случаях и диагностики измененных обликовых характеристик, а впоследствии и проведения успешной идентификации диктора.
Список литературы
1. Потапова Р.К. Сексолект как комплексное гендерное понятие (об усложненном характере задачи определения сексолекта в судебной фонетике) // Материалы межд. конф. «Информатизация правоохранительных систем». М.: Акад. МВД РФ, 2001. С. 314-320.
2. Bastien P. Pitch shifting and voice transformation techniques (TC Helicon, 2001). P.3. [Электронный ресурс] // Цифровая обработка сигналов [сайт]. [2007]. URL: http://dsp-book.narod.ru/Pitch shifting.pdf (дата обращения 01.10.2016).
3. Галяшина Е.И. Судебная фоноскопическая экспертиза. М., 2001.
4. Сорокин В.Н., Цыплихин А.И., Верификация диктора по спектрально-временным параметрам речевого сигнала // Информационные процессы, электронный научный журнал. Т. 10. №2. 2010. С. 81-104. [Электронный ресурс] URL: http://www.jip.ru/2010/10-2-2010.htm (дата обращения 02.10.2016г.).
Лебедева Антонина Константиновна, аспирант кафедры судебных экспертиз, tonya109@yandex. ru, Россия, Москва, Московский государственный юридический университет имени О.Е. Кутафина (МГЮА)
FEA TURES OF THE FORENSIC STUDY OF VOICE, MODIFIED BY USING OF COMPUTER
PROGRAMS A.K. Lebedeva
The article deals with the description of computer programs for changing characteristics of speaker's appearance, was indicated how this fact can make difficult the diagnostics of characteristics of speaker's appearance in the process of forensic speech and audio analysis. Computer programs for voice's changing were divided into two groups, some of the techniques altered voice's research were described.
Keywords: forensic speech and audio analysis, characteristics of speaker's appearance, masking voices, pitchshifting.
Lebedeva Antonina Konstantinovna, postgraduate student of forensic science's department, tonya109@yandex.ru, Russia, Moscow, KutafinMoscow State Law University (MSLU)