Научная статья на тему 'К вопросу о достоверности криминалистической идентификации личности по цифровым фонограммам устной речи'

К вопросу о достоверности криминалистической идентификации личности по цифровым фонограммам устной речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1665
340
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРИМИНАЛИСТИКА / ОТОЖДЕСТВЛЕНИЕ ЛИЧНОСТИ / ЦИФРОВАЯ ФОНОГРАММА / CRIMINALISTICS / SPEAKER IDENTIFICATION / DIGITAL VOICE AND SPEECH RECORDINGS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галяшина Елена Игоревна

Рассмотрены проблемы, возникающие в практике криминалистического исследования голоса и речи диктора, записанных на цифровых фонограммах, в целях его идентификации. Автор рассматривает особенности цифровых записей речевых сигналов, которые приобщаются к материалам уголовных дел в качестве вещественных доказательств. Основное внимание уделено проблеме достоверности и надежности экспертного решения о тождестве говорящего, зависящих от степени искажения оцифрованного речевого сигнала, передаваемого по техническим каналам связи, сопоставимости параметров сравниваемых фонограмм, записанных на различных цифровых устройствах и сравнительных образцов голоса и речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE RELIABILITY OF FORENSIC SPEAKER IDENTIFICATION BY DIGITAL PHONOGRAMS OF ORAL SPEECH

The paper considers special features of digital recordings of speech signals, which are attached as evidence to materials of criminal cases. The author focuses on the problem of reliability and validity of expert decisions on the identity of the speaker, depending on the degree of distortion of the digitized speech signal transmitted via technical communication channels, the comparability of parameters compared phonograms, recorded on various digital devices and comparative samples of voice and speech.

Текст научной работы на тему «К вопросу о достоверности криминалистической идентификации личности по цифровым фонограммам устной речи»

УДК: 343.1:343.14:343:98

К ВОПРОСУ О ДОСТОВЕРНОСТИ КРИМИНАЛИСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ЦИФРОВЫМ ФОНОГРАММАМ

УСТНОЙ РЕЧИ

Е.И. Галяшина

Рассмотрены проблемы, возникающие в практике криминалистического исследования голоса и речи диктора, записанных на цифровых фонограммах, в целях его идентификации. Автор рассматривает особенности цифровых записей речевых сигналов, которые приобщаются к материалам уголовных дел в качестве вещественных доказательств. Основное внимание уделено проблеме достоверности и надежности экспертного решения о тождестве говорящего, зависящих от степени искажения оцифрованного речевого сигнала, передаваемого по техническим каналам связи, сопоставимости параметров сравниваемых фонограмм, записанных на различных цифровых устройствах и сравнительных образцов голоса и речи.

Ключевые слова: криминалистика, отождествление личности, цифровая фонограмма.

Техническая революция привела к тому, что аналоговая аудио- и видеозапись повсеместно уступает место цифровой записи. Для ведения переговоров используются цифровые каналы связи, мобильные телефоны, интернет телефония, спутниковая связь. Правоохранительные органы успешно используют цифровую звуко- и видеозапись для фиксации хода и содержания следственных действий, а также документирования результатов оперативно-розыскных мероприятий.

Цифровые фонограммы записываются при помощи цифровых диктофонов, мобильных телефонов, планшетов, ноутбуков, регистраторов, планшетов и т.д. На разнообразных носителях (компакт-дисках, флэш-картах, и любом запоминающем устройстве, в том числе неотъемлемом от записывающего устройства) цифровые фонограммы приобщаются к уголовным делам в качестве вещественных доказательств. Удобство цифровой звуковидеозаписи сегодня вполне очевидно - малые размеры устройств, возможность записи длительных переговоров, приемлемое (по мнению потребителей) качество получаемых фонограмм и видеозаписей, низкие требования к пользователю таких устройств.

Казалось бы, преимущества цифровой звукозаписи неоспоримы. Однако экспертная практика показывает, что кроме организационно-технических и процессуальных сложностей приобщения носителей цифровых записей к материалам дела проблемы возникают и при проведении экспертных исследований аудиофайлов речевых сигналов. Уголовное судопроизводство требует проверки подлинности и достоверности фонограмм, выступающих в качестве вещественных доказательств. Основным процессуальным способом такой проверки является судебная фоноскопическая (или фонографическая) экспертиза. Уже более 50 лет фоноскопические экспертизы проводятся во всех экспертных учреждениях правоохранительных органов и в ряде

негосударственных экспертных организациях. При проведении таких экспертиз следствие и суд интересуют вопросы установления подлинности фонограммы и идентификации конкретного диктора по фонограммам устной речи [1, с. 248257].

Анализ экспертных заключений последних лет показывает, что наибольшие трудности возникают при идентификации дикторов по цифровым фонограммам. При этом эксперты не учитывают особенности цифровых фонограмм, особенности каналов цифровой связи, самого процесса цифровой звукозаписи, особенностей цифровых устройств звукозаписи и ее носителей.

В настоящее время в правоохранительных органах для идентификации дикторов, в основном используются две автоматизированные системы идентификации дикторов - «Диалект» и «Фонэкси». Федеральным межведомственным координационно-методическим советом по проблемам экспертных исследований паспортизована только одна методика идентификация лиц по фонограммам русской речи на автоматизированной системе «Диалект», 1996 г. [2, с. 102]. При проведении экспертного исследования идентификация диктора производится на основе измерения таких параметров как частота основного тона, частоты формант, длительность сигналов и вычисления их производных. Всего на основе результатов акустических измерений вычисляется около 600 акустических признаков голоса и речи. Полученные результаты на спорных фонограммах сравниваются с образцами голоса и речи подозреваемого лица.

Важно подчеркнуть, что названная методика разрабатывалась применительно к исследованию аналоговых фонограмм, записанных в основном по телефонному тракту, или непосредственно на магнитную ленту при помощи аналоговых магнитофонов. Сейчас на экспертное исследование все больше поступает фонограмм, полученных на цифровых диктофонах, записей телефонных переговоров по сотовой мобильной связи и цифровых регистраторах. В качестве образцов сравнения при таких исследованиях выступают аналоговые фонограммы допросов подозреваемых, цифровые записи с диктофонов, БУБ-дисков и видеомагнитофонов. При этом новая редакция методики [3, с.136], обозначив наличие проблемы искажения речевых сигналов при их цифровой обработке [4, с. 156-162], трудности исследования цифровых фонограмм не разрешила.

Эмпирические данные указывают, что по многим цифровым фонограммам, в том числе получаемым в ходе оперативно-розыскных мероприятий, провести идентификационное исследование по голосу и речи невозможно по причине частотно-временных искажений идентификационно-значимых параметров речевых сигналов [5, с. 162-166].

Цифровые фонограммы сегодня вызывают у судебных экспертов существенные затруднения не только в выборе оптимальных методов и методик их исследования, но и криминалистической оценке полученных результатов, их квалификации в соответствии с установленными терминологическими стандартами и экспертными методиками. Это связано с тем, что достижения в цифровой обработке и машинном синтезе речи в

20

принципе позволяют осуществить фальсификацию не только содержания, но и всех других компонентов речевого сигнала, поступающего на вход различных систем принятия решений или контроля доступа и фиксируемого на цифровой носитель в целях доказывания. Проблема усугубляется тем, что современные системы цифровой регистрации, обработки звуковых сигналов, специализированные процессоры линейного, нелинейного монтажа, в том числе компьютерного, позволяют осуществлять многообразные манипуляции с речевым сигналом, привнося в его форму и содержание существенные изменения. Учитывая тот факт, что за фальсификацию доказательств установлена уголовная ответственность, вопрос о выявлении таких признаков далеко не праздный. С юридической точки зрения фальсификация - это искусственное создание доказательств, свидетельствующих в пользу обвиняемого или потерпевшего, истца или ответчика. Применительно к задачам исследования цифровых фонограмм - это искусственно составленная фонограмма, содержащая искаженную информацию о документируемом звуковом событии, включая искажение речевого сигнала, приводящее к сходству до степени смешения идентификационных признаков разных дикторов, либо смешения индивидуализирующих свойств естественной и синтезированной речи.

Современные цифровые звукозаписывающие и передающие устройства конструктивно построены так, что при оцифровке речи они «убирают» из акустического сигнала значительное количество криминалистически значимой информации об индивидуальных свойствах голоса и речи диктора, условиях формирования акустического сигнала. В некоторых сотовых телефонах вместо речи человека передается набор кодовых сигналов, являющихся не нативной речью, а ее математической моделью. При этом от типа используемого алгоритма кодирования речи и его реализации в конкретной модели устройства зависит «похожесть» оригинальной речи говорящего и того, что получает абонент на приемном устройстве. Таким образом, на выходе создается искусственным образом синтезированный сигнал по некой математической модели, что затрудняет опознаваемость голоса на слух в условиях помех. Похожие голоса, одной группы, не имеющие ярких различительных особенностей, могут кодироваться примерно одинаково, а потому окажутся сходными до степени смешения при их слуховой перцепции экспертом. Лингвистические признаки, выявляемые на слух, зависят от многих факторов, включая индивидуальные качества эксперта, чувствительность его слухового аппарата и опыт. Совершенно очевидно, что, когда при цифровой обработке речи появляются дополнительные шумы квантования и иные специфические искажения, достоверность выделения на слух тонких фонетических особенностей оказывается весьма сомнительной.

Именно в такой особенности передачи речи по сотовой связи и лежат предпосылки совершения так называемого «телефонного мошенничества», когда при общении по сотовой связи вероятность ошибочного опознания «чужого» голоса как «своего» достаточна высока.

Дополнительные сложности возникают при экспертном исследовании аналоговых фонограмм, полученных путем перезаписи с исходных цифровых записей, в том числе с привнесенными изменениями. В итоге получается аналоговая фонограмма с цифровым монтажом, микшированным, синтезированным или компилированным речевым сигналом. При оцифровке и обработке такой фонограммы появляются дополнительные искажения, влекущие ошибку результатов сравнения.

При использовании для звукозаписи бытовых цифровых диктофонов часто в расчет принимаются только их малые размеры и вес. Не учитывается, что при такой звукозаписи цифровые диктофоны конструктивно устроены так, что все низкочастотные сигналы ниже 300 - 500 Гц просто отсекаются. На практике можно встретить экспертные заключения, где эксперт «измерял» для таких фонограмм частоту основного тона голоса и низкочастотную составляющую 50 Гц. О надежности идентификации диктора в этом случае говорить не приходится.

Другая проблема. Портативные цифровые диктофоны и сотовые телефоны для записи длительных телефонных переговоров, как правило, используют различные алгоритмы сжатия (кодирования) сигналов. Чаще всего это, так называемое, сжатие с потерей качества. На основе психоакустической модели из оцифрованного сигнала удаляется большое количество важнейшей криминалистически значимой информации об объекте исследования (например, кодирование МР3). Аналогичная ситуация с цифровой видеозаписью. Там идет кодирование по различным алгоритмам MPEG.

Еще более серьезная ситуация с мобильной связью. В цифровой фонограмме, полученной по сотовой связи идентификационному исследованию, по сути, подлежит не исходный, натуральный сигнал, естественная человеческая речь, со всеми индивидуальными свойствами присущими конкретному диктору, а искусственно синтезированный сигнал, из которого алгоритмами кодирования (или сжатия, цифровой обработкой, например, ACELP) физически исключены идентифицирующие диктора особенности. При данном способе кодирования по сотовой связи передается не сам сигнал, а его математическая модель - страница в кодовой книги и эксперты, очевидно, не обладая знаниями специфики сотовой связи, часто механически сравнивают синтезированную (машинную) речь с речью живого человека. Говорить о достоверности результатов такого сравнения с криминалистической точки зрения в принципе нельзя в силу отсутствия их сопоставимости.

Сравнение несопоставимых по своим параметрам речевых сигналов на спорной фонограмме и сравнительных образцах, нарушает основной методологический принцип криминалистической и экспертной идентификации - принципа сопоставимости исследуемых объектов в системе признаков, по которым осуществляется идентификация диктора.

Другая особенность сотовой связи. Обработка речи в стандарте GSM осуществляется в рамках принятой системы прерывистой передачи речи DTX (Discontinuous Transmission), которая обеспечивает включение передатчика

22

только тогда, когда пользователь начинает говорить и отключает его в паузах и в конце разговора. Система DTX управляет детектором активности речи VAD (Voice Activity Detector), который обеспечивает обнаружение и выделение интервалов речи с шумом и без шума речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. В состав системы прерывистой передачи речи входит также устройство формирования комфортного шума, который включается в паузах речи, когда передатчик отключен. Экспериментально доказано, что отключение фонового шума на выходе приемника в паузах при отключении передатчика раздражает абонента и снижает разборчивость речи, поэтому применение комфортного шума в паузах считается необходимым. Процесс DTX в приемнике включает также интерполяцию фрагментов речи, потерянных из-за ошибок в канале [6, с. 71-99].

Все имеющиеся на сегодня детекторы тона имеют выраженный дефект -ложное детектирование тона в интенсивных шумовых сигналах. Вследствие этого шипящие звуки устной речи и многие акустические сигналы шумового характера делаются более звонкими. В алгоритме также используется так называемая «постфильтрация» - заглаживание специальным фильтром всех дефектов восстановленного (синтезируемого) речевого сигнал на выходном конце. Как видно из вышесказанного, идентификация диктора по физическим признакам речи, диагностика акустического окружения и лингвистический анализ фонетических признаков речи в таком сигнале значительно затруднены. Проблема имеет принципиальный методологический характер и заключается в том, что исследованию подлежит синтезированный речевой сигнал, из которого алгоритмом кодирования исключены существенные идентифицирующие диктора, обстановку и канал связи особенности. Без решения вопросов достоверности воспроизводимого сигнала и границ допустимости его искажений специально для сигнала переговоров в GSM канале экспертное исследование не может быть полным.

Кроме того, каждая фонограмма в GSM канале по своей сути является «смонтированной» из цифровых реплик абонентов, между которыми производится вставка искусственного сигнала «комфортного шума». Смонтированный таким способом сигнал, включая места стыков - монтажных переходов между передаваемым речевым сигналом и синтезируемым шумом, сглаживается специальным постфильтром. И самое главное - по каналу связи передается не сама речь, а некий набор кодов и символов, по которым на оконечном аппарате восстанавливается (синтезируется) сигнал, похожий на исходный, но который не является исходным сигналом, будучи его приближенной моделью. В цифровых регистраторах сигнал подвергается дополнительному сжатию по определенному алгоритму. Результирующий сигнал, подвергшийся кодированию, многократному сжатию и обработке, переписывается на съемный носитель и поступает на экспертное исследование. При этом эксперту, как правило, не предоставляется ни оригинал фонограммы, ни устройство звукозаписи, ни информация об условиях передачи сигнала по каналам связи, ни сведения о технологической цепочке записи - перезаписи аудиофайлов.

Следовательно, традиционные экспертные методики исследования фонограмм на предмет идентификации диктора малоприменимы к современной цифровой звукозаписывающей технике и средствам мобильной связи.

Более того, нуждается в переосмыслении и терминологический аппарат судебной фоноскопической экспертизы, базировавшейся изначально на ГОСТ 13699-91, который сегодня не распространяется на фонограммы, получаемые при помощи устройств, в которых отсутствует относительное движение носителя при записи или сигналограммы при воспроизведении [7].

Экспертное решение о принадлежности голоса и речи, записанного на фонограмме конкретному проверяемому (подозреваемому) лицу, должно основываться на положениях, дающих возможность проверить в условиях судопроизводства обоснованность и достоверность сделанных выводов на базе общепринятых научных и практических данных. Соблюдение названного требования возможно, когда в экспертном заключении с достаточной для воспроизведения подробностью и полнотой описан ход исследования и последовательность действий эксперта, дана ссылка на примененную экспертную методику. При этом под методикой следует понимать систему предписаний (категорических или альтернативных) по выбору и применению в определенной последовательности и в определенных или создаваемых условиях методов и средств решения экспертной задачи.

В данной ситуации необходимо проведение комплекса научных исследований по совершенствованию используемых на практике экспертных методик идентификации диктора, основанных на методологии системы «Диалект», с учетом особенностей цифровых фонограмм как объектов экспертного исследования, полученных в разных условиях на разных технических средствах.

Список литературы

1. Галяшина Е.И. Актуальные проблемы экспертизы цифровых фонограмм // Теорiя та практика судовой експертизи i кримiЗборник научных трудов. Выпуск 8. Харюв: «право», 2008, с. 248-257.

2. Попов Н.Ф., Линьков А.Н., Кураченкова Н.Б., Байчаров Н.В. Идентификация лиц по фонограммам русской речи на автоматизированной системе «Диалект». М.: Войсковая часть 34435, 1996.

3. Кураченкова Н.Б., Байчаров Н.В., Ермакова М.А. / Под ред. В.М. Богданова. Идентификация лиц по устной речи на русском языке. Методика «Диалект». Пособие для экспертов. Издание 2-е, переработанное и дополненное. М., 2007.

4. Голощапова Т.И., Захаров А.Г., Богданов И.Е. О влиянии методов цифрового кодирования на идентификацию диктора по голосу // Криминалистика XXI век: Материалы научно-практической конференции. М.: ГУ ЭКЦ МВД России, 2001. С.156-162.

5. Голощапова Т.И., Захаров А.Г. Исследование цифровых регистраторов звуковой информации телефонных каналов связи //

24

Криминалистика XXI век: Материалы научно-практической конференции. М.: ГУ ЭКЦ МВД России, 2001. С.162-166.

6. Галяшина Е.И., Галяшин В.Н. Цифровые фонограммы как судебное доказательство // Воронежские криминалистические чтения, -Воронеж: Изд-во Воронежского гос. университета, Вып. 8, 2007. С. 71-99.

7. ГОСТ 13699-91 Запись и воспроизведение информации. Термины и определения.

Галяшина Елена Игоревна, д-р юрид. наук, д-р филолог. наук, проф., зам. зав. кафедрой, egalyashina@gmail. com Россия, Москва, Московский государственный юридический университет имени О.Е. Кутафина (МГЮА).

ON THE RELIABILITY OF FORENSIC SPEAKER IDENTIFICATION BY DIGITAL

PHONOGRAMS OF ORAL SPEECH E. I. Galyashina

The paper considers special features of digital recordings of speech signals, which are attached as evidence to materials of criminal cases. The author focuses on the problem of reliability and validity of expert decisions on the identity of the speaker, depending on the degree of distortion of the digitized speech signal transmitted via technical communication channels, the comparability of parameters compared phonograms, recorded on various digital devices and comparative samples of voice and speech.

Keywords: Criminalistics, speaker identification, digital voice and speech recordings.

Galyashina Elena Igorevna, doctor of law sciences, doctor of philological sciences, professor, deputy manager of cathedra, egalyashina@gmail. com, Russia, Moscow, Kutafin Moscow State Law University (MSAL).

i Надоели баннеры? Вы всегда можете отключить рекламу.