Научная статья на тему 'Проблемы производства судебной фоноскопической экспертизы в свете развития цифровых технологий'

Проблемы производства судебной фоноскопической экспертизы в свете развития цифровых технологий Текст научной статьи по специальности «Прочие медицинские науки»

CC BY
1014
218
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СУДЕБНАЯ ФОНОСКОПИЧЕСКАЯ ЭКСПЕРТИЗА / ЦИФРОВЫЕ ТЕХНОЛОГИИ / ГОЛОСОВОЙ СИНТЕЗ / ВОЙСЧЕНДЖЕРЫ / СУДЕБНАЯ ЭКСПЕРТОЛОГИЯ / СПЕЦИАЛЬНЫЕ ЗНАНИЯ / FORENSIC SPEECH AND AUDIO ANALYSIS / DIGITAL TECHNOLOGIES / VOICE SYNTHESIS / VOICECHANGER / FORENSIC SCIENCE / SPECIALIST KNOWLEDGE

Аннотация научной статьи по прочим медицинским наукам, автор научной работы — Лебедева А. К.

В статье рассматриваются некоторые проблемы, связанные с производством судебной фоноскопической экспертизы с учетом глобальной цифровизации всех сфер жизнедеятельности человека. Войсченджеры, технологии голосового синтеза существенно осложняют производство судебных фоноскопических экспертиз и ставят перед экспертами новые интересные задачи. Рассматриваются алгоритм изменения голоса при помощи современных программ, а также особенности технологий синтеза голоса. Предложены некоторые варианты исследования подобных фонограмм.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROBLEMS OF FORENSIC PHONOSCOPIC EXAMINATION IN THE LIGHT OF THE DEVELOPMENT OF DIGITAL TECHNOLOGIES

The article deals with some problems related to the production of forensic speech and audio analysis, taking into account global digitalization of all spheres of human life. Voicechanger, technology of voice synthesis signifi cantly complicate forensic phonoscopic examinations and put before the forensic experts a new, interesting challenges. We consider the algorithm for changing the voice using modern software, as well as features of voice synthesis technologies. Some variants of studying such phonograms are proposed.

Текст научной работы на тему «Проблемы производства судебной фоноскопической экспертизы в свете развития цифровых технологий»

УНИВЕРСИТЕТА

1И О.Е. Кугафина (МПОА)

Антонина Константиновна ЛЕБЕДЕВА,

старший преподаватель кафедры судебных экспертиз Университета имени О.Е. Кутафина (МГЮА), кандидат юридических наук,

[email protected]

125993, Россия, г. Москва, ул. Садовая-Кудринская, д. 9

ПРОБЛЕМЫ ПРОИЗВОДСТВА СУДЕБНОЙ ФОНОСКОПИЧЕСКОЙ ЭКСПЕРТИЗЫ В СВЕТЕ РАЗВИТИЯ ЦИФРОВЫХ ТЕХНОЛОГИЙ

Аннотация. В статье рассматриваются некоторые проблемы, связанные с производством судебной фоноскопической экспертизы с учетом глобальной цифровизации всех сфер жизнедеятельности человека. Войсченджеры, технологии голосового синтеза существенно осложняют производство судебных фоноскопических экспертиз и ставят перед экспертами новые интересные задачи. Рассматриваются алгоритм изменения голоса при помощи современных программ, а также особенности технологий синтеза голоса. Предложены некоторые варианты исследования подобных фонограмм. Ключевые слова: судебная фоноскопическая экспертиза, цифровые технологии, голосовой синтез, войсченджеры, судебная экспертоло-гия, специальные знания.

DOI: 10.17803/2311-5998.2020.70.6.062-071

A. K. LEBEDEVA,

senior lecturer of Forensic Expertise's department of the Kutafin Moscow State Law University (MSAL), Cand. Sci. (Law),

[email protected], 125993, Russia, Moscow, ul. Sadovaya-Kudrinskaya, 9

PROBLEMS OF FORENSIC PHONOSCOPIC EXAMINATION IN THE LIGHT OF THE DEVELOPMENT OF DIGITAL TECHNOLOGIES

Abstract. The article deals with some problems related to the production of forensic speech and audio analysis, taking into account global digitalization of all spheres of human life. Voicechanger, technology of voice synthesis significantly complicate forensic phonoscopic examinations and put before the forensic experts a new, interesting challenges. We consider the algorithm for changing the voice using modern software, as well as features of voice synthesis technologies. Some variants of studying such phonograms are proposed. Keywords: forensic speech and audio analysis, digital technologies, voice synthesis, voicechanger, forensic science, specialist knowledge.

Цифровые технологии заполонили нашу жизнь. Сложно найти человека, не использующего смартфон, планшет, компьютер. Цифровизация внедряется в самые разнообразные области деятельности человека. Безусловно, активно осуществляется и цифровизация судебно-экспертной деятельности, © А. К. Лебедева, 2020 разрабатываются новые программно-технические комплексы, совершенствуется

автоматизированное рабочее место эксперта (АРМ эксперта). Однако бурный рост цифровых технологий имеет и некоторые негативные последствия, глобальная цифровизация не обходит стороной и криминальные сферы, злоумышленники активно используют современные технологии в противоправных целях: для сокрытия личности, информации, для инсценировки, имитации различных событий и т.д.

Что касается судебной фоноскопической экспертизы, то существуют различные программно-технические средства для изменения голоса, иные возможности для маскировки и искажения речевого сигнала, затрудняющие решение задач по идентификации диктора и диагностике. Соответственно, для эффективного раскрытия и расследования преступлений различной направленности необходимо своевременно совершенствовать материально-техническую базу судебных экспертиз, опираясь на достижения научного прогресса, повышать уровень существующих методических подходов и рекомендаций.

Современная судебная фоноскопическая экспертиза, как пишет Елена Игоревна Галяшина, «это исследование экспертом не только речевых и неречевых сигналов, записанных в двоичном коде на фонограмме, но и цифровых данных, их носителей, кодеков, систем синтеза голоса и речи, программ цифровой обработки звуковых сигналов»1. Такое положение дел указывает на появление новых задач судебной фоноскопической экспертизы и на пути развития судебной фоноскопической экспертизы, и АРМ эксперта-фоноскописта.

Для автоматизации процесса судебно-экспертного исследования в фоноскопической экспертизе «используется измерительно-вычислительный комплекс, состоящий из персонального компьютера со специальным математическим обеспечением и системами ввода и вывода звукового сигнала, высококачественной аудиоаппаратуры и прецизионной измерительной техники»2.

Одним из крупных и прогрессивных разработчиков программного обеспечения для автоматизации процесса производства судебных фоноскопических экспертиз является группа компаний «Центр речевых технологий» (далее — ЦРТ). Их аппаратно-программный комплекс «ИКАР Лаб» решает широкий перечень задач, связанных с анализом цифровых фонограмм. «Входящие в состав комплекса специализированные программные средства обеспечивают высокое качество визуального представления фонограмм речи. Современные алгоритмы голосовой биометрии и мощные инструменты автоматизации всех видов исследования фонограмм речи позволяют экспертам существенно повысить надежность и эффективность экспертиз»3.

1

Ш m К

Т □

Р

Галяшина Е. И. Современные проблемы экспертизы цифровых фонограмм // Современные проблемы цифровизации криминалистической и судебно-экспертной деятельности : g материалы Научно-практической конференции с международным участием (г. Москва,

5 апреля 2019 г). М. : РГ-Пресс, 2019. С. 54—61. Д Российская Е. Р., Галяшина Е. И., Зинин А. М. Теория судебной экспертизы (судебная Ч экспертология) : учебник / под ред. Е. Р. Россинской. 2-е изд., перераб. и доп. М. : Норма ; Инфра-М, 2016. С. 340—341.

URL: https://www.speechpro.ru/product/ekspertnye-sistemy-i-shumoochistka/ (дата обраще- й

ния: 12.02.2020). НАУКИ

>

2

3

в М УНИВЕРСИТЕТА

L-—и мени О. Е. Кугафи на (МПОА)

Кроме указанного аппаратного-программного комплекса, в ЦРТ разрабатывают специализированное ПО для проведения шумоочистки (Sound Cleaner II), существует даже комплекс шумоочистки речевых сигналов на основе портативного устройства 3TC-H257 («Золушка Микрон»). Имеется у ЦРТ и комплекс, который, судя по описанию, может значительно облегчить работу эксперта-фоноскописта по составлению дословного содержания — комплект для преобразования речи в текст «Цезарь-Р»4.

Кроме ЦРТ, разработками для совершенствования АРМ эксперта-фоноско-писта занимается ООО «Целевые технологии». Они разработали специальное программное обеспечение для анализа, обработки, шумоочистки и идентификации говорящего по фонограммам устной речи «Юстифон» (производитель — ИП «Иванова В. И.», г. Орел, совместно с ООО «Целевые Технологии»), также в числе их заслуг значится программное обеспечение для автоматизированной идентификации говорящего по фонограммам русской устной речи «Фонэкси»5.

Несмотря на подобную автоматизацию процесса судебно-экспертного фоно-скопического исследования, с исследованием цифровых фонограмм все пока не совсем ясно. Как указывает профессор Е. И. Галяшина, «сложность проверки и оценки достоверности информации, запечатленной в устной речи на цифровой фонограмме, заключается в принципиальной возможности редактирования и монтажа фонограммы без оставления видимых следов манипуляций»6.

Если фонограмма адекватно отображает фиксируемое звуковое событие (след) на материальном носителе «с учетом естественных искажений и помех, которые обусловлены характеристиками тракта передачи и записи, другими ситуативными факторами»7, то она является аутентичной. Установить, что фонограмма является аутентичной, можно, таким образом, если не имеется признаков каких-либо намеренных искажений голоса и речи, если в фонограмму не вносились изменения ни в процессе ее записи, ни после ее записи. Однако в связи со сложностью обнаружения следов цифрового монтажа и иных изменений задача по признанию фонограммы аутентичной значительно усложняется. Под нарушением аутентичности речевого события можно понимать искажения речевого сигнала, монтаж фонограммы, синтез голоса и речи, имитацию речевого события, различных характеристик голоса и речи диктора, маскировку и модификацию голоса и речи. Обозначим кратко эти нарушения.

Искажение — это какие-либо изменения, которые сопровождаются «утратой ряда качеств или приобретением новых»8. В том случае, если в процессе судебно-экспертного исследования эксперт обнаружил признаки наличия каких-либо искажений в фонограмме, ему необходимо установить «механизм, способы и

4 URL: https://www.speechpro.ru/product/ekspertnye-sistemy-i-shumoochistka/.

5 URL: http://aimtech.ru/catalog/109 (дата обращения: 12.02.2020).

6 Галяшина Е. И. Судебное речеведение : учебник. М. : Норма ; Инфра-М, 2020. С. 214.

7 Галяшина Е. И. Проблемы криминалистической диагностики фальсификации фонограмм, получаемых при проведении оперативно-розыскных мероприятий // Научная школа уголовного процесса и криминалистики Санкт-Петербургского государственного университета и современная юридическая наука. СПб., 2016. С. 334—357.

8 Конт-Спонвиль А. Философский словарь. М., 2012.

причины внесения в фонограмму изменений, их искусственный или естественный харктер»9, указать степень искажения признаков, являющихся криминалистически значимыми.

Что касается понятия «модификация», то его значение более широкое. Цифровые фонограммы значительно проще поддаются модификации, чем аналоговые. Модификация представляет собой какое-либо видоизменение предмета или явления, которые не затрагивают его сущности10. В судебной фоноскопии модификацию фонограммы можно рассматривать как любое (намеренное или ненамеренное) воздействие на фонограмму, изменяющее или искажающее ее свойства.

Что касается понятий «маскировка» и «имитация», которые с первого взгляда похожи по содержанию, в рамках фоноскопического исследования имеют своей целью каким-либо образом скрыть реальный голос диктора, тем не менее имитация и маскировка «достигаются разными способами и имеют разную степень легкости выполнения»11.

Имитация — это прежде всего подражание голосу и речи другого лица путем анализа особенностей речепорождения диктора (тембра, артикуляции, интонационного оформления и т.д.). Обладая необходимыми навыками, лицо может сымитировать речь другого лица.

Маскировка голоса связана с изменением лингвистических и акустических характеристик голоса и речи лица с целью намеренного сокрытия собственной личности или личности иного лица.

Е. И. Галяшина предлагает разделить существующие способы получения неаутентичных фонограмм на умышленное или неумышленное изменение количества или качества звуковой информации, которые заключаются в следующем:

— «в уменьшении количества информации (выборочная фиксация, остановки во время записи, ее прерывание, отключение микрофона, стирание и т.д.);

— в увеличении количества информации (дополнение фонограммы в любом ее месте, наложение дополнительной информации на существующую, одновременная запись нескольких независимо происходящих акустических событий, искусственное формирование вербальной составляющей диалога и т.д.);

— в замене информации (замена одних фрагментов фонограмм или записанных речевых и неречевых сигналов другими и т.д.);

— в подборе и сочетании компонентов информации (монтаж, компиляция, микширование и т.д.)»12.

Поговорим более подробно о некоторых способах получения неаутентичных

Норинт, 2008.

12

ш

m

фонограмм с использованием цифровых технологий.

й И

9 Конт-Спонвиль А. Указ. соч. С. 352. Д

10 Новейший большой толковый словарь русского языка / под ред. С. А. Кузнецова. СПб. : Ч

т П

11 Лютова Д. А. Основные задачи и методы технологий распознавания говорящего по голосу // Вестник МГЛУ 2010. № 592. Й

Галяшина Е. И. Современные проблемы экспертизы цифровых фонограмм. С. 55. НАУКИ

>

в М УНИВЕРСИТЕТА

L-—и мени О. Е. Кугафи на (МПОА)

Изменение голоса при помощи компьютерно-технических средств

Изменение голоса при помощи компьютерно-технических средств осуществляется путем искажения голоса за счет его цифровой обработки при помощи специальных программных продуктов.

Программы для изменения голоса диктора реализуют в своей работе сходный алгоритм: они по установленным программой параметрам автоматически изменяют некоторые характеристики голоса, прежде всего частоту основного тона голоса.

Если раньше для подобной цифровой обработки голоса необходимо было устанавливать сложное программное обеспечение, то сейчас достаточно просто скачать приложение на телефон. Например, в Apple store есть приложения, которые так и называются «Запись и изменение голоса», «Изменение голоса и маскировка», «Клонируй голоса знаменитостей» и т.д. Существующие программы могут изменять как загруженную в них ранее записанную фонограмму, так и изменять речевой сигнал в реальном времени, например при общении через Skype, WhatsApp и др.

В предыдущих работах мы уже указывали, что программно-технические средства для изменения голоса мы предлагаем разделить на две группы:

«1. Изменяющие речевой сигнал непосредственно перед его поступлением в канал записи, т.е. в реальном времени.

2. Изменяющие уже записанный на фонограмме речевой сигнал посредством постобработки»13.

Следует подчеркнуть, что при изменении голоса в реальном времени, «изменений в готовую фонограмму не вносится. Изменения вносятся на стадии формирования речевого сигнала, поступающего в канал записи, где мы имеем новый, видоизмененный речевой сигнал»14. Таким образом, обнаружить какие-либо признаки постобработки речевого сигнала крайне затруднительно, так как посредством цифро-аналогового преобразования образуется новый речевой сигнал.

С учетом подобных изменений возникает определенная проблема: со стороны судебной фоноскопической экспертизы — такая фонограмма не является аутентичной, так как не содержит действительной информации о речевом событии, однако ее содержание будет соответствовать сигналу, поступившему в канал записи, без каких-либо изменений. С точки зрения процессуального права факт неаутентичности фонограммы приводит к признанию ее недостоверным доказательством вследствие ее неподлинности.

Тем не менее следует отметить, что различные модификации речевых сигналов не должны «автоматически» делать фонограмму недостоверным доказательством: иной фонограммы с немодифицированным звуковым сигналом, которая содержит какую-либо информацию о речевом событии, может не существовать;

13 Лебедева А. К. Особенности судебно-экспертного исследования голоса, измененного при помощи компьютерно-технических средств // Известия Тульского государственного университета. Экономические и юридические науки. 2016. № 3—2. С. 324.

14 Лебедева А. К. Судебно-экспертное исследование обликовых характеристик личности по фонограммам речи: правовые и методические аспекты : дис. ... канд. юрид. наук : 12.00.12. М., 2017. С. 155.

а вносимые в речевой сигнал изменения обладают определенным доказательственным значением, поскольку характеризуют отдельные свойства личности преступника и обстоятельства совершения преступления, поэтому необходимо по возможности дать криминалистическую оценку признаков, свидетельствующих об использовании компьютерно-технических средств для изменения голоса или об иных способах цифровой обработки фонограмм.

Фонограмма, каким-либо образом измененная, т.е. являющаяся неаутентичной, может в зависимости от предмета доказывания иметь доказательственное значение. Например, при решении вопроса о фальсификации доказательств (ст. 303 УК РФ) или если перед экспертом стоит задача, связанная с установлением факта имитации голоса и речи диктора (дела, связанные с расследованием телефонных мошенничеств, с участием пранкеров и т.п.), выявленные экспертом изменения и должная их криминалистическая оценка могут быть использованы в том числе и в доказывании.

В качестве некоторых рекомендаций по анализу фонограмм с предположением об изменении голоса при помощи различных программ можем предложить следующее:

— «установить наличие/отсутствие признаков внесения изменений в фонограмму на основе положений методики технического исследования фонограмм. При этом важно установить источник указанных изменений, они могут быть следствием применения компьютерно-технических средств для изменения голоса, монтажа фонограммы, их появление может объясняться особенностями работы устройств, образующих канал записи фонограмм. Путем инструментального анализа установить, по возможности, конкретное программное средство, используемое злоумышленником (анализ бинарной структуры файла, в том числе служебной информации, анализ спектрального представления сигнала);

— дать криминалистическую оценку выявленных изменений. Об использовании компьютерно-технических средств для изменения голоса могут свидетельствовать наличие в метаданных файла информации о применении конкретного программного обеспечения (которое используется именно для целей изменения голоса), несогласованность между лингвистическими и акустическими признаками, между обликовыми характеристиками диктора»15.

Голосовой синтез

ш гп

Синтез речи — это технология, позволяющая преобразовывать текст в звучащую речь. Технологии голосового синтеза и распознавания речи используются повсеместно, позволяют наладить эффективное взаимодействие между пользователем и различными системами в сфере телекоммуникаций (например, р прочтение сообщений из мессенджеров и электронной почты, голосовые напо- Д минания и оповещения), применяются для развития систем обучения, например для озвучивания лекций, записи аудиокниг. Голосовой помощник «Алиса», Siri

К

15 Лебедева А. К. Судебно-экспертное исследование обликовых характеристик личности й

по фонограммам речи. С. 166. НАУКИ

>

в М УНИВЕРСИТЕТА

L-—и мени О. Е. Кугафи на (МПОА)

от Apple, иные голосовые ассистенты, система умного дома также реализуют технологии голосового синтеза. Технологии синтеза речи есть и у некоторых банков, например, банк «Тинькофф» предлагает технологию синтеза речи для использования в телефонных роботах, голосовых ассистентах, для озвучивания контента.

Совсем недавно была разработана технология голосового синтеза от Vera Voice. В основе данной технологии, как и иных современных технологий голосового синтеза, лежит «ансамбль из нейронных сетей»16, позволяющий скопировать любой голос и произнести им что угодно. Чтобы синтезировать голос, нейросети должны проанализировать несколько часов аудиозаписей обладателя голоса и оцифрованный текст, который он зачитывает. Правда, данный проект, разработанный компанией Screenlife Technologies Т. Бекмамбетова и командой проекта «Робот Вера», предлагает озвучивать тексты голосами знаменитостей, например голосом К. Собчак, В. Познера17.

Технологии голосового синтеза уже никого не пугают. Еще несколько лет назад озвученная с помощью специальных программных алгоритмов речь слабо походила на речь человека, но в настоящее время, когда технологии голосового синтеза постоянно совершенствуются, часто возникают вопросы, является ли речь результатам голосового синтеза или была произнесена конкретным человеком в определенной коммуникативной ситуации.

Однако несмотря на благие цели создателей, подобные технологии могут использоваться злоумышленниками в противоправных целях, например для имитации речевого события, для того чтобы «подставить» какого-либо человека (по делам о получении/даче взятки, об изготовлении и распространении наркотических средств), для сокрытия своей личности (в случае совершения анонимных звонков с сообщениями о готовящихся террористических актах), при расследовании преступлений против свободы личности (похищение человека, незаконное лишение свободы).

Таким образом, экспертам-фоноскопистам необходимо быть готовыми к тому, что перед ними может быть поставлен вопрос, связанный с установлением факта использования технологий голосового синтеза для создания спорной фонограммы. В настоящее время методических подходов для решения этой задачи не имеется, а существуют лишь отдельные научные статьи. Для начала опишем алгоритм технологии голосового синтеза, чтобы определить возможные пути решения данной задачи.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Самые первые технологии голосового синтеза, которые, по сути, являлись просто монтажом фонограммы, основывались на цифровом «склеивании» заранее записанных слов и фраз. Подобный подход дает достаточно высокое качество речи и в наши дни является довольно распространенным (например, объявления на вокзалах, аэропортах, метро и т.д.). Тем не менее подобные системы могут воссоздавать крайне небольшой набор фраз.

Для того чтобы озвучивать большие объемы текстов, предлагают «методы конкатенации и метод полного синтеза речи по правилам, который, в свою очередь,

16 URL: https://veravoice.ai/ (дата обращения: 12.02.2020).

17 URL: https://veravoice.ai/ (дата обращения: 12.02.2020).

может быть реализован несколькими способами»18. Метод конкатенации также основан на склеивании, но уже полуслогов (полуслог — это сочетание целого согласного и половины гласного звука). Что касается конкатенационного метода синтеза речи, то, как указывают специалисты, он дает хорошие результаты при аккуратной обработке и сшивке фонем. Однако следует отметить, что при склеивании фонем, «в моменты состыковки фонем возникают "артефакты" (на слух воспринимаемые как резкое изменение амплитуды и/или частоты звука), связанные с недостаточными требованиями на гладкость сшивки»19.

Таким образом, при использовании подобных методов синтеза речи методами слуховой перцепции и акустико-инструментальными методами можно обнаружить некоторые признаки использования технологии голосового синтеза. Главное, эксперт должен обращать пристальное внимание на появление подобных артефактов на спектрограмме спорной фонограммы. При прослушивании фонограммы при проведении лингвистического анализа следует внимательно изучать особенности интонационных конструкций (ИК), так как ненормативное употребление ИК очень ярко проявляется при использовании подобного метода, а также иные просодические признаки существенно искажаются.

Технологии синтеза голоса у «Яндекса» реализует подход Unit Selection. Для подготовки к синтезу голоса также необходимо записать значительный объем речи диктора. Однако технология синтеза у «Яндекса» имеет существенное преимущество, для синтеза голоса здесь не склеивают фрагменты реальной речи, а обучают «акустическую модель на речи диктора». Для этого опять же используются нейронные сети, в результате, как указывают разработчики, «для любого текста речь получается плавной, а интонации естественными»20. И это действительно так, при прослушивании фонограмм-образцов, размещенных на ресурсе «Яндекса», действительно, проблемы, связанные с неправильной передачей интонационных конструкций русского языка, практически решены. Да, есть определенные «сломы» интонационного контура, но их уже значительно меньше, чем при реализации технологий простого «склеивания».

Безусловно, для успешной реализации голосового синтеза текст, который необходимо озвучить, следует подготовить.

Во-первых, следует раскрыть все сокращения, которые есть в тексте, числа и т.п. При озвучивании могут возникать проблемы с расстановкой ударений, с учетом того, что в русском языке ударение является свободным и может падать на любой слог. Кроме того, существуют слова омографы, если человек ставит ударение в зависимости от контекста, то системе это сделать гораздо сложнее. Что касается паузации, то, если необходимо поставить паузы в речи, в тексте ставится запятая, она соответствует паузе длительностью около 100 мс, для за- О

вершения интонации — точка.

Р И

И

18 Никоноров С. А. Боголюбов А. Н. Вейвлет-анализ аудиосигналов и синтез речи // Ученые Ч записки физического факультета Московского университета. 2018. № 6. С. 1860601-1 —

1860601-5.

19 Никоноров С. А. Боголюбов А. Н. Указ. соч. й

20 URL: https://cloud.yandex.ru/docs/speechkit/ (дата обращения: 12.02.2020). НАУКИ

Ш

m

>

в М УНИВЕРСИТЕТА

L-—и мени О. Е. Кугафи на (МПОА)

Таким образом, алгоритм расставления знаков препинания в тексте для озвучивания аналогичен расстановке знаков препинания при составлении дословного содержания, т.е. в соответствии с синтагматическим членением высказываний. Для выражения интонации ставят вопросительные, восклицательные знаки. Технология голосового синтеза Яндекса предлагает пользователям возможности выбора эмоциональной окраски голоса. Как указывается разработчиками, для некоторых голосов «нейронная сеть обучалась на трех разных датасетах с репликами диктора, в которых фразы произносились с разной интонацией: радостной, раздраженной, нейтральной». Кроме того, разработчики Яндекса указывают, что при синтезе премиум-голосов перед стартом сервиса SpeechKit «оценивается весь текст целиком, а не отдельные предложения. Это позволяет получить значительно более уместные интонации, присущие речи живого человека»21.

В компании «Тинькофф» (технология голосового синтеза (Тасо^оп 2, Wavenet) сообщают о результатах оценивания качества синтезированного сигнала: по мнению людей, синтезированный голос похож на человеческий на 4.3 балла из 522. Кроме того, в ближайшее время здесь обещают введение функции «управление интонациями», что может существенно осложнить диагностику факта создания фонограммы путем голосового синтеза.

Технологии голосового синтеза действительно существенно могут осложнить производство судебно-экспертного фоноскопического исследования, особенно в части применения акустико-инструментальных методов анализа цифровых фонограмм. Как считает Г. Н. Зубов, «в результате такого синтеза речь разных людей (например, участников одного или нескольких разговоров, записанных в одних и тех же условиях) может звучать очень похоже, а спектрально-формантные характеристики могут быть близки до неразличения при использовании типовых, традиционных методов исследования»23. Соответственно, следует совершенствовать методы акустико-инструментальной группы с учетом особенностей современных технологий голосового синтеза, иначе это может привести к серьезным ошибкам при решении задачи идентификации диктора.

Кроме того, как отмечает Г. Н. Зубов, «гораздо более серьезную угрозу для возможности обнаружения подделки представляют технологии синтеза, основанные на использовании искусственного интеллекта и моделей речевого тракта»24, а, как мы писали выше, большинство современных технологий синтеза голоса работают именно с учетом возможностей искусственного интеллекта, нейросетей.

Таким образом, факт использования различных цифровых технологий для внесения изменений в фонограмму, для создания новой фонограммы не свидетельствует только о невозможности производства судебной фоноскопической экспертизы по поставленным вопросам. Современное общество стремится к циф-

21 URL: https://cloud.yandex.ru/docs/speechkit/ (дата обращения: 12.02.2020).

22 URL: https://voicekit.tinkoff.ru/docs/synthesis (дата обращения: 11.02.2020).

23 Зубов Г. Н. «Я не я, и голос не мой» : О возможностях фальсификации фонограмм с помощью современных технологий синтеза устной речи // URL: https://www.klad. media/text-to-speech?fbclid=IwAR1VwQ-v5FBUDjytGMBwvCxF2THo5_ncDw_Ag0Dfzb5_ 0zqACmz1Ja22w0I (дата обращения: 13.02.2020).

24 Зубов Г. Н. Указ. соч.

ровизации всех сфер жизнедеятельности, и не стоит бояться этих изменений, а необходимо говорить о разработке новых и совершенствовании существующих методических подходов к производству судебных фоноскопических экспертиз.

БИБЛИОГРАФИЯ

1. Галяшина Е. И. Проблемы криминалистической диагностики фальсификации фонограмм, получаемых при проведении оперативно-розыскных мероприятий // Научная школа уголовного процесса и криминалистики Санкт-Петербургского государственного университета и современная юридическая наука. — СПб., 2016. — С. 334—357.

2. Галяшина Е. И. Современные проблемы экспертизы цифровых фонограмм // Современные проблемы цифровизации криминалистической и судебно-экспертной деятельности : материалы Научно-практической конференции с международным участием (г. Москва, 5 апреля 2019 г.). — М. : РГ-Пресс, 2019 — С. 54—61.

3. Галяшина Е. И. Судебное речеведение : учебник. — М. : Норма ; Инфра-М, 2020. — 320 с.

4. Зубов Г. Н. «Я не я, и голос не мой» : О возможностях фальсификации фонограмм с помощью современных технологий синтеза устной речи // URL: https:// www.klad.media/text-to-speech?fbclid=IwAR1VwQ-v5FBUDjytGMBwvCxF2THo5_ ncDw_Ag0Dfzb5_0zqACmz1Ja22w0I. (дата обращения: 13.02.2020).

5. Конт-Спонвиль А. Философский словарь. — М., 2012.

6. Лебедева А. К. Особенности судебно-экспертного исследования голоса, измененного при помощи компьютерно-технических средств // Известия Тульского государственного университета. — Экономические и юридические науки. — 2016. — № 3—2. — С. 323—328.

7. Лебедева А. К. Судебно-экспертное исследование обликовых характеристик личности по фонограммам речи: правовые и методические аспекты : дис. ... канд. юрид. наук : 12.00.12. — М., 2017. — 213 с.

8. Лютова Д. А. Основные задачи и методы технологий распознавания говорящего по голосу // Вестник МГЛУ. — 2010. — № 592.

9. Никоноров С. А., Боголюбов А. Н. Вейвлет-анализ аудиосигналов и синтез речи // Ученые записки физического факультета Московского университета. — 2018. — № 6. — С. 1860601-1—1860601—5.

10. Новейший большой толковый словарь русского языка / под ред. С. А. Кузнецова. — СПб. : Норинт, 2008.

11. Теория судебной экспертизы (судебная экспертология) : учебник / Е. Р. Рос-синская, Е. И. Галяшина, А. М. Зинин / под ред. Е. Р. Россинской. — 2-е изд.,

перераб. и доп. — М. : Норма ; Инфра-М, 2016. Д

И

4

п

К

5

НАУКИ

>

i Надоели баннеры? Вы всегда можете отключить рекламу.