Научная статья на тему 'К ВОПРОСУ О ПРОВЕДЕНИИ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ ПОСРЕДСТВОМ ГАУССОВОЙ МОДЕЛИ СМЕСИ'

К ВОПРОСУ О ПРОВЕДЕНИИ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ ПОСРЕДСТВОМ ГАУССОВОЙ МОДЕЛИ СМЕСИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
122
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГОЛОС / РЕЗОНАТОР / КЕПСТР / ПРЕОБРАЗОВАНИЕ ФУРЬЕ / ГАУССОВСКАЯ СИСТЕМА РАСПРЕДЕЛЕНИЯ / МЕЛ-ШКАЛА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Попов Всеволод Васильевич

Статья посвящена возможностям идентификации личности по голосу. Описывается формирование голоса в соответствии с анатомией и физиологией человека. Приводятся основные способы опознания человека по голосу, обращается внимание на существующие на сегодняшний день недостатки наиболее часто используемых способов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE ISSUE OF VOICE IDENTIFICATION USING THE GAUSSIAN MIXTURE MODEL

The article is devoted to the possibilities of identifying a person by voice. It describes the formation of the voice in accordance with human anatomy and physiology. The main methods of identifying a person by voice are given, and attention is drawn to the current shortcomings of the most commonly used methods.

Текст научной работы на тему «К ВОПРОСУ О ПРОВЕДЕНИИ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ ПОСРЕДСТВОМ ГАУССОВОЙ МОДЕЛИ СМЕСИ»

УДК 343.982.32 ББК 67.52

© 2021 г. Попов Всеволод Васильевич,

старший преподаватель кафедры криминалистики и оперативно-разыскной деятельности Ростовского юридического института МВД России.

К ВОПРОСУ О ПРОВЕДЕНИИ ИДЕНТИФИКАЦИИ ПО ГОЛОСУ ПОСРЕДСТВОМ ГАУССОВОЙ МОДЕЛИ СМЕСИ

Статья посвящена возможностям идентификации личности по голосу. Описывается формирование голоса в соответствии с анатомией и физиологией человека. Приводятся основные способы опознания человека по голосу, обращается внимание на существующие на сегодняшний день недостатки наиболее часто используемых способов.

Ключевые слова: голос, резонатор, кепстр, преобразование Фурье, гауссовская системараспределе-ния, мел-шкала.

Popov Vsevolod Vasilievich - Senior Lecturer, the Department of Forensic Science and Operational-Search

Activities, the Rostov Law Institute of Internal Affairs of the Russian Federation.

ON THE ISSUE OF VOICE IDENTIFICATION USING THE GAUSSIAN MIXTURE MODEL

The article is devoted to the possibilities of identifying a person by voice. It describes the formation of the voice in accordance with human anatomy and physiology. The main methods of identifying a person by voice are given, and attention is drawn to the current shortcomings of the most commonly used methods.

Keywords: voice, resonator, kepstr, Fourier transform, Gaussian distribution system, mel-scale.

Работа экспертно-криминалистических подразделений по идентификации личности базируется на исследовании материальных объектов - следов, выявляемых в ходе осмотра места происшествия или полученных в ходе оперативно-розыскных мероприятий. Наиболее часто встречаемыми следами были и остаются следы рук и объекты биологического происхождения. Но в ряде случаев единственным объектом исследования является голосовой след, т. е. речь человека. Голос человека также является индивидуальным следом и это обусловлено несколькими факторами, о которых речь пойдет ниже.

В основу проведения фоноскопических экспертиз заложен лингвистический и акустический анализ речи. Лингвистический анализ - это изучение личностных характеристик речи - социальных, интеллектуальных и т. д., акустический - изучение анатомических и физиологических особенностей. Но все имеющиеся методы проведения фоноскопи-ческих экспертиз основаны на прослушивании записи экспертом и восприятии на слух имеющейся голосовой информации, что не исключает влияние человеческого фактора, к которым в основном относятся:

- среда записи (уровень и тип шума среды, уровень реверберации);

- эффект представления (длительность речи, психофизиологическое состояние гово-

рящего (болезнь, эмоциональное состояние и т. п.), язык речевого сообщения, акцент, громкость речи);

- низкое качество канала (помехи, искажения микрофона и канала передачи, вид кодирования в канале и т. д.).

С другой стороны, качественный сбор образцов для сравнительного исследования, определяющий в основном успешность проведения экспертизы, очень трудоемок и требует соблюдения многих условий:

1. Необходимо в речи использовать слова и фразы, в которых наиболее ярко проявляются особенности произношения, патологии речи или иные отклонения от общепринятых норм литературного языка.

2. Микрофон располагают на расстоянии около 0,5 метра от рта человека, запись образца голоса которого производится.

3. Запись желательно проводить на такую же аппаратуру, на какой была записана речь в виде следовой информации, и в тех же акустических условиях.

4. Окна и двери помещения, где производится запись, должны быть плотно закрыты, телефонные аппараты отключены, устранены и другие источники возможных посторонних шумов.

5. При записи фонограммы испытуемый должен произносить те же самые фразы и слова, что и в исследуемой записи.

Конечно же, соблюсти все условия зачастую невозможно. Отсюда возникает необходимость исследования голоса человека вне зависимости от каких-либо условий. Российские ученые В Н. Сорокин, В В. Вьюгин, ЮН Матвеев, К.Л. Тассов, Р.А. Дятлов посвятили изучению частотных характеристик голоса, и одной из таких методик идентификации по голосу и посвящена данная статья.

Если рассматривать голос с повседневной точки зрения, то это один из основных коммуникативных элементов нашей жизни. Но подстраиваясь для общения, мы формируем его индивидуальность. С того момента, как человек издает свой первый крик, начинается формирование подачи звуков для отражения эмоционального и физиологического состояния. То есть подсознательно ребенок привлекает внимание матери голосом, если он проголодался или у него что-то болит, а в ответ на ласку материнских рук его крик становится «мягче» и не таким пронзительным. Чуть позже начинается формирование голосовой подачи в соответствии с воспринимаемыми слухом манерами общения родителей, воспитателей в детском саду и учителей в школе. И в конечном итоге складывается тот голос, который сопровождает человека всю жизнь.

В формировании голоса участвуют не только анатомические элементы, но и формирующиеся в процессе голосообразования физиологические приемы. Конечно, в основе голоса наибольшую роль играют голосовые связки гортани. Но в процессе выработки голоса и формировании произношения отдельных звуков человек приспосабливается напрягать дыхательные мышцы таким образом, чтобы регулировать прохождение воздуха через голосовые связки с целью получения оптимального, на его взгляд, звукообразования. Также к формированию голоса причастны пазухи верхних челюстей, лобной и клиновидной костей черепа - воздух, находящийся в них, под действием колебаний звуковой волны резонирует, что добавляет голосу дополнительное звучание. Определенно на голосе отражается и функционирование желез внутренней секреции: половые железы определяют грубость голоса у мужчин и более высокие голоса женщин, паращитовидные железы регулируют процесс кальцинации или окостенения гортани, от чего голос с годами грубеет. Есть определенная зависимость между психическим здоровьем человека и его голо-

сом: например, шизофрения и олигофрения приводят к утрате голосом звучности и мелодичности.

Как и у любого физического явления, у голоса есть свои характеристики, основными из них являются высота и тембр [3].

Из физики известно, что высота звука зависит от частоты колебательных движений воздуха, а также от размеров и напряженности колеблющегося тела. То есть чем чаще колебания и чем меньше и тоньше колеблющееся тело, тем выше звук. Колебания воздуха при голосообразовании создают голосовые складки. Количество смыканий и размыканий голосовых связок определяет тон голоса, а их размер определяет высоту. При коротких и тонких голосовых складках голос высокий, как у детей и женщин, и чем толще и длиннее складки, тем голос более низкий [2].

Индивидуализирующим параметром голоса является его тембр. Голос - сложный звук, то есть состоящий из сливающихся в единое звучание различных по частоте и силе колебаний. Высоту звучания в сложных звуках определяет основной тон, но существуют еще обертоны (частичные тоны). Тембр голоса -это совокупность основного тона и обертонов, которые определяют и индивидуализируют голос. Колебания голосовых складок формируют основной тон (высота голоса), а дополнительные колебания, возникающие в резонаторах, формируют обертоны. Любые полые образования дыхательных путей будут являться резонаторами - трахея, бронхи, гортань, глотка, полость рта и вышеупомянутые пазухи костей черепа. Полости, имеющие неизменный объем, создают обертоны постоянной частоты. Полости же, меняющие свой объем, соответственно, изменяют и частоту обертона, а от этого звучание голоса может варьировать в достаточно широких пределах (рис. 1) [1; 2].

Различно происходит восприятие голосовой волны. Если голос мы слышим на расстоянии, то звуковой импульс, доходя до уха, воздействует на мембрану барабанной перепонки. Перепонка от этих импульсов начинает создавать вибрацию. Эти импульсы передаются на звуковые косточки: стремя, наковальню и молоток. Так как стремя напрямую соединено с улиткой, оно создает давление на жидкость, которая имеется в областях верхнего и нижнего отдела. Жидкость также оказывает влияние на базилярную мембрану,

На последнем этапе преобразования звука волосковые клетки посредством нервных импульсов доставляют информацию относительно звукового сигнала к головному мозгу. Уже непосредственно в мозгу происходит самый сложный процесс, который позволяет определить фоновый шум от известных сигналов, сравнивая их с теми, что уже имеются в памяти, распределяя их на группы и окончательно распознавая сигнал. Это один из самых молниеносно протекающих процессов в организме, причем действует он с момента рождения без подготовок и тренировок.

В случае же восприятия собственного голоса к вышеописанному процессу подключается дополнительное колебание жидкости в улитке за счет возникающей вибрации костей черепа - костная проводимость. Это создает несколько отличающееся восприятие собственного голоса и это объясняет не узнавание собственного голоса, записанного на магнитофонную пленку и т. п.

Таким образом, индивидуальность голоса определяется развитием анатомических структур организма, а также формирующейся физиологией функционирования дыхательной системы человека. Поэтому голос человека также уникален, как его отпечатки паль-

Рис. 1. Строение голосового аппарата человека

в которой присутствуют слуховые нервы, создавая внутри вибрационную волну. Эти вибрационные волны заставляют двигаться реснички волосковых клеток в кортиевом органе, тем самым раздражая пластину, которая находится над ними (рис. 2) [1]. Весь этот процесс называется воздушной проводимостью [2].

Спиральный (кортиен) прген (содержит рецепторы спухэ)

Рис. 2. Строение слухового аппарата человека

цев, генетический профиль или запах. И идентификация личности по голосу является одной из наиболее точных.

С целью идентификации личности по голосу могут использоваться два подхода: тек-стозависимый и текстонезависимый. При текстозависимом подходе происходит автоматическое сравнение голоса говорящего с ранее записанным текстом или с генерированным системой опознавания текстом. Такие системы используются для доступа пользователя в банках, call-центрах и т. д. В криминалистике наибольшую значимость имеет текстонезависимый подход, то есть опознание человека по свободной речи, где слова и фразы могут не совпадать. Но в любом случае необходимо прибегнуть к моделированию голоса говорящего. Для этого существуют несколько способов:

- для класса текстозависимых систем - динамическое преобразование времени (Dynamic Time Warping; DTW) и скрытые марковские модели (Hidden Markov Model; HMM);

- для класса текстонезависимых систем -векторное квантование (Vector Quantification; VQ), модели гауссовой модели смеси (GMM) и метод опорных векторв (опорная векторная машина (SVM)).

Большинство из этих способов показали низкую результативность либо трудности в создании системы идентификации. Наиболее точными, с вероятностью до 94 % опознания человека по голосу, могли бы показать модели гауссовой модели смеси (GMM) [4].

Гауссовы смеси распределений - это одна из форм оценки плотности распределения, которые дают приближенное значение распределения вероятностей данных. По теории вероятности наиболее часто встречаемое значение именуется термином «мода». При мульти-модальном распределении исходных данных применяется их исследование по принципу гауссовских смесей распределений. Графически мультимодальное распределение отображается в виде несколько «горбов» (рис. 3).

Любые частотные колебания можно рассматривать по принципу гауссовских смесей распределений, в том числе и голосовые колебания (рис. 4).

Для построения модели каждого говорящего человека используются такие параметры, как вектор математического ожидания, ковариационные матрицы и вес смесей для каждой из компонентов модели. Для этого

Рис. 3. Пример мультимодального распределения данных

Рис. 4. Распределение звуковых колебаний по типу гауссовских смесей распределений

используются многочисленные формулы расчета, что приводит к построению индивидуальной модели говорящего человека.

Для идентификации по голосу по принципу гауссовской смеси распределения необходимо действовать поэтапно:

1 этап - извлечение и обработка признаков голоса;

2 этап - разработать алгоритм идентификации и параметров ее оценки;

3 этап - определение числа компонентов гауссовской смеси.

На первом этапе происходит оцифровывание входящего голосового сигнала и его разбивка на отдельные амплитудные значения через некоторые интервалы времени. При этом сигнал просматривается отдельными фрагментами - окнами определенной продолжительности, и окна должны перекрывать друг друга. Внутри окна оцифрованный сигнал просматривается более мелкими участками - кадрами, то есть отдельными компонентами голосового сигнала, для которых предполагается постоянство свойств на данном промежутке времени. После этого математическим путем вычисляется функция окна,

характеристиками которой являются параметры: ширина (в миллисекундах), смещение (число миллисекунд между границами последовательных окон) и форма. В результате окончательной обработки каждого участка получается полный сигнал только голоса человека без посторонних помех.

После этого с каждого кадра необходимо получить спектральную составляющую. Для этого используется преобразование Фурье -операция, сопоставляющая одной функции вещественной переменной другую функцию вещественной переменной. Эта новая функция описывает коэффициенты («амплитуды») при разложении исходной функции на элементарные составляющие - гармонические колебания с разными частотами.

Далее выявляют кепстральные признаки -показывают частоты повторяющихся колебаний спектра. Кепстральные признаки необходимо перенести на мел-шкалу - модель частотной чувствительности человеческого слуха. Мел -количественная оценка звука по высоте. Мелы отражают восприятие звука человеческим слухом. Существуют формулы для перевода из шкалы мелов в шкалу герц и обратно. Мел-шкала и кепстральные признаки основывают мел-частотные кепстральные коэффициенты (mel-frequency cepstral coefficients или MFCC). MFCC -это значения кепстра, которые распределены по мел-шкале с использованием банка фильтров. Формируются треугольные фильтры, служащие для накопления значения энергии в каждом из частотных диапазонов (часть фильтров распределяются линейно ниже 1000 Hz, а остальные - логарифмически выше 1000Hz) и используют логарифм каждого полученного значения мела. Использование логарифма необходимо для того, чтобы различия в способах подачи входного сигнала меньше влияли на оценки индивидуальных признаков речи.

Далее переводим полученные значения в шкалу с частотами. На следующем шаге вычисляется кепстр сигнал. Это преобразование позволяет отделить источник волны звука от фильтра, свойства которого позволяют генерировать соответствующий звук при прохождении волны, имеющей частоту основного тона речи по голосовому каналу. При этом фильтр содержит большую часть полезной информации [5; 6].

После отображения графически мел-частотных кепстральных коэффициентов происходит сравнение с имеющимся образцом или сравнение двух голосов (рис. 5).

Остается определиться с количеством компонент гауссовской системы, достаточных для проведения идентификации личности. Существует график, показывающий эту зависимость (рис. 6).

Как видно из представленного графика, достаточно 5-10 компонент для достоверного установления принадлежности голоса конкретному человеку.

Таким образом, математические системы идентификации личности по голосу являются высокоэффективными и достаточно достоверными. Однако фоноскопические экспертизы проводятся экспертами, базируясь на восприятии звука на слух конкретным человеком. Да, человеческий слух очень чувствителен и способен распознавать звуки в различных диапазонах. Но человек может изменить свой голос, заглушить звучание различными шумами, искусственно изменить произношение отдельных звуков, что может сказаться на восприятии голоса. Подобные явления исключены при математической обработке, т. к. из звукового потока можно выделить константные компоненты за счет образования звуков в резонаторах, не изменяющих свой объем, о чем говорилось ранее.

Рис. 5. Сравнение мел-частотных кепстральных коэффициентов голосов разных людей

(слева) и одного и того же человека (справа)

% Точность идентификации

1 2 1 4 S 10 1S 20 2S 30

Число компонент модели

Рис. 6. Зависимость точности идентификации от количества выбранных компонент гауссовской системы

Биометрическая идентификация, с которой все начиналось, все больше возвращается в криминалистическую практику. Это связано с тем, что преступники все больше овладевают способами сокрытия следов на местах совершения преступлений: носят перчатки и шапочки, не оставляют следов при совершении преступлений против половой неприкосновенности. От этого изъятие дактилоскопических и биологических следов уже становится больше исключением из правил. И на первый план стали выступать такие способы идентификации, как по сетчатке и радужке глаза, по голосу и т. д. При расследовании и раскрытии преступлений террористической направленности, за-

Литература

1. Синельников Р.Д. Атлас анатомии человека. М., 2018.

2. Агаджанян Н.А., Смирнов В.М. Нормальная физиология. М., 2009.

3. Мякишев Г.Я., Буховцев Б.Б., Чаругин В.М. Физика. Учебник для 11 класса. М., 2016-2017.

4. Чеботарев А.М. Введение в теорию вероятностей и математическую статистику для физиков. М., 2009.

5. Виленкин И.В., Гробер В.М. Высшая математика для студентов экономических, технических, естественно-научных специальностей вузов М., 2008.

6. Данилин А.А., Лавренко Н.С. Измерения в радиоэлектронике. СПб., 2017.

хвата заложника с целью выкупа, угроз и вымогательства особенно актуальным становится вопрос идентификации по голосу, т. к. это единственная улика, находящаяся в руках у правоохранительных органов.

На сегодняшний момент алгоритмы обработки голосовой информации разработаны, однако широкого распространения систем фоноскопической идентификации нет. Возможно, это связано с экономическими причинами, а возможно, с недостаточным количеством специалистов, способных настроить и «обучить» подобную систему. Правоохранительные органы не должны отставать от прогресса и нарастающих скоростей обработки информации. Поэтому для ликвидации этого пробела и компьютеризации процессов идентификации и верификации личности по голосу необходимо взаимодействие экспертов-фоноскопистов с ведущими центрами по созданию компьютерных программ и технологий. Внедрение математического способа идентификации по голосу повысило бы точность установления преступника, гораздо сократило бы время проведения исследования. При этом решалась бы задача хранения и оперативного использования фоноскопической информации, т. к. оцифровывание голосовой информации приведет к возможности ее кодировки, а, следовательно, облегчит хранение и даст более широкие возможности в обмене и передачи подобной информации.

Bibliography

1. Sinelnikov R.D. Human Anatomy Atlas. M., 2018.

2. Agadzhanyan N.A., Smirnov V.M. Normal physiology. M., 2009.

3. Myakishev G.Ya., Bukhovtsev B.B., Charu-gin V.M Fizika. Textbook for the 11-th form. M., 2016-2017.

4. Chebotarev A.M. An introduction to probability theory and mathematical statistics for physicists. M., 2009.

5. Vilenkin I.V., Grober V.M. Higher mathematics for students of economic, technical, natural science specialties of universities. M., 2008.

6. Danilin A.A., Lavrenko N.S. Measurements in electronics. SPb., 2017.

i Надоели баннеры? Вы всегда можете отключить рекламу.