Инструментальное исследование спектральных характеристик русских гласных в задаче криминалистической идентификации личности по звучащей речи

Каганов А.Ш.

ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕР. 9. ФИЛОЛОГИЯ. 2008. № 5

А.Ш. Каганов

ИНСТРУМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ СПЕКТРАЛЬНЫХ ХАРАКТЕРИСТИК РУССКИХ ГЛАСНЫХ В ЗАДАЧЕ КРИМИНАЛИСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ЗВУЧАЩЕЙ РЕЧИ

Идентификация личности по звучащей речи относится к тем видам научной деятельности, в которых органически переплетаются методы и приемы различных наук, лежащих в основе прикладной лингвистики. При решении данной задачи требуется сочетание знаний из различных областей гуманитарных и точных наук, что позволяет выбрать наиболее эффективные виды анализа для того или иного речевого материала и способствует многоаспектности исследования. Такой подход формирует назревшую и необходимую концепцию «стыка», которая, интегрируя знания различных наук, инициирует поиск и объективную оценку результатов.

В процессе исследования должно быть обеспечено оптимальное соотношение участия в ней человека, с одной стороны, технических средств (в первую очередь компьютеров) - с другой, для выявления наиболее полного набора идентификационных признаков говорящего. Успешное решение этой задачи требует рассмотрения целого ряда факторов, например, выявления «веса» и устойчивости идентификационных признаков; учета ограниченности объема исследуемого речевого материала; оценки степени выраженности акустических компонентов; анализа присутствующих в речи индивидуума остаточных региональных и иноязычных черт и т.д. Таким образом, при решении рассматриваемой задачи возникает целый ряд дополнительных сложностей и ограничений.

Проблема выявления идентификационных признаков говорящего на данном этапе развития прикладной лингвистики конкретизируется через возможности аудитивной и инструментальной частей единого исследования звучащей речи [Каганов, 2002]. В рассматриваемой нами задаче возможности аудитивно-лингвистического анализа существенно дополняют возможности инструментального. Таким образом, части единого комплексного идентификационного исследования находятся в отношении взаимодополнения и взаимосоответствия.

Не останавливаясь в данной работе подробно на анализе ауди-тивных идентификационных признаков, характеризующих личность говорящего, затронем здесь только такой важный аспект инструмен-

тальной части исследования, как анализ спектральных характеристик русской речи. Инструментальное исследование спектральных характеристик в задаче криминалистической идентификации диктора включает в себя:

- технологию получения значений формант как идентификационных признаков говорящего) в условиях ограниченного объема речевого материала;

- получение формантных соотношений как критериев оценки акустического качества звуков речи индивидуума;

- сравнительный анализ «веса» и устойчивости абсолютных и относительных формантных показателей как идентификационных признаков говорящего.

Перейдем к рассмотрению поставленных вопросов. Обращаясь к научно-историческим основам криминалистической идентификации говорящего, заметим, что первую научную попытку построить акустическую модель звуков человеческой речи предпринял в 1779 г. Кратценштейн, когда он представил подобную модель на конкурс С.-Петербургской Императорской академии наук ^га^ zenstein, 1779]. Но только спустя почти 100 лет акустическая теория речеобразования получила серьезное научное оформление в основополагающей работе Г. Гельмгольца в 1870 г. 1870]. Интересно отметить, что краеугольные положения этой работы остались практически без изменения до настоящего времени и разделяются большинством специалистов. Сразу оговоримся, что современная интерпретация работы Гельмгольца учитывает, конечно, целый ряд математических и методико-технологических усовершенствований, введенных в нее современными исследователями (упомянем здесь классические работы С.Н. Ржевкина [Ржевкин, 1936], Дж. Флана-гана [Фланаган, 1968] и Г. Фанта [Фант, 1964]).

Из работ Г. Гельмгольца известно, что процесс речеобразова-ния состоит из двух независимых компонентов: генерации звука посредством возбуждения звукового источника и формирования акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта (у Гельмгольца) или фильтрации (в современном рассмотрении).

Определение характеристик источника возбуждения звука представляет собой достаточно сложную и трудоемкую задачу и требует отдельного подробного рассмотрения, которое выходит за рамки данной статьи. Интересующихся этим вопросом адресуем к работам [Каганов, 2006; Каганов, Никонов, 2003; Каганов, Михайлов, 2001].

В процессе решения задачи криминалистической идентификации личности по голосу и звучащей речи необходимо учитывать работу органов речеобразующего аппарата, придающих голосу индивидуальную тембровую окраску (которая, заметим, отражает

форму резонаторов, индивидуальную для данного говорящего) и формирующих поток звуков речи, т.е. проанализировать второй независимый компонент процесса речеобразования в модели Гельмгольца. Речь пойдет о механизмах формирования и критериях оценки акустического качества звука за счет возбуждения резонансных частот артикуляционного тракта говорящего, а также об использовании спектральных характеристик речи в качестве устойчивых идентификационных признаков для каждого индивидуума.

Криминалистическая идентификация - это установление наличия или отсутствия тождества того или иного материального объекта - в данном случае человека - по его отображениям [ Белкин и др., 1968]. (В качестве указанных отображений в нашем случае выступают прецептивные и акустические особенности речи.) Интуитивно ясно, что для установления указанного тождества в качестве идентификационных могут быть использованы лишь устойчивые признаки, свойственные речи конкретного фигуранта.

В практике формантного анализа широко используется подход, при котором для обеспечения стабильности результатов измерений формант гласных оцениваются в одинаковом фонетическом контексте с учетом комбинаторных и позиционных изменений [Ребгун, 1985]. В реальных задачах криминалистической идентификации личности говорящего речевой материал обычно ограничен. По этой причине исследователь далеко не во всех ситуациях может воспользоваться указанной технологией и отобрать достаточное для представительной выборки количество таких одинаковых фонетических контекстов для каждого из анализируемых гласных. Как уже было отмечено выше, в данном случае следует вести речь о решении задачи с ограничениями, наложенными на начальные условия.

Таким образом, появилась необходимость развития теории применительно к речевому материалу конечного объема. Эффективной в этих случаях может оказаться такая методология получения и оценки значений формантных характеристик гласных, которая позволяет сравнивать фонетические контексты, традиционно определяемые как несовпадающие. Так, становится возможным сравнение ударных и безударных гласных, если найдены контексты, в которых сохраняется акустическое качество исследуемых звуков. Например, при сопоставлении ударных и безударных гласных необходимо учесть качество согласных по таким параметрам, как твердость-мягкость (предшествующего согласного, последующего согласного, т.е. позиции типа tat - tat', t'at -t'at', в которых изменяется степень продвинутости фокуса артикуляции гласного вперед). Особенность подобного акустического анализа гласных звуков заключается, например, в том, что для сравнения приходится использовать не только ударные, но и гласные первого предударного слога. Близость 32

усредненных числовых значений формант анализируемых гласных в исходной и сравнительной записях является при таком подходе одной из разновидностей стабильности данного показателя, а сами средние значения формант/можно рассматривать в качестве устойчивого идентификационного признака.

Продолжая обсуждение стабильных спектральных характеристик, заметим, что в настоящее время не получено убедительных доказательств того, что значения формант являются единственными индивидуализирующими признаками для определения акустического качества звуков. Как показывает анализ речевого материала в конкретном многообразии криминалистических экспертиз идентификации личности по голосу и речи, точнее было бы говорить о том, что существует несколько параллельно функционирующих систем, позволяющих выделить индивидуализирующие признаки спектральной группы. Именно за счет существования нескольких систем признаков различного типа обеспечивается устойчивость речевой коммуникации, в том числе в условиях помех, шумов и искажений (что особенно важно в идентификационном исследовании говорящего по реальным звукозаписям). Указанные параллельные системы признаков могут быть реализованы в рамках допустимой для речеобразующего аппарата человека акустической теории ре-чеобразования [Галунов, Гарбарук, 2001].

Еще в середине 50-х гг. прошлого века отечественными исследователями Л.А. Варшавским и И.М. Литваком была высказана гипотеза о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра [Варшавский, Лит-вак, 1955]. При этом форманты (т.е. максимумы в спектре речевого сигнала) являются лишь доступным для речеобразующего аппарата способом достижения необходимых полосных соотношений.

Время показало, что высказанная в работе Л.А. Варшавского и И.М. Литвака мысль оказалась справедливой, фундаментальной и обладающей большой объяснительной силой. Позднее, при расширении прикладных исследований звучащей речи, возникли новые вопросы. Потребовалось развитие этой теории применительно к речевому материалу ограниченного объема (т.е. решение задачи при наличии ограничений).

Распространим упомянутую выше гипотезу Л. А. Варшавского и И.М. Литвака на решение задачи криминалистической идентификации личности говорящего.

Опыт спектрального исследования параметров речи по реальным фонограммам показывает, что человек в процессе речеобразо-вания не может управлять большим числом спектральных составляющих из-за чисто физических ограничений возможностей его артикуляционного тракта [ Коваль и др., 2003]. Если мы измерили в

3 ВМУ, филология, № 5

данный момент даже большое количество спектральных составляющих, то во времени они смогут изменяться только коррелированно. Независимые спектральные составляющие (т.е. то конечное число составляющих спектра, изменение которых во времени происходит независимо друг от друга) могут быть обнаружены путем анализа матриц корреляции временных огибающих составляющих спектра [Галунов, 1975]. Естественно предположить, что получаемые таким образом независимые составляющие для каждого говорящего и являются именно теми существенными переменными, которые определяют акустическое качество речевого сигнала конкретного индивидуума (т.е. в терминологии рассматриваемой нами задачи являются индивидуализирующими признаками его звучащей речи).

Факторный анализ матриц корреляции спектральных составляющих для всего речевого материала, который был проведен авторами работы, дал следующие независимые спектральные полосы: 80...400,400...750, 750... 1350, 1350... 1750, 1750...2200, 2200...2900, 2900. ..5000 Гц1 [Галунов, Гарбарук, 2001].

Далее для учета роли тех участков сигнала, которые соответствуют согласным, срезы речевого сигнала были нормированы по уровню. Факторный анализ нормированного сигнала был проведен для всего исходного речевого материала, отдельно как для гласных, так и для согласных. Для всех случаев была получена практически одна и та же система факторов - спектральных полос [Галунов, Гарбарук, 2001].

Полученные данные могут свидетельствовать о том, что первичной целью в формировании речевого сигнала скорее является общая форма спектра. Форманты же служат способом его реализации и являются продуктом акустического механизма процесса речеобра-зования. При этом следует помнить, что конечное число признаков, определяющих фонетико-акустическую структуру речевого сигнала, определяется прежде всего конечными возможностями изменений формы артикуляторного тракта при реализации звуков русской речи.

Итак, индивидуальность говорящего определяется общей формой спектра, т.е. соотношением уровней сигнала в спектральных полосах. Существенно отметить при этом, что форманты служат способом реализации указанных полосных соотношений. Сказанное является исходным положением для решения задачи идентификации говорящего. В основе такого решения лежит поиск устойчивых идентификационных признаков, которые выявляются в рассматриваемой задаче по стабильным спектральным характеристикам индивидуума.

Возвращаясь к параллельно функционирующим системам, позволяющим выделить идентификационные признаки спектральной группы, следует сказать, что индивидуальные устойчивые признаки могут иметь разную природу. К числу таких устойчивых признаков

относятся и формантные соотношения - Р2/Рх Р3/Рх Р3/Б2 и т.д. Анализ этих соотношений необходим при идентификации говорящего, находящегося в разном эмоциональном состоянии (спокоен, возбужден, подавлен, испуган, оживлен и т.д.), в разных речевых условиях (деловой разговор, выступление перед аудиторией, разговор со следователем и др.). В этих ситуациях формантные соотношения обладают большей устойчивостью по сравнению с абсолютными значениями формант и поэтому являются более доказательными идентификационными признаками. Такой вывод основан на опыте решения задачи идентификации говорящего по реальным фонограммам, который показывает, что при изменениях абсолютных значений формант в силу тех или иных причин (например, в зависимости от ситуации речевого общения, эмоционального состояния говорящего и т.д.) соотношения формант практически не меняются.

Рассмотрим сравнительные характеристики речи (по признаку соотношения формант Р2/Рх) в разных речевых условиях и в разном эмоциональном состоянии говорящего. Различия обобщены в табл. 1 и озаглавлены как ситуация 1 и ситуация 2. В первом случае говорящий эмоционально собран, осторожен, краток. Голос звучит сухо, деловито, приглушенно. Во втором случае артикуляторно четко и полно представлена реализация гласных, согласные не напряжены, речь нетороплива (темп речи снижен по сравнению с ситуацией 1 на 10%).

Таблица 1

Параметры формантного анализа

гласный средняя частота формант, Гц ситуация 1 ситуация 2

[а] исх. - Е1= 535 и Е2=1390 срав.- Е1= 580 и Е2=1500 2,6 2,6

РЧ исх. - Е1=310 и Е2=2015 срав.- Е1=300 и Е2=1970 6,5 6,6

[6] исх. - Е1=457 и Е2=945 срав.- Е1=390 и Е2=840 2,0 2,2

Примечание. В основу таблицы положены такие слова, как, например, да1, да2, два, сим-карта, или, ближе, вот1, вот2, давно и т.д.

Как видно из табл. 1, в ситуации 1 и в ситуации 2 усредненные абсолютные формантные показатели речи значительно расходятся, но соотношение Р2/Рх остается практически неизменным - устойчивым, т.е., как отмечалось выше, соотношения формант меняются в незначительной степени или практически не меняются.

Итак, соотношение формант остается стабильным, а данный идентификационный признак - формантные соотношения - оказывается устойчивым даже на материале ограниченного объема.

Таким образом, положение о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра [Варшавский, Литвак, 1955] получает новое развитие при сопоставлении речи одного и того же говорящего (т.е. при установлении наличия или отсутствия тождества [Белкин и др., 1968] в криминалистическом понимании).

Оценивая приведенные результаты исследования акустического качества звуков речи с помощью абсолютных и относительных фор-мантных показателей, отметим, что если средневзвешенное относительное отклонение исходного (ситуация 1) и сравнительного (ситуация 2) речевого материала, подсчитанное по средним значениям формант, в данном примере составило 8,4/%, то средневзвешенное относительное отклонение, подсчитанное по отношениям Р2/Б; (столбцы 3 и 4 табл. 1), составляет всего 3,5%. (Поясним, что для оценки полученных результатов была использована метрика

«* = Е (!/1 у, 1)(1 - У I) ■ 100%

1

показывающая средневзвешенное относительное отклонение по сумме анализируемых параметров в процентах.)

Хотя и тот и другой показатели находятся в пределах внутри-дикторской вариативности, из приведенных результатов видно, что соотношение формант явилось в данном случае более «сильным» идентификационным признаком, чем средние значения формант. Можно сказать, что как идентификационный признак соотношение формант обладает большим «весом», чем абсолютные значения формант.

Завершая обсуждение табл. 1, заметим, что наилучшее совпадение относительных формантных показателей исходной и сравнительной записей по звуку [а] может быть объяснено тем фактом, что среди всех гласных русского языка гласный [а] наиболее устойчив в спектральном отношении к шумам акустической обстановки и искажениям. В силу вышеприведенных причин спектральные характеристики гласного [а] оказались наиболее устойчивыми к различиям в речевой ситуации, в контекстном окружении, в объеме и качестве речевого материала исходной записи и фонограммы-образца.

Итак, фундаментальная мысль об определении акустического качества звуков через соотношения уровней сигнала в полосах спектра [Варшавский, Литвак, 1955] в задаче криминалистической идентификации говорящего реализовалась с помощью отношений средних значений частот формант (Р2/Б1), т.е. форманты явились доступным для речеобразующего аппарата способом достижения необходимых полосных соотношений.

Расширим рамки анализа и рассмотрим соотношения не только первой и второй, но и первой и третьей, второй и третьей формант,

распространив гипотезу Л. А. Варшавского и И.М. Литвака не только на соседние, но и на более отдаленные друг от друга полосы спектра.

В табл. 2 приведены сравнительные характеристики речи (по признаку соотношений формант Р2/Рх, Р3/Р2, Р3/Рх) в разных речевых условиях и в неодинаковом эмоциональном состоянии говорящего. В первой ситуации для речи говорящего характерно беспокойство в сочетании с растерянностью. Оттенки голоса варьируют от умоляющих до требовательных и даже гневных. В ситуации 2 речь более сдержанна и обдуманна, достаточно логична.

Из табл. 2 видно, что характеристики соотношений формант, полученные в процессе формантного анализа ударных гласных [а], [и], [о] для голоса и речи фигуранта в записи исходных телефонных разговоров (т.е. в ситуации 1) и в сравнительной записи разговора со следователем (ситуация 2), меняются в незначительной степени или практически не меняются.

Таблица 2

Гласный Статистические значения параметров формантного анализа

[а] параметр ситуация 1 ситуация 2

Р2/Р, 2,5 2,5

Р3/Р2 1,7 1,7

Р3/Р1 4,4 4,4

и Р2/Р1 7,2 7,1

Р3/Р, 1,3 1,2

Р3/Р1 9,9 9,1

[6] Р2/Р1 1,9 2,1

Р3/Р2 2,6 2,5

Р3/Р1 5,3 5,5

Примечание. В основу таблицы положены такие слова, как, например, сказали1, сказали2, запись1, Екатерина, говорит, при, прибором, помню, двое и т.д.

Таким образом, данные идентификационные признаки -формантные соотношения Р2/Р1, Р3/Р2, Р3/Р1 - вновь показали свою устойчивость, а положение о том, что акустическое качество звуков определяется соотношением уровней сигнала в полосах спектра [Варшавский, Литвак, 1955], получило дальнейшее развитие при сопоставлении характеристик речи одного и того же говорящего не только в соседних, но и в более отдаленных друг от друга полосах спектра.

Оценивая полученные результаты, отметим, что средневзвешенное относительное отклонение исходного (ситуация 1) и сравнительного (ситуация 2) речевого материала, подсчитанное по отношениям Р2/Рх, Р3/Р2, Р3/Р1 (столбцы 3 и 4 табл. 2), составляет около 3,5%,

что существенно меньше среднестатистической внутридикторской вариативности.

Интересно отметить, что в рассматриваемом материале табл. 2 наилучшее совпадение параметров исходной и сравнительной записей (теперь уже и с учетом Б3) получено вновь по звуку [а], обладающему, заметим, наибольшей длительностью и наибольшей частотностью среди всех гласных русской речи.

Таким образом, табл. 1 и 2 показывают, что характеристики гласного [а] оказались наиболее устойчивыми к различиям речевого материала, которые связаны с наличием шумов акустической обстановки и искажениями, с одной стороны, и с несовпадением речевой ситуации исходных и сравнительных записей - с другой.

Итак, анализ реального речевого материала, проведенный с учетом ограниченности его объема, не полной сопоставимости по речевой ситуации и качеству записи, показал, что полученные результаты полностью согласуются с гипотезой [ Варшавский, Литвак, 1955] о том, что акустическое качество звуков определяется соотношением уровня сигнала в полосах спектра.

Вместе с тем приведенные результаты свидетельствуют о важности сопоставления значений формант/в спектре, которые (благодаря своей стабильности) широко используются при решении задачи идентификации личности по голосу и речи.

Таким образом, сочетание двух методов спектрального анализа дает возможность выявления тех устойчивых идентификационных признаков инструментальной группы, которые связаны со спектральными характеристиками речи индивидуума.

Литература

Белкин Р.С. и др. Криминалистика. М., 1968.

Варшавский Л.А., ЛитвакИ.М. Исследование формантного состава и некоторых других физических характеристик звуков русской речи // Проблемы физиологической акустики. Т. 3. М., 1955. Галунов В.И. Исследование вариативности речевого поведения человека: Дис. ...

докт. филол. наук. 1975. ГалуновВ.И., ГарбарукВ.И. Акустическая теория речеобразования и система фонетических признаков // Мат-лы Междунар. конф. «100 лет экспериментальной фонетике в России». СПб., 2001. Каганов А.Ш. Инструментальное исследование индивидуальных акустических признаков, характеризующих функционирование источника возбуждения речевого тракта говорящего (в печати). Каганов А.Ш. Средства фоно- и видеотехники как источник доказательственной информации // Вещественные доказательства. Информационные технологии процессуального доказывания / Под ред. В.Я. Колдина. М., 2002. Каганов А.Ш., Михайлов В.Г. Особенности подготовки образцов голоса и речи для проведения идентификационной фонографической экспертизы. Криминалистика XXI век: II Мат-лы Всеросс. науч.-практ. конф. Ростов н/Д, 2001.

КагановА.Ш.,НиконовА.В. Диагностика лжи по интонации речи // Современные методы, технические и программные средства, используемые в криминалистической экспертизе звукозаписей: Метод. пособие для экспертов. М., 2003.

Коваль С.Л. и др. Использование метода формантного выравнивания для проведения инструментальной части идентификационного исследования говорящего // Современные методы, технические и программные средства, используемые в криминалистической экспертизе звукозаписей: Метод. пособие для экспертов. М., 2003.

Ребгун Э.К. О криминалистических исследованиях фонограмм в целях идентификации человека по голосу // Экспертная техника. 1985. № 84.

Ржевкин С.Н. Слух и речь в свете современных физических исследований. М.; Л., 1936.

Сапожков М.А., Михайлов В.Г. Вокодерная связь. М., 1983.

Фант Г. Акустическая теория речеобразования / Пер. с англ. М., 1964.

Фланаган Дж. Л. Анализ, синтез и восприятие речи / Пер. с англ. М., 1968.

Helmholts H. Die Lehre von den Tonempfindungen als physiologische Grundlage für die Theorie der Musik. Braunschweig, 1870.

Kratzenstein Ch.G. Qualis sit natura et character sonorum litterarum vocalium a, e, i, o, u tam insigniter inter se diversorum. St.-Peterburg, 1779.

Примечание

1 Отметим, что границы формант гласных звуков при передаче речи по телефонному тракту, согласно исследованию [Сапожков, Михайлов, 1983], лежат в следующих диапазонах: F1 - 200.. .1000 Гц; F2 - 600... 2200 Гц; F3 - 2000... 3500 Гц.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Каганов А. Ш.