Научная статья на тему 'Анализ влияния состояния наркотического опьянения на характеристики голосов дикторов'

Анализ влияния состояния наркотического опьянения на характеристики голосов дикторов Текст научной статьи по специальности «Прочие медицинские науки»

CC BY
423
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДИКТОР / SPEAKER / ЧАСТОТА ОСНОВНОГО ТОНА / PITCH FREQUENCY / НАРКОТИЧЕСКОЕ ОПЬЯНЕНИЕ / DRUG INTOXICATION

Аннотация научной статьи по прочим медицинским наукам, автор научной работы — Раев Андрей Николаевич, Матвеев Юрий Николаевич, Голощапова Татьяна Ивановна

Проведен анализ фонограмм речи дикторов до и после лечения от наркотической зависимости, который показал отсутствие статистически значимых зависимостей искажения речевых характеристик диктора от разных групп наркотических средств и степени наркотического опьянения. Изменения основного тона не носят регулярного, общего для всех, характера. Главной причиной изменения основного тона является изменение эмоционального состояния диктора, а не выход из состояния наркотического опьянения. Исследование влияния длительности употребления наркотических средств на речь дикторов показали, что для дикторов, имеющих длительный стаж употребления наркотических средств героиновой группы, обнаружена тенденция к снижению основного тона примерно на 3% в год.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIOMEDICAL TECHNOLOGIES DRUG INTOXICATION INFLUENCE ON SPEAKERS’ VOICE FEATURES

The paper deals with analysis of speech recordings before and after speakers’ drug-abuse treatment. It is shown that there are no statistically significant dependences in distortions of speaker’s voice features on different groups of drugs and on the drug intoxication degree. The fundamental frequency changes are not regular and do not have general nature. The main reason for the fundamental frequency change is the speaker’s emotional state change, rather than drug addiction treatment. Studying the duration effect of narcotic drugs use on the speakers’ voice showed that for speakers with prolonged use of the heroin group drugs a tendency to decrease the fundamental frequency by about 3% per year was found.

Текст научной работы на тему «Анализ влияния состояния наркотического опьянения на характеристики голосов дикторов»

БИОМЕДИЦИНСКИЕ ТЕХНОЛОГИИ

УДК 004.891

АНАЛИЗ ВЛИЯНИЯ СОСТОЯНИЯ НАРКОТИЧЕСКОГО ОПЬЯНЕНИЯ НА ХАРАКТЕРИСТИКИ ГОЛОСОВ ДИКТОРОВ А.Н. Раев, Ю.Н. Матвеев, Т.И. Голощапова

Проведен анализ фонограмм речи дикторов до и после лечения от наркотической зависимости, который показал отсутствие статистически значимых зависимостей искажения речевых характеристик диктора от разных групп наркотических средств и степени наркотического опьянения. Изменения основного тона не носят регулярного, общего для всех, характера. Главной причиной изменения основного тона является изменение эмоционального состояния диктора, а не выход из состояния наркотического опьянения. Исследование влияния длительности употребления наркотических средств на речь дикторов показали, что для дикторов, имеющих длительный стаж употребления наркотических средств героиновой группы, обнаружена тенденция к снижению основного тона примерно на 3% в год. Ключевые слова: диктор, частота основного тона, наркотическое опьянение.

Введение

В большинстве известных работ состояние наркотического опьянения связывают с изменением эмоционального и функционального состояния человека.

В работе [1] проведен анализ общетеоретических и прикладных исследований по оценке влияния эмоциональных и функциональных состояний человека на акустические характеристики его речи. Показано, что в большинстве случаев в качестве наиболее информативных акустических коррелятов эмоциональных и функциональных состояний рассматривается ряд частотных, временных и мощностных характеристик голосового сигнала. Отмечено, что, как правило, стенические состояния ведут к возрастанию, а астенические - к понижению частот основного тона (ОТ) и формант, а также интенсивности. Под частотой ОТ понимается частота вибрации голосовых связок. У каждого говорящего базовая частота ОТ индивидуальна и обусловлена особенностями строения гортани. Для оценки частоты ОТ разработано множество различных алгоритмов [2]. Результаты настоящей работы получены при использовании оригинального алгоритма, разработанного в ООО «ЦРТ» [3].

В работе [4] отмечено, что в качестве характеристик голосового сигнала, являющихся индикаторами действия психотропных препаратов и антидепрессантов, могут использоваться, например, частота ОТ, распределение энергии в спектре, длительность пауз, которые изменяются при изменении состояния (настроения) пациентов в различные периоды их лечения.

В работе [5] проводился анализ следующих акустических параметров: среднее значение и стандартные отклонения звуковой мощности, частоты ОТ, частот первой и второй формант, длительность произнесения. В результате сравнения значений параметров каждой из рассматриваемых эмоциональных интонаций с соответствующими параметрами нейтральной интонации было обнаружено, что наиболее выраженными в процентном отношении были отклонения частот ОТ и первой форманты. Было показано, что направленность этих отклонений не зависит от семантического содержания речевого высказывания и его длительности, от возраста, пола говорящего, хотя на абсолютные значения частот индивидуальные особенности говорящих оказывали влияние. В работе [6] исследовано изменение границ частоты ОТ и смещение формантных частот голоса при воздействии на человека различных видов стрессов и эмоций.

Проблеме влияния состояния наркотического опьянения на характеристики голосов дикторов посвящено относительно малое число исследований, отсутствуют исследования зависимостей искажения речевых характеристик диктора от разных групп наркотических средств и степени наркотического опьянения, а также стажа употребления наркотических средств. Это в основном связано с отсутствием необходимых для проведения таких исследований речевых баз данных.

Для обеспечения проведения перечисленных исследований авторами была собрана специализированная база речевых данных образцов речи дикторов, находящихся в состоянии наркотического опьянения (далее - РБДН). Сбор РБДН осуществлялся ООО «ЦРТ» по заказу Федеральной службы Российской Федерации по контролю над оборотом наркотиков и проводился в ряде специализированных медицинских учреждений Санкт-Петербурга и Ленинградской области [7].

В настоящей работе приводятся результаты исследований влияния на частоту ОТ состояния наркотического опьянения на основе собранной РБДН. Результаты этих исследований важны для экспертной практики [7, 8], а также должны учитываться при разработке систем автоматической идентификации личностей по голосу [9, 10] и идентификации эмоционального состояния дикторов по записям их устной речи [11].

4

Описание базы образцов речи дикторов, находящихся в состоянии наркотического опьянения

При сборе РБДН выполнялась регистрация дикторов, при которой каждому диктору присваивался его личный порядковый номер, под которым в отчете делалась запись, содержащая следующую информацию:

- пол диктора;

- предположительная степень наркотического опьянения;

- предположительный тип наркотического средства, под воздействием которого он находится.

В качестве дикторов привлекались лица в состоянии наркотического опьянения. Определение состояния и степени наркотического опьянения осуществлялось специалистами-наркологами (врачами наркологической больницы, экспертами наркологических диспансеров).

Длительность произнесенного диктором речевого материала составляла не менее 32 с. Каждого диктора записывали либо один раз (в состоянии наркотического опьянения), либо два раза (один раз в состоянии наркотического опьянения, второй раз - после выхода из состояния наркотического опьянения). Запись образцов речи дикторов производилась на цифровой диктофон, находящийся на расстоянии 1-2 м от губ диктора, под наблюдением специально обученных операторов, в соответствии с инструкцией оператору по записи фонограмм.

После завершения записи записанный речевой материал полностью прослушивался и сегментировался в звуковом редакторе. Из записей удалялась речь оператора, паузы и внешние шумы.

Общее количество фонограмм в РБДН - 156 (89 мужчин и 67 женщин), в которой представлены образцы речи дикторов, имеющих следующие степени наркотического опьянения (табл. 1): легкая, средняя, тяжелая. Степень опьянения определялась экспертно. В РБДН также представлены образцы речи дикторов, находящихся в состоянии наркотического опьянения под действием следующих наркотических средств (табл. 1): растительных (анаша, гашиш), полусинтетических (героин), синтетических (амфетамин). Кроме того, в РБДН представлены дикторы разного пола и с разным стажем употребления наркотических средств (табл. 2).

Степень наркотического опьянения Тип наркотического средства

легкая средняя тяжелая растительные (анаша, гашиш) полусинтетические (героин) синтетические (амфетамин)

Количество дикторов 40 64 52 10 141 5

Табл. 1. Распределение количества дикторов по степени наркотического опьянения и типу употребляемых

наркотических средств

Стаж употребления наркотических средств, лет

1 2 5 10 25

Количество дикторов 66 21 24 34 11

Табл. 2. Распределение количества дикторов по стажу употребления наркотических средств

Анализ фонограмм дикторов, находящихся в состоянии наркотического опьянения

На основе собранной РБДН был проведен анализ фонограмм на наличие зависимости искажений речевых характеристик диктора от степени наркотического опьянения, группы наркотических средств и длительности употребления наркотических средств. Результаты анализа приведены на рис. 1-5, где по вертикальной оси отложена относительная частота встречаемости частот ОТ в фонограмме диктора, по горизонтальной оси - частота ОТ в Гц. Гистограммы нормированы таким образом, чтобы площадь под каждой гистограммой была равна 1.

Исследование фонограмм речи дикторов до и после лечения от наркотической зависимости показывает, что речь дикторов изменяется незначительно и нерегулярным образом. На рис. 1 изображены усредненные гистограммы ОТ голосов четырех мужчин до и после лечения от наркотической зависимости. В среднем параметры гистограммы изменились мало: среднее значение и медиана распределения ОТ по частотам остались теми же, а дисперсия уменьшилась. Но это произошло, скорее всего, из-за изменения эмоционального состояния.

Аналогичная ситуация наблюдается и для женщин: мода распределения ОТ по частотам выросла с 180 Гц до почти 200 Гц, но среднее значение и медиана распределения почти не изменились. Статистически достоверных регулярных изменений не наблюдается. Это заставляет предположить, что главной

причиной изменения ОТ является изменение эмоционального состояния дикторов, а не процесс избавления от наркотической зависимости.

Частота ОТ, Гц

Рис. 1. Усредненные гистограммы ОТ голосов мужчин до (правая мода) и после (левая мода) лечения от наркотической зависимости. Шаг по частоте - 3 Гц

Было также проведено статистическое исследование влияния на ОТ следующих параметров:

- степени наркотического опьянения;

- типа наркотического вещества;

- длительности употребления наркотиков.

Поскольку, по заявлениям врачей, объективная методика определения степени наркотического опьянения в настоящее время отсутствует, была выполнена субъективная (экспертная) оценка степени наркотического опьянения и продолжительности употребления наркотиков.

Для определения степени наркотического опьянения, в первую очередь, рассматривались следующие факторы: нарушения речи («заплетающийся язык»); неспособность диктора понять, чего от него хотят врачи; пропуск или непонимание отдельных пунктов задания; собственное заявление диктора о том, что он недавно употреблял наркотики. Все эти признаки, включая заявление о недавнем употреблении наркотиков, являются лишь косвенными доказательствами того, что диктор находится в состоянии наркотического опьянения. В этом случае некоторые фонограммы, помеченные как принадлежащие дикторам, находящимся в состоянии наркотического опьянения, могут принадлежать трезвым дикторам, и наоборот. Тем не менее, выводы, сделанные по этим выборкам, будут достоверны в статистическом смысле.

Длительность употребления наркотиков оценивалась на основании следующих факторов:

- заявление диктора о том, что он состоит на учете в наркологическом диспансере с такого-то года,

- заявление диктора о том, что он употребляет наркотики с такого-то года,

- заявление диктора о том, что у него имеется гепатит В или С с такого-то года,

- заявление диктора о том, что у него имеется ВИЧ с такого-то года.

Все эти признаки позволяют лишь приблизительно оценить длительность употребления наркотиков. Многие дикторы многократно лечились от наркозависимости и у них, по их словам, были ремиссии (длительный полный отказ от употребления наркотиков), в том числе многолетние.

Почти все записи голосов дикторов, находящихся в состоянии тяжелого наркотического опьянения, - очень тихие, со средней амплитудой около 1-2 тысяч отсчетов. Однако такой параметр, как энергия, зависит гораздо больше от расстояния от микрофона до губ диктора, чем от состояния диктора. В связи с этим в дальнейшем данный параметр не рассматривался.

Гистограммы ОТ фонограмм голосов женщин приведены на рис. 2. На этих гистограммах никаких статистически достоверных аномалий не наблюдается. Медиана распределения ОТ находится в интервале 190-220 Гц, что вполне укладывается в допустимые пределы для нормальных женских голосов. С некоторой натяжкой аномальной можно считать одну гистограмму, которая имеет двухмодовое распределение с модами в областях 120 Гц и 225 Гц. Однако, по оценкам экспертов, несколько процентов женских голосов имеет двухмодовое распределение.

На рис. 3 приведены примеры гистограмм ОТ голосов 6 мужчин, находящихся в состоянии тяжелого наркотического опьянения. На этих гистограммах не видно никаких статистически достоверных аномалий. Медиана ОТ находится в интервале 110-130 Гц, что вполне укладывается в допустимые пределы для нормальных мужских голосов. Аномальной можно считать только одну гистограмму из шести, что не позволяет сделать статистически достоверных выводов.

х10-1,4 1,3 1,2 1,1 1,0 0,9

о.а

0,7 0.6 0,5 0.4 0,3 0.2 0,1 0.0

Аномальное двухмодовое распределение ОТ

100 120 140 160

260 280 300 320

Частота ОТ, Гц

Рис.

2. Гистограммы частот ОТ фонограмм голосов женщин в состоянии тяжелого наркотического

опьянения. Шаг по частоте - 1 Гц

х10-'

Аномальная гистограмма распределения ОТ

70 ВО 90 100 110 120 130 1-10 150 160 170 100 190 200 210 220 230

Частота ОТ, Гц

Рис. 3. Гистограмма частот ОТ фонограмм голосов 6 мужчин в состоянии тяжелого наркотического

опьянения. Шаг по частоте - 1 Гц

Всего же из трех гистограмм ОТ голосов женщин и 22 гистограмм ОТ голосов мужчин, находящихся в состоянии тяжелого наркотического опьянения, обнаружены только одна аномальная гистограмма у женщин и 6 аномальных гистограмм у мужчин. Аномалия для мужчин состоит в низком среднем ОТ у мужчин (ниже 100 Гц), что редко встречается у мужчин, не принимающих наркотики (по оценкам экспертов - не более чем у 5% мужчин). Следовательно, состояние наркотического опьянения непосредственно не влияет на основной тон голоса.

Анализ аномалий, в то же время, обращает внимание на то, что из шести аномалий у мужчин, в четырех случаях она обнаруживается у дикторов, принимавших наркотики пять и более лет. Единственная аномалия у женщин принадлежит женщине, принимавшей наркотики в течение четырех лет. Это позволяет предположить другую причину аномалий, а именно - не состояние наркотического опьянения, а длительность употребления наркотиков.

На рис. 4 изображены гистограммы ОТ 15 фонограмм, в которых записаны голоса мужчин, употреблявших наркотики пять и более лет. Здесь наблюдается совершенно другая картина. Более чем у 2/3 дикторов основная мода статистически достоверно переместилась из области 120-130 Гц в область 95-100 Гц. У оставшихся 1/3 дикторов перемещение основной моды не наблюдается, что можно объяснить тем, что продолжительность употребления наркотиков известна не точно, а получена на основании косвенных данных. Кроме того, часть дикторов лечилась от наркотической зависимости, и у них наблюдались длительные ремиссии.

Если просуммировать все гистограммы, изображенные на рис. 4, то после нормировки получится картина, изображенная на рис. 5, из которой видно, что мода распределения ОТ находится на частоте примерно 97 Гц (см. положение курсора).

Частота ОТ, Гц

Рис. 4. Гистограммы частоты ОТ 15 фонограмм, в которых записаны голоса мужчин, употреблявших наркотики пять и более лет. Шаг по частоте - 1 Гц

Рис. 5. Усредненная гистограмма частот ОТ 15 фонограмм, в которых записаны голоса мужчин, употреблявших наркотики пять и более лет. Шаг по частоте - 1 Гц

Все это позволяет сделать вывод, что длительное употребление наркотиков героиновой группы приводит к снижению основного тона.

Средняя скорость снижения может быть очень приблизительно оценена как 4-5 Гц (3%) в год. Линейная зависимость для оценки снижения высоты ОТ выбрана как простейшая. Ее применимость ограничивается 2-8-летним стажем интенсивного употребления наркотиков героиновой группы. Для исследования более сложных зависимостей и для оценки влияния еще большего стажа употребления наркотиков полученных данных недостаточно.

Аналогичный вывод по другим типам наркотиков сделан быть не может из-за недостатка данных. Скорость снижения высоты ОТ может быть несколько занижена и может быть неравномерной.

Анализ типа наркотика и продолжительности его употребления позволяет предположить, что наркоманы постепенно переходят на героин с более «легких» наркотиков.

Заключение

На основе собранной базы речевых данных, в которой представлены образцы речи дикторов, находящихся в состоянии различной степени наркотического опьянения, проведен анализ фонограмм речи дикторов до и после лечения от наркотической зависимости и исследование влияния длительности употребления наркотических средств на речь дикторов. Анализ показал отсутствие статистически значимых зависимостей «искажения» речевых характеристик диктора от разных групп наркотических средств и степени наркотического опьянения. Изменения основного тона не носят регулярного, общего для всех характера. Главной причиной изменения основного тона является изменение эмоционального состояния диктора, а не выход из состояния наркотического опьянения.

Исследования влияния длительности употребления наркотических средств на речь дикторов показали, что для дикторов, имеющих длительный стаж употребления наркотических средств героиновой

группы, обнаружена тенденция к снижению основного тона примерно на 3% в год.

Литература

1. Адашинская Г.А., Чернов Д.Н. Акустические корреляты индивидуальных особенностей функциональных и эмоциональных состояний // Авиакосмическая и экологическая медицина. - 2007. - Т. 41. - № 2. - С. 3-13.

2. de Cheveigne A., Kawahara H. Comparative evaluation of F0 estimation algorithms // Proc. Interspeech-2001. - Aalborg, Denmark, 2001. - P. 2451-2454.

3. Labutin P., Koval S., Raev A. Speaker identification based on the statistical analysis of 10 // Proc. IAFPA 16th Annual Conference. - Plymouth, UK, 2007 [Электронный ресурс]. - Режим доступа: http://www.ia1pa.net/abstracts07/Labutin_et_al_-_IAFPA_2007.pdf, свободный. Яз. англ. (дата обращения 20.08.2012).

4. Helfrich H., Standke R., Scherer K.R. Vocal indicators of psychoactive drug effects // Speech Communication. - 1984. - № 3. - P. 245-252.

5. Гельман В.Я., Дмитриева Е.С., Зайцева К.А., Орлов А.М. Влияние индивидуальных особенностей человека на акустические корреляты эмоциональной интонации речи // Журнал высшей нервной деятельности им. И.П. Павлова. - 2009. - Т. 59. - № 5. - С. 538-546.

6. Tolkmitt F.J., Scherer K.R. Effect of Experimentally Induced Stress on Vocal Parameters // Journal of Experimental Psychology and Human Perceptual Performance. - 1986. - V. 12. - № 3. - P. 302-313.

7. Raev A.N., Matveev Y.N., Goloshapova T.I. The Effect of Use of Drugs on Speaker's Fundamental Frequency // Proc. SPEC0M-2011. 14th International conference on SPEECH and COMPUTER. - Kazan, 2011. - P. 308-314.

8. Smirnova N., Starshinov A., Oparin I., Goloshchapova T. Speaker Identification Using Selective Comparison of Pitch Contour Parameters // Proc. ICPhS XVI. - Saarbrücken, 2007. - P. 1801-1804.

9. Матвеев Ю.Н., Симончик К.К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // 20-я Международная конференция по компьютерной графике и зрению (GraphiCon). - СПб: СПбГУ ИТМО, 2010. - P. 315-319.

10. Белых И.Н., Капустин А.И., Козлов А.В., Лоханова А.И., Матвеев Ю.Н., Пеховский Т.С., Симончик К.К., Шулипа А.К. Система идентификации дикторов по голосу для конкурса NIST SRE 2010 // Информатика и ее применения. - 2012. - Т. 6. - Вып.1. - С. 24-31.

11. Шолохов А.В. Классификация эмоционального состояния человека по записям устной речи // Научно-технический вестник информационных технологий, механики и оптики. - 2012. - № 3. - С. 150.

Раев Андрей Николаевич Матвеев Юрий Николаевич

Голощапова Татьяна Ивановна

ООО «ЦРТ», директор научно-исследовательского департамента, raev@speechpro.com

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, ООО «ЦРТ-инновации», доктор технических наук, главный научный сотрудник, профессор, matveev@speechpro.com

Экспертно-криминалистическое управление ФСКН России, кандидат филол. наук, начальник отдела

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.