УДК 004.2
В.Ю. Будков, А.И. Савельев, Д.А. Вольф
Методика исследования параметров речевого сигнала, отражающих истинность передаваемой информации
Выполнен обзор существующих методов диагностики истинности передаваемой информации. Сделан вывод о целесообразности реализации подобных методов в полимодальных инфокоммуникационных системах. Исследованы параметры речевого сигнала, отражающие истинность передаваемой информации, и определены правила принятия решения в автоматической системе диагностики. Приведены результаты тестирования испытуемого с использованием разработанной методики.
Ключевые слова: речевой сигнал; оценка истинности передаваемых сообщений; детектор лжи; полимодальные инфокоммуникационные системы ао1: 10.21293/1818-0442-2016-19-2-56-60
Постоянно растущие психологические нагрузки на деятельность абонентов инфокоммуникационных систем делают процессы их коммуникации все более разнообразными и эмоционально напряженными. Несмотря на актуальность решения проблемы оценивания истинности передаваемого сообщения, в настоящее время надежных и эргономически эффективных методов автоматической оценки верности аудиоданных в соответствующих системах связи не реализовано [1-5].
Для определения ложности сообщаемой информации в настоящее время, как правило, используется полиграф (детектор лжи). В нем реализуется метод оценивания ложности сообщений на основе характера изменений психофизиологических реакций человека. При коммуникативном взаимодействии людей посредством полимодальных инфоком-муникационных систем (ПИКС) использование полиграфа практически невозможно ввиду того, что он является контактным методом и требует соблюдения определенных санитарных условий среды, в которой проводится исследование, наличия согласия у абонента, а также отсутствия у него отклонений в состоянии здоровья [6, 7].
В [8] предложен метод контроля психофизической реакции человека, фиксирующий психофизическую реакцию человека при изменении электромагнитного поля в процессе коммуникации. Необходимость использования специализированного аппаратного комплекса и применения стимулирующего воздействия не позволяет использовать данный метод в инфокоммуникационных системах.
Степень искренности ответов пользователей может быть установлена на основе неинвазивной видеорегистрации параметров движений зрачков глаз в процессе вербальной коммуникации [9, 10]. Вывод об психофизическом возбуждении при сокрытии либо искажении информации делают на основе сравнения количества моргания, диаметра зрачка и площади фигуры с контрольными значениями. Применение указанного подхода в ПИКС является весьма затруднительным, так как требует использования видеоокулографа.
Оценка искренности (неискренности) говорящего может быть произведена группой экспертов (в количестве не менее 10 человек) на основе анализа фрагмента видеозаписи длительностью не менее 40-60 с [9]. Важным условием является знание экспертами основ выразительных движений человека [10, 11]. Вывод об искренности сообщенной информации делается путем установления соответствия комплекса выразительных движений (мимика, позы, жесты) интонации голоса испытуемого на основе коэффициента ранговой корреляции по Спирмену. Рассмотренный подход требует участия группы экспертов и не адаптирован к особенности невербального поведения отдельно взятого абонента, что значительно снижает точность результатов оценивания искренности.
Основной путь повышения точности бесконтактного определения истинности передаваемой информации лежит через создание метода, позволяющего индивидуализировать подход, выявлять наиболее информативные показатели поведения и адаптироваться к конкретному абоненту. Перспективность этого направления показана во многих научных исследованиях [12-16], а реализация подразумевает наличие специального программного обеспечения для определения наиболее информативных параметров невербального поведения абонента при полимодальном представлении передаваемой информации.
Учитывая тот факт, что основную долю трафика в ПИКС составляют речевые сообщения, оценивание истинности передаваемой информации должно осуществляться в первую очередь именно по ним. Так, например, в работе [17] рассматривается применение фрактальных мел-кепстральных коэффициентов (БгСС) для определения «обманчивой» речи на основе использования линейного дискриминант-ного анализа и скрытых марковских моделей для обучения классификатора. В работе [18] описан метод на основе анализа скорости речи, времени начала ответа, частоты и длительности пауз хезитации. В работе [19] приводится метод выявления «правдивой» и «обманчивой» речи на основе анализа нели-
В.Ю. Будков, А.И. Савельев, Д.А. Вольф. Методика исследования параметров речевого сигнала
57
неиных спектральных признаков, выделенных с использованием метода энергии Барка [20] по психоакустическим свойствам. Также в работе [21] предложен метод определения обмана за счет обработки речевого сигнала с использованием нелинейных динамических (ЬМЭ) признаков и релевантной векторной машины (КУМ) на основе разряженного байесовского обучения (8БЬ) для их классификации.
Таким образом, основной путь повышения точности оценивания истинности передаваемых речевых сообщений лежит через создание методик и программных средств их реализации, позволяющих индивидуализировать подход, осуществлять подстройку, выявлять наиболее информативные параметры речи человека в каждом отдельном случае, отражающие истинность передаваемой информации [22].
Методика исследования параметров речевого сигнала
Для выявления параметров речевого сигнала, отражающих истинность передаваемой информации, разработана специализированная методика, представленная на рис. 1, включающая следующие этапы:
1. Создание файлов обработки речевого сигнала:
1) весовые функции Нс(/, к) и к(, к) для системы фильтров;
2) весовая функция для одновременной маскировки W0(£, к), применяемая для выделения частотных областей сильной корреляции;
3) маски Рм(к, к0) на основе функции W0(k, к).
2. Предварительная обработка речевого сигнала, включающая параллельную свертку речевого сигнала 3(/) с весовыми функциями кс(/, к) и к(, к) системы фильтров.
3. Выделение параметров речевого сигнала, основанное на вычислении массивов значений интен-сивностей /(/, к) и мгновенных частот к) фильтрованного речевого сигнала.
4. Выделение вокализованных участков речевого сигнала на основе:
1) одновременной маскировки речевого сигнала;
2) определения периодичности речевого сигнала на основе его свертки с набором масок;
3) сегментации речевого сигнала на основе алгоритма выделения частоты основного тона (ЧОТ).
В проведенном исследовании в качестве критериев, отражающих истинность передаваемой речевой информации, использовались следующие параметры: наличие вокализации звуков, ЧОТ, интенсивность основного тона, динамика изменения ЧОТ, девиация ЧОТ, динамика изменения интенсивности основного тона, отношение интенсивности гармоник к интенсивности основного тона [22-25].
• расчет весовых функций,
• расчет весовой функции
одн овре мен ной маскировки,
• формирование набора масок
Ас(/, к) к)
1 ■
Параметры фильтрации
Создание файлов для обработки РС
г 2 ■
РС
Wo(k, к) Рм(к, ко)
• одновременная маскировка РС,
• определение наличия периодической структуры путем свертки речевого сигнала с набором масок на каждом временном отсчете,
• сегментация РС по наличию голосового источника на основе алгоритма выделения ЧОТ.
Предварительная обработка РС
У(, к)
У(, к) -►
3 ■
Выделение параметров РС
Д/, к)
Д/, к) >
г 4 ■
Выделение вокализованных сегментов
г 5 ■
к0( ) -►
Параллельная свертка речевого сигнала (РС) с весовыми функциями и системой фильтров.
Вычисление массивов значений интенсивностей и мгновенных частот
Выделение:
• ЧОТ,
• интенсивности основного тона (ОТ)
• динамики изменения ЧОТ,
• девиации ЧОТ,
• динамики изм. интенсивности ОТ,
• интен-и гармоник к интен-и ОТ.
Выделение параметров вокализованных сегментов
6 ■
к„)
Визуализация параметров РС
Рис. 1. Методика исследования параметров речи, отражающих истинность передаваемой информации
Результаты исследования
Исследование речевого сигнала производилось с использованием разработанного теста, в состав которого вошла следующая последовательность нейтральных (К)/ контрольных (С)/ значимых (I) вопросов, направленная на выявление причастности испытуемого к краже ноутбука.
N1: «Вы родились в 1985?» С1: «Вы когда-нибудь брали без разрешения чужую вещь?»
11: «Вы украли ноутбук?»
N2: «Вас зовут Максим?»
С2: «Вы когда-либо нарушали закон?»
12: «Вы были у него дома?»
N3: «Вам 22?»
C3: «Вы когда-нибудь воровали?»
I3: «Вы украли ноутбук?»
N4: «Вы сегодня обедали?»
C4: «Вы когда-нибудь лгали с целью избежать проблем?»
I4: «Имеете ли вы какое-либо отношение к краже этого ноутбука?»
Из полученных результатов, частично представленных в таблице и на рис. 2 и 3, видно, что при ответе на нейтральные вопросы у испытуемого не возникает сильного эмоционального возбуждения, что позволяет представить паттерн реакции испытуемого абонента при сообщении истинной и ложной информации, и впоследствии сравнивать с ним реакции на контрольные и значимые вопросы (I1 сравнивается с C1, I2 сравнивается с C2, а I3 - с C3) по следующим правилам:
1) если различий в реакции нет, присваивается значение 0;
2) если различия в реакции заметные, ставится 1 балл;
3) если наблюдаются сильные различия в реакции, ставится 2 балла;
4) при очень выраженных различиях ставится 3 балла [6].
В случае если реакция на значимый вопрос сильнее, чем на контрольный, поставленный балл принимает отрицательное значение. И наоборот, если реакция на значимый вопрос слабее, чем на контрольный, ставится положительная оценка.
160 ЧОТ (Гц)
140
120
100
80 —-----— № изм.
3807 4344 4881 5418 5955 6492 7029 7565 Реакция на N1 - «Да»
160 140 120 100 80
Закономерности в характеристиках речевого сигнала
2864 3710 4555
Ситуация ЧОТ, Гц Среднее значение ЧОТ, Гц Девиация от среднего значения, Гц
Мужчина отвечает 120—140 130 10
на нейтральные
вопросы
Мужчина отвечает 120—150 135 15
на значимые
вопросы
Мужчина отвечает 110—140 125 15
на контрольные
вопросы
Женщина отвечает 200—240 220 20
на нейтральные
вопросы
Женщина отвечает 160—250 205 45
на значимые
вопросы
Женщина отвечает 180—280 230 50
на контрольные
вопросы
Общая оценка за тест выводится путем суммирования показателей, полученных по всем вопросам теста, и интерпретируется следующим образом:
1) от —6 и ниже - информация, сообщенная испытуемым, ложна;
2) от +6 и выше — информация, сообщенная испытуемым, истинна;
3) от —5 до +5 указывают на неопределенный результат в определении истинности сообщенной информации.
160 ЧОТ (Гц)
140
120
100
80 —-----— № изм.
1887 2498 3108 3718 4329 4939 5549 6160 Реакция на N2 — «Да»
160 140 120 100 80
9630 10567 11594 12621 13648 Реакция на C1 — «Нет»
160
140 120 100 80
> к
16729 17756 18783
4201 4914 5628 6341 7054 7767 186 477 768 1117 1525 1933 2341 2748 8537 9685 10957 12351 Реакция на С2 - «Да» Реакция на 11 - «Да» Реакция на 12 - «Нет»
Рис. 2. Паттерны реакции испытуемого на первые 6 вопросов теста
В.Ю. Будков, А.И. Савельев, Д.А. Вольф. Методика исследования параметров речевого сигнала
В случае опроса испытуемого (рис. 3) видно, что реакция на С1 сильнее, чем на 11, следовательно, присваивается «+3». Реакция на С2 сильнее, чем на 12, присваивается «+3». Реакция на С3 такая же, как
59
и на 13, присваивается «0». В итоге получается «+6», что позволяет считать тест пройденным. Следовательно, испытуемый сообщал истинную информацию.
140 120 100 80 ■
■ Ч ОТ (Г! 0
№ изм
160 140 120 100 80
3120 3736 4351 4967 5582 6198 6813 7428 Реакция на N3 — «Да»
160
4179 5392 6606 7820 9033 Реакция на N4 — «Да»
160 140 120 100 80
140 120 100 80
13020 14147 15275 16402 Реакция на C3 — «Нет»
160 140 120 100 80
4979 5890 6801 7711 8622 9533 Реакция на I3 — «Нет»
9218 9830 10508 11251 11994 12737 Реакция на C4 — «Да»
160 140 120 100 80
13020 14147 15275 16402 Реакция на I4 — «Нет»
Рис. 3. Паттерны реакции испытуемого на вторые 6 вопросов теста
Заключение
Полученные результаты свидетельствуют о возможности определения истинности переданной информации в режиме реального времени и в процессе межличностного общения между абонентами полимодальных инфокоммуникационных систем. В дальнейшем запланированы разработка алгоритмов и программного обеспечения определения истинности передаваемого речевого сообщения и анализ других невербальных модальностей человеческого поведения, а также новых численных методов оценивания параметров речевого сигнала [27].
Исследование выполнено при поддержке гранта Президента Российской Федерации (проект № МК-7925.2016.9).
Литература
1. Basov O.O. Reasoning of the Transition to Polymodal Infocommunicational Systems // Распределенные компьютерные и телекоммуникационные сети: управление, вычисление, связь (DCCN-2015): матер. XVIII Междунар. науч. конф. — М.: ИПУ РАН, 2015. — С. 418—425.
2. Ронжин Ал.Л. Формирование профиля пользователя на основе аудиовизуального анализа ситуации в ин-
теллектуальном зале совещаний / Ал.Л. Ронжин, В.Ю. Будков, Ан.Л. Ронжин // Труды СПИИРАН. — 2012. — Вып. 23. — С. 482—494.
3. Ли И.В. Проектирование систем речевого диалога / И.В. Ли, А.Л. Ронжин // Труды СПИИРАН. — 2006. — Вып. 3. — С. 320—338.
4. Мещеряков Р.В. Структура систем синтеза и распознавания речи // Известия Томского политехнического университета. — 2009. — Т. 315, № 5. — С. 127—132.
5. Мещеряков Р.В. Диалог как основа построения речевых систем / Р.В. Мещеряков, В.П. Бондаренко // Кибернетика и системный анализ. — 2008. — № 2. — С. 30.
6. Vrij A. Detecting Lies and Deceit: The Psychology of Lying and the Implications for Professional Practice. — Wiley: Chichester, 2000. — 276 p.
7. Грузьева И.В. Формально-динамические и стилевые особенности индивидуальности как факторы вероятности инструментального выявления скрываемой информации: автореф. дис. ... канд. психол. наук. — М., 2006 — 22 с.
8. Пат. 2 216 269 РФ, МПК A61B5/04, A61B5/16. Способ контроля психофизической реакции человека и устройство для его осуществления / В. И. Губайдуллин, Э.В. Зимин (РФ). — № 2 000 122 210 / 14; заявл. 21.08.2000; опубл. 20.11.2003. — 7 с.
9. Пат. 2 221 475 РФ, МПК A61B3/113. Способ исследования движения глаз по бинокулярному изображе-
нию и устройство для его реализации / Д.А. Усанов, Ал.В. Скрипаль, Ан.В. Скрипаль, А.В. Абрамов, Т.Б. Уса-нова, В.Б. Феклистов (РФ). - Опубл. 20.01.2004. Бюл. № 2.
10. Романова Н.М. Особенности глазодвигательных реакций человека при произнесении истинной и ложной информации / Н.М. Романова, А.П. Рытик, М.А. Самохина, А.В. Скрипаль, Д.А Усанов. - M.: СГУ, 2008. - С. 65-73.
11. Method of Defining Multimodel Information Falsity for Smart Telecommunication Systems / O.O. Basov,
A.L. Ronzhin, V.Yu. Budkov, I.A. Saitov // LNCS. - 2015. -P. 163-176.
12. Пат. 2 293 518 РФ, МПК A61B5/16. Способ оценки искренности-неискренности говорящего / Патентообладатель: Институт психологии Российской академии наук,
B.П. Морозов, П.В. Морозов (РФ). - № 2 005 124 844/14; заявл. 04.08.2005; опубл. 20.02.2007. Бюл. № 5. - 19 с.
13. Nierenberg, G.I. How to Read a Person Like a Book / G.I. Nierenberg, H.H. Calero. - New York: Pocket Books, 1990. - 192 p.
14. Пиз А. Язык телодвижений / А. Пиз, Б. Пиз. -М.: Эксмо, 2012. - 400 с.
15. Басов О. О. Основные каналы межличностной коммуникации и их проекция на инфокоммуникационные системы / О.О. Басов, И. А. Саитов // Труды СПИИРАН. -2013. - Вып. 7(30). - С. 122-140.
16. Костюченко Е.Ю. Идентификация по биометрическим параметрам при использовании аппарата нейронных сетей / Е.Ю. Костюченко, Р.В. Мещеряков // Нейрокомпьютеры: разработка, применение. - 2007. - № 7. -
C. 39-50.
17. Pan X. The application of fractional Mel cepstral coefficient in deceptive speech detection / X. Pan, H. Zhao, Y. Zhou // Peer J. - 2015. - Vol. 3. - P. 1194.
18. Kirchhubel C. Analyzing deceptive speech / C. Kirchhubel, A.W. Stedmon, D.M. Howard // Engineering Psychology and Cognitive Ergonomics: understanding human cognition. - 2013. - Vol. 1. - P. 134-141.
19. Sanaullah M. Deception detection in speech using bark band and perceptually significant energy features / M. Sanaullah, K. Gopalan // IEEE. - 2013. - P. 1212-1215.
20. Gopalan K. An utterance recognition technique for keyword spotting by fusion of Bark energy and MFCC features / K. Gopalan, T. Chu, X. Miao // Proceedings of the 9th WSEAS International Conference on Signal, Speech and Image Processing. - 2009. - P. 156-161.
21. Deception detecting from speech signal using relevance vector machine and non-linear dynamics features / Zhou Y. et al. // Neurocomputing. - 2015. - Vol. 151. - P. 1042-1052.
22. Бондаренко В.П. Сегментация и параметрическое описание речевого сигнала / В.П. Бондаренко, А.А. Конев, Р.В. Мещеряков // Изв. высш. учеб. завед. Приборостроение. - 2007. - Т. 50, № 10. - С. 3-7.
23. Мещеряков Р.В. Некоторые подходы к выбору параметров голоса для оценки истинности высказывания / Р. В. Мещеряков, А.А. Конев, А. И. Юдин // Доклады Том. гос. ун-та систем управления и радиоэлектроники. - 2008. -Т. 2, № 1. - С. 47-50.
24. Ронжин А. Л. Определение степени алкогольной интоксикации человека на основе автоматического анализа речи / А. Л. Ронжин, О.О. Басов // Вестник Московского университета МВД России. - 2015. - № 5. - С. 216-220.
25. Basov O.O. Optimization of Pitch Tracking and Quantization / O.O. Basov, An.L. Ronzhin, V.Yu. Budkov // LNAI. - 2015. - P. 317-324.
26. Басов О.О. Оценка ложности передаваемой информации по динамике параметров невербального поведения абонента // Вестник РГРТУ (Рязань). - 2015. - № 1 (вып. 51). - C. 24-29.
27. Вольф Д.А. Модель процесса сингулярного оценивания частоты основного тона речевого сигнала / Д.А. Вольф, Р.В. Мещеряков // Акустический журнал. -2016. - Т. 62, № 2. - С. 216.
Будков Виктор Юрьевич
Канд. техн. наук, ст. науч. сотрудник лаборатории автономных робототехнических систем (ЛАРС) Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН) Тел.: 8 (812-3) 28-70-81 Эл. почта: [email protected]
Савельев Антон Игоревич
Науч. сотрудник ЛАРС Тел.: 8 (812-3) 28-70-81 Эл. почта: [email protected]
Вольф Данияр Александрович
Канд. техн. наук, инж. учеб.-вычисл. лаб. «Микропроцессорные системы управления» каф. комплексной информационной безопасности электронно-вычислительных систем ТУСУРа Тел.: 8 (382-2) 41-34-26 Эл. почта: [email protected]
Budkov V.Yu., Saveliev A.I., Volf D.A.
Technique of studying speech signal parameters reflecting
on the truth of the transmitted information
A review of the existing diagnostic methods for validity of the transmitted information is performed. The feasibility of such techniques in polymodal infocommunication systems was proved. The parameters of speech signal, which reflect the truth of the transmitted information, are investigated. The decision rules for automatic diagnostic system are defined. The results of the experiments with the developed technique are considered.
bywords: speech signal, polymodal infocommunication, truth of the information.