Научная статья на тему 'Метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала'

Метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
152
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
SPEECH SIGNAL / HEARTBEAT FREQUENCY / PITCH PULSES / PITCH FREQUENCY TRAJECTORY / РЕЧЕВОЙ СИГНАЛ / ЧАСТОТА СЕРДЕЧНЫХ СОКРАЩЕНИЙ / ИМПУЛЬСЫ ОСНОВНОГО ТОНА / ТРАЕКТОРИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Полешенков Дмитрий Дмитриевич, Басов Олег Олегович

В статье описан метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала в условиях отсутствия априорной информации о строении и характеристиках речевого аппарата говорящего. Выявлены структурные особенности речевого сигнала, позволяющие выделить информацию о моментах сокращения сердечной мышцы. На основе описанного ранее механизма воздействия сердечно-сосудистой системы на процесс синтеза речевого сигнала создан алгоритм реализации описанного способа, включающий в себя алгоритм выделения вокализованных сегментов речевого сигнала. Приведены практические результаты работы алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Полешенков Дмитрий Дмитриевич, Басов Олег Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE METHOD OF HEARTBEAT FREQUENCY VARIATION DETECTION FROM A NORMAL SPEECH SIGNAL

This paper gives the way of a heartbeat frequency separation from a normal speech signal without prior information about speaker. The paper reveals the structural features of the speech signal, allowing to allocate information about the heart contraction moments. The algorithm of realization of the proposed method based on the mechanism of action of the cardiovascular system on the process of synthesis of the speech signal is described in this work. The proposed algorithm includes an algorithm of vocalized speech signal segments allocation. The practical results of the algorithm are presented.

Текст научной работы на тему «Метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала»

Д. Д. Полешенков,

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

О. О. Басов,

доктор технических наук, доцент, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

МЕТОД ВЫДЕЛЕНИЯ ИЗМЕНЕНИЯ ЧАСТОТЫ СЕРДЕЧНЫХ СОКРАЩЕНИЙ ИЗ ЕСТЕСТВЕННОГО РЕЧЕВОГО СИГНАЛА

THE METHOD OF HEARTBEAT FREQUENCY VARIATION DETECTION FROM A NORMAL SPEECH SIGNAL

В статье описан метод выделения изменения частоты сердечных сокращений из естественного речевого сигнала в условиях отсутствия априорной информации о строении и характеристиках речевого аппарата говорящего. Выявлены структурные особенности речевого сигнала, позволяющие выделить информацию о моментах сокращения сердечной мышцы. На основе описанного ранее механизма воздействия сердечнососудистой системы на процесс синтеза речевого сигнала создан алгоритм реализации описанного способа, включающий в себя алгоритм выделения вокализованных сегментов речевого сигнала. Приведены практические результаты работы алгоритма.

This paper gives the way of a heartbeat frequency separation from a normal speech signal without prior information about speaker. The paper reveals the structuralfeatures of the speech signal, allowing to allocate information about the heart contraction moments. The algorithm of realization of the proposed method based on the mechanism of action of the cardiovascular system on the process of synthesis of the speech signal is described in this work. The proposed algorithm includes an algorithm of vocalized speech signal segments allocation. The practical results of the algorithm are presented.

Введение. Частота сердечных сокращений (ЧСС) является одним из физиологических параметров, позволяющих достаточно точно определять изменения психоэмоционального и физиологического состояния человека [1]. В работе [2] показаны основные

механизмы влияния функционирования сердечно-сосудистой системы на процесс рече-образования. Таким образом, существует возможность выделения информации о ЧСС из речевого сигнала (РС), с последующей интерпретацией полученных значений.

Несмотря на достаточно высокую актуальность рассматриваемой темы, анализ предметной области [3—7] показал, что задача выделения траектории ЧСС из РС далека от окончательного решения. В рамках данной работы предлагается описание способа выделения траектории изменения ЧСС из РС в условиях отсутствия априорной информации о говорящем. Решение данной задачи может быть использовано в рамках деятельности правоохранительных органов с целью дистанционного получения информации о психоэмоциональном и физиологическом состоянии субъекта.

Описание предлагаемого способа и алгоритма его реализации. В ряде работ [8—9] описаны первичные алгоритмы по выделению некоторых информационных признаков функционирования сердечно-сосудистой системы из РС, также показано, что процесс функционирования системы кровообращения оказывает влияние на частоту и мощность импульсов основного тона (ОТ) РС. Однако описанные способы выделения информационных параметров процесса функционирования сердечно-сосудистой системы являются локально применимыми и требуют предварительной обработки анализируемого РС.

Ввиду того, что влияние сердечно-сосудистой системы на процесс синтеза РС носит сложный характер [10], существует необходимость минимизации ошибок путем анализа совокупности информационных параметров РС. В рамках рассматриваемой задачи представляется целесообразным производить параллельный анализ траектории частоты ОТ и средней мощности импульсов ОТ [11].

Так как информация о параметрах функционирования сердечно-сосудистой системы содержится в вокализованных и слабо вокализованных интервалах РС, возникает необходимость автоматической классификации интервалов анализа. Применяемые алгоритмы классификации интервалов РС должны использовать в качестве исходных данных анализируемые в рамках решения основной задачи параметры РС и обеспечивать минимизацию ошибок классификации.

Учитывая вышеизложенное, может быть сформулирован способ выделения траектории изменения ЧСС из РС в условиях отсутствия априорной информации о говорящем путем вычисления на интервалах вокализованных и слабо вокализованных сегментов РС траектории частоты ОТ и средней мощности импульсов ОТ с последующей корреляционной обработкой полученных сигналов.

Стоит отметить, что необходимость точной сегментации РС отсутствует ввиду низкой корреляции между спектральными составляющими шумоподобных интервалов РС, а также между сигналами траектории частоты ОТ и последовательности импульсов ОТ на длительности шумоподобных интервалов РС. Однако существует вероятность ошибочного выделения изменений энергетических характеристик РС во времени вместо колебаний, вызванных функционированием системы кровообращения, ввиду сходных с сигналом пульса частотных характеристик. Для компенсации данного негативного эффекта требуется последующее приближенное определение вокализованных интервалов РС.

В алгоритме (рис. 1), реализующем описанный способ, используются следующие исходные данные: ${п) — последовательность отсчетов РС, /д — частота дискретизации РС.

Данный алгоритм применим для записей РС конечной длины и основан на его постобработке. Применение данного алгоритма для работы в режиме реального времени потребует его незначительной модификации.

Рис. 1. Схема метода выделения траектории изменения ЧСС

Согласно предлагаемому методу после ввода исходных данных осуществляется вычисление траектории частоты ОТ и его второй гармоники для определения интервалов вокализованных и слабо вокализованных фонем в соответствии со способом [12], основанным на статистических свойствах шумоподобных фонем. Информация о типе интервала, полученная на основе указанного способа, записывается в массив в1 (рис. 2, а), длина которого соответствует длине анализируемого РС. Параллельно с описанным процессом осуществляется получение приближенной последовательности импульсов ОТ Эи(п) (рис. 3) в соответствии со способом, основанным на некоторых структурных особенностях РС в диапазоне частот свыше 1 кГц [13]. Для невокализованных интервалов импульсы в полученной последовательности будут отсутствовать, что является дополнительным классификационным признаком интервала анализа РС. Информация о типе интервалов анализа, полученная на основе наличия или отсутствия импульсов ОТ в последовательности $и(п), записывается в массив в2 (рис. 2, б), длина которого также соответствует длине анализируемого РС.

Дополнительно для повышения точности определения шумоподобных фонем может быть использован способ [14] определения границ фонемных переходов, основанный на определении числа переходов через ноль на длительности фонемы. Итоговый массив е, содержащий информацию о типах интервалов, формируется путем установки весовых коэффициентов, принимающих максимальное значение в случае совпадения соответствующих элементов массивов е1 и е2. Полученный массив е используется для последующей оценки достоверности работы алгоритма.

б)

Рис. 2. Графики типов интервалов: а — сигнал в1(п), б — сигнал в2(п)

б)

Рис. 3. Последовательность импульсов ОТ: а — сигнал Sи(n) на длительности РС, б — вокализованный интервал сигнала $и(п)

На следующем этапе работы алгоритма осуществляется фильтрация полученного сигнала Эи(п) в полосе частот сигнала пульса с целью выделения низкочастотных изменений, вызванных функционированием системы кровообращения. Далее полученный сигнал Эф(п) (рис. 4) используется для выделения восстановленного сигнала пульса с последующим выделением информации об изменении ЧСС путем вычисления взаимной корреляции В(п) с сигналом траектории частоты ОТ. Низкочастотные изменения Вф(п) (рис. 5, а), полученные путем фильтрации сигнала В(п) в полосе частот сигнала пульса, несут информации об изменении ЧСС.

Рис. 4. Низкочастотные изменения последовательности импульсов ОТ

б)

Рис. 5. Результаты работы алгоритма: а — восстановленный сигнал пульса, б — график весовых коэффицентов

Минимизация шумов фонемных переходов, частота которых совпадает с ЧСС, происходит за счет низкой корреляции сигналов ¥от(п) и sф(n) на длительности шумоподобных фонем. Для повышения достоверности оценок при принятии решения о наличии или отсутствии сокращения сердечной мышцы на интервале анализа используются весовые коэффициенты массива е (рис. 5, б), позволяющие отбросить значения, находящиеся вне вокализованных интервалов. Однако остаточное воздействие фонемных переходов с большой разностью энергий достаточно сильно проявляется в выходном сигнале. Степень проявления зависит в основном от тембра речи, но ввиду того, что спектры воздействия фонемных переходов и спектры составляющих, вызванных пульсом, перекрываются не полностью, существует возможность достаточно точного восстановления периодов сокращения сердечной мышцы. Для этого может быть использован корреляционный анализ гармонических составляющих сигнала пульса. При использовании данного алгоритма на РС большой длительности описанный эффект имеет не слишком существенное влияние, вследствие чего описанные механизмы его минимизации в данной работе не применялись.

Выходные данные работы алгоритма могут быть представлены в виде графика Вф(п), размеченного в цветовой гамме в соответствии со значениями сигнала е(п). Ввиду того, что сигнал Вф(п) имеет сложную структуру, его интерпретация является достаточно сложной задачей, выходящей за рамки описанного способа.

Совокупность выходных сигналов Вф(п) и е(п) позволяет относительно точно определить моменты сокращения сердечной мышцы. Пропущенные значение могут быть экстраполированы по последовательности полученных значений, находящихся на вокализованных интервалах РС. Для повышения точности интерпретации результатов работы алгоритма могут быть использованы просодические характеристики РС. Степень взаимосвязи физиологических параметров и характеристик РС достаточно широко описана в научной литературе (например, [15]).

Заключение. Результаты [16—18], представленные в данной работе, показывают принципиальную возможность создания конечных приборов, позволяющих выделять информацию о ЧСС из РС, что в свою очередь позволяет осуществлять определение психоэмоционального и физиологического состояния говорящего бесконтактным способом. Представленный метод и алгоритм его реализации могут быть использованы в правоохранительной деятельности с целью повышения качества оценки психоэмоционального и физиологического состояния субъекта. Однако для реализации конечных устройств на основе предложенного алгоритма потребуется создание решающих схем и алгоритмов их работы, позволяющих производить оптимальные оценки психоэмоционального и физиологического состояния субъекта на интервале анализа на основе выходных данных предложенного алгоритма.

ЛИТЕРАТУРА

1. Физиология : учебник для студентов лечебного и педиатрического факультетов / под ред. В. М. Смирнова, В. А. Правдивцева, Д. С. Свешникова. — 5-е изд., испр. и доп. — М. : Медицинское информационное агентство, 2017. — С. 234—281.

2. Полешенков Д. Д., Басов О. О. Моделирование траектории изменения частоты основного тона // 21-я Международная конференция «Цифровая обработка сигналов и ее применение — Б8РА-2019» : доклады. Вып. ХХ1-1. — С. 233—237.

3. Дикий И. С., Дикая Л. А. Противодействие полиграфным проверкам : учебное пособие. — Ростов-на-Дону, Таганрог : Издательство Южного федерального университета, 2018. — 86 с.

4. Milton A., Monsely K. A. Tamil and English speech database for heartbeat estimation // International Journal of Speech Technology. — 2018. — Vol. 21. — Issue 4. — P. 967—973.

5. James A. P. Heart rate monitoring using human speech spectral features // Human-centric Computing and Information Sciences. — 2015. — Vol. 5, no. 1. — P. 1—12.

6. Towards Predicting Physiology from Speech During Stressful Conversations: Heart Rate and Respiratory Sinus Arrhythmia — 2018 / A. Jati [et al.] // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — Calgary: AB, 2018. — P. 4944—4948.

7. Analysis and prediction of heart rate using speech features from natural speech / J. Smith A. [et al] // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — New Orleans : LA, 2017. — P. 989—993.

8. Полешенков Д. Д., Басов О. О. Влияние сердцебиения на мощность импульсов основного тона речи // Актуальные вопросы современной науки : сборник статей по материалам XX международной научно-практической конференции (11 апреля 2019 г., г. Томск) : в 3 ч. Ч. 1. — Уфа : Дендра, 2019. — С. 114—121.

9. Полешенков Д. Д. Алгоритм выделения частоты основного тона посредством частотной демодуляции // Будущее науки — 2019 : сборник научных статей 7-й Международной молодежной научной конференции (25-26 апреля 2019 года) : в 6 т. Т. 6. — Курск : Юго-Зап. гос. ун-т., 2019. — С. 238—241.

10. Кабанов Н. А. Анатомия человека : учебник для СПО. — М. : Юрайт, 2019. — С. 289—293.

11. Полешенков Д. Д., Басов О. О. Алгоритм выделения изменений частоты сердечных сокращений из речевого сигнала // Теория и практика трансдисциплинарных исследований в современном мире : сборник научных статей по итогам международной научно-практической конференции. — СПб. : Изд. СПбГЭУ, 2019. — С. 29—32.

12. Полешенков Д. Д., Басов О. О. Способ выделения траектории частоты основного тона речи на основе частотной демодуляции // Научные ведомости БелГУ. Экономика и информатика. — 2019. — № 2 (46). — С. 359—366.

13. Сорокин В. Н. Сегментация периода основного тона голосового источника // Акустический журнал. — 2016. — Т. 62. — № 2. — С. 247—258.

14. Использование краткосрочных характеристик в обработке речи. — URL: http://habr.com/ru/post/195448/ (дата обращения: 11.08.2019).

15. Лебедева Н. Н., Каримова Е. Д. Акустические характеристики речевого сигнала как показатель функционального состояния человека // Успехи физиологических наук. — 2014. — Т. 45. — № 1. — С. 57—95.

16. Свидетельство № 2019614402 Российская Федерация, свидетельство о государственной регистрации программы для ЭВМ. Программа коррекции медленно изменяющихся составляющих траектории частоты основного тона речевого сигнала / Полешенков Д.Д.; автор и правообладатель Полешенков Д.Д. (RU). — № 2019613190; заявл. 26.03.2019; зарегистр. 04.04.2019, Реестр программ для ЭВМ. — 1 с.

17. Свидетельство № 2019614500 Российская Федерация, свидетельство о государственной регистрации программы для ЭВМ. Программа выделения траектории частоты и амплитуды гармоник основного тона речевого сигнала / Полешенков Д.Д.; автор и правообладатель Полешенков Д.Д. (RU). — № 2019613284; заявл. 26.03.2019; зарегистр. 05.04.2019, Реестр программ для ЭВМ. — 1 с.

18. Свидетельство № 2019614401 Российская Федерация, свидетельство о государственной регистрации программы для ЭВМ. Программа выделения траектории частоты основного тона речевого сигнала на основе частотной демодуляции / Полешенков Д.Д.; автор

и правообладатель Полешенков Д.Д. (RU). — № 2019613189; заявл. 26.03.2019; заре-гистр. 04.04.2019, Реестр программ для ЭВМ. — 1 с.

REFERENCES

1. . Fiziologiya : uchebnik dlya studentov lechebnogo i pediatricheskogo fakultetov / pod red. V. M. Smirnova, V. A. Pravdivtseva, D. S. Sveshnikova. — 5-e izd., ispr. i dop. — M. : Meditsinskoe informatsionnoe agentstvo, 2017. — S. 234—281.

2. Poleshenkov D. D., Basov O. O. Modelirovanie traektorii izmeneniya chastotyi os-novnogo tona // 21-ya Mezhdunarodnaya konferentsiya «Tsifrovaya obrabotka signalov i ee primenenie — DSPA-2019» : dokladyi. Vyip. XXI-1. — S. 233—237.

3. Dikiy I. S., Dikaya L. A. Protivodeystvie poligrafnyim proverkam : uchebnoe posobie. — Rostov-na-Donu, Taganrog : Izdatelstvo Yuzhnogo federalnogo universiteta, 2018. — 86 s.

4. Milton A., Monsely K. A. Tamil and English speech database for heartbeat estimation // International Journal of Speech Technology. — 2018. — Vol. 21. — Issue 4. — P. 967—973.

5. James A. P. Heart rate monitoring using human speech spectral features // Human-centric Computing and Information Sciences. — 2015. — Vol. 5, no. 1. — P. 1—12.

6. Towards Predicting Physiology from Speech During Stressful Conversations: Heart Rate and Respiratory Sinus Arrhythmia — 2018 / A. Jati [et al.] // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — Calgary: AB, 2018. — P. 4944—4948.

7. Analysis and prediction of heart rate using speech features from natural speech / J. Smith A. [et al] // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). — New Orleans : LA, 2017. — P. 989—993.

8. Poleshenkov D. D., Basov O. O. Vliyanie serdtsebieniya na moschnost impulsov os-novnogo tona rechi // Aktualnyie voprosyi sovremennoy nauki : sbornik statey po materialam XX mezhdunarodnoy nauchno-prakticheskoy konferentsii (11 aprelya 2019 g., g. Tomsk) : v 3 ch. Ch. 1./ — Ufa : Dendra, 2019. — S. 114—121.

9. Poleshenkov D. D. Algoritm vyideleniya chastotyi osnovnogo tona posredstvom chastotnoy demodulyatsii // Buduschee nauki — 2019 : sbornik nauchnyih statey 7-y Mezhdunarodnoy molodezhnoy nauchnoy konferentsii (25-26 aprelya 2019 goda) : v 6 t. T. 6. — Kursk : Yugo-Zap. gos. un-t., 2019. — S. 238—241.

10. Kabanov N. A. Anatomiya cheloveka : uchebnik dlya SPO. — M. : Yurayt, 2019. —S. 289—293.

11. Poleshenkov D. D., Basov O. O. Algoritm vyideleniya izmeneniy chastotyi ser-dechnyih sokrascheniy iz rechevogo signala // Teoriya i praktika transdistsiplinarnyih issledo-vaniy v sovremennom mire : sbornik nauchnyih statey po itogam mezhdunarodnoy nauchno-prakticheskoy konferentsii. — SPb. : Izd. SPbGEU, 2019. — S. 29—32.

12. Poleshenkov D. D., Basov O. O. Sposob vyideleniya traektorii chastotyi osnovnogo tona rechi na osnove chastotnoy demodulyatsii // Nauchnyie vedomosti BelGU. Ekonomika i informatika. — 2019. — # 2 (46). — S. 359—366.

13. Sorokin V. N. Segmentatsiya perioda osnovnogo tona golosovogo istochnika // Akusticheskiy zhurnal. — 2016. — T. 62. — # 2. — S. 247—258.

14. Ispolzovanie kratkosrochnyih harakteristik v obrabotke rechi. — URL: http://habr.com/ru/post/195448/ (data obrascheniya: 11.08.2019).

15. Lebedeva N. N., Karimova E. D. Akusticheskie harakteristiki rechevogo signala kak pokazatel funktsionalnogo sostoyaniya cheloveka // Uspehi fiziologicheskih nauk. — 2014. — T. 45. — # 1. — S. 57—95.

16. Svidetelstvo # 2019614402 Rossiyskaya Federatsiya, svidetelstvo o gosudarstven-noy registratsii programmyi dlya EVM. Programma korrektsii medlenno izmenyayuschihsya sostavlyayuschih traektorii chastotyi osnovnogo tona rechevogo signala / Poleshenkov D.D.; avtor i pravoobladatel Poleshenkov D.D. (RU). — # 2019613190; zayavl. 26.03.2019; zare-gistr. 04.04.2019, Reestr programm dlya EVM. — 1 s.

17. Svidetelstvo # 2019614500 Rossiyskaya Federatsiya, svidetelstvo o gosudarstven-noy registratsii programmyi dlya EVM. Programma vyideleniya traektorii chastotyi i ampli-tudyi garmonik osnovnogo tona rechevogo signala / Poleshenkov D.D.; avtor i pravoobladatel Poleshenkov D.D. (RU). — # 2019613284; zayavl. 26.03.2019; zaregistr. 05.04.2019, Reestr programm dlya EVM. — 1 s.

18. Svidetelstvo # 2019614401 Rossiyskaya Federatsiya, svidetelstvo o gosudarstven-noy registratsii programmyi dlya EVM. Programma vyideleniya traektorii chastotyi osnovnogo tona rechevogo signala na osnove chastotnoy demodulyatsii / Poleshenkov D.D.; avtor i pravoobladatel Poleshenkov D.D. (RU). — # 2019613189; zayavl. 26.03.2019; zaregistr. 04.04.2019, Reestr programm dlya EVM. — 1 s.

СВЕДЕНИЯ ОБ АВТОРАХ

Полешенков Дмитрий Дмитриевич. Аспирант.

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО).

E-mail: d.poleshenkov@yandex.ru

Россия, 197101, г. Санкт-Петербург, Кронверкский пр., 49. Тел. +7 (812) 232-80-95.

Басов Олег Олегович. Старший научный сотрудник факультета информационных технологий и программирования. Доктор технических наук, доцент.

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО).

E-mail: oobasov@mail.ru

Россия, 197101, г. Санкт-Петербург, Кронверкский пр., 49. Тел. +7 (812) 232-80-95.

Poleshenkov Dmitry Dmitrievich. Post-graduate student.

St. Petersburg National Research University of Information Technologies, Mechanics and Optics (ITMO University).

E-mail: d.poleshenkov@yandex.ru

Work address: Russia, 197101, St. Petersburg, Kronverksky Pr., 49. Tel.: +7 (812) 232-80-95

Basov Oleg Olegovich. Senior researcher of Information Technologies and Programming Faculty. Doctor of Technical Sciences, Assistant Professor.

St. Petersburg National Research University of Information Technologies, Mechanics and Optics (ITMO University).

E-mail: oobasov@mail.ru

Work address: Russia, 197101, St. Petersburg, Kronverksky Pr., 49. Tel.: +7 (812) 232-80-95

Ключевые слова: речевой сигнал; частота сердечных сокращений; импульсы основного тона; траектория частоты основного тона.

Key words: speech signal; heartbeat frequency; pitch pulses; pitch frequency trajectory.

УДК 004.522

i Надоели баннеры? Вы всегда можете отключить рекламу.