Научная статья на тему 'Способ сегментации речевого сигнала для систем оценки психогенных состояний'

Способ сегментации речевого сигнала для систем оценки психогенных состояний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
187
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПСИХИЧЕСКОЕ ЗДОРОВЬЕ / РЕЧЕВЫЕ СИГНАЛЫ / СИГНАЛ/ПАУЗА / РАСПОЗНАВАНИЕ / МЕТОД КОМПЛЕМЕНТАРНОЙ МНОЖЕСТВЕННОЙ ДЕКОМПОЗИЦИИ / PROCESSING OF SPEECH SIGNALS / SIGNAL/PAUSE SEGMENTATION / SPEECH RECOGNITION / VOICE CONTROL SYSTEM / COMPLEMENTARY MULTIPLE DECOMPOSITION METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович, Торгашин Сергей Иванович

Актуальность и цели. Низкая точность распознавания речевых сигналов в условиях психических отклонений у человека является одной из главных причин практической реализации систем оценки психогенных состояний. Это связано с использованием неустойчивых к шумам и неадаптивных методов обработки сложных нестационарных сигналов. В статье предложен способ сегментации сигнал/пауза, работающих в условиях зашумленной обстановки. Материалы и методы. В разработке способа сегментации речевого сигнала для систем оценки психического здоровья использовались: комплементарная множественная декомпозиция на эмпирические моды (КМДЭМ) и метод разграничения на основе физиологического аспекта формирования речи и функционала слухового аппарата человека. Результаты. Представлена структурная схема способа. Указаны преимущества разрабатываемого решения в сравнении с известными способами сегментации сигнал/пауза STE+ZCR, IE и MFCC. Выводы. Представленный способ обеспечивает повышение коэффициента действительного обнаружения речевого сигнал до 6 %. Сравнение результатов исследований позволяет сделать вывод, что разработанный способ сегментации сигнал/пауза может быть применен для практического применения в системах оценки психогенных состояний.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович, Торгашин Сергей Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A METHOD OF SPEECH SIGNAL SEGMENTING FOR EVALUATION OF PSYCHOGENIC STATES

Background. The low accuracy of recognition of speech commands is one of the main problems in practical implementation of systems for assessing psychogenic states. This is due to the use non-adaptive methods unstable to noise for processing complex speech signals. The article proposes a method of signal / pause segmentation to work in a noisy environment. Materials and methods. In the development of the method we used: the method of adaptive processing of speech signals complementary multiple decomposition into empirical modes (KMDE) and the method of differentiation based on the physiological aspect of speech formation and human hearing apparatus’ functional. Results. The article presents a block diagram of the method with detailed mathematical description. The advantages are shown in comparison with the known signaling / pause signaling / STE + ZCR, IE and MFCC. Conclusions. The developed method provides an increase in the coefficient of actual detection by an average of 6%. A comparison of the study results allows us to conclude that the developed signal / pause segmentation method is recommended for practical application in psychogenic states assessment systems.

Текст научной работы на тему «Способ сегментации речевого сигнала для систем оценки психогенных состояний»

УДК 616.89

DOI 10.21685/2072-3059-2017-3-7

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, С. И. Торгашин

СПОСОБ СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА ДЛЯ СИСТЕМ ОЦЕНКИ ПСИХОГЕННЫХ СОСТОЯНИЙ1

Аннотация.

Актуальность и цели. Низкая точность распознавания речевых сигналов в условиях психических отклонений у человека является одной из главных причин практической реализации систем оценки психогенных состояний. Это связано с использованием неустойчивых к шумам и неадаптивных методов обработки сложных нестационарных сигналов. В статье предложен способ сегментации сигнал/пауза, работающих в условиях зашумленной обстановки.

Материалы и методы. В разработке способа сегментации речевого сигнала для систем оценки психического здоровья использовались: комплементарная множественная декомпозиция на эмпирические моды (КМДЭМ) и метод разграничения на основе физиологического аспекта формирования речи и функционала слухового аппарата человека.

Результаты. Представлена структурная схема способа. Указаны преимущества разрабатываемого решения в сравнении с известными способами сегментации сигнал/пауза STE+ZCR, IE и MFCC.

Выводы. Представленный способ обеспечивает повышение коэффициента действительного обнаружения речевого сигнал до 6 %. Сравнение результатов исследований позволяет сделать вывод, что разработанный способ сегментации сигнал/пауза может быть применен для практического применения в системах оценки психогенных состояний.

Ключевые слова: психическое здоровье, речевые сигналы, сигнал/пауза, распознавание, метод комплементарной множественной декомпозиции.

A. K. Alimuradov, A. Yu. Tychkov, P. P. Churakov, S. I. Torgashin

A METHOD OF SPEECH SIGNAL SEGMENTING FOR EVALUATION OF PSYCHOGENIC STATES

Abstract.

Background. The low accuracy of recognition of speech commands is one of the main problems in practical implementation of systems for assessing psychogenic states. This is due to the use non-adaptive methods unstable to noise for processing complex speech signals. The article proposes a method of signal / pause segmentation to work in a noisy environment.

Materials and methods. In the development of the method we used: the method of adaptive processing of speech signals - complementary multiple decomposition into empirical modes (KMDE) and the method of differentiation based on the physiological aspect of speech formation and human hearing apparatus' functional.

Results. The article presents a block diagram of the method with detailed mathematical description. The advantages are shown in comparison with the known signaling / pause signaling / STE + ZCR, IE and MFCC.

1 Работа подготовлена в рамках поддержки РФФИ №16-31-00194 мол_а «Определение биомаркеров речевых и ЭЭГ сигналов и исследование их взаимосвязи для экспресс-диагностики психогенных состояний».

Conclusions. The developed method provides an increase in the coefficient of actual detection by an average of 6%. A comparison of the study results allows us to conclude that the developed signal / pause segmentation method is recommended for practical application in psychogenic states assessment systems.

Key words: processing of speech signals, signal/pause segmentation, speech recognition, voice control system, complementary multiple decomposition method.

Введение

Сегментация сигнала на информативные участки и паузы является одной из важных задач при обработке контрольных речевых предложений в системах оценки психогенных состояний. Точное обнаружение границ речевого предложения не только повышает качество распознавания, но и уменьшает количество вычислительных и расчетных операций. Поэтому исследование и разработка способов сегментации, повышающих эффективность голосовой идентификации маркеров психогенных состояний, являются весьма актуальными задачами.

На сегодня существует много различных подходов к сегментации сигнал/пауза, которые успешно решают проблему эффективного обнаружения границ речевого сигнала. Среди наиболее известных способов сегментации можно выделить следующие:

- способы, основанные на применении значений кратковременной энергии (Short-time Energy, STE) [1, 2];

- способы, основанные на применении значений информационной энтропии (Information Entropy, IE) [3, 4];

- способы, основанные на применении мел-частотных кепстральных коэффициентов (Mel-frequency cepstrum coefficients, MFCC) [5, 6];

- способы, основанные на статических моделях: скрытых марковских моделях (Hidden Markov Model, HMM), моделях нейронных сетей (МНС, Neural Network model, NMM), моделях гауссовой смеси (Gaussian mixture model, GMM) [7, 8]; расстоянии Малаханобиса [9];

- способы, основанные на вейвлет-преобразовании (Wavelet Transform, WT) [10, 11].

Наиболее известными и получившими широкое практическое применение являются: способ на основе совместного использования STE и ZCR [1] и способ с использованием статистических свойств фонового шума и одномерного расстояния Махаланобиса [9].

Проведенные авторские исследования [12] упомянутых выше способов сегментации выявили низкую эффективность в условиях зашумленной обстановки. При отношении сигнал/шум (Signal-to-Noise Ratio, SNR) 10 дБ коэффициент действительного обнаружения (Detection rate, DR) у способа на основе STE + ZCR равен всего лишь 72,1 %, а у способа на основе одномерного расстояния Махаланобиса - 81,4 %.

Эффективность сегментации речевого сигнала зависит от корректной его обработки, которая определяется точностью измерения амплитудных, временных, частотных и энергетических параметров. Перспективным является применение адаптивных технологий обработки сигналов. В данной

статье авторами предлагается способ сегментации сигнал/пауза с использованием:

- метода адаптивного анализа на основе методов комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ) [13];

- правила разграничения на основе физиологического аспекта формирования речи и функционала слухового аппарата человека [14].

Статья является продолжением ранее опубликованных работ авторов [15-19].

1. Описание разработанного способа сегментации сигнал/пауза

На основе обзора известных способов сегментации, использующих методы адаптивного анализа, авторами разработан способ, блок-схема которого представлена на рис. 1. Суть способа заключается в сегментации речевого сигнала на кратковременные фрагменты для адаптивного анализа методом КМДЭМ с последующим формированием адаптивного порога на основе физиологического аспекта формирования речи, функционала слухового аппарата человека и оценки энергии эмпирических мод (ЭМ). Рассмотрим подробнее основные этапы работы предложенного способа.

В представленном способе ввод речевого сигнала x(n) (п - дискретный отсчет времени, 0 < п < Л; N - количество дискретных отсчетов в сигнале) выполняется со следующими параметрами: длительность записи - не более 5000 мс, частота дискретизации 8000 Гц, разрядность квантования 16 бит.

Сегментация речевого сигнала на фрагменты осуществляется по следующим формулам:

5 = (1)

Ь

где х(п) - речевой сигнал; 5 - количество фрагментов в речевом сигнале; Ь - количество дискретных отсчетов в одном фрагменте;

X,+1(п) = X ((5 • Ь) +1;(, + 1) • Ь), (2)

где х,+1(п) - фрагмент речевого сигнала; п - дискретный отсчет времени, 5 = (0, 1, 2, ..., 5 - 1) - номер фрагмента.

После завершения сегментации речевой сигнал представляет собой набор фрагментов, где 5 - номер фрагмента, 5 - общее количество фрагментов. Далее устанавливается номер фрагмента, так как дальнейшая работа способа осуществляется с каждым фрагментом в отдельности.

Важным условием сегментации сигналов является возможность формирования адаптивного базиса, функционально зависимого от содержания самого сигнала. Данный подход реализуется посредством КМДЭМ, который представляет собой адаптивную технологию разложения сигнала на ЭМ. Особенностью КМДЭМ является то, что базисные функции, используемые для разложения, извлекаются из самого речевого сигнала. При разложении с помощью КМДЭМ сигнал не задается заранее, ЭМ вычисляются в процессе отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры исследуемого речевого сигнала.

Рис. 1. Блок-схема способа сегментации

В результате КМДЭМ из каждого фрагмента речевого сигнала хДп) извлекается конечное число ЭМ:

I -1

s(n) = Я IMFsi (n): i=1

(3)

где 1МГ51(п) - полученные ЭМ; 7 = 1, 2, ..., I- номер ЭМ.

В отличие от других методов декомпозиции, особенностью КМДЭМ является добавление к сигналу белого шума с прямыми и инверсными значением [13]:

(4)

где м>у (п) - добавленный белый шум; у у (п) - сумма зашумленного фраг-

*

мента речевого сигнала х5 (п) с белым шумом; у у (п) - сумма зашумленного фрагмента речевого сигнала х3 (п) с инверсным значением амплитуды белого шума;

Js, j (n) "1 1 ] * Xs (n)

Js, j (n)* 1 -1 Wj (n)

Я IMFs, ji (n)

(п)

j=l

J

(5)

где 1МЕ3 р (п) - ЭМ, полученные при вариантах декомпозиции сигналов

*

ys у(п) и ys у(п) ,у = 1, 2, ..., J- количество циклов декомпозиций.

После получения ЭМ устанавливается номер моды фрагмента, так как дальнейшая работа способа осуществляется с каждой ЭМ в отдельности.

Изменение амплитуды сигнала во времени называется амплитудным распределением. Амплитуда невокализованных участков сигнала или участков пауз меньше амплитуды вокализованных участков. Изменение амплитуды сигнала описывается посредством функции кратковременной энергии. Вычисление энергии ЭМ фрагмента осуществляется по формуле

N

Es,i = ЯIMFsi («)] ,

n=1

(6)

где { - энергия ЭМ фрагмента речевого сигнала.

Человеческий слуховой аппарат фиксирует речь нелинейно, различия между энергиями участков полезного сигнала и паузы должны быть более чем в два раза, чтобы человек фиксировал изменение амплитуды. Для увеличения амплитуды необходимо увеличить энергию в 8 раз [20]. Для сжатия амплитуды сигнала при большом динамическом диапазоне [20] применяют логарифмирование энергии фрагментов, максимально приближая работу способа к функционалу слухового аппарата человека:

x

N

LEsi — log2 НIMFs i (n)]2

(7)

n—1

где - логарифм энергии ЭМ фрагмента речевого сигнала.

После завершения анализа первой ЭМ осуществляется сравнение номера ЭМ с их конечным числом ЭМ (7 == I) (блок 8). При невыполнении данного условия устанавливается следующий по счету номер ЭМ (7 = 7 + 1) (блок 9) и выполняется переход к блоку 7 для анализа следующей ЭМ. Если условие выполняется, то осуществляется переход к следующему блоку 10.

После завершения анализа ЭМ проводится сравнение номера фрагмента речевого сигнала с их конечным числом (я == 5) (блок 10). При невыполнении условий устанавливается следующий по счету номер фрагмента (я = я + 1) (блок 12) и выполняется переход к блоку 5 для анализа последующего фрагмента. Если условие выполняется, то осуществляется переход к следующему блоку 11.

В соответствии с физиологическими особенностями формирования речевого аппарата человека перед произношением человек делает паузу -не менее 200 мс. Этот участок не содержит речи и соответствует тишине с фоновым шумом, т.е. значения логарифмов энергии ЭМ фрагментов первых 200 мс (10 фрагментов по 160 отсчетов при частоте дискретизации 8000 Гц) будут соответствовать значениям паузы. Используя усредненные значения логарифмов энергии ЭМ, можно сформировать пороговые значения логарифмов энергии для обнаружения границы полезного сигнала и паузы. Определение пороговых значений логарифмов энергии ЭМ осуществляется по формуле

LE,

i,thres.

1 9 —10 So ^

s—0

IMFs i,

(8)

где 7 = 1, 2, ..., I- количество ЭМ; я = 0,1,..., 9 - первые 10 фрагментов, соответствующие тишине.

На рис. 2 представлена графическая интерпретация определения пороговых значений логарифмов энергии для восьми ЭМ первых десяти фрагментов.

Рис. 2. Графическая интерпретация примера определения пороговых значений логарифмов энергии (точками отмечены значения логарифмов энергии восьми ЭМ для первых десяти фрагментов, кругами отмечены пороговые значения логарифмов энергии восьми ЭМ)

После определения пороговых значений логарифмов энергии для выполнения пороговой обработки всех фрагментов сигнала значение номера фрагмента устанавливается равным единице, 5 = 1.

Далее выполняется сравнение значений логарифмов энергии ЭМ остальных фрагментов с пороговыми значениями ЬЕ5 ¡мр1 > ЬЕмр1 мге5 . В случае если условие выполняется, то фрагмент считается полезным сигналом я = $5щПа1, а если условие не выполняется, то фрагмент считается паузой

5 = 5яПепсе .

На рис. 3 представлена графическая интерпретация проверки условия ЬЕ5 ^ ЬЕмр1 жге5 . Для полезного фрагмента сигнала необходимо выполнение условия: число значений логарифмов энергии должно быть больше или равно половине общего числа значений.

Рис. 3. Графическая интерпретация примера проверки условия ЬЕ5,1ММ > ЬЕ1Мр,Лге!; (кругами отмечены пороговые значения логарифмов энергии восьми ЭМ, ромбами отмечены значения логарифмов энергии восьми ЭМ фрагмента полезного сигнала)

На рис. 3 все значения логарифмов энергии восьми ЭМ превышают пороговые значения логарифмов энергии, следовательно, фрагмент является полезными сигналом.

После пороговой обработки осуществляется проверка номера фрагмента с их конечным числом (5 == S) (блок 17). В случае если условие не выполняется, то устанавливается следующий по счету номер фрагмента (5 = s + 1) (блок 18) и осуществляется переход к блоку 14 для анализа следующего фрагмента. Если условие выполняется, то осуществляется переход к следующему блоку 19.

После пороговой обработки и определения статуса всех фрагментов фрагменты пауз ssiience в дальнейшем не используются. В итоге на выходе сегментации формируется речевой сигнал без пауз.

2. Исследование разработанного способа сегментации сигнал/пауза

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В качестве критерия эффективности разработанного способа применялся коэффициент действительных обнаружений (Detection rate, DR) [13], представляющий собой безразмерную величину, равную отношению правильно обнаруженных фрагментов сигнала к общему числу фрагментов:

DR

speech

S

'-'cor.speech

S + S

^cor.speech ' °n.cor.speech

•100%,

(9)

где ВСог.хреесн - действительный фрагмент исследуемого речевого сигнала, Зп.сог.ярееек - мнимый фрагмент исследуемого речевого сигнала.

Для исследования разработанного способа была сформирована выборка из 50 сигналов, представляющая собой односложные и многосложные словосочетания. Далее к каждому сигналу добавлялся белый шум. Изменяя уровень шума, получили сигналы со значениями отношения сигнал/шум (10-35) дБ.

Результаты исследования разработанного способа сравнивались с известными способами сегментации (табл. 1):

- способы на основе БТЕ и 2СК;

- способы на основе 1Е;

- способы на основе МЕСС.

На рис. 4 представлены осциллограммы примера, иллюстрирующего результаты работы способа сегментации.

Таблица 1

Сравнительный анализ результатов

Параметр входного сигнала SNRin, дБ DRspeech-> %

STE STE+ZCR IE MFCC Разработанный способ

10 66,3 67,1 73,2 76,2 71,3

15 71,5 74,9 80,5 81,4 84,3

20 77,9 79,3 82,1 84,5 87,6

25 80,2 82,6 87,4 88,1 92,5

30 85,4 88,3 90,3 90,7 94,3

35 88,3 90,2 92,4 92,1 95,2

a) Segmentation result DRspeech = 71,3 % at SNRin = 10 dB

б) Segmentation result DRspeech = 84,3 % at SNRin = 15 dB

Рис. 4. Осциллограммы, иллюстрирующие результат работы узла сегментации: серый цвет - участки пауз, синий цвет - участки сигнала

6000 I 8000 I 10000 Discrete timing

12000

14000

16000

е) Segmentation result DRspeech = 87,6 % at SNRim= 20 dB

-1-1-1-г

6000 I 8000 I I 10000 Discrete timing

14000

16000

г) Segmentation result BR^ech = 92,5 % at SNRin= 25 dB

14000 I 16000

d) Segmentation result DRspeech = 94,3 % at SNRin= 30 dB

6000 I I 8000 I I 10000 Discrete timing

16000

е) Segmentation result DRspeech = 95,2 % at SNRin = 35 dB Рис. 4. Окончание

Как видно из результатов исследования, разработанный способ обеспечивает следующие результаты сегментации:

- на 9 % лучше в сравнении с методом БТЕ;

- на 9 % лучше в сравнении с методом БТЕ+ХСЯ;

- на 5 % лучше в сравнении с методом ¡Е;

- на 4 % лучше в сравнении с методом МРСС.

Таким образом, использование разработанного способа позволит значительно повысить эффективность сегментации сигнал/пауза и точность распознавания речевых команд.

Заключение

Разработан и исследован способ сегментации сигнал/пауза для систем оценки психогенных состояний. Представлены результаты работы алгоритма в сравнении с известными способами STE + ZCR, IE и MFCC. В соответствии с результатами представленный способ обеспечивает точность обнаружения сигнал/пауза до 6 %. Анализ результатов исследований позволяет сделать вывод, что представленный способ сегментации может быть применен в системах оценки психогенных состояний.

Библиографический список

1. Bachu, R. G. Separation of Voiced and Unvoiced Using Zero Crossing Rate and Energy of the Speech Signal / R. G. Bachu, S. Kopparthi, B. Adapa, B. D. Barkana // American Society for Engineering Education (ASEE) Zone Conference Proceedings. -Pittsburgh, USA, 2008. - P. 1-7.

2. Moattar, M. H. A simple but efficient real-time voice activity detection algorithm / M. H. Moattar, M. M. Homayounpour // EUSIPC0-2009 : 17-th European Signal Processing Conference, Glasgow, Scotland, August 24-28, 2009. - Glasgow, Scotland, 2009. - P. 2549-2553.

3. Huaping, L. Speech endpoint detection based on improved adaptive band-partitioning spectral entropy / Liu HuaPing, Li Xin // J. System Simulation. - 2008. -P. 51-59.

4. Mattias, N. Entropy and Speech / N. Mattias // Sound and Image Processing Laboratory School of Electrical Engineering KTH (Royal Institute of Technology). - Stockholm, 2006. - 54 p.

5. Ma Jingxia Research on Noisy Voice Activity Detection Method [D]. - Yanshan : Yanshan University, 2007.

6. Jancovic, P. Estimation of Voicing-Character of Speech Spectra Based on Spectral Shape / P. Jancovic, M. Kokuer // IEEE Signal Processing Letters. - 2006. - Vol. 14, iss. 1. - P. 66-69.

7. Ahmadi, S. Cepstrum-Based Pitch Detection Using a New Statistical V/UV Classification Algorithm / S. Ahmadi, A.S. Spanias // IEEE Transactions on Speech and Audio Processing. - 2002. - Vol. 7, iss. 3. - P. 333-338.

8. Shah, J. K. Robust Voiced/Unvoiced Classification Using Novel Features and Gaussian Mixture Model / J. K. Shah, A. N. Iyer, B. Y. Smolenski, R. E. Yantorno // IEEE International Conference on Acoustics, Speech, and Signal Processin. - Philadelphia, 2004. - P. 17-21.

9. Saha, G. A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications / G. Saha, Ch. Sandipan, S. Suman // Proceedings of the NCC 2005. - 2005. - Jan. - P. 5.

10. Rahman, M. S. Pitch Determination Using Autocorrelation Function in Spectral Domain / M. S. Rahman, T. Shimamura // Eleventh Annual Conference of the International Speech Communication Association.- Makuhar, 2010. - P. 653-656.

11. Juang, C. F. Speech detection in noisy environments by wavelet energy-based recurrent neural fuzzy network / Juang Chia Feng, Cheng Chun Nan // Expert Systems with Applications. - 2009. - Vol. 1. - P. 321-332.

12. Noise-Robust Algorithm for "Speech/Pause" Segmentation in Diagnostic Systems of Psychogenic States / A. K. Alimuradov, A. Yu. Tychkov, P. P. Churakov, Yu. S. Kvit-

ka, A. P. Zaretskiy, G. V. Vishnevskaya // 2016 International Conference on Engineering and Telecommunication (EnT), Nov. 29-30, 2016. - Moscow, Russia, 2016. -P. 3-6. DOI: 10.1109/EnT.2016.009.

13. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, and N. E. Huang // Advances in Adaptive Data Analysis. - 2010. - Vol. 2, № 2. - P. 135-156. DOI: 10.1142/ S1793536910000422.

14. Sarma, V. Studies on pattern recognition approach to voiced-unvoiced-silence classification / V. Sarma, D. Venugopal // ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. - 1978. - Vol. 3, Apr. - P. 1-4.

15. Improvement of the Efficiency of Voice Control Based on the Complementary Ensemble Empirical Mode Decomposition / A. K. Alimuradov, P. P. Churakov, A. Yu. Ty-chkov, I. I. Artemov, A. V. Kuzmin // International Siberian Conference on Control and Communications (SIBCON 2016), May 12-14, 2016. - Moscow, Russia, 2016. - P. 6. DOI: 10.1109/SIBC0N.2016.7491754.

16. Alimuradov, A. K. Methods to Improve the Efficiency of Recognition of Speech Signals in Voice Control Systems / A. K. Alimuradov, F. Sh. Murtazov // Measurement techniques. - 2016. - Vol. 58, iss. 10. - P. 1107-1112. DOI 10.1007/s11018-015-0850-8.

17. Tychkov, A. Yu. Program Implementation of an Algorithm for Recognition of Speech Signals in the Labview Graphics Programming Environment / A. Yu. Tychkov, A. K. Alimuradov, M. V. Frantsuzov, P. P. Churakov // Measurement techniques. -2015. - Vol. 58, iss. 9. - P. 965-969. DOI 10.1007/s11018-015-0826-8.

18. Попов, Д. И. Оптимизация цифровых систем обработки сигналов / Д. И. Попов // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2017. - № 1 (41). - C. 96-105.

19. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Ра-бинер, Р. В. Шафер. - М. : Радио и связь, 1981. - 496 c.

20. Analysis of heart rate variability with temporary ventricular pacing / A. Kuleshov, A. Zaretskiy, A. Ilyin, A. Poteryakhina, A. Poteryakhin // Iranian Hear Journal. -2015. - Vol. 16, № 2. - P. 41-53.

References

1. Bachu R. G., Kopparthi S., Adapa B., Barkana B. D. American Society for Engineering Education (ASEE) Zone Conference Proceedings. Pittsburgh, USA, 2008, pp. 1-7.

2. Moattar M. H., Homayounpour M. M. EUSIPCO-2009: 17-th European Signal Processing Conference, Glasgow, Scotland, August 24-28, 2009. Glasgow, Scotland, 2009, pp. 2549-2553.

3. Huaping L., Xin Li J. System Simulation. 2008, pp. 51-59.

4. Mattias N. Sound and Image Processing Laboratory School of Electrical Engineering KTH (RoyalInstitute of Technology). Stockholm, 2006, 54 p.

5. Ma Jingxia Research on Noisy Voice Activity Detection Method [D]. Yanshan: Yanshan University, 2007.

6. Jancovic P., Kokuer M. IEEE Signal Processing Letters. 2006, vol. 14, iss. 1, pp. 6669.

7. Ahmadi S., Spanias A. S. IEEE Transactions on Speech and Audio Processing. 2002, vol. 7, iss. 3, pp. 333-338.

8. Shah J. K., Shah J. K., Iyer A. N., Smolenski B. Y., Yantorno R. E. IEEE International Conference on Acoustics, Speech, and Signal Processin. Philadelphia, 2004, pp. 17-21.

9. Saha G. A, Sandipan Ch., Suman S. Proceedings of the NCC 2005. 2005, Jan., p. 5.

10. Rahman M. S., Shimamura T. Eleventh Annual Conference of the International Speech Communication Association. Makuhar, 2010, pp. 653-656.

11. Juang C. F., Cheng Chun Nan Expert Systems with Applications. 2009, vol. 1, pp. 321332.

12. Alimuradov A. K., Tychkov A. Yu., Churakov P. P., Kvitka Yu. S., Zaretskiy A. P., Vishnevskaya G. V. 2016 International Conference on Engineering and Telecommunication (EnT), Nov. 29-30, 2016. Moscow, Russia, 2016, pp. 3-6. DOI: 10.1109/EnT.2016.009.

13. Yeh J.-R., Shieh J.-S., Huang N. E. Advances in Adaptive Data Analysis. 2010, vol. 2, no. 2, pp. 135-156. DOI: 10.1142/S1793536910000422.

14. Sarma V., Venugopal D. ICASSP '78. IEEE International Conference on Acoustics, Speech, and Signal Processing. 1978, vol. 3, Apr., pp. 1-4.

15. Alimuradov A. K., Churakov P. P., Tychkov A. Yu., Artemov I. I., Kuzmin A. V. International Siberian Conference on Control and Communications (SIBCON 2016), May 12-14, 2016 [ ]. Moscow, Russia, 2016, p. 6. DOI: 10.1109/SIBC0N.2016.7491754.

16. Alimuradov A. K., Murtazov F. Sh. Measurement techniques. 2016, vol. 58, iss. 10, pp. 1107-1112. DOI 10.1007/s11018-015-0850-8.

17. Tychkov A. Yu., Alimuradov A. K., Frantsuzov M. V., Churakov P. P. Measurement techniques. 2015, vol. 58, iss. 9, pp. 965-969. DOI 10.1007/s11018-015-0826-8.

18. Popov D. I. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki [University proceedings. Volga region. Engineering sciences]. 2017, no. 1 (41), pp. 96-105.

19. Rabiner L. R., Shafer R. V. Tsifrovaya obrabotka rechevykh signalov: per. s angl. [Digital speech signal protection: translation from English]. Moscow: Radio i svyaz', 1981, 496 p.

20. Kuleshov A., Zaretskiy A., Ilyin A., Poteryakhina A., Poteryakhin A. Iranian Hear Journal. 2015, vol. 16, no. 2, pp. 41-53.

Алимурадов Алан Казанферович

кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Тычков Александр Юрьевич кандидат технических наук, заместитель директора, Научно -исследовательский институт фундаментальных и прикладных исследований, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Чураков Петр Павлович

доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Alimuradov Alan Kazanferovich Candidate of engineering sciences, Director of the Student Research and Production Business-Incubator, Penza State University (40 Krasnaya street, Penza, Russia)

Tychkov Aleksandr Yur'evich Candidate of engineering sciences, deputy director, Research Institute of Fundamental and Applied Research, Penza State University (40 Krasnaya street, Penza, Russia)

Churakov Petr Pavlovich Doctor of engineering sciences, professor, sub-department of information measuring technology and metrology, Penza State University (40 Krasnaya street, Penza, Russia)

Торгашин Сергей Иванович кандидат технических наук, заведующий кафедрой ракетно-космического и авиационного приборостроения, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Torgashin Sergey Ivanovich Candidate of engineering sciences, head of sub-department of rocket-space and aircraft instrument engineering, Penza State University (40 Krasnaya street, Penza, Russia)

УДК 616.89 Алимурадов, А. К.

Способ сегментации речевого сигнала для систем оценки психогенных состояний / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков, С. И. Тор гашин // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2017. - № 3 (43). - С. 81-93. БОТ 10.21685/2072-3059-2017-3-7

i Надоели баннеры? Вы всегда можете отключить рекламу.