Способ получения сигнала в искусственном голосовом аппарате

Мукановская И.В.; Дацок О.М.; Величко О.Н.

УДК 616-71+004.93 Б01: 10.20998/2411-0558.2017.21.11

И.В. МУКАНОВСКАЯ, студ., Харьковский национальный университет радиоэлектроники,

О.М. ДАЦОК, канд. техн. наук, доц., Харьковский национальный университет радиоэлектроники, О.Н. ВЕЛИЧКО, канд. техн. наук, доц., Харьковский национальный университет радиоэлектроники

СПОСОБ ПОЛУЧЕНИЯ СИГНАЛА В ИСКУССТВЕННОМ ГОЛОСОВОМ АППАРАТЕ

В работе получила дальнейшее развитие модель искусственного голосового аппарата, который базируется на применении электромиографического сигнала поверхностных мышц шеи. Предлагается алгоритм анализа электромиографического сигнала поверхностных мышц шеи для определения моментов переходных сегментов речи. В работе проанализированы математические модели, которые наиболее точно описывают электромиографический и речевой сигналы. Представлены результаты работы предложенного алгоритма. Ил.: 2. Библиогр.: 11 назв.

Ключевые слова: искусственный голосовой аппарат; сигнал электромиографический; речевой сигнал; переходные сегменты речи.

Постановка проблемы и анализ последних исследоваий. По

данным ВОЗ, ежегодно рак гортани диагностируется у 1,3 млн. человек в мире. В большинстве случаях его определяют на последних стадиях, при которых прибегают к операции по удалению гортани (ларингоэктомии). Существуют различные способы реабилитации больных после операции, такие как обучение пищеводному голосу, голосовое протезирование и применение искусственных голосовых аппаратов. На сегодняшний день основным методом восстановления речи у пациентов после удаления гортани является применение искусственных голосовых аппаратов, так как данный метод не нуждается в проведении дополнительных операционных вмешательств и, в то же время, является достаточно эффективным [1]. Однако, современные искусственные голосовые аппараты имеют ряд недостатков, таких как низкое качество воспроизведения речи из-за наличия в их составе аппаратов вибраторов, которые заглушают речь, и низкая помехоустойчивость, так как динамики улавливают посторонние шумы, что требует постоянного включения/выключения аппарата в моменты речи Таким образом, существует необходимость разработки новых методов реконструкции голосовой функции, которые не будут включать элементы, являющиеся источниками помех и шумов.

В развитых странах проводится активная работа по разработке новых методов восстановления речевой функции у данной категории

пациентов [2]. В работе получила дальнейшее развитие модель искусственного голосового аппарата, который базируется на использовании электромиографического сигнала (ЭМГ), зарегистрированного с поверхностных мышц шеи пациента [3]. Мышечные волокна активизируются нервной системой, а наложенные электроды на поверхность кожи детектируют сокращения мышц. Полученный ЭМГ-сигнал в дальнейшем анализируется. Наибольший интерес представляет собой выделение переходных моментов (моментов активации) речи и их последующий анализ, что в значительной степени может повысить качество воспроизведения речи в составе искусственного голосового аппарата.

Рассмотрим существующие голосовые аппараты.

Голосообразующий аппарат - это прибор, восполняющий утраченные функции голоса вследствие операций по удалению гортани или другим причинам. На сегодняшний день существует большое разнообразие аппаратов, предлагаемых на рынке для таких пациентов.

Голосообразующий аппарат располагается в области шеи, а сигнал возбуждения передается через ее ткани, которые формируют звуковую волну в полости рта. Изменение объема и формы ротовой полости обусловливает формантную структуру сигнала возбуждения [4]. Иными словами, аппарат создает колебания мембраны, которые через шейно-подбородочную область ларингоэктомированного пациента передаются в полость рта и речевой артикуляцией преобразуется в звуки речи [5].

Данные аппараты имеют два основных недостатка: монотонность и неразборчивость воспроизводимой речи, что связано с постоянной основной частотой возбуждения сигнала [6], кроме этого, пользователь должен все время держать аппарат в руке, прислонив к шее, а также постоянно включать и выключать устройство.

Целью статьи является обоснование возможности формирования речевого сигнала в портативном искусственном голосовом аппарате на основе ЭМГ-сигнала, зарегистрированного с поверхностных мышц шеи пациента.

Для достижения цели необходимо проанализировать математические модели ЭМГ и речевого сигналов, синтезировать функциональную схему портативного искусственного голосового аппарата, сформулировать основные медицинские и технические требования к такому аппарату; предложить способ предварительной обработки сигнала.

Математическая модель сигнала. Выше упоминалось, что главным недостатком обычных систем восстановления голоса является необходимость постоянного контроля со стороны пользователем. Для его

устранения в структуре некоторых из них используется блок анализа ЭМГ с целью определения речевой деятельности.

Электромиография является наиболее распространенным неинвазивным методом, который применяется в медицинской диагностике для измерения потенциалов действия и их суперпозиции. Математическая модель, которая описывает необработанный ЭМГ-сигнал, представлена уравнением (1)

N-1

х(к) =2 Ь(г')е(к - г) + м>(к), (1)

г=0

где х(к) - ЭМГ в момент времени к; N - число двигающих единиц; к(г) - импульсный отклик; е(к ) - импульсы функций Дирака из отдельных подвижных единиц; г - время задержки каждого импульса; w(к)-нулевой средний аддитивный гауссовский шум.

Математическая модель (1) демонстрирует отклик системы и не описывает характеристики тканей [7].

Речевой сигнал является случайным нестационарным процессом, стохастическое описание которого в данный момент неизвестно. Для построения математической модели речевого сигнала в виде некой зависимости от времени был применен подход, основанный на выделении информационной и несущих компонент (теория модуляции). При аппроксимации спектральной плотности речевого сигнала набором постоянных составляющих получим соотношение (2).

5 =

*о,/ е БЬ/ е

Б,/ е

о; /онес + П°

гнес П1 . Нес П1

Л -Т; /1 + Т

гнес П1 . нес . П1 1 /1 + Т

(2)

где Б (w) - спектральная плотность; - постоянные составляющие,

I = 0,.., Ь ; П1 - ширина полосы частот; /нес - несущие частоты, / -частота; / (I = 0,1, • , Ь) - частоты.

Математическая модель речевого сигнала в виде детерминированной функции получена с использованием обратного преобразования Фурье от спектральной плотности.

L

U(t) = sin c(2pF¡t)cos(2p/Tct), (3)

l=0

где fiHec - несущие частоты; U¡ = S¡Пi = 2S¡F¡; sin c(x) = sin(x)/ x.

Из соотношения (3) следует, что математическая модель речевого сигнала является амплитудно-модулированным колебанием U (t) = U мод (t) х U нес (t), в котором возможно выделить

имод (t) = sin c (2%F¡t) - модулирующее колебание и

L

U^ (t) = ^Ul cos(2p/lHect) - несущее колебание.

l=0

Точное определение дискретных событий в ЭМГ-сигнале является важным вопросом в анализе двигательной системы. Несколько методов были предложены для определения моментов начала и конца активации мышц [8]. Наиболее распространенным является метод решения мотор-смотрового события из ЭМГ-сигналов с помощью визуального осмотра обученных наблюдателей. Пороговый метод, в котором сравнивают амплитуду ЭМГ с фиксированным порогом - это наиболее интуитивно понятный и распространенный компьютерный метод определения времени начала мышечной активности сокращения. Он базируется на сравнении необработанных сигналов и порогов, амплитуда которых зависит от значения средней мощности шума фона.

Таким образом, была предложена математическая модель, которая дает возможность описать необработанный ЭМГ-сигнал с помощью функции Дирака. Также была предложена математическая модель речевого сигнала, представленная в виде детерминированной функции с использованием обратного преобразования Фурье от спектральной плотности. В ходе анализа показано, что математическая модель речевого сигнала является амплитудно-модулированным колебанием.

Структурная схема портативного искусственного голосового аппарата. Предлагаемый искусственный голосовой аппарат базируется на использовании ЭМГ-сигнала, именно поэтому в структурную схему аппарата необходимо включить датчики, которые будут регистрировать мышечную активность пациента в области шеи. Зарегистрированный низкоамплитудный ЭМГ-сигнал поступает на вход инструментального усилителя [9].

В схему необходимо включить еще один блок, который будет увеличивать коэффициент ослабления синфазного сигнала, тем самым уменьшая помеху на входе системы. Затем сигнал поступает в блок обработки, где усиливается, фильтруется и разбивается на

положительные и отрицательные полуволны. Далее он подвергается однополупериодному выпрямлению и передается на два аналоговых входа микроконтроллера. Применение данного метода позволит добиться наиболее высокой разрешающей способности оцифрованного сигнала.

После аналогово-цифрового преобразования, значение отрицательной составляющей сигнала вычитается из положительной цифровым способом. В результате аналогово-цифрового преобразования ЭМГ-сигнал имеет теоретическое значение разрешающей способности 13 бит.

Учитывая все особенности обработки сигнала в искусственном голосовом аппарате, была предложена структурная схема искусственного голосового аппарата (рис. 1). В данной схеме от электродов, которые накладываются на шею пациента (1), поступает сигнал на вход инструментального усилителя (4). Схема подает сигнал обратно к телу пациента на электрически пассивную точку, для повышения коэффициента ослабления синфазной помехи. Этот метод применяется для регистрации любых электрографических сигналов.

I —* 4 •> 9

*-

2

3 б

Рис. 1. Структурная схема искусственного голосового аппарата

Фильтр нижних частот (7) выделяет сигнал с частотой / < 1 кГц. Выбор данной частоты обусловлен тем, что информативность ЭМГ-сигнала лежит в пределах до 1 кГц, а остальные составляющие, как правило, представляют собой шумы. Блок (9) усиливает поступающий на его входы сигнал. Коэффициент усиления возможно регулировать вручную с помощью резистора с переменным сопротивлением. Далее сигнал разбивается на составляющие: положительные и отрицательные (блоки 3 и 2). Отрицательные составляющие пропускаются через инвертор (5) и становятся положительными. Эти сигналы поступают на аналоговые входы микроконтроллера (6), после чего передаются на модуль формирования акустического сигнала (8). Применяя данный

129

метод, возможно добиться более высокой разрешающей способности (в битах) оцифрованного сигнала.

Обработку аналогового сигнала предложено реализовать с помощью микросхемы ADSP-2183, фирмы Analog Devices. Это однокристальный микрокомпьютер, оптимизированный для цифровой обработки сигнала (DSP), который имеет малые энергозатраты и габариты, низкое напряжение питания 3,3 В, что позволяет использовать его в составе портативных искусственных голосовых аппаратов.

Уровень амплитуды ЭМГ-сигнала, который регистрируется во время активации грудинно-ключично-сосцевидной мышцы (наибольшей в области шеи) лежит в диапазоне от 0 до 90 мкВ. Таким образом, это значение является максимально возможным для регистрируемых ЭМГ-сигналов в области шеи. Коэффициент усиления, который обеспечивает электронная схема аппарата, находится в диапазоне 700 - 800 единиц, а максимально возможное напряжение на выходе схемы составляет 10 мВ. Выбор входной частоты обусловливается частотой, на которой речевой сигнал является наиболее информативным.

Таким образом, предложенная структурная схема портативного искусственного голосового аппарата обеспечивает эффективную регистрацию ЭМГ-сигнала поверхностных мышц шеи пациента для последующей обработки и формирования речевого сигнала.

Особенности построения программного обеспечения аппарата.

На рис. 2 представлено демонстрационное окно программы, в котором реализованы функции для выбора отдельного участка сигнала и его анализа, подавления шума, определение моментов активации и сохранение обработанного сигнала [10].

В предложенной программе включены три возможные разновидности голоса для воспроизведения речи: "Мужской", "Женский" и "Детский", что учитывает гендерные различия людей и упрощает применение искусственных голосовых аппаратов в обществе. После выбора разновидности голоса программа автоматически подключает соответствующую библиотеку. Необходимо заранее создать библиотеки, которые в дальнейшем будут применяться в программе. Также возможно создание нескольких библиотек для каждой разновидности голоса, что позволит пациенту выбрать тембр голоса, который ему наиболее импонирует.

Предложенное программное обеспечение ориентировано на реализацию в стационарном исполнении (тестовый вариант).

Рис. 2. Главное окно программы

В процессе разработки портативного варианта требуют исследования вопросы, связанные с устранением помех, вызванных естественной мышечной активностью при ходьбе, движениях головы и пр., что накладывает дополнительные требования к системе фильтрации ЭМГ-сигнала [11].

Выводы. Проведен анализ принципов построения современных аппаратов для реконструкции голоса. Показана актуальность разработки голосовых аппаратов, базирующихся на современных методах снятия и обработки сигналов для эффективного воспроизведения речи пациента.

Обоснован способ восстановления речевой функции пациента на основе ЭМГ-сигнала, зарегистрированного с поверхностных мышц шеи пациента с последующей обработкой и определением времени начала мышечной активности.

Сформированы медицинские и технические требования для портативного искусственного голосового аппарата и определены значения основных технических параметров. Предложен принцип построения структурной схемы искусственного голосового аппарата.

Полученные данные являются важной частью исследований по дальнейшему совершенствованию алгоритмов обработки ЭМГ-сигнала голосовых мышц, а их применение обеспечит улучшение существующих и разработку новых портативных искусственных голосовых аппаратов.

Список литературы: 1. Бехин П. Анатомия человека. Системы и органы / П. Бехин. -М.: Харвест, 2007. - 38 с. 2. Andreassi J.L. Psychophysiology: Human Behavior and Physiological Response / J.L. Andreassi. - New York: Psychology Press, 2000. - 565 р. 3. Физиология человека / Под ред. В.М. Покровского, Г.Ф. Коротко. - 2-е изд. - М.: Медицина, 2003. - 565 с. 4. Конова Т.А. Онкология и терминальная помощь / Т.А. Конова, А.Д. Морозова. - М.: Феникс, 2006. - 320 с. 5. Патент № 2056811 РФ. Голосообразующий аппарат А.Г. Маточкин / Маточкин А.Г. - № 94045830/14, заяв. 22.12.94, опуб. 27.03.96 - 4 с. 6. Пузин С.Н. Обеспечение инвалидов голосообразующими аппаратами. [Электронный ресурс] // http://www.invalidnost.com /publ/sotrudnikam_sluzhby_mseh/obespechenie_invalidov_golosoobrazujushhimi_apparatami /3-1-0-45, 2007. 7. Basmajian J. V. Influence of Gender on the Activity of Agonist-Antagonist Muscles during Maximum Knee and Ankle Contractions / J.V. Basmajian, C.J. De Luca. // Journal of Biomedical Engineering and Technology. - 2016. - № 1. - Р. 1-6. 8. Department of Otolaryngology. Electrolaryngeal Speech / Eastern Virginia Medical School. Retrieved 14 March 2013. - 93 р. 9. Yakity Yak. Communication after laryngectomy / South East Coast Laryngectomy Support Groups (UK). March 9, 2011. Retrieved March 14, 2013. - P. 57-65. 10. Мукановская И.В. К вопросу моделирования речевого тракта человека. Материалы интернациональной конференции "Тараповские чтения" / И.В. Мукановская,

0.М. Дацок. - Харьков: - 2016 - С. 57. 11. Дацок О.М. Особенности обработки речевого сигнала в искусственных голосовых аппаратах. Тезисы докладов XXIV международной научно-технической конференции MicroCAD / О.М. Дацок, И.В. Мукановская. -Харьков: НТУ "ХШ" - 2016 - Т. 3. - С. 29.

References:

1. Behin, P. (2007), Human Anatomy. Systems and organs, Kharvest, Moskow, 38 p.

2. Andreassi, J.L. (2000), Psychophysiology: Human Behavior and Physiological Response, Psychology Press, New York, 565 p.

3. Pokrovskiy, V.M., and Korotko, G.F. (2003), Human Physiology, Medicine, Moscow, 565 p.

4. Konova, T.A., and Morozov, A.D. (2006), Oncology and terminal care, Feniks, Moscow, 320 p.

5. Matochkin, A.G. (1994), Voice Apparatus, Patent RF, №2056811, 4 p.

6. Puzin, S.N. (2007), The provision of voice services. [Electronic resource]//http://www.invalidnost.com/publ/sotrudnikam_sluzhby_mseh/obespechenie_invali dov_golosoobrazujushhimi_apparatami/3-1-0-45.

7. Basmajian, J.V., and De Luca, C.J. (2016), "Influence of Gender on the Activity of Agonist-Antagonist Muscles during Maximum Knee and Ankle Contractions", Journal of Biomedical Engineering and Technology, No. 1, pр. 1-6.

8. Department of Otolaryngology (2013), Electrolaryngeal Speech, Eastern Virginia Medical School, Retrieved 14, March 2013, 93 p.

9. Yakity Yak (2011), "Communication after laryngectomy", South East Coast Laryngectomy Support Groups (UK), 11 p.

10. Mukanovska I.V., and Datsok O.M. (2016), "Modeling of the vocal tract of the person",

Materials of the international conference "Tarapovskii read", Kharkov, 57 p.

11. Datsok O.M, and Mukanovska I.V. (2016), "Features of speech signal processing in an artificial voice apparatus". Abstracts XXIV international scientific conference MicroCAD, NTU "KhPI", Kharkov, p. 29.

Статью представил д-р техн. наук, проф. ХНУРЭ Аврунин О.Г.

Поступила (received) 31.03.2017

BiCHUK Нацiонапbного технiнного yHiBepcumemy "Xni", 2017, № 21 (1243)

Velychko Olga, PhD Tech., Associate Professor. Kharkiv National University of Radio Electronics Nauka Ave, 14, Kharkiv, Ukraine, 61166 Tel.: (057) 70-21-364, e-mail: olga.velychko@nure.ua ORCID ID:0000-0001-9202-8411

Datsok Oleh, PhD Tech., Associate Professor. Kharkiv National University of Radio Electronics Nauka Ave, 14, Kharkiv, Ukraine, 61166 Tel.: (057) 70-21-364, e-mail: oleh.datsok@nure.ua ORCID ID: 0000-0003-4489-3819

Mukanovska Iryna, master student.

Kharkiv National University of Radio Electronics

Nauka Ave, 14, Kharkiv, Ukraine, 61166

Tel.: (057) 70-21-364, e-mail: iryna. mukanovska@nure. ua

ORCID ID: 0000-0002-2719-9414

УДК 616-71+004.93

Cnoci6 одержання сигналу у штучному голосовому anapaTi / Мукановська 1.В., Дацок О.М., Величко О.М. // Вкник НТУ "ХШ". CepiH: 1нформатика та моделювання.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- Харк1в: НТУ "ХШ". - 2017. - № 21 (1243). - С. 125 - 134.

У робот отримала подальший розвиток модель штучного голосового апарату, який базуеться на використанш електромiографiчного сигналу поверхневих м'язiв шт. Пропонуеться алгоритм аналiзу електромiографiчного сигналу поверхневих м'язiв ши! для визначення моментiв перехiдних сегментiв мови. В робот проаналiзованi математичнi моделi, що найбiльш точно описують електромiографiчний та речовий сигнали. Представлеш результати роботи запропонованого алгоритму. 1л.: 2. Бiблiогр.: 11 назв.

Ключовi слова: апарат штучний голосовий; сигнал електромiографiчний; сегменти перехщнц активацп моменти.

УДК 616-71+004.93

Способ получения сигнала в искусственном голосовом аппарате / Мукановская И.В., Дацок О.М., Величко О.Н. // Вестник НТУ "ХПИ". Серия: Информатика и моделирование. - Харьков: НТУ "ХПИ". - 2017. - № 21 (1243). - С. 125

- 134.

В работе получила дальнейшее развитие модель искусственного голосового аппарата, который базируется на применении электромиографического сигнала поверхностных мышц шеи. Предлагается алгоритм анализа электромиографического сигнала поверхностных мышц шеи для определения моментов переходных сегментов речи. В работе проанализированы математические модели, которые наиболее точно описывают электромиографический и речевой сигналы. Представлены результаты работы предложенного алгоритма. Ил.: 2. Библиогр.: 11 назв.

Ключевые слова: искусственный голосовой аппарат; сигнал электромиографический; речевой сигнал; переходные сегменты речи.

UDC 616-71+004.93

The method of signal receiving in the artificial voice device / I.V. Mukanovska, O.M. Datsok, O.N. Velychko // Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 2017. - №. 21 (1243).

- P. 125 - 134.

The further development of the model of artificial voice apparat, which based on analysis electromyographic signal from neck was made in the arcticle. The algorithm of analysis electromyographic signal of the superficial neck muscles for detections of transitional speech segment had been proposed. The mathematical models, which are the most accurately describe the electromyographic and voice signals were analyzed. Results of proposed algorithm were shown. Figs.: 2. Refs.: 11 titles.

Keywords: artificial voice apparat; electromyographic signal; transitional speech segment.

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Мукановская И.В., Дацок О.М., Величко О.Н.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Мукановская И.В., Дацок О.М., Величко О.Н.

The method of signal receiving in the artificial voice device

Текст научной работы на тему «Способ получения сигнала в искусственном голосовом аппарате»