Научная статья на тему 'МОДЕЛИРОВАНИЕ МЕХАНИЗМОВ СЛУХОВОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ. ОБЗОР РАБОТ, ПРЕДСТАВЛЕННЫХ НА АРСО'

МОДЕЛИРОВАНИЕ МЕХАНИЗМОВ СЛУХОВОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ. ОБЗОР РАБОТ, ПРЕДСТАВЛЕННЫХ НА АРСО Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
47
11
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Столярова Эльвира Ивановна

В статье содержится обзор работ по функциональному моделированию механизмов слуховой обработки на периферии слуха, выполненных в лабораториях физиологии речи (зав. лаб. Чистович Л.А.) и биофизики речи (зав. лаб. Кожевников В.А.) Института физиологии им. И.П. Павлова РАН и представленных в докладах на семинарах АРСО 9-15. Приводится краткое описание научных представлений, соответствующих времени разработки моделей и послуживших основой для их создания, а также описание реально функционирующих устройств и программных комплексов. В изложении материалов докладов и в ссылках на добавочную литературу отражаются результаты использования созданных моделей для анализа речевых сигналов вплоть до настоящего времени.The article presents a review of works on functional modeling of mechanisms of acoustic processing on the periphery of the hearing system, carried out in the laboratories of speech physiology headed by Dr. L.A. Chistovich and speech biophysics headed by Dr. V.A. Kozhevnikov at Pavlov Institute of Physiology, The Russian Academy of Sciences. The results were presented in the reports at ARSO seminars from 9 through 15. A short description of scientific ideas that formed the basis of the modeling is given, practically functioning devices and software complexes resulting from this work are described. In this presentation of reports materials and references to additional literature, the results of state-of-the-art models utilization for the analysis of speech signals are.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Столярова Эльвира Ивановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МОДЕЛИРОВАНИЕ МЕХАНИЗМОВ СЛУХОВОЙ ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ. ОБЗОР РАБОТ, ПРЕДСТАВЛЕННЫХ НА АРСО»

Моделирование механизмов слуховой обработки речевых сигналов.

Обзор работ, представленных на АРСО

Столярова Э.И., старший научный сотрудник

В статье содержится обзор работ по функциональному моделированию механизмов слуховой обработки на периферии слуха, выполненных в лабораториях физиологии речи (зав. лаб. Чистович Л.А.) и биофизики речи (зав. лаб. Кожевников В.А.) Института физиологии им. И.П. Павлова РАН и представленных в докладах на семинарах АРСО 9-15. Приводится краткое описание научных представлений, соответствующих времени разработки моделей и послуживших основой для их создания, а также описание реально функционирующих устройств и программных комплексов. В изложении материалов докладов и в ссылках на добавочную литературу отражаются результаты использования созданных моделей для анализа речевых сигналов вплоть до настоящего времени.

The article presents a review of works on functional modeling of mechanisms of acoustic processing on the periphery of the hearing system, carried out in the laboratories of speech physiology headed by Dr. L.A.Chistovich and speech biophysics headed by Dr. V.A.Kozhevnikov at Pavlov Institute of Physiology, The Russian Academy of Sciences. The results were presented in the reports at ARSO seminars from 9 through 15. A short description of scientific ideas that formed the basis of the modeling is given, practically functioning devices and software complexes resulting from this work are described. In this presentation of reports materials and references to additional literature, the results of state-of-the-art models utilization for the analysis of speech signals are.

31

32

Введение

В период с 1979 по 1989 год на семинарах АРСО сотрудниками Института физиологии им. И.П. Павлова РАН (лаборатории физиологии речи, биофизики речи, прикладной математики) регулярно представлялись доклады, посвя-щённые функциональному моделированию механизмов слуховой обработки речевых сигналов в рамках решения проблемы создания общей модели восприятия речи человеком [7].

В настоящей работе приводится ретроспективный обзор этих работ в контексте тех научных представлений, которые соответствовали времени представления материала и этапу развития данного направления. В тексте даются ссылки на опубликованные тезисы докладов (за исключением докладов на АРСО-9, не оформленных в своё время для напечатания); дополнительно указываются наиболее значимые публикации авторов по теме доклада (цифры курсивом в квадратных скобках).

Материал скомпонован в двух разделах: «Моделирование слухового спектрального анализа» и «Моделирование слуховой обработки амплитудных нерав-номерностей в сигнале». Также представлен ряд докладов, посвящённых поисковым работам по дальнейшему усовершенствованию параметров моделей спектрального анализа.

Моделирование слухового спектрального анализа

Первым законченным образцом модели слухового спектрального анализа явилось устройство, реализующее её линейный вариант. Все дальнейшие разработки использовали эту модель как базовую.

Этапы построения модели АРСО-10, 11, 12, 13, 15

Функциональная модель спектрального анализатора слуховой системы. Доклад на АРСО-10.1978 г. [2,3]

При создании модели были приняты во внимание следующие соображения:

• Сопоставление психоакустических данных с данными нейрофизиологических исследований показало, что основные свойства анализатора, определяемые с помощью психоакустических экспериментов, проявляются уже на уровне волокон слухового нерва. Поэтому задача функционального моделирования спектрального анализатора органа слуха могла быть сведена к задаче моделирования периферической части органа слуха от барабанной перепонки до уровня импульсации волокон слухового нерва.

• Учитывая, что модель предполагается использовать для анализа речевых сигналов, изменяющихся в сравнительно небольшом диапазоне интен-сивностей, было принято возможным ограничиться линейной моделью.

• При моделировании улитка рассматривалась в виде одномерной, линейной и неоднородной структуры, аналогом которой являлась неоднородная «длинная линия» с отводами. Значения частот звеньев связаны с их номером координатно-частотной зависимостью, аналогичной шкале мелов.

• Авторы отдают себе отчёт, что спектральные анализаторы, основанные на линейной модели периферического спектрального анализа, не могут полностью адекватно описать речевой сигнал, а могут рассматриваться только как первое приближение к тому, что происходит при анализе сигналов органом слуха.

Описание структуры модели

Модель включает в себя звено, воспроизводящее суммарную амплитудно-частотную характеристику системы среднего уха и базальной части улитки,

затем цепочку последовательно соединенных LC-фильтров второго порядка с резонансной частотой, понижающейся по мере возрастания номера звена (координаты), развязанных усилителями с коэффициентом усиления около 1. К выходу каждого звена цепочки подключён резонансный усилитель, обеспечивающий окончательное формирование («обострение») АЧХ в области максимума. Средние частоты каналов лежат в диапазоне от 30 до 9500 Гц. Ниже 800 Гц зависимость частоты максимума от номера канала является линейной, выше — логарифмической, соответствующей шкале мелов. Ширина полосы пропускания каналов на частотах ниже 800 Гц постоянна и составляет 100 Гц, т.е. добротность каналов различна, а каналы с более высокими частотами являются фильтрами с равной добротностью величиной около 6. Амплитудно-частотная характеристика каналов несимметрична. Спад в сторону высоких частот очень крутой — до 180 дБ на октаву, пропускание более высоких частот полностью отсутствует. Спад в сторону низких частот существенно меньший, имеется область неполного затухания, разница в уровнях пропускания на максимуме АЧХ и в области неполного затухания закономерно возрастает с повышением частоты канала. На рис. 1 представлено семейство амплитудно-частотных и фазо-частотных характеристик каналов модели анализатора.

Рис. 1. Семейство амплитудно-частотных (А) и фазо-частотных (Б) характеристик каналов модели периферического спектрального анализатора. По оси абсцисс — частота в кГц; по оси ординат: А — относительная амплитуда выходного сигнала в дБ, Б — фазовый сдвиг в рад.

Время реакции каналов модели на ступенчатое возмущение убывает по мере увеличения частоты максимума АЧХ (для канала с частотой 550 Гц — 4 мс, 1000 Гц — 2 мс, 2000 Гц и выше — доли мс). Временные разрешающие возможности модели при анализе сигналов с быстро меняющимся спектром были продемонстрированы в докладе на этом же АРСО-10 [4].

Реально действующая аналоговая модель линейного анализатора, выполненная в виде многоканального прибора, была представлена в докладе на АРСО-11, 1980 г. [5, 6].

Её появление впервые дало возможность изучения преобразований речевого сигнала на периферии слуха. В отсутствие многоканального параллельного регистратора для по-

33

лучения изображений выходных сигналов модели — «слуховых спектрограмм» — использовалось оригинальное устройство, разработанное под руководством В.А. Кожевникова (фото на рис. 2.).

34

Рис.2. В.А. Кожевников демонстрирует устройство для регистрации «слуховых динамических спектрограмм»

Оно включало в себя магнитофон с вращающейся магнитной головкой, фоторегистратор и электронный коммутатор, последовательно подключающий выходы анализатора к регистратору [7]. В качестве исследуемого речевого материала был использован трёхминутный текст, слитно произнесённый мужчиной (предоставлен кафедрой экспериментальной фонетики Ленинградского государственного университета). Образцом для сравнения служили сонограммы, получаемые в технических анализаторах «Видимая речь». Показано, что в области частот ниже 600 Гц спектры гласных звуков изображаются моделью более подробно. На слуховых спектрограммах хорошо прослеживаются амплитудные изменения частотных составляющих сигнала, что облегчает выделение и оценку особенностей сонорных согласных. По изображениям спектров шумовых и коротких взрывных согласных легко определяется ширина полос шума и спектральные максимумы. В качестве оценки временных свойств модели были зарегистрированы её реакции на короткие паузы в шумовых и тональных сигналах. Было показано, что на спектрограммах сохраняются изображения пауз длительностью 2 мс, что соответствует минимальным паузам, воспринимаемым человеком. Все быстрые изменения речевого сигнала типа импульсов взрывов и коротких пауз находят чёткое отражение, особенно в выходах каналов высокочастотной области. Временная структура изображения в виде типичной вертикальной полосатости отражает факт работы голосовых складок на участках звонких звуков. Представленная на слуховых спектрограммах информация позволила визуально выделить различные типы звуков и границы звукосочетаний. Примеры слуховых динамических спектрограмм приведены на рис. 4, 7.

Моделирование нелинейных эффектов

При построении моделей периферического слуха основное внимание было уделено изучению и моделированию тех нелинейных явлений, которые бы обеспечивали увеличение контрастности по оси частот (двухтоновое подавление) и времени (периферическая адаптация) на пространственно-временном изображении сигнала на выходе линейного анализатора.

Функциональная модель эффекта двухтонового подавления (ДТП)

Модель, воспроизводящая эффект двухтонового подавления, была представлена в докладе на АРСО-11 [8, 9]. Авторами были продемонстрированы основные проявления эффекта: сужение области частот, в которой наблюдается ответ на воздействие сигнала, состоящего из одной гармонической составляющей («обострение» характеристик); образование области подавления ответа при добавлении второй частотной составляющей со стороны высоких частот; малая инерционность. Модель была реализована в аналоговом виде в виде многоканального устройства, подключаемого к выходам линейной модели слухового спектрального анализатора.

Рис. 3. Блок-схема функциональной модели двухтонового подавления

Для подключения каждого канала схемы ДТП (рис. 3) выбираются соответствующие пары координат анализатора (1), обладающие тем свойством, что при подаче на вход синусоидального сигнала с частотой, равной характеристической для основной координаты выходной сигнал на дополнительной (более высокочастотной) координате будет иметь сдвиг 1800 по отношению к выходному сигналу на основной. Выходные сигналы с этих координат, предварительно детектированные (2), поступают на вход разностной схемы (3): на положительный вход — с основной координаты, на отрицательный — со вспомогательной. Выходной сигнал разностной схемы подвергается сглаживанию с малой постоянной времени (4) и повторному детектированию (5). В результате указанных операций реализуется обострение частотных характеристик анализатора и эффект взаимного подавления частотных компонент сложного сигнала. На рис. 4 показаны примеры изображений речевых сигналов на выходе линейной части модели и блока двухто-нового подавления.

А

Рис. 4 (А). Слуховая динамическая спектрограмма на выходе линейной части анализатора и на выходе модели ДТП

35

В

A. Фраза «Как бабуся ляжет на с ...».

B. Слово «какой»

Рис. 4 (В). Слуховая динамическая спектрограмма на выходе линейной части анализатора и на выходе модели ДТП

Модель кратковременной периферической адаптации

Путём математического моделирования были реализованы модели, условно обозначаемые как «с переменным порогом» и «с переменным коэффициентом усиления» [7]. Они обе обеспечивали качественные проявления адаптации: уменьшение ответа на протяжении постоянного по амплитуде стимула, уменьшение ответа на тон, предъявляемый вскоре после тест-сигнала. На этапе аналогового воплощения модели была выбрана, из соображений простоты реализации, модель «с переменным порогом», в которой экспоненциальное уменьшение выходного сигнала в ответ на стимул постоянной интенсивности получается в результате вычитания сглаженного сигнала из исходного. В дальнейшем была разработана более адекватная появившимся электрофизиологическим данным «многослойная резервуарная модель», включённая в состав программного комплекса (см. ниже).

В докладе на АРСО-12 [10, 77] содержалось описание исследовательской аналоговой установки, в состав которой входили модельные блоки линейного спектрального анализатора, двухтонового подавления и кратковременной периферической адаптации, а также система регистрации выходных сигналов моделей и устройство, позволяющее получать спектральный срез в заданный момент времени или два спектральных среза на одной реализации сигнала с выбором расстояния между ними в масштабе дБ.

36

Рис. 5. Исследовательская установка для анализа речевых сигналов: 1 — блоки спектрального анализатора;2 — электронный коммутатор;3 — блок спектральных срезов; 4 — регистрирующее устройство (магнитофон с вращающейся головкой и фотоблок); 5 — блок обработки огибающей в частотных каналах спектрального анализатора

Были обобщены результаты анализа на этой установке разнообразного звукового материала (фразы естественной речи, слова, синтетические речеподобные сигналы, экспериментальные сигналы). В частности, было показано, что наличие нелинейных блоков существенно влияет на спектрально-временную картину получаемого изображения сигнала на выходе модели. Так, применение схемы ДТП увеличивало контрастность спектральной картины и упрощало задачу выделения частотной структуры сигнала, а применение схемы периферической адаптации подчёркивало фронты быстро меняющихся сигналов и увеличивало контрастность изображения по временной оси. Особенно явно полезные свойства включения нелинейных блоков модели проявлялись при анализе сигналов в шумах.

Работы, представленные в докладах на АРСО-13 [12,13], послужили основой для цифровой реализации модели слухового спектрального анализатора. В докладе [12] излагался разработанный автором алгоритм расчёта параметров цифрового рекуррентного фильтра по заданному аналоговому фильтру — прототипу. Авторы доклада [13] представили многослойную резервуарную модель периферической адаптации, наиболее полно соответствующую появившимся электрофизиологическим данным.

Законченный вариант программного комплекса для исследования речевых сигналов был представлен в докладе на АРСО-15 [14]. Использовался язык программирования ФОР-ТРАН-4 на ЭВМ-М4030. В состав комплекса вошли программы, воспроизводящие результаты обработки звукового сигнала на периферии слуха (линейный спектральный анализатор, двухтоновое подавление, периферическая адаптация); программы, воспроизводящие результаты слуховой обработки на более высоких уровнях (обработка огибающих в частотных каналах); программы для тестирования моделей и изображения результатов их работы в виде распечаток на АЦПУ (спектральные срезы, «видимая речь», отклики фильтров огибающей в частотных каналах, «on»- и «off»- метки на выходе пороговых схем откликов фильтров огибающих, суммирование одноимённых меток в каждый момент времени для заданного числа каналов).

Было создано два варианта анализатора: для частоты дискретизации 20 кГц (99 каналов, диапазон частот от 50 Гц до 5200 Гц) и для частоты 40 кГц (120 каналов в диапазоне 50-9550 Гц). Длительность анализируемого отрезка сигнала была ограничена 40 тыс. дискретных отсчётов по времени. В докладе были приведены примеры использования данного комплекса для анализа речевых и экспериментальных сигналов.

Поисковые работы, относящиеся к теме слухового анализатора

Наряду с уже реализованными моделями в виде законченных установок, не прекращалась исследовательская работа по изучению механизмов слухового спектрального анализа и их моделированию. Это нашло своё отражение и в содержании ряда докладов.

На АРСО-11: сравнительный анализ различных вариантов моделирования, наиболее точно воспроизводящих амплитудно-частотные характеристики улитки в районе максимума АЧХ [15]; анализ применимости психоакустических методов, базирующихся на эффектах маскировки, для исследования первичного слухового описания сложных сигналов [16].

На АРСО-13: сравнительный анализ пассивных моделей улитки и обзор физиологических данных, свидетельствующих о наличии на периферии слуха активного элемента — наружных волосковых клеток, обеспечивающих усиление колебаний базилярной мембраны [17, 18].

На АРСО-14: моделирование активных механизмов формирования частотно-избирательных свойств слуха в широком диапазоне интенсивностей [19] и моделирование эффекта кратковременной слуховой адаптации как следствия этого процесса [20].

37

Моделирование слуховой обработки амплитудных

изменений в сигнале

Параллельно с созданием модели слухового спектрального анализатора велись работы по исследованию и моделированию следующих уровней слуховой обработки, связанных со слуховым выделением амплитудных неравномер-ностей в сложном звуковом сигнале. Первоначально предполагалось, что основной функцией этого механизма является только обеспечение сегментации звукового потока. Однако по мере накопления экспериментальных данных и исследований была показана значительная роль распределения амплитудных неравномерностей огибающих сигналов в частотных каналах для фонемной идентификации сигналов с быстро меняющимся спектром. (Подробнее см. статью В.В. Люблинской в настоящем сборнике. — Прим. ред.)

АРСО-9, 1976 г. В докладе Чистович Л.А. были обобщены психоакустические и нейрофизиологические данные о слуховых механизмах выделения амплитудных неравномерностей в звуковом сигнале, которые далее послужили основой модели.

АРСО-10, 1978 г. Разработана структура модели механизмов обработки огибающей в частотном канале, осуществлена её реализация в аналоговом виде.

АРСО-15, 1989 г. В рамках программного комплекса реализована полная модель выделения амплитудных неравномерностей в сигнале, включающая в себя многоканальный спектральный анализатор и соответствующее число каналов обработки огибающей в частотном канале.

Слуховое выделение амплитудных неравномерностей в сложном звуковом сигнале

Основные положения (Чистович Л.А., АРСО-9, 1976 г.)

• Происходит слуховая обработка не суммарной огибающей исходного сигнала, а огибающих сигнала с выходов отдельных каналов слухового спектрального анализатора, связанных с достаточно коротким участком базилярной мембраны улитки.

• Функционально канал обработки огибающей в частотном канале соответствует преобразованиям сигналов в нейронах волокон слухового нерва.

• В каждом канале обработки огибающей происходит нелинейное преобразование амплитуды огибающей типа логарифмирования, причём на припороговых уровнях характеристика линейна, затем осуществляется низкочастотная фильтрация, обеспечивающая выделение изменений амплитуды огибающей во времени. При этом в каждом канале функционируют несколько параллельных полосовых фильтров, соответствующих различным по качеству восприятия изменениям огибающей сигнала: «слоговой», «^»-образных звуков, «хриплости».

• Выходные сигналы фильтров разделяются по знаку и информация о «положительных» и «отрицательных» изменениях амплитуды огибающей некоторым образом объединяется.

• В каждом частотном канале существуют детекторы, обнаруживающие локальные во времени изменения амплитуды сигнала.

38

Функциональное моделирование выделения амплитудных неравномерностей в сигнале

Исходя из сделанных в докладе предпосылок, функциональная модель выделения амплитудных неравномерностей в исходном сигнале должна была включать многоканальный спектральный анализатор, к выходу каждого канала которого присоединялась модель обработки огибающей в данном частотном канале. К моменту выполнения работы не представлялось возможным осуществить в аналоговом исполнении большое число каналов обработки огибающей. В связи с этим для получения изображений на выходе модели выделения амплитудных неравномерностей использовался один канал обработки огибающей, последовательно подключающийся к выходам анализатора [21, 22]. На базе такой реализации все работы, связанные с использованием модели, строились на визуальной оценке изображений, получаемых по типу слуховых спектрограмм [23, 24, 25]. Создание цифровой многоканальной модели [14] позволило одновременно получать картину на выходе всех каналов и, что самое главное, разрабатывать и осуществлять различные процедуры обработки паттернов выходных сигналов разных уровней модели.

В докладе на АРСО-10 [21, 22] были приведены результаты математического и аналогового моделирования механизмов обработки огибающей в частотном канале слуховой системы (см. рис. 6).

Рис. 6. Модель механизмов обработки огибающей сигнала в частотном канале слуховой системы

С выхода частотного канала спектрального анализатора СА (I) сигнал поступал на устройство (II), включающее в себя блоки: однополупериодный детектор (1); амплитудный компрессор, характеристика которого до 20 дБ является линейной, а далее — логарифмической (2); три параллельно включённых полосовых фильтра (3, 4, 5). Средние частоты фильтров: 7 Гц (крутизна спада частотной характеристики со стороны верхних частот — 12 дБ на октаву, со стороны нижних — 6 дБ на октаву), 25 Гц (крутизна спада 18 дБ и 6 дБ соответственно), 75 Гц (крутизна спада 18 дБ и 12 дБ соответственно). Выходные сигналы фильтров образуют первый уровень представления выходных сигналов модели, обозначаемый как «R-изображение». Временные координаты изменений амплитуды сигнала определялись в устройстве (III). В него входили однополупериодные детекторы разных полярностей, которые разделяли положительные и отрицательные полуволны откликов фильтров (6, 7). В пороговых схемах (8, 9) в момент достижения заданного порогового значения вырабатывались: при нарастании амплитуды сигнала — положительная марка «начало», или «on-», при убывании — отрицательная марка «конец», или «off-». Пространственно-временное расположение меток представляло собой второй уровень выходных сигналов модели — «Р-изображение». При последовательном подключении модели канала обработки огибающей к выходам спектрального анализатора были зарегистрированы изображения откликов трёх типов фильтров на синтетические и естественные сигналы, зарегистрированные по типу динамических спектрограмм («R-

39

Столярова Э.И.

Моделирование механизмов слуховой обработки речевых сигналов. Обзор работ, представленных на арсо

изображение»). Было показано, что на них чётко обозначаются передние и задние фронты гласных, выделяется пауза «г», формантные переходы, в изображениях на выходе фильтра 75 Гц (хриплости) подчёркнут основной тон. Соответственно, вертикальные полосы в картине распределения меток начал и концов на выходе пороговых схем чётко обозначали границы этих сегментов. Отмечалось, что особенности полученных изображений сохранялись при значительных изменениях интенсивности сигнала.

40

Рис.7. Слуховая спектрограмма и картина распределения меток «начал» (тёмные) и «концов» (светлые) на выходе фильтра огибающей со средней частотой 25 Гц. Фразы: «Жёстко, как на кочке», «Куда ты, Филиппок, собрался?»

Была предпринята первая попытка использования модели для автоматической сегментации естественной речи. При решении этой задачи была предложена схема объединения информации об амплитудных неравномерностях в различных частотных каналах на уровне откликов фильтров каналов обработки огибающей, с последующей подачей на решающие пороговые схемы. К координатам спектрального анализатора с характеристическими

частотами 300, 600, 1200, 2400 и 4800 Гц были подключены пять каналов обработки огибающей. Положительные и отрицательные изменения напряжения на выходе соответствующих фильтров пяти каналов суммировались раздельно и подавались на пороговые схемы, вырабатывающие марки начала и конца сегмента. В качестве тестового материала использовались14 слов, предварительно сегментированных сотрудниками кафедры экспериментальной фонетики ЛГУ. Практически всегда выделялись звуки в случае сочетаний СГ, пропуски имели место в ряде сочетаний ГГ и СС, что совпадало с данными фонетического анализа. Остался нерешённым вопрос о выборе оптимального уровня порога, обеспечивающим минимальное число пропусков границ и минимальное число избыточных меток.

В работе [25] обобщены результаты аналогового моделирования периферического слухового анализа и слухового выделения амплитудных изменений в сигнале.

Следующим этапом в развитии модели выделения амплитудных неравномерностей в сигнале была её цифровая реализация в составе программного комплекса для исследования речевых сигналов, представленного в докладе на АРСО-15 [14] . Модель включала в себя спектральный анализатор с 99 или 120 каналами и соответствующее число каналов обработки огибающей. Выходная информация с различных уровней модели обработки огибающей в частотном канале (уровневые срезы откликов фильтров, распределения on- и off- меток) представлялась в виде пространственно-временных изображений на распечатках АЦПУ.

На базе этой модели проводилось математическое моделирование дальнейшей слуховой обработки сигнала, обеспечивающей обнаружение локального во времени изменения амплитуды сигнала. Были разработаны различные процедуры обработки откликов фильтров огибающих в частотных каналах. Так, в докладе на АРСО-13 [26] использовалась процедура суммации откликов фильтров в каналах обработки огибающей вдоль частотной оси с выходом на пороговое устройство; в докладе на АРСО-14 [27] — процедура вычисления координат экстремалей положительных и отрицательных откликов фильтров в текущем временном окне; в докладе на АРСО-15 [28] — выработка меток «начал» и «концов» в моменты изменения амплитуды огибающей в частотных каналах с последующим суммированием меток вдоль частотной оси во временном окне и с результирующим пороговым устройством. Использование модели для интерпретации экспериментальных данных по слуховому обнаружению амплитудных неравномерностей [28] позволило выделить специфические особенности распределения информативно-значимых контуров меток «начал» и «концов» на выходе модели («Р-изображение») для разных классов акустических событий (граница сегмента, фонемная принадлежность границы).

Заключение

В заключение следует отметить, что наличие законченных образцов вышеописанных моделей позволило в течение многих лет вплоть до настоящего времени проводить разнообразные речевые исследования, результаты которых представлены в отечественных и зарубежных печатных изданиях [29, 30]. Теоретическое и практическое знакомство с историей и этапами развития этого направления исследований представляется важной составляющей подготовки нового поколения молодых учёных, изучающих процессы восприятия речи человеком.

41

Литература

42

1. ЧистовичЛА., Венцов А.В. и др. Физиология речи. Восприятие речи человеком. Руководство по физиологии. Коллективная монография. Л.: Наука, 1976. 388 с.

2. Головешкин В.Т., Шупляков В.С., БастэЛ., ДолмазонЖ.М. Функциональная модель спектрального анализатора слуховой системы (линейный вариант) // Тез. докл. 10-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-10). Тбилиси, 1978. С. 23-25.

3. Шупляков В.С., Долмазон Ж.-М, Бастэ Л. Исследование функциональной модели периферического спектрального слухового анализа (линейный вариант) // Физиол. ж. СССР, 1978, 64 с. 1796-1802.

4. Галузина А.Г., Гоанстрем М.П. Отображение коротких участков речевых сигналов с быстроизменяющимся спектром при помощи цифровой модели спектрального слухового анализатора сигналов // Тез. докл. 11-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-11). Ереван, 1980. С. 175-178.

5. Кожевников В.А., Столярова Э.И., Чуйкина Л.И., Шупляков В.С. Аналоговая модель периферии слуха как анализатор речевых сигналов // Тез. докл. 11-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-11). Ереван, 1980. С. 127-130.

6. Бороздин А.Н., Головешкин В.Т., Кожевников А.А., Шупляков В.С. Особенности изображения речевых сигналов моделью спектрального слухового анализа // Физиологический журнал СССР. 1980. Т. 66. № 1. С.125-131.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Кожевников В.А., Венцов А.В. и др. Система устройств для динамической спектрографии звуковых сигналов // Сенсорные системы. Вопросы теории и методов исследования восприятия речевых сигналов. Вып.2. Л., 1971. С.135-142.

8. Кожевников В.А., Чистович Л.А. Простая схема, воспроизводящая эффект двухтонового подавления // Тез. докл. 11-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-11). Ереван, 1980. С.123-126.

9. Устройство для преобразования частотно-зависимых напряжений. Изобретение // Авторское свидетельство № 828071, выдано 12 декабря 1980.

10. Кожевников В.А., Столярова Э.И. Аналоговая установка для анализа речевых сигналов методами, адекватными слуховой обработке на периферии // Тез. докл. 12-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-12). Киев-Одесса, 1982. С. 174-176.

11. Кожевников В.А., Слепокурова Н.А., Столярова Э.И., Чуйкина Л.И.. «Слуховые» спектрограммы речевых сигналов // Исследование моделей речеобразования и речевосприятия. Л., 1981. С. 94-103.

12. Бондарко В.А. Цифровая реализация аналоговой модели слухового спектрального анализатора // Тез. докл. 13-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-13). Новосибирск, 1984. С. 71.

13. Дроздова Н.Е., Зотова Е.Н. Требования к модели адаптации периферической слуховой системы // Тез. докл. 13-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-13). Новосибирск, 1984. С. 73.

14. Венцов А.В, Зотова Е.Н., Столярова Э.И. Программный комплекс для исследования речевых сигналов // Тез. докл. Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-15). Таллинн, 1989. С.188-189.

15. Карницкая Э.Г., Шупяков В.С. Модель улитки органа слуха с учётом связи между элементами мембраны // Тез. докл. 11-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-11). Ереван, 1980. С. 203-205.

16. Лесогор Л.В., Шупляков В.С. Психоакустические методы исследования первичного слухового описания сигнала (сравнительный анализ) // Тез. докл. 11-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-11). Ереван, 1980. С.193-197

17. Шупляков В.С. Активный механизм слуховой частотной избирательности // Тез. докл. 13-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-13). Новосибирск, 1984. С. 61.

18. Шупляков В.С. Математические модели гидродинамики улитки внутреннего уха // Сенсорные системы. Л. 1982. С. 3-17.

19. Шупляков В.С., Лесогор Л.В., Долмазон Ж.М. Анализ речевых сигналов и нелинейность периферического отдела органов слуха // Тез. докл. 14-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-14). Каунас, 1986. С. 48.

20. Лесогор Л.В., Шупляков В.С. Кратковременная слуховая адаптация и анализ речевых сигналов // Тез. докл. 14-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-14). Каунас, 1986. С. 45.

21. Кожевников ВА, Родионов В.Д., Столярова Э.И., ЧистовичИ.А. Исследование и моделирование слухового выделения амплитудных неравномерностей звукового сигнала // Тез. докл. 10-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-10). Тбилиси, 1978. С. 37-39.

22. Чистович И.А., Столярова Э.И. Амплитудно-частотные характеристики и пороговые устройства модели слуховой обработки огибающей // Физиология человека, 3. № 1 1977. С. 72-76.

23. Жуков С.Я., Люблинская В.В., Столярова Э.И. Обнаружение быстрых амплитудных и частотных изменений в спектре гласноподобных звуков (при слуховом восприятии и на модели) // Тез. докл. 14-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-14). Каунас, 1986. С. 50.

24. Малинникова Т.Г., Огородникова ЕА, Столярова Э.И. Применение аналоговой модели слухового обнаружения амплитудных неравномерностей для сегментации слитной речи // Физиол. Журн.СССР, 1980, т. 64, № 1. С. 139-145.

25. ЧистовичЛА, Венцов А.В., Люблинская В.В., Столярова Э.И., Чистович И.А. Слуховые уровни восприятия речи. Функциональное моделирование // Акустика речи и слуха. Л.: Наука 1986. С. 97-127.

26. Родионов В.Д. Опыт исследования модели процесса обнаружения человеком неравномерности» в амплитудно-модулированных звуковых сигналах // Тез. докл. 13-го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-13). Новосибирск, 1984. Часть 2. С. 74.

27. Родионов В.Д. Акустическое событие: модель обнаружения // Тез. докл. 14-го Всесоюзного семинара (АРСО-14). Каунас, 1986. Часть 2. С. 42-43.

28. Столярова Э.И., Родионов В.Д. Исследование принципов слуховой обработки амплитудных неравномерностей речевого сигнала // Тез. докл. 15 -го Всесоюзного семинара «Автоматическое распознавание слуховых образов» (АРСО-15). Таллинн, 1989. С. 235-237.

29. Огородникова Е.А., Столярова Э.И., Охарева Н.Г., Балякова А.А. Особенности сегментации звукового потока у людей с нарушениями слухоречевой функции // Тез. док. 5-й Всероссийской конференции-школы по физиологии слуха и речи. СПб: ЛЕМА. 2008. С. 42.

30. Огородникова ЕА, Балякова А.А., Столярова Э.И., Охарева Н.Г. Особенности слухового восприятия ритмических последовательностей детьми с нарушениями речи и письма // Российская оториноларингология 2010 № 2(45). С. 97-102.

43

Сведения об авторе

Столярова Эльвира Ивановна —

старший научный сотрудник Лаборатории психофизиологии речи Института физиологии им. И.П. Павлова РАН, Санкт-Петербург. Окончила Ленинградский электротехнический институт им. В.И. Ульянова (Ленина) по специальности «электромедицинская аппаратура». В течение ряда лет участвовала в разработке приборов медицинского контроля за состоянием космонавтов. В лабораториях Чистович Л.А. — Кожевникова ВА. Института физиологии им. И.П. Павлова занималась изучением и моделированием механизмов слуховой обработки речевых сигналов. В настоящее время проводит исследования с целью выявления специфики нарушений в слухоречевом развитии детей с патологией развития различного генеза.

Автор и соавтор более 80 работ, ряда патентов.

44

i Надоели баннеры? Вы всегда можете отключить рекламу.