Научная статья на тему 'ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВАРИАТИВНОСТИ ГЛАСНЫХ ЗВУКОВ РЕЧИ ДИКТОРА'

ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВАРИАТИВНОСТИ ГЛАСНЫХ ЗВУКОВ РЕЧИ ДИКТОРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
10
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННАЯ ТЕОРИЯ ВОСПРИЯТИЯ РЕЧИ / МИНИМАЛЬНАЯ РЕЧЕВАЯ ЕДИНИЦА / ВАРИАТИВНОСТЬ / РЕЧЕВОЙ СИГНАЛ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соловьева Т.А.

Данная статья посвящена анализу акустического качества речевого сигнала на основе универсального теоретико-информационного подхода. В ней представлены результаты экспериментального исследования возможностей данного подхода в системах речевых коммуникаций. Даны рекомендации по практическому применению при разработке и тестировании современных методов и технологий автоматической обработки речи в системах речевых коммуникаций, включая телекоммуникационные системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPERIMENTAL RESEARCHING OF VARIATION OF THE SPEAKER'S VOWELS

This article is devoted to the analysis of the acoustic quality of a speech signal on the basis of a universal information-theoretical approach. The purpose of this article is an experimental study of the possibilities and effectiveness of the information-theoretic approach in speech communication systems. The results of experimental studies are presented. Recommendations for practical application in the development and testing of modern methods and technologies of automatic speech processing in speech communication systems including telecommunication systems are given.

Текст научной работы на тему «ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВАРИАТИВНОСТИ ГЛАСНЫХ ЗВУКОВ РЕЧИ ДИКТОРА»

материалы научно-практической конференции (Москва, 7 апреля 2017 г.) / ред.-сост. А. И. Савенков. — М. : Перо, 2017. — С. 300—306.

5. Зиновьева, Т. И. Формирование профессиональной компетенции учителя начальных классов в области языкового образования / Т. И. Зиновьева // Начальная школа. — 2010. — № 3. — С. 48—52.

6. Кондаков, А. М. Образование как ресурс развития личности, общества, государства : автореф. дис. ... докт. пед. наук / А. М. Кондаков. — М., 2005. — 42 с.

7. Митина, Н. А. Современные технологии как средство интенсификации учебного процесса в высшей школе / Н. А. Митина, Т. Т. Нуржанова//Молодой ученый. — 2014.— № 2. — С. 794—797.

8. Посталюк, Н. Ю. Интеграционные процессы в российской системе профессионального образования / Н. Ю. Посталюк // Интеграция образования. — 2014. — № 4 (77). — С. 6—10.

9. Сластенин, В. А. Готовность педагога к инновационной деятельности / В. А. Сластенин, Л. С. Подымова // Сибирский педагогический журнал. — 2007. — № 1. — С. 42—49.

10. Хуторской, А. В. Педагогическая инноватика / А. В. Хуторской. — М. : Академия, 2008. — 253 с.

ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ВАРИАТИВНОСТИ ГЛАСНЫХ ЗВУКОВ РЕЧИ ДИКТОРА

Т. А. СОЛОВЬЕВА,

аспирант НГЛУ им. Н. А. Добролюбова, техник ОТИСО (отдел технических и информационных средств обучения) НГЛУ им. Н. А. Добролюбова appleta1@rambler.ru

Данная статья посвящена анализу акустического качества речевого сигнала на основе универсального теоретико-информационного подхода. В ней представлены результаты экспериментального исследования возможностей данного подхода в системах речевых коммуникаций. Даны рекомендации по практическому применению при разработке и тестировании современных методов и технологий автоматической обработки речи в системах речевых коммуникаций, включая телекоммуникационные системы.

This article is devoted to the analysis of the acoustic quality of a speech signal on the basis of a universal information-theoretical approach. The purpose of this article is an experimental study of the possibilities and effectiveness of the information-theoretic approach in speech communication systems. The results of experimental studies are presented. Recommendations for practical application in the development and testing of modern methods and technologies of automatic speech processing in speech communication systems including telecommunication systems are given.

152 И. В. ГУБАНИЩЕВА, Т. И. ЗИНОВЬЕВА. Технологические аспекты готовности педагога...

Ключевые слова: информационная теория восприятия речи, минимальная речевая единица, вариативность, речевой сигнал

Key words: information theory of speech perception, minimal speech unit, variability, speech signal

В настоящее время в связи с широким распространением речевых технологий актуальной становится задача автоматического распознавания речи (АРР) диктора с учетом его индивидуальных лингвистических особенностей. Здесь мы сталкиваемся с проблемой вариативности устной речи диктора (иначе — внут-ридикторской вариативностью). Очевидно, что в зависимости от ее степени предъявляются определенные требования к точности систем АРР, поэтому также важна задача исследования внутридик-торской вариативности.

В рамках информационной теории восприятия речи фонема задается некоторым информационным центром-эталоном, в качестве которого выбирается реализация речевого сигнала х'г сХг, представленная соответствующей авторегрессионной моделью и характеризующаяся минимальной суммой информационных рассогласований в метрике Кульбака — Лейб-лера [10] относительно всех других реализаций данной фонемы хг/, ] = 1Д.

Нетрудно заметить, что именно в понятии информационного центра г-го множества реализаций Хг дается наиболее информативное описание свойств соответствующей фонемы. Соответственно, становится очевидным и механизм формирования самого этого множества. Входной речевой сигнал Х(О в дискретном времени t =0,1..., сначала разбивается на ряд последовательных сегментов данных х(О длиной в одну элементарную речевую единицу: примерно 10—15 тс [5]. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем {Хг} и отождествляется с той Х„ из них, которой отвечает минимум информационного рассогла-

сования (МИР) между вектором x(t) и соответствующим эталоном x'v,v < R. Это известная формулировка критерия МИР в задачах АРР [8].

В терминах теоретико-информационного подхода задача в общем случае формулируется как R-альтерна-тивная проверка гипотез Pr, r = 1 ,R о законе распределения вектора речевого сигнала. Следуя критерию МИР, приходим к решающему правилу вида:

x е Xv: rv (x) = min pr (x)

где pv (x) = Я log dp^j P(dx) — величина

информационного рассогласования [4] выборочного закона распределения P(x) относительно его r-ой альтернативы Pr (x), r = "ТД В работе Ю. В. Андреева, М. В. Ко-ротеева «О хаотической природе звуков речи» [1] отмечается, что в случае дискретных распределений критерий МИР строго эквивалентен общесистемному критерию максимального правдоподобия. В таком случае задача состоит лишь в правильном задании множества альтернатив {Pr}.

Представленное выражение используется далее в качестве строгого, теоретико-информационного показателя внутри-дикторской вариативности гласных звуков речи как основного объекта речевых технологий c настройкой на голос диктора [10].

Исследования проводились экспериментальным путем с использованием программного комплекса фонетического анализа и тестирования речи [2]. Для экспериментальных исследований были выбраны шесть фонем русского языка [а,

В связи с широким распространением речевых технологий актуальной становится задача автоматического распознавания речи диктора с учетом его индивидуальных лингвистических особенностей.

о, у, и, ы, э]. На их основе была создана фонетическая база данных из гласных звуков речи контрольного диктора (женщины 28 лет, с высшим образованием, без дефектов речи). Каждая запись хранится в цифровом формате в отдельном файле. Контрольный диктор последовательно проговаривал каждую фонему многократно, в разное время и при различных условиях. По результатам множества последовательных произношений были сформированы пять фонетических кластеров в метрике Кульбака — Лейблера [9]. По каждому кластеру определялся эталон как наиболее реалистичная фонема в теоретико-информационном смысле, относительно которого находилось среднее расстояние реализаций по кластеру. В зависимости от степени вариативности речи это расстояние варьируется в широких пределах. Также фиксировались варианты ошибок по каждой произносимой фонеме. На основе этих данных были построены таблицы, показывающие соотношение звуков, реализованных на месте для конкретной фонемы, формирующих идеальный фонетический состав речи диктора.

Полученные речевые сигналы были записаны в память персонального компьютера в формате звуковых файлов wav. Для этого применялись специальные программные и аппаратные средства: динамический микрофон AKG D77S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота временной дискретизации сигнала в АЦП была установлена равной 8 кГц. По записям каждой речевой единицы было автоматически сформировано одноименное множество непересекающихся во времени реализаций {s/(t)| конечной длительностью T =30 мс. При этом суммарный объем каждого множества составил не менее 1000 единиц (10 раз по 100). На этом этап подготовки данных был завершен.

Дальнейшие вычисления были связаны со спектральным анализом подготовленных записей и оценками показателя

в зависимости от объема J каждого из шести фонетических множеств {Sj(t)}. С этой целью была применена авторская информационная система фонетического анализа речи [2]. Скриншот ее главного окна представлен на рисунке.

Главное окно программы фонетического анализа речи (скриншот)

На основе полученных данных проведенного исследования (см. диаграмму) можно определить, какие звуки речи реализованы на месте фонем, формирующих идеальный фонетический состав речи диктора, и увидеть, что наиболее устойчивыми в реализациях фонемами русского языка являются фонемы [а], [ы] и [э], а наименее устойчивыми — [и] и [у].

Соотношение звуков, реализованных на месте фонем

Следует отметить, что этот вывод хорошо согласуется данными аналогичных исследований других авторов [3; 9]. Новизна полученного в настоящей работе

результата состоит в использовании строгого, теоретико-информационного показателя вариативности звуков речи, благодаря которому представленные далее в виде таблиц количественные оценки вариативности всех гласных звуков речи строго обоснованы.

Таблица 1

Процент аллофонов, реализованных на месте фонемы [а]

Фонема Процент

[а] 100

[и] 0

[о] 0

[у] 0

[ы] 0

[э] 0

Таблица 2

Таблица 3

Процент аллофонов, реализованных на месте фонемы [и]

Таблица 4

Процент аллофонов, реализованных на месте фонемы [у]

Фонема Процент

[а] 0

[и] 0

[о] 60

[у] 5

[ы] 35

[э] 0

Таблица 6

Процент аллофонов, реализованных на месте фонемы [ы]

Фонема Процент

[а] 0

[и] 0

[о] 0

[у] 0

[ы] 100

[э] 0

Таблица 7

Процент аллофонов, реализованных на месте фонемы [э]

Фонема Процент

[а] 0

[и] 0

[о] 0

[у] 0

[ы] 0

[э] 100

Практически полная автоматизация процедуры выполненных выше вычислений, позволила резко снизить ее трудоемкость и, соответственно, расширить рамки проведенного анализа. Теперь не представляет большого труда оценить вариативность речи каждого конкретного диктора в различных условиях, включая условия повышенного зашумления [10].

Фонема Процент

[а] 0

[и] 15

[о] 0

[у] 0

[ы] 85

[э] 0

Процент аллофонов, реализованных на месте фонемы [о]

Фонема Процент

[а] 5

[и] 0

[о] 95

[у] 0

[ы] 0

[э] 0

Таким образом, благодаря проведенному исследованию получены строгие статистические оценки акустической вариативности гласных звуков речи диктора и даны рекомендации по их практическому использованию в системах автоматической обработки и распознавания речи с настройкой на голос диктора.

К числу приоритетных задач в данном научном направлении отнесено исследование акустической вариативности

в условиях повышенной зашумленности помещения.

Данное исследование может рассматриваться в качестве методических рекомендаций специализированного курса для студентов специальности «Лингвистика». Оно имеет свою практическую значимость в рамках дисциплины «Информационная безопасность» Нижегородского государственного лингвистического университета им. Н. А. Добролюбова.

ЛИТЕРАТУРА _

1. Андреев, Ю. В. О хаотической природе звуков речи / Ю. В. Андреев, М. В. Коротеев // Известия вузов. Прикладная нелинейная динамика. — 2004. — Т. 12. — № 6. — С. 44—59.

2. Информационная система фонетического анализа слитной речи : программа для ЭВМ /

B. В. Савченко [и др.] //Роспатент № 2008615442 по заявке 2008614233 от 15.09.2008.

3. Кузнецов, B. Б. Спектральная динамика и классификация русских гласных / В. Б. Кузнецов // Акустический журнал. — 2002. — Т. 48. — № 6. — С. 849—853.

4. Никольская, В. А. Использование математических моделей распознавания речи в образовании/В. А. Никольская, О. Я. Родькина//Информационные технологии в организации единого образовательного пространства : сборник Международной научно-практической конференции преподавателей, студентов, аспирантов, соискателей и специалистов (Нижний Новгород, 1—31 декабря, 2016 г.). — Н. Новгород : НГПУ, 2016. — С. 101—105.

5. Савченко, В. В. Адаптивная кластерная модель минимальных речевых единиц в задачах анализа и распознавания речи / В. В. Савченко, Д. Ю. Акатьев // Наука и образование. — 2013. — № 2; URL: http://dx.doi.org/10.7463/0213.0527867.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Савченко, В. В. Информационная технология психокоррекции эмоционального состояния пользователя по голосу / В. В. Савченко, Д. Ю. Акатьев // Информационные технологии. — 2017. — № 11. — С. 7—12.

7. Савченко, В. В. Исследование звукового строя национального языка на основе информационной теории восприятия речи / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин // Вестник ННГУ им. Н. И. Лобачевского. Сер. «Информационные технологии». — 2010. — № 3 (1). —

C. 215—222.

8. Савченко, В. В. Метод измерения частоты основного тона с межпериодным накоплением речевого сигнала / В. В. Савченко // Цифровая обработка сигналов. — 2017. — № 2. — С. 44— 48.

9. Скрелин, П. А. Вариативность реализаций гласных фонем в спонтанной речи и чтении / П. А. Скрелин, В. В. Евдокимова // Анализ разговорной русской речи : сборник Второго междисциплинарного семинара (Санкт-Петербург, 27—28 августа 2008 г.). — СПб. : Институт информатики и автоматизации РАН, 2008. — С. 42—47.

10. Kullback, S. Information Theory and Statistics: Dover Publications / S. Kullback. — N. Y., 1997. — 399 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.