Научная статья на тему '2007. 01. 016. Акустика речи: медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации: тр. 18 сессии российского акустического об-ва, сент. 2006. - М. : ГЕОС, 2006. - Т. 3. - 214 с'

2007. 01. 016. Акустика речи: медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации: тр. 18 сессии российского акустического об-ва, сент. 2006. - М. : ГЕОС, 2006. - Т. 3. - 214 с Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
75
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АКУСТИЧЕСКАЯ ФОНЕТИКА / ФОНЕТИКА ЭКСПЕРИМЕНТАЛЬНАЯ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яковлева Э. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2007. 01. 016. Акустика речи: медицинская и биологическая акустика. Архитектурная и строительная акустика. Шумы и вибрации: тр. 18 сессии российского акустического об-ва, сент. 2006. - М. : ГЕОС, 2006. - Т. 3. - 214 с»

УРОВНИ ЯЗЫКА

ФОНЕТИКА. ФОНОЛОГИЯ

2007.01.016. АКУСТИКА РЕЧИ: МЕДИЦИНСКАЯ И БИОЛОГИЧЕСКАЯ АКУСТИКА. АРХИТЕКТУРНАЯ И СТРОИТЕЛЬНАЯ АКУСТИКА. ШУМЫ И ВИБРАЦИИ: Тр. 18 сессии Российского акустического об-ва, сент. 2006. - М.: ГЕОС, 2006. - Т. 3. - 214 с.

Из содержания:

1. ПОТАПОВА Р.К., ПОТАПОВ ВВ. О дальнейшем развитии систем идентификации говорящего по голосу и речи. - С. 58-60.

2. ПОТАПОВА Р.К., ХИТИНА М.В. Особенности перцептивно-слуховой сегментации специфического: (Дистантного, опосредованного) устно-речевого дискурса: (На материале рус. разговор, речи). - С. 36-40.

3. ПОТАПОВА Р.К., ЛОСЕВА ЕВ. Корпус фонетических реализаций вибрантов. - С. 74-77.

4. ПОТАПОВА Р.К., ПОНОМАРЬ МО. Перспективы применения речевой стеганографии. - С. 78-80.

5. МИХАИЛОВ В.Г. Методы оценки качества передачи. - С. 27-30.

6. КРИВНОВА О.Ф. Области применения речевых корпусов и опыт их разработки. - С. 81-84.

7. ЯКОВЛЕВА Э.Б. Результаты экспериментального исследования рекуррентных структур в звучащем спонтанном полилоге. - С. 40-43.

8. БАТАЛЫЦИКОВ А.А., ЛЕДНОВ ДА Модель открытой идентификации языка. - С. 44-45.

В исследовании (1) представлен анализ современных автоматизированных систем идентификации говорящего по голосу и речи, функционирующих в настоящее время за рубежом (в Германии, Нидерландах, Франции). Современные системы обнаруживают ряд общих недостатков, наиболее существенным из которых является недооценка просодических характеристик речи как наиболее ин-

формативных при идентификации говорящих по голосу и речи. Авторы анализируют влияние отрицательных факторов на работу используемых идентификационных систем и отмечают необходимость проведения дальнейших Глубоких исследований на материале различных языков.

В целях учета просодической информации при использовании автоматизированных систем идентификации личности по голосу и речи авторами предлагается целая система поэтапных исследований просодических параметров с учетом иерархической структуры лингвистических единиц; определяются перспективы дальнейшей разработки и улучшения качества анализируемых систем.

Исследование (2) макросегментации звучащей речи проводилось в рамках специфического устно-речевого дискурса (на материале аутентичных телефонных разговоров на русском языке).

Проблема сегментации звучащего текста приобретает особое значение в связи с необходимостью создания специального раздела общей и прикладной фонетики - сегментологии. Условно выделяют микро-, медиа- и макросегментацию (Потапова, 1995). Основными фонетическими макроединицами являются ритмические группы, фразы, СФЕ, фоноабзацы, тексты. Под макросегментацией в данном исследовании понимается членение слитной звучащей речи на фрагменты, включающие отрезки текста от одного перцептивно-слухового маркера границы до другого. Основным средством делимитации звучащего текста на смысловые единицы является пауза как воспринимаемый перерыв в речевом континууме. Паузальный эффект может быть достигнут разными способами. Важную роль в макросегментации текста играет перцептивная кластеризация пауз по длительности (относительная длительность пауз - это значимый феномен при смысловой интерпретации воспринимаемого звучащего текста). Телефонные разговоры являются особой разновидностью разговорной речи, характеризуемой отсутствием визуального контакта между собеседниками, а следовательно, невозможностью использования визуальных средств (жестов, мимики) как полноправных средств коммуникации.

В эксперименте участвовали две группы информантов: профессиональные эксперты (фоноскописты) и лица, не являющиеся профессиональными экспертами. Перед началом эксперимента было проведено специальное анкетирование испытуемых для

установления их личностных, социологических и социолингвистических характеристик. Задача информантов заключалась в членении звучащего материала на фрагменты и в определении значимости маркеров, используемых для макросегментации (установления их градации). Последующий акустический анализ предполагал установление набора признаков, оформляющих отмеченные информантами границы макросегментации.

В результате проведенного эксперимента было установлено, что в случаях более тесной связи реплик в телефонных разговорах, а также при отсутствии необходимого времени для обдумывания ответа или оценки сказанного могут быть использованы короткие паузы (или паузы, не маркированные длительностью). В тех случаях, когда необходимо время для обдумывания реплики, ввода подтемы основной макротемы или возврата к заявленной ранее теме, используются паузы средней длительности. Длительные паузы маркируют ввод новой темы, ожидание ответа, подтверждение смены темы, частичную смену темы или уточнение и т.д. Возможны и вербализованные формы поиска (пауза отсутствует, но есть парцелляция, типа «ну», «ну, вот» и т.д.).

Проведенный экспериментально-сопоставительный анализ (3) фонетических систем вибрантов в английском (для британского варианта), немецком, русском и чеченском языках позволил охарактеризовать их с позиции наличия универсалий и специфических признаков.

Вибранты, обладающие специфическими артикуляторными и акустическими характеристиками, всегда привлекали внимание фонетистов и становились предметом многочисленных исследований. Предположительно об [г]-звуках можно говорить как об одном из «опорных пунктов» при идентификации говорящего и распознавании речи. Однако, по мнению авторов, при решении данных задач помехой будет являться внутридикторская вариативность, обусловленная позиционно-комбинаторными факторами.

В результате экспериментально-фонетического анализа были выявлены отличительные и сходные признаки систем вибрантов рассматриваемых языков.

Проведенное исследование позволяет говорить как об универсалиях для систем вибрантов, так и об их специфических отличиях. В качестве основных универсалий для исследованных языков

можно назвать дрожащие реализации вибрантов, состоящие из вокалических и смычных компонентов; дрожащие аллофоны, реализующиеся в большинстве случаев с одним смычным компонентом; частично и полностью оглушенные аллофоны, появляющиеся после глухих звуков; фрикатизированные аллофоны, встречающиеся в основном перед фрикативными согласными.

Артикуляторное различие вибрантов в исследуемых языках обусловливает специфическую акустическую картину.

Русские переднеязычные непалатализованные

какуминальные вибранты характеризуются более низкими формантными частотами, чем палатализованные вибранты.

Вибранты английской фонетической базы данных реализо-вывались как апикальные аппроксиманты, за исключением дублинского диалекта, где они были представлены ретрофлексными ап-проксимантами.

Немецкие вибранты реализовывались в большинстве контекстов как увулярные вибранты.

Чеченские вибранты являются переднетвердонёбными и имеют сходную с русскими вибрантами артикуляцию. Отличительной чертой по сравнению с соответствующими русскими звуками является более напряженная артикуляция -признак, сближающий чеченскую систему вибрантов с английской и немецкой.

Полученная акустическая информация о системе вибрантов в исследованных языках в дальнейшем будет использована в полуавтоматизированных и автоматизированных системах идентификации говорящего.

В настоящее время большинство систем защиты информации основывается на шифровании знаков открытого текста. Лингвистические методы при этом не используются, преобразование ведется на уровне компьютерных единиц, при этом не используется понятие смысла текста и просодических характеристик речи. Между тем возможность создания в недалеком будущем квантового компьютера является серьезной угрозой современной классической криптографии. Новые аспекты использования методов прикладной лингвистики в интересах повышения надежности и эффективности защиты информации сориентированы на применение методов сокрытия текстовой и речевой информации. В исследовании (4) вводится понятие речевой стеганографии, рассматривается отличие

ее методов от текстовой и цифровой стеганографии и дается оценка возможностей и перспектив ее применения.

Стеганография — молодая, динамично развивающаяся наука. Терминология ее еще до конца не сформирована. Тем не менее можно говорить об общепринятом определении цифровой стеганографии как о науке о незаметном и надежном сокрытии информации в оцифрованных непрерывных сигналах, т.е. сигналах, имеющих первоначально аналоговую природу: в аудиозаписях, статических и динамических изображениях. Стеганография является отдельным направлением сокрытия информации со своими методами встраивания и скрывающих преобразований. В настоящее время основными из них являются методы специального форматирования текстовых файлов и методы лингвистической стеганографии, которая скрывает один текст в другом, опираясь на свойства языка и лингвистические ресурсы.

Исследование (5) посвящено разработке методов оценки качества передачи информации. Оценка качества передачи только по разборчивости речи, по мнению автора, явно недостаточна, и необходимы методы, позволяющие получить комплексную оценку качества речи с учетом ее узнаваемости, естественности звучания голоса. Множественность оценок качества передачи, их противоречивость и неоднозначность в условиях воздействия акустических шумов и помех в канале связи делают актуальной задачу получения обобщенной интегральной оценки.

Автор приводит описание модели оценки качества звучащей речи. Данная модель позволяет максимизировать интегральную оценку качества такой речи и получить на этой основе непротиворечивую ранжировку синтезаторов речи. Реализация модели на персональном компьютере IBM PC со средствами ввода-вывода речевой информации и программами экспертно-статической оценки показателей качества обеспечивает быстрое получение интегральной оценки качества передачи.

В работе приводятся сведения о методах измерения разборчивости и качества фонетического звучания речи согласно стандарту ГОСТ 50840-95.

Модель качества интегрального показателя качества действует на основе показателей разборчивости и качества передачи. Методики измерения разборчивости и качества передачи речи

рекомендуется выполнять по ГОСТ 50840-95. Эти методики ориентированы на автоматизацию измерительных процедур с использованием ПЭВМ IBM PC.

В докладе (6) рассмотрены основные области применения речевых корпусов, а также кратко суммирован опыт их разработки, в том числе на материале русского языка.

Корпуса звучащей речи, называемые также речевыми базами данных, представляют собой важнейший тип языковых ресурсов. В состав корпуса часто включают и компьютерные программы, которые обеспечивают создание, сбор, организацию и управление собственно языковыми, в том числе и фонетическими ресурсами. Интерес к созданию речевых корпусов был в значительной степени инициирован разработками в области автоматического распознавания речи, где исследователям приходится сталкиваться с огромной акустической вариативностью звуковых- единиц языка, которая имеет весьма разнообразные источники - от системной контекстной вариативности, обусловленной артикуляцией, до психофизиологического состояния говорящего или технических характеристик микрофона, используемого при записи речевого материала. Современные распознающие системы обычно обучаются на очень больших массивах звучащей речи, записанной от многих дикторов (не менее 100 человек). В последнее десятилетие заметен переход от «ручных» правил и алгоритмов к корпусному моделированию и в области автоматического синтеза речи. Это особенно важно для моделирования просодических характеристик речи, ее эмоционального содержания и выражения, а также имитации индивидуальных особенностей голоса говорящего. С точки зрения автора, речевые корпуса представляют и самостоятельный научный интерес, потребность в них возникает во многих научных задачах, связанных с анализом и описанием звучащей речи на разных языках.

С целью изучения специфики восприятия просодической организации звучащего спонтанного полилога носителями разных культур был проведен эксперимент (7), включающий аудитивный и акустический виды анализа, с привлечением информантов -носителей немецкого и русского языков.

В качестве основной гипотезы выдвигалось положение о том, что просодический коннектор выражает логико-семантические отношения между рекуррентными комплексами в полилогическом

единстве (ПЕ). Их корреляция обеспечивает тематическую связность ПЕ и способствует адекватному декодированию смысла звучащего полилогического дискурса. Просодическая коннекция оптимизирует процесс восприятия спонтанного многостороннего дискурса и речевого воздействия на адресата (-тов).

Роль рекуррентных комплексов в данном исследовании выполняли маргинальные фрагменты стыковых реплик как рекуррентные комплексы, обеспечивающие архитектонику ПЕ: конечные ритмические структуры (PC) стимулирующих и начальные ритмические структуры реагирующих реплик, а также рекуррентные комплексы (РК) языковых уровней (лексического, грамматического, семантико-синтаксического).

Данные аудитивного и акустического видов анализа выявили существенные различия в восприятии просодического оформления полилогических единств у носителей разных языков. Эти расхождения у носителей немецкого и русского языков, с точки зрения исследователя, следует рассматривать как обусловленные национально-культурной интерференцией на уровне фиксированной стереотипной специфики слуховой перцепции носителей разных культур. Данную тенденцию предпочтительности разных значений просодических параметров носителями русского и немецкого языков исследователь объясняет особенностями их перцептивно-мыслительной мнемической деятельности.

Просодические средства максимально оптимизируют процесс восприятия звучащего спонтанного полилога единичным и множественным адресатом, являясь последними «штрихами» в раскрытии смысла воспринимаемого, интегрируя субтемы, подтемы в единую макротему, создавая единый дискурсивный «рисунок».

В работе (8) приводятся результаты применения скрытой модели Маркова к решению задачи открытой идентификации языка по категориям: русский, английский и другие. Каждой категории соответствует отдельная марковская модель, где в качестве векторов наблюдений используется представление аудиосигнала в виде последовательности PLP (Perceptual Linear Prediction) коэффициентов, а состояния моделируются гауссовыми смесями. Для кластеризации наблюдений в процессе обучения модели используется метод к-средних; исследуется зависимость точности распознавания языка от длительности тестирующего речевого сообщения.

Результаты эксперимента показывают, что в условиях, когда параметры модели близки к оптимальным, зависимость точности распознавания от длительности регистрации сигнала в избранном диапазоне невелика. Малая точность распознавания, по мнению авторов, может быть объяснена следующими факторами: недостаточным числом фильтр-банков, приводящим к вырождению PLP коэффициентов; неадекватностью представления сигнала рассматриваемой задачи идентификации языка.

Э.Б. Яковлева

i Надоели баннеры? Вы всегда можете отключить рекламу.