Научная статья на тему '2012. 04. 028. Инструментальный анализ звучащей речи: проблемы и решения'

2012. 04. 028. Инструментальный анализ звучащей речи: проблемы и решения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
95
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ АВТОМАТИЧЕСКИЙ АНАЛИЗ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2012. 04. 028. Инструментальный анализ звучащей речи: проблемы и решения»

2012.04.028. ИНСТРУМЕНТАЛЬНЫЙ АНАЛИЗ ЗВУЧАЩЕЙ РЕЧИ: ПРОБЛЕМЫ И РЕШЕНИЯ.

1. ГАЙКОВА Ю.С. Характеристики вокально-речевого взаимодействия в диадах «мать - младенец»: Автореф. дис. ...канд. биол. наук. - СПб., 2012. - 16 с.

2. КНЯЗЕВ.С В. Дифтонг? Дифтонгоид? Монофтонг? (О неоднородности [ы] в современном русском языке) // Славянские языки и культуры в современном мире: 2-й междунар. науч. симпозиум (Москва, МГУ им. М.В. Ломоносова, филол. фак., 21-24 марта 2012): Труды и материалы. - М., 2012. - С. 280-281.

3. МОРОЗ Н.Ю. Мелодический компонент просодии в социофоне-тике: (Применительно к немецкой спонтанной диалогической речи): Экспериментально-фонетическое исследование: Автореф. дис. ... канд. филол. наук. - М., 2011. - 25 с.

4. САГАЛАЙ М.О. Просодические средства защиты смысловой информации: (Экспериментально-фонетическое исследование в области стеганографии): Автореф. дис. ... канд. филол. наук. - М., 2011. - 26 с.

Исследование (1) посвящено актуальной междисциплинарной физиологической проблеме - развитию на ранних этапах онтогенеза. Вокально-речевое взаимодействие является составной частью диадного общения и отражает взаимосвязь раннего речевого развития ребенка и характеристик материнской речи (МР), обуславливающую их изменения.

МР является важным фактором в общекогнитивном и речевом развитии ребенка и соответствует возрастным особенностям его восприятия. Она представляет собой феномен, отличающийся по ряду характеристик от речи, обращенной к взрослому.

В результате проведенной экспериментальной работы были получены следующие выводы. Нормально развивающиеся дети значимо различаются по уровню раннего речевого развития, определяемому на протяжении первого года по разнообразию гласно-подобных звуков, звуковой активности, числу ответных вокализаций; по разнообразию согласноподобных звуков, количеству слоговых конструкций и частотности употребления гласноподоб-ных звуков [и] и [о] в 12 месяцев. Среди детей с высоким уровнем речевого развития в три месяца преобладают мальчики, в 12 месяцев - девочки.

В диадах с детьми, имеющими значимо более высокий уровень речевого развития, материнская речь на протяжении первого года жизни детей характеризуется значимо большим количеством выделенных голосом слов, звуковой активностью, повторами звуков ребенка; при обращении к 3-месячным детям - высокими значениями частоты основного тона в материнской фразе и ее вариативностью; к 12-месячным детям - разнообразием гласных в выделенных голосом словах.

Выявлены характеристики материнской речи, значение которых достоверно выше в диадах с низким уровнем речевого развития детей: длительность пауз на протяжении первого года; частота встречаемости пауз, превышающих 3000 мс - в 3 месяца; наложение материнской речи на звуки ребенка - в 12 месяцев.

Установлена связь между комплексом характеристик материнской речи и характеристиками, отражающими уровень речевого развития детей. Увеличение репертуара гласноподобных и соглас-ноподобных звуков ребенка коррелирует с разнообразием гласных в выделенных голосом словах материнской речи, повторами звуков ребенка; коррелирует с частотой основного тона по фразе в три месяца и звуковой активностью матери в 12 месяцев. Ответные вокализации трехмесячного ребенка в процессе взаимодействия с матерью взаимосвязаны с повторением матерью его звуков; 12-месячного ребенка - повторением матерью одинаковых слов.

Одним из наиболее широко обсуждаемых в русской фонетике является вопрос о фонологическом статусе гласного [ы] и его отношении к гласному [и], что рассматривается в статье (2). Ответ на этот вопрос в большинстве случаев служит определенным показателем, выявляющим принадлежность исследователя к той или иной фонологической традиции.

Если вывод о наличии или отсутствии в фонологической системе фонемы /ы/ обуславливается эксплицитными фонологическими установками, то характер описания звука [ы] как дифтонга, дифтонгоида или монофтонга зачастую не может быть объяснен иначе, чем вкусовыми пристрастиями того или иного автора, и до сих пор не подтвержден сколько-нибудь убедительными научными данными.

Основным аргументом в пользу дифтонгоидности [ы] является наличие у него начального переходного участка на динамиче-

ской спектрограмме. Главная проблема при определении формант-ной структуры [ы] в современном русском литературном (СРЛЯ) языке заключается в том, что он встречается только в положении после веляризованных согласных (губных и переднеязычных) и тем самым подвергается их коартикуляционному воздействию, которое проявляется в понижении гласного до значения локуса форманты соседнего согласного (т.е. в область ниже 1500 Гц).

Отсутствие коартикуляции у гласного возможно в позиции абсолютного начала слова и в соседстве с велярными согласными, но именно в этих контекстах гласный [ы] в СРЛЯ внутри слова не встречается и потому не анализируется. Тем не менее существует позиция, в которой [ы] возможен после велярного согласного - в словах, начинающихся гласным <и> после предлога к. Автором было проведено инструментальное исследование формантной структуры [ы] во фразе После концерта все отправились к Игорю на дачу в произношении 18 информантов, носителей орфоэпической нормы СРЛЯ, в возрасте от 16 до 48 лет.

На основании полученных результатов в статье делается вывод о том, что в положении между невеляризованными согласными, не воздействующими на формантную структуру гласного, значение Б] [ы] составляет в среднем 291 Гц, а значение - в среднем 1530 Гц, а сам гласный, несомненно, представляет собой монофтонг (и даже не дифтонгоид, как, например, [(у) о]).

Основной целью исследования (3) было выявление особенностей изменения просодических параметров речи (в частности, мелодического компонента просодии) в немецкой спонтанной диалогической речи с учетом социального статуса коммуникантов на базе проведения перцептивно-слухового и акустического видов анализа.

В своей работе автор делает следующие основные выводы: социофакторы (применительно к данному исследованию - социо-статусные факторы) оказывают непосредственное влияние на просодию речевых высказываний коммуникантов в рамках спонтанного диалога. Основная гипотеза исследования о наличии зависимости просодических характеристик немецкой спонтанной диалогической речи от социостатусных факторов нашла свое экспериментальное подтверждение на базе результатов перцептивно-слухового и акустического видов анализа.

Данное исследование было направлено на попытку проникновения в специфику реализации звучащей речи при условии принадлежности коммуникантов к разному социальному статусу. При этом следует особо подчеркнуть, что такие социальные признаки, как принадлежность к разным слоям общества, образование, воспитание и т.д., были элиминированы.

Исследование проходило на аутентичном немецком звучащем материале с обращением к слуховой перцепции (субъективный метод анализа речи) и акустическому методу (объективный метод анализа речи).

В результате исследования установлено, что просодические характеристики речи (мелодические, динамические, темпоральные) являются индикативными при описании признаков звучащей речи, соотносящихся с социальным статусом коммуникантов.

Информативный «вес» конкретных просодических параметров различается: для слухового восприятия на первом месте по информативности с учетом решаемой задачи находится мелодическая компонента, на втором - темпоральная и далее - динамическая.

В ходе исследования нашла подтверждение концепция Р.К. Потаповой о доминантной роли участков сочленения артику-ляторно-семантических составляющих речевого потока, несущих информацию многоуровневого характера: индивидуально-личностную, общеязыковую, фоностилистическую, социофонетическую.

Таким образом, в результате проведенного исследования установлено, что фонетическая модель речевой коммуникации по социальной схеме «выше-ниже» находит свое выражение в вариативности просодических параметров речи коммуникантов на участках, включающих последнюю ритмическую структуру речевого высказывания первого коммуниканта (до паузы) и первую ритмическую структуру второго коммуниканта (после паузы). При этом маркированным является темпоральный признак с включением всех его параметров, подробно рассмотренных в данном исследовании. Большей вариативностью характеризуются мелодические параметры, более зависимые от коммуникативных и эмоциональных факторов. Наименьшая зависимость для просодической социальной модели «выше-ниже» наблюдается для динамических параметров (применительно к эмоционально-нейтральным типам дискурса в режиме диалога для данного исследования). Естествен-

но, что включение эмоционально-модальных компонентов (например, императивного компонента) может изменить динамическую структуру анализируемых стыковых участков.

Полученные в результате исследования данные способствуют более глубокому пониманию процессов просодического оформления речи коммуникантов в режиме социально обусловленного диалога, что связано с процессом планирования и актуализации речевого высказывания в целом.

Цель исследования (4) заключалась в анализе акустических особенностей модификаций просодических характеристик речи и психоакустических особенностей их слухового восприятия для оценки возможности использования этих данных при разработке новых стеганографических методов сокрытия смысловой информации.

На основе анализа просодических характеристик с целью их использования для разработки нового стеганографического метода нецифровой стеганографии отмечено, что несмотря на существование закономерностей употребления просодических характеристик, их использование во многом определяется индивидуальной изменчивостью и зависит от выражаемых коннотативных значений, что дает основание предполагать, что они могут быть использованы для встраивания смысловой информации.

Показано, что значительная вариативность просодии, а также сложность формализации и анализа особенностей ее индивидуальной и ситуационной изменчивости заключает в себе возможность ее использования для внедрения скрытых данных в речь. С учетом инструментальной доступности управляемыми акустическими средствами речевой просодии, позволяющими использовать ее в качестве стегоконтейнера, автор называет следующие наблюдаемые характеристики: частота основного тона (ЧОТ); форма огибающей ЧОТ; значения уровня интенсивности ударных, предударных и заударных гласных; величины длительности пауз и расстояния между паузами; величины ЧОТ, длительности и уровня интенсивности гласных, несущих фразовое ударение.

Основой вариативности просодии также является инвариант, позволяющий вносить в него такие изменения, которые не выходят за пределы допустимого отклонения от нормы, а потому не заметны постороннему наблюдателю. При использовании для встраива-

ния данных именно таких изменений в просодические характеристики речи заполненный просодический контейнер становится неотличимым от незаполненного, а это удовлетворяет главному требованию к стеганографической системе - скрытности.

В результате проведенных исследований выделены основные этапы обработки речевого сигнала для встраивания смысловой информации в просодические характеристики речи: сегментация сигнала-контейнера на просодически обусловленные сегменты, встраивание скрываемых данных в эти сегменты путем изменения их характеристик и объединение сегментов. Доказана реализуемость выполнения сегментации речевого сигнала на основе существующих методов с целью встраивания смысловой информации в речевой сигнал на базе управляемой просодии.

Модификация просодических параметров речи при помощи модуляции индекса квантования речи по уровню в совокупности с квантованием речи по времени позволяет автору предложить новый стеганографический метод для стеговнедрения скрываемых данных в сегменты.

Экспериментальные психоакустические исследования с целью выявления допустимых пределов модификации речи, пропускной способности канала, стойкости метода к помехам и преобразованиям в канале связи, выполненные применительно к такой просодической характеристике, как ЧОТ, показывают, что предлагаемый автором метод позволяет незаметно модифицировать данную характеристику на 5-10% при пропускной способности стего-канала около 8-10 бит/с. Данный метод обладает высокой стойкостью к воздействию передискретизации, шумов и вокодер-ным преобразованиям, сжатию с потерями, в связи с чем может быть использован в интересах скрытой связи. Предполагается также, что учет естественной сегментации речи и особенностей слухового восприятия человека позволяет добиться высокой скрытности внедрения конфиденциальных данных. Кроме того, использование в дополнение к стеганографической модификации речевой просодии криптографических преобразований значений уровня несущих параметров повышает надежность предлагаемого метода, обеспечивая дезориентацию для нарушителя относительно распределения скрываемого сообщения в контейнере.

В.В. Потапов

i Надоели баннеры? Вы всегда можете отключить рекламу.