УДК 808.2+534 147
ББК 4р(075)
В.О. Романенко
экспериментальным анализ эмоции в вокальной речи и применение его результатов в искусстве звукорежиссуры
Представлено экспериментальное исследование эмоциональной выразительности пения разных исполнителей. Описаны взаимосвязи базовых эмоций с изменениями акустических параметров, представлены результаты произведенного синтеза эмоциональных характеристик на основе неэмоциональной звукозаписи, обозначены сферы применения экспериментальных данных по исследованию эмоций в вокальной речи в искусстве звукорежиссуры.
Ключевые слова:
акустические параметры, вокальная речь, искусство звукорежиссуры, синтез пения, эмоциональные характеристики.
Сохранение эмоционального содержания вокальной речи в звукозаписи - одна из основных задач в искусстве звукорежиссуры. Возможности звукорежиссера за период развития технических средств аудиозаписи значительно расширились, давая ему в настоящее время множество способов сохранения и передачи как богатой палитры эмоциональной выразительности певческого голоса, так и его тонких оттенков.
Подробный анализ многочисленных работ, посвященных анализу акустических свойств вокальной речи (пения), показывает, какие именно акустические свойства человеческого голоса изменяются при выражении конкретных эмоций [4; 5]. Тем не менее вопрос о количественных связях между изменениями акустических параметров и степенью выражения определенных эмоций у конкретного вокалиста остается открытым.
Для того чтобы частично прояснить данные вопросы, а именно выявить количественную оценку эмоциональной выразительности пения разных исполнителей; определить точность передачи в процессе звукозаписи заданных певцом эмоций, дать количественную оценку способностей звукорежиссера к восприятию эмоциональной выразительности вокальной речи и определить степень воздействия звукорежиссера на неэмоциональное пение вокалиста, было проведено описанное ниже экспериментальное исследование.
В творческом процессе создания звукозаписи необходимо отметить две основные составляющие [8; 9]:
- работа во время записи, предполагающая точный выбор аппаратных средств фиксации всех основных акустических особенностей исполнителя [11], правильная расстановка звукозаписывающего обо-
рудования с учетом акустических характеристик помещения и др.;
- работа с готовой записью путем аппаратной коррекции акустических параметров эмоциональных характеристик вокалиста и в том числе создание нового материала посредством звукового синтеза.
Учитывая эти составляющие работы звукорежиссера с вокалистами, было выбрано два направления в экспериментальных исследованиях.
Первый эксперимент - определение точности эмоционального содержания, заложенного в вокальный отрывок певцом, и точности его фиксации звукорежиссером. Второй эксперимент - выявление степени влияния звукорежиссера на эмоциональное содержание, привнесенное певцом, и подтверждение этого влияния путем экспертных оценок. В качестве методики для первого этапа эксперимента был выбран метод эмоционально-семантической инверсии [2]. Одним из преимуществ выбора этого метода была возможность получить акустические признаки эмоций. Основное содержание метода заключается в исполнении певцом одной и той же фразы с различным эмоциональным контекстом, экспертном отборе наиболее удачных образцов и их последующем акустическом анализе с целью выделения физических свойств звука, определяющих эмоциональное содержание фразы.
В процессе первого экспериментального исследования было выделено два этапа.
1) Подготовка материалов для эксперимента: для получения базы эмоционально наполненных вокальных фрагментов была осуществлена запись профессиональных вокалистов - студенток Российской ака- 0 демии музыки имени Гнесиных - сопрано £ и Санкт-Петербургской государственной Ц консерватории имени Н.А. Римского-Кор- q
сакова - меццо-сопрано. Вокалисты исполнили фразы из четырех романсов П.И. Чайковского a cappella («Кабы знала я», «Забыть так скоро», «То было раннею весной» и «Зачем») с разными эмоциями и без эмоций.
2) Проведение экспертизы, т.е. проведение выборки эмоционально наполненных фрагментов и оценка полученных результатов. После прослушивания фразы, окрашенной в один из перечисленных эмоциональных контекстов, слушатели должны были опознать эмоцию и поставить соответствующую оценку в бланке, отражающую, насколько они уверены в своем решении, используя пятибалльную шкалу [3]. Максимальная уверенность оценивалась в пять баллов, минимальная - в один балл. Прослушивание происходило в небольших группах - от 6 до 10 человек. В экспертизе участвовали студенты обоего пола - звукорежиссеры, имеющие как профессиональное музыкальное образование (1-я группа), так и начальное музыкальное образование (2-я группа), в возрасте от 17 до 32 лет. Общее количество испытуемых в первом эксперименте составило 70 человек.
В результате подсчета данных эксперимента была выявлена группа наиболее распознаваемых эмоций, к ним относятся базовые эмоции: печаль, грусть, страх, радость и нейтраль.
Для второго эксперимента были взяты только фразы из романсов «Кабы знала я» и «Забыть так скоро», получившие более высокие результаты распознавания.
В качестве методики второго этапа эксперимента был выбран метод синтеза вокального сигнала - т. е. соединения различных акустических составляющих в единый сигнал с целью получения искусственно воссозданной эмоции [7; 12].
Условно во втором эксперименте в процессе исследования можно выделить три этапа.
1. Определение количественной оценки изменений акустических свойств голосового пения в зависимости от эмоционального содержания. Для этого рассматривались следующие акустические параметры: частота основного тона, первая форманта, вторая форманта, третья форманта, вибрато и др. [1; 10]. Для того чтобы количественно определить, насколько изменяются данные свойства, была предложена следующая процедура: из первого эксперимента были выбраны получившие большее подтверждение короткие фрагменты голосового пения с различным эмоциональным содержанием: страх, гнев, пе-
чаль, радость и нейтраль (без эмоции). С помощью программы МаЙаЬ и дополнения к ней - VoiceSauce [13] осуществлялся анализ записанных вокальных фрагментов. В ходе исследований удалось выяснить, насколько количественно изменяются акустические свойства при выражении каждой из четырех рассматриваемых базовых эмоций. Далее проводилось сравнение акустических свойств записей, содержащих данную эмоцию, с акустическими свойствами неэмоциональной записи. На основе этого сравнения можно было судить о том, насколько количественно изменяются акустические свойства при наличии эмоции в записи. Для каждой из рассматриваемых эмоций использовалось по девять различных записей.
В результате удалось установить следующие количественные соотношения между различными эмоциями и акустическими параметрами:
- При «страхе» наблюдается ярко выраженное сильное вибрато (акустическая характеристика, построенная на частотной модуляции звука) [6]. В ходе анализа многочисленных записей удалось установить, насколько сильно и как быстро изменяется частота основного тона от своего среднего значения. Величина амплитуды вибрато составила 30±5 Гц в зависимости от голосовых особенностей вокалиста, тогда как в отсутствие эмоций амплитуда вибрато составляла не более 5 Гц. В случае страха амплитуда вибрато уменьшалась с увеличением акустической мощности (громкости исполнения).
- При выражении «гнева« сильно изменяется амплитуда вибрато. В данном случае она максимальна: ни при какой другой эмоции такой величины не наблюдалось. Она составила 40±5 Гц в зависимости от голосовых особенностей вокалиста. В отличие от страха была замечена обратная тенденция во взаимосвязи амплитуды вибрато и акустической мощности: чем больше мощность, тем амплитуда вибрато была больше.
- При выражении «радости» значение амплитуды вибрато находится в диапазоне 22-28 Гц. На этот раз корреляция с акустической мощностью отсутствовала. Первые три форманты отличались несущественно от соответствующих формант неэмоциональной записи.
- Характерная величина амплитуды вибрато в случае эмоции «печали» оказалась в диапазоне 14-18 Гц. Изменение исполнителем громкости пения влияло незначительно как на амплитуду вибрато,
так и на частоту вибрато. Анализ формант выявил увеличение расхождения для первой и второй форманты с увеличением частоты основного тона.
Подводя итоги анализа эмоций в записях голосового пения, можно заключить, что ключевым акустическим свойством в выражении эмоций являются параметры вибрато в пении (глубина и частота модуляции). При этом оказалось, что амплитуды формант не сильно отличаются при наличии каких-либо эмоций в голосе. Были получены численные характеристики параметров вибрато в зависимости от рассматриваемой эмоции.
2. На основании полученных количественных изменений акустических свойств в зависимости от рассматриваемых базовых эмоций был осуществлен синтез из записи без эмоционального содержания новой записи с заданной эмоцией. Данная синтезированная запись послужила наглядным доказательством того, что изменение некоторых акустических параметров на заданную величину приводит к тому, что голосовое пение насыщается эмоциональным содержанием.
3. Проведение опознавательного теста. После однократного прослушивания фразы, окрашенной в один из перечисленных эмоциональных контекстов, как и в предыдущем экспериментальном исследовании, слушатели должны были опознать эмоцию и поставить соответствующую оценку в бланке, отражающую уверенность в своем решении, по пятибалльной шкале. Прослушивание происходило также в небольших группах - от 6 до 10 человек. В экспертизе участвовали студенты обоего пола - звукорежиссеры, имеющие как профессиональное музыкальное образование (1-я группа), так и начальное музыкальное образование (2-я группа), в возрасте от 17 до 32 лет. Общее количество принимавших участие в эксперименте составило 59 человек, из которых 26 человек имели профессиональное музыкальное образование.
После получения данных эксперимента и их расшифровки была произведена статистическая оценка параметров выборки.
Наилучшие результаты по распознаванию принадлежат эмоциям «гнева» и «печали». По эмоции «гнева» - средний коэффициент распознавания 73% ± 15 у 1-й группы и 62% ± 22 у 2-й группы. Синтезированный «гнев» также достаточно хорошо распознается: 81% ± 11 у 1-й группы и 81% ± 9 у 2-й группы. Приблизительно, наравне с эмоцией гнева, распознается «печаль»: 63% ± 9 у 1-й группы, 63% ± 10 у 2-й груп-
пы. Синтезированная печаль была распознана с результатами 80% ± 11 для 1-й группы и 79% ± 10 для 2-й группы.
Достаточно противоречивые данные получены для эмоции «страха». По некоторым вокальным фрагментам (№ 1 сопрано) средний показатель достаточно высокий, по другим (№ 3 сопрано) процент опознавания крайне низок. Достаточно низкий процент опознавания эмоции «страха» можно обосновать ровным мелодическим рисунком фразы. Поскольку звуковысо-тное, а также метроритмическое содержание фразы, заложенное композитором, весьма существенно влияет на содержание, добиться только техническими средствами владения голосом эмоции «страха» со сбивчивым мелодическим рисунком, фактически рваными фразами и нарушенным метроритмом непросто. Этим фактом можно также обосновать более высокие оценки синтезированного страха. В процессе синтеза было продемонстрировано больше технических возможностей аппарата привнесения эмоционального содержания в нейтральную фразу, исполненную певцом.
Также сильный разброс в распознавании эмоции «радости». Тестовое задание предполагало ориентироваться исключительно на невербальное содержание и отмечать, когда вербальное содержание противоречит эмоции, заложенной вокалистом. Данный момент требовал предельной концентрации, поэтому с точки зрения распознавания эмоции «радости» самые высокие результаты находятся в середине теста прослушивания.
Эмоции «радости» и «страха» также повлияли на общую оценку эмоционального содержания. Результаты без данных эмоций (только «печали» и «гнева») крайне высокие, что подтверждает необходимость отдельного пристального изучения эмоций «радости» и «страха» в контексте вокальной речи.
Сопоставление результатов по каждому эмоциональному контексту между натуральными и синтезированными эмоциями показало, что в целом по группе испытуемых восприятие синтезированных эмоций привело к снижению процента правильного опознавания по всем четырем эмоциям. Коэффициент уверенности при оценке синтезированных эмоций также меньше, чем при оценке натуральных эмоций, как и вероятность распознавания. Однако этих значений достаточно, чтобы можно было работать с синтезированными эмоциями при проведении экспериментов.
Результаты статистического анализа показали наличие больших возможностей влияния на эмоции в процессе работы с неэмоциональной записью, в особенности при синтезе пения. Звукорежиссер, пользуясь узкоспециализированным программным обеспечением, при наличии точных знаний музыкальной акустики и обладая хорошим эмоциональным слухом, способен к созданию уникального по воздействию эмоционального наполнения синтезированного продукта музыкальной индустрии.
На основе полученных данных можно сделать следующие выводы:
- Отрицательные эмоции в вокальной речи, так же как и в обычной речи, получают больший процент распознавания, чем положительные.
- Эмоции, генерированные на основе неэмоционального образца вокального фрагмента, получают достаточно высокий процент распознавания в контексте печали и гнева и невысокий процент распознавания в контексте страха и радости.
- Специфика распознавания эмоционального контекста зависит от индивиду-
ального опыта и опирается на «эталонное» мышление, что дает определенные возможности для развития эмоционального слуха.
На современном этапе развития искусства звукозаписи сферы применения экспериментальных данных исследований эмоций в вокальной речи имеют широкую область - это управление насыщенностью пения при записи и последующей обработке; создание качественных фонограмм, способных вызывать сильный эмоциональный отклик у слушателя; восстановление эмоционального содержания, утерянного из-за плохого качества носителя записи; синтез эмоционального пения и др. Дальнейший экспериментальный анализ позволит расширить круг экспертиз вокальной речи в связи с эмоциональным содержанием, тем самым еще ближе продвинуться к решению задачи кодирования эмоциональной информации в совокупности с личностными характеристиками индивидуума и открыть новые возможности в восприятии и воспроизведении эмоциональной информации.
Список литературы:
[1] Бакаев A.B. Анализ формантной структуры певческого голоса // Известия ЮФУ. Технические науки. Специальный вып. Материалы LUI научно-технической конференции профессорско-преподавательского состава, аспирантов и сотрудников ТТИ ЮФУ. - Таганрог: изд-во ТТИ ЮФУ. - 2008, № 1 (78). - С. 7-8.
[2] Морозов В.П. Биофизические основы вокальной речи. - Л.: Наука, 1977. - 160 с.
[3] Пашина А.Х. К проблеме распознавания эмоционального контекста звуковой речи // Вопросы психологии. - 1991, № 1. - С. 88-96.
[4] Романенко В.О. Эмоциональные характеристики речи и их связь с акустическими параметрами // Общество. Среда. Развитие. - 2010, № 4. - С. 119-123.
[5] Романенко В.О. Эмоциональные характеристики вокальной речи и их связь с акустическими параметрами // Общество. Среда. Развитие. - 2011, № 3. - С. 124-128.
[6] Hung-Yan Gu., Zheng-Fu Lin. Mandarin singing voice synthesis usingann vibrato parameter models. -Taipei, Taiwan: Department of Computer Science and Information Engineering, National Taiwan University of Science and Technology, 2008. - 3288-3293.
[7] Hyunsin P., Chang D. Yoo. Statistical model based emotional singing voice synthesis by FO contour modification. - Department of Electrical Engineering, Korea Advanced Institute of Science and Technology (KAIST), 2010. - P. 148-151.
[8] Owsinski B. The Recording Engineer's Handbook / 2 ed. - Course Technology PTR, 2009. - 424 p.
[9] Owsinski B. The Mixing Engineer's Handbook / 3 ed. - Cengage Learning PTR, 2013. - 288 p
[10] Sundberg, J. Expressivity in singing. A review of some recent investigations // Logopedics Phonatrics Vocology. - 1998, № 23. - P.121-127.
[11] Song Y., Dixon S., Pearce M. Evalution of musical features for emotion classification. - Centre for Digital Music, Queen Mary University of London, 2012. - 524 p.
[12] Younsung P., Sungrack Yun, Chang D. Yoo. Parametric emotional singing voice synthesis. Korea Advanced Institute of Science and Technology, Department of Electrical Engineering, 2010. - P. 4814-4817.
[13] VoiceSauce - A program for voice analysis. - Интернет-ресурс. Режим доступа: http://www.seas.ucla.edu/ spapl/voicesauce/