фгрО(ТЮТО Филологические науки. Вопросы теории и практики Philology. Theory & Practice
2021. Том 14. Выпуск 2. С. 553-557 | 2021. Volume 14. Issue 2. P. 553-557
ISSN 1997-2911 (print) Материалы журнала доступны на сайте (articles and issues available at): philology-journal.ru
RU
Принципы просодического транскрибирования звучащего текста в корпусных исследованиях
Абаева Ю. Д.
Аннотация. Цель исследования - выявить основные принципы просодического транскрибирования речи, которые в дальнейшем будут использованы при создании просодической транскрипции для Звукового корпуса бурятских диалектов. Выполнен обзор имеющихся просодических транскрипций, созданных в «докорпусный» период и в период активного создания корпусов звучащей речи. Научная новизна исследования видится в том, что впервые в бурятском языкознании предпринимается попытка создания интонационной транскрипции с опорой на опыт предыдущих исследователей. В результате определены основные и второстепенные параметры транскрибирования, разработана концепция создания интонационной транскрипции для бурятского языка.
EN
Principles of Prosodic Transcription in Corpus-Based Studies
Abaeva I. D.
Abstract. The paper aims to identify the basic principles of prosodic transcription which can be used to compile a Spoken Corpus of the Buryat dialect. The article provides a survey of the existing prosodic transcription systems developed in the "pre-corpus" period and in the period of speech corpuses formation. Scientific originality of the study lies in the fact that for the first time in the Buryat linguistics, the author proposes a prosodic transcription system based on findings of previous researches. The obtained results are as follows: the author identifies the basic and secondary parameters of transcription, discovers principles of a prosodic transcription system for the Buryat language.
Введение
Звучащие корпуса - один из видов современных информационных ресурсов, предназначенных для лингвистических исследований. Кроме того, они выступают способом фиксации современного состояния, а в случае с исчезающими языками - сохранения звуковой материи языка. Как и любой корпус, звучащий корпус должен быть соответствующим образом размечен. От корректно выполненной разметки зависит функциональность корпуса, способность его отвечать различным поисковым и исследовательским запросам. Разметка звучащего корпуса обязательно включает в себя элементы просодической транскрипции разной степени подробности.
Актуальность настоящего исследования обусловлена необходимостью разработки системы просодической транскрипции для бурятской речи. В настоящее время ведется работа по созданию Звукового корпуса бурятских диалектов (ЗКБД), нацеленного на исследование бурятской диалектной просодии. При аннотировании данного корпуса обязательным пунктом является просодическая аннотация, для чего необходимо разработать специальную просодическую транскрипцию. Нужно отметить, что в языкознании накоплен достаточный опыт создания таких транскрипций как для нужд корпусных исследований, так и, к примеру, в дидактических целях. Анализ имеющихся транскрипций позволит разработать принципы аннотирования для ЗКБД.
В связи с этим были поставлены следующие задачи: рассмотреть способы просодического транскрибирования на разных этапах развития интонологии (транскрипции, разработанные в докорпусный период, транскрипции в современных звуковых корпусах); выявить основные параметры просодического транскрибирования звучащего текста.
Для решения поставленных задач в работе использованы традиционные научные методы исследования: описательный, позволивший дать характеристику имеющимся способам интонационного транскрибирования, сравнительный, благодаря которому были выявлены основные параметры просодического аннотирования.
Теоретическую базу исследования составили работы интонологов, разрабатывавших свои теории в период до активного создания корпусов: Е. А. Брызгуновой [3], С. В. Кодзасова [12], С. Оде [11]. С созданием звучащих
Научная статья (original research article) | https://doi.org/10.30853/phil210018
© 2021 Авторы. ООО Издательство «Грамота» (© 2021 The Authors. GRAMOTA Publishers). Открытый доступ предоставляется на условиях лицензии CC BY 4.0 (open access article under the CC BY 4.0 license): https://creativecommons.org/licenses/by/4.0/
корпусов, а тем более специализированных интонационных корпусов, потребность в интонационных транскрипциях возросла, создание способов графического изображения звучащей речи стало просто необходимым. Среди современных транскрипций, передающих просодические характеристики речи, следует упомянуть транскрипции Н. Б. Вольской, П. А. Скрелина [6], А. А. Кибрик, В. И. Подлесской [7], способы передачи просодических характеристик в корпусе «Один речевой день» [16].
Практическая значимость работы: результаты исследования могут быть использованы в вузах филологических специальностей в практике преподавания бурятской фонетики, диалектологии, корпусной лингвистики. Полученные данные могут найти применение в процессе учебно-методической деятельности при создании учебников и учебных пособий по указанным предметам.
Варианты просодических транскрипций
Одна из первых интонационных транскрипций была создана Е. А. Брызгуновой в дидактических целях для «наглядно-слухового представления звучащей речи» [3, с. 5]. В ее основе лежит классификация типов интонаций, получившая наибольшую популярность и признание в русистике. Она насчитывает семь интонационных конструкций (ИК), которые выделяются на основе оппозиций высказываний с одинаковым синтаксическим строением и лексическим составом или с разным синтаксическим строением, но одинаковым звуковым составом словоформ [14, с. 99].
В этой транскрипции при помощи косых черт отмечались границы членения фразы, а цифра над соответствующим гласным обозначала место интонационного центра и тип ИК. При детализации транскрипции вводились специальные обозначения для слабо выраженного членения или членения с ярко выраженной паузой, отмечалось увеличение длительности гласного или согласного, участки замедления и убыстрения темпа, паузы внутри интонационной конструкции, случаи слабо выраженного типа ИК и др. [3, с. 6].
Безусловно, все разнообразие произносительных вариантов интонации невозможно свести к семи ИК. Так, Е. А. Брызгунова отмечает, что «в потоке речи каждый тип ИК представлен многочисленным рядом нейтральных и эмоциональных (= модальных) реализаций» [Там же, с. 7]. Для обозначения подтипов ИК предлагалось к цифровому обозначению добавить графическое изображение движения тона [Там же].
Другие исследователи, также отмечая недостаточность семи ИК, дополняли эту классификацию, расширяли количество интонационных типов. Например, классификация Н. Б. Вольской, П. А. Скрелина [6] содержит 13 основных типов интонации, большинство из которых имеет несколько подтипов. Такая подробная интонационная классификация позволяет, по мнению авторов, получить больше информации о просодической вариативности речи.
Этот принцип классификации применяется в корпусе русской спонтанной речи CoRuSS (Corpus of Russian Spontaneous Speech), создаваемом на кафедре фонетики и методики преподавания иностранных языков СПбГУ. Основная часть корпуса состоит из спонтанных диалогов, снабженных просодической аннотацией. Просодическая разметка выполнена на базе орфографической расшифровки речи и содержит следующие данные: членение на синтагмы (косая черта), дополнительная просодическая выделенность (знак +), тип мелодического движения на интонационном центре (цифра перед словом, соответствующая типу интонации по классификации Н. Б. Вольской, П. А. Скрелина), при этом возможны синтагмы без интонационного центра. Помимо фразового ударения, отмечаются также основное и побочное ударение в словах. Поскольку речь идет об аннотировании спонтанной речи, специальными знаками отмечаются паузы хезитации, растягивания звуков, отмечаются неречевые явления, фальстарты и самокоррекции [5].
С. В. Кодзасов предлагает отойти от ограниченного числа интонационных моделей. В разработанной им классификации, называемой комбинаторной, он оперирует более обширным инвентарем просодических признаков, которые, сочетаясь друг с другом, дают некоторое количество просодем. Основная задача данного метода - выявить элементарные просодические компоненты и закономерности их комбинирования. Этот метод был применен для супрасегментной разметки в одном из первых звуковых корпусов - «Фонетической базе данных ИРЯ РАН» (1992-1995 гг.) [12, с. 124]. Эта база создавалась для исследований в области литературной и диалектной фонетики, причем в большей степени она ориентирована на изучение просодии.
Суперсегментная разметка в этой базе включает просодические единицы двух типов: акценты (ударные слова) и блоки (группы слов). Каждое слово, несущее акцент, помечается порядковым номером. При помощи квадратных скобок фраза делится на несколько блоков, соответствующих одной синтагме, каждый блок помечается буквой в алфавитном порядке. Блоки могут являться составляющими другого более большого блока. Расшифровка просодического содержания каждого акцента и блока дается в специальных полях. Для графического обозначения просодических характеристик разработан инвентарь транскрипционных знаков.
Набор принимаемых в расчет просодических характеристик достаточно обширен. Так, для акцентов указывается направление движения тона (разновидности восходящего, нисходящего и ломаного тонов), его локализация (на согласном или на гласном, внутри слога, в начале или конце фразы), растянутость на несколько слогов либо резкое изменение тона, интервал, регистр, количественно-динамические признаки (удвоение гласного, динамический акцент и др.), виды фонаций (гортанная смычка, придыхание).
Просодическое содержание каждого блока включает характеристики тона (множественный акцент, уровень тона, скольжение и смещение уровня базового тона), громкости (уровень громкости, форма кривой интенсивности), а также фонации, регистра, темпа, артикуляции.
Эта комбинаторная модель интонационной транскрипции используется и в последующих корпусных разработках: в Базе данных «Интонация русского диалога» (ИРД) и далее в Русском интонационном корпусе (RINCO).
База данных ИРД представляет собой информационный источник, который дает систематизированную информацию о соотношении просодических и семантико-прагматических характеристик высказывания в диалоге. Созданы отдельные базы данных для диалогических реплик разной коммуникативной направленности (вопрос, побуждение и т.д.). Просодическая разметка в БД ИРД выполнена на тех же принципах, что и в базе, описываемой выше: на орфографической записи высказывания порядковым номером отмечаются акценты в словах и квадратными скобками обозначаются блоки-синтагмы, что позволяет соотносить локальные (акценты) и интегральные просодии (блоки) с компонентами предложения. Интонационно-акустическая расшифровка акцентов и фонетических блоков дается отдельно. Однако просодическая транскрипция ИРД немного усовершенствована: слово, несущее выделительный акцент, отмечается звездочкой; появилось указание на паузальный или тональный разрыв между синтагмами, обозначаемый вертикальной чертой или двойной вертикальной чертой при большей длительности паузы [8; 9].
Логическим продолжением БД ИРД явился корпус RINCO, создаваемый в МГУ [1]. Он нацелен на создание массива диалогических высказываний, снабженных просодической разметкой. Основная цель создания корпуса - показать просодическую вариативность разговорного русского языка. При просодическом аннотировании, также выполненном на основе комбинаторного метода С. В. Кодзасова, указываются локальные и интегральные просодические характеристики.
ТоРИ (Transcription of Russian Intonation) - транскрипция русского языка, разработанная С. Оде в терминах автосегментной школы [11]. В этой транскрипции учитываются перцептивно-релевантные изменения высоты тона (изменения тона вверх и вниз, не придающие слову выделенности), тональные акценты (изменения тона до высокого (H), среднего (M) и низкого (L) уровня) и границы интонационных контуров (начальная и конечная высота тона).
Среди транскрипций автосегментной фонологической школы наиболее известна транскрипция ToBI (Tone and Break Indices 'Тоны и показатели просодических швов'), разработанная для интонации американского варианта английского языка. Она состоит из шести фонологически разных тональных элементов: двух простых L и H и четырех сложных L + H*, L* + H, H* + L, H+ L*. Эти элементы различаются по локализации во фразе и выполняемой дискурсивной функции. Интонационная структура фразы представляет собой линейную последовательность этих тональных элементов, связанных с акцентированными слогами и границами просодических составляющих двух иерархических уровней отрезков речи, называемых промежуточными и интонационными фразами.
Транскрипция ToBI используется в корпусе IViE "Intonational Variation in English" (Интонационная вариативность в английском языке) [17]. Корпус содержит записи девяти диалектов английского языка, локализованных на Британских островах, и предназначен для исследования междиалектной и стилистической вариативности английской интонации. На первом уровне отмечаются интонационно выделенные слоги, границы синтагм и участки хезитаций и речевых ошибок. Второй уровень - фонетический - содержит характеристику основного тона на участке вокруг выделенного слога в терминах H, M, L. На третьем уровне - фонологическом, который, собственно, и является системой ToBI, - маркируется интонационная структура синтагмы, указываются уровень тона (H, M, L) на акцентном слоге, последующее значимое изменение тона и уровень тона на границе синтагмы (в начале и в конце). Создавая характеристику тонального акцента на этом уровне, исследователь выбирает из ограниченного набора вариантов [17].
Просодическая транскрипция востребована не только при аннотировании корпусов, нацеленных на исследование интонации. Практически во всех корпусах звучащей речи возникает необходимость в просодической аннотации той или иной степени подробности.
Так, проект «Рассказы о сновидениях и другие корпуса звучащей речи» [13] имеет целью описание и дискурсивное аннотирование данных живой устной речи. Для достижения поставленной цели была разработана система транскрипции, называемая авторами дискурсивной. Она представляет собой графическую запись звукового сигнала, основной целью которой становится фиксация явлений, связанных с организацией дискурса. Членение потока речи происходит на минимальные синтаксические единицы (кванты), которые в работе называются элементарными дискурсивным единицами (ЭДЕ). Транскрипция представлена тремя уровнями сложности: минимальная, упрощенная и полная. При минимальной транскрипции фраза делится на ЭДЕ c указанием времени произнесения относительно начала звукового файла, обозначается иллокутивное значение фразы при помощи пунктуационных знаков, например, завершенность - точка, незавершенность - запятая. В упрощенной версии добавляются важнейшие просодические характеристики: обозначается направление движения тона на главном слове ЭДЕ, фиксируются абсолютные паузы с ранжированием их по длительности. В полной транскрипции, в дополнение к вышеперечисленным показателям, указывается длительность пауз в миллисекундах, помимо главного акцента ЭДЕ фиксируются второстепенные акценты -слова, произносимые с акцентным выделением. Кроме того, отмечаются такие явления, как придыхание, ускоренное произнесение, сниженный регистр и т.д. [7].
Корпус «Один речевой день» - один из блоков Звукового корпуса русского языка, разрабатываемого в СПбГУ [2]. Приоритетная задача данного исследования - получить записи русской спонтанной речи в естественных условиях. Для этого фиксировалась вся речь информанта, производимая им в течение дня, в повседневной обстановке, с обычными коммуникантами.
Первичная обработка материала заключалась в его орфографической расшифровке с учетом особенностей произношения. Речевой поток членится на сегменты с учетом их интонационно-синтаксических характеристик, отмечаются межсинтагменные паузы, паузы хезитации. В конце каждой реплики имеется указание на ее завершенность (//), незавершенность (/), неоконченность (...), восклицательный (!) или вопросительный (?) характер. Из просодических характеристик указывается замедление темпа, скандирование, затягивание гласных [15].
Этот принцип аннотирования также используется при создании звучащих корпусов национальных языков РФ. Например, в Подкорпусе устных текстов на калмыцком языке в составе Национального корпуса калмыцкого языка [10], в Диалектном корпусе башкирского языка [4].
Основные параметры просодической транскрипции
Параметр просодического членения, который непременно встречается во всех просодических транскрипциях, - это членение высказывания. Как отмечает Н. В. Богданова-Бегларян, единицей членения устного дискурса является не предложение, а что-то иное: синтагма, структурно-синтаксическая единица, элементарно-дискурсивная единица, конструктивно-синтаксическая единица [2]. В рассмотренных нами транскрипциях помимо распространенного термина «синтагма» употребляются термины: интегральная просодия (Кодзасов), реплика (Один речевой день), ЭДЕ ^рокепсогрога).
Второй параметр обязательный - это направление движения тона на интонационном центре. Нужно отметить, что в просодических транскрипциях движение тона играет ведущую роль, при этом практически не учитываются характеристики интенсивности, и лишь в некоторых транскрипциях учитываются изменения темпа. В более подробных транскрипциях помимо главного акцента обозначаются характеристики тона вокруг выделенного слога, второстепенный акцент, уровень тона на начале и конце синтагмы, а также изменения тона, воспринимаемые перцептивно, но не придающие выделенности.
Характер движения тона на интонационном центре позволяет установить иллокутивный тип высказывания, а также его дискурсивную завершённость или незавершённость. В современных корпусах, которые не имеют целью исследование интонации, указывается минимальный набор просодических характеристик. Так, в корпусе «Один речевой день» не обозначается направление движения тона, однако указывается иллокутивный тип реплики при помощи пунктуационных знаков (восклицательный или вопросительный знак).
В корпусах, содержащих данные живой спонтанной речи, при аннотировании обязательно уделяется внимание паузам как признакам границы между синтагмами, паузам-хезитациям и речевым ошибкам типа фальстартов и самокоррекций.
Рассмотренные способы транскрибирования позволили обозначить основные принципы просодической транскрипции для Звукового корпуса бурятских диалектов. Наиболее близкими нам оказались принципы, принятые в проекте «Рассказы о сновидениях и другие корпуса звучащей речи» ^рокепсогрога). В этом корпусе просодическая характеристика рассматривается в качестве обязательной составляющей дискурса, несущей большую часть информации, и занимает важное место в системе аннотирования данного корпуса. При создании просодической транскрипции в ЗКБД мы будем придерживаться большинства этих принципов, однако обогатив их более подробными интонационными характеристиками, например, будут обозначаться уровень тона в начале и конце высказывания и на участках значимых изменений тона, участки ускоренного или замедленного произнесения, участки повышенной или пониженной громкости.
Заключение
Проведенный анализ позволил сделать следующие выводы.
Просодические транскрипции, созданные в «докорпусный» период, не потеряли своей актуальности и в слегка модифицированном виде применяются в современных корпусах. Рассмотренные интонационные транскрипции можно разделить на две группы: имеющие определенное количество интонационных типов (Брызгунова, Вольская, ТоВ1) и не имеющие определенного количества (Кодзасов).
Выявлены следующие обязательные параметры интонационных транскрипций: членение высказывания на интонационно-смысловые отрезки, обозначение направления движения тона на интонационном центре. К второстепенным параметрам можно отнести изменения тона на других участках высказывания, изменения темпа и интенсивности.
Перспективы дальнейшего исследования мы видим в создании просодической транскрипции бурятской речи на основе рассмотренных способов просодического аннотирования и выявленных основных параметров. Разработанная просодическая транскрипция будет использована в Звуковом корпусе бурятских диалектов для исследования диалектной интонации.
Финансирование
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-012-00491 а.
Список источников
1. Архипов А. В., Захаров Л. М., Кривнова О. Ф., Кодзасов С. В., Лебедев А. А. Русский интонационный корпус: предварительный отчет // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» (Бекасово, 30 мая - 3 июня 2012 г.): в 2-х т. М.: Изд-во РГГУ, 2012. Т. 1. Основная программа конференции. С. 18-27.
2. Богданова-Бегларян Н. В. Вопросительные конструкции в устной спонтанной речи: адресность, ритмичность, идиоматичность // Коммуникативные исследования. 2016. № 4 (10). С. 61-76.
3. Брызгунова Е. А. Эмоционально-стилистические различия звучащей речи. М. : Изд-во Моск. ун-та, 1984. 116 с.
4. Бускунбаева Л. А., Сиразитдинов З. А. Принципы транскрибирования аудиоматериалов в диалектном корпусе башкирского языка // Финно-угорский мир в полиэтничном пространстве России: культурное наследие и новые вызовы: сборник статей по материалам VI Всероссийской научной конференции фин-но-угроведов. Ижевск: Издательство Анны Зелениной, 2019. С. 545-548.
5. Вольская Н. Б., Качковская Т. В. Принципы просодической разметки в новом корпусе русской спонтанной речи CoRuSS // Фонетика сегодня: материалы докладов и сообщений VIII Международ. науч. конф. СПб.: Нестор-История, 2016. С. 29-31.
6. Вольская Н. Б., Скрелин П. А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Анализ разговорной русской речи: Третий междисциплинарный семинар (АР3 - 2009) / сост. А. Л. Ронжин. СПб.: СПИИРАН, 2009. С. 28-40.
7. Кибрик А. А., Подлесская В. И. К созданию корпусов устной русской речи: принципы транскрибирования // Научно-техническая информация. Серия 2. Информационные процессы и системы. 2003. № 6. С. 5-11.
8. Кодзасов С. В., Архипов А. В., Бонч-Осмоловская А. А., Захаров Л. М., Кривнова О. Ф. База данных «Интонация русского диалога»: побудительные реплики // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог 2006» (Бекасово, 31 мая - 4 июня 2006 г.) / под ред. Н. И. Лауфер, А. С. Нариньяни, В. П. Селегея. М.: Изд-во РГГУ, 2006. С. 236-268.
9. Кодзасов С. В., Бонч-Осмоловская А. А., Захаров Л. М., Кобозева И. М., Кривнова О. Ф. База данных «Интонация русского диалога»: вопросительные реплики // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции «Диалог 2005». М.: Изд-во РГГУ, 2005. С. 245-249.
10. Куканова В. В., Бембеев Е. В., Убушаев Н. Н., Манджиева Б. Б. Устные тексты на калмыцком языке: запись и расшифровка // Вестник Калмыцкого университета. 2013. № 3 (19). С. 56-64.
11. Оде C. Интонационная система русского языка в свете данных перцептивного анализа // Проблемы фонетики: сб. статей. М.: ИРЯ РАН, 1995. Вып. 2. С. 200-215.
12. Просодический строй русской речи / отв. ред. Т. М. Николаева. М. : Институт русского языка РАН, 1996. 256 с.
13. Рассказы о сновидениях и другие корпуса звучащей речи [Электронный ресурс]. URL: http://spokencorpora.ru/ (дата обращения: 25.09.2020).
14. Русская грамматика: в 2-х т. / гл. ред. Н. Ю. Шведова. М.: Наука, 1982. Т. 1. 784 с.
15. Степанова С. Б., Асиновский А. С., Богданова Н. В., Русакова М. В., Шерстинова Т. Ю. Звуковой корпус русского языка повседневного общения «Один речевой день»: концепция и состояние формирования // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). М.: РГГУ, 2008. Вып. 7 (14). С. 488-494.
16. Шерстинова Т. Ю., Степанова С. Б., Рыко А. И. Система аннотирования в звуковом корпусе русского языка «Один речевой день» // Формальные методы анализа русской речи: мат-лы XXXVIII Международной филологической конференции. СПб.: СПбГУ, 2009. С. 66-75.
17. The IViE Corpus. English intonation in British Isles [Электронный ресурс]. URL: http://www.phon.ox.ac.uk/files/ apps/IViE/ (дата обращения: 23.09.2020).
Информация об авторах | Author information
RU
EN
Абаева Юлия Догоржаповна1, к. филол. н. 1 Институт монголоведения, буддологии и тибетологии Сибирского отделения Российской академии наук, г. Улан-Удэ
Abaeva Iuliia Dogorzhapovna1, PhD
1 Institute for Mongolian, Buddhist and Tibetan Studies
of the Siberian Division of the Russian Academy of Sciences, Ulan-Ude
Информация о статье | About this article
Дата поступления рукописи (received): 16.12.2020; опубликовано (published): 26.02.2021.
Ключевые слова (keywords): просодическая транскрипция; корпус; синтагма; интонационный центр; prosodic transcription; corpus; syntagma; prosodic core.