фгрО(ТЮТО Филологические науки. Вопросы теории и практики Philology. Theory & Practice
2021. Том 14. Выпуск 9. С. 2657-2663 | 2021. Volume 14. Issue 9. P. 2657-2663
ISSN 1997-2911 (print) Материалы журнала доступны на сайте (articles and issues available at): philology-journal.ru
RU
Сегментация речи при создании корпуса устных текстов
Бурова Е. Е.
Аннотация. Проблема сегментации устной речи в настоящее время находится в центре внимания лингвистов и рассматривается с различных позиций, однако при работе с конкретным материалом по-прежнему возникают трудности членения звучащего текста на составляющие. Цель настоящей статьи - предложить пути решения проблемы сегментации живой устной речи. В статье анализируются основания и возможности фонетического (просодического) и дискурсивного подходов к сегментации текста. Научная новизна исследования заключается в формулировании принципов сегментации речи, которые являются оптимальными для расшифровки устных монологических текстов в рамках создания лингвистического корпуса, включающего диалектные материалы и глубинные интервью. В результате исследования разработан способ членения устного текста на основе использования нескольких разнородных критериев (комбинированный подход).
EN
Speech Segmentation during the Creation of an Oral Text Corpus
Burova E. E.
Abstract. The issue of oral speech segmentation is currently the focus of attention for linguists and is being considered from various perspectives; however, when working with specific material, it is still difficult to divide a spoken text into separate components. The paper aims to propose ways to solve the issue of live oral speech segmentation. The author analyses the foundations and potential of phonetic (prosodic) and discursive approaches to text segmentation. Scientific novelty of the study lies in the formulation of the speech segmentation principles that are optimal for transcribing oral monological texts as a part of creating a linguistic corpus including dialect materials and in-depth interviews. As a result of the study, a method of segmenting an oral text based on the use of several heterogeneous criteria (a mixed approach) has been developed.
Введение
Проблема сегментации звучащей речи приобрела в современной лингвистике особую значимость в связи с возросшим интересом ученых к устной форме существования языка, а также в связи с разработкой корпусов устных текстов (см., например, «Рассказы о сновидениях», «Рассказы сибиряков о жизни», «Веселые истории из жизни» и т.д.), позволяющих проводить исследования различных феноменов живой диалогической и монологической речи.
Работа над созданием подобного корпуса осуществляется на кафедре русского языка и общего языкознания Иркутского государственного университета. Материалом для корпуса являются аудиозаписи интервью, собранные в рамках проекта «Устная история Иркутска и технологии oral history в междисциплинарной перспективе». Это развёрнутые (каждое около 60 минут) неподготовленные полуструктурированные интервью, в рамках которых информанты отвечают на вопросы интервьюера о собственном прошлом, истории своей семьи, города и страны. Общий объём записей составляет более 100 часов.
Создание устного корпуса на материале нарративов мемуарного типа позволит решать разнообразные задачи не только лингвистам, но и представителям других гуманитарных наук, в центре внимания которых находится oral history как гуманитарная технология.
Однако первый шаг в работе над корпусом - это решение ряда «технических» проблем, связанных с переводом звучащей речи в письменную, среди которых - разработка полной, непротиворечивой и максимально удобной для пользователя дискурсивной транскрипции (см. подробнее http://spokencorpora.ru), а также обеспечение координации между аудиофайлами и графическим представлением устной речи (осуществлённым с помощью программ ELAN, Praat) и т.п. Одной из важнейших проблем в этом ряду является проблема сегментации, то есть членения устной речи на составляющие ее единицы.
Научная статья (original research article) | https://doi.org/10.30853/phil210427
© 2021 Авторы. ООО Издательство «Грамота» (© 2021 The Authors. GRAMOTA Publishers). Открытый доступ предоставляется на условиях лицензии CC BY 4.0 (open access article under the CC BY 4.0 license): https://creativecommons.org/licenses/by/4.0/
Несмотря на то, что принципы и способы сегментации устной речи неоднократно обсуждались в научной литературе, они каждый раз должны быть адаптированы под анализ конкретного языкового материала. Необходимость верификации и - при необходимости - корректировки сформулированных критериев сегментации звукового потока применительно к устным нарративам мемуарного типа определяет актуальность настоящего исследования. Его основные задачи, соответственно, заключаются в осмыслении имеющихся решений и в попытке разработки собственного алгоритма членения текста, который основывается, с одной стороны, на анализе семантической и синтаксической структуры высказывания, с другой - на расчете длительности пауз с помощью программы Speech Analyzer.
Теоретическую базу составляют работы О. Ф. Кривновой о просодической организации текста и исследования А. А. Кибрика и Н. А. Коротаева, посвященные устному дискурсу. Практическая значимость определяется возможностью применения предлагаемого алгоритма членения к различным устным текстам, предназначенным для включения в разрабатываемый корпус (в том числе к диалектным).
Основная часть
Основные подходы к сегментации устной речи можно условно разделить на два типа: фонетический (просодический) и дискурсивный.
Первый (сформировавшийся при изучении особенностей звучащей речи в ходе эксперимента с чтением текста с листа разными информантами) основан на учете характера функционирования различных звуковых средств просодической природы.
Комбинация таких средств создает просодический шов (далее - ПШ), который образует границу между фразовыми просодическими составляющими в звучащем тексте.
ПШ - это «абстрактный показатель границы между просодическими составляющими, который имеет определенное фонетическое (акустическое) воплощение с возможной вариативностью, а также перцептивные корреляты в виде субъективного ощущения определенной степени автономности смежных слов и групп слов в звучащем тексте» [8, с. 8]. В несколько ином смысле ПШ можно понимать как абстрактный показатель сегментирующего потенциала словораздела, имеющий разную глубину. О. Ф. Кривнова описывает четырехбалльную шкалу глубины ПШ для составляющих, больших, чем фонетическое слово, следующим образом: просодическая/фонетическая синтагма, интонационная фраза, интонационно-смысловой комплекс, высказывание [6; 8].
В настоящее время центральными задачами при исследовании просодического членения остаются описание текстовой локализации и глубины ПШ и выявление их просодической реализации [9; 10]. Среди выявляемых и исследуемых фонетических (просодических) средств реализации ПШ можно назвать следующие:
- наличие физических пауз, «в том числе абсолютных и заполненных», а также их длительность;
- синтаксические акценты, прежде всего тональные (между двумя такими акцентами обычно наличие ПШ);
- некоторые значимые движения тона за пределами акцентов, в частности, граничные тоны;
- квазисегментные явления (ларингализация, придыхание) и элементы речевого дыхания;
- изменение тонального регистра (возвращение на базовый уровень, т.н. resetting);
- замедление темпа произнесения перед ПШ (финальное продление), ускорение после него;
- уменьшение интенсивности перед ПШ, увеличение после;
- особенности фонетической реализации фонем (отсутствие редукции в конечных открытых слогах);
- эмфатическая просодия [1].
Особую роль в организации просодического шва играют разного рода паузы. Они часто являются единственными сигналами ПШ и коррелируют с его глубиной: чем длиннее пауза, тем глубже ПШ [8].
Важно подчеркнуть, что, как показывают исследования О. Ф. Кривновой, даже дыхательные паузы (называемые еще физиологическими) обнаруживают определенную степень соответствия синтаксическим структурам текста. Так, с помощью эксперимента было установлено, что 100% испытуемых при чтении сделало дыхательную паузу между абзацами, 94% испытуемых - между самостоятельными предложениями внутри абзаца, 65% - между клаузами внутри предложения, 34% - между компонентами внутри клаузы. Таким образом, вероятность появления дыхательной паузы возрастает по мере увеличения объема синтаксической единицы [7].
В случае если паузации не наблюдается, наличие/отсутствие ПШ помогает определить наличие/отсутствие коартикуляции согласных на стыках фонетических слов [2; 3; 4]. С. В. Князев установил, что отсутствие коарт-икуляции свидетельствует о наличии ПШ. Экспериментально доказано, что на стыках одинаковых фонетических слов в разных фразах наблюдаются разные варианты произнесения комбинации конечного согласного одного фонетического слова и начального согласного другого. Если конечный звонкий согласный перед начальным звонким выступает при произнесении в своей глухой реализации, то можно утверждать, что между фонетическими словами проходит граница, то есть ПШ. Например, между фонетическими словами плов и варится во фразе Мясо сначала тушится, а плов варится проходит ПШ, так как большинство испытуемых (81%) произнесло сочетание <вв> на стыке этих слов как [фв] [2].
Второй подход к сегментации устной речи, который сформировался при изучении спонтанно порождаемого устного дискурса и который потому можно условно назвать дискурсивным, предполагает деление текста на иных основаниях, и описывается такое деление с помощью другой терминологии: в рамках данного подхода текст
членится на элементарные дискурсивные единицы (далее ЭДЕ), каждая из которых рассматривается как квант звучащей устной речи, продвигающий дискурс вперед [11]. Существует несколько критериев выделения ЭДЕ:
- наличие паузации;
- наличие акцента, то есть произносительного усилия (обычно в ЭДЕ один акцент);
- наличие интегрального тонального контура;
- наличие определенного темпового паттерна;
- наличие определенного громкостного паттерна [Там же].
ЭДЕ существенно коррелируют с клаузами, то есть фрагментами текста, описывающими одну ситуацию или одно событие. Большинство ЭДЕ по своему объему равны клаузе. Однако наблюдаются случаи использования субклаузальных ЭДЕ, меньших по объему, чем клауза, и суперклаузальных ЭДЕ, которые включают в себя несколько клауз.
Субклаузальные ЭДЕ часто содержат определение к объекту, упомянутому в предыдущей ЭДЕ:
1. И /вдруг я увидела какую-то ■■(0.4) \к-коробку.
2. ■■ (0.3) С /бантиком \сверху.
Как видим, первая ЭДЕ соответствует клаузе, то есть является клаузальной, а вторая содержит определение к существительному коробка, не соответствуя при этом клаузе, и, таким образом, является субклаузальной.
Суперклаузальные ЭДЕ часто содержат эпистемический маркер (во фрагменте 4 - не знаю), с помощью которого говорящий сообщает о характере своего информационного фонда:
3. ■■■■ (2.5) И/-м-мы-ы там Достаёмся,
4. ■■■■ (2.5) ну не знаю/остаёмся...
Исследователи относят клаузальные ЭДЕ к каноническим, а субклаузальные и суперклаузальные - к неканоническим [Там же].
Приведенная классификация ЭДЕ свидетельствует о том, что при таком подходе к сегментации устного дискурса значительная роль отводится синтаксическим свойствам полученных сегментов, что провоцирует квалификацию синтаксического критерия членения как первостепенного.
Н. А. Коротаев, отмечая превалирование синтаксического критерия в [Там же], разрабатывает другой подход к делению на ЭДЕ, который сам называет коммуникативно-просодическим [5], и предлагает свою систему правил членения устного текста.
В первую очередь, по мнению этого автора, необходимо выделить фразовые акценты. Затем по количеству фразовых акцентов следует определить количество коммуникативно-просодических составляющих, под которыми понимаются тема и рема высказывания. Тема и рема, как считает Н. А. Коротаев, могут объединяться в составе одной ЭДЕ либо распределяться по разным ЭДЕ. Это зависит не от просодического (и тема, и рема могут характеризоваться как восходящим, так и нисходящим акцентом), а от синтаксического критерия: отделить тему от ремы можно, если после темы следует парентеза или если тема не объединяется с ремой в одно простое предложение; во всех остальных случаях необходимо объединить анализируемые составляющие в одну ЭДЕ.
Очевидно, что решение, предложенное Н. А. Коротаевым, делает просодический критерий второстепенным и несущественным; дифференциация ЭДЕ осуществляется на коммуникативном основании.
Завершая характеристику рассмотренных выше подходов, отметим следующее. «Просодический» и «дискурсивный» подходы различаются главным образом тем, что находится в фокусе исследовательского внимания.
Первый подход сосредоточен на явлении границы между сегментами звучащей речи и на пограничных сигналах; второй - на сегментах, разделяемых этими границами. Однако в обоих случаях неизбежно учитываются паузы, тональные акценты, движение тона за пределами акцентов, темповые паттерны, то есть феномены просодического характера. При этом для тех исследователей, которые работают в русле первого подхода, выявление этих феноменов исчерпывает поставленную задачу, а для тех, кто занимается анализом устного дискурса, дает возможность сделать следующие шаги: квалифицировать выделенные фрагменты как канонические или неканонические ЭДЕ, определить их роль в организации дискурса в целом, осмыслить функции пограничных сигналов в порождении дискурса и т.д. и т.п.
С учетом вышеизложенного обратимся к анализу имеющегося в нашем распоряжении материала.
Просодические критерии, конечно, являются наиболее объективными, поскольку они учитывают формальную сторону речи, которая может быть достаточно просто охарактеризована с помощью специальных программ, анализирующих звучащие тексты (например, Speech Analyzer). Такие программы способны отобразить тональные характеристики речи, измерить длительность пауз и т.д.
Самым очевидным просодическим средством, на основе которого может быть осуществлена сегментация, бесспорно, является паузация. Следует учитывать, что, согласно экспериментальным данным, не любой перерыв в речи воспринимается человеком как физическая пауза. Паузой можно назвать остановку длительностью примерно от 200 миллисекунд (0,2 секунды) [6, с. 21]. Именно поэтому при работе с эмпирическим материалом в качестве пауз рассматривались только те перерывы в порождении текста, которые превышают 0,2 секунды.
Представим отдельные результаты сегментации имеющихся в нашем распоряжении звучащих текстов на основе использования критерия паузации (на длительность пауз указывают обозначения типа 10,71).
Фрагмент интервью М. С. Вишнякова:
(1) я родился в Белоруссии 10,71;
(2) Витебская область Дубровинский район деревня Вешки 11,91;
(3) в двадцать восьмом году родители мои 10,31;
(4) с семьей мы 10,41;
(5) переехали в Красноярский край 10,71;
(6) в город Боготол 111;
(7) поселились в деревне жили там до тридцать восьмого года 11,21;
(8) в тридцать восьмом году я 11,21;
(9) после окончания 10,91;
(10) десяти классов 11,41;
(11) по 10,71;
(12) своей личной инициативе 10,51;
(13) пошел в военное училище 10,81;
(14) которое было расположено в Ташкенте 10,21;
(15) называлось 10,21;
(16) пехотное 10,71;
(17) военное училище имени Владимира Ильича Ленина I 0,9 I ;
(18) в сороковом году в феврале я его закончил.
Длительность паузы составляет или превышает одну секунду во фрагментах (2), (6), (7), (8); находится в интервале 0,5-0,9 во фрагментах (1), (5), (9), (12), (13), (16), (17); в остальных случаях пауза составляет 0,2-0,4 сек.
Даже самый предварительный анализ показывает, что одинаковые или близкие по продолжительности паузы могут выделять существенно различающиеся объемом передаваемого содержания фрагменты, ср.:
• пауза длительностью 1,2 сек. (далее она обозначена символами II) разделяет фрагменты:
- поселились в деревне жили там до тридцать восьмого года II в тридцать восьмом году я;
- в тридцать восьмом году я II после окончания;
• пауза длительностью 0,9 сек. разделяет фрагменты:
- после окончания II десяти классов;
- военное училище имени Владимира Ильича Ленина II в сороковом году в феврале я его закончил;
• пауза длительностью 0,7 сек. разделяет фрагменты:
- я родился в Белоруссии II Витебская область Дубровинский район деревня Вешки;
- переехали в Красноярский край II в город Боготол;
- по II своей личной инициативе;
- пехотное II военное училище имени Владимира Ильича Ленина;
• пауза длительностью 0,2 сек. разделяет фрагменты:
- которое было расположено в Ташкенте II называлось;
- называлось II пехотное.
И наоборот, разные по продолжительности паузы могут выделять сходные по объему передаваемого содержания фрагменты:
- (1) я родился в Белоруссии I0,7I Витебская область Дубровинский район деревня Вешки;
- (7) поселились в деревне жили там до тридцать восьмого года 11,21 в тридцать восьмом году я;
- (13) пошел в военное училище I0,8I (14) которое было расположено в Ташкенте 10,21 (15) называлось 10,21. Фрагменты (1), (7), (13), (14), (15) содержат предикативную основу или ее часть, однако правая граница
этих фрагментов маркируется паузами разной длительности: 0,7 - 1,2 - 0,8 - 0,2.
Нельзя не отметить также, что на отдельных участках паузация «противоречит» стандартным представлениям о границах предложения как такой единицы, которая призвана «выразить законченную мысль»; такова сверхкраткая пауза между фрагментами (14) и (15), см.: (13) пошел в военное училище I0,8I (14) которое было расположено в Ташкенте I0,2I (15) называлось I0,2I.
Впрочем, сопоставление выделенных на основе критерия паузации фрагментов с теми, которые были бы получены на основании общепринятых синтаксических критериев, показывает существенное расхождение с традицией: некоторые сегменты вообще не содержат предикативной основы; другие «разрывают» те части, которые эту основу содержат. Так, подлежащее простого предложения Я пошел в военное училище оказывается в (8), а сказуемое - в (13).
Подобные наблюдения можно сделать и на материале других интервью. Фрагмент интервью Д. Д. Лебедева:
(1) в Иркутск 10,21;
(2) я приехал 10,31;
(3) с воинской частью 12,01;
(4) из Махачкалы 11,61;
(5) я-а служил 11,11;
(6) в железнодорожных войсках 11,91;
(7) после войны 11,21;
(8) значит 10,91;
(9) был 10,21;
(10) в Свердловске на службе 10,51;
(11) потом в Ленинграде 10,71;
(12) потом 10,51;
(13) в Махачкале 11,01;
(14) девятнадцатая бригада 10,61;
(15) и оттуда 1э-э 0,21;
(16) девятнадцатая бригада железнодорожная 10,51;
(17) прибыла в Иркутск 10,41;
(18) в феврале месяце.
Мы вновь обнаруживаем, что почти одинаковые паузы оформляют содержательно различающиеся сегменты и наоборот, что структура выделенных сегментов не соотносится со структурой такой единицы, как простое предложение, и т.д. и т.п.
Очевидно, что способ сегментации живой устной речи, основанный исключительно на критерии паузации, слишком формализован; немаловажным обстоятельством является также то, что он не дает возможности различить пограничные и хезитационные паузы (последние, как кажется, обладают меньшим сегментирующим потенциалом, чем паузы пограничные, оформляющие содержательно значимые отрезки речи).
Сегментация текста, учитывающая длительность пауз, наглядно демонстрирует, насколько плавно порождается речь. В анализируемых примерах первый говорящий (М. С. Вишняков) произносит более длинные отрезки, чем второй (Д. Д. Лебедев), его речь является более плавной. Не исключено, что это различие может указывать на степень спонтанности речи: чем больше плавность, тем вероятнее, что говорящий неоднократно возвращается к одному и тому же сюжету (феномен «пластинки»); чем меньше плавность - тем выше спонтанность (особенно в тех случаях, когда текст порождается говорящим, профессиональная деятельность которого не связана с областью коммуникативного взаимодействия). Эта гипотеза, однако, требует проверки на обширном фактическом материале и находится за рамками настоящей работы.
В целом можно заключить, что попытка сегментации текста, основанная на критерии паузации, оказывается не вполне состоятельной и что формальный подход к членению текста требует корректировки. «Пауза является наиболее легко отождествимым признаком границы между ЭДЕ, но сама по себе менее надежна как критерий сегментации, нежели другие просодические критерии» [11, с. 59].
Поскольку порождение дискурса предполагает осмысленность сообщаемого, а следовательно, сегменты речи должны быть информативно значимыми, необходимо иметь в виду и другие критерии: семантические, коммуникативные, синтаксические.
С учетом этих критериев сегментирующими паузами мы будем считать, например, такие, которые отделяют (выделяют):
- семантически и синтаксически полноценный отрезок речи (простую клаузу);
- вставные и уточняющие конструкции;
- сегменты, содержащие свернутые пропозиции (например, различного рода номинализации);
- дискурсивные маркеры (ну, вот, значит).
Важно отметить, что на границе двух клауз может не быть значимого перерыва, но и в таком случае с учетом синтаксического критерия выделяются две составляющие.
Полученные таким образом сегменты текста признаются самостоятельными ЭДЕ.
Сравним далее результаты членения рассмотренных выше фрагментов интервью М. С. Вишнякова и Д. Д. Лебедева, основанных исключительно на просодическом критерии (левый столбец таблицы) и комбинированном подходе (правый столбец).
М. С. Вишняков
(1) я родился в Белоруссии 10,71 (1) я родился в Белоруссии 10,71
(2) Витебская область Дубровинский район деревня Вешки 11,91 (2) Витебская область Дубровинский район деревня Вешки 11,91
(3) в двадцать восьмом году родители мои 10,31 (3) в двадцать восьмом году родители мои 10,31
(4) с семьей мы 10,41 (4) с семьей мы 10,41
(5) переехали в Красноярский край 10,71 (5) переехали в Красноярский край 10,71
(6) в город Боготол 111 (6) в город Боготол 111
(7) поселились в деревне жили там до тридцать восьмого года 11,21 (7) поселились в деревне
(8) жили там до тридцать восьмого года 11,21
(8) в тридцать восьмом году я 11,21 (9) в тридцать восьмом году я 11,21
(9) после окончания 10,91 (10) после окончания 10,91 десяти классов 11,41
(10) десяти классов 11,41
(11) по 10,71 (11) по 10,71 своей личной инициативе 10,51
(12) своей личной инициативе 10,51
(13) пошел в военное училище 10,81 (12) пошел в военное училище 10,81
(14) которое было расположено в Ташкенте 10,21 (13) которое было расположено в Ташкенте 10,21
(15) называлось 10,21 (14) называлось 10,21 пехотное 10,71 военное училище имени Владимира Ильича Ленина 10,91
(16) пехотное 10,71
(17) военное училище имени Владимира Ильича Ленина 10,91
(18) в сороковом году в феврале я его закончил (15) В сороковом году в феврале я его закончил
Прокомментируем полученный результат. В рассматриваемом фрагменте в правом столбце выделены простые клаузы (1, 7, 8, 13, 14, 15), вставные конструкции (2, 4), уточняющая конструкция (6), свернутые пропозиции (10, 11). Некоторые сегменты (4, 10, 11) разрывают простую клаузу на две ЭДЕ.
Д. Д. Лебедев
(1) в Иркутск 10,21 (1) в Иркутск 10,21 я приехал 10,31 с воинской частью 12,01 из Махачкалы |1,6|
(2) я приехал 10,31
(3) с воинской частью 12,01
(4) из Махачкалы 11,61
(5) я-а служил 11,11 (2) я-а служил 11,11 в железнодорожных войсках 11,91
(6) в железнодорожных войсках 11,91
(7) после войны 11,21 (3) после войны 11,21
(8) значит 10,91 (4) значит 10,91
(9) был 10,21 (5) был 10,21 в Свердловске на службе 10,51
(10) в Свердловске на службе 10,51
(11) потом в Ленинграде 10,71 (6) потом в Ленинграде 10,71
(12) потом 10,51 (7) потом 10,51 в Махачкале 11,01
(13) в Махачкале 11,01
(14) девятнадцатая бригада 10,61 (8) девятнадцатая бригада 10,61
(15) и оттуда 1э-э 0,21 (9) и оттуда 1э-э 0,21 девятнадцатая бригада железнодорожная 10,51 прибыла в Иркутск 10,41 в феврале месяце
(16) девятнадцатая бригада железнодорожная 10,51
(17) прибыла в Иркутск 10,41
(18) в феврале месяце
В данном фрагменте в правом столбце выделены простые клаузы (1, 2, 5, 6, 7, 9), свернутая пропозиция (3), дискурсивное слово (4) и вставная конструкция (8).
Найденное нами решение представляется наиболее эффективным, так как, с одной стороны, полученные сегменты предстают не только как просодически оформленные, но и как семантически, синтаксически и коммуникативно значимые. Среди них довольно много простых клауз, о важности которых для продвижения дискурса говорится в [Там же]. С другой стороны, способ сегментации на основе сочетания критериев (комбинированный подход) позволяет объективировать процесс членения текста за счет использования строгих критериев в их достаточном количестве. Конечно, при анализе текстов с более сложной структурой, в частности диалогических, предполагающих явление наложения реплик и т.п., могут понадобиться дополнительные просодические критерии, к которым относится, например, акцентная структура высказывания, однако для монологической речи предлагаемых параметров сегментации, с нашей точки зрения, вполне достаточно.
Заключение
Анализ проблемы сегментации устной речи позволил выделить в качестве основных способов членения текста фонетический (просодический) и дискурсивный. В результате детального рассмотрения каждого из этих способов были сделаны следующие выводы. Оба подхода используют довольно большое число различных критериев, которые оказывается затруднительно применить одновременно при анализе конкретного эмпирического материала, представляющего собой неподготовленные тексты. Именно поэтому исследователям устного дискурса зачастую приходится пренебрегать просодическими критериями, выдвигая на первый план синтаксическую и коммуникативную структуру высказывания. Однако если сократить количество критериев до одного (просодического критерия паузации), это приведет к выделению незначимых для продвижения дискурса сегментов. В связи с этим был предложен способ, который сочетает некоторые критерии, применяющиеся в рамках обоих подходов. Этот способ позволяет разделить текст, с одной стороны, на значимые, а с другой стороны, на просодически оформленные сегменты, обладающие относительной самостоятельностью в рамках развертывания устного дискурса.
Перспективы дальнейших исследований мы видим в уточнении алгоритма сегментации устной речи, возможно, учета большего количества критериев в сложных случаях, к которым относится процедура членения диалогических текстов.
Финансирование | Funding
RU
Публикация подготовлена в рамках научного проекта № 111-21-301, проект «Устный корпус как инструмент лингвистических и междисциплинарных исследований».
EN
The reported study was carried out within research project 111-21-301 "Oral Corpus as an Instrument of Linguistic and Interdisciplinary Studies".
Источники | References
1. Кибрик А. А., Кодзасов С. В., Худякова М. В. Просодическая транскрипция: уровни детализации // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2009. С. 143-148.
2. Князев С. В. Коартикуляция на стыках слов как показатель наличия просодического шва в русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2016. С. 251-264.
3. Князев С. В., Красько А. В. Коартикуляция по голосу в сочетаниях «велярный + звонкий губно-зубной спирант» внутри и на стыках фонетических слов в современном русском языке // Русский язык в научном освещении. 2019. Т. 38. № 2. С. 9-24.
4. Князев С. В., Утешева А. С. Коартикуляционные изменения носовых согласных как показатель наличия просодического шва и порядка применения фонологических правил в русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2017. С. 162-182.
5. Коротаев Н. А. Коммуникативно-просодический подход к выявлению элементарных дискурсивных единиц в устном монологическом тексте // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2015. С. 294-307.
6. Кривнова О. Ф. Ритмизация и интонационное членение текста в «процессе речи-мысли»: опыт теоретико-экспериментального исследования: автореф. дисс. ... д. филол. н. М., 2007. 53 с.
7. Кривнова О. Ф. Фонетические характеристики дыхательных пауз с разной текстовой локализацией // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2017. Т. 2. С. 207-220.
8. Кривнова О. Ф., Князев С. В., Моисеева Е. В. Исследования просодического членения звучащего текста на материале русского языка // Вестник Московского университета. Серия 9 «Филология». 2016. № 4. С. 7-33.
9. Кривнова О. Ф., Князев С. В., Смирнова О. С. Интонационное членение и сегментирующая сила словоразделов в звучащем тексте (данные перцептивного эксперимента) // Труды Института русского языка им. В. В. Виноградова. 2018. Т. 17. С. 128-140.
10. Кривнова О. Ф., Смирнова О. С. Интроспективная просодическая разметка письменного текста и его реальное озвучивание (сравнительный анализ на материале коллекции текстов Р. И. Аванесова) // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. Междунар. конф. «Диалог». М., 2019. С. 295-309.
11. Рассказы о сновидениях: корпусное исследование устного русского дискурса / под ред. А. А. Кибрика и В. И. Подлесской. М.: Языки славянских культур, 2009. 736 с.
Информация об авторах | Author information
RU
EN
Бурова Евгения Евгеньевна1
1 Иркутский государственный университет
Burova Evgenia Evgenievna1 1 Irkutsk State University
Информация о статье | About this article
Дата поступления рукописи (received): 17.08.2021; опубликовано (published): 30.09.2021.
Ключевые слова (keywords): сегментация устной речи; просодическое членение текста; элементарная дискурсивная единица; устный дискурс; oral speech segmentation; prosodic division of the text; elementary discursive unit; oral discourse.