Седьмой междисциплинарный семинар «Анализ разговорной русской речи» (ар3-2017)

Захаров Леонид Михайлович; Кобозева Ирина Михайловна

НАУЧНАЯ ЖИЗНЬ

Седьмой междисциплинарный семинар «Анализ разговорной русской РЕЧИ» (АР3-2017)

20 января 2017 г на филологическом факультете Санкт-Петербургского государственного университета при поддержке Санкт-Петербургского института информатики и автоматизации РАН был проведен Седьмой междисциплинарный семинар «Анализ разговорной русской речи» (АР3-2017), посвященный корпусным исследованиям языков России и автоматическим методам анализа устной речи.

Семинар, на который было представлено 12 докладов, открыл П. А. Скре-лин - зав. кафедрой фонетики и методики преподавания иностранных языков СПбГУ. Он рассказал об уже прошедших мероприятиях в рамках АР3, замысле текущего семинара и научных мероприятиях, планируемых на ближайшее будущее.

Первое слово было предоставлено москвичам С.О. Савчук и О.Н. Ляшев-ской (ИРЯ РАН; НИУ ВШЭ) для доклада «Устная разговорная речь и способы ее представления в Национальном корпусе русского языка». Отметив, что устная разговорная речь («устная непубличная речь» по терминологии НКРЯ) не выделена в НКРЯ в отдельный корпус, авторы охарактеризовали ее место в существующей структуре устного модуля НКРЯ, включающего три подкорпуса (устный, акцентологический и мультимедийный, или МУР-КО), каждый из которых нацелен на решение специфических задач. В устном подкорпусе разговорная речь составляет более 1,3 млн. словоупотреблений, или 11,5%, она снабжена стандартной для НКРЯ метатекстовой, морфологической и семантической разметкой, а также имеет специфическую социологическую аннотацию. И хотя она представлена только в виде транскриптов и не сбалансирована по составу говорящих, пользователь может отобрать для изучения свой подкорпус по интересующим его признакам. В акцентологическом корпусе содержится 250 тыс. словоупотреблений разговорной речи (4,2%), транскрипты могут быть проверены по хранящимся в архиве звуковым файлам. МУРКО дает наиболее полное представление об устной коммуникации, но записи разговорной речи в нем составляют пока

только 12 тыс. словоупотреблений (0,3%). Развитие устного модуля НКРЯ пойдет в основном по линии увеличения доли разговорной речи, собираемой и обрабатываемой по технологии МУРКО. Так как этот способ трудоемок, то предполагается для получения больших, хотя и несовершенных данных организовать подкорпус аудио- и видеоматериалов, собранных нелингвистами, а также использовать при расшифровке результаты работы систем автоматического распознавания речи.

Следующий доклад - «Корпус русской спонтанной речи CoRuSS: состав и структура» - представлял работу большого коллектива из СПбГУ (Т.В. Кач-ковская, Д.А. Кочаров, Н.Б. Вольская, С.О. Тананайко, Л.А. Васильева, В.В. Евдокимова, Т.В. Чукаева, П.А. Скрелин). Данный корпус - это база данных студийных записей спонтанных диалогов разнообразной тематики, снабженных орфографической расшифровкой и просодической аннотацией (программа ELAN). Количество дикторов - 60. 10 мужчин и 10 женщин в каждой из трех возрастных категориях - 16-30, 31-45, 46 и более лет, с высшим образованием (51 человек) студенты (7), абитуриенты (2). Общий объем аннотированного материала составляет 15 часов (из 45 часов общего времени записи). Общее количество лексических слов - 124000, фонетических слов - 83000. Общее количество синтагм - 34000, средняя длина синтагмы - 3,6 лексических слов (2,4 фонетических слов). Дикторы записывались попарно с использованием трех микрофонов (2 - индивидуальные микрофонные гарнитуры и 1 всенаправленный микрофон, расположенный между собеседниками). Корпус может использоваться для исследования интонационных явлений, наблюдаемых в спонтанной речи. Данные о границах синтагм могут использоваться для задач автоматического распознавания речи, данные о границах хезитаций и неречевых явлений - для решения задачи автоматического определения речевых сбоев в речевом потоке.

О ресурсах, созданных группой по изучению детской речи, шла речь в докладе Е.Е. Ляксо, О.В. Фроловой, А.С. Григорьева, А.В. Куражовой, А. В. Ост-роухова (СПбГУ) «Корпуса детской речи «INFANT.RU», «CHILD.RU», «EmoChild.Ru» на материале русского языка». Корпус INFANT.RU содержит вокализации и речь 187 детей от 0 до 3 лет жизни, CHILD.RU содержит образцы спонтанной и читаемой речи детей 4-7 лет, а база данных Emo.Child.Ru содержит записи спонтанной эмоциональной речи детей 4-7 лет. Подчеркнем, что эти корпуса являются первыми на материале русского языка. Собранный в них речевой материал уже используется при проведении междисциплинарных исследований по изучению различных аспектов становления речи и их связи с когнитивным и эмоциональным развитием ребенка.

В докладе О.Ф.Кривновой, А.В. Архипова, Л.М. Захарова, И.М.Кобозевой (МГУ) «База данных "Интонация диалога" в Русском интонационном корпусе РИНКО (RINCO)» освещался опыт работы коллектива лингвистов филологического факультета по созданию базы данных «Интонация русского диалога» с применением современных методов функционального исследования интонации и современных средств ее фонетического анализа. Руководителем проекта был С.В. Кодзасов. БД включает реплики трех типов -вопросительные, побудительные и повествовательные. При работе над текстовым составом БД авторы стремились максимально полно покрыть все иллокутивное разнообразие соответствующих реплик. В итоге в БД было введено около 1000 высказываний (порядка 300-400 реплик для каждого из трех типов), отражающих все основные разновидности диалогических реплик (инициирующих и реактивных). Каждая единица базы, соответствующая одной реплике, содержит следующие зоны: а) стандартная орфографическая запись реплики; б) орфографическая запись высказывания с просодической разметкой, позволяющей соотносить акценты и интегральные просодии с компонентами предложения; в) интонационно-акустическая расшифровка акцентов; г) интонационно-акустическая расшифровка фонетических блоков; д) семантико-грамматическая форма, дающая многопараметрическое описание предложения (коммуникативный тип, модальность, грамматическая характеристика и др.). Есть возможность прослушать запись, а также просмотреть график звуковой волны и интонограмму, полученную с помощью программы Speech Analyzer. Первоначально база была реализована в программе MS Access 2000. В настоящее время БД «Интонация русского диалога» преобразована в мультимедийный online-корпус, доступный любому пользователю через Интернет. Для реализации корпуса РИНКО был использован формат мультимедийного разметчика ELAN и серверная платформа LAT, дающая возможность онлайн-просмотра разметки в формате ELAN, прослушивания аудиофайлов и сложного поиска с использованием регулярных выражений.

Н.В. Богданова-Бегларян, Т.Ю. Шерстинова, К.Д. Зайдес (СПбГУ) рассказали о современном состоянии корпуса «Сбалансированная аннотированная текстотека» (САТ) и предоставляемых им возможностях многоуровневого анализа русской монологической речи. Корпус строится по разработанной Н.В. Богдановой-Бегларян методике, обеспечивающей его сбалансированность по трем параметрам - лингвистическому (в равной мере представлены разные коммуникативные сценарии: чтение и пересказ сюжетного и несюжетного текста, описание сюжетного и несюжетного изо-

бражения, свободный рассказ на заданную тему), социолингвистическому и психолингвистическому (экстравертность / инровертность и некоторые другие характеристики информантов). Все звукозаписи расшифрованы, снабжены интонационной и паралингвистической разметкой, подвергнуты экспериментальному пунктированию и аннотированы в отношении трех указанных параметров. Проект ориентирован прежде всего на исследование устной спонтанной речи. На базе САТ авторы вводят в научный оборот понятия степени спонтанности и лингвистической мотивированности устного монологического текста и предлагают изучать их в широком междисциплинарном контексте. Среди других направлений исследования - степень вариативности порождаемых текстов в зависимости от визуального или текстового стимула, соотношение первичного текста и его пересказа, корреляция характеристик монолога с социальными и психологическими характеристиками говорящих. Также был дан краткий обзор проблематики уже проведенных разработчиками САТ фонетических, лексических, морфологических, синтаксических и дискурсивных исследований.

Московские лингвисты С.О. Савчук и А.А.Махова (ИРЯ РАН) в докладе «Мультимедийный модуль в составе Национального корпуса русского языка: направления развития» охарактеризовали структуру, современное состояние и перспективы развития трех составных частей данного модуля. Мультимедийный корпус (МУРКО), пилотная версия которого разрабатывалась в 2009-2010 гг., уже хорошо известен тем, кто занимается мультимодальным моделированием устного дискурса. Мультимедийный параллельный корпус (МультиПАРК) сочетает в себе свойства мультимедийного и параллельного корпусов и предназначен для сопоставительных исследований. Он состоит из двух независимых зон - русскоязычной, которая позволяет сопоставить разные кино-, теле-, радио- и театральные постановки одной и той же пьесы на русском языке, и англо-русской, позволяющей сопоставить фильмы на английском языке с их дублированными версиями. Наконец, глубоко аннотированный корпус - это часть МУРКО, в которой Е.А. Гришиной - автором идеи создания МУРКО и руководителем проекта - были размечены типы речевых действий и жестикуляция. Мультимедийный модуль НКРЯ будет совершенствоваться за счет расширения этой части корпуса, в частности -разметки речевых действий в научном и политическом дискурсе.

В докладе К.В. Евграфовой, В.В. Евдокимова, П.А. Скрелина, Т.В. Чукаевой (СПбГУ). «Речевой корпус для исследования голосовой усталости, связанной с профессиональной нагрузкой» описывается речевой корпус, содержащий образцы речи «профессионалов голоса» (20 испытуемых - 10 мужчин и

10 женщин - преподаватели практической фонетики и лекторы, профессиональные дикторы кино и телевидения, экскурсоводы) до и после голосовой нагрузки. Преподаватели записывались в начале и в конце семичасового рабочего дня, экскурсоводы - до и после проведения трехчасовой экскурсии, профессиональные дикторы - в начале и в конце трехчасового беспрерывного интервью / чтения вслух литературного произведения. Испытуемых просили прочитать фонетически представительный текст (средняя длительность около 4 мин). Термин «голосовая усталость» авторами доклада понимается как «любое негативное изменение качества голоса в результате продолжительной нагрузки, имеющее акустические и перцептивные проявления». Испытуемые заполняли специальную анкету, где оценивали свое состояние (выбор одного из 7 (3 2 1 0 1 2 3) индексов для 30 пар слов-антонимов, оценивающих активность, самочувствие, настроение - метод «многомерного шкалирования»). Интересные результаты были получены при акустическом анализе (с применением программы Ргаа^). Оказалось, что наиболее значимыми параметрами, отражающими изменения голоса, вызванными усталостью, оказались средние значения частоты основного тона, джиттера (отражает изменения частоты основного тона), шиммера (изменения амплитуды сигнала), а также длительности и количества пауз. Интересно, что при усталости возрастает F0 как у мужчин, так и у женщин. Длительность пауз в состоянии утомления увеличивается как в речи мужчин, так и в речи женщин. Количество пауз в состоянии утомления в речи женщин увеличивается по сравнению с речью в норме, а в речи мужчин - уменьшается.

В докладе Г.Е.Кедровой и Н.В.Анисимова (МГУ) «О проекте по изучению иноязычного акцента в русской речи инофонов с использованием онлайновой МРТ визуализации артикуляторных органов» рассматривалось применение метода магнитно-резонансной томографии для разработки и внедрения подходов к созданию базы данных, в которой будут отражены особенности межъязыковой интерференции, проявляющиеся в артикуля-торной моторике при производстве речи на русском языке носителями других языков, для которых русский язык не является родным.

В докладе Н.В. Богдановой-Бегларян, Т.Ю. Шерстиновой, О. В. Блиновой и Г.Я. Мартыненко (СПбГУ) «Корпус "Один речевой день" в исследованиях социолингвистической вариативности русской разговорной речи» было представлено современное состояние этого корпуса (далее ОРД), созданного методом аудиомониторинга всей речевой деятельности информантов и их коммуникантов в течение дня. На сегодняшний день ОРД содержит 1200 часов звукозаписи от 130 информантов (69 мужчин и 61 женщины) в возра-

сте от 18 до 83 лет. Представлены 13 социальных групп, в том числе работники, занятые на производстве, в силовых структурах, в сфере услуг, в экономической сфере, в сфере информационных технологий, в спорте, в образовании и проч., а также неработающие пенсионеры. Возможно разделение информантов на категории по должности (руководители высшего и среднего звена, служащие, рабочие). Материал в ОРД аннотирован по 7 уровням. К обязательным уровням относятся: реплика с ее синтагматическим членением, код говорящего и коммуникативный макроэпизод; к дополнительным - невербальные аудиособытия, качество голоса, фонетический и общий комментарий. Результаты, полученные на базе корпуса ОРД, обобщены в монографии «Современный русский язык повседневного общения: особенности функционирования в разных социальных группах» под ред. Н.В. Бегларян.

В докладе О.Н. Морозовой, С.В. Андросовой, М.В. Артемчука (Амурский государственный университет) «Разработка корпуса звучащей эвенкийской речи» описывается создание корпуса эвенкийской речи (восточного наречия). Речевой корпус включает 2600 изолированных слов в троекратном произнесении, 45 фраз, 25 образцов спонтанной монологической речи, 1 отрывок из героического эпоса. К каждому звуковому файлу прилагается аннотация: для слов: слово, слог, фонема, аллофон; для спонтанной речи: фраза, паузальная группа, слово, слог, фонема, аллофон; для героического эпоса: паузальная группа, слово, слог, фонема, аллофон. Интонационная разметка дается на уровнях либо паузальной группы (для связных текстов), либо слова (для изолированных слов). Для создания информационной системы был выбран язык программирования Rubi, в котором каждая единица информации или языка является объектом.

В докладе В.В. Евдокимовой, П.А. Скрелина, Т.В. Чукаевой (СПбГУ) «Автоматический адаптивный фонетический транскриптор для русского языка» описывается автоматический транскриптор, учитывающий вариативность русской речи. Алгоритмы данного транскриптора строятся не только на нормативных прескрипциях, но и включают допустимые варианты. При разработке учитывались такие факторы, как: изолированное произнесение слов / связный текст; «степень спонтанности»; качество гласных после мягких согласных; качество гласных после и перед паузой; ассимиляция в сочетаниях согласных внутри слова и на стыке слов; появление «вставочных» гласных в сочетаниях согласных и другие. Необходимость появления такого адаптивного транскриптора связана прежде всего с автоматической обработкой звучащей речи. С помощью данного инструмента получен уровень

фонетической транскрипции в корпусе русской спонтанной речи CoRuSS (см. выше).

А.Н. Корнев, И. Балчюниене, А.Е. Недоря (Санкт-Петербургский государственный педиатрический медицинский университет; университет Витау-таса Великого) представили доклад «Становление звуко-слоговой структуры у ребенка: новый метод анализа корпусных данных». Доклад посвящен корпусному исследованию становления слоговой структуры у детей. Материалом послужил корпус речи мальчика; записи речи охватывают возраст с 2 лет 4 мес. до 6,5 лет. Для решения задачи создана специальная программа автоматического анализа речевых текстов ПААРТ, позволяющая вычислять частотность слов в корпусе, частотность слов с заданной звуко-слоговой структурой, создавать подкорпуса слов с заданной слоговой структурой, разбивать на слоги, создавать подкорпуса слогов заданного типа с анализом их частотности. Анализ возрастной динамики в распределении разных слоговых конструкций словоформ показал, что доля словоформ с простой слоговой конструкцией (1-3 слога) максимальна, но медленно убывает в исследуемом возрастном диапазоне или остается неизменной. Доля словоформ со сложной структурой незначительно увеличилась. Наиболее заметный прирост отмечался у структур типа СГСГСГ. Были исследованы возрастная динамика распределения словоформ по типам возрастной структуры и возрастная динамика доли типов словоформ с высокой структурной сложностью. Доклад изобиловал данными статистического анализа. Авторы полагают, что использованная методология предоставляет новые возможности для квантитативного анализа фонологической и слоговой структуры речи.

В целом представленные на семинаре доклады убедительно показывают, что междисциплинарный подход к сбору, аннотации и обработке языкового материала способствует увеличению эффективности моделирования речевой деятельности человека, включая и диалог «человек - машина».

Л. М. Захаров, И. М. Кобозева

Сведения об авторах:

Захаров Леонид Михайлович, старший инженер компьютерного центра филологического факультета МГУ имени М.В.Ломоносова. E-mail: leonid_ zakharov@mail.ru;

Кобозева Ирина Михайловна, докт. филол. наук, профессор кафедры теоретической и прикладной лингвистики филологического факультета МГУ имени

М.В.Ломоносова. E-mail: kobozeva@list.ru.

Седьмой междисциплинарный семинар «Анализ разговорной русской речи» (ар3-2017) Текст научной статьи по специальности «Языкознание и литературоведение»

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Захаров Леонид Михайлович, Кобозева Ирина Михайловна

Текст научной работы на тему «Седьмой междисциплинарный семинар «Анализ разговорной русской речи» (ар3-2017)»