Научная статья на тему 'Корпусные исследования в лингвистике: устная речь'

Корпусные исследования в лингвистике: устная речь Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
391
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / УСТНАЯ РЕЧЬ / НОРВЕЖСКИЙ ЯЗЫК / ПОЛЬСКИЙ ЯЗЫК / ЯПОНСКИЙ ЯЗЫК / АНГЛИЙСКИЙ ЯЗЫК / АННОТАЦИЯ / ТОКЕН / ФОНЕТИЧЕСКАЯ РАЗМЕТКА / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / ПРЕОБРАЗОВАНИЕ ТЕКСТА В РЕЧЬ / КЛАССИФИКАТОР / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / ЗВУЧАЩИЙ ТЕКСТ / ТРАНСКРИПЦИЯ / МОНОЛОГИЧЕСКАЯ РЕЧЬ / МОНОЛОГ / ДИАЛОГ / МУЛЬТИМОДАЛЬНОСТЬ / ОБУЧЕНИЕ ИНОСТРАННОМУ ЯЗЫКУ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корпусные исследования в лингвистике: устная речь»

Balanced corpus of contemporary written Japanese / Maekawa K., Yamaza-ki M., Ogiso T., Maruyama T., Ogura H., Kashino W., Koiso H., Yamaguchi M., Tanaka M., Den Ya. // Lang Resources a. Evaluation. - 2014. - Vol. 48. - P. 345-371. -DOI: 10.1007/s10579-013-9261-0.

Controlled Natural Languages. - Режим доступа: https://sites.google.com/site/ controllednaturallanguage/ (Дата обращения: 27.01.2019 г.)

Gonzalez-Dios I., Jesús Aranzabe M., Díaz de Ilarraza A. The corpus of Basque simplified texts (CBST) // Lang Resources a. Evaluation. - 2018. - Vol. 52. - P. 217247. - Mode of accessI: https://doi.org/10.1007/s10579-017-9407-6

Kuhn T. An evaluation framework for Controlled Natural Languages. - Mode of access: https://www.researchgate.net/publication/221477900_An_Evaluation_Framewor k_for_Controlled_Natural_Languages (Дата обращения: 27.01.2019 г.)

Read J., Carroll J. Annotating expressions of appraisal in English // Lang Resources a. Evaluation. - 2012. - Vol. 46. - P. 421-447. - DOI: 10.1007/s10579-010-9135-7.

2019.03.019. Л.Р. КОМАЛОВА. КОРПУСНЫЕ ИССЛЕДОВАНИЯ В ЛИНГВИСТИКЕ: Устная речь. (Обзор).

Ключевые слова: корпусная лингвистика; устная речь; норвежский язык; польский язык; японский язык; английский язык; аннотация; токен; фонетическая разметка; автоматическое распознавание речи; преобразование текста в речь; классификатор; автоматическая обработка естественного языка; звучащий текст; транскрипция; монологическая речь; монолог; диалог; мультимодальность; обучение иностранному языку.

В работе Е. Лаппони и коллег [The Talk of Norway, 2018] представлен корпус «Talk of Norway» (ToN), который состоит из аннотированных аудиозаписей (n = 250 373) выступлений представителей норвежского Парламента с 1998 по 2016 г. Каждая аудиозапись снабжена внушительным набором метаданных (83 параметров), в числе которых указывается язык коммуникации, представлена разбивка по предложениям, проведена токенизация, лемматизация, размечены просодические и морфологические параметры речи. Кроме того аннотация включает ряд нелингвистических параметров, таких как описание конкретного говорящего, его принадлежность к определенному министерству, его позицию по обсуждаемому вопросу, пол говорящего, его принадлежность к выдвинувшей его политической партии, членство говорящего в комитетах Парламента. Аннотация также включает информацию о пар-

тии, которую представляет говорящий (например, указывается доля представителей данной партии в Парламенте на момент записи речи). Помимо этого, аннотация включает сведения о составе Парламента, действующего на момент записи, сроках его полномочий; дате и времени записи каждой конкретной речи, ее продолжительности, количестве заданных вопросов по обсуждаемой теме. Также приводятся ключевые слова, определяющие тему обсуждения.

В статье описывается пилотное исследование, проведенное на основе данного корпуса с использованием метода машинного обучения и направленное на идентификацию принадлежности говорящего к той или иной партий норвежского Парламента. Разработанный классификатор продемонстрировал хорошие результаты. Полученные в ходе исследования данные свидетельствуют о том, что точность идентификации в значительной мере зависит от параметров коммуникативной ситуации, в которой осуществляется взаимодействие сторон: проще идентифицировать принадлежность говорящих к партиям, которые находятся в оппозиции друг к другу. Точность классификации зависит от обсуждаемой темы: показатели идентификации выше, когда речь идет о вопросах, относящихся к сугубо политической сфере.

В работе П. Зеласко и коллег [AGH corpus of Polish speech, 2016] описывается корпус устной польской речи, собранный с целью применения в системах автоматического распознавания речи (automatic speech recognition = ASR) и системах преобразования текста в речь (text-to-speech = TTS). Корпус содержит образцы монологической устной речи, относящейся к следующим категориям: чтение предложений (39%), произнесение голосовых команд (26), фонетически сбалансированный обучающий подкорпус (18), записи телефонных переговоров (11) и др. (6%). Общая продолжительность звучащий речи в корпусе составляет 25 час. 38 мин. в исполнении 166 носителей польского языка (большинство в возрасте от 20 до 35 лет, одна треть из них - женщины). Корпус содержит 117 450 слов (13 784 слова являются уникальными), около половины из этих слов встречается в корпусе один раз. Тематически представленная в корпусе речь охватывает сферы политики, экономики и права. Большая часть речевого материала представлена в виде семантически согласованных высказываний, построенных с использованием простого, естественного синтаксиса. Встречающиеся

в речи говорящих заимствованные и / или фонетически неоднозначные слова скорректированы для улучшения результатов автоматической фонетической транскрипции. Частота встречаемости слов является репрезентативной для корпуса на польском языке.

Корпус был разработан в первую очередь для обучения ASR-систем. В ходе тестирования было показано, что он хорошо справляется с этой задачей: обученная на основе корпуса система SARMATA ASR достигла результата 91,9% правильного распознавания фраз во время перекрестной проверки на разработанном корпусе. Дополнительная оценка в сравнительном тексте с корпусом CORPORA показала значительное увеличение скорости распознавания фраз в пользу разработанного корпуса. Авторы приходят к выводу, что созданный ими корпус может применяться в качестве отправной точки для разработки широкого круга приложений, однако в каждом конкретном случае будут необходимы дополнительные данные для разработки конкретной ASR-системы.

В статье С. Ямамото и коллег [Multimodal corpus..., 2015] представлены результаты исследования на основе авторского мультимодального корпуса японской и английской устной речи. Задачей исследователей было определение различий в коммуникативных действиях одних и тех же собеседников на родном (японском) и изучаемом (английском) языках. В эксперименте участвовали 60 незнакомых друг с другом носителей японского языка в возрасте 18-24 лет. Каждая группа из трех человек записывалась в двух сессиях: 1) обсуждение на свободную тему (хобби, планы на выходные, учеба, путешествия), 2) обсуждение на заданную тему (участники совместно решали, что взять с собой в поездку на необитаемый остров или в горы) - сначала на родном языке, затем на изучаемом. Каждая коммуникативная сессия длилась 6 мин. В это время велась аудио- и видеозапись, а также регистрировались движения глаз коммуникантов. Затем испытуемые отвечали на вопросы анкеты, в которых предлагалось описать коммуникацию в целом, партнеров по коммуникации, оценить уровень владения языком партнеров по коммуникации, их интерес к теме обсуждения и дать оценку содержанию беседы. Полученные данные были сведены в мультимодальный корпус (общая длительность звучащей речи составила 8 час.). Речь говорящих аннотировалась вручную.

В ходе качественного и количественного видов анализа полученных данных авторы пришли к выводу, что по сравнению с показателями коммуникации на родном языке на изучаемом языке общая и средняя длительность высказывания была меньше, а длительность пауз (молчания) - больше, что, по мнению исследователей, свидетельствует о трудностях, испытываемых говорящими на изучаемом (английском) языке. Отмечается, что во время коммуникации на родном языке собеседники больше смотрят друг на друга, чем во время беседы на изучаемом языке.

Полученный в ходе исследования мультимодальный корпус и результаты сопоставления в двух режимах взаимодействия на родном и изучаемом языках могут быть применены при разработке гуманоидных роботов или диалоговых систем, предназначенных для опосредованного компьютером обучения иностранному языку применительно к паре языков «японский как родной - английский как изучаемый иностранный язык».

Список литературы

AGH corpus of Polish speech / Zelasko P., Zio 'Iko B., Jadczyk T., Skurzok D. // Lang Resources a. Evaluation. - 2016. - Vol. 50. - P. 585-601. - DOI: 10.1007/s10579-015-9302-y.

Multimodal corpus of multiparty conversations in L1 and L2 languages and findings obtained from it / Yamamoto S., Taguchi K., Ijuin K., Umata I., Nishida M. // Lang Resources a. Evaluation. - 2015. - Vol. 49. - P. 857-882. - DOI: 10.1007/s10579-015-9299-2.

The Talk of Norway: A richly annotated corpus of the Norwegian parliament, 1998-2016 / Lapponi E., Seyland M.G., Velldal1 E., Oepen S. // Lang Resources a. Evaluation. - 2018. - Vol. 52. - P. 873-893. - Mode of access: https://doi.org/ 10.1007/s10579-018-9411-5.

ЛИНГВИСТИЧЕСКАЯ ПОЭТИКА

2019.03.020. ФАТЕЕВА НА. ПОЭЗИЯ КАК ФИЛОЛОГИЧЕСКИЙ ДИСКУРС. - М.: Издат. Дом ЯСК, 2017. - 360 с. - Библиогр.: с. 327-350.

Ключевые слова: поэтический текст; метаязыковая рефлексия; индивидуальные метапоэтики; метаязык и креативность в

i Надоели баннеры? Вы всегда можете отключить рекламу.