Научная статья на тему 'Корпусные исследования в лингвистике: письменный текст'

Корпусные исследования в лингвистике: письменный текст Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
390
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПАРАЛЛЕЛЬНЫЙ ТЕКСТ / БАСКСКИЙ ЯЗЫК / УПРОЩЕННЫЙ ЯЗЫК / АННОТАЦИЯ / ТЕКСТОВЫЙ КОРПУС / НАУЧНЫЙ ТЕКСТ / ЯПОНСКИЙ ЯЗЫК / СБАЛАНСИРОВАННЫЙ КОРПУС / ЧАСТЕРЕЧНАЯ РАЗМЕТКА / МОРФОСИНТАКСИЧЕСКИЙ АНАЛИЗ / АНГЛИЙСКИЙ ЯЗЫК / СОГЛАСИЕ МЕЖДУ АННОТАТОРАМИ / СУБЪЕКТИВНОСТЬ / МНЕНИЕ / ОЦЕНКА / СИСТЕМНО-ФУНКЦИОНАЛЬНАЯ ЛИНГВИСТИКА
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Комалова Л.Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Корпусные исследования в лингвистике: письменный текст»

Автор определяет четыре основных вектора в рамках выделенных им параметров: изменение собственного характера (сверхзадача, персонализм, скрытность, отъединение), обращение к новой методике (воображение, парадоксальность, интуиция, дивергентное мышление, дискретность), неучет общественного мнения и его опровержение (идиография, персонализм, десеманти-зация, сверхобучение, наука и душа, учеба в других странах), уважение к случайному параметру (классика, удовольствие, увлеченность) [с. 128].

Автор приходит к заключению, что «сверх работает как мотив собственных дальновидных действий (сверхмногодетность, сверхдолголетие, работоспособность в количественном раскладе), но с другой стороны, сверх распространяется на качество делаемого <...>. Мы не вправе игнорировать эту сторону, хотя она касается личных для человека мотивов уже применительно к частным случаям, но мотивов важных, краеугольных. И многое упирается в язык - такой, чтобы нам захотелось поработать и над качеством делаемого тоже» [там же].

В заключительном разделе работы рассматривается способность языка служить инструментом управления. Автор пишет о необходимости введения в обиход новых слов, новых метафор, «вдохновляющих, настраивающих, пробуждающих» [с. 132], способствующих достижению сверхрезультатов и сверхуспехов. Источником таких слов и метафор могут стать терминосистемы точных наук, древние языки, в том числе церковнославянский, малоизвестные или недостаточно популяризованные афоризмы и отчасти диалектизмы. При этом автор предостерегает от изобретения искусственных слов, ратуя за «усиление отдельных слов, отдельных метафор, которые бы работали на аутосуггестивном уровне, поощряя, в том числе, и на важные для страны действия» [с. 137].

А.В. Нагорная

КОРПУСНАЯ ЛИНГВИСТИКА

2019.03.018. Л.Р. КОМАЛОВА. КОРПУСНЫЕ ИССЛЕДОВАНИЯ В ЛИНГВИСТИКЕ: Письменный текст. (Обзор).

Ключевые слова: параллельный текст; баскский язык; упрощенный язык; аннотация; текстовый корпус; научный текст;

японский язык; сбалансированный корпус; частеречная разметка; морфосинтаксический анализ; английский язык; согласие между аннотаторами; субъективность; мнение; оценка; системно-функциональная лингвистика.

В работе И. Гонсалес-Дьос и коллег [Gonzalez-Dios et al., 2018] представлен корпус текстов на баскском языке (the corpus of Basque simplified texts (CBST)), состоящий из 227 оригинальных предложений по тематике «популяризация науки (социальные науки, медицина и технология)». Каждое предложение дополнено двумя версиями на упрощенном1 баскском, которые были созданы на основе: 1) структурного подхода судебным переводчиком с учетом простых для восприятия руководств и инструкций, и 2) интуитивного подхода учителем, полагающимся на личный переводческий опыт. Целью исследования был сравнительный анализ версий, созданных на основе упрощенного языка.

Описываемая в статье методика аннотирования может быть использована в качестве прототипа для создания аннотаций для подобного типа текстовых корпусов. Аннотация учитывает такие операции, как удаление, объединение, разбиение, преобразование, вставка, переупорядочение, отсутствие операций и др. Анализ аннотированных текстов на упрощенном баскском языке показал, что по сравнению с оригинальным текстом в текстах на упрощенном языке возросло количество предложений (оба подхода) и слов (только в случае применения структурного подхода). Соответственно, средняя длина предложения сократилась, особенно при адаптации на основе интуитивного подхода.

1 Понятие «упрощенный (естественный) язык» (Controlled natural language) было предложено, в частности, для исследовательского поля Семантической Сети (Semantic Web) с целью преодоления проблемы, заключающейся в том, что люди, не знакомые с формальными обозначениями, часто с трудом понимают формальные языки [Kuhn - эл. ресурс]. Упрощенный (или технический) язык является подвидом естественного языка. Его получают ограничением в использовании грамматики, терминологии и речевых оборотов посредством регламентирующих правил с тем, чтобы снизить или искоренить его многозначность и сложность. По задачам создания упрощенные языки подразделяются на две группы: в одной все усилия направлены на повышение удобочитаемости для человека (например, для тех, для кого язык текста не является родным); в другой эти меры направлены на создание языка, надежного в плане автоматического семантического анализа [Controlled Natural Languages - эл. ресурс]. - Прим. реф.

Преобразование текста при создании упрощенной версии является наиболее частотной операцией (24,92% в структурном подходе и 33,62% в интуитивном). Вторая наиболее частотная операция отличается применяемыми подходами: переводчик использовал операцию разбиения (23,55%) в структурном подходе, в то время как учитель стремился использовать операцию удаления (20,78%) в интуитивном. Менее частыми являются операции слияния и др. Предложения, которые не были упрощены (отсутствие операций), чаще встречаются при интуитивном подходе (6,20%), чем при структурном (3,53%). Доли операций переупорядочения, вставки и удаления схожи для двух подходов. Операция разделения при структурном подходе использовалась чаще, чем при интуитивном. Чаще всего при преобразовании оригинального текста производились синтаксические преобразования. Под операцию разделения попадали сложносочиненные и придаточные предложения.

Описываемый в работе [Balanced corpus, 2014] корпус письменных текстов на современном японском языке (the balanced corpus of contemporary written Japanese (BCCWJ)) состоит из 100 млн слов и соизмерим с актуальным Национальным корпусом британского варианта английского языка (British National Corpus (BNC)). Корпус включает три подкорпуса: 1) публикации (книги, журналы, газеты), 2) библиотека (книги), 3) материалы специального назначения (информационные бюллетени (white papers1), тексты с доски объявлений (Yahoo! Chiebukuro), тексты блогов (Yahoo! Blog), книги-бестселлеры, школьные учебники, рекламные бюллетени органов местного самоуправления, законодательные акты, стихи). Первый подкорпус (особенно в части книг и журналов) представляет наибольший интерес для исследователей, так как он представлен материалами ограниченного доступа.

В статье подробно описываются состав каждого подкорпуса и методика аннотирования, включающая морфосинтаксическую разметку, аннотацию структуры документа и метаданные. Приво-

1 Майкл Стелзнер определяет white paper как документ, который рассматривает проблему, с которой сталкиваются читатели, предлагает убедительные аргументы в пользу конкретного подхода к решению этой проблемы, и объясняет, почему он является предпочтительным. [Что такое white paper - эл. ресурс]. -Прим. реф.

дятся сведения о распределении частей речи в корпусе, указываются заимствования, определяются аббревиатуры и сокращения.

Результаты предварительного анализа материалов корпуса свидетельствуют о том, что тексты, попадающие в категории «газета» и «информационные бюллетени», основной функцией которых является передача фактов, содержат большее число имен существительных и меньшее число наречий. Тексты, размещенные на доске объявлений и в блогах, функция которых состоит в выражении субъективного мнения, содержат меньшее число имен существительных и большее число наречий. Самые низкие значения энтропии орфографических вариаций характеризуют категорию «информационные бюллетени», далее «газеты». Тексты блогов и журналов характеризуются наибольшей вариативностью имен существительных. Наиболее длинные предложения отличают тексты информационных бюллетеней, в то время как наиболее короткие предложения используются для создания интернет-текстов (сообщений в блогах и на доске объявлений).

Статья Дж. Рид и Дж. Каролл [Read, Carroll, 2012] посвящена вопросу аннотирования оценочных высказываний применительно к корпусу книжных рецензий, опубликованных в сетевых версиях таких британских газет, как «The Guardian», «The Independent», «The Telegraph» и «The Times». Оценка определяется в терминах системно-функциональной лингвистики (a systematic functional linguistic theory).

Корпус состоит из 38 документов, содержащих в общей сложности 36 997 слов. Аннотация проводилась вручную. Два аннотатора должны были выделить в текстах рецензий оценочные элементы (n = 32 в соответствии с типами оценки) и указать их тональность («позитивная» / «негативная» для выражения отношения к рецензируемой книге и «выше» / «ниже» для выражения глубины оценки). Уровень согласия между аннотаторами снижался по мере конкретизации того или иного типа оценочного элемента. Согласия было легче достичь при определении оценочных элементов, указывающих на отношение рецензента к объекту.

Список литературы

Что такое white paper? - Режим доступа: https://flavita.ru/blog/chto-takoe-white-paper (Дата обращения: 27.01.2019 г.)

Balanced corpus of contemporary written Japanese / Maekawa K., Yamaza-ki M., Ogiso T., Maruyama T., Ogura H., Kashino W., Koiso H., Yamaguchi M., Tanaka M., Den Ya. // Lang Resources a. Evaluation. - 2014. - Vol. 48. - P. 345-371. -DOI: 10.1007/s10579-013-9261-0.

Controlled Natural Languages. - Режим доступа: https://sites.google.com/site/ controllednaturallanguage/ (Дата обращения: 27.01.2019 г.)

Gonzalez-Dios I., Jesús Aranzabe M., Díaz de Ilarraza A. The corpus of Basque simplified texts (CBST) // Lang Resources a. Evaluation. - 2018. - Vol. 52. - P. 217247. - Mode of accessI: https://doi.org/10.1007/s10579-017-9407-6

Kuhn T. An evaluation framework for Controlled Natural Languages. - Mode of access: https://www.researchgate.net/publication/221477900_An_Evaluation_Framewor k_for_Controlled_Natural_Languages (Дата обращения: 27.01.2019 г.)

Read J., Carroll J. Annotating expressions of appraisal in English // Lang Resources a. Evaluation. - 2012. - Vol. 46. - P. 421-447. - DOI: 10.1007/s10579-010-9135-7.

2019.03.019. Л.Р. КОМАЛОВА. КОРПУСНЫЕ ИССЛЕДОВАНИЯ В ЛИНГВИСТИКЕ: Устная речь. (Обзор).

Ключевые слова: корпусная лингвистика; устная речь; норвежский язык; польский язык; японский язык; английский язык; аннотация; токен; фонетическая разметка; автоматическое распознавание речи; преобразование текста в речь; классификатор; автоматическая обработка естественного языка; звучащий текст; транскрипция; монологическая речь; монолог; диалог; мультимодальность; обучение иностранному языку.

В работе Е. Лаппони и коллег [The Talk of Norway, 2018] представлен корпус «Talk of Norway» (ToN), который состоит из аннотированных аудиозаписей (n = 250 373) выступлений представителей норвежского Парламента с 1998 по 2016 г. Каждая аудиозапись снабжена внушительным набором метаданных (83 параметров), в числе которых указывается язык коммуникации, представлена разбивка по предложениям, проведена токенизация, лемматизация, размечены просодические и морфологические параметры речи. Кроме того аннотация включает ряд нелингвистических параметров, таких как описание конкретного говорящего, его принадлежность к определенному министерству, его позицию по обсуждаемому вопросу, пол говорящего, его принадлежность к выдвинувшей его политической партии, членство говорящего в комитетах Парламента. Аннотация также включает информацию о пар-

i Надоели баннеры? Вы всегда можете отключить рекламу.