Научная статья на тему 'МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ "КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ-2020": ДОКЛАДЫ ПО НЕМАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКЕ'

МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ "КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ-2020": ДОКЛАДЫ ПО НЕМАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКЕ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
64
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕМАНТИКА / СИНТАКСИС / КОРПУСНАЯ ЛИНГВИСТИКА / МУЛЬТИМОДАЛЬНОСТЬ / ФОРМАЛЬНЫЕ МОДЕЛИ ЯЗЫКА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кобозева Ирина Михайловна, Пиперски Александр Чедович, Федорова Ольга Викторовна

Резюмируется содержание докладов, прочитанных в рамках трех собственно лингвистических секций Международной конференции «Компьютерная лингвистика и интеллектуальные технологии - 2020» (17-20 июня 2020 г., онлайн): «Лингвистическая корпусная семантика», «Лингвистические модели языка» и «Мультимодальность», в работе которых принимали участие известные ученые из университетов и академических институтов Москвы и Санкт-Петербурга, а также из Женевского и Саарского университетов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Кобозева Ирина Михайловна, Пиперски Александр Чедович, Федорова Ольга Викторовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTERNATIONAL CONFERENCE COMPUTATIONAL LINGUISTICS AND INTELLECTUAL TECHNOLOGIES-2020 : PAPERS ON NON-MATHEMATICAL LINGUISTICS

The paper summarizes the content of the papers, presented in the three non-mathematical linguistic sections of the international conference “Computational linguistics and intellectual technologies-2020” (17-20 June 2020, online): “Linguistic Corpus Semantics”, “Linguistic Models of Language” and “Multimodality”, which gathered renowned scholars from the universities and Academy institutions of Moscow and St. Petersburg, as well as colleagues from Geneva and Saar.

Текст научной работы на тему «МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ "КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ-2020": ДОКЛАДЫ ПО НЕМАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКЕ»

Вестник Московского университета. Серия 9. Филология. 2020. № 6

И.М. Кобозева, А.Ч. Пиперски, О.В. Федорова

МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ-2020»: ДОКЛАДЫ ПО НЕМАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКЕ

Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М.В. Ломоносова» 119991, Москва, Ленинские горы, 1

Федеральное государственное бюджетное образовательное учреждение высшего образования «Российский государственный гуманитарный университет» Москва, 125993, Миусская пл., 6

Резюмируется содержание докладов, прочитанных в рамках трех собственно лингвистических секций Международной конференции «Компьютерная лингвистика и интеллектуальные технологии — 2020» (17—20 июня 2020 г., онлайн): «Лингвистическая корпусная семантика», «Лингвистические модели языка» и «Мультимодальность», в работе которых принимали участие известные ученые из университетов и академических институтов Москвы и Санкт-Петербурга, а также из Женевского и Саарского университетов.

Ключевые слова: семантика; синтаксис; корпусная лингвистика; муль-тимодальность; формальные модели языка.

Ежегодная конференция «Компьютерная лингвистика и интеллектуальные технологии»1, одним из организаторов которой является филологический факультет МГУ, в этом году проводилась в режиме онлайн, тем не менее в конференции приняло участие около 600 человек. Эта самая крупная и авторитетная отечественная конференция в своей области за долгую историю своего существования менялась вместе с компьютерной лингвистикой в сторону все большего веса чисто математических методов в решении стоящих перед ней задач. Тем не менее собственно лингвистика остается необходимой составляющей этой междисциплинарной области, и, как и прежде, ряд секций был посвящен результатам исследований, в

Кобозева Ирина Михайловна — доктор филологических наук, профессор МГУ имени М.В. Ломоносова (e-mail: kobozeva@phiIol.msu.ru).

Пиперски Александр Чедович — кандидат филологических наук, доцент Института лингвистики РГГУ (e-mail: apiperski@gmaiI.com).

Федорова Ольга Викторовна — доктор филологических наук, профессор МГУ имени М.В. Ломоносова (e-mail: olga.fedorova@msu.ru).

1 Второе традиционное название этой конференции — «Диалог». URL: http:// www.diaIog-21.ru

которых методы математической статистики или языки формальной логики если и использовались, то для более глубокого проникновения в суть языковых явлений и более точного их моделирования. Мы и обратимся к работе именно таких, «нематематических», секций.

На секции «Лингвистическая корпусная семантика» обсуждалось, как решать проблемы лексической и грамматической семантики с опорой на объективные данные, извлекаемые из лингвистических корпусов. А.Н. Баранов иД.О. Добровольский (ИРЯ РАН) продемонстрировали, что в языке русской прозы XIX в. возрастает роль маркеров эпистемической модальности: конечно, по-видимому, как кажется и т.п. С опорой на Национальный корпус русского языка (НКРЯ) они установили, что это изменение свойственно как раз тем писателям, которых выше всего ценят историки литературы. И.Б. Ле-вонтина (ИРЯ РАН) проанализировала класс единиц, которые служат для выражения намеренного приуменьшения (understatement) и сарказма: у меня ноги не казённые вообще-то как бы; я, если что, гуманитарий; я на минуточку твой тесть. Похожее явление рассматривала в докладе и Анна А. Зализняк (ИЯ РАН): она изучала семантику слова как бы, которое может выступать в значении аппроксиматора (замахалруками, как бы приглашая бездомного к очагу), показателя эпистемической неопределённости (равнодушно сказала Анна, как бы мало интересуясь этим) и, наконец, показателя смягчения, близкого к сарказму (я как бы беременна). Анализ этих маркеров важен и для автоматического анализа текстов, и для лингвистической экспертизы, поскольку сарказм — одно из тех явлений, которые хуже всего поддаются формальному выделению. В докладе А.Д. Шмелева (ИРЯ РАН) речь шла о лингвоспецифичной лексике в свете параллельных корпусов: исследуя слово тоска, докладчик показал, что для уточнения его семантического описания более полезными, как ни удивительно, оказываются переводы на русский, чем с русского, поскольку именно они отражают спонтанную речевую деятельность носителя языка. В дискуссии после доклада живо обсуждались достоинства и недостатки различных параллельных корпусов: в частности, речь шла о том, насколько можно доверять параллельному корпусу субтитров к фильмам OpenSubtitles.

Два доклада петербургских лингвистов из РГПУ им. А.И. Герцена были посвящены использованию корпусных методов в русской аспектологии. Анализ частотности по НКРЯ и по Интернету позволил О.Ю. Чуйковой оценить, насколько хорошо имперфективируются глаголы на по-, относящиеся к различным семантическим и словообразовательным классам, в частности к разным способам глагольного действия (например, поахать, полечь и погнать). В докладе Е.В. Горбовой на материале НКРЯ речь шла о том, как изменялись во времени видовые тройки типа гореть — сгореть — сгорать и как полученные данные интерпретируются в рамках предложенной автором двухкомпонентной теории русского вида. Б.Л. Иомдин (ИРЯ РАН) и Д.А. Морозов (ИППИ РАН) в своем докладе показали, как применять корпусные и компьютерные методы к изучению паронимов: они предложили количественную методику оценки коварности слова — того, насколько вероятно, что носитель языка считает, что знает значение слова, но на самом деле знает его неправильно; примером может служить слово зябь 'осеннее вспаханное поле', которое многие путают с зыбь.

Хотя направление, которому посвящена эта секция, постепенно сжимается в объеме, для лингвистов — участников «Диалога» оно остается одним из важнейших: активное использование корпусов, причем для получения не только примеров, но и статистических оценок, позволяет узнать о семантике много нового.

В секции «Лингвистические модели языка» были представлены доклады, в которых анализ частных феноменов русского языка приводил к теоретически или методологически значимым выводам и обобщениям. Г.И. Кустова (ИРЯ РАН), проанализировав вводные конструкции с глаголом мнения и союзом как, показала, что значение времени глагола влияет на интерпретацию предложения: при настоящем времени (как я думаю) оно понимается как предположение с нейтральным статусом, при прошедшем (как я думал) — как неправильное предположение. На основе проведенного анализа был сделан вывод о том, что эти конструкции занимают промежуточное положение между соответствующими им главными клаузами и вводными словами. Они взаимодействуют с пропозицией более сложным образом, чем соответствующие главные клаузы, и это должно отражаться в правилах их интерпретации. О.Ю. Инькова (ФИЦ ИУ РАН; Женевский университет) на примере союза или продемонстрировала, что метод построения полипараметрической надкорпусной базы данных единиц определенного типа позволяет выявить новые черты в «портрете», казалось бы, досконально изученной языковой единицы. Количественный анализ употреблений союза или, размечаемых в БД коннекторов по шести параметрам (выражаемое логико-семантическое отношение, синтаксический тип вводимого текстового фрагмента, позиция в нем союза, линейный порядок соединяемых фрагментов, морфологический статус в контексте, положение в составе многокомпонентного коннектора, ср. или... или просто), продемонстрировал специфику его синтаксических и семантических свойств на фоне других сочинительных союзов, ранее ускользавшую от внимания исследователей. Доклад Б.Л. Иомдина (ИРЯ РАН) и Л.Л. Иомдина (ИППИ РАН) был посвящен валентной структуре иллокутивных глаголов речи, в значении которых на определенной стадии семантического разложения обнаруживается отрицание (возражать, возмущаться и др.). Было показано, что такие предикаты включают не одну пропозициональную валентность содержания, а две: (1) валентность стимула, (например, Иван извинился, что не пришел на мой день рождения), и (2) валентность реакции (например, Иван извинился, что плохо себя чувствовал). Авторы предложили обобщение этого явления и на другие типы валентных пар и выдвинули гипотезу о существовании предикатов, имеющих два валентных центра. А.В. Циммерлинг (ГИРЯ им. А.С. Пушкина, ИЯ РАН) представил результаты корпусного анализа распределения трех форм настоящего времени глагола быть в современном русском языке (0, есть и суть). По мнению автора, в языке, в котором нулевые синтаксические формы постепенно замещают явные, «угрожаемый» статус последних может быть выявлен с помощью двух метрик: 1) низкой частотности и неравномерного распределения по текстам; 2) неравномерного распределения по лицам и числам. Для истории же русского языка требуется еще одна метрика: 3) неравномерное распределение связочных и полнозначных употреблений для каждой из лично-числовых форм. За-

вершил секцию доклад С.Г. Татевосова (МГУ) и К.Л. Киселевой (ИРЯ РАН), посвященный моделированию семантики наречия обратно как одного из репетитивных и реститутивных наречий. Авторы выявили его особенности: обязательность реститутивной интерпретации, узкая сфера действия по отношению к неопределенным именным группам, несовместимость с событийными дескрипциями, влекущими особый тип результирующего состояния, пресуппозиция прерванного состояния. Было продемонстрировано, что уже имеющиеся в аппарате формальной семантики понятия межвременной идентичности и межвременного подсостояния позволяют адекватно репрезентировать семантику данного наречия и объяснить на этой основе все наблюдаемые особенности его семантики и сочетаемости. Отдельные корпусные примеры, иллюстрировавшие свойства обратно (например, От дурачков умный ушел уже дурачком. Он вернулся к умным, и вскоре поумнел обратно [proza.ru]), вызвали у ряда слушателей сомнение в их семантической правильности, что по завершении доклада вызвало оживленную дискуссию о «двойных стандартах»: правомерно ли утверждать, что «того, чего нет в корпусе, нет и в языке», и одновременно отказывать в статусе фактов языка тем корпусным данным, которые кажутся тому или иному лингвисту «неправильными».

В последний день конференции прошла секция «Мультимодальность», проведение которой уже стало на «Диалоге» доброй традицией. Доклады, представленные в этом году, отличались удивительным разнообразием: среди них были как экспериментальные исследования, так и корпусные; посвященные описанию как устной речи, так и письменной; затрагивающие как порождение речи, так и понимание.

Открыл заседание доклад психолингвистов Д.А. Черновой, С.В. Алексеевой и Н.А. Слюсарь (СПбГУ), посвященный проблеме орфографических ошибок, которая стала особенно актуальной с появлением текстов без корректорской правки. Авторы показали, что слова, в которых люди часто допускают ошибки, являются сложными для восприятия даже в том случае, когда они написаны правильно. В докладе психолингвистов с кафедры ТиПЛ филфака МГУ А.В. Олениковой и О.В. Федоровой рассматривался феномен «совместного синтаксиса», когда второй участник достраивает конструкцию, начатую первым участником. В ходе эксперимента с «тан-граммами» — карточками китайской головоломки было установлено, что в диалогах с заикающимися людьми «совместный синтаксис» встречается значимо чаще. В докладе В.И. Подлесской (РГГУ) было детально исследовано русское указательное местоимение тот. Оказалось, что использование конструкций с тот в устной речи существенно отклоняется от прототипа, ранее выявленного для письменных текстов. Т.Е. Янко (ИЯ РАН, ГИРЯ) рассказала об анализе наречия давно по данным звучащего корпуса, внеся несколько существенных уточнений в известную гипотезу о неспособности давно служить темой предложения. Доклад «Дистрибутивный анализ речевых сбоев в русском устном монологическом дискурсе» был представлен коллективом московских авторов из РГГУ и с кафедры ТиПЛ филфака МГУ Н.А. Коротаевым, В.И. Подлесской, К.В. Смирновой и О.В. Федоровой. На материале корпуса «Рассказы и разговоры о грушах» авторы описали речевые сбои с парадигматических позиций и показали, что их кластериза-

ция является более частотным явлением, чем изолированное употребление. Сотрудники Саарского университета в Германии И. Штенгер и Т. Авгу-стинова в докладе «Понимание болгарских слов-стимулов в письменной и устной формах носителями русского языка» рассказали о проведенном исследовании понятности болгарских слов для носителей русского языка при свободном переводе слов-когнатов. В докладе А.В. Корзуна (МФТИ) «Автоматическая генерация жестов и мимики: современные DL подходы» были рассмотрены современные зарубежные исследования автоматической генерации жестов и мимики на основе обучающих корпусов при помощи метода «глубокого обучения». Завершилась секция докладом «Восприятие эмоциональных жестов и речи робота детьми, решающими пространственную головоломку», представленным А.А. Зининой, Л.Ю. Зайдельман, А.А. Ко-товым и Н.А. Аринкиным (Курчатовский институт, РГГУ). На материале головоломки «танграммы» был проведен эксперимент, в результате которого авторы установили, что эмоциональные жесты и речь робота вносят важный вклад в привлекательность робота для ребенка 10 лет.

Irina Kobozeva, Alexander Piperski, Olga Fedorova

INTERNATIONAL CONFERENCE COMPUTATIONAL

LINGUISTICS AND INTELLECTUAL TECHNOLOGIES-2020:

PAPERS ON NON-MATHEMATICAL LINGUISTICS

Lomonosov Moscow State University

1 Leninskie Gory, Moscow, 119991

Russian State University for the Humanities

6 Miusskaya square, Moscow, 125993

The paper summarizes the content of the papers, presented in the three non-mathematical linguistic sections of the international conference "Computational linguistics and intellectual technologies-2020" (17-20 June 2020, online): "Linguistic Corpus Semantics", "Linguistic Models of Language" and "Multimoda-lity", which gathered renowned scholars from the universities and Academy institutions of Moscow and St. Petersburg, as well as colleagues from Geneva and Saar.

Key words: semantics; syntax; morphology; corpus linguistics; multimodality; formal models of language.

About the authors: Irina Kobozeva — Prof. Dr., Department of Theoretical and Applied Linguistics, Faculty of Philology, Lomonosov Moscow State University (e-mail: koboz@philol.msu.ru); Alexander Piperski — PhD, Associate Professor, Institute of Linguistics, Russian State University for the Humanities (e-mail: apiperski@gmail.com); Olga Fedorova — Prof. Dr., Department of Theoretical and Applied Linguistics, Faculty of Philology, Lomonosov Moscow State University (e-mail: olga.fedorova@msu.ru).

i Надоели баннеры? Вы всегда можете отключить рекламу.