Вестник Московского университета. Серия 9. Филология. 2020. № 6
И.М. Кобозева, А.Ч. Пиперски, О.В. Федорова
МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ «КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ ТЕХНОЛОГИИ-2020»: ДОКЛАДЫ ПО НЕМАТЕМАТИЧЕСКОЙ ЛИНГВИСТИКЕ
Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М.В. Ломоносова» 119991, Москва, Ленинские горы, 1
Федеральное государственное бюджетное образовательное учреждение высшего образования «Российский государственный гуманитарный университет» Москва, 125993, Миусская пл., 6
Резюмируется содержание докладов, прочитанных в рамках трех собственно лингвистических секций Международной конференции «Компьютерная лингвистика и интеллектуальные технологии — 2020» (17—20 июня 2020 г., онлайн): «Лингвистическая корпусная семантика», «Лингвистические модели языка» и «Мультимодальность», в работе которых принимали участие известные ученые из университетов и академических институтов Москвы и Санкт-Петербурга, а также из Женевского и Саарского университетов.
Ключевые слова: семантика; синтаксис; корпусная лингвистика; муль-тимодальность; формальные модели языка.
Ежегодная конференция «Компьютерная лингвистика и интеллектуальные технологии»1, одним из организаторов которой является филологический факультет МГУ, в этом году проводилась в режиме онлайн, тем не менее в конференции приняло участие около 600 человек. Эта самая крупная и авторитетная отечественная конференция в своей области за долгую историю своего существования менялась вместе с компьютерной лингвистикой в сторону все большего веса чисто математических методов в решении стоящих перед ней задач. Тем не менее собственно лингвистика остается необходимой составляющей этой междисциплинарной области, и, как и прежде, ряд секций был посвящен результатам исследований, в
Кобозева Ирина Михайловна — доктор филологических наук, профессор МГУ имени М.В. Ломоносова (e-mail: kobozeva@phiIol.msu.ru).
Пиперски Александр Чедович — кандидат филологических наук, доцент Института лингвистики РГГУ (e-mail: apiperski@gmaiI.com).
Федорова Ольга Викторовна — доктор филологических наук, профессор МГУ имени М.В. Ломоносова (e-mail: olga.fedorova@msu.ru).
1 Второе традиционное название этой конференции — «Диалог». URL: http:// www.diaIog-21.ru
которых методы математической статистики или языки формальной логики если и использовались, то для более глубокого проникновения в суть языковых явлений и более точного их моделирования. Мы и обратимся к работе именно таких, «нематематических», секций.
На секции «Лингвистическая корпусная семантика» обсуждалось, как решать проблемы лексической и грамматической семантики с опорой на объективные данные, извлекаемые из лингвистических корпусов. А.Н. Баранов иД.О. Добровольский (ИРЯ РАН) продемонстрировали, что в языке русской прозы XIX в. возрастает роль маркеров эпистемической модальности: конечно, по-видимому, как кажется и т.п. С опорой на Национальный корпус русского языка (НКРЯ) они установили, что это изменение свойственно как раз тем писателям, которых выше всего ценят историки литературы. И.Б. Ле-вонтина (ИРЯ РАН) проанализировала класс единиц, которые служат для выражения намеренного приуменьшения (understatement) и сарказма: у меня ноги не казённые вообще-то как бы; я, если что, гуманитарий; я на минуточку твой тесть. Похожее явление рассматривала в докладе и Анна А. Зализняк (ИЯ РАН): она изучала семантику слова как бы, которое может выступать в значении аппроксиматора (замахалруками, как бы приглашая бездомного к очагу), показателя эпистемической неопределённости (равнодушно сказала Анна, как бы мало интересуясь этим) и, наконец, показателя смягчения, близкого к сарказму (я как бы беременна). Анализ этих маркеров важен и для автоматического анализа текстов, и для лингвистической экспертизы, поскольку сарказм — одно из тех явлений, которые хуже всего поддаются формальному выделению. В докладе А.Д. Шмелева (ИРЯ РАН) речь шла о лингвоспецифичной лексике в свете параллельных корпусов: исследуя слово тоска, докладчик показал, что для уточнения его семантического описания более полезными, как ни удивительно, оказываются переводы на русский, чем с русского, поскольку именно они отражают спонтанную речевую деятельность носителя языка. В дискуссии после доклада живо обсуждались достоинства и недостатки различных параллельных корпусов: в частности, речь шла о том, насколько можно доверять параллельному корпусу субтитров к фильмам OpenSubtitles.
Два доклада петербургских лингвистов из РГПУ им. А.И. Герцена были посвящены использованию корпусных методов в русской аспектологии. Анализ частотности по НКРЯ и по Интернету позволил О.Ю. Чуйковой оценить, насколько хорошо имперфективируются глаголы на по-, относящиеся к различным семантическим и словообразовательным классам, в частности к разным способам глагольного действия (например, поахать, полечь и погнать). В докладе Е.В. Горбовой на материале НКРЯ речь шла о том, как изменялись во времени видовые тройки типа гореть — сгореть — сгорать и как полученные данные интерпретируются в рамках предложенной автором двухкомпонентной теории русского вида. Б.Л. Иомдин (ИРЯ РАН) и Д.А. Морозов (ИППИ РАН) в своем докладе показали, как применять корпусные и компьютерные методы к изучению паронимов: они предложили количественную методику оценки коварности слова — того, насколько вероятно, что носитель языка считает, что знает значение слова, но на самом деле знает его неправильно; примером может служить слово зябь 'осеннее вспаханное поле', которое многие путают с зыбь.
Хотя направление, которому посвящена эта секция, постепенно сжимается в объеме, для лингвистов — участников «Диалога» оно остается одним из важнейших: активное использование корпусов, причем для получения не только примеров, но и статистических оценок, позволяет узнать о семантике много нового.
В секции «Лингвистические модели языка» были представлены доклады, в которых анализ частных феноменов русского языка приводил к теоретически или методологически значимым выводам и обобщениям. Г.И. Кустова (ИРЯ РАН), проанализировав вводные конструкции с глаголом мнения и союзом как, показала, что значение времени глагола влияет на интерпретацию предложения: при настоящем времени (как я думаю) оно понимается как предположение с нейтральным статусом, при прошедшем (как я думал) — как неправильное предположение. На основе проведенного анализа был сделан вывод о том, что эти конструкции занимают промежуточное положение между соответствующими им главными клаузами и вводными словами. Они взаимодействуют с пропозицией более сложным образом, чем соответствующие главные клаузы, и это должно отражаться в правилах их интерпретации. О.Ю. Инькова (ФИЦ ИУ РАН; Женевский университет) на примере союза или продемонстрировала, что метод построения полипараметрической надкорпусной базы данных единиц определенного типа позволяет выявить новые черты в «портрете», казалось бы, досконально изученной языковой единицы. Количественный анализ употреблений союза или, размечаемых в БД коннекторов по шести параметрам (выражаемое логико-семантическое отношение, синтаксический тип вводимого текстового фрагмента, позиция в нем союза, линейный порядок соединяемых фрагментов, морфологический статус в контексте, положение в составе многокомпонентного коннектора, ср. или... или просто), продемонстрировал специфику его синтаксических и семантических свойств на фоне других сочинительных союзов, ранее ускользавшую от внимания исследователей. Доклад Б.Л. Иомдина (ИРЯ РАН) и Л.Л. Иомдина (ИППИ РАН) был посвящен валентной структуре иллокутивных глаголов речи, в значении которых на определенной стадии семантического разложения обнаруживается отрицание (возражать, возмущаться и др.). Было показано, что такие предикаты включают не одну пропозициональную валентность содержания, а две: (1) валентность стимула, (например, Иван извинился, что не пришел на мой день рождения), и (2) валентность реакции (например, Иван извинился, что плохо себя чувствовал). Авторы предложили обобщение этого явления и на другие типы валентных пар и выдвинули гипотезу о существовании предикатов, имеющих два валентных центра. А.В. Циммерлинг (ГИРЯ им. А.С. Пушкина, ИЯ РАН) представил результаты корпусного анализа распределения трех форм настоящего времени глагола быть в современном русском языке (0, есть и суть). По мнению автора, в языке, в котором нулевые синтаксические формы постепенно замещают явные, «угрожаемый» статус последних может быть выявлен с помощью двух метрик: 1) низкой частотности и неравномерного распределения по текстам; 2) неравномерного распределения по лицам и числам. Для истории же русского языка требуется еще одна метрика: 3) неравномерное распределение связочных и полнозначных употреблений для каждой из лично-числовых форм. За-
вершил секцию доклад С.Г. Татевосова (МГУ) и К.Л. Киселевой (ИРЯ РАН), посвященный моделированию семантики наречия обратно как одного из репетитивных и реститутивных наречий. Авторы выявили его особенности: обязательность реститутивной интерпретации, узкая сфера действия по отношению к неопределенным именным группам, несовместимость с событийными дескрипциями, влекущими особый тип результирующего состояния, пресуппозиция прерванного состояния. Было продемонстрировано, что уже имеющиеся в аппарате формальной семантики понятия межвременной идентичности и межвременного подсостояния позволяют адекватно репрезентировать семантику данного наречия и объяснить на этой основе все наблюдаемые особенности его семантики и сочетаемости. Отдельные корпусные примеры, иллюстрировавшие свойства обратно (например, От дурачков умный ушел уже дурачком. Он вернулся к умным, и вскоре поумнел обратно [proza.ru]), вызвали у ряда слушателей сомнение в их семантической правильности, что по завершении доклада вызвало оживленную дискуссию о «двойных стандартах»: правомерно ли утверждать, что «того, чего нет в корпусе, нет и в языке», и одновременно отказывать в статусе фактов языка тем корпусным данным, которые кажутся тому или иному лингвисту «неправильными».
В последний день конференции прошла секция «Мультимодальность», проведение которой уже стало на «Диалоге» доброй традицией. Доклады, представленные в этом году, отличались удивительным разнообразием: среди них были как экспериментальные исследования, так и корпусные; посвященные описанию как устной речи, так и письменной; затрагивающие как порождение речи, так и понимание.
Открыл заседание доклад психолингвистов Д.А. Черновой, С.В. Алексеевой и Н.А. Слюсарь (СПбГУ), посвященный проблеме орфографических ошибок, которая стала особенно актуальной с появлением текстов без корректорской правки. Авторы показали, что слова, в которых люди часто допускают ошибки, являются сложными для восприятия даже в том случае, когда они написаны правильно. В докладе психолингвистов с кафедры ТиПЛ филфака МГУ А.В. Олениковой и О.В. Федоровой рассматривался феномен «совместного синтаксиса», когда второй участник достраивает конструкцию, начатую первым участником. В ходе эксперимента с «тан-граммами» — карточками китайской головоломки было установлено, что в диалогах с заикающимися людьми «совместный синтаксис» встречается значимо чаще. В докладе В.И. Подлесской (РГГУ) было детально исследовано русское указательное местоимение тот. Оказалось, что использование конструкций с тот в устной речи существенно отклоняется от прототипа, ранее выявленного для письменных текстов. Т.Е. Янко (ИЯ РАН, ГИРЯ) рассказала об анализе наречия давно по данным звучащего корпуса, внеся несколько существенных уточнений в известную гипотезу о неспособности давно служить темой предложения. Доклад «Дистрибутивный анализ речевых сбоев в русском устном монологическом дискурсе» был представлен коллективом московских авторов из РГГУ и с кафедры ТиПЛ филфака МГУ Н.А. Коротаевым, В.И. Подлесской, К.В. Смирновой и О.В. Федоровой. На материале корпуса «Рассказы и разговоры о грушах» авторы описали речевые сбои с парадигматических позиций и показали, что их кластериза-
ция является более частотным явлением, чем изолированное употребление. Сотрудники Саарского университета в Германии И. Штенгер и Т. Авгу-стинова в докладе «Понимание болгарских слов-стимулов в письменной и устной формах носителями русского языка» рассказали о проведенном исследовании понятности болгарских слов для носителей русского языка при свободном переводе слов-когнатов. В докладе А.В. Корзуна (МФТИ) «Автоматическая генерация жестов и мимики: современные DL подходы» были рассмотрены современные зарубежные исследования автоматической генерации жестов и мимики на основе обучающих корпусов при помощи метода «глубокого обучения». Завершилась секция докладом «Восприятие эмоциональных жестов и речи робота детьми, решающими пространственную головоломку», представленным А.А. Зининой, Л.Ю. Зайдельман, А.А. Ко-товым и Н.А. Аринкиным (Курчатовский институт, РГГУ). На материале головоломки «танграммы» был проведен эксперимент, в результате которого авторы установили, что эмоциональные жесты и речь робота вносят важный вклад в привлекательность робота для ребенка 10 лет.
Irina Kobozeva, Alexander Piperski, Olga Fedorova
INTERNATIONAL CONFERENCE COMPUTATIONAL
LINGUISTICS AND INTELLECTUAL TECHNOLOGIES-2020:
PAPERS ON NON-MATHEMATICAL LINGUISTICS
Lomonosov Moscow State University
1 Leninskie Gory, Moscow, 119991
Russian State University for the Humanities
6 Miusskaya square, Moscow, 125993
The paper summarizes the content of the papers, presented in the three non-mathematical linguistic sections of the international conference "Computational linguistics and intellectual technologies-2020" (17-20 June 2020, online): "Linguistic Corpus Semantics", "Linguistic Models of Language" and "Multimoda-lity", which gathered renowned scholars from the universities and Academy institutions of Moscow and St. Petersburg, as well as colleagues from Geneva and Saar.
Key words: semantics; syntax; morphology; corpus linguistics; multimodality; formal models of language.
About the authors: Irina Kobozeva — Prof. Dr., Department of Theoretical and Applied Linguistics, Faculty of Philology, Lomonosov Moscow State University (e-mail: koboz@philol.msu.ru); Alexander Piperski — PhD, Associate Professor, Institute of Linguistics, Russian State University for the Humanities (e-mail: apiperski@gmail.com); Olga Fedorova — Prof. Dr., Department of Theoretical and Applied Linguistics, Faculty of Philology, Lomonosov Moscow State University (e-mail: olga.fedorova@msu.ru).