Научная статья на тему 'Автоматическое определение дискурсивного статуса референта именной группы'

Автоматическое определение дискурсивного статуса референта именной группы Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
234
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА ДИСКУРСА / РАЗРЕШЕНИЕ КОРЕФЕРЕНТНОСТИ / ОПРЕДЕЛЕНИЕ УПОМИНАНИЙ / МАШИННОЕ ОБУЧЕНИЕ / DISCOURSE PROCESSING / COREFERENCE RESOLUTION / MENTION DETECTION / MACHINE LEARNING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Ионов М.И.

В статье предложен метод определения дискурсивного статуса референта именной группы на основе поверхностных признаков этой именной группы. Рассматривается ряд теоретически мотивированных признаков, по которым отличаются именные группы, соответствующие различным статусам референта, проводится два эксперимента по созданию детекторов дискурсивного статуса с использованием этих признаков. Показано, что достаточно простые поверхностные признаки могут улучшить качество таких детекторов по сравнению с простыми эвристиками. Также в статье проводится анализ вклада использованных признаков. Это, во-первых, дает возможность рассуждать о том, какие из этих признаков более полезны для автоматической классификации, а во-вторых, является экспериментальным анализом теоретических идей, на основе которых были выбраны эти признаки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic detection of the discourse status of a referent of a noun phrase

In this paper, we propose a method to detect the discourse status of a referent of a noun phrase using shallow features of the noun phrase. We examine a number of theoretically motivated features that allow to distinguish noun phrases with different discourse statuses of their referents. We describe two experiments of applying those features to create discourse status detectors. We show that even the simplest features outperform the heuristic baseline. Also, we analyse the feature importances for the features that we use. This allows us to get the subset of features that are most useful for the classification and to test the theoretical hypotheses that lead to using these features.

Текст научной работы на тему «Автоматическое определение дискурсивного статуса референта именной группы»

Языкознание

М.И. Ионов

Московский государственный университет им. МБ. Ломоносова, 119234, Москва, Россия; Франкфуртский университет им. И.В. Гёте, 60325, Франкфурт-на-Майне, Германия

Автоматическое определение дискурсивного статуса референта именной группы

В статье предложен метод определения дискурсивного статуса референта именной группы на основе поверхностных признаков этой именной группы. Рассматривается ряд теоретически мотивированных признаков, по которым отличаются именные группы, соответствующие различным статусам референта, проводится два эксперимента по созданию детекторов дискурсивного статуса с использованием этих признаков. Показано, что достаточно простые поверхностные признаки могут улучшить качество таких детекторов по сравнению с простыми эвристиками. Также в статье проводится анализ вклада использованных признаков. Это, во-первых, дает возможность рассуждать о том, какие из этих признаков более полезны для автоматической классификации, а во-вторых, является экспериментальным анализом теоретических идей, на основе которых были выбраны эти признаки.

Ключевые слова: автоматическая обработка дискурса, разрешение корефе-рентности, определение упоминаний, машинное обучение.

M.I. lonov

Lomonosov Moscow State University, Moscow, 119234, Russia; Goethe University Frankfurt, Frankfurt, 60325, Germany

Automatic detection of the discourse status of a referent of a noun phrase

In this paper, we propose a method to detect the discourse status of a referent of a noun phrase using shallow features of the noun phrase. We examine a number

of theoretically motivated features that allow to distinguish noun phrases with different discourse statuses of their referents. We describe two experiments of applying those features to create discourse status detectors. We show that even the simplest features outperform the heuristic baseline. Also, we analyse the feature importances for the features that we use. This allows us to get the subset of features that are most useful for the classification and to test the theoretical hypotheses that lead to using these features.

Key words: discourse processing, coreference resolution, mention detection, machine learning

1. Дискурсивный статус референта именной группы

Референты, упоминаемые в дискурсе, различаются с точки зрения их значения для участников дискурса. В то время как одним отводится главная или, по крайней мере, достаточно важная роль, и они упоминаются на протяжении всего дискурса или его фрагмента, другие упоминаются лишь однажды. Референты, упомянутые более одного раза, в некоторый момент вводятся в дискурс впервые, а все последующие упоминания являются повторными.

Именные группы (ИГ), употребляющиеся в этих трех ситуациях, соответствуют разным дискурсивным статусам их референтов. ИГ, соответствующая референту, который упоминается в дискурсе всего один раз, будем называть синглтоном1. Роль таких упоминаний в дискурсе незначительна, и в намерения говорящего не входит обратить внимание слушающего на такие ИГ. Среди упоминаний других референтов различают первое (интродуктивное) упоминание и повторные. Первое упоминание вводит новый (важный) референт в дискурс, и в намерения говорящего входит обратить на него внимание слушающего.

Понятие дискурсивного статуса, вообще говоря, несколько размыто, и точное определение зависит от формализма, описывающего устройство дискурса. Для того чтобы исследование не зависело от конкретных теорий дискурсивного анализа, это понятие применяется здесь достаточно абстрактно - под ним подразумевается мера «важности» референта для дискурса в момент употребления некоторой ИГ. Рассматривается дискретная шкала с тремя значениями: синглтон, первое упоминание и повторное упоминание.

В (1) приведены примеры из [Толдова, Сердобольская, 2002, с. 512, (15б-в)], в которых встречаются все три статуса:

1 Термин singleton широко применяется в англоязычной литературе, см., например, [Recasens, Marneffede, Potts, 2013].

(1) a. Он протянул руку, и на его ладони мы увидели ярко

сверкающий голубой камень величиной чуть поменьше горошины. Он рассказал нам, что этот камень обладает удивительной силой. б. Он кинул в собаку камень, и та отскочила в сторону.

В (1a) выделенные ИГ соответствуют первому и повторному упоминанию референта. Форма ИГ, использованного для первого упоминания, передает важность референта для последующего дискурса. Выделенная ИГ в (1б) - синглтон, и по ее форме можно предсказать, что соответствующий ей референт не имеет большой роли для последующего дискурса.

Зависимость формы ИГ от ее дискурсивного статуса широко исследовалось в теоретической науке. Так, например, иерархия доступности М. Ариэль показывает соответствие поверхностной формы и важности ИГ для некоторого фрагмента дискурса [Ariel, 1990]. Другие исследования, изучающие зависимость формы ИГ и статуса референта в дискурсе, представлены в работах [Givon, 1983; Kibrik et al., 2012; Prince, 1992]. Факторы, влияющие на форму ИГ в русском языке, исследованы в работах Н. Арутюновой, А. Бонч-Осмоловской, В. Клинцова, С. Тол-довой [Толдова, 1994; Арутюнова, 1980; Бонч-Осмоловская, Толдова, Клинцов, 2012], основные результаты этих исследований описаны в следующем разделе.

Если форма ИГ действительно зависит от дискурсивного статуса, то знание этого статуса должно положительно влиять на ряд задач автоматической обработки текста: разрешение кореферентных связей, выделение важных участников в тексте и некоторые другие. Так, например, задача разрешения кореферентности, т.е. группировка ИГ в тексте в соответствии с их референтами так, чтобы каждому референту соответствовала одна группа, значительно упрощается, если для каждой ИГ известен дискурсивный статус ее референта. Так, если ИГ - син-глтон, то она не может быть кореферентной какой-либо другой группе. Если же ИГ - первое упоминание, то, очевидным образом, у нее не должно быть антецедента, т.е. кореферентной ей группы в предшествующем дискурсе.

Основной целью настоящего исследования является создание детекторов дискурсивного статуса и проверка гипотез о связи между конкретными поверхностными свойствами ИГ и ее дискурсивным статусом.

Помимо практического значения, заключающегося в создании детекторов дискурсивного статуса, настоящее исследование имеет и теоретическое значение, т.к. позволяет проверить вклад теоретически обоснованных признаков и ранжировать их в соответствии с их вкладом в задачу определения дискурсивного статуса.

В следующем разделе описываются свойства именных групп, коррелирующие с их дискурсивным статусом, предложенные в рамках теоретических подходов к дискурсивному анализу.

2. Свойства именных групп с различным дискурсивным статусом

2.1. Свойства интродуктивных номинаций

Для артиклевых языков ИГ, которые вводят новый референт в дискурс, обычно связывают с употреблением неопределенного артикля. Несмотря на справедливость этого наблюдения в целом, корпусные исследования интродуктивной номинации на материале английского языка свидетельствуют о том, что такие ИГ используются с определенным артиклем в 52% случаев [Poesio, Vieira, 1998]. В основном это случаи discourse-new / hearer-old в классификации Е. Принс [Prince, 1992], т.е. случаи, когда референт вводится в дискурс впервые, однако известен слушающему. Таким образом, задача определения первых упоминаний сводится к задаче классификации определенных ИГ.

В безартиклевых языках, в том числе - в русском, нет грамматикализованных маркеров определенности, и почти любая ИГ может вводить новый референт в дискурс. Тем не менее, в исследованиях интродуктив-ных номинаций выделяется целый ряд признаков, позволяющих отделить первые упоминания от повторных.

В работе Н. Арутюновой выделяются две важные особенности структуры первых упоминаний: длина ИГ (первые упоминания в среднем длиннее повторных) и количество предвершинных адъективных модификаторов (при первом упоминании их в среднем употребляется больше). Помимо этого, согласно исследованию, первые упоминания могут отличаться от повторных преобладанием оценочных и качественных прилагательных, а также наличием некоторых специальных конструкций, например, экзистенциальных [Арутюнова, 1980].

С.Ю. Толдова, А.А. Бонч-Осмоловская и В.П. Клинцов обобщают эти наблюдения, а также расширяют список признаков, выделяя особые лексические маркеры - альтераторы - свидетельствующие о смене фокуса внимания [Толдова, 1994; Бонч-Осмоловская, Толдова, Клинцов, 2012]. К этим маркерам относятся такие слова как один, некий, подобный и др.

На основе этих работ можно выделить ряд признаков1, по которым можно отделить интродуктивные номинации от повторных.

1 Приведенный список признаков не исчерпывающий и отражает только те признаки, которые были описаны в вышеуказанных работах. Полный список признаков, использованных при создании детекторов, приведен в разделах 3.2 и 3.3.

1. Отсутствие в предшествующем дискурсе совпадающей ИГ или вершины ИГ: ИГ, которая встречалась в предшествующем дискурсе, вероятно, не является первым упоминанием.

2. Позиция ИГ в клаузе: первые упоминания чаще встречаются в конце клаузы.

3. Длина ИГ: первые упоминания в среднем длиннее повторных.

4. Количество адъективных модификаторов: первые упоминания в среднем содержат в составе больше адъективных модификаторов вершины.

5. Маркеры недоспецифицированности ИГ: некоторые существительные, являясь вершиной ИГ, свидетельствуют о высокой активиро-ванности референта. В числе таких существительных, например, предмет, здание, существо, фигура и подобные. В сочетании с некоторыми качественным прилагательным (странный, таинственный, любопытный) такие существительные с высокой степенью вероятности говорят о появлении нового референта.

6. Альтераторы: в пользу первого упоминания говорят входящие в состав ИГ специальные маркеры, свидетельствующие о смещении фокуса внимания:

a) маркеры неопределенности референта: один, некий;

b) маркеры несоответствия: другой, иной;

c) схожесть с референтом: такой, подобный, похожий;

d) выбор из множества: один из;

e) порядковые маркеры: первый из, второй, последний.

Последние две группы достаточно редко встречаются в дискурсе,

однако их наличие достаточно сильно коррелирует с интродуктивной номинацией.

2.2. Свойства синглтонов

Множество синглтонов в том виде, в котором мы их определили выше, неоднородно: оно включает в себя как именные группы, референты которых имеют незначительную роль в дискурсе, так и нереферентные ИГ, т.е. те, которые в принципе не могут быть кореферентными.

Признаки, необходимые для определения первой группы синглтонов, должны частично совпадать с признаками, перечисленными в предыдущем разделе. Так, наличие совпадающей ИГ в предыдущем дискурсе в большой степенью вероятности говорит о том, что эта именная группа является частью кореферентной цепочки (за исключением личных местоимений 3-го лица), и, следовательно, не является синглтоном. Длина ИГ и количество модификаторов также должны коррелировать

с тем, является ли именная группа синглтоном: ожидается, что такие ИГ не будут иметь большого количества модификаторов.

Помимо этого, важным признаком является синтаксическая роль ИГ: согласно иерархии доступности М. Ариэль, аргументные позиции соответствуют очень высокой степени активации в дискурсе [Ariel, 1990], поэтому, скорее всего, ИГ, которые их занимают, не будут синглтонами. Дополнительным признаком из этой группы является генитивное оформление ИГ, которое повышает вероятность того, что ИГ является синглтоном.

Для нереферентых ИГ маркерами могут являться неопределенные местоименные модификаторы ИГ:

1) местоимения с семантикой свободного выбора (любой);

2) дистрибутивные квантификаторы (каждый);

3) отрицательные местоимения.

Следующий раздел посвящен описанию экспериментов по созданию детекторов дискурсивного статуса: описан корпус, который был использован для экспериментов, описаны сами эксперименты по применению выявленных признаков к определению дискурсивного статуса, приведены результаты и оценка вклада этих признаков к задаче.

е

^ л

а

л

т

О ^

т CJZ

3. Автоматическое определение дискурсивного статуса

3.1. Данные для экспериментов

Эксперименты, описанные в этом разделе1, проводились на корпусе RuCor, корпусе текстов разных жанров на русском языке с корефе-рентной разметкой2 [Toldova et al., 2014]. На момент проведения экспериментов корпус состоял из 180 текстов, в нем было выделено 3638 кореферентных цепочек, состоящих из 16 557 именных групп. Все тексты были предварительно разделены на предложения, токенизированы и автоматически размечены морфологическим анализатором с использованием комплекса утилит, разработанных С. Шаровым [Sharoff, Nivre, 2011]. Для выделения именных групп использовался чанкер, основанный на правилах [Ionov, Kutuzov, 2014].

Из корпуса было случайным образом выделено 70% именных групп, которые были использованы для анализа признаков и в качестве тренировочных данных для классификации. Остальные 30% были использованы в качестве тестовой выборки.

1 Некоторые технические детали процесса подготовки корпуса и обучения классификаторов опущены для простоты. Для уточнения деталей и репликации экспериментов доступны тетради Jupyter Notebook: https://github.com/max-ionov/rucoref/tree/master/ notebooks.

2 Корпус доступен для скачивания по адресу: http://rucoref.maimbava.net/

В соответствии с принципами разметки в корпусе RuCor выделены только ИГ, формирующие кореферентные цепочки. Все остальные именные группы, найденные в текстах, мы считали синглтонами. Как уже было отмечено выше, это множество неоднородно: в нем есть как именные группы, которые в принципе не могут быть референтными, так и именные группы, референты которых не несут значительной роли для дискурса, в силу чего они упоминаются только один раз.

3.2. Определение синглтонов

Для определения синглтонов был разработан классификатор, который для каждой именной группы из тестовой выборки (т.е. для всех ИГ, не входящих в тренировочное множество) на основе поверхностных признаков выносил решение о том, является ли она синглтоном. Классификатор использует четыре группы признаков: строковые, структурные, лексические и (квази-)синтаксические, основой для которых послужили признаки, описанные в разделе 2.

3.2.1. Строковые признаки

В качестве строковых признаков используется количество вхождений как полной ИГ, так и ее вершины в предыдущем дискурсе1. Как уже было замечено выше, наличие совпадающей ИГ в предыдущем дискурсе уменьшает вероятность того, что ИГ - синглтон. Распределение значений этих признаков на тренировочном множестве подтверждает эту гипотезу: доля синглтонов среди всех ИГ, которые не встречались до этого, значительно больше половины, при этом с ростом количества предыдущих вхождений доля референтных ИГ растет. На диаграммах 1 и 2 изображено это распределение для полных ИГ и вершин соответственно. На горизонтальной оси указано количество вхождений в предшествующем дискурсе, на вертикальной - доля от всех вхождений класса (например, от всех синглтонов). Для каждого значения приведено количество синглтонов (обозначены светло-серым цветом) и корефе-рентных ИГ (темно-серый цвет).

Среди других признаков этой группы - признаки, влияющие на важность ИГ для дискурса с точки зрения дискурсивных теорий: одушевленность ИГ, наличие в ИГ символов латинского алфавита (говорит о том, что это, скорее всего, имя собственное) и некоторые другие (полное перечисление далее в таблице 2).

1 Заметим, что совпадение ИГ не обязательно означает кореферентность двух ИГ. Таким образом, если совпадающая ИГ уже встречалась в предшествующем дискурсе, точно такая же ИГ может быть синглтоном или первым упоминанием.

0,8 0,7 0,6 0,5

%. 0,4 <и

а

0,3 0,2 0,1 0,0

I Моп-5тд1еЮп I I 5тд1еЮп

2 3

51г_та1сЬеБ_ЬеГоге

Рис. 1. Количество вхождений ИГ

0,7

0,6

0,5

>>0,4

'0,3

0,2

0,1

0,0

I Моп-5тд1еЮп I I Бтд^Юп

2 3

Неас1_та1сЬе5_ЬеЛ)ге

Рис. 2. Количество вхождений вершины ИГ

3.2.2. Структурные признаки

Эта группа состоит из двух признаков: длина ИГ и количество адъективных вершинных модификаторов. Как было сказано выше, эти признаки имеют теоретическую мотивацию, а распределение их значений подтверждает их применимость для задачи (рис. 3 и 4).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,9 0,8 0,7 0,6 0,5

с

си

О 0А

0,3 0,2 0,1 0,0

1 Non-singleton Ц Singleton

0,8

0,6

с

(U

О

0,4

0,2

0,0

1 2

Рис. 3. Длина ИГ 1.0

3

Len_np

0 1 2

Рис. 4. Количество прилагательных

n_adj

ID Non-singleton Singleton

3.2.3. Лексические признаки

В качестве списков лексических маркеров для определения синглто-нов были использованы составленные вручную списки неопределенных, отрицательных и посессивных местоименных модификаторов.

Эти группы связаны с нереферентными употреблениями, и их нахождение в ИГ позволяет с высокой степенью вероятности говорить о том, что ИГ является синглтоном.

3.2.4. Синтаксические признаки

В силу невысокого качества доступных на момент эксперимента систем автоматического синтаксического анализа, для определения субъектной позиции была использована эвристика: субъектом мы условно считали ИГ в номинативе и/или в начале предложения (позиция ИГ в предложении была использована в силу большого количества ошибок морфологического разбора в корпусе). Прямым дополнением условно считалась ИГ в аккузативе.

В то время, как первая эвристика на этапе предварительных экспериментов показала хорошие результаты, вторая ухудшала качество системы, в первую очередь, в связи с большим количеством ошибок морфологического анализа и неправильного определения аккузатива. В итоговом эксперименте вторая эвристика была отключена.

Другим синтаксическим признаком стал признак генитива у вершины ИГ. На рис. 5 показано распределение этого признака на тренировочной части корпуса. Можно заметить, что, хотя влияние этого признака, определенно, присутствует, оно не такое явное, как в случае с другими признаками.

0,8 0,7 0,6 0,5

1 0,4

О

0,3 0,2 0,1 0,0

Рис. 5. Генитив вершины ИГ

I №п-5тд1е1:оп I I 5тд1еЮп

|5_депеИуе

33

3.2.5. Результаты

Результаты классификации для разных групп признаков представлены в таблице 1. В качестве базового уровня для оценки качества (baseline) была использована простая эвристика: ИГ считается синглто-ном, если она не встречается в предшествующем дискурсе1.

Таблица 1

Результаты классификации синглтонов (для миноритарного класса)

P R F1

Baseline 0,423 0,659 0,515

Строковые 0,463 0,736 0,569

Строковые + структурные 0,473 0,740 0,577

Строковые + структурные + списки 0,493 0,744 0,593

Все признаки 0,499 0,736 0,595

Несмотря на невысокий уровень результатов, даже использование одних только строковых признаков превосходит по качеству базовую эвристику, а добавление каждой следующей группы признаков улучшает качество.

Для оценки вклада признаков в результат была построена логистическая регрессия. Коэффициенты для каждого из признаков приведены в таблице 2. Признаки с положительными коэффициентами дают вклад в пользу того, что ИГ - синглтон, с отрицательными -наоборот.

Результаты выглядят вполне ожидаемыми. Наиболее значимые признаками являются форма именной группы (ИГ vs. местоимение), наличие в ИГ отрицательного местоимения и неопределенного местоимения. Так, если ИГ - местоимение, то с большой степенью вероятности это не синглтон. Если же в составе ИГ есть отрицательное местоимение (никакой), ИГ, скорее всего, не референтно никакой другой группе.

1 Несмотря на очевидную некорректность такого определения (фактически любое первое упоминание считается в таком случае синглтоном), рис. 1 показывает, что более половины ИГ, не встреченных ранее, являются синглтонами.

Таблица 2

Вклады признаков для классификации синглтонов

Признаки Вклад

Строковые признаки Кол-во вхождений ИГ = 0 0,454

Кол-во вхождений вершины = 0 0,793

В ИГ есть латинские символы -0,641

ИГ - имя собственное -0,281

ИГ - одушевленная -0,900

ИГ - местоимение -4,269

Структурные признаки Длина ИГ = 1 -0,233

1 < Длина ИГ < 4 0,255

Длина ИГ > 4 0,749

Количество адъективных модификаторов ИГ = 0 0,497

Количество адъективных модификаторов > 2 -0,860

Синтаксические признаки Вершина ИГ стоит в генитиве 0,065

ИГ - субъект -0,540

Лексические маркеры У ИГ есть отрицательный местоименный модификатор 3,168

У ИГ есть альтератор 0,819

У ИГ есть посессивный модификатор -0,808

У ИГ есть неопределенный местоименный модификатор 1,815

3.3. Определение интродуктивных номинаций

Для детекции первых упоминаний был разработан классификатор, который для каждой ИГ, не являющейся синглтоном, выносил решение о том, является ли она первым или повторным упоминанием. В эксперименте, описанном в этой работе, синглтоны фильтровались

вручную, то есть на вход классификатору и для обучения, и для теста подавались только ИГ, у которых есть кореферентные связи.

Признаки, использованные для построения классификатора, можно разделить на три группы: строковые признаки, структурные признаки и лексические маркеры.

3.3.1. Строковые и структурные признаки

Наборы строковых и структурных признаков практически совпадают с соответствующими наборами, описанными в разделах 3.2.1 и 3.2.2. Полный список признаков приведен в таблице 4. Распределения признаков на тренировочном корпусе представлены на диаграммах (рис. 6-9).

0,9 0,8 0,7 0,6 ¿>0,5 ¡§ 0,4 0,3 0,2 0,1 0,0

Рис. 6. Количество вхождений ИГ

Non-first 1 1 First

1 1

0 12 3

# of NP occurrences before

3.3.2. Лексические признаки

В качестве набора лексических признаков были использованы вручную составленные группы маркеров, перечисленные в разделе 2.1:

1) наименования классов объектов: здание, предмет и др.;

2) прилагательные, вводящие новый референт: современный, последний и др.;

3) маркеры схожести и несовпадения референта: другой, похожий и др.;

4) маркеры, отсылающие к общим знаниям: знаменитый, легендарный и др.;

5) прилагательные, устанавливающие дискурсивную роль: главный, небольшой и др.;

6) маркеры субъективной оценки: хороший, престижный и др.

0,8 0,7 0,6 0,5

£

£0,4

си

О

0,3 0,2 0,1 0,0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

■■ [Чоп-А^ I I Р^

1 2 # с^ МР Иеас! оссиггепсеэ ЬеЛ)ге

Рис. 7. Количество вхождений вершины 0,91-

0,8 0,7 0,6 >«0,5

*1Л

Й 0,4 0,3 0,2 0,1 0,0

Рис. 8. Длина ИГ

I I ЯгЯ

ЬепдЛ of МР (words)

37

1,0

0,8

0,6

с

<u

О .

0,4

0,2

0,0

Non-first 1 1 First

1

1 2 # of adjectives

Рис. 9. Количество прилагательных

Несмотря на то, что маркеры, перечисленные в этих списках, позволяют определять интродуктивную номинацию с достаточно высокой точностью, их недостаточно много для существенного влияния на качество. Для решения этой проблемы было решено расширить набор лексических маркеров автоматически. В качестве пилотного эксперимента в этой области были извлечен список из 50 прилагательных, сильнее всего влияющих на результаты классификации.

Для этого был построен классификатор, отличающий первое упоминание от повторного, в качестве признаков которого были использованы факты наличия того или иного прилагательного в ИГ. Таким образом, признаковое пространство строилось в соответствии с моделью «мешка слов», но только с использованием прилагательных из обучающего корпуса. После обучения классификатора был применен процесс выделения наиболее важных признаков (univariate feature selection) по критерию х2. Представляем 10 наиболее важных прилагательных из списка автоматически извлеченных лексических маркеров: новый, радиоактивный, русский, первый, социальный, местный, собственный, глобальный, небольшой, региональный.

Нетрудно заметить, что среди вручную и автоматически составленных списков есть пересечение (например, новый, первый), что позволяет предполагать, что такой способ действительно позволит расширить вручную составленные списки, а результаты можно будет интерпретировать и обосновать теоретически.

3.3.3. Результаты

Результаты классификации для разных групп признаков представлены в таблице 3. В качестве базового уровня (baseline) была использована такая же эвристика, как и в предыдущем эксперименте: ИГ считается первым упоминанием, если она не встречается в предшествующем дискурсе. Учитывая, что из тестовой выборки удалены син-глтоны, такая базовая эвристика должна показывать достаточно хорошие результаты.

Таблица 3

Результаты классификации первых упоминаний (для миноритарного класса)

P R F1

Baseline 0,526 0,830 0,644

Строковые 0,533 0,827 0,649

Строковые + структурные 0,548 0,806 0,653

Строковые + структурные + списки 0,560 0,796 0,658

Согласно таблице 3, даже при использовании только строковых признаков качество превосходит базовую эвристику по точности и F-мере, в то же время уступая ей по полноте. Добавление дополнительных признаков продолжает эту тенденцию.

Как и в предыдущем эксперименте, была построена логистическая регрессия для оценки вклада признаков. Коэффициенты для каждого из признаков приведены в таблице 4. Признаки с положительными коэффициентами дают вклад в пользу того, что ИГ - первое упоминание, с отрицательными - повторное.

Результаты в таблице выглядят менее ожидаемо и менее последовательно, чем в предыдущем эксперименте. В первую очередь, увеличение количества адъективных модификаторов если и коррелирует с интро-дуктивностью ИГ, то нелинейно, т.к. ИГ с двумя и более модификаторами вероятнее будет повторным. Вклады ручных списков тоже не всегда очевидны. Эти вопросы требуют более подробного анализа в последующих исследованиях. В то же время вклад автоматически извлеченного списка прилагательных ожидаемый и при этом достаточно большой, что позволяет предположить, что развитие этого направления должно привести к улучшению результатов.

Таблица 4

Вклады признаков для классификации первых упоминаний

Признак Вклад

Строковые признаки Кол-во вхождений ИГ = 0 1,136

Кол-во вхождений вершины = 0 1,094

В ИГ есть латинские символы -0,367

ИГ - имя собственное -0,687

ИГ состоит из символов верхнего регистра -0,361

Структурные признаки В ИГ есть союз -0,147

Длина ИГ < 2 -0,118

Длина ИГ > 2 0,321

Количество адъективных модификаций ИГ = 0 -0,465

Количество адъективных модификаций ИГ > 0 -0,306

Количество адъективных модификаций ИГ > 1 0,099

Количество адъективных модификаций ИГ > 2 -0,830

Лексические маркеры Маркер обращения к общим знаниям -0,089

Маркер нового референта -0,741

Маркер схожести / несовпадения -0,261

Маркер субъективной оценки -0,764

Маркер дискурсивной роли -0,465

У ИГ есть неопределенный местоименный модификатор 1,177

Наименование класса объектов 1,107

Наличие автоматически извлеченного модификатора 0,868

4. Заключение

В настоящей статье были выделены основные признаки, позволяющие определить дискурсивный статус референта именной группы, описаны эксперименты по построению классификаторов, определяющих

дискурсивный статус ИГ с использованием этих признаков, а также был проанализирован вклад каждого из этих признаков для обоих экспериментов.

Полученные классификаторы показали качество, превосходящее качество наивных эвристик, причем добавление дополнительных признаков привело к повышению качества, что свидетельствует о том, что по форме ИГ действительно можно определить дискурсивный статус ее референта.

При анализе вклада признаков, с одной стороны, были подтверждены некоторые теоретические ожидания: корреляция между длиной ИГ, наличием ряда лексических маркеров и ее статусом. В то же время, тенденция интродуктивных номинаций иметь большее количество адъективных модификаторов не нашла подтверждения, и этот факт требует дополнительного анализа. Предложенный способ по автоматическому поиску важных лексических маркеров, хотя также требует дополнительных исследований, даже на небольшом масштабе показал свою значимость.

Библиографический список / References

Арутюнова, 1980 - Арутюнова Н. Номинация, референция, значение // Номинация: общие вопросы. М., 1980. [Arutyunova N. Nomination, reference, meaning. Nominatsiya: obshchie voprosy. M., 1980.]

Бонч-Осмоловская, Толдова, Клинцов, 2012 - Бонч-Осмоловская А.А., Толдо-ва С.Ю., Клинцов В.П. Стратегии интродуктивной номинации в текстах СМИ // Электронное научное издание «Актуальные инновационные исследования: наука и практика». 2012. [Bonch-Osmolovskaya A.A., Toldova S.Yu., Klintsov V.P. Strategies for an introductive nomination in mass-media texts. Elektronnoe nauchnoe izdanie «Aktual'nye innovatsionnye issledovaniya nauka ipraktika». 2012.]

Кибрик и др., 2012 - Оптимизация модели референциального выбора, основанной на машинном обучении / Кибрик А. и др. // Computational Linguistics and Intellectual Technologies. M., 2012. С. 237-246. [Optimization of a model of referential choice, based on machine learning. Kibrik A. et al. Computational Linguistics and Intellectual Technologies. Moscow, 2012. Рр. 237-246.]

Толдова, 1994 - Толдова С.Ю. Структура дискурса и механизм фокусирования как важные факторы выбора номинации объекта в тексте: Автореф. дис. ... канд. филол. наук. М., 1994. [Toldova S.Yu. Struktura diskursa i mekhanizm fokusirovaniya kak vazhnye faktory vybora nominatsii ob"ekta v tekste [The structure of a discourse and a focusing mechanism as important factors for choosing an object for nomination in text]. PhD dis. Moscow, 1994.]

Толдова, Сердобольская, 2002 - Толдова С.Ю., Сердобольская Н.В. Намерения говорящего и референциальные свойства именных групп // Труды международного семинара Диалог'2002. Т. 1. Теоретические проблемы / Под ред. А.С. Нариньяни. М., 2002. [Toldova S.Yu., Serdobol'skaya N.V. Speaker's intentions and referential properties of noun phrases. Trudy mezhdunarodnogo seminara Dialog'2002. Vol. 1. Teoreticheskie problemy. A.S. Narin'yani (ed.). Moscow, 2002.]

Ariel, 1990 - Ariel M. Accessing Noun-Phrase Antecedents. Routledge, 1990.

Givön, 1983 - Givön T. Topic Continuity in Discourse: A Quantitative Cross-Language Study. Amsterdam, 1983.

Ionov, Kutuzov, 2014 - Ionov M., Kutuzov A. Influence of Morphology Processing Quality on Automated Anaphora Resolution for Russian. Proceedings of the international conference Dialogue-2014. Moscow, 2014.

Poesio, Vieira, 1998 - Poesio M., Vieira R. A Corpus-based Investigation of Definite Description Use. Comput. Linguist. 1998. Т. 24. № 2. Рр. 183-216.

Prince, 1992 - Prince E.F. The ZPG letter: Subjects, definiteness, and informationstatus. Discourse description: diverse analyses of a fund raising text. 1992. Рр. 295-325.

Recasens, de Marneffe, Potts, 2013 - Recasens M., Marneffe M.-C. de, Potts C. The Life and Death of Discourse Entities: Identifying Singleton Mentions. Human Language Technologies: The 2013 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, 2013. Рр. 627-633.

Sharoff, Nivre, 2011 - Sharoff S., Nivre J. The proper place of men and machines in language technology: Processing Russian without any linguistic knowledge. Proc. Dialogue, Russian International Conference on Computational Linguistics. Bekasovo, 2011.

Toldova et al., 2014 - Coreference Corpus in Russian. Toldova S. et al. Programme & Book of Abstracts. CILC 2014. Las Palmas de Gran Canaria, 2014. Рр. 154-155.

Статья поступила в редакцию 12.10.2016 The article was received on 12.10.2016

Ионов Максим Игоревич - преподаватель кафедры теоретической и прикладной лингвистики филологического факультета, Московский государственный университет имени М.В. Ломоносова; научный сотрудник лаборатории прикладной компьютерной лингвистики, Франкфуртский университет имени И.В. Гёте, Германия

Ionov Max I. - Lecturer at Department of Theoretical and Applied Linguistics of the Philological Faculty, Lomonosov Moscow State University, Russia; Research Assistant at Applied Computational Linguistics (ACoLi) lab, Goethe University Frankfurt (Goethe Universität Frankfurt), Germany

E-mail: max.ionov@gmail.com

е

s л

а

л

m

О ^

_o

m CJZ

i Надоели баннеры? Вы всегда можете отключить рекламу.