Научная статья на тему 'Обзор методов и алгоритмов разрешения лексической многозначности: введение'

Обзор методов и алгоритмов разрешения лексической многозначности: введение Текст научной статьи по специальности «Математика»

CC BY
1692
217
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗРЕШЕНИЕ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ / НЕЙРОННАЯ СЕТЬ / БУСТИНГ / ЛЕКСИЧЕСКАЯ ЦЕПОЧКА / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / БАЙЕСОВСКАЯ СЕТЬ / СОЧЕТАЕМОСТНЫЕ ОГРАНИЧЕНИЯ / РАЗЛИЧЕНИЕ ЗНАЧЕНИЙ СЛОВ / WORD-SENSE DISAMBIGUATION / NEURAL NETWORK / BOOSTING / LEXICAL CHAIN / BAYESIAN NETWORK / SELECTIONAL PREFERENCES / WORD-SENSE DISCRIMINATION

Аннотация научной статьи по математике, автор научной работы — Каушинис Татьяна Викторовна, Кириллов Александр Николаевич, Коржицкий Никита Иванович, Крижановский Андрей Анатольевич, Пилинович Александр Владимирович

Разрешение лексической многозначности (WSD) это задача выбора между разными значениями слов и словосочетаний в словаре в зависимости от контекста. В статье представлен краткий обзор методов и алгоритмов разрешения лексической многозначности. Эти методы используют различный математический и алгоритмический аппарат для решения WSD-задачи: нейронные сети, адаптивные алгоритмы улучшения точности обучения (AdaBoost), построение лексических цепочек, методы на основе применения теоремы Байеса и методы кластеризации контекстных векторов и семантически близких слов. Завершает работу сравнение разных алгоритмов решения WSD-задачи. Статья распространяется на правах свободной лицензии «СС Attribution».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Каушинис Татьяна Викторовна, Кириллов Александр Николаевич, Коржицкий Никита Иванович, Крижановский Андрей Анатольевич, Пилинович Александр Владимирович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A REVIEW OF WORD-SENSE DISAMBIGUATION METHODS AND ALGORITHMS: INTRODUCTION

The word-sense disambiguation task is a classification task, where the goal is to predict the meaning of words and phrases with the help of surrounding text. The purpose of this short review is to acquaint the reader with the general directions of word-sense disambiguation methods and algorithms. These approaches include the following groups of methods: neural network, machine learning metaalgorithms (AdaBoost), lexical chain computation, methods based on Bayes’ theorem, context clustering and words clustering algorithms. The experimental comparison of different algorithms concludes this review. This paper is licensed under the CC Attribution license.

Текст научной работы на тему «Обзор методов и алгоритмов разрешения лексической многозначности: введение»

Труды Карельского научного центра РАН № 10. 2015. С. 69-98 DOI: 10.17076/matl35

УДК 81.32

ОБЗОР МЕТОДОВ И АЛГОРИТМОВ РАЗРЕШЕНИЯ ЛЕКСИЧЕСКОЙ МНОГОЗНАЧНОСТИ: ВВЕДЕНИЕ

Т. В. Каушинис1, А. Н. Кириллов2, Н. И. Коржицкий1, А. А. Крижановский2,

А. В. Пилинович1, И. А. Сихонина1, А. М. Спиркова1, В. Г. Старкова2,

1 1 2 2 1

11

1

2

Разрешение лексической многозначности (WSD) - это задача выбора между разными значениями слов и словосочетаний в словаре в зависимости от контекста. В статье представлен краткий обзор методов и алгоритмов разрешения лексической многозначности. Эти методы используют различный математический и алгоритмический аппарат для решения WSD-задачи: нейронные сети, адаптивные алгоритмы улучшения точности обучения (AdaBoost), построение лексических цепочек, методы на основе применения теоремы Байеса и методы кластеризации контекстных векторов и семантически близких слов. Завершает работу сравнение разных алгоритмов решения WSD-задачи. Статья распространяется на правах свободной лицензии «СС Attribution».

Ключевые слова: разрешение лексической многозначности, нейронная сеть, бустинг, лексическая цепочка, наивный байесовский классификатор, байесовская сеть, сочетаемостные ограничения, различение значений слов.

Т. V. Kaushinis, А. N. Kirillov, N. I. Korzhitsky, A. A. Krizhanovsky, А. V. Pilinovich, I. A. Sikhonina, А. М. Spirkova, V. G. Starkova, Т. V. Stepkina, S. S. Tkach, Ju. V. Chirkova, A. L. Chuharev, D. S. Shorets, D. Yu. Yankevich, E. A. Yaryshkina. A REVIEW OF WORD-SENSE DISAMBIGUATION METHODS AND ALGORITHMS: INTRODUCTION

The word-sense disambiguation task is a classification task, where the goal is to predict the meaning of words and phrases with the help of surrounding text. The purpose of this short review is to acquaint the reader with the general directions of word-sense disambiguation methods and algorithms. These approaches include the following groups of methods: neural network, machine learning meta-algorithms (AdaBoost), lexical chain computation, methods based on Bayes' theorem, context clustering and words clustering algorithms. The experimental comparison of different algorithms concludes this review. This paper is licensed under the CC Attribution license.

Key words: word-sense disambiguation, neural network, boosting, lexical chain, Bayesian network, selectional preferences, word-sense discrimination.

Введение

В статье представлен обзор методов и алгоритмов разрешения лексической многозначности (word-sense disambiguation или WSD). Верный выбор в словаре одного из значений многозначного слова или фразы в зависимости от контекста является успешным результатом решения WSD-задачи.

Приведем несколько примеров употребления слов «коса» и «косой», найденных с помощью Национального корпуса русского языка (http://ruscorpora.ru) по запросу «коса»:

1. Поп сам в первой косе идет, но прихожане не торопятся, смотрят на солнышко и часа через полтора уже намекают, что обедать пора. [М. Е. Салтыков-Щедрин. Мелочи жизни (1886 1887 гг.)]

2. Но работа даже и после этого идет все вялее и вялее; некоторые и косы побросали. \М. Е. Салтыков-Щедрин. Мелочи жизни (1886 1887 гг.)]

3. В особенности жестоко было крепостное право относительно дворовых людей: даже волосы крепостных девок эксплуатировали, продавая их косы парикмахерам. [М. Е. Салтыков-Щедрин. Мелочи жизни (1886 1887 гг.)]

4. Это одинокая скала, соединяющаяся с материком намывной косой из песка и гальки. \В. К. Арсеньев. По Уссурийскому краю, 1917 г.]

5. Первая черепашка подскочила к гвардейцу и воткнула ему в спину сверкающий косой меч. [Виктор Пелевин. S.N.U.F.F, 2011 г.]

Первые четыре примера дают три разных значения существительного «коса»: ряд косарей, сельскохозяйственное орудие, заплетенные волосы, протяженная речная отмель. Последний пример содержит прилагательное «косой», совпадающее с одной из форм существительного «коса». Все эти значения и часть речи читатель легко определяет по контексту.

Именно многозначность слов, их неоднозначность и зависимость значений слов от контекста являются причиной возникновения такой задачи и одновременно обуславливают сложность ее решения. Уверенное решение WSD-задачи необходимо во многих приложениях, связанных с автоматической обработкой текста (например, информационный по-

иск, машинный перевод), и, на наш взгляд, является предтечей искусственного интеллекта.

Среди основных методов разрешения лексической многозначности выделяют: методы, использующие внешние источники информации, и методы, базирующиеся на машинном обучении, работающие на размеченных корпусах текстов. Также применяются комбинации этих методов [4] (с. 191-192).

По другой классификации, методы разрешения лексической многозначности различают по типу используемых внешних источников информации [45] (с. 10:6-10:8):

• структурированные источники данных (машиночитаемые словари, тезаурусы, онтологии). Тезаурусы содержат информацию об отношениях между словами, такими, как: синонимия, антонимия и другие. Классическим примером тезауруса и машиночитаемого словаря для английского языка является WordNet, в котором слова организованы в виде синсе-тов (от англ. synonym, set, группа синонимов), отношения указаны между сип-сетами;

• неструктурированные источники данных в виде корпусов текстов делятся на (а) неразмеченные корпуса (raw corpora) и (б) синтаксически и/или семантически размеченные корпуса.

На сегодняшний день на русском языке нет, по-видимому, достаточно объемных и серьезных обзоров по разрешению многозначности. Наиболее полное описание истории развития методов (20 страниц) есть в диссертации Д. Ю. Турдакова [7]. Такое положение дел послужило одной из причин написания этой статьи, которая будет заделом для полновесного обзора по данной теме.

Далее будут представлены примеры методов и алгоритмов разрешения лексической многозначности, разбитые на группы:

• нейронные сети - многообещающие методы с богатой историей;

• бустинг как метод улучшения точности алгоритма обучения;

• лексические цепочки - построение последовательности семантически связанных слов;

• метод ансамбля байесовских классификаторов и сочетаемостные ограничения на основе байесовских сетей;

0

• контекстная кластеризация - кластеризация контекстных векторов, где разные кластеры соответствуют разным значениям слова;

• кластеризация слов - это кластеризация семантически близких слов, при этом кластер соответствует некоторому значению.

Данная статья является «введением» в проблематику WSD, поскольку эта тема чрезвычайно обширна и существуют сотни интересных работ по каждому из затронутых направлений.

WSD на основе нейронных сетей, построенных по данным машиночитаемых словарей

А. Н. Кириллов

Использование нейронных сетей (NN) для WSD было предложено в 80-е годы в работах [16, 61]. В типичной NN на вход подается слово, значение которого требуется установить, т. е. целевое (target) слово, а также - контекст (фраза), его содержащий. Узлы выхода соответствуют различным значениям слова. В процессе обучения, когда значение тренировочного целевого слова известно, веса связующих узлы соединений (связей) настраиваются таким образом, чтобы по окончании обучения выходной узел, соответствующий истинному значению целевого слова, имел наибольшую активность. Веса соединений могут быть положительными или отрицательными и настраиваются посредством рекуррентных алгоритмов (алгоритм обратного распространения ошибки, рекуррентный метод наименьших квадратов и т. д.). Сеть может содержать скрытые (hidden) слои, состоящие из узлов, соединенных как прямыми, так и обратными связями. Для представления входной информации обычно используется одна из двух схем: распределенная (distributed) или лока-листская (localist ) ([9], [64], [27]).

В работе [60] описан метод автоматического построения очень больших нейронных сетей (VLNN) с помощью текстов, извлекаемых из машиночитаемых словарей (MRD), и рассмотрено использование этих сетей в задачах разрешения лексической неоднозначности. Поясним основную идею VLNN. Широко известен метод Леска [33] использования информации из MRD для задачи WSD. Суть этого метода состоит в вычислении так называемой степени пересечения, т. е. количества общих

слов в словарных определениях слов из контекста («окна») условного размера, содержащего целевое слово. Основной недостаток метода Леска - зависимость от словарной статьи, т. е. от слов, входящих в нее. Стратегия преодоления этого недостатка - использование словарных статей, определяющих слова, входящие в другие словарные статьи, начиная со словарных статей, соответствующих словам из контекста. Таким образом, образуются достаточно длинные пути из слов, входящих в словарные статьи. Эта идея лежит в основе топологии VLNN. В работе [60] для построения VLNN использован словарь Collins English Dictionary.

Топология сети. Целевое слово представлено узлом, соединенным активирующими связями со смысловыми узлами, представляющими все возможные значения слова, имеющиеся в словарных статьях. Каждый смысловой узел, в свою очередь, соединен активирующими связями с узлами, представляющими слова в словарной статье, соответствующей толкованию данного значения. Процесс соединения повторяется многократно, создавая сверхбольшую сеть взаимосвязанных узлов. В идеале сеть может содержать весь словарь. Авторы [60], по практическим соображениям, ограничиваются несколькими тысячами узлов и 10-20 тысячами соединений. Слова представлены своими леммами. Узлы, представляющие различные значения слова, соединены запрещающими (inhibitory) связями.

Алгоритм. При запуске сети первыми активируются узлы входного слова (согласно принятой кодировке). Затем каждый входной узел посылает активирующий сигнал своим смысловым узлам, с которыми он соединен. В результате сигналы распространяются по всей сети в течение определенного числа циклов. В каждом цикле узлы слова и его значений получают обратные сигналы от узлов, соединенных с ними. Узлы конкурирующих значений посылают взаимно подавляющие сигналы. Взаимодействие сигналов обратной связи и подавления, в соответствии со стратегией «победитель получает все», позволяет увеличить активацию узлов-слов и соответствующих им правильных узлов-значений, одновременно уменьшая активацию узлов, соответствующих неправильным значениям. После нескольких десятков циклов сеть стабилизируется в состоянии, в котором активированы только узлы-значения с наиболее активированными связями с узлами-словами. При обучении сети используется метод обратного распространения (back propagation).

Бустинг

Т. В. Степкина, Ю. В. Чиркова

Бустинг - это общий и доказуемо-эффективный метод получения очень точного правила предсказания путем комбинирования грубых и умеренно неточных эмпирических правил [21]. Метод бустинга разработан на основе модели обучения «РАС» (probably approximately correct learning).

Метод бустинга имеет множество реализаций. Работы, посвященные бустингу, обычно описывают какой-либо из его алгоритмов. Так, например, в работах [5, 12] рассматривается алгоритм агс-х4. В [6, 23] приводится алгоритм AdaBoost.Ml. Мы рассмотрим бустинг на примере алгоритма AdaBoost, который является базовым для многих модификаций, а также имеет прочный теоретический фундамент и является результатом строгого вывода [5].

Алгоритм AdaBoost был предложен в 1995 г. Фройндом и Шапиро [22]. В нем исправлены многие недостатки предыдущих алгоритмов бустинга.

AdaBoost является адаптивным алгоритмом [21], поскольку он может адаптироваться к уровням ошибок отдельных слабых гипотез. В названии первое слово «Ada» является сокращением от «adaptive» (адаптивный).

На вход алгоритма поступает обучающая выборка (Xi; у,);..;(хт; ут), где каждый элемент Xi принадлежит некоторому домену или признаковому пространству X и каждая метка yi принадлежит некоторому набору меток У. Для каждого обучающего примера г вес распределения для целых t обозначается Dt (г), где t - это шаг алгоритма. За начальное распределение весов принимается D\(i) = 1/т. Пусть метки принимают значения из множества У = {—1,1}.

Далее на каждом шаге t, где t = 1.. .Т, выполняется обучение с использованием текущего распределения Dt, после чего строится слабая гипотеза ht : X ^ {—1;1} с ошибкой первого рода et = Х,^ : ht(xi) = y)Dt( по которой выбирается уровень значимости 11 _ р

at = 1 ln(—-щ-^) и строится новое распреде-t

Конечная гипотеза Н (х) - это среднее из большинства решений Т слабых гипотез, где а,1 - вес, присвоенный гипотезе кг-

П I Л

A+iW = х ¿t

е at, если ht(xi) = yi, at если ht(xi) = у,

(е~ а \eat,

Dt(i)exp(-atyiht(xi))

Zt

т

Н(х) = вгдп^^ ак(х))

4=1

Идея алгоритма заключается в определении набора весов для обучающей выборки. Первоначально все веса примеров устанавливаются равными, но в каждом цикле веса неправильно классифицированных по гипотезе к примеров увеличиваются. Таким образом получаются веса, которые относятся к сложным примерам.

Основное теоретическое свойство AdaBoost - это способность алгоритма уменьшать ошибку обучения [21]. Фройнд и Шапиро показали, что так как каждая слабая гипотеза немного лучше случайного выбора, ошибка обучения уменьшается с экспоненциальной скоростью.

В статье [21] показано, как ограничена ошибка обобщения конечной гипотезы в терминах ошибки обучения, размера выборки т, УС размерности (размерности Вапника - Чер-воненкиса [56]) пространства слабых гипотез и количества циклов Т. Также получена граница, не зависящая от Т. Это показывает, что бустинг AdaBoost не подвержен эффекту переобучения.

Так как ошибка обучения и ошибка обобщения ограничены, как показано в статье [21], этот алгоритм действительно является бустин-говым алгоритмом в том смысле, что он может эффективно преобразовать слабый алгоритм обучения в сильный, который может породить гипотезу со сколь угодно малой частотой ошибок, имея достаточное количество данных.

После того как авторы рассмотрели бинарный случай, где целью является различие лишь между двумя возможными классами, они переходят к рассмотрению мульти-классного, более приближенного к реальности. Есть несколько способов приведения AdaBoost к мультиклассному случаю. Самое простое обобщение называется АёаВоов^М! [23], которое является приемлемым, если слабообучае-мый алгоритм может достичь достаточно высокой точности на распределениях, созданных AdaBoost. Тем не менее этот метод завершается неудачно, если слабый ученик (алгоритм) не может достичь хотя бы 50 % точности при работе на этих распределениях. Для такого случая было разработано несколько методов:

1. Методы, которые работают за счет преобразования мультиклассной задачи в боль-

шую бинарную задачу или в набор бинарных задач. Эти методы требуют дополнительных усилий в разработке слабого алгоритма обучения.

2. Технология, которая включает в себя метод Диттерича и Бакири, - метод выходных кодов, исправляющих ошибки [56].

AdaBoost обладает определенными преимуществами. Его быстро и просто запрограммировать. Он не имеет никаких параметров для настройки, за исключением количества циклов. Он не требует никаких предварительных знаний о слабом обучаемом и поэтому может быть скомбинирован с любым методом для нахождения слабых гипотез.

Недостатки метода заключаются в следующем. Фактическая производительность бу-стинга на конкретной задаче явно зависит от данных и слабообучаемого алгоритма. Теоретически бустинг может выполниться плохо, если данных недостаточно, слабые гипотезы слишком сложные или, наоборот, слишком слабые. Также бустинг особенно восприимчив к шуму.

AdaBoost был протестирован эмпирическим путем многими исследователями. Например, Фройнд и Шапиро проверили AdaBoost на множестве эталонных наборов данных 11С1 [40] с использованием С4.5 [51] как слабого алгоритма обучения, а также алгоритм, который находит самое лучшее дерево решений с одним тестом. После проведения эксперимента был сделан вывод, что бустинг даже слабых деревьев решений с одним тестом, как правило, дает хорошие результаты, в то время как бустинг С4.5, как правило, дает алгоритм дерева принятия решений значительно улучшенной производительности.

Почти во всех этих экспериментах и для всех показателей эффективности бустинг работает так же хорошо или значительно лучше, чем в других методах испытаний. Бустинг также применяется к фильтрации текстов, проблемам ранжирования и проблемам классификации, возникающим при обработке естественного языка. В работе [14] бустинг наряду с другими семью \\'Я1)-.мск>дами. используется для решения тестовой задачи с китайской лексикой. Проведенные эксперименты показали, что бустинг по точности уступает только методу максимальной энтропии и классификатору, комбинирующему бустинг, наивный байесовский классификатор, метод максимальной энтропии и РСА-модель. Для задачи с английской лексикой опыт применения бустин-га описан в работах [19, 20]. В них авторы

рассматривают алгоритм LazvBoosting - мо-дификция AdaBoost.MH [54]. По результатам сравнительных экспериментов бустинг оказывается по точности лучше таких методов, как наивный байесовский классификатор, метод, основанный на примерах (Exemplar Based) и MFS (naive Most-Frequent-Sense classifier).

Использование лексических цепочек для реферирования текстов

А. В. Пилинович

В статье [10] с целью реферирования текста строится модель в виде лексических цепочек. Реферирование включает четыре этапа: оригинальный текст делится на блоки (сегменты), строятся лексические цепочки, определяются сильные цепочки, извлекаются важные предложения.

Реферирование - это процесс сжатия исходного текста в более компактный при сохранении информативности текста. Реферирование выполняется для решения разных задач - от обзорного анализа текстов какой-либо научной области до быстрого выделения главных тем текста. Создание качественной информативной аннотации произвольного текста является сложной задачей, требующей полного понимания текста. Легче создавать приблизительные, указательные аннотации (indicative summaries), позволяющие принять решение -стоит ли читать текст. В работе [10] описан метод создания указательных аннотаций по произвольным текстам.

Интуитивное понятие cohesion (связность, склеивание, слияние), введенное в [24], указывает на объединение разных частей (фрагментов) текста в одно целое, в то, что имеет значение, смысл. Одним из видов связности является лексическая связность (lexical cohesion) [29]. Лексическая связность формируется с помощью семантически связанных слов. Хал-лидей и Хасан [24] выделили два способа формирования лексической связности: (1) с помощью категории повторений и (2) категории словосочетаний.

1. Лексическая связность повторений (reiteration category) достигается повтором слов, использованием синонимов и гипонимов.

2. Лексическая связность словосочетаний (collocation category) определена для слов, которые часто употребляются вместе, т. е. встречаются в одних и тех же контекстах.

Слова и фразы, между которыми существует лексическая связность, формируют лексическую цепочку (lexical chain) [29]. Метод лексических цепочек, предложенный Бар-зилей и Эльхадад [10], основан на анализе совместной встречаемости слов и лексических связей между словами.

Алгоритм построения цепочек. Достоинство лексических цепочек в том, что их легко распознать и построить. Первая вычислительная модель для лексических цепочек была представлена в работе Морриса и Хирста [44]. Цепочки создавались путем взятия нового слова из текста и поиска родственной (связанной) цепочки для слова в соответствии с критериями родства. Недостатком подхода в [44] было то, что в одну цепочку могло входить слово с разными значениями (для многозначных слов). Таким образом, выбор подходящей цепочки для слова эквивалентен решению WSD-задачи.

Метод построения лексических цепочек включает шаги:

1. Выбирается набор слов-кандидатов (существительные и составные существительные). Это кандидаты на включение в цепочки.

2. Строится список всех значений для каждого слова-кандидата (по словарю).

3. Для каждого значения каждого слова-кандидата находится (вычисляется) отношение (расстояние) до каждого слова во всех уже построенных цепочках (слово в цепочке имеет строго определенное значение, задаваемое другими словами в той же цепочке). Между двумя словами есть отношение (будет указана связь в цепочке), если мало расстояние между этими словами в тексте (text distance) или между значениями этих слов существует путь в тезаурусе WordNet. Выделяют три вида отношений [17] (с. 36):

(а) Extra-strong отношение существует для слов, повторяющихся в тексте. Повтор может быть на любом расстоянии от первого употребления слова.

(б) Strong отношение определено между словами, связанными отношением в WordNet. Два таких слова должны находиться в окне не более семи предложений.

(в) Medium-strong отношение указывается для слов, синсеты которых на-

ходятся на расстоянии больше одного в WordNet (но есть еще и дополнительные ограничения на путь между синсетами). Слова в тексте должны находиться в пределах трех предложений.

4. Слово-кандидат добавляется в цепочки, со словами которых найдена связь. Смысловая неоднозначность устраняется, в цепочку добавляется не просто слово, а его конкретное значение (благодаря выбору значения в словаре на шаге 2).

Для выбора приоритетной цепочки (для вставки слова-кандидата) отношения упорядочены так: extra-strong, strong, medium-strong. В работе Хирста и Ст-Онж [28] предложен жадный алгоритм выбора цепочек. При этом слово-кандидат попадает ровно в одну цепочку и после этого выбор уже не может быть изменен, даже если последующий текст покажет ошибочность первоначального решения. В работе Барзилей и Эльхадад [10] предложена более сложная схема выбора «подходящего значения», требующая рассмотрения всех возможных цепочек. Таким образом, будут сформированы цепочки с учетом всех возможных значений слов с последующим выбором наилучшей цепочки. Эта более сложная схема и рассматривается далее.

Для иллюстрации метода приводится пример на отрывке текста, представленном ниже, посмотрим, какое значение будет выбрано для слова machine. Во-первых, для слова Mr. создается узел [лексема «Мг.», значение {mister, Mr.}]. Следующим по тексту существительным, представленным в тезаурусе WordNet, будет слово person, у него есть два значения: [лексема «personi», значение {hum,an being}} и [лексема «person2», значение {grammatical category of pronouns and verb forms}]. Наличие двух значений у слова person разбивает пространство цепочек на два множества интерпретаций: в первой интерпретации используется значение personi ■, во второй - person2 (рис. 1).

Mr. Kenny is the person that invented an anesthetic machine which uses microcomputers to control the rate at which an anesthetic is pumped into the blood. Such machines are nothing new. But his device uses two micro-computers to achieve much closer monitoring of the pump feeding the anesthetic into the patient.

Компонентой в [10] называют список взаимоисключающих интерпретаций. Именно посредством компонент выбор одного из зна-

чений слов ведет к выбору соответствующей интерпретации, а следовательно, к невозможности других интерпретаций из этой компоненты. Интерпретации 1 и 2 на рис. 1 являются компонентой.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следующее слово anesthetic не связано со словами из первой компоненты, поэтому для него создается компонента с одним значением (новая компонента содержит ровно одну интерпретацию).

Следующее слово machine имеет 5 значений: от machinei до machine5. В первом значении machinei [лексема «machine», значение {an efficient person}] слово связано со значениями слов person и Mr., поэтому слово machine вставляется в первую компоненту. После этой вставки изображение первой компоненты становится таким, как показано на рис. 2. Если продолжить этот процесс и вставить слова micro-computer, device и pump, то количество альтернативных вариантов значительно увеличивается. Самые сильные интерпретации представлены на рис. 3. При условии, что текст связный, лучшей интерпретацией считается та, которая имеет больше всего связей. В данном случае в конце шага 3 выбрана другая интерпретация machine4 [лексема «machine», значение {any mechanical or electrical device that performs or assists in the performance}], что верно отражает значение слова machine в этом контексте.

Оценка интерпретации определяется как сумма оценок ее цепочек. Оценка цепочки определяется количеством и весом отношений между участниками цепочки. В эксперименте авторы зафиксировали следующий вес: повторения и синонимы - 10, антонимы - 7, гиперонимы и гипонимы - 4. Описанный алгоритм вычисляет все возможные интерпретации, не допуская противоречий между ними. Когда число возможных интерпретаций превышает определенный порог, слабые интерпретации удаляются, это необходимо для предотвращения экспоненциального роста использования памяти.

Объединение цепочек из разных сегментов. Текст предварительно разбивается на сегменты (несколько предложений или абзац). Пример выше (Mr. Kenny...) соответствует одному сегменту. Цепочки строятся для каждого сегмента на основе найденных отношений между словами (extra-strong, strong, medium-strong). На следующем этапе объединяются цепочки из разных сегментов, но для объединения нужно, чтобы выполнялось еще более жесткое условие: две цепочки объединяются, если они содержат одно и то же слово

в одном и том же значении. Поскольку есть прямая связь между цепочками и смысловыми блоками текста, постольку с помощью лексических цепочек можно решать и обратную задачу - разбиение текста на сегменты [10].

Вычисление оценок цепочек. Для того чтобы использовать лексические цепочки для построения аннотации, в первую очередь следует выявить сильнейшие цепочки среди всех тех, которые создаются описанным выше алгоритмом. Барзилей и Эльхадад в [10] предложили эмпирическую методику для оценки силы цепочки. Они разработали среду, чтобы вычислить и графически визуализировать лексические цепочки, чтобы оценить экспериментально, насколько хорошо идентифицируются (определяются) основные темы текстов. Авторы собрали данные из 30 текстов, выбранных случайным образом из популярных журналов (например, «The Economist», «Scientific American»). Для каждого текста вручную выполнили ранжирование цепочек по степени соответствия основным темам текста.

Из множества параметров, которые можно измерить (длина цепочки; объем текста, покрываемого цепочкой; плотность; диаметр слов цепочки в графе тезауруса; число повторений), Барзилей и Эльхадад [10] опытным путем нашли следующие показатели значимости цепочек для построения реферата:

• Длина, (Length): число употреблений в тексте элементов цепочки.

• Индекс однородности (Нот,ogeneityIndex): 1 - количество различных употреблений в тексте элементов цепочки, деленное на длину (Length,).

Таким образом, значимость цепочек оценивается так:

Score(Chain) = Length х Homogeneitvlndex

При ранжировании цепочек в соответствии с этой оценкой было найдено, что для построения реферата нужны цепочки, удовлетворяющие «критерию прочности (силы)»:

Score(Chain) > Average(Scores) + 2 х StandardDeviation(Scores),

где Average - это средняя оценка по всем цепочкам, StandardDeviation - среднеквадрати-ческое отклонение.

Извлечение важных предложений.

После того как сильные цепочки отобраны, выполняется поиск соответствующих им предложений и извлечение этих предложений целиком из исходного текста.

©

Рис. 1. Шаг 1. интерпретация 1 (слева) и 2 (справа)

(а) Интерпретация 1

(Ь) Интерпретация 2

(с) Интерпретация 3

(с!) Интерпретация 4

Рис. 2. Четыре интерпретации на втором шаге

(а) Интерпретация 1

(Ь) Интерпретация 2

Рис. 3. Две самые сильные интерпретации, полученные на третьем шаге

0

Для каждой сильной цепочки на основе разработанных эвристик выбирается ровно одно предложение для включения в текст реферата:

Эвристика 1: Для каждой цепочки для включения в реферат выбрать то предложение, которое содержит первое появление члена цепочки в тексте.

Эвристика 2: Для каждой цепочки для включения в реферат выбрать предложение, которое содержит первое появление показательного элемента цепочки в тексте. Показательные слова (representative words), служащие представителями цепочки, - это такие слова цепочки, которые встречаются в цепочке не реже, чем в среднем по всем словам цепочки.

Эвристика 3: Для каждой цепи найти блок текста, где есть высокая концентрация цепочки (т. е. много употреблений элементов из

Байесовский классификатор и

В первой части главы строится ансамбль наивных байесовских классификаторов. Наивный байесовский классификатор - это простой вероятностный классификатор на основе применения теоремы Байеса. Для различения значений учитывается совместная встречаемость слов в окне заданного размера в текстах корпуса.

Во второй части главы для каждого глагола строится байесовская сеть. Байесовская модель обучается сочетаемостным ограничениям глаголов, т. е. обучается тому, с какими существительными глаголы могут употребляться. Сочетаемостные ограничения позволяют ограничить число значений целевого слова по данным контекста [45] (с. 10:32). Связи глагол-существительное извлекаются из корпуса текстов, а классы существительных задаются тезаурусом WordNet. Маловероятные значения слов при построении сочетаемостных ограничений отбрасываются (стратегия «explaining away»).

Разрешение лексической многозначности методом ансамбля байесовских классификаторов

А. Л. Чухарев, Т. В. Каушинис

В работе Педерсена [48] рассматривается подход к разрешению лексической многозначности слов (ШББ), подразумевающий созда-

этой цепочки). Извлечь предложение с первого появления цепочки в этом блоке. Концентрация вычисляется как число появлений членов цепи в сегменте, разделенное на количество существительных в сегменте. Цепочка имеет высокую концентрацию, если ее концентрация является максимальной из всех цепочек. Кластер представляет собой группу последовательных сегментов, таких, что каждый сегмент содержит какие-либо элементы цепочки.

Эксперименты в [10] показали значительное преимущество алгоритма на основе лексических цепочек (точность 47-61 % и полнота 64-67 %) по сравнению с программой Microsoft Summarizer, доступной в Word'97 (точность 32-33% и полнота 37-39%). Эти результаты указывают на большой потенциал лексических цепочек в задаче реферирования.

сочетаемостные ограничения

ние ансамбля наивных байесовских классификаторов, каждый из которых основан на оценке вероятности вхождения определенных слов в контекст целевого слова, значение которого определяется.

При разрешении лексической многозначности, представленном в виде задачи обучения с учителем, применяют статистические методы и методы машинного обучения к размеченному корпусу. В таких методах словам корпуса, для которых указано значение, соответствует набор языковых свойств. Педерсен [48] относит к языковым свойствам два вида особенностей: так называемые простые лексические признаки (shallow lexical features) и более сложные лингвистически обусловленные признаки (lingvisticallv motivated features). К первым относятся совместная встречаемость слов (co-occurence) и словосочетаний (collocations), в то время как вторые включают в себя такие свойства, как часть речи и отношение действие - объект. Обычно алгоритмы обучения строят модели классификаторов значений по этим языковым свойствам.

Автор статьи [48] предлагает подход, основанный на объединении ряда простых классификаторов в ансамбль, который разрешает многозначность с помощью голосования простым большинством голосов. Педерсен утверждает [48], что, во-первых, более сложные алгоритмы обычно не улучшают точность разрешения. Во-вторых, совместная встречаемость слов и словосочетаний имеет большее

влияние на точность разрешения, чем оперирование более сложной лингвистической информацией.

В рассматриваемой статье [48] в ансамбль объединяются наивные байесовские классификаторы. При таком подходе предполагается, что все переменные, участвующие в представлении проблемы, - условно независимы при фиксированном значении переменной классификации. В проблеме разрешения лексической многозначности существует понятие контекста, в котором встречается многозначное слово. Этот контекст представляется в виде функции переменных (Fi, F2,..., Fn), а значение многозначного слова представлено в виде классификационной переменной (S). Все переменные бинарные. Переменная, соответствующая слову из контекста, принимает значение ИСТИНА, если это слово находится на расстоянии определенного количества слов слева или справа от целевого слова. Совместная вероятность наблюдения определенной комбинации переменных контекста с конкретным значением слова выражается следующим образом:

p(Fi,F2,..., FnS) = p(S )n=ip(Fi\S),

где p(S) и p(Fi\S) - параметры данной модели. Для оценки параметров достаточно знать частоты событий, описываемых взаимозависимыми переменными (Fi,S). Эти значения соответствуют числу предложений, где слово, представляемое Fi, встречается в некотором контексте многозначного слова, упомянутого в значении S. Если возникают нулевые значения параметров, то они сглаживаются путем присвоения им по умолчанию очень маленького значения. После оценки всех параметров модель считается обученной и может быть использована в качестве классификатора.

Контекст в [48] представлен в виде bag-of-words (модель «мешка слов»). В этой модели выполняется следующая предобработка текста: удаляются знаки препинания, все слова переводятся в нижний регистр, все слова приводятся к их начальной форме (леммати-зация). В [48] контексты делятся на два окна: левое и правое. В первое попадают слова, встречающиеся слева от неоднозначного слова, и, соответственно, во второе - встречающиеся справа.

Окна контекстов могут принимать 9 различных размеров: 0, 1, 2, 3, 4, 5, 10, 25 и 50 слов. Первым шагом в ансамблевом подходе является обучение отдельных наивных байесовских классификаторов для каждого из 81 возможных сочетаний левого и правого

размеров окон. В статье [48] наивный байесовский классификатор (I, г) включает в себя I слов слева от неоднозначного слова и г слов справа. Исключением является классификатор (0,0), который не включает в себя слов ни слева, ни справа. В случае нулевого контекста классификатору присваивается априорная вероятность многозначного слова (равная вероятности встретить наиболее употребимое значение).

Следующий шаг в [48] при построении ансамбля - это выбор классификаторов, которые станут членами ансамбля. 81 классификатор группируется в три общие категории, по размеру окна контекста. Используются три таких диапазона: узкий (окна шириной в 0, 1 и 2 слова), средний (3, 4, 5 слов), широкий (10, 25, 50 слов). Всего есть 9 возможных комбинаций, поскольку левое и правое окна отделены друг от друга. Например, наивный байесовский классификатор (1,3) относится к диапазону категории (узкий, средний), поскольку он основан на окне из одного слова слева и окне из трех слов справа. Наиболее точный классификатор в каждой из 9 категорий диапазонов выбирается для включения в ансамбль. Затем каждый из 9 членов классификаторов голосует за наиболее вероятное значение слова с учетом контекста. После этого ансамбль разрешает многозначность путем присвоения целевому слову значения, получившего наибольшее число голосов.

Экспериментальные данные. Для экспериментов были выбраны английские слова line и interest. Источником статистических данных по этим словам послужили работы [32], [13]. В статье приводится информация о частоте использования шести значений для каждого из этих слов (табл. 1,2).

Таблица 1. Число употреблений слова line для шести наиболее часто встречаемых значений (из тезауруса WordNet) по данным корпусов ACL/DCI Wall Street Journal и American Printing House for the Blind

Значение Частота

Product 2218

Written or spoken text 405

Telephone connection 429

Formation of people or things; queue 349

An artificial division; boundary 376

A thin, flexible object; cord 371

Всего 4148

0

Таблица 2. Число употреблений слова interest для шести наиболее часто встречаемых значений (из словаря Longman Dictionary of Contemporary-English). Этот набор данных был получен в 1994 г. Брюсом и Виебе [13] путем указания значений для всех вхождений слова interest в корпус ACL/DCI Wall Street Journal

Значение Частота

Money paid for the use of money 1252

A share in a company or business 500

Readiness to give attention 361

Advantage, advancement or favor 178

Activity that one gives attention to * 66

Causing attention to be given to 11

Всего 2368

Результаты экспериментов. Итогом проделанной работы стали обучение и проверка 81 наивного байесовского классификатора на многозначных словах line и interest. Точность разрешения лексической многозначности составила 89 % для слова interest и 88 % для слова line. В [48] было получено, что ансамбль классификаторов с голосованием простым большинством дает более высокую точность, чем взвешенное голосование. Например, для слова interest при голосовании простым большинством точность составила 89 %, а взвешенное голосование дало только 83%.

Построение сочетаемостных ограничений на основе байесовских сетей для разрешения многозначности

И. А. Сихонина

В статье [15] представлена байесовская модель, применяемая для разрешения лексической многозначности глаголов. Авторы рассматривают такое понятие, как сочетаемост-ные ограничения (selectional preferences). Со-нетаемостпые ограничения (далее SP) - это закономерности использования глагола относительно семантического класса его параметров (субъект, объект (прямое дополнение) и косвенное дополнение).

Модели автоматического построения SP важны сами по себе и имеют приложения в обработке естественного языка. Сочетаемостные ограничения глагола могут применяться для получения возможных значений неизвестного параметра при известных глаголах; например, из предложения «Осенние хххх жужжали и бились на стекле» легко определить,

что «хххх» - мухи. При построении предложения БР позволяют отранжировать варианты и выбрать лучший среди них. Исследование БР могло бы помочь в понимании структуры ментального лексикона.

Системы обучения БР без учителя обычно комбинируют статистические подходы и подходы, основанные на знаниях. Компонент базы знаний (здесь WordNet [41]) - это обычно база данных, в которой слова сгруппированы в классы.

Статистический компонент состоит из пар предикат-аргумент, извлеченных из неразмеченного корпуса. В тривиальном алгоритме можно было бы получить список слов (прямых дополнений глагола), и для тех слов, которые есть в \VordNet, вывести их семантические классы. В работе [15] семантическим классом называется синсет тезауруса ДА/огсШе^ т. е. класс соответствует одному из значений слова. Таким образом, в тривиальном алгоритме на основе данных WordNet можно выбрать классы (значения слов), с которыми употребляются (встречаются в корпусе) глаголы.

Например, если в исходном корпусе текстов глагол ползать употребляется со словом ящерица, принадлежащим классу РЕПТИЛИИ, то в модели построения БР будет записано, что «глагол ползать употребляется со словами из класса РЕПТИЛИИ». Если слово крокодил, во-первых, также встречается в тексте с глаголом ползать, во-вторых, слово крокодил принадлежит сразу двум классам: РЕПТИЛИЯ и ВЕРТОЛЕТ, то из этого следует, что модель БР будет расширена информацией о том, что «глагол ползать употребляется со словами из классов и РЕПТИЛИЯ, и ВЕРТОЛЕТ».

В ранее разработанных моделях (Резник (1997) [52], Абни и Лайт (1999) [8]) было обнаружено, что главная трудность в таком тривиальном алгоритме - это наличие неоднозначных слов в обучающих данных. В тех же работах ([52], [8]) были предложены более сложные модели, в которых предполагается, что все значения многозначных слов появляются с одинаковой частотой.

Байесовские сети, или байесовские сети доверия (БСД), состоят из множества переменных (вершин) и множества ориентированных ребер, соединяющих эти переменные. Такой сети соответствует ориентированный ациклический граф. Каждая переменная может принимать одно из конечного числа взаимоисключающих состояний. Пусть все переменные будут бинарного типа, т. е. принимают одно из двух значений: истина или ложь.

Любой переменной А с родителями В\,...,Вп соответствует таблица условных вероятностей (conditional probability table, далее СРТ).

Например, построим SP для глагола ползать, и сеть на рис. 4 будет базой знаний.

Рис. 4- Байесовская сеть для многозначного существительного крокодил

Глагол ползать употребляется со словами крокодил и ящерица. Переменные ВЕРТОЛЕТ и РЕПТИЛИЯ соответствуют более общим абстрактным значениям, переменные крокодил и ящерица являются более узкими, конкретными значениями. Переменная РЕПТИЛИЯ может принимать одно из двух значений, соответствующих словам крокодил, и ящерица, именно эту задачу определения значения и нужно решить.

Таблица 3. Условные вероятности переменных крокодил и ящерица в зависимости от значений переменных ВЕРТОЛЕТ и РЕПТИЛИЯ, где (В. 1>. к, я это аббревиатуры слов ВЕРТОЛЕТ. РЕПТИЛИЯ. крокодил и ящерица)

вероятность, что концепты не выбраны: Р(В false) Р(Р false) 0,99;

• если какой-либо из концептов истинен (В, Р), то «выпадает» слово крокодил,;

• если концепт РЕПТИЛИЯ истинен, то растут шансы встретить слово ящерица.

Из табл. 3 вероятности появления слов следует вывод, что использование сразу двух значений слова крокодил, (рептилия, и вертолет МИ-24) маловероятно. Вероятность использования значения РЕПТИЛИЯ намного больше, чем значения ВЕРТОЛЕТ. Таким образом, гипотеза «вертолет» «отброшена» («explaining away»).

Байесовские сети для построения SP.

Иерархия существительных в WordNct представлена в виде ориентированного ациклических) графа. Синеет узла принимает значение «истина», если глагол «выбирает» существительное из набора синонимов. Априорные вероятности задаются на основе двух предположений: во-первых, маловероятно, что глагол будет употребляться только со словами како!Х)-то конкретного еинеета, и во-вторых, если г.ла!Х).л действительно употребляется только со словами из данного еинеета (например, синеет ЕДА), тогда должно быть правомерным употребление этого глагола с гипонимами этого еинеета (например, ФРУКТ).

Те же предположения (что для синсетов) верны и для употреблений слов с глаголами:

Р (X = x\Yl = yi,Y2 = У2)

В, Р В, ^Р -.В, Р -.В, ^Р

к true. к false. 0.99 0.01 0.99 0.01 0.99 0.01 0.01 0.99

я true. я false. 0.99 0.01 0.99 0.01 0.01 0.99 0.01 0.99

При построении табл. 3 условных вероятностей (СРТ) учтем следующие предположения:

• вероятность, что выбираем какой-либо из концептов (ВЕРТОЛЕТ и РЕПТИЛИЯ), очень мала, т. е. Р(В true) Р(Р true.) 0,01, следовательно, велика

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. слово, вероятно, является аргументом глагола в том случае, если глагол употребляется с каким-либо из значений этого слова;

2. отсутствие связки глагол-еинеет говорит о малой вероятности того, что слова этого еинеета употребляются с глаголом.

Словам «вероятно» и «маловероятно» должны быть приписаны такие числа, сумма которых равна единице.

Находкой работы [15] является разъяснение стратегии «explaining away», т. с. отбрасывание маловероятных значений слов при построении сочетаемостных ограничений. Такая стратегия является неотъемлемым свойством байесовских сетей и байесовского вывода, полезным свойством при разрешении лексической многозн ачности.

Контекстная кластеризация

Каждому вхождению анализируемого слова в корпус соответствует контекстный вектор. Выполняется кластеризация векторов, где разные кластеры соответствуют разным значениям слова [45] (с. 10:26-10:28). Алгоритмы кластеризации полагаются на дистрибутивную гипотезу (Distributional Hypothesis) [25], в соответствии с которой слова, употребляемые в схожих контекстах, считаются близкими по смыслу.

В первой части выполняется разрешение лексической многозначности и поиск новых значений на основе контекстных векторов, построенных по биомедицинским текстам.

Во второй части представлена задача различения значений слов. Эта задача отличается от задачи разрешения лексической многозначности тем, что при различении значений слов нет никаких предопределенных значений слова, присоединенных к кластерам; здесь слова, употребляющиеся в схожих контекстах, группируются в кластеры (значения).

Кластеризация фрагментов

биомедицинских текстов

Е. А. Ярышкина

В статье [53] изучаются методы кластеризации без учителя и их эффективность для решения лексической многозначности при обработке текстов по биомедицине. Решение проблем лексической многозначности в данной области включает в себя не только традиционные задачи присвоения ранее определенных смысловых значений для терминов, но также и обнаружения новых значений для них.

Для разрешения лексической многозначности Савова и др. [53] предложили разделять контексты (фрагменты текста), содержащие определенное целевое слово, на кластеры, где разные кластеры будут соответствовать различным значениям целевого слова. Каждый кластер состоит из близких по значению контекстов. Предполагается, что используемое целевое слово в аналогичном контексте будет иметь одно и то же или очень близкое значение (дистрибутивная гипотеза).

Процесс кластеризации продолжается до тех пор, пока не будет найдено предварительно заданное число кластеров. Выбор шести кластеров в работе [53] основан на том факте, что это больше, чем максимальное число возможных значений любого английского слова, наблюдаемое среди данных (большинство

слов имеют два-три значения). Нормализация текста не выполняется.

Данные в этом исследовании состоят из ряда контекстов, которые включают данное целевое слово, где у каждого целевого слова вручную отмечено, какое значение из словаря было использовано в этом контексте. Контекст - это единственный источник информации о целевом слове. Цель исследования -преобразовать контекст в контекстные векторы первого и второго порядка [2]. Контекстные векторы содержат следующие «лексические свойства»: биграммы, совместную встречаемость и совместную встречаемость целевого слова. Биграммами являются как двухсловные словосочетания, так и любые два слова, расположенные рядом в некотором тексте. Для лингвистических исследований могут быть полезны только упорядоченные наборы биграмм [1].

Экспериментальные данные - это набор XI.М WSD [59] (XI.М - национальная библиотека медицины США), в котором значения слов взяты из UMLS (единая система медицинской терминологии). UMLS имеет три базы знаний:

• Метатезаурус включает все термины из контролируемых словарей (SNOMED-СТ, ICD и другие) и понятия, которые представляют собой кластера из терминов, описывающих один и тот же смысл.

• Семантическая сеть распределяет понятия на 134 категории и показывает отношения между ними. SPECIALIST-лексикон содержит семантическую информацию для терминов Метатезауруса.

• Medline - главная библиографическая база данных XI.М. которая включает приблизительно 13 миллионов ссылок на журнальные статьи в области науки о жизни с уклоном в биомедицинскую область.

Авторы успешно проверили по три конфигурации существующих методов (РВ -Pedersen and Bruce [49], SC - Schütze [57]) и оценили эффективность использования SVD (сингулярное разложение матриц). Методы РВ основаны на контекстных векторах первого порядка - признаки одновременного присутствия целевого слова или биграммы. Рассчитывается среднее расстояние между кластерами или применяется метод бисекций.

■0

РВ методы подходят для работы с довольно большими наборами данных. Методы SC основаны на представлениях второго порядка - матрицы признаков одновременного присутствия или биграммы, где каждая строка и столбец - вектор признаков первого порядка данного слова. Так же рассчитывается среднее расстояние между кластерами или применяется метод бисекций. SC методы подходят для обработки небольших наборов данных.

Метод SC2 (признаки одновременного присутствия второго порядка, среднее расстояние между элементами кластера в пространстве подобия) с применением и без SVD показал лучшие результаты: всего 56 сравниваемых экземпляров, в 47 случаях метод SC2 показал наилучшие результаты, в 7 случаях результаты незначительно отличаются от других проверяемых методов.

Все эксперименты, указанные в исследовании, выполнялись с помощью пакета SenseClusters [58]. В ходе исследования было проведено два эксперимента для разных наборов данных. Маленький тренировочный набор - это набор NLM WSD, который включает 5000 экземпляров для 50 часто встречаемых неоднозначных терминов из Метате-зауруса UMLS. Каждый неоднозначный термин имеет по 100 экземпляров с указанным вручную значением. У 21 термина максимальное число экземпляров находится в пределах от 45 до 79 экземпляров. У 29 терминов число экземпляров от 80 до 100 для конкретного значения. Стоит отметить, что каждый термин имеет категорию «ни одно из вышеупомянутых», которая охватывает все оставшиеся значения, не соответствующие доступным в UMLS. Большой тренировочный набор является реконструкцией «1999 Medline», который был разработан Weeber [62]. Были определены все формы из набора NLM WSD и сопоставлены с тезисами «1999 Medline». Для создания тренировочного набора экземпляров использовались только те тезисы из «1999 Medline», которым было найдено соответствие в наборе NLM WSD.

Использование целиком текста аннотации статьи в качестве контекста приводит к лучшим результатам, чем использование отдельных предложений. С одной стороны, большой объем контекста, представленный аннотацией, дает богатую коллекцию признаков, с другой стороны, в коллекции WSD представлено небольшое число контекстов.

Различение значений слов на основе векторов свойств, расширенных словарными толкованиями

А. М. Спиркова

Амрута Пурандаре и Тед Педерсен в 2004 г. разработали «Алгоритм различения значений на основе контекстных векторов» (Context vector sense discrimination) [50]. В этом алгоритме (1) берется набор примеров употреблений исследуемого слова, (2) выполняется кластеризация этих примеров так, чтобы близкие по значению или связанные каким-либо образом слова объединились в одну группу [50].

Word sense discrimination - это задача группировки нескольких употреблений данного слова в кластеры, где каждому кластеру соответствует определенное значение целевого слова. Подходы к решению этой проблемы основываются на дистрибутивной гипотезе. Следует различать понятия различение значений слов и разрешение лексической многозначности. При различении значений слов нет никаких предопределенных значений слова, присоединенных к кластерам; здесь скорее слова, употребляющиеся в схожих контекстах, группируются в кластеры (значения).

При решении задачи различения значений используются контекстные вектора: если целевое слово встречается в тестовых данных, то контекст этого слова представляется в виде вектора контекста. Вектор контекста, — это средний вектор по векторам свойств каждого из слов контекста. Вектор свойств содержит информацию о совместной встречаемости данного слова с другими словами, этот вектор строится по данным корпуса текстов на этапе обучения.

Метод различения значений Пурандаре и Педерсена [50] предназначен для работы при недостаточном объеме текстовых данных, при этом вектор свойств расширяется данными, извлеченными из толкований словарей. Этот метод группирует в кластеры близкие по значению употребления целевого слова.

Построение матрицы встречаемости слов. Первоначально строится матрица совместной встречаемости слов по данным обучающего корпуса (были использованы тексты Wall Street Journal и Британского национального корпуса).

Вектор свойств (строка матрицы) содержит информацию о совместной встречаемости данного слова с другими. Было решено в [50], что слова «встречаются», если они находятся в тексте на расстоянии не более пяти слово-

позиций (т. с. между ними находится не более трех слов).

Обработка матрицы. После создания матрицы выполняется разделение тестовых данных, т. с. группировка примеров употреблений (фраз) с целевым словом. Каждому слову в примере употребления в тестовых данных соответствует вектор свойств из матрицы встречаемости. Средний вектор свойств но всем словам соответствует вектору контекста. Таким образом, набор тестовых данных, включающих употребление исследуемого слова, преобразуется в набор контекстных векторов, каждый из которых соответствует одному из употреблений целевого слова.

Различение значений происходит путем кластеризации контекстных векторов с помощью разделяющих) (рагШюпа1) или иерархи-чсскохх) «сверху вниз» (agglomeгative) алго-

ритма кластеризации [30], [31], [63]. Получающиеся кластеры составлены из употреблений близких но значению фраз, и каждый кластер соответствует отдельному значению целевого слова.

Векторы свойств, расширенные текстами толкований из словаря. Векторы свойств, полученные но небольшому корну-су текстов, имеют очень малую размерность (несколько сотен), что не позволяет полностью описать закономерности совместной встречаемости слов. Для решения этой проблемы векторы свойств слов расширяются содержательными словами (content words), извлеченными из словарных толкований разных значений данного слова. В табл. 4 представлены примеры толкований и содержательные слова для восьми значений слова «история» из Русского Викисловаря.

Таблица 4- Словарные толкования (и содержательные слова) по данным статьи «история» из Русского Викисловаря. Серым цветом и курсивом выделены те слова, которые уже были в векторе слов, черным новые слова из толкований, которыми будет расширен вектор свойств

№ Значение Содержательные слова

1 Закономерное, последовательное развитие, изменение действительности Развитие, изменение

2 Наука, изучающая факты, тенденции и закономерности развития человеческого общества Наука,, факт, тенденция, закономерность

3 Наука, изучающая ход развития, последовательные изменения какой-либо области природы или культуры Наука, развитие, изменение

4 Последовательный ход развития, изменения чего-либо, совокупность фактов о развитии какого-либо явления Развитие, изменение, факт

5 Отдаленное время с его событиями, происшествиями; прошлое Время, событие, происшествие

6 Эпическое повествование, рассказ Повествование, рассказ

7 Смешная или неожиданная ситуация, происшествие, случай Ситуация, случай, происшествие

8 Скандал, неприятность Скандал, неприятность

Предположим, например, что вектор свойств (столбец в матрице встречаемости) для слова история имеет непустые значения в строках, соответствующих словам: книга, .мир, наука, образование, развитие, рассказ.

В Русском Викисловаре различные значения слова история, (табл. 4) включают содержательные слова: время,, законо.иерность, изменение, наука, неприятность, повествование, происшествие, развитие, рассказ, ситуация, скандал, случай, событие, тенденция, факт. Таким образом, вектор свойств, соответствующий слову «история», будет расширен новыми (отсутствующими ранее) словами из словаря: время, законо.иерность, изменение, неприятность, повествование, происше-

ствие, ситуация, скандал, случай, событие, meii,deiщия,, фа,кт.

В итоге вектор свойств будет включать слова: время, закономерность, изменение, книга, мир, наука, неприятность, образование, повествование, происшествие, развитие, рассказ, ситуация, скандал, случай, тенденция, факт.

Для оценки результатов была выполнена ручная разметка значений в тестовых примерах. Кластеру присваивалось то значение, примеров употребления которого в нем было больше всего.

Авторами было проведено 75 экспериментов с использованием 72 слов из корпуса SENSEVAL-2 и со словами line, hard и serve.

В тестовых данных SENSEVAL-2 примеры употреблений включали 2-3 предложения. Для каждого слова было дано от 50 до 200 примеров употреблений в тестовых и тренировочных данных. Для этих слов известно много (порядка 8-12) значений. Малое число примеров при большем числе значений привело к тому, что для некоторых значений оказалось мало примеров употреблений. 43 из 72 слов SENSEVAL-2 показали улучшение F-меры и полноты (recall) при расширении век-

тора свойств текстами толкований словаря. Однако для 29 слов К-.мсра стала хуже, что, возможно, говорит о неправильном применении метода, в том числе о нерепрезентативности выборки. Для окончательной оценки необходима большая экспериментальная база: не десятки слов, а десятки и сотни тысяч.

Данный метод может быть полезен при различении значений слов без учителя при небольшом количестве обучающих данных.

Кластеризация слов

Кластеризация слов - это кластеризация семантически близких слов, при этом кластер соответствует одному из значений исследуемого слова [45] (с. 10:28-10:29).

В первой части описан метод построения пары взаимных ближайших соседей и автоматического создания тезауруса. Для этого из текста извлекаются тройки зависимостей (слово 1, слово 2, отношение), затем эти тройки используются для вычисления близости значений слов.

Алгоритм кластеризации посредством комитетов, представленный во второй части раздела, также можно отнести к задаче различения значения слов. В алгоритме последовательно вычисляется сходство между словами, строится набор компактных кластеров (комитетов), все слова распределяются по этим кластерам.

Автоматический поиск

и кластеризация похожих слов

Д. С. Шорец

В работе [34] представлен метод автоматического создания тезауруса, основанный на анализе корпуса текста и вычислении сходства слов, близости их значений. Значение незнакомого слова часто можно определить по контексту [46]. Рассмотрим, например, следующий текст:

(1)Бутылка Тегдтпо стоит на столе. Всем нравится, Тегдтпо. Тегдтпо может привести к опьянению. Мы делаем, Тегдтпо

из зерна.

Из этого контекста можно предположить, что Тегдтпо - это алкогольный напиток, приготовленный из зерна.

Задача поиска похожих слов (similar words) является первым шагом в определении значения слова. Тогда при обработке корпуса, включающего предложение (1), результатом должно быть определение близости значения слова Тегдтпо к словам пиво, вино, водка.

Методология автоматического создания тезауруса. Для вычисления сходства между словами в работе [34] использован пар-сер [35], извлекающий тройки из текста. Тройки зависимостей (от англ. dependency triple, далее просто тройки) состоят из двух слов и грамматического отношения между ними. Символ ||ад,г, w'\\ означает частоту в корпусе тройки (w,r, w'), где w,w' - это слова в нормальной форме, г - синтаксическое отношение. Произвольное слово или отношение обозначается символом-джокером «*». Например, ||cook, obj, *|| означает число троек со словом cook, и отношением obj.

Например, из предложения «У меня есть коричневая собака» будут извлечены следующие тройки:

|| коричневый, прил_сущ, собака || || есть, гл_сущ, собака ||

Определим следующие моменты:

1. Описание слова w - это частоты всех троек (w, *, *) в корпусе, т. е. всех троек, включающих w. Описание слова w является вектором.

2. «Пересечение» двух слов - это тройки, представленные в описании обоих слов; это пересечение векторов.

Сходство между двумя объектами вычисляется как количество информации в «пересечении» двух объектов (2), деленное на количество информации в описании двух объектов (1), далее обозначено как функция sim,(w\,w2) [36].

Предположив, что частоты троек не зависят друг от друга, получаем, что информация, представленная в описании слова w, равна сумме информации по каждой из уникальных троек в описании слова w.

Для измерения информации в утверждении ||ш; г, ш'|| =с выполним следующее:

1. измерим количество информации в утверждении, что произвольная тройка, извлеченная из текста, будет наша тройка (w, г, w') при условии, что значение ||ш; г, ш'|| - неизвестно;

2. измерим то же при условии, что значение ||ш; г, ш'|| - известно;

3. разница этих двух количеств является ответом.

Вероятность встретить в тексте тройку (w, г, w') можно рассматривать как одновременное возникновение трех событий:

А: случайно выбранное слово - это w,

В: случайно выбранное отношение - это г;

С: случайно выбранное слово - это w'.

1. Когда значение ||ш; г, ш'|| неизвестно, то предполагаем, что А и С являются условно независимыми при наличии события В. Вероятность наступления сразу трех этих событий составляет Pmle(B)Pmle(A\B)Pmle(С\В), где Pmle - это оценка максимального правдоподобия распределения вероятностей (maximum likelihood estimation)

*,r, *

P,

MLE

(B) =

*

Pmle (A\B ) = fe^

Pmle (C \B) =

*,r,*\

*,r,w

\*,r, *\

2. Когда значение ||ш; г, ш'|| известно, можно сразу получить Рмее{А, В, С):

Pmle (А, В,С ) =

\w, г, w

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Пусть I(w,r, w') обозначает количество информации, содержащейся в утверждении ||ш; г, ш'|| =с. Можно вычислить это значение так:

I(w, г, w') = - log (Pmle (В) Pmle (A\B)Pmle (С \B))-- (-log(Pmle(А, В, С)) =

= log

\w, r,w'\\ X *, r, *

\w,r, *\\ X \\*,r, w

Отметим, что значение I(w,r,w') равно количеству взаимной информации (mutual information) между w и w' [18].

Пусть Т(w) - это множество пар (г, w'), при которых

log

\w,r,w \\ X \\*, г, *\ \w, Г, *\\ X \ \ *, г, w'\

имеет положительное значение. Определим значение сходства (похожести) двух слов и:\ а w2 с помощью формулы:

sim(w\, w2) = £

(r,w)eT (W1)Î1T (W2)

(I(w\,r, w) + I(w2, r, w))

I(w\,r,w) + ^ I(w2 ,r,w)

(r,w)eT(Wl) (r,w)eT(w2)

Практическая реализация метода.

Был обработан корпус, включающий 64 млн слов. Из него было извлечено 56.6 млн троек, включающих 8.7 млн уникальных троек.

Сам корпус был разбит на классы по частям речи. Исследовалось попарно сходство между всеми глаголами, всеми существительными, всеми прилагательными/наречиями по формуле sim(w\, w2). Для каждого слова был построен аналог словарной статьи в тезаурусе, включающий упорядоченный набор 200 наиболее похожих слов. Статья в тезаурусе для слова w имела следующий формат:

w(pos) : w\,s\,w2,s2,... ,wn,sn,

где pos - это часть речи, Wi - это похожее слово, Si - это значение сходства между w и Wi, слова упорядочены по убыванию значения сходства.

Два слова являются парой взаимных ближайших соседей (RNN от respective nearest neighbors), если они являются наиболее похожими словами друг для друга (первыми в списке из двухсот слов). С помощью программы удалось получить 543 пары RNN существительных, 212 пар RNN глаголов, 382 пары RNN прилагательных/наречий в созданном автоматически тезаурусе. В табл. 5 представлен список каждого 10-го RNN для глаголов.

,,

Таблица 5. Список пар взаимных ближайших соседей (RNN) глаголов

Ранг RNN Значение сходства

1 fall rise 0.67

11 injure kill 0.38

21 concern worry 0.34

31 convict sentence 0.29

41 limit restrict 0.27

51 narrow widen 0.26

61 attract draw 0.24

71 discourage encourage 0.23

81 hit strike 0.22

91 distregard ignore 0.21

101 overstate understate 0.20

111 affirm reaffirm 0.18

121 inform notify 0.17

131 differ vary 0.16

141 scream yell 0.15

151 laugh smile 0.143

161 compete cope 0.136

171 add whisk 0.13

181 blossom mature 0.12

191 smell taste 0.11

201 bark howl 0.10

211 black white 0.07

Выявление значений слов из текста - кластеризация посредством комитетов

Д. Ю. Янкевич

В статье [47] представлен алгоритм автоматического обнаружения значений слов в тексте, названный кластеризация посредством ком,ит,ет,ов (Clustering By Committee, далее СВС). Также авторы предлагают методологию оценки для автоматического измерения точности и полноты найденных значений.

Алгоритм первоначально находит множество компактных кластеров, называемых комитетами, каждый из которых представляет собой одно из значений определяемого слова. Центр тяжести членов комитета (мера связности с определяемым словом) используется в качестве вектора признаков кластера.

Алгоритм СВС включает три этапа.

Ha, этапе I для каждого элемента (слова) вычисляется к наиболее похожих слов, строится база данных сходства S. Сначала весь

список относящихся к слову значений сортируется по убыванию значений связи согласно значению PMI (точечная взаимная информация, pointwise mutual information [39], с. 6668), а затем с помощью иерархического кластерного анализа по методу средней связи [3] вычисляется сходство между всеми элементами кластера попарно. Значение функции PMI между предполагаемым значением слова (контекстом) и элементом (словом) вычисляется следующим образом: пусть х - это рассмат-

х

на как

pmi (х;у) = logУ^1 у) —

р(х)р(у) = 1о р(х\у) = 1о р(у|х) р(х) р(у) '

При кластеризации посредством метода средних связей (average-link clustering) вычисляется среднее сходство между данным объектом и всеми объектами в кластере, а затем,

Data: ( E, S, в\, в2), где Е - это список элементов, которые будут сгруппированы, база

данных сходства S (построена в ходе этапа I), пороги 0\ m в2 (с помощью порога 0\ сохраняются только те кластеры, которые имеют значения, отличные от ранее обнаруженных, порог в2 позволяет обнаружить элементы, не принадлежащие ни одному из кластеров) Result: С - список комитетов Step 1:

foreach e G Е do

1. Кластер к наиболее «близких» (похожих) элементов е из S с помощью метода средней связи.

val = |С| х avgsim(c), где |С| - количество элементов с и avgsim(c) - усредненное 3. Записать кластер с наивысшей оценкой в список L.

end Step 2:

SortByDecreasingOrder(c(fal) G L) // Сортировка кластеров в списке L в порядке

a

Step 3:

С = 0 // Пусть перечень комитетов С будет изначально пустым, foreach с G L do

//в отсортированном по убыванию порядке:

1. Вычислить центр тяжести, усредняя поэлементно значение векторов, и вычислить вектор l'Ail центроида (так же, как и для отдельных элементов на шаге 1).

С

порогового $1, то следует добавить с в С.

end Step 4: С = 0 I return С end Step 5:

R = 0 ¡I R - это множество остатков, т. е. элементов, не охваченных ни одним из

кластеров

foreach e G Е do

if s i m(e, foreach с G С ) < в2 // сходство по всем, комитетам из С меньш е в2 // then I R+ = е // то следует добавить е в список остатков R. end end Step 6: R = 0

С

I return С U Algorithml(R, S, 6b) end end

Algorithm 1: Этап II. Поиск комитетов

Result: Итоговые кластеры с максимальным значением связи val между словами (см.

вычисление val на шаге 1 и 3 Алгоритма 1) Пусть С - это список кластеров (изначально пустых).

Пусть S - это первые 200 кластеров, наиболее похожих па е (база данных сходства S построена в ходе этапа I). while S = 0 do

пусть с £ S наиболее близкий кластер к е

if сходство (е, с) < a then I конец цикла

end

if с не схож ни с одним, кластером в С then присвоить ис;

удалить из е его характеристики, которые перекрываются с характеристиками с; end

удалить с из S end

Algorithm 2: Этап III. Присвоение элементов кластерам: для каждого из элементов е находится наиболее близкий кластер, в который включается е

если найденное среднее значение сходства, достигает или превосходит некоторый заданный пороговый уровень сходства, объект присоединяется к этому кластеру [3]. Сложность этого алгоритма 0{п2 х 1од{п)), где п - число кластеризуемых элементов [31].

На II этапе Алгоритм 1 рекурсивно строит набор компактных кластеров, удаленных друг от друга, где элементы каждого кластера образуют комитет. В ходе работы Алгоритма 1 формируется как можно больше комитетов при условии, что каждый вновь созданный комитет не слишком похож на любой из уже существующих комитетов. Если условие нарушается, комитет просто отбрасывается.

На каждом рекурсивном уровне Алгоритм 1 находит компактный набор кластеров (их и называем комитетами) и определяет оставшиеся элементы, не вошедшие ни в один из комитетов. Будем говорить, что комитет «покрывает» элемент (или элемент «входит» в комитет), если значение сходства между элементом и центроидом комитета выше некоторой пороговой величины. При следующем рекурсивном вызове алгоритм снова ищет комитеты среди оставшихся элементов. На выходе Алгоритм 1 дает список всех найденных комитетов.

На шаге 1 Алгоритма 1 поиска комитетов предпочтение отдается большим и компактным кластерам. На шаге 2 кластеры сортируются по значению сходства для последующего выбора лучшего кластера. На шаге 3 кластер сохраняется только в том случае, если его сходство со всеми ранее полученными кластерами ниже установленного порогового значения (в экспериментах было получено значение в\ = 0.35). На шаге 4, если не было найдено комитетов на предыдущем шаге, рекур-

сия останавливается. Оставшиеся и никуда не вошедшие элементы (остатки) определяются на шаге 5. Если таких остатков нет, то алгоритм завершается, иначе - алгоритм вызывается рекурсивно для остатков.

В результате второго этапа построения СВС строятся плотные компактные кластеры (имеющие большее значение val, см. шаги 1 и 3 Алгоритма 1), хорошо отличающиеся друг от друга. На третьем этапе все элементы распределяются по этим кластерам, а именно: каждый элемент е присваивается наиболее близкому кластеру, при этом центроид членов комитета используется в качестве вектора характеристик кластера (Алгоритм 2). Центроиды не изменяются, т. е. при добавлении элемента в кластер элемент не добавляется в комитет кластера.

Алгоритм СВС полагается на дистрибутивную гипотезу. Алгоритм СВС разрешает лексическую многозначность, группируя слова согласно сходству их контекстов. Каждому полученному кластеру соответствует одно из значений слова.

Сравнение с алгоритмом UNICON.

СВС является разновидностью алгоритма UNICON [37], который также строит центроид кластера, используя небольшой набор похожих элементов.

Одним из основных различий между UNICON и СВС является то, что UNICON гарантирует, что различные комитеты не имеют одинаковых элементов, тем не менее центры тяжести двух комитетов по-прежнему могут быть очень близкими (похожими). В UNICON'e эта проблема решается объединением таких кластеров. В отличие от этого на II этапе СВС создаются только те

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

комитеты, центры тяжести которых отличны от всех ранее созданных комитетов.

Есть разница и на III этапе СВС. Алгоритм I X К'ОХ плохо работает со словами, которые имеют несколько широко используемых (доминирующих) значений. СВС удаляет «пере-

секающиеся» (общие для двух кластеров) характеристики (слова) после того, как присвоит значение кластеру. Это приводит к тому, что кластеры точнее соответствуют искомым значениям.

Эксперименты

Сравнительные эксперименты в WSD: роль предпочтений в машинном обучении

Н. И. Коржицкий

В работе Рэймонда Муни [42] представлено одно из первых сравнений разных по природе методов WSD на одних и тех же данных. В статье [42] проведена серия экспериментов, в которых сравнивалась способность различных обучающихся алгоритмов определять значение слова в зависимости от контекста.

В машинном обучении под термином bias (пристрастие, тенденция, предпочтение) понимается любое основание для предпочтения одного обобщения другому [42]. В деревьях принятия решений предпочтение (bias) отдается простым деревьям решений, в нейронных сетях - линейным пороговым функциям, а в байесовском классификаторе - функциям, учитывающим условную независимость свойств. Чем лучше «предпочтение» обучающегося алгоритма соответствует характеристикам конкретной задачи, тем лучше будет результат. Большинство обучающихся алгоритмов обладают «предпочтением» наподобие Бритвы Оккама. В таких алгоритмах выбираются гипотезы, которые могут быть представлены меньшим количеством информации на каком-нибудь языке представлений. Однако компактность, с которой (деревья решений, дизъюнктивная нормальная форма, сети с линейным пороговым значением) представляют конкретные функции, - может существенно различаться. Поэтому различные «предпочтительные» оценки могут работать лучше или хуже в конкретных задачах. Одной из основных целей в машинном обучении является поиск «предпочтений» с целью решения прикладных практических задач.

Выбор правильного «предпочтения» и обучающегося алгоритма является сложной задачей. Простым подходом является автоматизация выбора метода на основе результатов внутренней перекрестной валидации. Другой подход, который называется мета-обучением

(meta-learning), заключается в том, чтобы сформировать набор правил (или аналогичный классификатор), который на основании предметных признаков, описывающих задачу, предсказывал бы, когда обучающийся алгоритм будет срабатывать наилучшим образом.

Описанный в [42] эксперимент заключается в определении значения английского слова line среди 6 возможных вариантов (строка, ряд, дивизия, телефон, веревка, продуктовая линия). Данные для проведения экспериментов взяты из работы [32].

Для получения обучающей выборки брались предложения со словом line, и им в соответствие ставилось одно из 6 значений. Распределение значений неравномерно: включение в список источников журнала The Wall Street Journal привело к тому, что одно из значений встречалось в 5 раз чаще всех остальных [32].

В работе [38] было установлено, что наиболее эффективными при решении задачи WSD являются алгоритмы на основе дерева решений (decision tree). Данный класс методов обходил по точности и скорости работы класс нейронных сетей. Другие исследования [43] показали, что класс методов индуктивного логического программирования (inductive logic programming) справляется с задачей разрешения лексической многозначности слова лучше алгоритмов на основе дерева решений.

В серии экспериментов в [42] сравнивались следующие методы: байесовский классификатор, перцептрон, С4.5, метод к-ближайших соседей и модификации алгоритма FOIL: PFOIL-DLIST, PFOIL-DNF, PFOIL-CNF.

После проведения сравнительных экспериментов, заключавшихся в обучении и определении значения слова line, было выяснено, что байесовский классификатор и перцептрон работают точнее других рассмотренных методов.

Эксперименты проводились с разными размерами обучающей выборки для того, чтобы выяснить, какого рода зависимость имеет место между точностью определения значения и размером выборки. На рис. 5с отображена зависимость точности работы алгоритмов

®

Таблица 6. Шесть значений слова line из Английского Викисловаря и Русского Викисловаря

Ключевое слово Перевод Толкование на английском (Английский Викисловарь) Толкование на русском (Русский Викисловарь)

Text Строка A small amount of text Ряд слов, букв или иных знаков, написанных или напечатанных в одну линию

Formation Ряд A more-or-less straight sequence of people, objects, etc. Несколько объектов, расположенных в линию или следующих один за другим

Division Дивизия A formation, usually made up of two or three brigades Тактическое воинское соединение

Phone Телефон The wire connecting one telegraphic station with another, a telephone or internet cable То же, что телефонный номер

Cord Веревка A rope, cord, string, or thread, of any thickness Гибкое и длинное изделие, -чаще всего сплетенное или свитое из льняных (или пеньковых, полимерных и т. п.) волокон или прядей

Product Продуктовая линия The products or services sold by a business, or by extension, the business itself Совокупность однородной продукции единого назначения

от размера выборки. При увеличении размера обучающей выборки сначала происходит резкий рост точности, последующий прирост точности становится незначительным.

Эксперименты учитывали не только точность определения значения, но и требовательность алгоритма к ресурсам в процессе обучения и работы. На рис. 5а можно увидеть зависимость времени обучения от размера выборки. Самыми быстрообучаемыми оказались байесовский классификатор и перцеп-трон, а самыми медленными - нормальные формы (рис. 5а).

На рис. 5Ь представлена зависимость времени работы алгоритмов от размера обучающей выборки. Время работы алгоритмов дает другую картину: байесовский классификатор и перцептрон работают долго при максимальном размере обучающей выборки, в то время как остальные методы решают задачу за постоянное время (рис. 5Ь).

Заключение

Разрешение лексической многозначности -это задача выбора между разными значениями слов и словосочетаний в словаре в зависимости от контекста. Задача разрешения лексической многозначности является открытой проблемой, т. е. крайне интересной и привлекательной с научной точки зрения.

В статье представлен краткий обзор методов и алгоритмов, применяемых для разрешения лексической многозначности. Эти методы используют различный математический и алгоритмический аппарат для решения \VSD-задачи: нейронные сети, адаптивный алгоритм улучшения точности обучения АёаВоов^ построение лексических цепочек, методы на основе применения теоремы Байеса и методы кластеризации контекстных векторов и семантически близких слов. Работу завершает исследование, в котором сравниваются время обучения, время работы и результаты работы разных алгоритмов решения \¥БВ-задачи.

Работа В. Г. Старковой поддержана грантом РГНФ (проект № 15-04-12029), работа А. Н. Кириллова и Ю. В. Чирковой поддержана грантом РГНФ (проект № 15-04-12006). Работа А. А. Крижановского выполнена при частичной финансовой поддержке Программы фундаментальных исследований Секции литературы и языка ОИФН РАН «Язык и информационные технологии» 2015-2017 (проект «Корпус вепсского языка: разработка и формирование морфологической базы электронного ресурса»).

6000

Training Examples

(а) Зависимость времени, затраченного на обучение алгоритмов, от размера обучающей выборки

(Ь) Зависимость времени работы алгоритмов от размера обучающей выборки

i 1 1 i

. ---Л

..-В".......

______- j

Jfp^ ___. - Ж-----------........

" * .'■ - " ..........

-

/ & I -/■' Naive Bayes

/ Perceptron —i—

" //'-"' PFOIL-DLIST

/// C4.5 ••X.....

/А' /А 3 Nearest Neighbor -A--

PFOIL-DNF -Я(-•-

- -1— PFOIL-CNF -1-1- -O- - -1-

0 200 400 600 800 1000 1200

Number of Training Examples

(с) Рост точности решения WSD-задачи для разных алгоритмов при увеличении размера обучающей выборки

Рис. 5. Сравнение времени обучения, времени работы и результатов работы алгоритмов PFÜIL-DLIST. PFÜIL-DNF. PFÜIL-CNF. С4.5. Naive Bayos наивный баейсовский классификатор: Percoptron пер-септрон: 3 Nearest Neighbor метод 3-х ближайших соседей при определении значения слова line [42]

Литература

1. Аверин А. Н. Разработка сервиса поиска биграмм / / Труды международной конференции «Корпусная лингвистика 2006». СПб.: С.-Петерб. ун-т, 2006. С. 5-15.

2. Епрев А. С. Применение контекстных векторов в классификации текстовых документов / / Журнал радиоэлектроники. 2010. № 10. URL: http://jre.cplire.ru/iso/octlO/l/text.html (дата обращения: 21.08.2015)

3. Ким Дж. О., Мьюллер Ч. У, Клекка У. Р. Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989. С. 172.

4. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: МГУ, 2011. 495 с.

5. Марманис X., Бабенко Д. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных / Пер. с англ. СПб.: Символ-Плюс, 2011. 480 с.

6. Паклин Н. В., Орешков В. И. Бизнес-аналитика: от данных к знаниям: Учебное пособие. 2-е изд., испр. СПб.: Питер, 2013. 704 с.

7. Турдаков Д. Ю. Методы и программные средства разрешения лексической многозначности терминов на основе сетей документов: дис. ... к. ф.-м. н. М., 2010. 138 с.

8. Abney S., Light М. Hiding a semantic hierarchy in a markov model //In Proceedings of the Workshop on Unsupervised Learning in Natural Language Processing, ACL. 1999.

9. Azzini A., da Costa Pereira C., Dragoni M., Tettamanzi A. G. В. Evolving Neural Networks for Word Sense Disambiguation // 8th International Conference on hybrid intelligent systems. Spain. Barcelona, 2008. P. 332-337. doi: 10.1109/HIS.2008.88

10. Barzilay R., Elhadad M. Using lexical chains for text summarization // In Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization (Madrid, Spain). 1997. P. 10-17.

11. Berry M., Do Т., O'Brien G., Krishna V., Varadhan S. SVDPACK (version 1.0) user's guide. Technical Report CS-93-194, University of Tennessee at Knoxville, Computer Science Department, April 1993.

12. Breiman L. Arcing classifiers. The Annals of Statistics. 1998. Vol. 26, N 3. P. 801-849.

13. Bruce R., Wiebe J. Word-sense disambiguation using decomposable models //In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, 1994. P. 139-146. doi: 10.3115/981732.981752

14. Carpuat M., Wu D. Evaluating the word sense disambiguation performance of statistical machine translation //In Proceedings of the 2nd International Joint Conference on natural language

processing (IJCNLP), 2005. P. 122-127. URL: http: / / www.aclweb.org/anthology/105-2021 (дата обращения: 20.08.2015)

15. Ciaramita M., Johnson М. Explaining away ambiguity: Learning verb selectional preference with Bayesian networks // In Proceedings of the 18th Conference on Computational linguistics, 2000. Vol. 1. P. 187-193.

16. Cottrell G. W., Small S. L. A connectionist scheme for modelling word sense disambiguation // Cognition and brain theory. 1983. N 6. P. 89-120.

17. Duong D. T. Automated text summarization. Graduation Thesis. Hanoi University. 2011. 117 p.

18. Hindle D. Noun classification from predicate-argument structures //In Proceedings of ACL-90, Pittsburg, Pennsylvania, June, 1990. P. 268-275.

19. Escudero G., Márquez L., Riga,-a G. Using LazyBoosting for word sense disambiguation //In Proceedings of the Second International Workshop on evaluating Word Sense Disambiguation Systems. Toulouse, France, 2001. P. 71-74.

20. Escudero G., Márquez L., Riga,-a G. Boosting Applied to Word Sense Disambiguation //In Proceedings of the 12th European Conference on Machine Learning, ECML. Barcelona, Catalonia. 2000. P. 129-141.

21. Freund Y., Schapire R. E. A Short Introduction to Boosting // Journal of Japanese Society for Artificial Intelligence, 1999. Vol. 14, N 5. P. 771-780.

22. Freund Y., Schapire R. E. Game theory, online prediction and boosting //In Proceedings of the 9th Annual Conference on Computational Learning Theory, 1996. P. 325-332.

23. Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of Computer and System Sciences. 1997. P. 119-139. doi: 10.1006/jess. 1997.1504

24. Halliday M., Hasan R. Cohesion in English. London: Longman, 1976. 374 p.

25. Harris Z. Distributional structure // In: J. J. Katz (ed.) The Philosophy of Linguistics. New York: Oxford University Press, 1985. P. 26-47.

26. Hearst M. Multi-paragraph segmentation of expository text // In Proceedings of the 32th Annual Meeting of the Association for Computational Linguistics, 9-16. Las Cruces, New Mexico: Association for Computational Linguistics. 1994. doi: 10.3115/981732.981734

27. Hinton G. E., McClelland J. L., Rumelhart D. E. Distributed representations // In Parallel Processing: explorations in the microstructure of cognition. MIT Press, Cambridge, MA, 1986. P. 5-44.

0

28. Hirst G., St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms. WordNet: An electronic lexical database, 1998. P. 305-332.

29. Hoey M. Patterns of Lexis in Text. Oxford: Oxford University Press, 1991. 190 p.

30. Jain A., Duftes R. Algorithms for Clustering Data. Prentice-Hall, Inc., Upper Saddle River, NJ, 1988.

31. Jain A., Murthy M., Flynn P. Data clustering: a review / / ACM Computing Surveys, 1999. Vol. 31, N 3. P. 264-323. doi: 10.1145/331499.331504

32. Leacock C., Towell G., Voorhees E. Corpus-based statistical sense resolution //In Proceedings of the ARPA Workshop on Human Language Technology, 1993. P. 260-265.

33. Lesk M. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone //In Proceedings of the 5th SIGDOC. New York. 1986. P. 24-26. doi: 10.1145/318723.318728

34. Lin D. Automatic Retrieval and Clustering of Similar Words // In Proceedings of the 17th International Conference on Computational linguistics. University of Manitoba, Manitoba, Canada, 1998. Vol. 2. P. 768-774. doi: 10.3115/980432.980696

35. Lin D. Principle-based parsing without overgeneration // In Proceedings of ACL-93, Columbus, Ohio, 1993. P. 112-120. doi: 10.3115/981574.981590

36. Lin D. Using syntactic dependency as local context to resolve word sense ambiguity //In Proceedings of ACL/EACL-97, Madrid, Spain, 1997. P. 64-71. doi: 10.3115/979617.979626

37. Lin D., Pantel P. Induction of semantic classes from natural language text //In Proceedings of SIGKDD-01. San Francisco, CA. 2001. P. 317-322. doi: 10.1145/502512.502558

38. Ling Charles X., Marinov M. Answering the connectionist challenge: A symbolic model of learning the past tenses of English verbs. Cognition, Elsevier, 1993.

39. Manning C. D., Schütze H Foundations of Statistical Natural Language Processing. MIT Press, 1999.

40. Merz С. J., Murphy P. M. UCI repository of machine learning databases, 1998. URL: www.ics.uci.edu/ mlearn/MLRepository.html (дата обращения: 24.04.2015)

41. Miller G. Wordnet: An on-line lexical database. International Journal of Lexicography, 1990. Vol. 3, N 4.

42. Mooney R. J. Comparative Experiments on Disambiguating Word Senses: An Illustration of the

Role of Bias in Machine Learning. Department of Computer Sciences. University of Texas, Austin, TX 78712-1188, 1996.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

43. Mooney R. J., Califf M. E. Induction of FirstOrder Decision Lists: Results on Learning the Past Tense of English Verbs. Department of Computer Sciences. University of Texas, Austin, TX 787121188, 1995.

44. Morris J., Hirst G. Lexical cohesion computed by thesaural relations clS ctn indicator of the structure of text. Computational Linguistics, 1991. Vol. 17, N 1. P. 21-43.

45. Navigli R. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR), 2009. Vol. 41, N 2. doi: 10.1145/1459352.1459355

46. Nida Eugene A. Componential Analysis of Meaning. The Hague, Mouton, 1975.

47. Pantel P., Lin D. Discovering Word Senses from Text. University of Alberta. Department of Computing Science. Edmonton, Alberta, T6H 2E1 Canada, 2002. doi: 10.1145/775047.775138

48. Pedersen T. A Simple Approach to Building Ensembles of Naive Bayesian Classifers for Word Sense Disambiguation. Department of Computer Science, University of Minnesota Duluth, 2000.

49. Pedersen T., Bruce R. Distinguishing word senses in untagged text //In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing, 1997.

50. Purandare A., Pedersen T. Improving word sense discrimination with gloss augmented feature vectors / / Workshop on Lexical Resources for the Web and Word Sense Disambiguation, 2004. P. 123130.

51. Quinlan J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.

52. Resnik P. Selectional preference and sense disambiguation //In Proceedings of the ANLP-97 Workshop: Tagging Text with Lexical Semantics: Why, What, and How? 1997.

53. Savova G., Pedersen T., Purandare A., Kulkarni A. Resolving ambiguities in biomedical text with unsupervised clustering approaches. University of Minnesota Supercomputing Institute Research Report, 2005.

54. Schapire R. E., Singer Y. Improved Boosting Algorithms Using Confidence-rated Predictions. Machine Learning, 1999. Vol. 37, N 3. P. 297-336.

55. Schapire R. E., Singer Y. Improved boosting a predictions //In Proceedings of the 11th Annual Conference Theory, 1998. P. 80-91.

56. Schapire R. E. Using output codes to boost multiclass learning problems. In Machine Learning // In Proceedings of the 14th International Conference, 1997. P. 313-321.

57. Schütze H. Automatic Word Sense Discrimination // Computational Linguistics, 1998. Vol. 24, N 1. P. 97-123.

58. SenseClusters.

URL: http://senseclusters.sourceforge.net (дата обращения: 24.04.2015)

59. UMLS Terminology Services (UTS). URL: http: //umlsks.nlm.nih.gov/kss/servlet/Turbine/ template (дата обращения: 22.04.2015)

60. Veronis J., I de N. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries // In Proceedings of the 13th International Conference on Computational Linguistics. Helsinki, 1990. P. 389-394. doi: 10.3115/997939.998006

61. Waltz D. L., Pollack J. B. Massively parallel parsing: a strongly interactive model of natural

language interpretation // Cognitive science, 1985. N 9. P. 51-74. doi: 10.1207/sl5516709cog0901^4

62. Weeber M., Мог к J. G., Aronson A. R. Developing a test collection for biomedical word sense disambiguation //In Proceedings of the AMIA Symposium, Chicago, 2001. P. 746-750.

63. Zhao Y., Karypis G. Evaluation of hierarchical clustering algorithms for document datasets // In Proceedings of the 11th International Conference on Information and Knowledge Management, McLean, VA, 2002. P. 515-524. doi: 10.1145/584792.584877

64. Zuppann A. Connectionist Approach to Word Sense Disambiguation //In Proceedings Class of 2003 Senior Conference on Natural Language Processing. Swarthmore College, USA. 2003. P. 78-83.

Поступила в редакцию 02.04.2015

References

1. Averin A. N. Razrabotka servisa poiska bigramm [Developing a search engine for bigrams]. Trudy mezhdunarodnoj konferencii «Korpusnaja lingvistika 2006» [Proceedings of the International Conference «Corpus linguistics 2006»]. St. Petersburg: St. Peterb. un-t, 2006. P. 5-15.

2. Eprev A. S. Primenenie kontekstnyh vektorov v klassifikacii tekstovyh dokumentov [Applications of context vectors in classification of text documents]. Zhurnal radiojelektroniki [Journal of radio electronics]. 2010. N 10. URL: http://jre.cplire.ru/iso/octlO/l/text.html (accessed: 21.08.2015)

3. Kim G. O., M'fuller Ch. U., Klekka U. R. Faktornyj, diskriminantnyj i klasternyj analiz [Factorial, discriminant and cluster analysis]. Moscow: Finansy i statistika, 1989. P. 172.

4. Loukachevitch N. V. Tezaurusy v zadachah informacionnogo poiska [Thesauri in information retrieval tasks]. Moscow: MSU, 2011. 495 p.

5. M armants H., Babenko D. Algoritmy intellektual'nogo Interneta. Peredovye metodiki sbora, analiza i obrabotki dannyh [Algorithms of the intelligent Web. Advanced methods of data collection, analysis and processing]. St. Petersburg: Simvol-Plyus, 2011. 480 p.

6. Paklin N. B., Oreshkov V. I. Biznes-analitika: ot dannyh k znanijam: Uchebnoe posobie. 2-e izd., ispr. [Business analytics: from data to knowledge. Tutorial]. St. Petersburg: Piter, 2013. 704 p.

7. Turdakov D. Yu. Metody i programmnye sredstva razreshenija leksicheskoj mnogoznachnosti terminov na osnove setej dokumentov [Methods and

software tools for resolving lexical ambiguity of terms based on the network of documents]: dis. ... k. f.-m. n. [Ph. D. thesis, phys.-math.]. Moscow, 2010. 138 c.

8. Abney S., Light M. Hiding a semantic hierarchy in a markov model. In Proceedings of the Workshop on Unsupervised Learning in Natural Language Processing, ACL. 1999.

9. Azzini A., da Costa Pereira C., Dragoni M., Tettamanzi A. G. B. Evolving Neural Networks for Word Sense Disambiguation. 8th International Conference on hybrid intelligent systems. Spain. Barcelona, 2008. P. 332-337. doi: 10.1109/HIS. 2008.88

10. Barzilay R., Elhadad M. Using lexical chains for text summarization. In Proceedings of the ACL Workshop on Intelligent Scalable Text Summarization (Madrid, Spain). 1997. P. 10-17.

11. Berry M., Do T., O'Brien G., Krishna V., Varadhan S. SVDPACK (version 1.0) user's guide. Technical Report CS-93-194, University of Tennessee at Knoxville, Computer Science Department, April 1993.

12. Breiman L. Arcing classifiers. The Annals of Statistics. 1998. Vol. 26, N 3. P. 801-849.

13. Bruce R., Wiebe J. Word-sense disambiguation using decomposable models. In Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, 1994. P. 139-146. doi: 10.3115/981732.981752

14. Carpuat M., Wu D. Evaluating the word sense disambiguation performance of statistical machine translation. In Proceedings of the 2nd International Joint Conference on natural language processing (IJCNLP), 2005. P. 122-127. URL:

http: //www.aclweb.org/anthology/I05-2021 (дата обращения: 20.08.2015)

15. Ciaramita М., Johnson М. Explaining away ambiguity: Learning verb selectional preference with Bayesian networks. In Proceedings of the 18th Conference on Computational linguistics, 2000. Vol. 1. P. 187-193.

16. Cottrell G. W., Small S. L. A connectionist scheme for modelling word sense disambiguation. Cognition and brain theory. 1983. N 6. P. 89-120.

17. Duong D. T. Automated text summarization. Graduation Thesis. Hanoi University. 2011. 117 p.

18. Hindle D. Noun classification from predicate-argument structures. In Proceedings of ACL-90, Pittsburg, Pennsylvania, June, 1990. P. 268-275.

19. Escudero G., Márquez L., Riga,-a G. Using LazyBoosting for word sense disambiguation. In Proceedings of the Second International Workshop on evaluating Word Sense Disambiguation Systems. Toulouse, France, 2001. P. 71-74.

20. Escudero G., Márquez L., Riga,-a G. Boosting Applied to Word Sense Disambiguation. In Proceedings of the 12th European Conference on Machine Learning, ECML. Barcelona, Catalonia. 2000. P. 129-141.

21. Freund Y., Schapire R. E. A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence, 1999. Vol. 14, N 5. P. 771-780.

22. Freund Y., Schapire R. E. Game theory, online prediction and boosting. In Proceedings of the 9th Annual Conference on Computational Learning Theory, 1996. P. 325-332.

23. Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences. 1997. P. 119-139. doi: 10.1006/jcss. 1997.1504

24. Halliday M., Hasan R. Cohesion in English. London: Longman, 1976. 374 p.

25. Harris Z. Distributional structure. In: J. J. Katz (ed.) The Philosophy of Linguistics. New York: Oxford University Press, 1985. P. 26-47.

26. Hearst M. Multi-paragraph segmentation of expository text. In Proceedings of the 32th Annual Meeting of the Association for Computational Linguistics, 9-16. Las Cruces, New Mexico: Association for Computational Linguistics. 1994. doi: 10.3115/981732.981734

27. Hinton G. E., McClelland J. L., Rumelhart D. E. Distributed representations. In Parallel Processing: explorations in the microstructure of cognition. MIT Press, Cambridge, MA, 1986. P. 5-44.

28. Hirst G., St-Onge D. Lexical chains as representations of context for the detection

and correction of malapropisms. WordNet: An electronic lexical database, 1998. P. 305-332.

29. Hoey M. Patterns of Lexis in Text. Oxford: Oxford University Press, 1991. 190 p.

30. Jain A., Dubes R. Algorithms for Clustering Data. Prentice-Hall, Inc., Upper Saddle River, NJ, 1988.

31. Jain A., Murthy M., Flynn P. Data clustering: a review. ACM Computing Surveys, 1999. Vol. 31, N 3. P. 264-323. doi: 10.1145/331499.331504

32. Leacock C., Towell G., Voorhees E. Corpus-based statistical sense resolution. In Proceedings of the ARPA Workshop on Human Language Technology, 1993. P. 260-265.

33. Lesk M. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. In Proceedings of the 5th SIGDOC. New York. 1986. P. 24-26. doi: 10.1145/318723.318728

34. Lin D. Automatic Retrieval and Clustering of Similar Words. In Proceedings of the 17th International Conference on Computational linguistics. University of Manitoba, Manitoba, Canada, 1998. Vol. 2. P. 768-774. doi: 10.3115/980432.980696

35. Lin D. Principle-based parsing without overgeneration. In Proceedings of ACL-93, Columbus, Ohio, 1993. P. 112-120. doi: 10.3115/981574.981590

36. Lin D. Using syntactic dependency as local context to resolve word sense ambiguity. In Proceedings of ACL/EACL-97, Madrid, Spain, 1997. P. 64-71. doi: 10.3115/979617.979626

37. Lin D., Pantel P. Induction of semantic classes from natural language text. In Proceedings of SIGKDD-01. San Francisco, CA. 2001. P. 317-322. doi: 10.1145/502512.502558

38. Ling Charles X., Marinov M. Answering the connectionist challenge: A symbolic model of learning the past tenses of English verbs. Cognition, Elsevier, 1993.

39. Manning C. D., Schütze H. Foundations of Statistical Natural Language Processing. MIT Press, 1999.

40. Merz С. J., Murphy P. M. UCI repository of machine learning databases, 1998. URL: www.ics.uci.edu/ mlearn/MLRepository.html (дата обращения: 24.04.2015)

41. Miller G. Wordnet: An on-line lexical database. International Journal of Lexicography, 1990. Vol. 3, N 4.

42. Mooney R. J. Comparative Experiments on Disambiguating Word Senses: An Illustration of the Role of Bias in Machine Learning. Department of Computer Sciences. University of Texas, Austin, TX 78712-1188, 1996.

43. Mooney R. J., Califf M. E. Induction of FirstOrder Decision Lists: Results on Learning the Past Tense of English Verbs. Department of Computer Sciences. University of Texas, Austin, TX 787121188, 1995.

44. Morris J., Hirst G. Lexical cohesion computed by thesaural relations clS clll indicator of the structure of text. Computational Linguistics, 1991. Vol. 17, N 1. P. 21-43.

45. Navigli R. Word sense disambiguation: A survey. ACM Computing Surveys (CSUR), 2009. Vol. 41, N 2. doi: 10.1145/1459352.1459355

46. Nida Eugene A. Componential Analysis of Meaning. The Hague, Mouton, 1975.

47. Pantel P., Lin D. Discovering Word Senses from Text. University of Alberta. Department of Computing Science. Edmonton, Alberta, T6H 2E1 Canada, 2002. doi: 10.1145/775047.775138

48. Pedersen T. A Simple Approach to Building Ensembles of Naive Bayesian Classifers for Word Sense Disambiguation. Department of Computer Science, University of Minnesota Duluth, 2000.

49. Pedersen T., Bruce R. Distinguishing word senses in untagged text. In Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing, 1997.

50. Purandare A., Pedersen T. Improving word sense discrimination with gloss augmented feature vectors. Workshop on Lexical Resources for the Web and Word Sense Disambiguation, 2004. P. 123130.

51. Quinlan J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.

52. Resnik P. Selectional preference and sense disambiguation. In Proceedings of the ANLP-97 Workshop: Tagging Text with Lexical Semantics: Why, What, and How? 1997.

53. Savova G., Pedersen T., Purandare A., Kulkarni A. Resolving ambiguities in biomedical text with unsupervised clustering approaches. University of Minnesota Supercomputing Institute Research Report, 2005.

54. Schapire R. E., Singer Y. Improved Boosting Algorithms Using Confidence-rated Predictions. Machine Learning, 1999. Vol. 37, N 3. P. 297-336.

55. Schapire R. E., Singer Y. Improved boosting a predictions. In Proceedings of the 11th Annual Conference Theory, 1998. P. 80-91.

56. Schapire R. E. Using output codes to boost multiclass learning problems. In Machine Learning. In Proceedings of the 14th International Conference, 1997. P. 313-321.

57. Schütze H. Automatic Word Sense Discrimination. Computational Linguistics, 1998. Vol. 24, N 1. P. 97-123.

58. SenseClusters.

URL: http://senseclusters.sourceforge.net (дата обращения: 24.04.2015)

59. UMLS Terminology Services (UTS). URL: http://umlsks.nlm.nih.gov/kss/servlet/Turbine/ template (дата обращения: 22.04.2015)

60. Veronis J., Ide N. Word sense disambiguation with very large neural networks extracted from machine readable dictionaries. In Proceedings of the 13th International Conference on Computational Linguistics. Helsinki, 1990. P. 389-394. doi: 10.3115/997939.998006

61. Waltz D. L., Pollack J. B. Massively parallel parsing: a strongly interactive model of natural language interpretation. Cognitive science, 1985. N 9. P. 51-74. doi: 10.1207/sl5516709cog0901^4

62. Weeber M., Mork J. G., Aronson A. R. Developing a test collection for biomedical word sense disambiguation. In Proceedings of the AMI A Symposium, Chicago, 2001. P. 746-750.

63. Zhao Y., Karypis G. Evaluation of hierarchical clustering algorithms for document datasets. In Proceedings of the 11th International Conference on Information and Knowledge Management, McLean, VA, 2002. P. 515-524. doi: 10.1145/584792.584877

64. Zuppann A. Connectionist Approach to Word Sense Disambiguation. In Proceedings Class of 2003 Senior Conference on Natural Language Processing. Swarthmore College, USA. 2003. P. 78-83.

Received April 02, 2015

СВЕДЕНИЯ ОБ АВТОРАХ:

CONTRIBUTORS:

Каушинис Татьяна Викторовна

студентка

Математический факультет

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск, Республика Карелия,

Россия,185910

эл. почта: merilstreetQmail.ru

тел.: (8142) 711078

Kaushinis, Tatiana

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: merilstreetQmail.ru tel.: (8142) 711078

Кириллов Александр Николаевич

доцент, д. ф.-м. н.

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: kirillovQkrc.karelia.ru

тел.: (8142) 766312

Kirillov, Alexander

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11, Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: kirillovQkrc.karelia.ru tel.: (8142) 766312

Коржицкий Никита Иванович

студент

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: nikita@nikita.tv

тел.: (8142) 711078

Korzhitsky, Nikita

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: nikitaQnikita.tv tel.: (8142) 711078

Крижановский Андрей Анатольевич к. т. п.

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: andew.krizhanovskyQgmail.com

тел.: (8142) 766312

Krizhanovsky, Andrew

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11, Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: an dew. krizhanovsky Qgmail .com tel.: (8142) 766312

Пилинович Александр Владимирович

студент

Математический факультет Петрозаводский государственный университет пр. Ленина, 33, Петрозаводск, Республика Карелия, Россия, 185910 эл. почта: alexander.pilinovichQyandex.ru тел.: (8142) 711078

Pilinovich, Aleksander

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: alexander.pilinovichQyandex.ru tel.: (8142) 711078

Сихонина Ирина Александровна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: syawenkaQmail.ru

тел.: (8142) 711078

Sikhonina, Irina

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: syawenkaQmail.ru tel.: (8142) 711078

Спиркова Анна Михайловна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: annspirkovaQgmail.com

тел.: (8142) 711078

Spirkova, Anna

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: annspirkovaQgmail.com tel.: (8142) 711078

Старкова Валентина Геннадьевна

старший инженер-программист

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: stark_valQmail.ru

тел.: (8142) 766312

Starkova, Valentina

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11, Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: stark_valQmail.ru tel.: (8142) 766312

Степкина Татьяна Владимировна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: hogdpQmail.ru

тел.: (8142) 711078

Stepkina, Tatiana

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: hogdpQmail.ru tel.: (8142) 711078

Ткач Станислав Сергеевич

студент

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: tkachkrasQgmail.com

тел.: (8142) 711078

Tkach, Stanislav

Petrozavodsk State University

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: tkachkrasQgmail.com tel.: (8142) 711078

Чиркова Юлия Васильевна к. ф.-м. п.

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: juliaQkrc.karelia.ru

тел.: (8142) 766312

Chirkova, Julia

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11 Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: juliaQkrc.karelia.ru tel.: (8142) 766312

Чухарев Алексей Леонидович

старший инженер-программист

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: chuharevQkrc.karelia.ru

тел.: (8142) 766312

Chuharev, Alexey

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11, Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: chuharevQkrc.karelia.ru tel.: (8142) 766312

Шорец Дарья Сергеевна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: da_shal078Qmail.ru

тел.: (8142) 711078

Shorets, Daria

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: da_shal078Qmail.ru tel.: (8142) 711078

Ярышкина Екатерина Александровна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: kate.ryshQgmail.com

тел.: (8142) 711078

Yaryshkina, Ekaterina

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: kate.ryshQgmail.com tel.: (8142) 711078

Янкевич Дарья Юрьевна

студентка

Математический факультет

Петрозаводский государственный университет

пр. Ленина, 33, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: dyankevicQgmail.com

тел.: (8142) 711078

Yankevich, Daria

Petrozavodsk State University

33, Lenina St., 185910, Petrozavodsk, Karelia, Russia e-mail: dyankevicQgmail.com tel.: (8142) 711078

i Надоели баннеры? Вы всегда можете отключить рекламу.