Научная статья на тему 'Модель геометрической структуры синсета'

Модель геометрической структуры синсета Текст научной статьи по специальности «Математика»

CC BY
565
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИНОНИМ / СИНСЕТ / НЕЙРОННАЯ СЕТЬ / КОРПУСНАЯ ЛИНГВИСТИКА / WORD2VEC / RUSVECTORES / GENSIM / РУССКИЙ ВИКИСЛОВАРЬ / SYNONYM / SYNSET / NEURAL NETWORK / CORPUS LINGUISTICS / RUSSIAN WIKTIONARY

Аннотация научной статьи по математике, автор научной работы — Кириллов Александр Николаевич, Крижановский Андрей Анатольевич

В статье поставлен вопрос формализации понятия синонимии. На основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). Определен такой вычислимый атрибут синсетов как внутренность синсета (IntS). Введены понятия ранг и центральность слов в синсете, позволяющие определить более значимые, «центральные» слова в синсете. Для ранга и центральности даны математическая формулировка и предложена процедура их вычисления. Для вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой Т. Миколова word2vec. На примере синсетов Русского Викисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам (Национальный корпус русского языка и новостной корпус), в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кириллов Александр Николаевич, Крижановский Андрей Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SYNSET GEOMETRY STRUCTURE MODEL

The goal of formalization, proposed in this paper, is to bring together, as near as possible, the theoretic linguistic problem of synonym conception and the computer linguistic methods based generally on empirical intuitive unjustified factors. Using the word vector representation we have proposed the geometric approach to mathematical modeling of synonym set (synset). The word embedding is based on the neural networks (Skip-gram, CBOW), developed and realized as word2vec program by T. Mikolov. The standard cosine similarity is used as the distance between word-vectors. Several geometric characteristics of the synset words are introduced: the interior of synset, the synset word rank and centrality. These notions are intended to select the most significant synset words, i.e. the words which senses are the nearest to the sense of a synset. Some experiments with proposed notions, based on RusVectores resources, are represented.

Текст научной работы на тему «Модель геометрической структуры синсета»

руды арельского научного центра Р 8. 2016. . 45 54 DOI: 10.17076/mat394

81.32

МОДЕЛЬ ГЕОМЕТРИЧЕСКОЙ СТРУКТУРЫ СИНСЕТА

А. Н. Кириллов, А. А. Крижановский

нститут прикладны математически исследовани арельского научного ентра

статье поставлен вопрос ормализации понятия синонимии. а основе векторного представления слов в работе предлагается геометрический подход для математического моделирования наборов синонимов (синсетов). пределен такой вычислимый атрибут синсетов как с си с а (IntS). ведены понятия а и ц ал с слов в синсете, позволяющие определить более значимые, «центральные» слова в синсете. ля ранга и центральности даны математическая ормулировка и предложена процедура их вычисления. ля вычислений использованы нейронные модели (Skip-gram, CBOW), созданные программой . иколова word2vec. а примере синсетов Русского икисловаря построены IntS по нейронным моделям корпусов проекта RusVectores. Результаты, полученные по двум корпусам ( ациональный корпус русского языка и новостной корпус), в значительной степени совпадают. то говорит о некоторой универсальности предлагаемой математической модели.

лючевые слова: синоним; синсет; нейронная сеть; корпусная лингвистика; word2vec; RusVectores; gensim; Русский икисловарь.

A. N. Kirillov, A. A. Krizhanovsky. SYNSET GEOMETRY STRUCTURE MODEL

The goal of formalization, proposed in this paper, is to bring together, as near as possible, the theoretic linguistic problem of synonym conception and the computer linguistic methods based generally on empirical intuitive unjusti ed factors. Using the word vector representation we have proposed the geometric approach to mathematical modeling of synonym set (synset). The word embedding is based on the neural networks (Skip-gram, CBOW), developed and realized as word2vec program by T. Mikolov. The standard cosine similarity is used as the distance between word-vectors. Several geometric characteristics of the synset words are introduced: the interior of synset, the synset word rank and centrality. These notions are intended to select the most signi cant synset words, i.e. the words which senses are the nearest to the sense of a synset. Some experiments with proposed notions, based on RusVectores resources, are represented.

Keywords: synonym; synset; neural network; corpus linguistics; word2vec; RusVectores; gensim; Russian Wiktionary.

Е ЕНИЕ

Понятие синонима не имеет строгого определения, хотя на бытовом уровне оно прижи-

лось и достаточно часто используется. Приведем описательное определение синонима из известного словаря синонимов русского языка Александровой З. Е. [1, с. 6]:

®

Синонимами считаются слова, выражающие одно и то же понятие, тождественные или близкие по значению, отличающиеся друг от друга оттенками значений, принадлежностью к тому или иному стилистическому слою языка и экспрессивной окраской.

Это определение вызывает ряд вопросов: что такое понятие, значение и т. д.? В результате нет единого строгого определения синонимии. Имеются многочисленные научные работы, отражающие различные подходы в его понимании.

Таким образом, возникает необходимость введения некоторой формализации, которая позволила бы дать количественные характеристики для описания соотношений между словами, что особенно важно в задачах автоматической обработки языка (англ. natural language processing).

В настоящей работе предложен подход к математическому моделированию понятия синсета.

Понятие синсет (набор синонимов) обязано своим появление системе WordNet, в котором различные отношения (синонимия, антонимия и др.) указываются не между словами, а между синсетами (от англ. synonym set, группа синонимов) [15].

Для исследования были использованы синонимы Русского Викисловаря. Викисло-варь — это свободно пополняемый многофункциональный многоязычный онлайн-словарь и тезаурус. Машиночитаемый Викисловарь, используемый в этой работе, регулярно обновляется и строится с помощью программы wikokit1 на основе данных Викисловаря [7].

Авторы статьи ставят перед собой ряд задач, решение которых в большей или меньшей степени представлено в этой работе:

автоматически упорядочивать синонимы внутри синсета по степени близости слов к тому смыслу, который представлен этим синсетом;

предложить математический аппарат для анализа, характеристики и сравнения синсетов, проверить его экспериментально на данных онлайн-словаря (Русский Викисловарь);

в перспективе с помощью предлагаемого математического аппарата найти «слабые» синсеты с целью повышения качества словаря;

1https://github.com/componavt/wikokit

важное направление, занятие которым побудило авторов к этой работе, это разрешение лексической многозначности (word-sense disambiguation или WSD). Программа максимум заключается в том, чтобы использовать нейронные сети и предлагаемые методы для решения WSD-задачи на качественно новом уровне по сравнению с текущими методами [3].

ЕКТ РН Е ПРЕ СТ ЕНИЕ С :

ЕСК И НИ ЕТ П СТР ЕНИ НЕ Р Н-НЫ СЕТЕ ИНСТР МЕНТ M WORD2VEC

Идея векторного представления слов с помощью нейронных сетей получила мощный толчок благодаря работам Томаса Миколова [12-14]. лавное достоинство работы Т. Ми-колова в том, что он разработал инструмент word2vec для создания моделей нейронных сетей (далее будем их называть предсказательными моделями, см. context-predicting models в работе [4]) на основе текстов корпусов. Забегая вперед, можно сказать, что, с нашей точки зрения, не меньший вклад сделали и отечественные ученые Андрей Кутузов и Елизавета Кузьменко, которые приготовили с помощью word2vec предсказательные модели для русского языка на основе ряда корпусов. Свой инструмент они назвали RusVectores [9].

едность подхода, предложенного Т. Ми-коловым в том, что поиск осмысленных пар семантических отношений работает только на некоторых ярких примерах, например (queen woman + man king). нас есть обоснованные подозрения, что не на всем пространстве текстов слова будут подчиняться таким удивительно простым правилам. Слабость математической стороны работ Т. Ми-колова была подмечена в недавней работе ол-дберга и Леви [5].

Работа И. олдберга и О. Леви, посвященная обсуждению результатов Т. Миколова, заканчивается обращением к исследователям:

"Can we make this intuition more precise? We d really like to see something more formal" [5].

Перевод: «Может ли интуитивный подход быть сделан более точным? Мы действительно хотели бы увидеть нечто более формальное.»

В какой-то мере настоящая статья является ответом на вызов этих известных исследователей в области компьютерной лингвистики.

Кратко осветим подход Т. Миколова.

0

Определение 1. Векторным словарем назовем множество D = Wi RD , где i-ая компонента вектора Wi равна 1, а остальные компоненты - нули.

Рассмотрим некоторый словарь и пронумеруем все слова, входящие в него. Пусть D — количество слов в словаре, i — номер слова.

Задача векторного представления слов состоит в построении линейного отображения L : D Rn , где N D , а вектор v = L(w), w D, v имеет компоненты Vj R. Результат отображения называется распределенным (distributed) векторным представлением слов. ель его состоит в замене очень «тощего» (разреженного) множества D R D , в которое входят векторы с нулевым взаимным скалярным произведением, на некоторое подмножество из RN, векторы которого расположены таким образом, что их компоненты позволяют использовать скалярное произведение нормированных векторов в качестве меры их похожести (similarity), что принято в соот-вествующих задачах обработки языков. Полагая, что линейное отображение L реализуется с помощью матрицы W, получаем v = Ww, причем для нахождении матрицы W используют различные методы, в частности, основанные на нейронных сетях. Наибольшую популярность в самое последнее время приобрели CBOW (continuous bag of words) и Skip-gram методы, предложенные в работе [14] и являющиеся, по сути, модификацией метода максимального правдоподобия. При этом в методе Skip-gram матрица W максимизирует функцию F(W) вида

т

F(w) = тЕ Е ln p(w'

t+J

Wt)

t=\

p(wt+j Wt) =

exp ut+j D

Ui = (Wwi, Wwt)

Ег=1 ехР иг

где ( , ) — символ скалярного произведения, Т — объем обучающего контекста. Здесь по слову находится содержащий его контекст, составляющий «окно» размера 2с слов. В методе СВС^ наоборот, по контексту находит-

ся слово, входящее в него. Для максимизации F(W) используется метод стохастического градиентного спуска.

В работах Т. Миколова при построении нейронных сетей учитывается только локальный контекст слов (упомянутое выше «окно»). Существуют попытки [6] учесть глобальный контекст (весь документ). Это полезно при разрешении лексической многозначности.

Е МЕТРИ СИНСЕТ

н тренность синсета IntS

Расстояние между векторами-словами (нормированными) измеряется их скалярным произведением, или углом между векторами, как в теории проективных пространств. Таким образом, увеличение скалярного произведения соответствует уменьшению расстояния между векторами-словами a, Ь, которое принято обозначать как sim a, b , что является сокращением термина similarity - «похожесть» или «сходство» слов2. Итак, sirn a,b = —

a b

это расстояние между векторами а и Ь.

Предлагаются и другие способы определения расстояния между словами-векторами, но в их основе также лежит скалярное произведение [10, 11, 18].

Введем обозначения для нормированных сумм векторов: М((щ),п) = 5т1 апг . Расстояние между множествами векторов будем понимать как расстояния между средними векторов этих сумм. Таким образом, если даны два множества векторов А = а\,...,ап и В = b\,...,bm , то расстояние между ними, sirn А, В , определяется следующим образом sim А, В = (М((ai),n), (М((bj),m))).

Рассмотрим синсет S = Vk,к = 1,..., S .

далим какое-либо слово v из синсета. Индекс слова опускаем для сокращения записи. Раз-объем множество S v на два непересекающихся подмножества: S v = Vis Vjp , s = 1,..., q,p = 1,..., r, q + r = S 1, is = jp. Обозначим Si = Vis , S2 = Vjp . Тогда введенное выше дизъюнктное разбиение запишется в виде S v = Si S2.

Определение 2. Внутренностью 1пЬБ синсета 5 называется множество всех векторов V Б, удовлетворяющих условию

IntS = v S : sim Si,S2 < sim Si v,S2 Д sim Si, S2 < sim Si,S2 для всех дизъюнктных разбиений S v = Si S2, где Si = 0, S2 = 0.

(1)

Будем использовать фигурные скобки вгт{а,6}, чтобы отличать запись от скалярного произведения (•, •).

V

Смысл определения состоит в том, что добавление вектора V 1пЪ8 в любое из двух подмножеств множества 5 V , образующих его дизъюнктное разбиение, уменьшает расстояние между этими подмножествами.

Чтобы проиллюстрировать 1^8 и показать, какие слова в него входят, предположим, что вектора имеют размерность не 100 или 300, а всего два. На рисунке 1 представлена такая конфигурация синсета 5, что вершина V не может не входить в 1пЬБ. То есть любые разбиения 5 будут «стягиваться», сближаться добавлением V к одному из разбиений (5*1 или 52).

IntS = v S : sim, < sim\ Д

sirni < sim.

2

(2)

Введем функцию rv : Pv дующего вида:

— 1, 0,1 сле-

Рис. 1. Пример вершины V, сближающей любые непустые разбиения Б, в частности — и 52 (слева), а следовательно, V 1пЪЗ. При добавлении вершины V к получаем множество V, которое на рисунке (в центре) находится ближе к 52, чем множество 51. Подобным образом ¿2 V ближе к 51, чем множество ¿2 (справа).

Ранг и центральность слов в синсете

Введём понятие ранга синонима V Б.

Дизъюнктное разбиение на два множества, элемента разбиения, будем называть разбиением. Пусть Ру = рг,г = 1,..., 2п~2 — 1 — множество всех пронумерованных каким-либо образом разбиений (п — 1)-элементного множества в V , п > 2.

Рассмотрим какое-либо разбиение множества Б V на подмножества 51 и 52, то есть Б V = Б1 в2. Обозначим вгт.^ = вгт 61,62 , з1т\ = вгт Б1 у,Б2 , згт2^ = вгт Б1, Б2 V . При этом получаем более компактное определение внутренности 1пЪБ синсета Б

( —1, simi < s^mi A sim"22 < simi v отдаляет S\ от S2

Tv (Pi) = <

simi > sim, ^sim2 > simi, v сближает Si и S2

0,

(зт1 — зт^ (зт2 — зт^ < 0. сближение — отдаление

(3)

Функция г,и определена для каждого разбиения и дает своего рода «кирпичики», из которых будет складываться ранг синонима.

Поясним краткую запись «сближение-удаление». Выражение

(зт\ — вгт^ (вгт? — вгт^ < 0 эквивалентно и является компактной записью для (зт\ < simi (вгт1 > вгт.^ Другими словами функция (р^ дает значение 0, если добавление слова V одному из элементов разбиения pi уменьшает (увеличивает) расстояние 8т-1, а добавление ко второму элементу, наоборот, увеличивает (уменьшает) расстояние simi. То есть элемент V действует на множества в "противофазе". На рисунке 2 это разбиения 2 и 3.

sim2 > simi) V sim'22 < simi).

Определение 3. Рангом синонима V Б > 2, называется целое число вида

Pv

rank (v) = ^ rv (р,).

i=i

S, где

(4)

IntS, то

Легко видеть, что если v rank (v) = 2 s ~2 — 1 - это число всех непустых дизъюнктных разбиений ( S — 1)-элементного множества S v , т. е. rank (v) максимален и совпадает с числом Стирлинга второго рода: ^ = 2 , где n — мощность разбиваемого множества, а k — число подмножеств, здесь два [2, с. 24].

Взаимосвязь IntS и ранга синонима в синсете S сформулируем в виде теоремы.

Теорема 1 (IntS theorem). Слово v принадлежит внутренности синсета S тогда и только тогда, когда это слово обладает максимально возможным рангом в данном синсете, этот ранг совпадает с числом Стирлинга второго рода.

v IntS rank (v) = 2 s ~2 — 1, где S ^ 3,

48

1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ри этом внутренность синсета IntS определена для синсетов, содержа и три и более слов, поскольку для вычисления IntS множество S нужно разбить на три части: S v = Si S2.

оказательство.

(2) 1 v IntS р, : IntS = v S : siml > sim,

(3)

sim2 > sim, (v сближает Si и S2) Pi : rv (pi) = 1 (4)

rank (v) = ^ 1= Pv =2s 2 1, (5)

i=i

поскольку 2 s 2 1 — это максимально возможное число непустых дизъюнктных разбиений, совпадающее с числом Стирлинга второго рода [2, с. 24]. □

Обратим внимание, что слова в имеют больший ранг и значение центральности относительно других слов синсета 5.

Определение 4. ентральностью синонима

V в при разбиении pi множества 5 V называется величина

сепЪгаШу(у,Рт) =

(8т}(у) вгт,) + (8т2(ь) вгт,) (6)

Определение 5. ентральностью синонима

V в называется величина

Р*

сепЬгаШу(у) = ^ сеп^аШу(у,р,,)

i=1

По-видимому, ранг и центральность указывают на значимость слова внутри синсета, то есть близость слова к тому значению, которое выражает синсет совокупностью слов.

Центральность дает более точную характеристику значимости слова V в синсете, чем ранг (см. таблицу 1). Это естественно следует из того, что ранг является целым а степень центральности — вещественным числом (М), при этом вычисляются они по одному и тому же алгоритму (см. далее).

лгоритм в ислени ранга и центральности

Из определения центральности (см. выше) следует процедура её вычисления (алгоритмы 1 и 2)

Algorithm 1: Вычисление ранга и центральности вершины v для разбиения р,

синсета S_

Data: разбиение р, множества S v на подмножества Si и S2, то есть S v = Si S2. Result: rank(v,pi), centrality(v,pi).

1. sim, = sim Si, S2 ,

2. simj(v) = sim Si v,S2 // слово v добавляется к первому подмножеству Si

3. sim2(v) = sim Si,S2 v // слово v добавляется ко второму подмножеству

S2

4. centrality(v,pi) =

(simj(v) sim,) + (sim2(v) sim,)

5. rank(v,pi) =

sgn(simj (v) simi) + sgn(sim|(v) sim,),

( 1, x > 0 где sgn(^) = < 0, x = 0 [ 1, x < 0

Algorithm 2: Вычисление ранга и центральности вершины v синсета S Data: синсет S, вершина v.

Result: rank(v), centrality(v).

p

1. centrality(v) = Y1 = centrality(v,pi),

2. rank(v) = Y1 = rank(v,pi).

ипоте а. Чем более многозначным является слово, тем меньше ранг (Z) и степень центральности (R) этого слова в разных синсетах.

ример. Дан синсет S = (ба кать, уба -кивать, укачивать, усыплять). Нужно найти IntS, вычислить ранг и центральность для каждого слова в синсете.

Пример вычисления ранга и степени центральности для слова «усыплять» в этом син-сете показан на рисунке 2. Множество мощности 3 = S v можно разбить тремя способами на два непустых подмножества. Каждое такое разбиение добавляет в rank(v) 1, 0 или -1 (рис. 2). Значение ранга получилось равным -1, степень центральности равна -0,071.

0

В таблице 1 указаны значения ранга, степени центральности и принадлежность для всех слов синсета.

В соответствии с изложенной выше Теоремой 1 ранг синонимов, принадлежащих внутренности синсета 1пЬБ, должен быть равен

2 5 "2- 1 = 2 4 "2- 1 = 3

В таблице 1 видно, что ранг 3 и наибольшие значения центральности у слов «баюкать», «убаюкивать». Итак, Int (баюкать, убаюкивать, укачивать, усыплять) = (баюкать, убаюкивать), то есть в IntS вошли векторы, соответствующие словам «убаюкивать» и «баюкать». Это указывает на то, что эта пара наиболее близка по смыслу ко всем четырем словам синсета.

Рис. 2. Значение ранга и степени центральности для слова «усыплять» в синсете (баюкать, убаюкивать, укачивать, усыплять). Представлены три возможных разбиения множества (баюкать, убаюкивать, укачивать) на два непустых подмножества S\ ,S2 ,i = 1, 2, 3 без слова "усыплять"(вектор v). Значения rank v и centrality v вычисляются как сумма соответствующих Aranki и Acentralityi.

Эксперименты

В этой работе используются нейронные модели, созданные авторами проекта RusVectores [9]. Первая модель построена по текстам Национального корпуса русского языка (НКРЯ или Ruscorpora), вторая модель — на основе текстов отечественных новостных сайтов (Новостной корпус или News corpus). Модели доступны на сайте проекта [16].

Авторы RusVectores А. Кутузов и Е. Кузь-менко обращают внимание читателя на такие особенности НКРЯ, как ручной отбор текстов для пополнения корпуса и регулирование соотношения объема текстов разных жанров, малый размер основного корпуса, порядка 107 млн слов (для сравнения Новостной корпус включает 2.4 млрд слов). В работе [8] вводится понятие представительность корпуса как способность отражать (указывать на) те ассоциации для слова, с которыми согласится большинство носителей. Ассоциации, порождаемые предсказательными моделями по данным НКРЯ и по данным веб-корпуса, как раз и используются для сравнения двух корпусов в этой работе. Задача сравнения свелась к поиску слов, значения которых в веб-корпусе существенно (или полностью) отличались бы от значений в НКРЯ. Если учесть, что для каждого слова в корпусе с помощью предсказательной модели можно получить список N ближайших слов (напомним, что слову соответствует вектор), то формулировка результата сравнения корпусов будет такой: более чем у половины слов (общих слов двух корпусов) совпадало три и более слов из 10 ближайших [8]. Это говорит о том, что в картине мира интеллектов, нейронных моделей, созданных на основе НКРЯ и на основе текстов Интернета, есть много общего. Однако необходима и обратная оценка — какова степень различия предсказательных моделей?

Отметим, что понятие сбалансированность корпуса приобретает новое значение в свете предсказательных моделей, создаваемых на основе корпуса. Несбалансированная выборка текстов приводит к перевесу в тематике корпусов, в итоге — к менее точной предсказательной модели.

Таблица 1. Ранг (rank) и степень центральности (centrality) для каждого слова в синсете, принадлежность синонима внутренности синсета (IntS)

synonym centrality rank IntS

усыплять -0.07 -1

укачивать 0.31 1

убаюкивать 0.68 3

баюкать 0.71 3

50

Таблица 2. Примеры синсетов, ряд которых имеют пустую внутренность (1пЪ8 = 0). инсеты взяты из словарных статей Русского икисловаря, слова в синсете упорядочены по рангу и центральности.

казан корпус, по которому в проекте КияУес1дгёя построена предсказательная модель, использованная для вычислений ТпЪБ, здесь ОиЪБ = Б ТпЪБ

словарная статья синсет (из статьи), по умолчанию целиком входит в OutS S IntS корпус

существительные

план умысел, намерение, прожект, задумка, план, проект, замысел 7 0 НКРЯ

хвороба нездоровье, хворость, хвороба, хворь, болезнь 5 0 НКРЯ

наречия

прекрасно чудесно, замечательно, отлично, превосходно, прекрасно 5 0 НКРЯ

прекрасно 1п1Б(превосходно, замечательно), Ои18(чудесно, прекрасно, отлично) 5 2 News

прилагательные

добрый душевный, добросердечный, отзывчивый, сердечный, добрый 5 0 НКРЯ, News

каменный каменный, бесчувственный, суровый, жестокий, безжалостный 5 0 НКРЯ

каменный 1п1Б(безжалостный), Ои18(каменный, бесчувственный, суровый, жестокий) 5 1 News

глаголы

обличать обличать, изобличать, обвинять, разоблачать, уличать 5 0 НКРЯ, News

казаться сдаваться, представляться, думаться, казаться 4 0 НКРЯ, News

изготовлять делать, создавать, производить, сооружать, мастерить, изготавливать, изготовлять 7 0 НКРЯ, News

Для последующих экспериментов важно следующее наблюдение работы [8]. Чем более слово является редким, чем меньше данных, контекстов с этим словом, тем более сомнительными, неточными будут ассоциативные слова, порождаемые предсказательной моделью.

Нами проведены эксперименты для апробации предложенной модели синсета. ы-ли использованы две матрицы W (предсказательные модели), построенные авторами RusVectores по корпусу НКРЯ и по Новостному корпусу.

Для работы с предсказательными моделями была выбрана программа gensim3, поскольку она (помимо множества других алгоритмов) содержит реализацию word2vec на языке Python (программа gensim описана в работе [17]). Эта же программа gensim использовалась при создании предсказательных моделей авторами RusVectores [16].

Авторами этой статьи разработан ряд скриптов на основе gensim для работы с предсказательными моделями, вычисления , ранга, центральности. Скрипты доступны онлайн4. Для нескольких тысяч синсетов, извлеченных из Русского Викисловаря, вычислен ранг и определена внутренность синсета Эксперименты показали, что для редких в корпусе слов может оказаться пустым.

Обсудим данные таблицы 2. Очевидно, что одному и тому же слову в разных предсказательных моделях, построенных по разным корпусам, будут соответствовать разные вектора. И сами словари этих моделей будут отличаться, см. [8]. Именно по этой причине отрадно видеть, что результаты в таблице 2, полученные по разным корпусам, в значительной степени совпадают. Это говорит о некоторой универсальности предлагаемой математической модели.

3http://radimrehurek.com/gensim/

4https://github.com/componavt/piwidict/tree/master/lib_ext/gensim_wsd

к ЕНИЕ

Мир современной лингвистики можно условно представить в виде двух тяготеющих друг к другу, но слабо связанных областей. Строгая формализация базовых понятий необходима для дальнейшего развития лингвистики как точной науки. Формулировка четкого определения для значения слова, синонимии и других позволит в должной мере опереться на методы и алгоритмы вычислительной лингвистики (корпусной лингвистики, нейронных сетей), дискретной математики, теории вероятностей.

В нашей работе предлагается формализация такого важного для машиночитаемых словарей и тезаурусов понятия, как набор синонимов (синсет). К этой формализации син-сета предлагается ряд вычислимых атрибутов (IntS, rank, centrality), которые позволяют анализировать синсеты, сравнивать их, проводить количественный анализ.

Разработанный аппарат планируется применить к решению задачи разрешения лексической многозначности.

абота поддержана грантом (про-

ект 15-04-12006).

ИТЕР Т Р

1. лса а . . ловарь синонимов русского языка. .: Русский язык, 2001. 586 с.

2. а а . ., и . . кстремаль-ные комбинаторные задачи и их приложения.

.: изматлит, 2004. 238 с.

3. а иис Т. ., и илл . ., -ици . ., иаси . ., или -

и . ., ииа . ., и а . ., а а . ., и а Т. ., Та . .,

иа . ., а . ., ц . .,

и . ., иа . . бзор мето-

дов и алгоритмов разрешения лексической многозначности: ведение // руды ар Р . 2015. 10. . 69 98. doi: 10.17076/mat135

4. Baroni M., Dinu G., Kruszewski G. Don t count, predict! A systematic comparison of context-counting vs. context-predicting semantic vectors // Proceedings of the ACL 14, 2014. P. 238 247. URL: http://anthology.aclweb.org/P/ P14/P14-1023.pdf (дата обращения: 9.05.2016)

5. Goldberg Y, Levy O. word2vec explained: Deriving Mikolov et al. s negative-sampling word-embedding method. arXiv preprint arXiv:1402.3722, 2014. P. 1 5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Huang E. H., Socher R., Manning C. D., Ng A. Y. Improving word representations via global context and multiple word prototypes //

Proceedings of the ACL 12, Jeju Island, Korea, 2012. P. 873 882. URL: http://dl.acm.org/ citation.cfm?id=2390524.2390645 (дата обращения: 9.05.2016).

7. Krizhanovsky A. A., Smirnov A. V. An approach to automated construction of a generalpurpose lexical ontology based on Wiktionary // Journal of Computer and Systems Sciences International. 2013. 2. P. 215 225. doi: 10.1134/S1064230713020068

8. Kutuzov A., Kuzmenko E. Comparing neural lexical models of a classic national corpus and a web corpus: the case for Russian // Computational Linguistics and Intelligent Text Processing. 2015. P. 47 58. doi: 10.1007/978-3-31918111-0_4. URL: https://www.academia.edu/

11754162/Comparing_neural_lexical_models_ of_a_classic_national_corpus_and_a_web_ corpus_the_case_for_Russian (дата обращения: 9.05.2016).

9. Kutuzov A., Andreev I. Texts in, meaning out: neural language models in semantic similarity task for Russian. arXiv preprint arXiv:1504.08183, 2015. URL: http://www.dialog-21.ru/digests/ dialog2015/materials/pdf/KutuzovAAndreevI. pdf (дата обращения: 9.05.2016)

10. Levy O, Goldberg Y, Dagan I. Improving distributional similarity with lessons learned from word embeddings // Transactions of the Association for Computational Linguistics. 2015. Vol. 3. P. 211 225.

11. Mahadevan S., Chandar S. Reasoning about linguistic regularities in word embeddings using matrix manifolds. arXiv preprint arXiv:1507.07636. 2015. P. 1 9.

12. Mikolov T., Kombrink S., Burget L., Cernocky J., Khudanpur S. Extensions of recurrent neural network language model // Proceedings of the 2011 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), 2011. doi: 10.1109/icassp.2011.5947611. URL: http://dx.doi.org/10.1109/icassp. 2011.5947611 (дата обращения: 9.05.2016).

13. Mikolov T., Zweig G. Context dependent recurrent neural network language model // Proceedings of the 2012 IEEE Spoken Language Technology Workshop (SLT), 2012. doi: 10.1109/slt.2012.6424228. URL: http://dx.doi. org/10.1109/slt.2012.6424228 (дата обращения: 9.05.2016).

14. Mikolov T., Chen K., Corrado G., Dean J. E cient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. URL: http://arxiv.org/abs/1301.3781 (дата обращения: 9.05.2016).

15. Princeton University. What is WordNet? URL: http://wordnet.princeton.edu (дата обращения: 9.05.2016).

16. RusVectdres: distributional semantic models for Russian. URL: http://ling.go.mail.ru/dsm/

ru/ (дата обращения: 9.05.2016)

17. Rehurek R., Sojka P. Software framework for topic modelling with large corpora // Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, Valletta, Malta: University of Malta, 2010. P. 45 50. URL: http://is. muni.cz/publication/884893/en (дата обращения: 9.05.2016).

References

1. Alexandrova Z. E. Slovar sinonimov russkogo jazyka [Dictionary of Russian Synonyms]. Moscow: Russkij jazyk, 2001. 586 p.

2. Baranov V. I., Stechkin B. S. Jekstremal nye kombinatornye zadachi i ih prilozhenija [Extremal combinatorial problems and their applications]. Moscow: Fizmatlit, 2004. 238 p.

3. Kaushinis T. V., Kirillov A. N., Korzhi-tsky N. I., Krizhanovsky A. A., Pilinovich A. V., Sikhonina I. A., Spirkova A. M., Starkova V. G., Stepkina T. V., Tkach S. S., Chirkova Ju. V., Chuharev A. L., Shorets D. S., Yankevich D. Yu., Yaryshkina E. A. Obzor metodov i algoritmov razresheniya leksicheskoi mnogoznachnosti: Vvedenie [A review of word-sense disambiguation methods and algorithms: Introduction]. Trudy KarNTs RAN [Transactions of KarRC of RAS]. 2015. No. 10. P. 69 98. doi: 10.17076/mat135

4. Baranov V. I., Stechkin B. S. Jekstremal nye kombinatornye zadachi i ih prilozhenija [Extreme combinatorial problems and their applications]. Moscow: Fizmatlit, 2004. 238 p.

5. Goldberg Y., Levy O. word2vec explained: Deriving Mikolov et al. s negative-sampling word-embedding method. arXiv preprint arXiv:1402.3722, 2014. P. 1 5.

6. Huang E. H., Socher R., Manning C. D., Ng A. Y. Improving word representations via global context and multiple word prototypes. In Proceedings of the ACL 12, Jeju Island, Korea, 2012. P. 873 882. URL: http://dl.acm.org/ citation.cfm?id=2390524.2390645 (accessed: 9.05.2016).

7. Krizhanovsky A. A., Smirnov A. V. An approach to automated construction of a generalpurpose lexical ontology based on Wiktionary. Journal of Computer and Systems Sciences International. 2013. No. 2. P. 215 225. doi: 10.1134/S1064230713020068

8. Kutuzov A., Kuzmenko E. Comparing neural lexical models of a classic national corpus and a web corpus: the case for Russian. Computational Linguistics and Intelligent Text Processing. 2015. P. 47 58. doi: 10.1007/978-3-319-18111-0_4. URL: https://www.academia.

18. Sidorov G., Gelbukh A., Gomez-Adorno H., Pinto D. Soft similarity and soft cosine measure: Similarity of features in vector space model // Computación y Sistemas. 2014. Vol. 18, no. 3. P. 491 504. URL: http://www.scielo.org.mx/ pdf/cys/v18n3/v18n3a7.pdf (дата обращения: 9.05.2016).

Поступила в редакцию 26.05.2016

edu/11754162/Comparing_neural_lexical_ models_of_a_classic_national_corpus_and_a_ web_corpus_the_case_for_Russian (accessed: 9.05.2016).

9. Kutuzov A., Andreev I. Texts in, meaning out: neural language models in semantic similarity task for Russian. arXiv preprint arXiv:1504.08183, 2015. URL: http://www.dialog-21.ru/digests/ dialog2015/materials/pdf/KutuzovAAndreevI. pdf (accessed: 9.05.2016)

10. Levy O., Goldberg Y., Dagan I. Improving distributional similarity with lessons learned from word embeddings. Transactions of the Association for Computational Linguistics. 2015. Vol. 3. P. 211 225.

11. Mahadevan S., Chandar S. Reasoning about linguistic regularities in word embeddings using matrix manifolds. arXiv preprint arXiv:1507.07636. 2015. P. 1 9.

12. Mikolov T., Kombrink S., Burget L., Cernocky J., Khudanpur S. Extensions of recurrent neural network language model. In Proceedings of the 2011 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 2011. doi: 10.1109/icassp.2011.5947611. URL: http://dx.doi.org/10.1109/icassp. 2011.5947611 (accessed: 9.05.2016).

13. Mikolov T., Zweig G. Context dependent recurrent neural network language model. In Proceedings of the 2012 IEEE Spoken Language Technology Workshop (SLT). 2012. doi: 10.1109/slt.2012.6424228. URL: http://dx. doi.org/10.1109/slt.2012.6424228 (accessed: 9.05.2016).

14. Mikolov T., Chen K., Corrado G., Dean J. E cient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. URL: http://arxiv.org/abs/1301.3781

(accessed: 9.05.2016).

15. Princeton University. What is WordNet? URL: http://wordnet.princeton.edu (accessed: 9.05.2016).

16. Rehurek R., Sojka P. Software framework for topic modelling with large corpora. In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, Valletta, Malta: University

®

of Malta, 2010. P. 45 50. URL: http://is.muni. cz/publication/884893/en (accessed: 9.05.2016).

17. RusVectdres: distributional semantic models for Russian. URL: http://ling.go.mail.ru/dsm/

en/ (accessed: 9.05.2016)

18. Sidorov G., Gelbukh A., Gomez-Adorno H., Pinto D. Soft similarity and soft cosine

Кириллов Александр Николаевич

ведущий научный сотрудник, д. ф.-м. н.

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: [email protected]

тел.: (8142) 766312

Крижановский Андрей Анатольевич

рук. лаб. информационных компьютерных технологий, к. т. н.

Институт прикладных математических исследований

Карельского научного центра РАН

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: [email protected]

тел.: (8142) 766312

measure: Similarity of features in vector space model. Computacion y Sistemas, 2014. Vol. 18, no. 3. P. 491 504. URL: http://www.scielo. org.mx/pdf/cys/v18n3/v18n3a7.pdf (accessed: 9.05.2016).

Received May 26, 2015

CONTRIBUTORS:

Kirillov, Alexander

Institute of Applied Mathematical Research,

Karelian Research Centre,

Russian Academy of Sciences

11 Pushkinskaya St., 185910 Petrozavodsk,

Karelia, Russia

e-mail: [email protected]

tel.: (8142) 766312

Krizhanovsky, Andrew

Institute of Applied Mathematical Research, Karelian Research Centre, Russian Academy of Sciences 11 Pushkinskaya St., 185910 Petrozavodsk, Karelia, Russia

e-mail: [email protected] tel.: (8142) 766312

i Надоели баннеры? Вы всегда можете отключить рекламу.