Научная статья на тему 'Опыт кластерного анализа и семантической классификации английских глаголов (на примере группы “Verbs of Putting”)'

Опыт кластерного анализа и семантической классификации английских глаголов (на примере группы “Verbs of Putting”) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
690
87
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛАГОЛ / VERB / КЛАССИФИКАЦИЯ / CLASSIFICATION / КЛАСТЕРИЗАЦИЯ / CLUSTERING / КЛАСТЕРНЫЙ АНАЛИЗ / CLUSTER / СЕМАНТИЧЕСКИЙ КОМПОНЕНТ / SEMANTIC COMPONENT / КЛАСТЕР / ДЕФИНИЦИОННЫЙ АНАЛИЗ / DEFINITIONAL ANALYSIS / КОМПОНЕНТНЫЙ АНАЛИЗ / COMPONENT ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Айрапетян (Маркарян) Рузанна Рубеновна, Алимурадов Олег Алимурадович

В статье описывается проведение кластерного анализа с целью построения семантической классификации англоязычных глаголов группы «Verbs of Putting». Применение математических методов в лингвистике находит отражение во многих современных работах зарубежных авторов, что доказывает актуальность выбранного метода. Авторы статьи приводят описание алгоритма кластеризации с интерпретацией полученных результатов. Проведен сравнительный анализ исходной классификации Б. Левин и классификации, полученной авторами на основе кластеризации; предложена метрика определения близости классификаций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Айрапетян (Маркарян) Рузанна Рубеновна, Алимурадов Олег Алимурадович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTERING AS AN INSTRUMENT FOR ENGLISH VERBS CLASSIFICATION (based on the English Verbs of Putting)

We discuss in the article the process of Verbs of Putting classification by means of cluster analysis and other mathematical instruments as well as definitional and component semantic analyses as means for formalizing verb semantics. The growing interest among modern researchers in the application of mathematical instruments in linguistics accounts for the set of methods chosen for the given research. Particularly, we have applied B. Levin’s verb classification with the help of clustering method highlighted in a number of works. The authors of the article suggest the detailed describing of the focused group of verbs clustering process providing it with the interpretation of the results. We also offer the metrics of classifications’ similarity for the formalized comparing of different approaches to the verbal classification application results. The authors come to the conclusion that the difference between methodological approaches (the usage of component and definitional analyses vs diathesis alternations) gives rise to the distinctly different results. So we can confidently tell about the significant role of the chosen methodology for getting it relevant for the aims of the research results.

Текст научной работы на тему «Опыт кластерного анализа и семантической классификации английских глаголов (на примере группы “Verbs of Putting”)»

УДК 81-119

Р.Р. Айрапетян (Маркарян), О.А. Алимурадов

ОПЫТ КЛАСТЕРНОГО АНАЛИЗА И СЕМАНТИЧЕСКОЙ КЛАССИФИКАЦИИ

АНГЛИЙСКИХ ГЛАГОЛОВ (на примере группы "Verbs of Putting")

В статье описывается проведение кластерного анализа с целью построения семантической классификации англоязычных глаголов группы «Verbs of Putting». Применение математических методов в лингвистике находит отражение во многих современных работах зарубежных авторов, что доказывает актуальность выбранного метода. Авторы статьи приводят описание алгоритма кластеризации с интерпретацией полученных результатов. Проведен сравнительный анализ исходной классификации Б. Левин и классификации, полученной авторами на основе кластеризации; предложена метрика определения близости классификаций.

Ключевые слова: глагол, классификация, кластеризация, кластерный анализ, семантический компонент, кластер, дефиниционный анализ, компонентный анализ.

Целью данной статьи является попытка семантической классификации глаголов группы «Verbs of Putting», недостаточно изученной в современной германистике, на основе кластерного анализа и сопоставления полученной классификации с уже имеющейся функционально-семантической классификацией данной группы глаголов по Б. Левин. До настоящего момента в лингвистике не наблюдалось случаев применения кластерного метода к классификации лексических единиц на основе компонентного анализа. Соответственно, не было попыток построения формальной семантической классификации. Конечной целью исследования, часть которого представлена в настоящей статье, является семантическая классификация глаголов группы «Verbs of Putting», т.е. выделение семантически близких и семантически отдаленных элементов данной группы. Кластерный анализ при этом выступает эффективным инструментом.

Кластеризация как способ классификации объектов

Первые системные исследования языка при помощи методов, близких к статистико-комби-наторным, относятся к 50-60-м гг. XX в. Из них, в первую очередь, следует упомянуть труды американских дескриптивистов, в частности З. Хар-риса. В отечественной лингвистике метод формального анализа на основе понятия дистрибуции одним из первых использовал Н.Д. Андреев. В 1982 г. А.Я. Шайкевич представил процедуру формального анализа текстов (ДСА), объединившую дистрибутивный анализ с использованием статистических данных [Филиппов 2011]. В данном исследовании метод, во многом аналогичный

ДСА, применяется для автоматической классификации некоторых групп глаголов современного английского языка.

Основным методом для обработки статистических данных является кластерный анализ. Этот термин, предложенный в 1939 г. Р. Трайо-ном, служит для обозначения процедуры классификации объектов по группам (кластерам) на основе их сходства и имеет целью организовать данные в наглядные структуры. Наиболее распространенным способом кластерного анализа является объединение, древовидная классификация или дендограмма (в частности, см.: [Medelyan 2007: 87]). Этот метод с некоторыми упрощениями используется и в настоящем исследовании. В этом случае имеется набор отдельных объектов, которые в несколько этапов объединяются на основании некоторой меры сходства или расстояния. Результат процедуры кластерного анализа по методу объединения представляет собой иерархическое дерево, ветвями которого являются кластеры, а листьями - исходные объекты. Такая структура дает наглядное представление о взаимном сходстве между рядом объектов или о расстоянии между ними в некотором пространстве. Это пространство определяется признаками, используемыми для вычисления меры сходства или расстояния между объектами.

Следовательно, кластеризация есть автоматическое разбиение элементов некоторого множества на группы в зависимости от степени схожести. Само понятие «кластер» может быть определено лишь в первом приближении как группировка объектов по определенному принципу; в остальном же сущность кластера в отрыве от конкретной модели определить довольно сложно:

в каждом исследовании свои «кластеры». Данный термин является транскрипцией с английского и переводится как «скопление» или «гроздь». В теории искусственных нейронных сетей под понятием «кластер» понимается подмножество «близких друг к другу» объектов из множества векторов характеристик. Следовательно, кластер можно охарактеризовать как группу объектов, имеющих общие свойства [Филиппов 2011: 15].

Неотъемлемыми характеристиками кластера можно назвать следующие два признака:

• внутренняя однородность, определяемая исходным принципом кластеризации;

• относительная внешняя изолированность, причем изолированность именно относительная, потому что свойства у кластеризуемых объектов могут не просто наличествовать или отсутствовать, но проявляться с разной степенью выраженности.

то используется Евклидово расстояние (расстояние в Евклидовой системе координат), рассчитываемое по формуле ниже:

Рис. 1. Кластеризация данных

Общая схема кластеризации включает обычно следующие этапы:

1) предварительное выделение корпуса подлежащих кластеризации объектов;

2) выделение релевантных для построения модели характеристик;

3) уточнение границ кластеризируемого корпуса, согласно выделенной системе характеристик;

4) определение метрики;

5) разбиение объектов на группы и подгруппы;

6) корректировка границ кластеров и их набора;

7) представление результатов.

Характеристиками объектов моделируемой

совокупности могут являться любые измеримые параметры. В качестве метрики для измерения расстояния между двумя объектами наиболее час-

где х, у - это объекты (глаголы), а хк - это значение к-й характеристики объекта х.

Существует множество алгоритмов кластеризации. Мы будем использовать наиболее известную и наименее алгоритмически сложную процедуру - иерархический кластеринг (для исследования лексикона текстовых корпусов часто применяется и так называемая «мягкая кластеризация» - см.: [Deodhare, Sharma, Srivastava, Shar-ma 2010 и др. работы]). Иерархический алгоритм кластеризации представляет результаты в виде дендограммы (иерархии), позволяющей разбить исходное множество объектов на любое количество кластеров. Разбиение может происходить двумя способами:

1) односвязная кластеризация (single-link) -на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя любыми представителями;

2) полносвязная кластеризация (complete-link) - на каждом шаге объединяет два кластера с наименьшим расстоянием между двумя наиболее удаленными представителями.

Результат применения иерархического алгоритма кластеризации проиллюстрирован на рисунке 2 с использованием двухмерного набора данных. На нем изображены 7 объектов, обозначенных символами A, B, C, D, E, F, G в трех кластерах. Иерархический алгоритм в результате дает дендограмму, представляющую собой вложенные группы объектов и уровни сходства, на которых сформированы группы.

Рис. 2. Объекты, сгруппировавшиеся в три кластера

Дендограмма семи объектов, взятая из од-носвязной модели алгоритма, показана на рисунке 3, (в частности, см.: [King 1967]). Дендограмму можно прервать на любом уровне, выводя при

этом различные результаты кластеризации данных.

Рис. 3. Дендограмма согласно односвязной модели разбиения (single-link)

Чаще всего используемые алгоритмы кластеризации - это варианты односвязной [Sneath, Sokal 1973], полносвязной моделей [Murtagh 1984], а также алгоритм с минимальной вариативностью [Ko-gan, Nicholas, Teboulle URL: http://www.csee. umbc.edu/ nicholas/clustering/tutorial.pdf]. Первые два являются наиболее популярными. Они различаются в алгоритме расчета расстояния (характеристика удаленности) между парой кластеров. В односвязной модели расстояние между двумя кластерами считается как минимальное расстояние между всеми парами объектов, взятых из двух кластеров. В полносвязном алгоритме расстояние между двумя кластерами считается как максимальное расстояние всех пар между двумя кластерами. В обоих случаях два кластера сращиваются и формируют кластер большего размера, основанный на критерии минимального расстояния. Полносвязная модель производит плотно связанные или компактные кластеры [Baeza-Yates URL: http://ru.scribd.com/ doc/13742235/Information-Retrieval-Data-Structures-Al-gorithms-William-B-Frakes]. Односвязный алгоритм напротив более ориентирован на моделирование по принципу создания цепей [Nagy 1968], в результате чего, как правило, формируются удлиненные продолговатые кластеры. Результаты кластеризации первого и второго типов представлены на рисунке 4 и рисунке 5.

Рис. 4. Кластеризация согласно односвязному способу разбиения (single-link) двух классов (1 и 2)

Рис. 5. Кластеризация согласно полносвязному способу разбиения (complete-link) двух классов (1 и 2)

В нашем исследовании мы проведем кластеризацию объектов (глаголов), используя полносвязный способ разбиения классов, поскольку при таком разбиении возможно дать более адекватную картину связей между отдельными элементами кластеризируемого множества.

Опыт выявления семантической близости между глаголами из классификации Б. Левин с помощью кластерного анализа, описанный в трудах зарубежных лингвистов

Феномен семантической близости обеспечивает основу для описания широкого круга лингвистических категорий. К примеру, морфологические обобщения, приводящие в результате к образованию новых форм, таких как «dived» у «dove», способствуют появлению нетрадиционных грамматических парадигм [Prasada, Pinker 1993]. Исследования по праймингу показывают, что целевое слово распознается быстрее после

очень короткого обращения к фонологическому или семантическому стимулу [O'Seaghdha, Marin 1997 и др.]. Синтаксическая категория может быть изучена на материале классов слов, которые встречаются в одинаковых структурных конфигурациях [Radford 1997 и др.], в одинаковой дистрибуции в предложении, а лексико-семантические отношения, подобные синонимии и гипониии, обычно понимаются в терминах слов, которые могут быть замещены без ущерба смыслу предложения в сходных дистрибуциях [Cruse 1986 и др.].

Одно из отдельных направлений исследования фокусируется на понимании и описании лек-сико-семантической близости между глаголами. Особый интерес в данной области вызывают исследования, которые стремятся к автоматическому определению лексической близости между глаголами относительно их контекстуальной дистрибуции в больших текстовых корпусах. Большинство работ по семантической схожести глаголов таких авторов, как М. Лапата и К. Бру [1999], С. Шульте им Вальде [2000], П. Мерло и С. Стивенсон [2001], Е. Джоанис [2002], М. Лапата и К. Бру [2004], Дж. Ли и К. Бру [2007] и Дж. Ли и К. Бру [2008], использовали классификацию английских глаголов Б. Левин, основанную на синтаксико-семантическом критерии формирования однородных классов.

Классификация Б. Левин базируется на гипотезе о том, что глаголы, которые подвергаются похожим альтернациям в реализации аргументной структуры, также имеют схожие оттенки значения и образуют семантически связные классы [Levin 1993]. Достаточно большое количество работ посвящено изучению глагольных классов Б. Левин в дискурсе с использованием техники именно кластерного анализа [Schulte im Walde, Brew 2002; Brew, Schulte im Walde 2002; Schulte im Walde 2003].

С. Шульте им Вальде выдвинула гипотезу о том, что глаголы можно кластеризовать на основе синтаксических альтернаций [Schulte im Walde 2000]. Она применила два иерархических кластерных алгоритма к 153 английским глаголам, выбранным из 30 левинских классов, причем 103 из этих глаголов принадлежат одному классу классификации Левин, 35 - двум классам, 9 - трем классам и 6 - четырем классам. Каждый глагол представлен распределением по субкатего-ризационным фреймам, извлеченным из Британского национального корпуса [Clear 1993] с использованием статистической программы синтаксического анализа [Carroll, Rooth 1998]. С. Шуль-

те им Вальде обнаружила черты, релевантные для автоматической кластеризации глаголов, оценив три различных компонента субкатегоризацион-ных фреймов:

• синтаксические фреймы, релевантные для выявления аргументных альтернаций (например, NP-V-PP);

предлоги, которые можно распознать, например, указывающие направление (например, NP-V-PP(into), NP-V-PP(on));

• выборные преференции, которые кодируют роли участников (например, NP(PERSON)-VPP on(LOCATION)).

При использовании классификации глаголов в качестве основы для оценивания 61 % глаголов можно правильно распределить по семантическим классам. Наилучший результат кластеризации был достигнут при использовании субка-тегоризационных фреймов, обогащенных информацией о предложных фразах.

П. Мерло и С. Стивенсон описывают автоматическую классификацию трех типов английских непереходных глаголов, таких как неэрга-тивные, неаккузативные и глаголы с опущенным объектом. Они выбрали 60 глаголов, по 20 из класса. Однако глаголы в выбранных классах обнаруживали сходства в отношении аргументной структуры, в которой они все могут использоваться как транзитивные и нетранзитивные. Поэтому только синтаксические признаки не позволяют объективно различить классы. П. Мерло и С. Стивенсон определили пять глагольных черт, которые описывают тематические отношения между подлежащим и транзитивным и нетранзитивным дополнением. Эти черты отобраны автоматически из тегированного корпуса (в основном, из «Уолл-стрит-джорнел»).

Каждый глагол был представлен как вектор с пятью характеристиками, на котором проводилась древовидная классификация. П. Мерло и С. Стивенсон выявили точность в 69,8 % для выполнения задачи с отправной точной в 33,3 %, верхняя граница достигала уровня в 86, % [Merlo, Stevenson 2001]. Такой подход требует проведения тщательного лингвистического анализа с целью обнаружения именно тех черт, которые чрезвычайно важны для успешного классификационного эксперимента. Необходимость в проведении подобного анализа ограничивает применимость метода, т.к. данные характеристики выделены специально под различия между определенными классами и, вероятно, будут малоэффективны по отношению к другим классам. Более поздние работы ав-

торов были посвящены анализу возможного деления глаголов, включенных в классификацию Б. Левин, на основе более обобщенных характеристик, потенциально присущих всем глаголам [Joa-nis 2002; Joanis, Stevenson 2003; Joanis, Stevenson, James 2006]. Эти характеристики делятся на 4 группы:

• синтаксические слоты;

• возможность совмещения слотов; категориальные признаки времени, залога, аспекта;

• одушевленность или неодушевленность именной группы.

Е. Джоанис представил эксперименты по классификации 15 классов глаголов (835 ЛЕ) при помощи векторной кластеризации с учетом вышеперечисленных параметров. Подобные эксперименты позволяют снизить погрешность в пределах от 48 % до 8 % по отношению к отправной точке в рамках классификации лексики любой сложности.

А. Корхонен представила исследование классификации английских глаголов, которое фокусируется на многозначных глаголах. Она применила расширенную версию классификации глаголов Б. Левин, которая включает 26 классов, представленных Б. Дорром [Dorr 1997] и 57 дополнительных классов, описанных в работе А. Корхонен и Т. Бриско [Korhonen, Briscoe 2004]. В качестве тестовой группы были отобраны 110 глаголов, большинство из которых включены в два или более класса в концепции Б. Левин. После получения информации о закономерностях реализации субкатегоризационных фреймов в Британском национальном корпусе [Clear 1993], с помощью программы синтаксического анализа исследователи применили два метода кластеризации: 1) обычный «метод ближайшего соседа» и 2) итеративный метод Тишби, основанный на так называемом «методе информационного горлышка» [Tishby, Pereira, Bialek 1999]. Ни один из данных кластерных методов не позволяет приписывание одного глагола нескольким группам.

Рассматривая влияние полисемии на задачи кластеризации, А. Корхонен обратила внимание на значимое различие между постоянной и непостоянной полисемией. [Korhonen, Krymolowski, Marx URL: http ://aclweb .org/anthology//P/P03/P03 -1009.pdf.] По ее мнению, глагол демонстрирует постоянную полисемию в том случае, если есть, по крайней мере, еще один глагол, входящий в те же самые группы классификации Б. Левин, что и исходный глагол; в остальных случаях имеет место полисемия непо-

стоянная. А. Корхонен обнаружила, что многозначные глаголы с одним доминирующим значением и те, которые имеют постоянную полисемию, зачастую входят в состав одних и тех же кластеров, в то время как глаголы с нерегулярной полисемией не склонны к объединениям и чаще относились к разным, подчас единичным, кластерам.

Дж. Ли и С. Бру рассмотрели широкий спектр классификационных характеристик с целью создания системы глаголов, подобной той, которую разработала Б. Левин (в частности, см.: [Genkin, David, Madigan URL: http://sydney.edu.au/engineering/ it/~comp5318/survey/logisticregression.pdf]). В дополнение к использованию уже упомянутого набора характеристик Е. Джоаниса [Joanis 2006] ученые проанализировали также дополнительные компоненты, в частности, способы и закономерности комбинирования в семантике глагола синтаксической и лексической информации. Данные анализировались на основе англоязычного корпуса [Graff 2003] при помощи программы синтаксического анализа С. Кларка и Дж. Куран [Clark, Curran 2007]. Результаты отражали 48 классов глаголов Б. Левин, включая около 1300 групп с одним глаголом.

Таким образом, применение кластерного метода к анализу классификации глаголов в дискурсе является широко используемым инструментом в лингвистике. В нашем исследовании будет предпринята попытка применения кластерного анализа к классификации глаголов группы «Verbs of Putting» Б. Левин. Эффективность данного подхода заключается в возможности построения модели групп на основе формальных методов, не привлекая человека с субъективными оценками, а задей-ствуя математический аппарат. Результаты, полученные в ходе подобного анализа, на наш взгляд, являются более взвешенными и достоверными.

Применение кластеризации в рамках классификации глаголов исследуемой группы «Verbs of Putting»

В рамках нашего исследования, в отличие от описанного в предыдущем разделе опыта, мы в качестве классификационных критериев не будем использовать феномен полисемии, а также рассматривать контекст глаголов. Вместо этого материалом для классификации послужат результаты дефиниционного анализа; соответственно, в качестве исследуемого объекта было выбрано значение, наиболее точно отражающее суть глагола и коррелирующее с категориальной семой «перемещение и расположение в пространстве».

Кроме того, как было сказано выше, в процессе кластеризации глаголы не должны дублироваться в разных группах. Поэтому в целях проведения качественного анализа мы исключили дублирующиеся глаголы. Ниже проиллюстрируем подробно ход кластерного анализа группы глаголов «Verbs of Putting» с последующей интерпретацией результатов и сравним получившиеся данные с исходной классификацией Б. Левин.

Основой для проведения кластерного анализа выступает матрица соответствия глаголов и семантических компонентов. В качестве объектов классификации в нашем анализе выступают глаголы 10 подгрупп группы «Verbs of Putting» классификации Б. Левин, т.е. 324 глагола.

Первым шагом является дефиниционный анализ глаголов с выделением семантических компонентов, прототипических для исследуемых подгрупп, в результате которого количество компонентов составило более 420. Разумеется, с целью организации качественной дальнейшей работы возникла необходимость их систематизации. Формирование таксономии мы произвели посредством выделения метаязыковых когнитивно-семантических элементов смысла, обобщающих те или иные семантические компоненты. Для этого мы воспользовались одной из наиболее подходящих к описанию глагольной семантики мета-языковой терминологий - тематическими ролями Р. Лэнекера (подробнее см.: [Айрапетян 2013]).

В отличие от филморовских падежей, семантические роли, которые выделил Р. Лэнекер, больше всего подходят к описанию глагола. Однако они коррелируют с элементами фрейма «Placing» во Frame Net Ч. Филлмора. Поэтому

данные семантические элементы являются неким комбинированным единством двух классификаций. Таким образом, множество семантических компонентов было систематизировано следующими базовыми компонентами: Experiencer, Patient, Agent, Range, Measure, Instrument, Locative, Source, Goal, Path, Time, Manner и Accompaniment [Langacker 1976]. Кроме того, были добавлены такие базовые компоненты, как Result и Reason.

Выделенные компоненты формируют структуру матрицы семантических компонентов и глаголов, которая отражает факт наличия или отсутствия в семантике исследуемых лексических единиц соответствующих компонентов (см. табл. 1). Именно они и будут выступать для нас в роли дифференциальных характеристик классифицируемых объектов (глаголов). Присутствие компонента в дефиниции глагола обозначаем единицей, отсутствие - нулем. В качестве примера приведем сегмент полученной матрицы.

Помимо базовых семантических компонентов - вербализаторов тематических (семантических) ролей - в результате анализа была выделена группа альтернативных глагольных компонентов, обуславливающих, по нашему предположению, возможность распределения глаголов на семантические группы, т.к. именно в этих глагольных признаках нам видится причина гетерогенности моделируемой ЛСГ. По сути, данную группу составляют глаголы, посредством которых определяются исследуемые глаголы. Иными словами, можно постулировать следующую закономерность: в семантике каждого исследуемого глагола содержится один или несколько представителей группы альтернативных глагольных компонентов.

Таблица 1

Матрица семантических компонентов и глаголов

Глагол Базовые семантические компоненты Альтернативные глагольные компоненты

Agent Patient, Range Result Source Goal Locative Reason Time Manner Direction (Path) Measure Instrument put store stow mount set attach

Put verbs

Arrange 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0

Immerse 0 1 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0

Install 0 1 0 0 1 0 0 0 1 1 0 1 1 0 0 0 0 0

Lodge 0 1 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0

В целях обеспечения «чистоты» компонентного анализа в смысле отсутствия ссылок глаголов на другие глаголы исследуемой группы, включим показатели дефиниционного анализа глаголов, соответствующих альтернативным глагольным компонентам, в результат компонентного анализа тех глаголов, которые определяются посредством этих компонентов. Таким образом, на наш взгляд, определения глаголов, представленные в виде матрицы, обогащаются необходимыми для полного понимания данных лексических единиц базовыми компонентами и становятся более содержательными. В итоге мы получили результат анализа, по структуре аналогичный предыдущему, но с содержательной точки зрения более исчерпывающий, т.к. в данной матрице от-

ражена семантика альтернативных глагольных компонентов (см. табл. 2).

Следующий этап анализа - разбиение объектов на группы - предполагает собственно проведение кластерного анализа, при котором в качестве метрики, предназначенной для оценки расстояния между классифицируемыми объектами (глаголами), было выбрано Евклидово расстояние (см. формулу 1) между векторами, соответствующими глаголам в матрице семантических компонентов. В нашем случае векторы, соответствующие глаголам, представляют собой последовательность признаков наличия/отсутствия (1/0) определенного семантического компонента в семантике глагола.

В процессе кластеризации была построена таблица расстояний между объектами (глаголами) (табл. 3).

Таблица 2

Матрица семантических компонентов и глаголов по результатам включения альтернативных глагольных компонентов в семантику тех глаголов, посредством которых они определяются

Глагол Базовые семантические компоненты Альтернативные глагольные компоненты, оставшиеся после включения

Agent Patient, Range Result Source Goal Locative Reason Time Manner Direction (Path) Measure Instrument Move Go \ direct \ come Make \ force \ let do sth Give, provide Tie \ fasten \ connect \ fit together \ fix Add

Arrange 0 1 0 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0

Immerse 0 1 1 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0

Install 0 1 0 0 1 0 0 0 1 1 0 1 1 0 0 0 0 0

Lodge 0 1 0 0 1 0 0 1 1 0 0 1 1 0 0 0 0 0

Таблица 3

Расстояния, выделенные по итогам кластерного анализа между глаголами группы

«Verbs of Putting»

arrange immerse install lodge mount place position put

Arrange 0,00 2,65 2,00 3,16 2,24 2,00 1,73 1,73

Immerse 2,65 0,00 2,65 3,61 2,83 2,65 2,83 2,45

Install 2,00 2,65 0,00 3,16 1,73 0,00 1,73 1,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Lodge 3,16 3,61 3,16 0,00 3,32 3,16 3,32 3,00

Mount 2,24 2,83 1,73 3,32 0,00 1,73 2,45 2,00

Place 2,00 2,65 0,00 3,16 1,73 0,00 1,73 1,00

Position 1,73 2,83 1,73 3,32 2,45 1,73 0,00 1,41

Put 1,73 2,45 1,00 3,00 2,00 1,00 1,41 0,00

Set 2,00 2,65 1,41 3,16 1,73 1,41 1,73 1,00

Всего в результате кластерного анализа исследуемой группы был выделен 21 уровень кластеризации. Каждому из этих уровней соответствует расстояние, на котором находятся объединяемые в рамках соответствующего шага кластеризации в одну группу подруппы: (0), (1), (1,41), (1,73), (2), (2,24), (2,45), (2,65), (2,83), (3), (3,16), (3,32), (3,46), (3,61), (3,87), (4), (4,12), (4,24), (4,47), (4,58), (5).

Графически результат анализа можно изобразить в виде древообразной иерархической структуры - дендограммы, изображенной на рисунке 6.

Как видно из рисунка 6, мы связываем вместе все большее и большее число глаголов и агрегируем (объединяем) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Иными словами, вначале происходит объединение (агрегация) тех глаголов, для которых это значение сходства максимально, затем порог селективности при объединении глаголов в кластеры постепенно понижается, и таким обра-

зом все новые глаголы оказываются объединенными между собой на основании все меньшей меры сходства. Наконец, на последнем этапе все объекты объединяются в один кластер. На этой диаграмме вертикальные оси представляют расстояние объединения. Так, для каждого узла в графе (там, где формируется новый кластер) указано значение расстояния, на котором соответствующие элементы связываются в новый единственный кластер.

Для обеспечения сравнимости результатов нашего анализа с группами Б. Левин при описании итогов остановимся на этапе кластеризации, на котором выделены 10 групп. Увидеть результат разбиения глаголов на кластеры на выбранном уровне позволяет специальное программное обеспечение, посредством которого проводился кластерный анализ, под названием STATISTICA 2.0. Данная программа представляет собой автоматизированную систему статистического анализа данных. Соответствующие избранному нами этапу группы представлены в таблице 4.

Tree Dagramfor 324 Cases Corrptete Lnkage bjclidean distances б.................—..................

sow shawl intei la« skewer butter spitz stash mount

sqush stipple remove spoon carpet Mlet harness

Рис. 6. Дендограмма, показывающая результат кластерного анализа глаголов группы

«Verbs of Putting»

Таблица 4

Группы (кластеры) глаголов группы «Verbs of Putting», сформировавшиеся по итогам кластеризации

Группы (кластеры) Глаголы

1 группа (кластер) settle, trap, install, place, put, shovel, sling, dump, throw, stick, fence, set, bang, stable, mount, stand, emblazon, diaper, lean, pasture, situate, sit, locate, powder, rouge, perch, heap, stack, string, feather, pitch, roof, wallpaper, rest, pomade, bridle, harness, saddle, shoe, heel, sole, ink, leash, yoke, shelve, dab, rosin, daub, adorn, deck, decorate, ornament, garland, inlay, trim, paper, crown, lard, stash, store, stow, position , bag, box, pocket, ladle, inject, bottle, load, fuel, frame, archive, crate, bank, cage, garage, pot, sheathe, lay, jail, billet, pack, plant, saturate, stopper, fork, dangle, hang, drape, dip, stuff

2 группа (кластер) immerse, anoint, oil, suspend, buttonhole, drug, bait, gag, muzzle, plaster, spray, spritz, slather, coat, cover, deluge, douse, festoon, mottle, plate, shroud, speckle, blanket, cloak, squirt, bandage, veil, blindfold, flood, turf, mask, tile, board, carpet, slipcover, sugar, wrap, swathe, wreathe, pave, mulch, asphalt, tarmac, bombard, smother, flour, mantle, tar, silver, cap, swaddle

3 группа (кластер) smear, spread, impregnate, suffuse, butter, grease, lipstick

4 группа (кластер) crowd, fill, brick, stock, caulk, plug, pile, clutter, pad, replenish

5 группа (кластер) lodge, house, vest, ring, leaven, whitewash, infect, stress, shelter, spoon, perfume, swab, dribble, dam, pump, siphon, ground, clog, surround, sod, starch, can, case, snare, slate, stud, ticket, cork, parquet, shutter, patch, skewer, ram, bed, dot, lash, cram, contaminate, garnish, block, bin, sequin, staff, season, pepper, attach, tag, label, spice, dust, vein, spit, rake, remove, bench, scoop, seed, scrape, sweep, lower, channel, hoist, raise, hammer, wedge, shake, lift, shoulder, curl, loop, repopulate, bathe, bestrew

6 группа (кластер) pound, embellish, interlace, encircle, hit, jar, ripple, taint, drench, soak, imbue, drop, brush, entangle, turn, cultivate, sew, wash, dapple, dirty, endow, enrich, soil, pollute, stipple, inundate, bind, blot, wring, choke, poison, pillory, polish, sand, salt, corral, file, beach, berth, dock, prick, riddle, smudge, spot, line, pen, shawl

7 группа (кластер) funnel, face, intersperse, interweave, roll, slop, spill, slosh, pour, water, spew, spurt, edge, stain, land, wipe, rub, wax

8 группа (кластер) push, press, squeeze, squish, squash, jam

9 группа (кластер) tuck, wad, coil, spin, twirl, whirl, wind, twist

10 группа (кластер) drip, drizzle, fall, spatter, splatter, splash, scatter, strew, sprinkle, litter, shower, sow

Для интерпретации полученных результатов с точки зрения семантики сформированных групп, рассмотрим статистику по количеству семантических компонентов в глаголах приведенных групп, размещенную в таблице 5.

Первая группа (кластер) (92 глагола) обнаруживает самое яркое представительство семантических компонентов. Так, компоненты Patient (Range), Goal, Manner, Instrument и Move встречаются в семантической структуре всех глаголов кластера. Кроме того, первой группе свойственно наличие компонентов Result, Agent (Experiencer), Source, Measure of the object, Direction (Path), Make\force\ let do sth, но в гораздо меньших процентных долях. Следует также заметить, что альтернативные компоненты за исключением вышеупомянутых Move (все 92 глагола) и Make\force\ let do sth не зафиксированы ни у одного глагола группы. Что касается компонента Goal, то, рас-

сматривая самые частотные предлоги, указывающие на направление, - to, in (into) и on (onto), можно заметить, что для данного кластера больше характерен предлог to. Он зафиксирован в 100 % случаев, в то время как in (into) - в 35,87 %, а on (onto) -в 32,61 %. Характерным свойством первого кластера стал очень слабо выраженный компонент Result (для сравнения, второй и третий кластеры, напротив, имеют 100 %-ную встречаемость данного компонента в семантике элементов). Любопытно, что в первый кластер вошли почти все глаголы первой и второй подгрупп из классификации Б. Левин, за исключением immerse, lodge, mount и suspend. Кроме того, глаголы кластера встречаются в следующих подгруппах: Funnel Verbs (5 глаголов), Spray/Load Verbs (14 глаголов), Fill Verbs (11 глаголов), Butter Verbs (27 глаголов) и Pocket Verbs (19 глаголов), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (3 глагола).

Таблица 5

Статистика по количеству семантических компонентов в кластерных по результатам кластерного анализа глаголов группы

«Verbs of Putting»

Семантические/^

компонент)*^ -^-''Группы Группа 1 Группа 2 Группа 3 Группа 4 Группа 5 Группа 6 Группа 7 Группа 8 Группа 9 Группа 10

глаголов

Agent (Experience!-) 4 4,35% 0 0,00% 6 85,71% 10 100,00% 3 4,11% 1 2,13% 8 44,44% 0 0,00% 1 12,50% 9 75,00%

Patient (Range) 92 100,00% 51 100,00% 7 100,00% 10 100,00% 70 95,89% 46 97,87% 17 94,44% 6 100,00% 8 100,00% 12 100,00%

Result 8 8,70% 51 100,00% 7 100,00% 5 50,00% 5 6,85% 24 51,06% 3 16,67% 3 50,00% 8 100,00% 12 100,00%

Source 3 3,26% 4 7,84% 0 0,00% 1 10,00% 14 19,18% 2 4,26% 5 27,78% 0 0,00% 0 0,00% 6 50,00%

Goal 92 100,00% 51 100,00% 7 100,00% 10 100,00% 34 46,58% 5 10,64% 12 66,67% 6 100,00% 8 100,00% 7 58,33%

To 92 100,00% 51 100,00% 7 100,00% 4 40,00% 10 13,70% 0 0,00% 0 0,00% 0 0,00% 0 0,00% 6 50,00%

In, into 33 35,87% 2 3,92% 0 0,00% 10 100,00% 8 10,96% 4 8,51% 3 16,67% 2 33,33% 3 37,50% 0 0,00%

On\onto 30 32,61% 3 5,88% 3 42,86% 0 0,00% 4 5,48% 1 2,13% 4 22,22% 0 0,00% 0 0,00% 4 33,33%

Locative 10 10,87% 1 1,96% 5 71,43% I 10,00% 2 2,74% 7 14,89% 6 33,33% 0 0,00% 0 0,00% 8 66,67%

Reason 0 0,00% 0 0,00% 0 0,00% 0 0,00% 0 0,00% 1 2,13% 0 0,00% 0 0,00% 0 0,00% 0 0,00%

Time 5 5,43% 1 1,96% 0 0,00% 0 0,00% 1 1,37% 0 0,00% 0 0,00% 1 16,67% 0 0,00% 0 0,00%

Manner 92 100,00% 51 100,00% 7 100,00% 6 60,00% 20 27,40% 16 34,04% 16 88,89% 6 100,00% 7 87,50% 9 75,00%

Direction (Path) 1 1,09% 0 0,00% 0 0,00% 1 10,00% 5 6,85% 0 0,00% 0 0,00% 0 0,00% 0 0,00% 0 0,00%

Measure of the object 2 2,17% 1 1,96% 0 0,00% 1 10,00% 1 1,37% I 2,13% 0 0,00% 0 0,00% 0 0,00% 1 8,33%

Instrument 92 100,00% 51 100,00% 7 100,00% 5 50,00% 15 20,55% 9 19,15% 3 16,67% 6 100,00% 1 12,50% 1 8,33%

Move 92 100,00% 51 100,00% 7 100,00% 5 50,00% 9 12,33% 2 4,26% 4 22,22% 0 0,00% 6 75,00% 6 50,00%

Make\force\ let do sth 2 2,17% 2 3,92% 1 14,29% 0 0,00% 9 12,33% 10 21,28% 2 11,11% 6 100,00% 5 62,50% 2 16,67%

Tie, fasten, connect, fit together, fix 0 0,00% 2 3,92% 0 0,00% 0 0,00% 6 8,22% 1 2,13% 0 0,00% 0 0,00% 0 0,00% 0 0,00%

Go, direct, come 0 0,00% 2 3,92% 0 0,00% 10 100,00% 1 1,37% 0 0,00% 3 16,67% 0 0,00% 0 0,00% 0 0,00%

Give, provide 0 0,00% 0 0,00% 0 0,00% 0 0,00% 4 5,48% 2 4,26% 0 0,00% 0 0,00% 0 0,00% 0 0,00%

Add 0 0,00% 1 1,96% 0 0,00% 0 0,00% 3 4,11% 1 2,13% 0 0,00% 0 0,00% 0 0,00% 0 0,00%

Вторая группа (кластер) включает 51 глагол и демонстрирует 100 %-ное содержание компонентов Patient (Range), Result, Goal, To, Manner, Instrument и Move. Остальные компоненты либо вообще не представлены, либо встречаются в 1-4 случаях. При сравнении состава второго кластера с элементами подгрупп, которые вычленяла Б. Левин, четких совпадений не обнаружено. Можно лишь заметить, что глаголы второго кластера встречаются в таких подгруппах Б. Левин, как Put Verbs (1 глагол), Verbs with Specified Direction (1 глагол), Spray/Load Verbs (6 глаголов), Fill Verbs (24 глагола), Butter Verbs (26 глаголов). Иными словами, данный кластер в значительной степени описывает семантику глаголов с такими общими категориальными семами, как «помещение на поверхность» и «помещение в емкость», свойственными подгруппам Butter Verbs и Fill Verbs.

Третью группу (кластер) составляют всего 7 глаголов, и все те же компоненты - Patient (Range), Result, Goal, To, Manner, Instrument и Move - характеризуют всех членов группы. В отличие от первого кластера, у третьего ярко выражен семантический компонент Result, а в отличие и от первого, и от второго, у членов третьего кластера достаточно частотно представлен компонент Agent (Experiencer) - 85,71 %. Следующей отличительной чертой кластера является компонент Locative, который встречается в 71,43 % случаев. У трех глаголов группы зафиксирован компонент On (onto) и у одного - Make\force\ let do sth. Если сравнить третий кластер по составу с подгруппами классификации Б. Левин, то можно заметить, что члены кластера присутствуют в трех подгруппах - Spray/Load Verbs (2 глагола), Fill Verbs (2 глагола) и Butter Verbs (3 глагола).

В четвертой группе (кластере) насчитывается 10 глаголов; помимо компонентов Agent (Experiencer), Patient (Range), Goal, ядерными также являются In (into) и Go/direct/come. Кластер представляет значительный интерес в аспекте дистрибуции семантических компонентов и их частотности. К примеру, только в данном кластере компоненты Agent (Experiencer), In (into) и Go/direct/come представлены в 100 %-ном содержании. Глаголы четвертого кластера встречаются в тех же трех подгруппах классификации Б. Левин - Spray/Load Verbs (3 глагола), Fill Verbs (5 глаголов) и Butter Verbs (2 глагола).

Пятая группа (кластер) довольно многочисленна (в ней 75 глаголов). Лишь один компонент Patient (Range) встречается у 70 глаголов, в то время как остальные семантические компоненты

выражены гораздо менее ярко. Стоит отметить, что только в данном кластере глаголам свойственны компоненты Source (у 14 глаголов группы) и Direction (Path) - у 5 глаголов. Кроме того, эта группа интересна тем, что в ней собраны глаголы, в семантике которых присутствуют такие альтернативные компоненты, как Tie/fasten/connect/ fit together/fix (у 6 глаголов), Give/provide (у 4 глаголов), Add (у 3 глаголов). Глаголы пятого кластера встречаются в следующих подгруппах исходной классификации: Put Verbs (1 глагол), Verbs of Putting with Specified Direction (4 глагола), Funnel Verbs (11 глаголов), Pour Verbs (1 глагол), Coil Verbs (2 глагола), Spray/Load Verbs (6 глаголов), Fill Verbs (17 глаголов), Butter Verbs (18 глаголов), Pocket Verbs (13 глаголов), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (2 глагола).

В состав шестой группы (кластера) входят 47 глаголов, 46 из которых имеют в семантической структуре компонент Patient (Range). Наиболее характерным компонентом кластера является компонент Make\force\ let do sth. В данной групп-пе он представлен наиболее репрезентативно (у 10 глаголов). Остальные же компоненты выражены довольно слабо, причем даже такой компонент, как Goal, который в других кластерах приближен к максимальным значениям, здесь практически отсутствует. В незначительной степени представлены компоненты Manner (34,04 %), Instrument (19,15 %), Locative (14,89 %). Если сравнить шестой кластер по составу с подгруппами классификации Б. Левин, то можно заметить, что члены кластера присутствуют в следующих подгруппах: Verbs of Putting with Specified Direction (1 глагол), Funnel Verbs (2 глагола), Spray/Load Verbs (6 глаголов), Fill Verbs (23 глагола) и Butter Verbs (5 глаголов), Pocket Verbs (8 глаголов), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (2 глагола).

Седьмая группа (кластер) достаточно разнообразна по семантике компонентов. У 16 глаголов из 17 присутствует компонент Patient (Range); также в том или ином количестве наблюдаются такие компоненты, как Manner, Goal, Agent (Expe-riencer), Locative, Result, Source, In (into) и On (onto), Move, Go/direct/come, Make\force\ let do sth. Стоит отметить, что в отличие от остальных кластеров в седьмом вполне репрезентативно представлен компонент Source (27,78 % - это максимальное количество присутствия данного компонента среди всех кластеров). Глаголы седьмого кластера встречаются в таких подгруппах класси-

фикации Б.Левин, как Funnel Verbs (2 глагола), Pour Verbs (6 глаголов), Coil Verbs (1 глагол), Spray/Load Verbs (1 глагол), Fill Verbs (5 глаголов), Butter Verbs (3 глагола) и Pocket Verbs (1 глагол).

Восьмая, девятая и десятая группы (кластеры) по составу не многочисленные. Они содержат по 6, 8 и 12 глаголов соответственно, но, несмотря на это, они также заслуживают внимания. В восьмой группе всем глаголам свойственны такие компоненты, как Patient (Range), Goal, Manner, Instrument, Make\force\ let do sth. Также у глаголов кластера присутствует компонент Result (50,00 %), In (into) (33,33 %) и очень редкий компонент Time (16,67 %). Стоит отметить, что остальные компоненты вообще не встречаются. Глаголы восьмого кластера встречаются в следующих подгруппах классификации Б. Левин: Funnel Verbs (4 глагола), Spray/Load Verbs (1 глагол), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (1 глагол).

Для девятой группы (8 глаголов) характерны следующие компоненты: Patient (Range), Result, Goal. Достаточно ярко представлены компоненты Manner (87,50 %), Move (75 %), Make\force\ let do sth (62,50 %). Глаголы девятого кластера встречаются в таких подгруппах классификации Б. Левин, как Funnel Verbs (2 глагола), Coil Verbs (5 глаголов), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (1 глагол).

Наконец, в десятом кластере (12 глаголов) ядерными семантическими компонентами можно считать Patient (Range), Result; менее выражены компоненты Agent (Experiencer) (75 %), Manner (75 %), Locative (66,67 %), Goa l(58,33 %), одинаково по 50 % имеют Source, To и Move. Остальные семы выражены менее ярко, либо вообще не выражены. Глаголы десятого кластера встречаются в следующих подгруппах классификации Б. Левин: Pour Verbs (1 глагол), Spray/Load Verbs (9 глаголов), Fill Verbs (1 глагол), а также в подгруппе добавленных нами в процессе компонентного анализа глаголов (1 глагол).

Далее, используя формальные методы моделирования, оценим степень соответствия результатов нашей классификации группам глаголов, выделенным Б. Левин. Можно сказать, что группа согласно классификации по Б. Левин соответствует результату нашей классификации в той степени, в которой она однородна с точки зрения присутствия в ней глаголов, попавших в рамках проведенного нами анализа в те или

иные кластеры. В качестве метрики для оценки однородности группы предложим дисперсию, т.е. ожидание квадрата отклонения случайной величины от ее математического ожидания, рассчитываемое по формуле:

где п - количество объектов группы,

X - значения признака отнесения к кластеру в ьм объекте,

x - среднее значение признака по группе.

Дисперсия может принимать значения от 0 до 1: 0 означает отсутствие отклонений от среднего, т.е. полную однородность группы или постоянный характер соответствующей величины, а 1 -наибольшую степень неоднородности. Результат дисперсионного анализа приведен в таблице 6.

Таблица 6

Дисперсия группы глаголов «Verbs of Putting»

Группа глаголов (Б. Левин) Неоднородность

Butter Verbs 0,865043

Coil Verbs 0,728869

Fill Verbs 0,892896

Funnel Verbs 0,861744

Pocket Verbs 0,803769

Pour Verbs 0,637377

Put Verbs 0,521718

Verbs of Putting with a Specified Direction 0,565685

Verbs of Putting with a Spatial Configuration 0,444444

Spray\Load Verbs 0,909059

Добавленные глаголы 0,894427

Сведения в таблице свидетельствуют об ощутимом отличии результатов классификации с использованием кластерного анализа по большинству групп.

Итак, мы провели классификацию глаголов группы «Verbs of Putting», используя результаты дефиниционного и компонентного анализов и инструменты математического моделирования (кластерный и дисперсионный анализ). Подобный подход способствует оптимизации и автоматизации работы с лексическим материалом, позволяет формализовать семантическую информацию, заложенную в лексической единице. Была осуществлена интерпретация результатов кластерного анализа в соответствии с типовой компонентной структурой выделенных групп, а также сравнение данных результатов с классификацией Б. Левин. По итогам исследования можно констатировать, что разница методологических подходов (использование инструментов компонентного и дефини-ционного анализов или синтаксических чередова-

ний) порождает, как правило, заметно отличающиеся результаты. Таким образом, с уверенностью можно говорить об определяющем значении выбираемой методологии для получения релевантных целям исследования классификаций лексических единиц.

Список литературы

Айрапетян Р.Р. Прототипическая модель глаголов группы «Verbs of Putting», основанная на компонентном анализе семантики // Вестник Пятигорского государственного лингвистического университета. 2013. № 4. С. 53-59.

Филиппов А.К. Интерпретация дистрибуций глагольных контекстов в качестве манифестации структуры лексико-семантических групп разных типов: на примере группы глаголов положения в пространстве и глаголов мышления: дис. ... канд. филол. наук. СПб., 2011.

Baeza-Yates R.A. Introduction to data structures and algorithms related to information retrieval // Information Retrieval: Data Structures and Algorithms. URL: http: //ru .scribd.com/doc/13742235/Information-Retrie -val-Data-Structures-Algorithms-William-B-Frakes

Brew Ch., Schulte im Walde S. Spectral clustering for German verbs // Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, PA, 2002. Р. 117-124.

Carroll G., Mats R. Valence induction with a headlexicalized pcfg // Proceedings of the 3rd Conference on Empirical Methods in Natural Language Processing. 1998. Р. 36-45.

Clark S., Curran J.R. Formalism-independent parser evaluation with CCG and DepBank // Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics. 2007. P. 248-255.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Clear J.H. The British national corpus // The Digital Word: Text-based Computing in the Humanities. Cambridge, MA, USA: MIT Press, 1993. Р. 163-187.

Cruse D.A. Lexical Semantics. Cambridge, England: Cambridge University Press, 1986.

Deodhare D., Sharma G., Srivastava A., Sharma A. Semantically Driven Soft-clustering of Documents using Lexical Chains // Proceedings of IC0N-2010: 8th International Conference on Natural Language Processing. URL: http://www.academia.edu/1979496/Semantically_ Driven_Soft-clustering_of_Documents_using_Lexi-cal_Chains

Dorr B. Large-scale dictionary construction for foreign language tutoring and interlingual machine translation // Machine Translation. 1997. № 12 (4). Р. 271-325.

Genkin A., Lewis D.D., Madigan D. Large-scale Bayesian logistic regression for text categorization. URL: http://sydney.edu.au/engineering/it/ ~comp5318/survey/logisticregression.pdf

Graff D. English Gigaword. Linguistic Data Consortium, Philadelphia, 2003.

Jain A.K., Dubes R.C. Algorithms for Clustering Data. NJ: Prentice-Hall, Inc., 1988.

Joanis E. Automatic verb classification using a general feature space: Master's thesis. University of Toronto, 2002.

Joanis E., Stevenson S. A general feature space for automatic verb classification // Proceedings of the 10th Conf. of the EACL. 2003. P. 163-170.

Joanis E., Stevenson S., James D. A general feature space for automatic verb classification // Natural Language Engineering. 2006. № 14 (03). P. 337-367.

King B. Step-wise clustering procedures. J. Am. Stat. Assoc. 69, 1967.

Kogan J., Nicholas C., Teboulle M. Clustering Large and High Dimensional Data. URL: http://www.csee.umbc.edu/ nicholas/clustering/tuto-rial.pdf

Korhonen A., Krymolowski Y., Marx Z. Clustering polysemic subcategorization frame distributions semantically. URL: http://aclweb.org/antho-logy//P/P03/P03-1009.pdf.

Korhonen A., Briscoe T.Extended lexical-semantic classification of English verbs // Workshop on Computational Lexical Semantics. Boston, Massachusetts, USA: Association for Computational Linguistics, 2004. P. 38-45.

Langacker R. Semantic Representations and the Linguistic Relativity Hypothesis // Foundations of Language, 1976. P. 307-357.

Lapata M., Brew C. Verb class disambiguation using informative priors // Computational Linguistics. 2004. № 30 (2). P. 45-73.

Levin B. English Verb Classes and Alternations: A Preliminary Investigation. Chicago, IL: University of Chicago Press, 1993.

Li J., Brew C. Which Are the Best Features for Automatic Verb Classification. URL: http://www.acl-web.org/anthology/P/P08/P08-1050.pdf

Li J., Brew. C. Disambiguating Levin verbs using untagged data. URL: http://www.ling.ohio-state.edu/~jianguo/papers/LiBrew.pdf

Li J., Brew C. Which are the best features for automatic verb classification. URL: http://aclweb.org/ anthology//P/P08/P08-1050.pdf

Medelyan O. Computing Lexical Chains with Graph Clustering // Proceedings of the ACL

2007. Student Research Workshop. Prague. 2007. P. 85-90.

Merlo P., Stevenson S. Automatic verb classification based on statistical distribution of argument structure // Computational Linguistics. 2001. № 27. P. 373-408.

Murtagh F. A survey of recent advances in hierarchical clustering algorithms which use cluster centers // Comput. J. 1984. № 26. P. 354-359.

Nagy G. State of the art in pattern recognition // Proceedings of the Institute of Electrical and Electronics Engineers 56. 1968. P. 836-862.

O 'Seaghdha, Padraig G., Marin J.W. Mediated semantic phonological priming: Calling distant relatives // Journal of Memory and Language. 1997. № 36 (2). P. 226-252.

Prasada, Sandeep, Pinker S. Generalisation of regular and irregular morphological patterns // Language and Cognitive Processes. 1993. № 8 (1). P. 1-56.

Radford A. Syntactic theory and the structure of English: A minimalist approach. Cambridge, England: Cambridge University Press, 1997.

Schulte im Walde S., Brew C. Inducing German semantic verb classes from purely syntactic subcate-gorisation information // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, PA, 2002. P. 223-230.

Schulte im Walde S. Experiments on the choice of features for learning verb classes // Proceedings of EACL. 2003. P. 315-322.

Schulte im Walde S. Clustering verbs semanti-cally according to their alternation behaviour. COL-ING, 2000. P. 747-753.

Sneath P.H.A., Sokal R.R. Numerical Taxonomy. London, UK: Freeman, 1973.

Tishby N., Pereira F.C., Bialek W. The information bottleneck method. In Proceedings of the 37th Annual Allerton Conference on Communication, Control and Computing, 1999. P. 368-377.

R.R. Airapetyan (Markaryan), O.A. Alimuradov

CLUSTERING AS AN INSTRUMENT FOR ENGLISH VERBS CLASSIFICATION

(based on the English Verbs of Putting)

We discuss in the article the process of Verbs of Putting classification by means of cluster analysis and other mathematical instruments as well as definitional and component semantic analyses as means for formalizing verb semantics.

The growing interest among modern researchers in the application of mathematical instruments in linguistics accounts for the set of methods chosen for the given research. Particularly, we have applied B. Levin's verb classification with the help of clustering method highlighted in a number of works.

The authors of the article suggest the detailed describing of the focused group of verbs clustering process providing it with the interpretation of the results. We also offer the metrics of classifications' similarity for the formalized comparing of different approaches to the verbal classification application results. The authors come to the conclusion that the difference between methodological approaches (the usage of component and definitional analyses vs diathesis alternations) gives rise to the distinctly different results.

So we can confidently tell about the significant role of the chosen methodology for getting it relevant for the aims of the research results.

Key words and phrases: verb, classification, clustering, semantic component, cluster, definitional analysis, component analysis.

i Надоели баннеры? Вы всегда можете отключить рекламу.