Кластеризация семантически связанных слов из неразмеченного текста на русском языке
Э.С. Клышинский, H.A. Кочеткова МИЭМНИУВШЭ, eklyshinsky@hse.ru
Аннотация. В работе рассматривается метод кластеризации слов, связанный между собой некоторым семантическим признаком или набором признаков. Кластеризация основана на анализе синтаксически связанных сочетаний слов предварительно выделенных из неразмеченного текста. Точность кластеризации составила около 80%. Данный проект выполнен при частичной финансовой поддержке гранта РГНФ № 12-04-00060. Ключевые слова: поверхностный синтаксический анализ, кластеризация, семантически связанные группы слов.
Введение
В ходе работ по созданию онтологий разработчикам приходится решать задачу объединения семантически связанныгх слов в группы. Степень сходства связываемых слов зависит от конкретной задачи и обычно определяется вручную. Средства автоматизации данного процесса начали создаваться достаточно давно. Так, например, используется извлечение информации из существующих словарей [1] или извлечений терминов из текста [2, 3]. В данной работе мы применили для поиска семантически связанныгх слов информацию о синтаксической сочетаемости слов.
Синтаксическая сочетаемость слова в тексте определяется валентностями данного слова, то есть его способностью вступать в синтаксические связи с другими словами [4, 5]. Согласно Кацнельсону, валентностями обладают как глаголы, так и существительные. В соответствии с принятым определением мы можем считать, что валентностью также обладают, например, прилагательные, к которым могут присоединяться определенные наречия.
База данныгх или словарь валентностей слов является серьезной помощью при синтаксическом анализе или построении онтологий. На данный момент делались попытки создать подобные словари, однако их объем всё еще недостаточен для проведения качественного синтаксического анализа. Так в работе [6] приводится описание валентностей для более чем 8000 глаголов.
Валентности можно разделить на актанты и сирконстанты [7, 8]. Здесь мы будем считать, что актант является обязательным участником действия, хотя и может быть выделен из контекста, а не записан в предложении явно. Сирконстанты, в свою очередь, являются необязательными участниками действия. Таким образом, актанты должны встречаться с данным действием чаще. Кроме того, они чаще должны занимать позицию рядом с глаголом.
Для глаголов в русском языке валентности могут выражаться (а) падежом, (б) предлогом и падежом и, наконец, (в) предлогом, падежом и семантическими характеристиками главного и зависимого слов. Для существительных валентности указываются (г) согласованием грамматических и семантических характеристик главного и зависимого слов. Главные слова можно разделить по количеству подчиняющихся им актантов. Кроме того, главные слова различаются между собой набором подчиняемых актантов. В соответствии с (в) и (г) мы можем ожидать, что часть подчиненных слов у данного главного слова будет образовывать семантическую группу. Мы пошли дальше и сформулировали противоположное предположение, что набор зависимых слов может определить семантическую группу
главного слова. При этом можно использовать сами зависимые слова, а не наши представления об их семантическом сходстве.
Логично предположить, что для глаголов следует принимать в рассмотрение только актанты, так как сирконстанты могут присоединяться к гораздо более широкому классу слов. Само разделение зависимых слов на актанты и сирконстанты является отдельной серьезной задачей. Однако здесь можно считать, что актанты должны встречаться чаще, чем сирконстанты. В случае рассмотрения пар существительное + прилагательное зависимое слово, судя по всему, будет являться сирконстантом, так как обязательность прилагательного означает термин или коллокацию.
Таким образом, дальнейшая работа основывается на двух предположениях, что семантически сходные слова обладают сходным употреблением зависимых слов, а также что в случае рассмотрения глаголов наиболее часто встречающиеся употребления зависимых слов скорее всего относятся к актантам, а не сирконстантам.
Предлагаемый метод
Предлагаемый метод выделения групп семантически связанных слов с использованием информации о валентностях заключается в следующем. На вход метода подается база синтаксически связанных групп слов, которая была получена нами в ходе предыдущих работ [9, 10]. База данных хранит информацию о группах вида существительное + прилагательное, глагол + существительное или глагол + предлог + существительное, а также абсолютную частоту встречаемости данных групп в проанализированном корпусе текстов. Все слова приведены к своим начальным формам.
Заметим, что эти данные не являются информацией о валентностях слов, а только реализацией этих валентностей в тексте. Нашим третьим предположением является предположение о том, что с некоторым словом с заданными семантическими характеристиками чаще всего в роли определенных валентностей будут встречаться одни и те же слова. Если данное предположение окажется верно, нам не нужно будет получать информацию о валентностях слов в явном виде, а достаточно будет использовать описанные выше данные.
Для отсечения шумов отбрасываются все сочетания с частотой встречаемости ниже заданной. Кроме того, выбираются только те главные слова (и соответствующие им сочетания), у которых мощность множества зависимых слов превышает некоторое пороговое значение. Это необходимо, чтобы отсеять шум в извлекаемых из коллекции сочетаниях. Пороговое значение частоты встречаемости позволяет избавиться от случайно попавших в базу сочетаний, число различных сочетаний гарантирует нам достаточную статистику для сравнений.
Для каждого главного слова может быть составлен вектор зависимых слов с приписанными к ним частотами встречаемости пары «главное слово - зависимое слово» в корпусе. В качестве меры сходства векторов была выбрана косинусная мера.
где X; и у,- - 1-е элементы сравниваемых вектора частот встречаемости. Здесь считается, что вектора выровнены по употребляемым словам и их длины совпадают и равны максимальной длине одного из двух векторов. Частота отсутствующих элементов равна 0.
(1)
Мера сходства Дайса в данном случае работает недостаточно хорошо. Это связано с тем, что для двух главных слов может быть найдено два одинаковых подчиненных слова с существенно отличающейся частотой встречаемости. У одного главного слова это будет часто встречающееся выражение, тогда как у другого слова случайный шум. Мера Дайса не учитывает подобные нюансы и оба слова будут засчитаны с одинаковым весом.
Заметим также, что вместо абсолютной частоты встречаемости слов в корпусе следует брать ее логарифм. Это связано с тем, что для некоторых пар главных слов имеются устойчивые словосочетания с одним и тем же зависимым словом, частота встречаемости которых на несколько порядков превышает встречаемость остальных комбинаций. В качестве примера можно привести сочетания «Новый Орлеан» и «Новая Зеландия», которые чаще всего встречаются именно в таком сочетании. При этом Зеландия также может быть «далекой», «датской», «северной», «южной» и т.д., а Орлеан «французским», «чудесным», «шумным» и также «южным». В целом пересечение по лексике является незначительным. Однако в данном случае косинусная мера оказывается очень чувствительна к дисбалансу частот и практически не учитывает наличие других слов. Логарифмирование частот позволяет сгладить эту разницу и существенно снизить процент ошибок кластеризации.
На следующем шаге по вычисленной мере сходства проводится кластеризация главных слов. В кластеризации принимают участие только те пары главных слов, значение косинусной меры для которых превышает определенное значение. Тем самым мы сокращаем набор анализируемых данных и устраняем появление слабо связанных кластеров в конце работа алгоритма кластеризации.
В связи с тем, что количество кластеров на выходе метода не известно, предлагается использовать один из агломеративных методов. Кластеризация проводится до тех пор, пока мера сходства между объединяемыми кластерами больше заданного значения.
Для построения онтологии больше подходит двухпроходный метод кластеризации. На первом этапе строится плоская кластеризация кластеров, после чего полученные кластеры объединяются между собой иерархическим методом. Данный метод позволяет построить костяк онтологии, выделив не только группы семантически связанных слов, но и связать полученные кластеры между собой на более абстрактном уровне.
Результаты экспериментов и выводы
Для проверки предложенных подходов были проведены эксперименты с текстами на русском языке. Нами был взят рассматривавшийся в наших предыдущих работах [11] корпус объемом 7,2 млрд словоупотреблений. Корпус состоял из нескольких подкорпусов беллетристики (Библиотека Мошкова - 688 млн словоупотреблений, lib.rus.ec - более 6 млрд), новостных текстов за 1999 - 2010 гг. (самые значимые РИА Новости - 186 млн, Независимая газета - 97 млн, Лента.ру - 41 млн, общий объем - 511 млн), научных текстов (авторефераты, диссертации, статьи из сборников конференций и журналов, объемом несколько десятков миллионов словоупотреблений, общий объем - 51 млн словоупотреблений).
Из данного корпуса было выделено более 23 млн. уникальных связок вида «глагол+предлог+существительное» без учета формы существительного и глагола. Также было выделено более 5,5 млн сочетаний «существительное+прилагательное»
также приведенных к нормальной форме. Для каждого сочетания была подсчитана встречаемость на всём указанном корпусе.
Для русского языка использовались сочетания существительных с прилагательными и глагола с существительными. Для английского языка использовались только связи между существительными и прилагательными. Результаты экспериментов показали, что высказанная гипотеза была корректна. Так, для русского языка было выделено около 4200 существительных и столько же глаголов, то есть полнота метода составила около 5% для существительных и около 20% для глаголов (в используемом морфологическом словаре имелось 83000 существительных и 26400 глаголов). Около 85% кластеров были оценены как удачные, то есть все слова в них могли рассматриваться как относящиеся к одной семантической группе (например, «абсурд, бессмыслица, нелепица, околесица», «авианосец, дредноут, крейсер, линкор, миноносец, эсминец»). Еще около 5% кластеров были помечены как сомнительные (например, «аромат запах привкус», «беспринципность ненадежность несамостоятельность»). Остальные примерно 10% кластеров оказались неудачными (например, «антисанитария, белиберда, галиматья, неприличие, несогласованность»). Однако большое количество кластеров следовало бы объединить между собой в более крупные группы (например, кластеры, содержащие названия государств, одежды, еды, материалов и т.д. - всего порядка 10% слов).
Таким образом, для приведенных примеров ^-мера составит всего 0,095 для существительных и 0,32 для глаголов. Однако если считать, что в выдаче участвовали все слова, то ^-мера будет равна 0,92. Если вести расчет слов, не попавших в свой кластер (порядка 20%, в качестве правильного кластера брался кластер максимального размера), ^-мера составит 0,88. Последняя цифра значительно превосходит другие результаты, полученные в данной области. Так, например, в работе [12] было получено значение 1-меры, равное 0,44. Кластеризации подвергались 200 глаголов, разбитые в золотом стандарте на 17 классов. В работе [13] на тех же данных было получена точность 64% (при 100% покрытии значение 1-меры должно было составить 0,78). Таким образом, можно сказать, что полученные результаты не только превосходят опубликованные ранее для английского языка, но их превышают их по объему рассматриваемой лексики.
Таким образом, высказанные нами предположения оказались в той или иной сетпени верны. Однозначно можно утверждать, что предположение о том, что слова со сходным набором семантических параметров встречаются с примерно одинаковым набором слов в одних и тех же валентностях, оказалось верным для большого списка слов. Справедливости рад следует заметить, что данный список может варьироваться в пределах группы, так как сходные слова разделяются предложенным методом на несколько кластеров. Кроме того, метод оказался применим лишь для 5-20% рассматриваемой лексики. Для остальных слов всё ещё не хватает статистики или точности работы метода.
Полученное разбиение слов может быть использовано в качестве основы для построения онтологии предметной области. Следует заметить, что эксперименты с текстами, выбранными для одной узкой предметной области, не проводились, то есть метод был проверен для онтологии общей направленности.
Кроме того, в качестве исходных данных использовались слова, приведенные к нормальной форме. В этом случае из фраз «ехать на юг» и «ехать на юге страны» будет выделено одно и то же сочетание, тогда как они будут выражать разные
валентности. Более того, оно успешно сравнится с сочетанием «опаздывать на поезд», содержащим третий тип валентности. Вероятно, имеется возможность повысить качество кластеризации, если брать в качестве исходных данных еще и информацию о падеже зависимого существительного. Однако данное предположение должно быть проверено в ходе будущих экспериментов.
Список литературы
1. Рубашкин В.Ш., Бочаров В.В., Пивоварова Л.М., Чуприн Б.Ю. Опыт автоматизированного пополнения онтологий с использованием машиночитаемых словарей // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. - сс. 413-418
2. Ефремова Н., Большакова Е., Носков А., Антонов В. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2010» - М.: Изд-во РГГУ, 2010. С.124-130.
3. Пивоварова Л., Ягунова Е. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов // Терминология и знание: Материалы II Международного Симпозиума - М., 2010.
4. Тестелец, Я.Г. Введение в общий синтаксис / Я.Г. Тестелец. — М.: Издательство РГГУ, 2001. — 800 с.
5. Большой энциклопедический словарь: Языкознание / Гл. ред. В.Н. Яцева. М, Большая российская энциклопедия, 1998. — 685 с.
6. Русские глагольные предложения: Экспериментальный синтаксический словарь / Под общ. ред. Л. Г. Бабенко. М.: Флинта: Наука, 2002. — 462 с.
7. Плунгян В.А., Рахилина Е.В. Сирконстанты в толковании предиката? // Z. Saloni (red.). Metody formalne w opisie jazykow slowianskich. Warszawa, 1990, s.201-210
8. Храковский В.С. Понятие сирконстанта и его статус // Семиотика и информатика. - М., 1998. - Вып. 36. - с. 141-153.
9. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Метод разрешения частеречной омонимии на основе применения корпуса синтаксической сочетаемости слов в русском языке // Научно-техническая информация. Сер. 2: Информационные системы и процессы. №1 2011 г., сс. 31-35
10. Гурбанов Т.П., Клышинский Э.С. Параллельный алгоритм составления словаря глагольного управления для новостных текстов на английском языке // Сб. трудов 15 научно-практического семинара «Новые информационные технологии», М., 2011.
11. Клышинский Э.С., Кочеткова Н.А. Метод автоматической генерации модели управления глаголов русского языка // В кн.: Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012. Том 1. Белгород: БГТУ им. В.Г. Шухова, 2012. С. 227-235.
12. Lippincott T., Seaghdha D., Korhonen A. Learning Syntactic Verb Frames Using Graphical Models // In Proc. of 50th Annual Meeting of Association for Computational Linguistics 2012, pp. 420-429
13. Schulte im Walde, S. (2000). Clustering verbs semantically according to their alternation behavior // In Proc. of the 18th International Conference on Computational Linguistics (C0LING2000), Saarbrücken, Germany, pp. 747-753.