Научная статья на тему 'Метод автоматического извлечения базы сочетаемости слов'

Метод автоматического извлечения базы сочетаемости слов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
140
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод автоматического извлечения базы сочетаемости слов»

Метод автоматического извлечения базы сочетаемости слов1

Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов М.Ю.

Московский государственный институт электроники и математики, каф. ИТАС

[email protected]

Введение

Информация о глагольном управлении является достаточно важной для задач анализа текстов на естественном языке. Обладая подобной информацией, можно, например, существенно повысить качество и скорость синтаксического анализа, причем как глубинного, так и поверхностного. Подобная база может использоваться для определения меры близости текстов, их содержания, при снятии омонимии и так далее.

Работы по созданию подобных словарей ведутся отечественными лингвистами уже длительное время. На данный момент разработаны весьма представительные словари, как в бумажном [1], так и в электронном виде [2]. Однако объем подобных словарей с точки зрения машинной обработки текста прискорбно мал. Так, например, [1] содержит в себе всего 2500 статей, хотя и весьма представительных, приводящих не только информацию о сочетании слова с другими, но и толкования данного слова, его грамматические характеристики. В работе [2] приводится более 10000 статей, что охватывает порядка 3-5% современной русской морфологии.

Временные затраты на создание подобных словарей достаточно велики, что собственно и объясняет небольшой объем. В связи с этим встает вопрос

автоматизации процесса создания подобных словарей. Кроме того, для их применения в машинной лингвистике необходимо приведение словарей к представлению, удобному для машинной обработки. При этом вопрос стоит о привлечении и изучении больших объемов текста.

Ранее уже предпринимались попытки извлечения информации о глагольном управлении и глагольном примыкании из больших корпусов. Однако работа с большим корпусом путем его просмотра требует огромного количества времени. Так, например, работы, проводимые Большаковым И.А. в течение 20 лет, позволили ему получить базу сочетаемости для 185 тысяч слов и выражений, в том числе около 57 тыс. титулов словаря для существительных (раздельно для единственного и множественного числе) и 38 тыс. титулов для глаголов (раздельно для инфинитива и личных форм). Общее количество сочетаний превышает 1,75 млн [3].

Гипотезы, положенные в основу метода

Объем и сложность проведенных работ определяется среди прочего наличием омонимии, то есть изначально из текста необходимо выделить глаголы. Дополнительные трудности вводит синтаксическая неоднозначность, то есть для каждого предложения необходимо предварительно построить дерево зависимостей, и на его основании пополнить базу глагольного управления.

1 Данная работа выполнена при частичной финансовой поддержке ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы.

Однако для практических задач зачастую может просто хватить информации о том, что данный глагол может употребляться с данным существительным. Для автоматического определения таких связей необходимо обойти два вида указанных выше неоднозначностей. Для этого было выдвинуто две гипотезы. Первая из них (как нам представляется - наиболее сильная) состоит в том, что в тексте достаточно большого объема группы из неомонимичных слов будут встречаться достаточно часто, чтобы собрать статистически значимые результаты. В связи с тем, что в русском языке для большинства слов имеется достаточное количество форм, вероятность обнаружить неомонимичное слово достаточно велика. A priori основной вопрос заключался в том, насколько часто в тексте будут встречаться группы неомонимичных слов. Вторая гипотеза состояла в том, что некоторые группы существительного могут быть однозначно отнесены к глаголу. В соответствии со второй гипотезой для генерации базы глагольной сочетаемости нами были использованы следующие простые положения.

1. Следующая за единственным глаголом группа существительного относится к данному глаголу.

2. Единственная группа существительного, расположенная перед единственным глаголом, относится к данному глаголу.

3. В тексте на русском языке должно быть представлено достаточно большое количество неомонимичных групп.

Также было решено, что аналогичные рассуждения можно отнести и к деепричастиям. Кроме того, прилагательные, стоящие между глаголом и существительным могут считаться принадлежащими существительному. Само расположение групп с большой (но не стопроцентной) вероятностью позволяет говорить о корректности определения зависимостей. Отсутствие омонимии гарантирует корректность определения нормальной формы слов. И, наконец, корпус текстов большого объема может гарантировать статистическую значимость результатов.

Итак, для рассмотрения были отобраны синтаксические конструкции, включающие глагол и единственную группу существительного перед ним или первую группу существительного после него. При этом группа существительного описывалась следующим образом: предлог притяжательное_местоимение

числительное группа_прилагательных существительное. При этом все части группы существительного являются необязательными, а притяжательные местоимения и числительные игнорировались. Кроме того, отбрасывались и наречия. Точность результатов при этом должна определяться точностью выбора неомонимичных слов, степенью корректности второй гипотезы. Представительность результатов определяется объемом анализируемого корпуса и вероятностью встретить неомонимичную группу с заданными характеристиками.

Описание эксперимента

В качестве основы корпуса были использована Библиотека Мошкова, включающая в себя порядка 680 млн словоупотреблений. Кроме того, была использована еще одна коллекция художественной прозы, объемом около 120 млн словоупотреблений, включающая в себя как классических, так и современных авторов. Также использовалась новостная лента, опубликованная на сайтах РБК, Лента.ру, Российская и Независимая газеты, РИА Новости - всего более 325 млн. словоупотреблений. Также использовались новостные ленты околокомпьютерной

тематики Компьюлента.ру и РСШеек - общий объем 37 млн словоупотреблений. Конкретный объем каждого из источников приведен в таблице ниже. Общий объем корпусов составил почти 1,2 млрд словоупотреблений.____________________

Источник Объем, млн словоупотреблений

Библиотека Мошкова 680

РИА Новости 156

Доп. корпус прозы 120

Независимая газета 89

Лента.ру 33

Российская газета 29

РСШеек 28

РБК 21

Компьюлента 9

Итого 1165

Все полученные комбинации слов сохранялись в базе данных, работа с которой заняла основное время эксперимента. Для морфологического анализа использовался модуль морфологического анализа «Кросслятор».

По результатам экспериментов были получены базы сочетаемости глаголов и существительных, деепричастий и существительных, существительных и прилагательных, существительных и причастий. Объем получившихся баз приведен в таблице ниже. Числитель показывает общее количество обнаруженных вхождений, знаменатель - количество уникальных вхождений.________________________

Пара Всего вхождений, млн >1 повторения, млн >2 повторений, млн

Глагол+сущ. 65 / 8,3 60,3 / 3,5 57,7 / 2,3

Деепр.+сущ. 3,5 / 0,88 2,8 / 0,31 2,6 / 0,18

Сущ.+прил. 9,9 / 1,3 9,2 / 0,56 8,8 / 0,36

Исследование результатов показало, что в выделенных парах приняло участие 21500 глаголов из 26400, представленных в морфологии, 53300 существительных из 83000, представленных в морфологии и 23700 прилагательных из 45300 имеющихся. Большое количество глаголов объясняется гораздо меньшей степенью их омонимичности. Низкое количество прилагательных объясняется тем, что из нескольких прилагательных, стоящих перед существительным, в базу помещалось только первое.

Анализ показал, что в результаты не попали принципиально неоднозначные слова, такие, например, как «красный», выступающий как в роли прилагательного, так и в роли существительного. Кроме того, в базу не вошли устаревшие и чрезвычайно редко употребимые слова, например, «взгревать», «издаиваться», «парагвайка» и так далее.

Выборочный просмотр результатов показал, что количество ошибок не превышает 1%, причем при встречаемости сочетания большей единицы, количество ошибок стремится к нулю.

Выводы

Приведенный в работе метод позволяет на больших объемах текстов получить приемлемые результаты по извлечению глагольной сочетаемости. Несмотря на то, что для построения баз было использовано около 1,5% всех словоупотреблений, большой объем корпуса позволил получить представительный результат.

Полученный корпус глагольной сочетаемости позволит перейти к следующим экспериментам в области сочетаемости слов: выделения слов и сочетаний слов семантики, группировка слов по семантическим признакам и так далее.

Список литературы

1. Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.

2. Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php

3. Большаков И. А. Кросслексика - большой электронный словарь сочетаний и смысловых связей русских слов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). Вып. 8 (15).- М.: РГГУ, 2009. 620 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.