Разработка грамматического модуля русского языка для специализированной системы обработки корпусных данных

Хохлова Мария Владимировна

УДК 81'322

Вестник СПбГУ. Сер. 9. 2010. Вып. 2

М. В. Хохлова

РАЗРАБОТКА ГРАММАТИЧЕСКОГО МОДУЛЯ РУССКОГО ЯЗЫКА ДЛЯ СПЕЦИАЛИЗИРОВАННОЙ СИСТЕМЫ ОБРАБОТКИ КОРПУСНЫХ ДАННЫХ

В настоящее время в современной лингвистике неотъемлемым инструментом для лингвистических исследований и решения прикладных задач стали корпусы текстов. С их появлением у лексикографов и остальных лингвистов появилась возможность обращаться к большим коллекциям контекстов словоупотреблений.

В частности, одной из важных проблем современной лингвистики является изучение сочетаемости лексических единиц, а именно описание коллокаций [1; 2; 4; 6], т. е. статистически устойчивых словосочетаний. Данный тип словосочетаний можно исследовать на базе больших корпусов текстов, позволяющих рассмотреть слова в их непосредственном окружении, получить данные об их сочетаемости. К механизмам выделения коллокаций относятся прежде всего статистические (основанные на данных о частоте единиц, входящих в состав рассматриваемого сочетания; величины контекстного окна) и морфологические (частеречные характеристики коллокатов, морфолого-синтаксические отношения между коллокатами) методы.

На материале русского языка проблема коллокаций исследована мало [8; 9; 11]. Большинство моделей построено для английского языка. Для русского языка данная проблематика только начинает изучаться, особенно остро встают вопросы описания богатой морфологии и свободного порядка слов.

Исследования, проводимые в этой области, базируются на использовании программного обеспечения. Оно может представлять собой самостоятельный программный продукт или «надстройку» над корпусом текстов, поскольку сами по себе те возможности, которые предоставляют корпусы текстов, ограничены, и вручную невозможно обработать огромное количество языкового материала, предоставляемого корпусами, что особенно актуально для статистически устойчивых сочетаний. Требуется дополнительное программное обеспечение для дальнейшего усовершенствования работ. Задача такой системы — обеспечить лингвистов необходимым и достаточным лексическим массивом и инструментарием, позволяющими получать объективную информацию о связях слова с другими, классифицировать контексты слова по типам, получать разнообразные статистические данные и т. п. Возникает необходимость создания дополнительных средств связи «между» корпусом и пользователем-лингвистом. Нужна некая система фильтров, которая помогала бы отбирать значимые факты языка. Одним из примеров такого фильтра является разработанная английскими и чешскими исследователями система так называемых «лексико-синтаксических шаблонов» (Sketch Engine). Под шаблонами понимаются типичные словосочетания, обусловленные, с одной стороны, синтаксисом, накладывающим ограничение на сочетаемость слов в заданном языке, а с другой стороны, вероятностными закономерностями, связанными с семантикой и языковым узусом.

Система Sketch Engine — система для обработки корпусных данных — разработана в настоящее время для ряда европейских языков (английский, ирландский, испанский, итальянский, немецкий, португальский, словенский, французский, чешский), а также для китайского и японского [3]. Она порождает на основе морфологически размечен© М. В. Хохлова, 2010

ного корпуса списки, в которых содержится информация о сочетаемостных характеристиках слов с количественным указанием силы связи, которая рассчитывается на основе мер ассоциации. Результат работы программы представлен наиболее частотными (устойчивыми в статистическом смысле) словосочетаниями с учетом грамматических (структурных) формул. Комбинирование подходов традиционной лингвистики (морфолого-синтаксические модели) со статистическими, реализованное в системе Sketch Engine, открывает новые возможности для решения различных лингвистических задач. Система Search Engine широко используется при составлении словарей (Oxford University Press, Cambridge University Press, Collins, Macmillan).

К сожалению, данный ресурс не был до последнего времени доступен для русского языка. В настоящей статье представлены результаты работы по адаптации системы Sketch Engine для русского языка.

В ходе работы нами были написаны грамматические правила, учитывающие основные синтаксические конструкции русского языка. На основе данных правил с привлечением статистического метода получаются таблицы характерной сочетаемости для заданных слов.

В системе данные о лексических единицах заключены в тегах, которые соответствуют конкретным словоформам. Так, тегу Ncfpnn соответствует нарицательное существительное (Nc) женского рода (f) множественного числа (p) в именительном падеже (n).

Ниже приведен пример грамматических правил для словосочетаний типа «прилагательное + существительное»: *DUAL

=a_modifier/modifies

2:"A....n."(([word= "]|[word="^']|[word="Kn^']) [tag="A....n."]){0,3} 1:"N...n."

2:"A....g."(([word= "]|[word="^']|[word="Kn^']) [tag="A....g."]){0,3} 1:"N...g."

2:"A....d."(([word= "]|[word="^']|[word="Kn^']) [tag="A....d."]){o,3} 1:"N...d."

2:"A....a."(([word= "]|[word="^']|[word="Kn^']) [tag="A....a."]){0,3} 1:"N...a."

2:"A....i."(([word= "]|[word="и"]|[word="или"]) [tag="A....i."]){0,3} 1:"N...i."

2:"A....l."(([word= "]|[word="и"]|[word="или"]) [tag="A....j."]){0,3} 1:"N...l."

Вышеперечисленные правила учитывают случаи, когда существительное и прилагательное в одном падеже встречаются вместе и могут быть разделены комбинацией из союзов «и» или «или» или запятой и последующего прилагательного, которые находятся на расстоянии от 0 до 3 слов. В данном случае цифра 1 обозначает, что слово, соответствующее следующему за ней тегу (напр., 1:"N...n."), является ключевым, то есть именно для этого слова ищутся словосочетания; цифра 2 обозначает, что слово, соответствующее следующему за ней тегу (2:"A....n."), является окружением ключевого слова (его коллокатом). Примеры: «пищевая, текстильная и кожевенная промышленность», «рыночный потенциал», «экономическая ситуация» и др.

Первоначально приведенные правила были написаны на основе существующих правил для английского и чешского языков [5]. На сегодняшний день нами разработан еще один вариант правил в рамках подхода В. Бенко для словацкого языка (реализован в Словацком национальном корпусе [10]). Например, «глагол + любое слово» (см. ниже).

=Vb X/X Vb

2:[tag= "V.*"] 1: [tag!=" SENT" ]

1:[tag!=" SENT"] 2: [tag= "V.*"]

Правило во второй строке означает, что будут найдены все словосочетания для любого слова (если оно не является одним из знаков пунктуации, которые тоже имеют в

корпусе свой тег) с глаголом. Правило в третьей строке описывает те же случаи, только когда глагол находится справа от ключевого слова.

Данные варианты правил не являются окончательными, ведется работа по их дальнейшему совершенствованию.

Используя терминологию информационного поиска, можно сказать, что первый вариант правил дает большую точность, в то время как второй — полноту.

На данном этапе работы тестовым материалом послужил корпус текстов объемом около 10 миллионов словоупотреблений, созданный С. А. Шаровым. Автоматиче-

лигнит Woid Skcts.il Mu/illd f siefux

Файл Правка Вид Журнал Закладки Инструменты Справка § J зеленый Word Sketch Concordance

| Ште 11 Concordance i W orci List !| Word Sketch [Thesaurus Sketch-Diflrf

[Turn or ch>st«iing| Meie daia| Less <iata| Save

зеленый Russian Web Corpus 10M frщ - SO

538 14 0;J

цвет 5 55 |8 4 87

свет ¡14 53 ша 21 4.68

насаждение ]4 3 74 ;С 21 4.64

чш И 3.73 шод б 2.42

:ГЛ83 113-49 iO 5 2 12

игрок 12 3.45 \т 4 1 35

:горошек Ш3.16

:ЗМИЙ 10 3 16 А<1Х ИИ 0.5

елка 2 з.о большой 4 1.96

:Трава 9 2 99

S 2,8 VtibX-'X Vtib Ш 0.4

карта 7 2.61 |6ьга> J 5 3 4S

лужайка 6 2.45 ^тереть 4 1 97

:волна 6 2.42

черта 6 2 42 УРр М 0.2

соус 5 2,23 ;ОТ 1.98

луг 5 2 23 ;В i 1.34

стадион 5 2.23

:вспышка 5 2.23

коридор 5 2.22

:-гр®ка 4 20

лук i 1.9&

салаг i 1-S9

ковер 4 1 99

поле 4 1 92

Рис. 1. Пример словосочетаний с ключевым словом «зеленый»

ская морфологическая разметка данных текстов была проведена программой TreeTag-ger [7].

В ходе работы были протестированы написанные правила и получены данные о сочетаемости лексических единиц на материале корпуса.

Ниже приведен пример словосочетаний со словом «зеленый».

На рис. 1 приведены шесть таблиц, каждая из которых иллюстрирует некое отношение (его название приводится в заголовке таблицы), которое было описано в вышеназванной грамматике. В первом столбце каждой таблицы приведены слова, встречающиеся в левом контексте от ключевого слова «зеленый». Во втором столбце указана частота того или иного слова. В третьем столбце представлено значение статистической меры (подсчеты основаны на данных о частотах компонентов коллокаций), согласно которой выданы эти коллокации. Рассмотрим вторую таблицу «X Noun»: X означает ключевое слово (в данном случае «зеленый»), Noun — существительное, которое встретилось справа от ключевого слова. Среди найденных коллокаций первую группу составляют устойчивые словосочетания в традиционном понимании (модель «прилагательное + существительное»), употребление которых закреплено в словарях: «зеленый свет», «зеленое насаждение», «зеленый чай», «зеленый горошек», «зеленый змий», «зеленая зона», «зеленый коридор», «зеленый лук». Вторая группа представлена частотными словосочетаниями, грамматическими и семантически правильными, постоянно воспроизводимыми в речи: «зеленый цвет», «зеленые глаза», «зеленая елка», «зеленая трава», «зеленая лужайка», «зеленый луг», «зеленая травка», «зеленый салат», «зеленый ковер», «зеленое поле».

Ниже приведена часть таблицы с сочетаниями для глагола «иметь».

В левой части выдачи (рис. 2) представлены три таблицы—«X под Y», «X при Y», «X в Y» (X представляет собой ключевое слово, Y — слово, находящееся от него в правом контексте). В данных таблицах особый интерес представляют обороты с предлогами: «иметь под рукой», «иметь при себе», «иметь в виду», поскольку с трудом могут быть найдены обычными корпусными средствами и как правило не находят отражения в словаре. Глагольное управление представлено в последней таблице «X Noun» («иметь + существительное»): «иметь право», «иметь место», «иметь возможность», «иметь дело», «иметь отношение», «иметь значение», «иметь смысл», «иметь ребенка», «иметь представление», «иметь тенденцию», «иметь честь», «иметь силу», «иметь лицензию», «иметь статус», «иметь шанс», «иметь успех», «иметь вид», «иметь обыкновение», «иметь форму», «иметь основание». Практически все они относятся к высокочастотным словосочетаниям.

Ниже приведены примеры для слов «находить». Необходимо отметить, что при морфологической разметке данного корпуса формы глагола «находиться» и «найти» были автоматически отнесены к лексеме «находить».

Как видно из таблиц (рис. 3), представляющих трехсловные сочетания— «X на Y», «X под Y», «X в Y», найдены следующие словосочетания: «находиться под угрозой», «находиться под влиянием», «находиться в состоянии», «находиться в собственности», «находиться на месте», «находиться за пределом». Среди объектных словосочетаний (рис. 4, первая таблица) выделены были следующие высокочастотные коллокации: «находить ответ», «находить выход», «находить решение», «находить применение», «находить отражение», «находить компромисс», «находить время», «находить подтверждение».

Большую роль играет объем корпуса. Например, на корпусах малых объемов не видны различия между результатами, которые выдаются разными статистическими

Фсм^ fywä&къ Вид ртп Закладки Инструмент»

иметь Word Sketch Ü§ 1:U :::

Mi««i i им« ml tu - ■ I' ** i.r •• '-'и n h [Sfietd ¡55]

jtum on. dujtermgjjlvlofe data] [L es? datüj jöivsj

име i ь üminaii W i 'urpu* ЮМ itf>4 - •

l§j|l|§liii X 2084 2.8 W Y Ä 4™ 1" X X АЛу ПО" 14 IJll^llllIII г<,:,у. 1.4

ЗрХ ;j 5 КоЛЬШоЙ '. у Ч 83 ОНИ '' 3 94 :УЖ6 : ¿S9 право - 24 .'5

1pX ;n / лщ оделенный Ш Ъ'/i очень |' S 17 место I'JS

ВНСЛЩЙ 7 17 iMH 2 5? надо 7 II В'-ЖУЖНОСГЬ 16

ÄJJMI 4,9 ^рошии о /4 - ' 6 Ус! :деяо • 12 Vi

себя > 4.79 гиб'ТБенн ый о 43 Iii 112 III НУЖНО 6 81 оТНОШ^Нйе 1 11 74

у/ни 2 03 полный mj ь | Я в ' 25 Л ;вс&гда f. 64 ОНЛЧение " in 57

г ..-отрот" тууущпя 545 ввиду 8 36 Н**>>биоДНМ<> 1 Л смысл in Л

ИИВВИШ 35 особый 54i нд , 1 7?4 еще 6 25 :реб&нок 7 82

себя 5.09 огромный ¿j 5 4 ¥ й 21 ОЛЫ<">' доступ L ¿71

общий У^ 5?5 ПОД 5 54 Д'<гтаго'Ш" '< 5 33 цель i 5 93

У h \ 3.2 прямой ¿1 4 3? при 5 47 много •} 5 4 опыт 5 С

ЬИД ' |ч 22 bA больший : •134 l 1 5 43 больше ", 5 20 предст-шлен;^ . 542

свой ' 3 'Ü специальный ¿э ДО" U 41» сегодня ' ,471 тенденция . 5 32

CBvt I 1 3 04 разный 4 <~2 iA >1 4 U ;весьма .."4 21 ¿о 5,2

гебя 2 07 различный ¿з 4 53 'Cä >73 ДиНЛЫПЧЛЬН" . 12 сила . 4 51

достаточный , , 4 54 ino ¿1 зл; ; теп ерь 4 15 :лицеизия ... 451

4 42 Пр' -7ИЕ. 3 54 МШЗО . 3 97 7 Й '.* У!. 4 3S

Не1Т<среДС1£>еНЙКИ "/ 4 2 93 сейчас . 3 33 анаяог ! 434

рйБНЫЖ ;> 4 13 уГ 2 So ^здесь 3 74 :шанс : 4 23

четкий ■ 4 Г9 i перед 1 ¿.j гораздо '3 54 :уснея 4 27

одияследый 4 | <3 над 2 32 343 :ВНД 3 s<

вач,нын 4 i^ >.ЛИЧЯ>' 1 3 2? oi ыга^веиир : S?

4 :ЧаСТО 1 -25 > О"'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ПОСТОЯННЫЙ 10 з yj против 1 •> Sl'-i фсрна ^

реальный ¡.1 37 ■-■ДКОРременно •> 2 Ы основание - 5fti

Рис. 2. Пример словосочетаний с ключевым словом «иметь»

мерами, т. е. сочетаемость слова, выявленная подобным образом, будет примерно одинаковой. Это происходит из-за малой частоты самих слов и словосочетаний.

Также остро стоит вопрос о качестве корпусной разметки и самих текстов. Во-первых, в текстах зачастую содержатся ошибки сканирования, неудаленные структурные элементы (если тексты берутся из сети Интернет). Во-вторых, морфологическая разметка проводится автоматически, некоторым словоформам могут быть приписаны два или более морфологических показателя и несколько лемм. Вручную невозможно снять возникшую морфологическую неоднозначность или ошибки морфологического анализа при таких больших объемах текстов. Со всем этим тесным образом связано получение объективных результатов.

Применение описанных методов, а именно комбинирование статистических и морфолого-синтаксических подходов к анализу лексической сочетаемости, которое ранее не применялось к русскому языку, открывает новые возможности в изучении лек-

Фэпп Прэ&га 8*л Журнал Зз>пздп1 £нстоу:«?нты Справа находить У/ог^ Сопсог^апс'1

|7ит ой [Ыог»

находить ни?«®«асмр« юмл^г<м

ИИииШ!

1РХ

59

¿Л ЗОЛ

. 2 64 2 64

х«:<у гт «.1

территория -"5 46 сайт месго борт

стадия они

"2 93 '2 52 • 245 -.2 2? >■ 1 93

!(|в1|||1||| «Ю 9.9

себя " - 3 52 ХЬ Ю ■»■•»

гогл ОЯНКе 3 37 в ')•'- 23 9!

иерархия о о 99 на .. 1' 13 73

: кем-гр 2 89 ноя 7 86

интернет ■.'¿Л во Г 4 82

они :: :■ 51 У 4 72

¡ОН . : 2 47 »а 3 9

процесс 29 ¡ДЛЯ ! 3 59

■по ■ 2 >5 г : • Я 24

социально ,2 22 вне . 2 63

зона 2 19 ВНУТрИ ' 2ь2

<"0бг1ЕенН0СТЬ *> 2 19 среди 2 37

другой , 1 п между < 2 26

:ЗТ0Т ' 1 1 24 при 1 8

самый 1 по : 1 зз

один 1 26 к 1 0 97

она :> 1 01

тот 0 92

можно

труди

там

¡где

здесь

рядом

необходимо

много

еще

НсВОЛоЖЯо

нужно всегда надо

постоянно более изта: но ¡легко

уже

несколько

недалеко

где-то

-■ояуа гельн-..

долго

снова

5.3 ■■■■11111111 : 1 ■■1И111И11И1 1.1

14 24 предел 2 45 быть 1 1 12 74

6 55 ■мочь 12 02

5 67 ИлшХ Ж 2.0 НЫ1 «ТЫ-Я 1 7 97

4 83 себя 21 3 15 смочь ' 6 87

4 5 удатьгл '..'■ 5 36

4 22 ХА<Е Ж попытаться ¿\ 4 57

4 09 новый . 5 12 попробовать 4 11

4 05 общий ; > 4 83 постараться " 3

3 99 нужный < 4 44 надолхься 5 97

3 99 правильный .: 3 14 ^ ¿3

3 94 ПоДХоДИЗЦИЙ 2 82 стараться 2 «о

3 92 необходимый 2 59 ¡ПОМОЧЬ 9 2 ''Ч

3 64 хороший -- помог иь :: 2 76

3 44 ¡удаваться 2 63

344 ВИИ||||11|| 1« ¡суметь 6 2 43

3 31 в 2 11 фемиться о 241

2 98 Продол»'111. 2 36

2 84 ¡-то ":> 2 06

2 32 2 64 2 44

241

242 241

Рис. 3. Пример словосочетаний с ключевым словом «находить»

сических единиц. Как было показано, с помощью существующей системы можно получить данные об отношениях разного типа в языке: атрибутивных, объектных и т.д. Очевидно, что автоматический анализ текста (с помощью описанных выше методов) — это только первоначальный этап для выявления коллокаций в смысле традиционной лингвистики. Затем требуется ручная обработка полученных результатов (под ручной мы понимаем дополнительный интеллектуальный анализ, с использованием других средств, например семантических), в том числе с привлечением данных из словарей (в первую очередь, толковых и словарей сочетаемости).

Результаты нашей работы в первую очередь могут быть использованы в лексикографической практике. Коллокации, выдаваемые в итоге работы данной программы, незафиксированные ни в одном из словарей, после тщательного анализа могут пополнить существующие словари.

KllUI'lHlii V/ntli Skclt ll Mn.'lll'l I ll'lfpx . ' ; X !

Файл Праека Вид Жирная Закладки Инструменты Спраека i I находить Word Sketch ig Cencotdaice

один 5 1.26: ijc (. 0.97: -где-то ь 2.43i

она 5 1,0?: ¡обязательно Ь 2.42t

тот 7 0.32 долго 6 2.41.

■ снова 6 2.4 f

■■■111111111111 212 1-1 {¡¡НИИ!!! _ II1'

ответ ■6 5 85 ■ птица ■V.' 6 92

выжод ¿1 5 53 ¡время 1') 3 93

работа Зп 5 if, возможность лз 34

ОСТЛКЖ jo ¿} 23 ■яйцо Ь 33

решение IK4 08 ¡попытка 1U 3 13

место I'M 03 ■клуб f". 2 41

способ 3 94 ■надежда >'■ 2 41

применение 12 3 32 человек

отражение Г: 3 45 работа ? 2 26

возможность U. 3 25 ■ гнездо 5 2 23

причина 4 3 19 желание 5 2 17

деньга in j u2 ■труд 2 14

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

компромисс 22?? ■ год 111 Ofi

убийца 0 2 99

ДОЛГОНОСИК i: 2 S3 1 0,5

поддержка :: 2 72 должный <>'• 7 91

время н 2 72 быстрый г л

путь 12 64 ■способный I: 2 22

гнездо ? 2 64

подтверждение ; 2 63 ТьУ: 55 0.2

дорога 7 2 49 ■ из 14 37

семя 2 43 к- ; 2 94

слово 1 24 ■в 10 2 81

подход о 2 38 ■ С S 2 06

человек 1^2 38

Рис. 4. Пример словосочетаний с ключевым словом «находить» (продолжение)

Уже сейчас данные о лексических единицах, полученные автоматическими способами, имеют большую практическую значимость и могут быть использованы в различных областях прикладной лингвистики:

• при обучении языкам;

• при решении проблем, связанных с переводом текстов (в том числе с машинным переводом);

• при снятии неоднозначности при автоматическом анализе;

• в задачах создания автоматизированных систем семантического анализа и синтеза текстов;

• в исследованиях, посвященных социальным явлениям, например в работах о языковой картине мира и др.

Литература

1. Benson M. Collocations and general-purpose dictionaries // International Journal of Lexicography. 1990. Vol. 3/1. P. 23-34.

2. Cermak F. Kolokace. Praha: Ustav №skeho narodniho korpusu, 2006.

3. Kilgarriff A., Rychly P., Smrz P., Tugwell D. The Sketch Engine // Proceedings of the Eleventh EURALEX International Congress / ed. by G.Williams, S. Vessier. Lorient, 2004. P. 105116.

4. Mel'cuk I. A. Collocations and Lexical Functions // Phraseology: Theory, Analysis, and Applications / ed. by A. P. Cowie. Oxford, 1998. P. 23-53.

5. Rychly P., Smrz P. Manatee, Bonito and Word Sketches for Czech // Труды международной конференции «Корпусная лингвистика—2004»: C6. докладов. СПб., 2004. С. 324-334.

6. Sinclair J. Corpus, concordance, collocation. Oxford, 1991.

7. TreeTagger. URL: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ (дата обращения: 27.09.2009).

8. Борисова Е. Г. Коллокации. Что это такое и как их изучать. М., 1995.

9. Иорданская Л. Н., Мельчук И. А. Смысл и сочетаемость в словаре. М., 2007.

10. Национальный корпус словацкого языка. URL: http://korpus.sk (дата обращения: 27.09.2009).

11. Хохлова М. В. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики: Корпусные подходы / под ред. А. Мустайоки, М. В. Копотева, Л. А. Бирюлина, Е.Ю.Протасовой. Хельсинки, 2008. С. 343-357.

Статья поступила в редакцию 5 апреля 2010 г.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Хохлова Мария Владимировна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Хохлова Мария Владимировна

Creating a Russian grammatical module for a language corpus processing system

Текст научной работы на тему «Разработка грамматического модуля русского языка для специализированной системы обработки корпусных данных»