Научная статья на тему 'Статистический анализ синтаксического ветвления в различных европейских языках'

Статистический анализ синтаксического ветвления в различных европейских языках Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
347
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ / СИНТАКСИЧЕСКИЙ АНАЛИЗ / АНАЛИЗ ЕСТЕСТВЕННЫХ ЯЗЫКОВ / КОРПУС ТЕКСТОВ / ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ДЛЯ РАБОТЫ С ТЕКСТОМ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Клышинский Э. С., Логачёва В. К., Карпик О. В., Зиязтдинов И. Б., Макеенко П. А.

Статья посвящена изучению статистических характеристик текстов на различных языках. В качестве конкретного материала для исследований выбраны корпуса русского, финского, шведского, немецкого и итальянского языков. Их анализ основан на сборе статистики по количеству встречаемых типов словосочетаний различных частей речи и проведен с помощью разработанного программного обеспечения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистический анализ синтаксического ветвления в различных европейских языках»

Статистический анализ синтаксического ветвления в различных европейских языках

Клышинский Э.С., Логачёва В.К., Карпик О.В.

ИПМим. М.В. Келдыша РАН ек1увЫтку@/гле.ги, Logacheva vk@mail.ru. parlak@mail.ru

Зиязтдинов И.Б., Макеенко П.А.

МИЭМНИУВШЭ ркг122 @gmail. сот. gazettechou @ gmail. сот Аннотация. Статья посвящена изучению статистических характеристик текстов на различных языках. В качестве конкретного материала для исследований выбраны корпуса русского, финского, шведского, немецкого и итальянского языков. Их анализ основан на сборе статистики по количеству встречаемых типов словосочетаний различных частей речи и проведен с помощью разработанного программного обеспечения.

Ключевые слова: статистический анализ, синтаксический анализ, анализ естественных языков, корпус текстов, программное обеспечение для работы с текстом.

1 Введение

В ходе синтаксического анализа часто проявляется явление, называемое синтаксической неоднозначностью, когда для одного и того же предложение может быть построено несколько вариантов разбора в виде деревьев зависимости или составляющих. Подобное явление связано с тем, что слова могут обладать различными типами зависимостей и, как следствие, составлять различные связи с другими словами. Подобное смещение связей может быть связано, например, с наличием лексической омонимии, когда разные связи образуются с разными словоформами. С другой стороны, слова обладают набором валентностей, то есть связей, которые могут или должны быть заполнены другими словами предложения, или требовать при присоединении управления, то есть согласования лексических параметров соединяемых слов. Валентность предъявляет требования к присоединяемому слову. Так, например, глагол требует наличия определенного предлога, а присоединяемое существительное должно находиться в заданном падеже. В связи с этим неоднозначность может появляться в связи с перемещением зависимых слов к другим главным словам для заполнения свободных валентностей. Еще одним вариантом появления неоднозначности может являться возможность правого и левого ветвления для определенных связей. Под левым ветвлением будем понимать ситуацию, когда зависимое слово находится слева от главного, под правым - когда зависимое слово находится слева. (Подробнее см. [Тестелец, 2002]).

Статистический анализ синтаксического ветвления _в различных европейских языках

В данной работе была поставлена задача исследовать статистические характеристики подобного ветвления для различных языков. Так, например, принято считать, что английский язык обладает строгими правилами относительно правого или левого расположения зависимых слов, тогда как в русском языке зависимые слова более свободны в смысле выбора своего расположения. Наличие цифр должно помочь нам разобраться в данном вопросе.

Для анализа синтаксической регулярности языка удобнее использовать синтаксически размеченный корпус текстов, так как синтаксический анализ представляет собой лишь некоторую модель, отражающую представление ее разработчиков о языке. В связи с этим использование той или иной системы синтаксического анализа позволит лишь оценить внесенные в нее правила, а не закономерности языка. Кроме того, на данный момент на реальных текстах системы синтаксического анализа показывают качество лишь несколько превышающее 90%. Столь значительный процент ошибок может серьезно повлиять на качество собираемой статистической информации. Для данного исследования были выбраны синтаксически размеченные корпуса русского (СинТагРус [Apresjan et al., 2006; Богуславский и др., 2002]), финского (Turku Dependency Treebank [Haverinen et al., 1998]), шведского (TalBanken [Nivre et al., 2006]), немецкого (TiGer [Brants et al., 2004]) и итальянского (Turin University Treebank [Bosco et al., 2008]) языков. Нами были выбраны корпуса, размеченные с использованием деревьев зависимостей, так как задачей являлся анализ связей между отдельными словами. Деревья, полученные с использованием грамматик составляющих, не способны предоставить подобную информацию в явном виде.

2 Метод анализа

В данном исследовании нашей задачей являлось проверить для различных видов синтаксических связей соотношение числа правого и левого расположения подчиненных слов. Так, например, в русском языке прилагательное может располагаться как до, так и после управляющего им существительного. В первом случае говорят о левом ветвлении, во втором случае - о правом.

Будем также говорить, что данная связь обладает симметрией, если для нее наблюдается как левое, так и правое ветвление, причем количество для обоих случаев сопоставимо. Будем говорить, что данная связи обладает асимметрией, если в корпусе присутствует либо правое, либо левое ветвление, либо присутствует оба вида ветвления, но количество примеров для одного 20 и более раз превышает количество примеров для другого.

Метод анализа заключается в следующем. На вход метода поступает множество синтаксически размеченных предложений на заданном языке, представленных в виде деревьев зависимостей. Для всех зависимых слов в корпусе составляются тройки вида <POS/, dir, POSr>, где POSi - часть речи слова, расположенного в предложении слева, POSr - часть речи слова, расположенного в предложении справа, и dir - обозначение расположения главного и зависимого слова (будем использовать знаки <— и —» для обозначения левого и правого ветвления соответственно). В этом случае конструкция красивая девушка образует тройку < adj, <—, noun >, а конструкция девушка красивая - тройку < noun, —adj >.

Для всех конструкций собирается статистика их встречаемости во всём корпусе. Далее проводится сравнение частот встречаемости для троек вида < POSi, —POS2 > и < POS2, <—, POSi >. По соотношению частот встречаемости и количестве симметричных и несимметричных конструкций может быть сделан вывод о строгости конструкций языка.

3 Результаты экспериментов

Для анализа корпусов был разработан комплекс программного обеспечения. Во-первых, это программы для конвертации корпусов в единую базу данных в заданном формате. Во-вторых, это программа для извлечения статистической информации из полученной базы данных. И, наконец, программа поиска и визуализации информации, хранимой в корпусах. Данная программа необходима для проверки и анализа получающихся конструкций. Последняя программа была реализована в виде web-сервера и могла использоваться удаленно (пример работы представлен на рис. 1), тогда как первые программы использовались локально в целях повышения скорости работы. Программы реализованы на языке Java, что позволяет с легкостью переносить их на различные платформы.

Main word

Choose part of speech v

Please, use panels to the left to form a query.

Существительное

Дополнительные характеристики

Dependent word

Прилагательное v

10 S< V

228 V>S

Showing first 100 sentences. L

ID Bigram

17 обитые > клеенкой

1589 нажимавший > спуск

1645 ожидающие > ее

1657 пронизанный > болью

2118 обладающие > качествами

2280 П0ВышаюЩие >

Она, видимо, волновалась, потому что забыла закрыть за собой обе обитые черной клеенкой двери.

Щурясь, он сдерживал палец, нажимавший спуск.

Он побежал не на батарею, которая продолжала идти, не подозревая, что идет прямо на танки, ожидающие ее.

Долго еще Ищенко слышал его голос, пронизанный болью, зовущий на помощь: - Товарищ капита-ан! ..

Для программ этот процесс сравним с естественным отбором, оставляющим жить только сильнейших их представителей, или их гибриды, обладающие нужными качествами.

Мы будем отрабатывать технологии, повышающие объективность процедур единого экзамена.

Рис. 1. Пример функционирования системы

Статистический анализ синтаксического ветвления _в различных европейских языках

Количество различных троек, выделенных для выбранных корпусов, показано в Таблице 1 в графе «Количество сочетаний». Заметим, что количество сочетаний во многом определяется числом частей речи, используем при разметке корпуса. Так, например, в корпусе СинТагРус личные местоимения размечены как существительные, а притяжательные -как прилагательные.

Графа «Единственный вид связи» Таблицы 1 показывает процент связей, не имеющих симметричной пары. Подобные связи являются полностью асимметричными. Графа «Преобладание асимметрии» показывает процент связей, в которых имеются пары, однако число встречаемости одной связи в 20 и более раз преобладает над другой. Графа «Слабое преобладание асимметрии» показывает процент симметричных связей, в которых преобладание составляет 10-20 раз. Наконец, графа «Симметричные связи» показывает процент связей с преобладанием одной над другой менее 10 раз. Те же данные, но с несколько большей детализацией, представлены на рис. 2. По оси X показано отношение разницы между встречаемостью симметричных связей к максимуму встречаемости. То есть, если считать, что ^ - это количество связей вида < РОБь —>, РОБг >, а f2 - количество связей вида < РОЗг, <—, РОЗх >, то значение по оси X вычисляется как аЬв^^Утах^ь f2).

Табл. 1. Процентное соотношение симметричных и несимметричных связей

Язык Кол-во Единственный Преобладание Слабое Симмет-

сочетаний вид связи асимметрии преобладание асимметрии ричные связи

русск. 191 13,09% 20,94% 12,57% 53,40%

финск. 2656 34,56% 2,79% 3,61% 59,04%

итал. 212 35,85% 23,58% 7,55% 33,02%

шведск. 1876 31,02% 14,50% 7,68% 46,80%

немецк. 494 19,84% 22,27% 6,48% 51,42%

-1 [0,95:1) 0,9; 0,95) [0,7; 0,9) [0.5; 0,7) <0,5 -русский -финский -и~альянский - шведский -немецкий

Рис. 2. Доля различных видов симметричности в корпусах

4 Обсуждение результатов

Как это видно из данных, представленных в Таблице 1, русский и немецкий языки обладают большей степенью симметрии, то есть более свободным порядком слов. Наиболее асимметричным языком является итальянский, то есть он предъявляет более строгие требования к порядку следования слов. Эти данные согласуются с имеющимися представлениями о синтаксической структуре языков.

С другой стороны, если сложить значения в колонках «Единственный вид связи» и «Преобладание асимметрии» (что даст нам представление о принятых по умолчанию значениях асимметрии), картина несколько изменится (см. Табл. 2). Так, в финском языке мы будем наблюдать либо практически полностью симметричные связи, либо связи, обладающие асимметрией, чье число будет сопоставимо с аналогичным для русского языка. Отрыв же итальянского языка по асимметричности конструкций значительно увеличится. Аналогично увеличится и «строгость» немецкого языка.

Табл. 2. Соотношение симметричных и несимметричных связей

Язык Асимметрия Симметрия

русск. 34,03% 65,97%

финск. 37,35% 62,65%

итал. 59,43% 40,57%

шведск. 45,52% 54,48%

немецк. 42,11% 57,89%

Серьезным недостатком проведенного исследования является отсутствие глубокого лингвистического анализа выделенных конструкций. Так, как это видно из рис. 1, для более строгого анализа русского языка необходимо выделение более развернутого списка частей речи. Помимо этого, проведенный анализ не учитывает целый ряд важных параметров. Так, например, в русском языке прилагательное в роли существительного, которому подчиняются другие существительные, всегда будет стоять в правой позиции, тогда как в большинстве остальных случаев оно будет находиться слева от главного слова: речь лучшего в классе уб лучший ученик. При сравнении связи глагола и существительного необходимо рассчитывать частоты встречаемости отдельно для именительного и косвенных падежей в связи с зависимостью роли существительного в предложении от его падежа. Наличие отрицательных частиц также сказывается на роли слов в предложении.

Таким образом, хотя исследование вполне корректно показало различия в исследуемых языках, в дальнейшем необходимо ввести большее число параметров при расчете статистики: лексические параметры слов, наличие зависимых слов у обоих участников связи, часть речи этих третьих слов и так далее. Это позволит лучше отличить, например, изменение стиля текста (за счет перенятой из древнегреческого

Статистический анализ синтаксического ветвления

_в различных европейских языках

языка традиции менять порядок слов при переходе на возвышенный стиль) от свободного порядка следования слов при использовании данной конструкции.

5 Благодарности

Данная статья написана при частичной финансовой поддержке гранта РФФИ № 12-04-0060.

6 Список литературы

[Apresjan et al., 2006] Apresjan J., Boguslavsky I., Iomdin В., Iomdin L., Sannikov A., and Sizov V. A syntactically and semantically tagged corpus of russian: State of the art and prospects. // In Proceedings of the fifth international conference on Language Resources and Evaluation (LREC2006), May 24-26, 2006, Genoa, Italy.

[Bosco et al., 2008] Bosco C., Mazzei A., Lombardo V., Attardi G., Corazza A., Lavelli A., Lesmo L., Satta G., Simi M. Comparing Italian parsers on a common treebank: the Evalita experience. // In Proceedings of LREC'08, pp. 2066-2073. Marrakesh, Morocco

[Brants et al., 2004] Brants A., Dipper S., Eisenberg P., Hansen S., König E., Lezius W., Rohrer C., Smith G., and Uszkoreit H. TIGER: Linguistic Interpretation of a German Corpus. // Journal of Language and Computation, 2004 (2), 597-620.

[Haverinen et al., 2013] Haverinen K., Nyblom J., Viljanen Т., Laippala V., Kohonen S., Missilä A., Ojala S., Salakoski Т., Ginter F. Building the essential resources for Finnish: the Turku Dependency Treebank. // Language Resources and Evaluation. 2013.

[Nivre et al., 2006] Nivre J., Nilsson J. and Hall J. Talbanken05: A Swedish Treebank with Phrase Structure and Dependency Annotation. // In Proceedings of the fifth international conference on Language Resources and Evaluation (LREC2006), May 24-26, 2006, Genoa, Italy.

[Богуславский и др., 2002] Богуславский И.М., Иомдин JUL, и др. Разработка синтаксически размеченного корпуса русского языка. // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» // СПб, изд-во Санкт-Петербургского университета, 2002, сс. 40-50

[Тестелец, 2002] Тестелец Я.Г. Введение в общий синтаксис / Я.Г.Тестелец. - М.: Российский Государственный Гуманитарный Университет, 2001. - 798 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.