Научная статья на тему 'Автоматический морфологический анализ для корпусов тюркских языков'

Автоматический морфологический анализ для корпусов тюркских языков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
702
199
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУС ЯЗЫКА / МОРФОЛОГИЧЕСКИЙ ПАРСЕР / МОРФОЛОГИЧЕСКИЙ АНАЛИЗ / СЛОВОИЗМЕНЕНИЕ / КОМПЬЮТЕРНАЯ МОДЕЛЬ СЛОВОФОРМЫ / СИСТЕМА STARLING / CORPUS OF A LANGUAGE / MORPHOLOGICAL ANALYSIS / MORPHOLOGICAL PARSER / INFLECTION / COMPUTATIONAL MODEL OF A WORD FORM / STARLING SYSTEM

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Дыбо Анна Владимировна, Шеймович Александра Валерьевна

В статье описываются принципы работы автоматического морфологического анализатора для тюркских языков. Выделяются его основные компоненты: грамматический словарь языка; порядковая модель словоформы (набор позиций в словоформе и морфонологических представлений аффиксов для этих позиций); правила сочетаемости аффиксов в пределах словоформы и двухуровневые фонетические правила выбора алломорфов конкретного аффикса. В основе работы парсера лежит алгоритм анализа, разработанный Ф.Крыловым на базе системы StarLing. В качестве иллюстрации приводится версия морфологического анализатора для древнетюркского языка. Работа ведется в рамках масштабного проекта по созданию корпусных ресурсов языков народов России, в частности корпусов на малых тюркских языках РФ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic Morphological Analysis for Corpora of Turkic Languages

This paper describes the main principles on which the automatic morphological analyzer for Turkic languages operates. Its main components are: a grammatical dictionary; a range model of a word form (including a set of ranges with a series of morphophonological forms of inflectional affixes for each range); a set of compatibility rules for affixes and a two-level set of phonetic rules that constrain the choice of components of a word form. The algorithm of automatic morphological annotation was developed by Ph.Krylov by using StarLing database processing system. The automatic morphological analyzer for the Old-Turkic language is shown below as an example. This research follows the framework of the RAS corporate project with regards to the development of corpora for languages of the Russian Federation, including Turkic minority languages.

Текст научной работы на тему «Автоматический морфологический анализ для корпусов тюркских языков»

ФИЛОЛОГИЯ И КУЛЬТУРА. PHILOLOGY AND CULTURE. 2014. №2(36)

УДК 81'44

АВТОМАТИЧЕСКИЙ МОРФОЛОГИЧЕСКИЙ АНАЛИЗ ДЛЯ КОРПУСОВ ТЮРКСКИХ ЯЗЫКОВ

© А.В.Дыбо, А.В.Шеймович

В статье описываются принципы работы автоматического морфологического анализатора для тюркских языков. Выделяются его основные компоненты: грамматический словарь языка; порядковая модель словоформы (набор позиций в словоформе и морфонологических представлений аффиксов для этих позиций); правила сочетаемости аффиксов в пределах словоформы и двухуровневые фонетические правила выбора алломорфов конкретного аффикса. В основе работы пар-сера лежит алгоритм анализа, разработанный Ф.Крыловым на базе системы Б1агЬ1п§. В качестве иллюстрации приводится версия морфологического анализатора для древнетюркского языка. Работа ведется в рамках масштабного проекта по созданию корпусных ресурсов языков народов России, в частности корпусов на малых тюркских языках РФ.

Ключевые слова: корпус языка, морфологический парсер, морфологический анализ, словоизменение, компьютерная модель словоформы, система Б1агЬ1п§.

0. Уже несколько лет благодаря поддержке Президиума РАН развиваются исследования по новой программе: корпусная лингвистика. Отдельное направление этой программы - корпуса языков народов России. А.В.Дыбо является одним из координаторов этого направления и руководит проектом корпусов миноритарных тюркских языков. В рамках этого проекта предполагается делать параллельные корпуса (все тексты обеспечены русским переводом) с морфологической разметкой. Аналогичный проект в рамках того же направления развивают И.В.Кормушин и И.А.Невская; это корпус древнетюркского языка, продолжающий и развивающий работу М.Эрдала и И.А.Невской в рамках корпуса VATEC [1]. Все материалы по этим двум проектам будут представлены в свободном доступе в Интернете.

Автоматические морфологические анализаторы для тюркских языков, используемые в больших программных продуктах, таких как Abbyy Finereader, Abbyy Lingvo и многие другие, основаны на тех же принципах, что и анализаторы, разработанные для флективных индоевропейских языков типа русского или немецкого. Каждая лемма в словаре получает индекс типа парадигмы, который отсылает к списку образцов парадигм. Поскольку во флективных языках эти парадигмы сами по себе невелики, а число их, наоборот, велико, анализатор строит полную парадигму для каждого слова и затем сравнивает попавшуюся в тексте словоформу с этой парадигмой. Для тюркских языков используется тот же метод, что позволяет не подвергать изменениям программное ядро.

Мы разрабатываем анализатор для языков алтайского типа; описанный метод не является оптимальным для агглютинативных языков.

Особенности агглютинативных языков:

- развитая система словоизменительных аффиксов, большинство из которых грамматически однозначны (т.е. одним аффиксом выражается один грамматический признак);

- единый тип словоизменения: отсутствие строгого разграничения между именным и глагольным типом словоизменения - склонением и спряжением (ср. флективные языки);

- отсутствие значимых морфонологических чередований в основах, четкая фонетическая обусловленность использования алломорфов.

Агглютинативная словоформа образуется путем присоединения к основе в строгом порядке однозначных стандартных аффиксов; границы морфем отчетливы, фонетические изменения на стыках морфем подчиняются строгим правилам. Но попытки построить парадигму конкретного слова демонстрируют ее чрезвычайную сложность и многоместность, что обусловлено большим числом словоизменительных аффиксов. Это подталкивает нас к построению морфологического анализатора, учитывающего все возможные в тюркских языках комбинации морфем. Существующие тюркские парсеры строят редуцированные парадигмы, ограничивая число словоформ примерно до трехсот, что пагубно сказывается на качестве их работы.

Для построения компьютерной модели тюркской словоформы был использован подход, традиционно применяющийся отечественными исследователями при описании агглютинативных языков, особенно в полевых условиях. В лингвистике этот подход принято называть «грамматикой порядков» (см. [2]). Грамматика порядков - удобный инструмент описания агглютинативных языков, морфология которых соответствует

следующим требованиям: а) фиксированная последовательность словообразовательных аффиксов; б) их грамматическая однозначность; в) однократность появления в данной словоформе аффикса определенной граммемы.

1. Основные компоненты морфологического анализатора

В построении морфологического анализатора задействованы три основных лингвистических компонента:

• словарь языка (словарь, содержащий час-теречные пометы и чередования основ, не описанные фонологическими правилами);

• компьютерная модель словоформы, опирающаяся на адекватное грамматическое описание (ориентированное на автоматический анализ языка);

• набор правил сочетаемости, включающий правила сочетаемости аффиксов в пределах словоформы и фонетические правила выбора алломорфов конкретного аффикса.

Алгоритм анализа, разработанный Ф.Крыловым, позволяет заполнять вышеперечисленные позиции материалами любого тюркского языка. Анализ словоформы идет справа налево. Сначала программа ищет в словаре основ целую словоформу. Если ее там не оказывается, парсер ищет с правого конца словоформы словоизменительный формант и, если обнаруживается последовательность символов, похожая на аффикс из базы, она отрезается и проходит проверку на возможность следования непосредственно за основой, а левая часть снова сравнивается со словарем основ. При положительном результате парсер предлагает для такой словоформы вариант анализа. При отрицательном результате программа снова обращается к правому концу словоформы и ищет следующий формант, сравнивая его с базой аффиксов. Так продолжается до тех пор, пока оставшаяся слева часть словоформы не совпадет со словом из словаря основ. К настоящему времени работает версия анализатора для хакасского языка [3]; в разработке анализаторы для шорского, тувинского, якутского и древнетюркского языков. Словари основ для этих языков автоматически извлечены с помощью СУБД STARLING [4] из распознанных и выправленных электронных копий больших тюркско-русских словарей.

Ниже описана версия морфологического анализатора для древнетюркского языка.

2. Модель словоформы и правила автоматического анализа древнетюркского языка.

Словарь основ построен на Древнетюркском словаре [5]; постепенно ведется его дополнение по словарю Клосона [6].

NB, что для древнетюркского последовательность слотов именных категорий дублирована. Это сделано из-за многих явлений: двойных падежей, возможности изменения по падежам ат-рибутивизированных падежных форм, возможности изменения по падежам комитатива и дели-бератива и некоторых других. Примеры: mäniylär ol 'они мои', mäniysiz 'состояние "не-я" (букв. "без моего")', öziniycä 'как его собственный', biziytäkicä 'как в одном из наших', barmïs-lar-nïy-ï-nda 'от одного из тех, кто шел', kutïnlïy 'принадлежащий к его богатству' [7].

Морфы в строке морфов и граммемы в строке граммем разделяются дефисами.

Кумулятивно выраженные граммемы разделяются точками, субморфы внутри морфа (аффикса, занимающего слот) также разделяются точками.

Части композита разделяются знаком +. Условные обозначения S - основа.

1. "Глагольные" слоты

Neg - отрицание Tense, Mood - время, наклонение Sequ - секвентатив, действие, предшествующее главному Praes - презенс

Fut - будущее время (в чем семантическая. разница первого и второго будущего, неясно, возможно, они распределены по диалектам)

Indir - индиректив, прошедшее время (перфект) с косвенной эвиденциальностью)

Perf - перфект (действие в прошлом, результат которого имеется в настоящем), не маркиро-ваннный по эвиденциальности

Res - результатив (перфект, маркированный по прямой эвиденциальности - это либо действие, свидетелем которого был говорящий, либо действие, имеющее результат, наблюдаемый в настоящем)

Praet - претерит (немаркированное прошедшее)

FutIm - непосредственное будущее Inf - инфинитив

PrtImpf - имперфективное причастие PrtAct - активное причастие PrtHab - хабитуальное причастие PrtAuct - агентивное причастие PrtProsp - проспективное причастие PrtProj - проективное причастие PrtNecess - причастие необходимого следствия

Conv - деепричастие (семантическая разница 1 и 2 неясна, 2 употр. гораздо реже) ConvFin - деепричастие цели

ConvDelim - деепричастие ограниченного действия

Cond - кондиционалис, условное наклонение Imp - императив, повелительное наклонение 2. "Именные" слоты

Num - число. NB: Sg, единственное число отдельно не маркируется, бывает только кумулятивно с лицом или принадлежностью. Pl - множественное число Poss - посессивность, принадлежность Possl - l лицо посессора Poss2 - 2 лицо посессора Poss3 - З лицо посессора Coord - координатив (при перечислении однородных членов предложения)

Simple declension - набор падежных аффиксов простого склонения

Possessive declension - набор падежных аффиксов притяжательного склонения (после показателя принадлежности)

Список падежей

Nom - основной падеж, не маркируется. Gen - генетив (родительный) Dat - датив

Acc - аккузатив (винительный)

Loc - локатив (местный)

Abl - аблатив (исходный)

Instr - творительный

Equ - экватив

Dir - директив

Part - директив-партитив

Simil - симилятив

Comit - комитатив

Atr - атрибутивизатор

Модификаторы Rel - релативизатор Priv - приватив Comp - компаратив Dimin - диминутив

Финитный слот

Реге - лицо предиката главной предикации

1, 2, 3 - лица

БшрЬ - эмфатическая частица

2.1. Ограничения на сочетаемость аффиксов

1. Слоты (позиции) 1-2 могут заполняться только у слов с пометой УегЬиш; заполнение слотов 3-15 возможно для таких слов, только если заполнен слот 2.

2. Кумулятивные показатели 1шр.Реге и Ргае!.Реге. состоят из заполнения слота 2 + заполнения слота 15; поэтому могут стоять только непосредственно за заполнением слотов 0 или 1 и только у слов с пометой УегЬиш.

3. Аффиксы посессивного склонения употребляются только в словоформах с заполненными слотами 4 (Ро881) или 10 (Ро882).

2.2. Правила выбора алломорфов

Гласный в скобках: проясняется, если предыдущий морф кончается на согласный, опускается, если предыдущий морф кончается на гласный.

Согласный в скобках: проясняется, если предыдущий морф кончается на гласный, опускается, если предыдущий морф кончается на согласный.

У посесс. афф. 3 л п- выступает обязательно перед гласной и факультативно перед согласной и # (пауза, диэрема).

Если встречаются две скобки:

-sI(n)-(n)Xy >-$1п-Хц

^1(п)-(Х)п >^1-п

Т.е. прояснение или опущение буквы в скобках отсчитывается слева направо.

Если внутри одной клетки стоят несколько аффиксов, то это варианты аффиксов с невыясненными позициями появления, т.е. считающиеся свободными вариантами.

Таблица l

Модель древнетюркской словоформы и набор древнетюркских словоизменительных аффиксов

0 l 2 З 4 5 б 7 s 9 lO ll l2 1З 14 15

№ A p о Casel C о g. Case2 C о 3.

№ п/п S Neg Tense/ Mood Numj Poss¡ Simple declension Possessive declension At Num2 P о и 2 Apos2 Simple declension Possessive declension At 2? Person

l. Neg Neg.Indir Pl - Possl.sg Apos Gen - Gen - Atr Com Pl - Possl.sg Apos Gen - Gen - Atr Com l.sg -

-mA -mA.dUk lAr -(X)m -lI (n)Xy Gen -nXy Gen -nXg Gen -nUy (n)Xij -kI -lXg lAr -(X)m -lI (n)Xrj Gen -nXr Gen -nXg Gen -nUr (n)Xy ю -kI -lXg mAn l.sg -bAn

2. Neg.Sequ -mAtIn Neg.Sequ -mAtI Poss2.sg -Xh Poss2.sg -(X)g Acc -X)g Acc -nl Acc -nI Acc -In Delib -sXz Poss2.sg -(X)y Poss2.sg -(X)g Acc -(X)g Acc -nl Acc -nI Acc -In Delib -sXz 2.sg -sAn

З. Neg.Praes Poss3 - Dat -kA Dat -kA Comp Poss3 - Dat -kA Dat -kA Comp l.pl -bXz

-mAz Neg.Praes (s)I(n-) Dat -gA Dat -gA Dat -A -dAg (s)I(n-) Dat -gA Dat -gA Dat -A -dAg l.pl - mXz

-тЛ.5

4. - тЛс1 Ро8з1 .р1 -Х)тХх Ро881.р1 (и)тШ Ьос -гЛ Ьос -аЛ Ьос -гЛ Ьос -аЛ Эь min -куЛ Эь min -ШЛ Ро881 .р1 -(Х)тХг Ро881.р1 (и)тШ Ьос -гЛ Ьос-аЛ Ьос -гЛ Ьос -аЛ Эь min -куЛ Эь min -кШ 2.р1 -Х 2.р1.Ро1 - 5Хх.Ш

5. [Мк -тИ Ро8з2р1 -Х)уХ2 Ро8з2р1 лы -аы ЛЬ1 -г1п ЛЬ1 -Мп ЛЬ1 -гЛп ЛЬ1 -Шп ЛЬ1 -г1п лы -аЛп ЛЬ1 -гЛп Розз2.р1 -(Х)уХ2 Розз2.р1 -(Х)Х ЛЬ1 -а1п ЛЬ1 -г1п ЛЬ1 -аЛп ЛЬ1 -гЛп ЛЬ1 -а1п ЛЬ1 -г1п ЛЬ1 -аЛп ЛЬ1 -гЛп 3.Р1 -1Лг

б. Беяи -(Х)р Sequ -(Х)р.Лп Ро8з2. р1.Ро1 - Х)Х 1Лг Розз2. р1.Ро1 - Х)Х 1Лг [^1Г - (Х)п - (Х)п Розз2. р1.Ро1 -(Х)Х 1Лг Розз2. р1.Ро1 - (Х)Х 1Лг - (Х)п [шк - (Х)п [шp.1.Sg -(Л)у1п

7. Рег!" -аик Рег!" -гик Equ -сЛ Equ -сЛ Equ -сЛ Equ -сЛ [шp.2.Sg -0 [шр.2^. Ешр^ - Ф [шр.2^. ЕшрИ2 -си

8. -уик Эк -цЛги Diг - еЛги Эк -Лги Diг - еЛги Эк - Ли Эк -Лги [шр.3 - zUn [шр.3 - 5ип [шр.3 - сип

9. [Ргае1 -а Ргае11 -г] Рай -гЛ Раг1 -гЛ Раг1 -гЛ РаЛ -гЛ [шр.1.Р1 -(Л)11т

10. Ргае8-(У)иг Ргае8 -(1)г Ргае8 -Лг Siшi1 - Щи Simi1 - си.щи Siшi1 -Ли Simi1 - сими Simi1 -Щи Siшi1 - сими Simi1 - Щи Simi1 - сими [шр.2.Р1 -(Х)У

11. Р^ у Р^ -кЛу Сошк - Хеи Coшit - Хеи Coшit - Хи Coшit -\Хф [шр.2. Р1.Ро1 - (Х)у.Лг

12. Р^2 -аЛс1 Р^2 -гЛс1 [шр.3.Р1 -2ип.1Лг [шр.3.Р1 -5ип.1Лг [шр.3.Р1 -сип.1Лг

13. РиНш - еЛ-Чг РиНш -кЛ11г Pгaet.1.sg -а.Хт Pгaet.1.sg -г.Хт

14. Щ" -тЛк Pгaet.2.sg -а.Ху Ргае!2^ -а.(Х)е Pгaet.2.sg -г.Ху Pгaet.2.sg -г.(Х)е

15. РгАшрГ - (Х)етЛ Pгaet.3 - Pгaet.3 -г.1

16. РЛЛй - Х)Ф Рте! 1 .р1 -а.ХтХ2 РгаеН .р1 -а.ити

Praet.1 .pl -tXmXz Praet.1 .pl -t.UmUz Praet.1 .pl -dXk Praet.1 .pl -t.Xk

17. PrtHab -gAn PrtHab -kAn Praet.2.pl -d.XyXz Praet.2.pl -d.XgXz Praet.2.pl -t.XrjXz Praet.2.pl -t.XgXz

18. PrtAuct -gUcI Praet.2. pl.Pol - d.XyXz. lAr Praet.2. pl.Pol -dXgXz. lAr Praet.2. pl.Pol -t.XyXz. lAr Praet.2. pl.Pol -t.XgXz. lAr

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

19. PrtProsp -sXk Praet.3.pl -d.I.lAr Praet.3.pl -t.I.lAr

20. PrtProj - gU PrtProj - kU

21. PrtNecess -gU.lXk PrtNecess -kU.lXk

22. Conv! - (y)u Conv -A Conv -I

23. Conv2 -(X)yIn

24. ConvFin -gAlI

25. ConvDe-lim -gIncA

26. Cond -sAr Cond -sA

2.3. Правила сандхи 2.3.1. Морфонологические процессы ходящие на границах морфем

Сингармонизм Гласные морфонемы:

Х= ¡,г, и,и 1= ¡, г

и = и,и, Л=а, а

Беглые гласные .

В двусложных нечленимых основах со вто, про- рым узким гласным, отмеченных в словаре как чередующиеся, выбирается редуцированный вид основы при присоединении аффиксов, начинающихся на гласный.

2.3.2. Фонетические процессы, происходящие в словоформе -п + ga =-уа

-и + ga= -па

1. Vorislamische Alttürkische Texte: Elektronisches Corpus // URL: http://vatec2.fkidg1.uni-frankfurt.de/ (дата обращения 23.11.2013).

2. Gleason H. Introduction to descriptive linguistics. -New York: Holt, Rinehart and Winston, 1955. -P. 503.

3. Анализатор для хакасского языка // URL: http://khakas.altaica.ru (дата обращения 23.11.2013).

4. СУБД STARLING // URL: http://starling.rinet.ru/ program (дата обращения 23.11.2013).

5. Древнетюркский словарь. / А.Боровков, В.Неде-ляев, Д.Насилов, Э.Тенишев, А.Щербак. - Л.: «Наука», Ленинградское отделение, 1969. - 677с.

6. Clauson G. An Etymological Dictionary of Pre-Thirteenth-Century Turkish. - Oxford: Clarendon Press, 1972. - P. 1022.

7. Erdal M. A Grammar of Old Turkic. - Leiden: Brill, 2004. - P. 576.

AUTOMATIC MORPHOLOGICAL ANALYSIS FOR CORPORA OF TURKIC LANGUAGES

A.V.Dybo, A.V.Sheymovich

This paper describes the main principles on which the automatic morphological analyzer for Turkic languages operates. Its main components are: a grammatical dictionary; a range model of a word form (including a set of ranges with a series of morphophonological forms of inflectional affixes for each range); a set of compatibility rules for affixes and a two-level set of phonetic rules that constrain the choice of components of a word form. The algorithm of automatic morphological annotation was developed by Ph.Krylov by using StarLing database processing system. The automatic morphological analyzer for the Old-Turkic language is shown below as an example. This research follows the framework of the RAS corporate project with regards to the development of corpora for languages of the Russian Federation, including Turkic minority languages.

Key words: corpus of a language, morphological analysis, morphological parser, inflection, computational model of a word form, StarLing system.

1. Vorislamische Alttürkische Texte: Elektronisches Corpus // URL: http://vatec2.fkidg1.uni-frankfurt.de/ (data obrashhenija 23.11.2013). (In German)

2. Gleason H. Introduction to descriptive linguistics. -New York: Holt, Rinehart and Winston, 1955. -P. 503.

3. Analizator dlja hakasskogo jazyka // URL: http://khakas.altaica.ru (data obrashhenija 23.11.2013). (In Russian)

4. SUBD STARLING // URL: http://starling.rinet.ru/ program (data obrashhenija 23.11.2013).

5. Drevnetjurkskij slovar' / A.Borovkov, V.Nedeljaev, D.Nasilov, Je.Tenishev, A.Shherbak. - L.: «Nauka», Leningradskoe otdelenie, 1969. - 677s. (In Russian)

6. Clauson G. An Etymological Dictionary of Pre-Thirteenth-Century Turkish. - Oxford: Clarendon Press, 1972. - P. 1022.

7. Erdal M. A Grammar of Old Turkic. - Leiden: Brill, 2004. - P. 576.

Дыбо Анна Владимировна - доктор филологических наук, чл.-корр. РАН, зав. Отделом урало-алтайских языков Института языкознания РАН.

125009, Москва, Б.Кисловский пер. 1. E-mail: adybo@mail.ru

Dybo Anna Vladimirovna - Doctor of Philology, RAS corresponding member; The Institute of Linguistics, Russian Academy of Sciences, Chief of the Department of Ural-Altaic languages. 1B.Kislovsky Per, Moscow, 125009. . E-mail: adybo@mail.ru

Шеймович Александра Валерьевна - младший научный сотрудник Отдела урало-алтайских языков Института языкознания РАН.

125009, Россия, Москва, Б.Кисловский пер. 1. E-mail: asheimovich@yandex.ru

Sheymovich Alexandra - The Institute of Linguistics, Russian Academy of Sciences, junior research assistant of the Department of Ural-Altaic languages.

lB.Kislovsky Per, Moscow, 125009. E-mail: asheimovich@yandex.ru

Поступила в редакцию 12.03.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.