Научная статья на тему 'Калмыцкие сказки, записанные Г. Й. Рамстедтом: опыт квантитативного анализа'

Калмыцкие сказки, записанные Г. Й. Рамстедтом: опыт квантитативного анализа Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
265
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Oriental Studies
Scopus
ВАК
Ключевые слова
ФОЛЬКЛОР / СКАЗКА / КАЛМЫЦКИЙ ЯЗЫК / ЧАСТОТНОСТЬ / ЧАСТОТНЫЙ СЛОВАРЬ / КВАНТИТАТИВНАЯ ЛИНГВИСТИКА / КВАНТИТАТИВНЫЙ АНАЛИЗ / Г. Й. РАМСТЕДТ / FOLKLORE / TALE / KALMYK LANGUAGE / FREQUENCY / FREQUENCY DICTIONARY / QUANTITATIVE LINGUISTICS / QUANTITATIVE ANALYSIS / G.J. RAMSTEDT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Куканова В. В., Горяева Б. Б.

Статья посвящена проблеме создания частотных словарей на материале калмыцкого языка. С помощью компьютерных технологий авторами создан частотный список, в котором эксплицированы тексты калмыцких сказок, записанных финским ученым Г. Й. Рамстедтом во время его путешествия в степи Нижнего Поволжья. С помощью методов квантитативного анализа выявлены частотные и нечастотные элементы калмыцкого языка в тексте, которые отбирались по нескольким статистическим показателям: абсолютной частоте словоупотребления, общей частоте, по коэффициентам D и R. Приведенные количественные показатели можно использовать для создания структурно-вероятностной модели языка. Актуальность создания подобной модели несомненна. Частотные списки позволяют определить границы лексической системы языка сказок, которая имеет свое ядро и периферийные поля, а также использовать в прикладных целях: с наиболее частотных единиц, как правило, начинается обучение языку, объясняется каково их значение и как использовать их в речи, что в свою очередь создаст теоретическую базу для распределения лексем по уровням изучения языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Куканова В. В., Горяева Б. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Kalmyk Tales, Recorded by G. J. Ramstedt: Experience of Quantitative Analisys

The article is devoted to the creation of frequency dictionaries on the material of the Kalmyk language. With the help of computer technology, the authors created a frequency list in which they explicated the texts of Kalmyk tales, recorded by Finnish scholar G. J. Ramstedt during his travels in the steppes of the Lower Volga Region. Using the methods of quantitative analysis, frequent and non-frequent elements of the Kalmyk language, collected by several statistical indexes (absolute frequency of word usage, common frequency, the coefficients D and R) were identified in the text. Quantitative indexes can be used to create a structural-probabilistic model of language. The relevance of such model is undeniable. Frequency lists allow you to define the boundaries of the lexical system of fairy tales, which has its own core and peripheral fields, and to use for applied purposes: since teaching begins with the most frequent units and explaining their meaning and how to use them in speech, it will create a theoretical base for the distribution of tokens according to the levels of language learning.

Текст научной работы на тему «Калмыцкие сказки, записанные Г. Й. Рамстедтом: опыт квантитативного анализа»

УДК 81'373+398.21 ББК 81.23+82.3(2Рос=Калм)

КАЛМЫЦКИЕ СКАЗКИ, ЗАПИСАННЫЕ Г. Й. РАМСТЕДТОМ: ОПЫТ КВАНТИТАТИВНОГО АНАЛИЗА*

Kalmyk Tales, Recorded by G. J. Ramstedt: Experience of Quantitative Analisys

В. В. Куканова (V. Kukanova)1, Б. Б. Горяева (B. Goryaeva)2

1 кандидат филологических наук, заведующий отделом теоретической и экспериментальной лингвистики Калмыцкого института гуманитарных исследований РАН (Ph. D. of Philology, Head of Laboratory of Theoretical and Experimental Linguistics at the Kalmyk Institute for Humanities of the RAS). E-mail: [email protected].

2 кандидат филологических наук, старший научный сотрудник отдела фольклора и джангароведения Калмыцкого института гуманитарных исследований РАН (Ph. D. of Philology, Senior Scientist of Folklore and Dzhangar Studies Department at the Kalmyk Institute for Humanities of the RAS). E-mail: [email protected].

Статья посвящена проблеме создания частотных словарей на материале калмыцкого языка. С помощью компьютерных технологий авторами создан частотный список, в котором эксплицированы тексты калмыцких сказок, записанных финским ученым Г. Й. Рамстедтом во время его путешествия в степи Нижнего Поволжья. С помощью методов квантитативного анализа выявлены частотные и нечастотные элементы калмыцкого языка в тексте, которые отбирались по нескольким статистическим показателям: абсолютной частоте словоупотребления, общей частоте, по коэффициентам D и R. Приведенные количественные показатели можно использовать для создания структурно-вероятностной модели языка. Актуальность создания подобной модели несомненна. Частотные списки позволяют определить границы лексической системы языка сказок, которая имеет свое ядро и периферийные поля, а также использовать в прикладных целях: с наиболее частотных единиц, как правило, начинается обучение языку, объясняется каково их значение и как использовать их в речи, что в свою очередь создаст теоретическую базу для распределения лексем по уровням изучения языка.

Ключевые слова: фольклор, сказка, калмыцкий язык, частотность, частотный словарь, квантитативная лингвистика, квантитативный анализ, Г. Й. Рамстедт.

The article is devoted to the creation of frequency dictionaries on the material of the Kalmyk language. With the help of computer technology, the authors created a frequency list in which they explicated the texts of Kalmyk tales, recorded by Finnish scholar G. J. Ramstedt during his travels in the steppes of the Lower Volga Region. Using the methods of quantitative analysis, frequent and non-frequent elements of the Kalmyk language, collected by several statistical indexes (absolute frequency of word usage, common frequency, the coefficients D and R) were identified in the text. Quantitative indexes can be used to create a structural-probabilistic model of language. The relevance of such model is undeniable. Frequency lists allow you to define the boundaries of the lexical system of fairy tales, which has its own core and peripheral fields, and to use for applied purposes: since teaching begins with the most frequent units and explaining their meaning and how to use them in speech, it will create a theoretical base for the distribution of tokens according to the levels of language learning.

Keywords: folklore, tale, the Kalmyk language, frequency, frequency dictionary, quantitative linguistics, quantitative analysis, G.J. Ramstedt.

В последние годы с развитием информационных технологий становится легче и быстрее создавать частотные списки, в которых эксплицирована структурно-вероятностная модель того или иного языка, определенного текста или подборки

текстов определенного жанра или автора. Методы квантитативной лингвистики приобретают все больший интерес среди исследователей, поскольку результаты количественной обработки текстов можно применить в решении не только приклад-

* Статья подготовлена при финансовой поддержке РГНФ, проект № 15-14-08002/а(р) «Фольклорный текст сквозь призму компьютерных технологий (на материале записей калмыцких сказок Г. Рамстедта)».

ных задач, но и фундаментальных теоретических проблем. Частотный словарь «... включает в себя упорядоченный список слов или других языковых единиц (словоформы, словосочетания), которые зарегистрированы составителем в обследованном им тексте, фрагменте текста или корпусе текстов и снабжены данными о частоте их употребления в тексте (речи). С его помощью можно попытаться ответить на вопросы: как много слов в языке (тексте), с какой интенсивностью они используются в речи, какие из них предпочтительнее в той или иной сфере коммуникации у того или иного автора и т. д.» [Долинский 2004: 285].

Создание частотных словарей на материале русского языка имеет уже продолжительную историю, начиная с 1950-х гг. [см.: Лённгрен 1993; Степанова 1976; Частотный словарь ... 1977]. Венцом развития отечественной квантитативной лингвистики, конечно, стал Частотный словарь, основанный на материале Национального корпуса русского языка [Ляшевская, Шаров 2009], который насчитывал на момент работы над словарем 100 млн словоупотреблений1. Именно этот словарь послужил нам примером и ориентиром в работе над созданием нашего Списка.

В данной работе мы рассмотрим результаты квантитативного анализа сказочных текстов, записанных Г.Й. Рамстедтом в начале ХХ в. Во время путешествия в калмыцкие степи исследователь собрал обширный фольклорный материал: 22 сказки, около 100 загадок, 200 пословиц, 40 народных песен. Кроме того, он «записал 20 фонограмм калмыцких мелодий, а также сделал множество фотографических снимков из жизни калмыков» [Отчет ... 1904: 13].

Калмыцкие сказки были изданы в двух частях. Первая часть, состоящая из 154 страниц и содержащая 18 сказок, была издана в 1909 г. [Kalmückische ... 1909]. Вторую часть (с. 155-237) ученый планировал издать на следующий год, но она увидела свет только в 1919 г. и содержала сказки под номерами 19-22 [Kalmückische ... 1919]. Обе части издания калмыцких сказок вышли без предисловия. Г. Й. Рамстедт собирался издать серию книг, посвященных калмыцкому фольклору: сказки, пословицы, поговор-

1 Ср. с частотным словарем под ред. Л. Н. За-сориной, который основан на текстах общим объемом 1 млн словоупотреблений [Частотный словарь ... 1977].

ки, песни и эпические сказания. Он намеревался собрать дополнительный материал по калмыцкому фольклору в последующих своих экспедициях к волжским калмыкам, однако этого не удалось сделать: фольклорные записи увидели свет в разрозненных изданиях (журнальном и книжном вариантах).

Сказки, зафиксированные Г.Й. Рамстед-том, были набраны одним из авторов статьи (А. О. Бутаевой) в фонетической транскрипции, затем автоматически сегментированы на предложения, которые были соотнесены с переводом на немецкий язык (3 192 параллельных блока). Записи были набраны в соответствии с концепцией, принятой разработчиками фольклорного подкорпу-са2 [Куканова, Манджиева, Горяева 2013]. Тексты были переложены Б. Б. Горяевой на современную калмыцкую орфографию с сохранением диалектной лексики.

Главная идея создания частотных списков заключается в том, что наиболее частотная единица является наиболее важной в системе, и в то же время нечастотные элементы свидетельствует о неупотребительности лексической единицы в речи и занимают уникальное место в лексической системе. Они могут содержать следы исторического развития, принадлежать той или иной терминологической системе.

«Верхушки» созданных частотных списков словоформ и лемм приведены ниже в таблицах. Поскольку принят за основу Частотный словарь, основанный на материале Национального корпуса русского языка [Ляшевская, Шаров 2009], мы взяли следующие статистические показатели.

1. Абсолютная частота словоупотребления (2).

2. Ipm (instances per million words), общая частота употребления на миллион слов условного корпуса (4).

3. Ранг (R), который присваивается в зависимости от частоты словоупотребления в текстах. Так, самое частотное слово получает ранг 1, следующее — ранг 2 и т. д. (5).

4. Коэффициент D (введен А. Жюийа-ном) для определения показателя равномерности распределения того или иного слова в различных текстах корпуса в пределах интервала 0-100 (3).

5. Показатель R (%) для определения количества текстов, в которых встретилось слово (6).

2 В рамках Национального корпуса калмыцкого языка (kalmcorpora.ru).

1. «Верхушка» частотного списка словоформ, отсортированного по абсолютной частоте и рангу

Текст Частота Б 1РМ Я Я(%)

1 2 3 4 5 6

гищ 691 82 16655 1 90

болна 526 66 12678 2 59

нег 503 79 12123 3 100

г^эд 394 73 9496 4 100

гинэ 347 71 8363 5 68

авад 331 83 7978 6 100

келв 331 74 7978 6 95

уга 306 75 7375 8 90

кввун 300 69 7230 9 77

ввгэн 298 68 7182 10 72

хойр 267 78 6435 11 95

hарад 254 82 6122 12 86

ирэд 211 84 5085 13 100

кун 200 79 4820 14 90

курэд 183 79 4410 15 72

эн 179 80 4314 16 81

ирнэ 179 70 4314 16 72

эмгнэ 169 79 4073 18 72

бээнэ 147 71 3543 19 77

тер 145 78 3494 20 86

куукэн 145 66 3494 20 63

би 142 73 3422 22 86

hурвн 141 79 3398 23 86

хар 140 69 3374 24 54

авч 132 82 3181 25 86

ик 129 79 3109 26 77

бээдг 129 65 3109 26 54

чигн 125 66 3012 28 68

санщ 124 86 2988 29 90

болад 121 76 2916 30 63

ирв 120 77 2892 31 77

хан 119 68 2868 32 59

йовна 115 74 2771 33 77

келщэнэ 114 73 2747 34 77

йовад 110 76 2651 35 77

курч 108 77 2603 36 90

хаана 107 69 2578 37 68

келэд 100 79 2410 38 77

Самой частотной словоформой в сказках является слово гищ, что не случайно. Если сравнить с данными по частотам в русском языке, то одним из частотных слов является союз что. Однако в калмыцком языке словоформа гищ является грамматическим омонимом и может выступать как соеди-

нительное деепричастие от глагола гих 'говорить' и как союз. Отметим, что в список частотных единиц попали словоформы, которые обозначают речевые действия: гиhэд, гинэ, келв, келщэнэ, келэд. Среди частотных глаголов можно обнаружить глаголы движения: hарад, ирэд/ирв, йовад.

Текст Частота D IPM ABS R ж%)

санщ 124 86 2988 20916 29 90

ирэд 211 84 5085 35595 13 100

авад 331 83 7978 55846 6 100

авч 132 82 3181 22267 25 86

гищ 691 82 16655 116585 1 90

hарад 254 82 6122 42854 12 86

одв 86 81 2072 14504 47 77

амр 22 80 530 3710 216 68

кезэнэ 27 80 650 4550 168 77

эн 179 80 4314 30198 16 81

деер 64 80 1542 10794 61 68

тиигщ 33 80 795 5565 134 72

нег 503 80 12123 84861 3 100

ик 129 79 3109 21763 26 77

курэд 183 79 4410 30870 15 72

эмгнэ 169 79 4073 28511 18 72

hурвн 141 79 3398 23786 23 86

келэд 100 79 2410 16870 38 77

хойр 267 79 6435 45045 11 95

мини 77 79 1855 12985 54 63

кун 200 79 4820 33740 14 90

залу 68 79 1638 11466 57 72

гертэн 63 78 1518 10626 63 77

тер 145 78 3494 24458 20 86

чи 81 78 1952 13664 49 72

hазр 55 78 1325 9275 72 68

бээщ 31 78 747 5229 146 68

курч 108 77 2603 18221 36 90

ирв 120 77 2892 20244 31 77

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

тегэд 81 77 1952 13664 49 72

щирhэд 12 77 289 2023 415 50

бэрщ 33 76 795 5565 134 54

йовад 110 76 2651 18557 35 77

болад 121 76 2916 20412 30 63

2. «Верхушка» частотного списка словоформ, отсортированного по коэффициенту В

хэрщ 13 76 313 2191 379 50

уга 306 75 7375 51625 8 90

орад 89 75 2145 15015 45 81

хот 18 75 433 3031 268 50

юмн 60 75 1446 10122 68 68

алад 53 75 1277 8939 75 72

келв 331 75 7978 55846 6 95

келщ 31 75 747 5229 146 54

болщ 28 74 674 4718 164 54

кеhэд 45 74 1084 7588 92 63

одна 49 74 1181 8267 77 77

hаза 18 74 433 3031 268 54

хэрэд 15 74 361 2527 318 50

г^эд 394 74 9496 66472 4 100

йовна 115 74 2771 19397 33 77

тана 22 74 530 3710 216 50

hарhад 26 74 626 4382 178 50

орщ 34 74 819 5733 129 59

ю 68 74 1638 11466 57 72

би 142 73 3422 23954 22 86

келщэнэ 114 73 2747 19229 34 77

нанд 48 73 1156 8092 81 68

юн 95 73 2289 16023 41 68

тиигхлэ 76 73 1831 12817 55 72

hарна 47 73 1132 7924 86 59

гер 24 72 578 4046 195 54

улан 65 72 1566 10962 60 50

тал 32 72 771 5397 138 50

чамд 22 72 530 3710 216 54

ардаснь 25 72 602 4214 189 54

бээв 60 72 1446 10122 68 63

босад 35 72 843 5901 123 50

ав 29 72 698 4886 154 54

авна 29 72 698 4886 154 54

бичг 42 72 1012 7084 101 54

йовсн 44 72 1060 7420 94 63

бээсн 50 72 1205 8435 76 63

олщ 23 72 554 3878 206 45

гихлэ 32 71 771 5397 138 59

цокад 35 71 843 5901 123 50

менд 43 71 1036 7252 97 54

кевтэн 26 71 626 4382 178 54

унад 13 71 313 2191 379 40

бээнэ 147 71 3543 24801 19 77

дахулад 19 71 457 3199 251 45

ууhад 19 71 457 3199 251 45

йовщ 63 71 1518 10626 63 63

хер 21 71 506 3542 229 40

гинэ 347 71 8363 58541 5 68

мана 43 71 1036 7252 97 68

авн 20 71 482 3374 239 45

ир 28 71 674 4718 164 54

ирщ 36 71 867 6069 115 59

В таблице приведены данные по распределению словоформ относительно друг друга в линейной последовательности. Отсутствует единица, которая занимала бы

стопроцентную позицию по равномерному распределению. Более или менее равномерно распределены указанные в таблице словоформы.

Текст Частота D IPM ABS R Ж%)

нег 503 80 12123 84861 3 100

г^эд 394 74 9496 66472 4 100

авад 331 83 7978 55846 6 100

ирэд 211 84 5085 35595 13 100

келв 331 75 7978 55846 6 95

хойр 267 79 6435 45045 11 95

гищ 691 82 16655 116585 1 90

уга 306 75 7375 51625 8 90

кун 200 79 4820 33740 14 90

санщ 124 86 2988 20916 29 90

курч 108 77 2603 18221 36 90

hарад 254 82 6122 42854 12 86

тер 145 78 3494 24458 20 86

би 142 73 3422 23954 22 86

hурвн 141 79 3398 23786 23 86

авч 132 82 3181 22267 25 86

эн 179 80 4314 30198 16 81

орад 89 75 2145 15015 45 81

hарч 67 67 1614 11298 59 81

кевун 300 69 7230 50610 9 77

бээнэ 147 71 3543 24801 19 77

ик 129 79 3109 21763 26 77

ирв 120 77 2892 20244 31 77

йовна 115 74 2771 19397 33 77

келщэнэ 114 73 2747 19229 34 77

3. «Верхушка» частотного списка словоформ, отсортированного по коэффициенту R

йовад 110 76 2651 18557 35 77

келэд 100 79 2410 16870 38 77

окна 89 71 2145 15015 45 77

одв 86 81 2072 14504 47 77

ода 82 70 1976 13832 48 77

гертэн 63 78 1518 10626 63 77

одна 49 74 1181 8267 77 77

кезэнэ 27 80 650 4550 168 77

ввгэн 298 69 7182 50274 10 72

курэд 183 79 4410 30870 15 72

ирнэ 179 70 4314 30198 16 72

эмгнэ 169 79 4073 28511 18 72

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

чи 81 78 1952 13664 49 72

тегэд 81 77 1952 13664 49 72

тиигхлэ 76 73 1831 12817 55 72

залу 68 79 1638 11466 57 72

ю 68 74 1638 11466 57 72

алад 53 75 1277 8939 75 72

тиигщ 33 80 795 5565 134 72

Данный показатель Я (так называемая покрываемость текста лексической единицей) указывает на то, насколько часто та или иная единица используется в разных текстах. Возьмем, к примеру, словоформы

нег, гиhэд, авад, ирэд, которые используются во всех 22 текстах сказок, что свидетельствует о том, что данные единицы носят универсальный характер.

4. «Верхушка» частотного списка лемм, отсортированного по абсолютной частоте словоупотребления

Я Текст Частота

1 гих 1672

2 болх 985

3 келх 847

4 ирх 757

5 авх 676

6 йовх 593

7 негн 540

8 hарх 473

9 бээх 395

10 кввун 368

11 би 340

12 уга 336

13 хан 325

14 курх 317

15 хойр 317

16 ввгн 578

17 кун 313

18 одх 288

19 бээх 264

20 вгх 218

21 эмгн 213

22 орх 208

23 куукн 204

24 тер 192

25 hурвн 187

26 юн 174

27 эн 172

28 окх 166

29 чи 161

30 кех 153

31 эмгн 149

33 алх 148

34 хар 140

35 сурх 135

36 ик 131

37 идх 130

38 чигн 125

39 махн 120

40 куукн 116

41 hазр 110

42 ах 102

43 юмн 102

Как и в русском языке, самыми частотными единицами в калмыцких сказках является речевой глагол гих 'говорить' (1672), полузнаменательный глагол болх 'становиться' (985), речевой глагол келх 'говорить, сказать' (757), глаголы движения ирх 'прийти' (757) и йовх 'идти', авх 'брать' (676). Среди существительных можно выделить ввгн 'старик' (578), кввYн 'мальчик' (368), хан 'хан' (325) и др.

Таким образом, приведенные количественные показатели можно использовать для создания структурно-вероятностной модели языка сказочных текстов, записанных Г. Й. Рамстедтом. Актуальность создания подобной модели несомненна. Во-первых, частотные списки позволяют определить границы лексической системы языка сказок, которая имеет свое ядро и периферийные поля (т. е. частотные и нечастотные элементы). В аспекте практической значимости создание частотных списков можно использовать в прикладных целях: с наиболее частотных единиц, как правило, начинается обучение языку, объясняется, каково их значение и как использовать их в речи, что в свою очередь создаст теоретическую базу для распределения лексем по уровням изучения языка.

Литература

Долинский В. А. Квантитативная лингвистика в исследовании текста // Алфавит: Строение

повествовательного текста. Синтагматика. Парадигматика. Смоленск: СГПУ, 2004. С. 283-324.

Куканова В. В., Манджиева Б. Б., Горяева Б. Б. Оцифровка фольклорных произведений: вызовы и решения //Известия Высших учебных заведений. Северо-Кавказский регион. 2013. № 6. С. 123-129.

Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009. 1112 с.

Лённгрен Л. (ред.). Частотный словарь современного русского языка [Lönngren, Lennart. The Frequency Dictionary of Modern Russian. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Uppsala, 1993.188 с.

Отчет д-ра Г.Й. Рамстедта за 1903 год // Известия Русского комитета для изучения Средней и Восточной Азии. 1904. №2. С. 11-14

Степанова Е. М. Частотный словарь общенаучной лексики. М.: Просвещение, 1976. 87 с.

Частотный словарь русского языка / под ред. Л. Н. Засориной. М.: Русский язык, 1977. 936 с.

Kalmückische Sprachproben. Gesammelt und herausgegeben von G. J. Ramstedt. Erster Teil. Kalmückische Märchen. - Helsingfors: Societe Finno-Ougrienne, 1909. 154 s.

Kalmückische Sprachproben. Gesammelt und herausgegeben von G. J. Ramstedt. Zweiter Teil. Kalmuckische Märchen. Helsingfors: Societe Finno-Ougrienne, 1919. S. 155-237.

i Надоели баннеры? Вы всегда можете отключить рекламу.