УДК 811.161.3'371
ПАРАМЕТРИЧЕСКАЯ СТРАТИФИКАЦИЯ БЕЛОРУССКОЙ ЛЕКСИКИ
И. А. Меркулова
Воронежский государственный университет
Поступила в редакцию 12 января 2014 г.
Аннотация: статья посвящена выявлению наиболее значимых элементов лексико-семантической системы белорусского языка по четырем параметрам: частотность, многозначность, синтагматическая и синонимическая активность. Анализ основывается на комплексе лексикографических источников. В результате слияния полученных множеств слов определяется лексико-семантическое ядро белорусского языка.
Ключевые слова: белорусский язык, лексика, лексикография, параметрический анализ, лексико-семанти-ческое ядро.
Annotation: the paper discusses the most important elements of the' Belorussian lexico-semantic system. The elements are chosen accorrding to four parameters: frequency, polysemy, syntagmatic and synonymic index. The analysis is based on the system of lexicographical sources. As a result the lexico-semantic core of the Belorussian vocabulary is derived.
Key words: Belorussian language, vocabulary, lexicography, parametric analysis, lexico-semantic core.
Системное описание лексики какого-либо языка - сложная и трудоемкая задача. Как правило, исследователя пугает многочисленность лексических единиц и сложность типов связей и отношений между ними. Именно поэтому большинство работ связано с описанием фрагментов системы (например, семантических полей, тематических групп, концептов, гнезд). Целостное же описание стало возможным благодаря использованию методики параметрического анализа. Данная методика была разработана профессором В. Т. Титовым на материале двуязычных словарей романских языков [1; 2] и апробирована на материале разных языков. Результаты этих исследований не раз излагались на страницах журнала «Вестник Воронежского государственного университета. Серия: Лингвистика и межкультурная коммуникация» [см., например: 3-6].
Цель нашего исследования - параметризация лексики белорусского языка с использованием словарей разного типа. Именно такой подход, на наш взгляд, может способствовать более корректному выделению ядра лексико-семантической системы.
Как известно, стратификация (от лат. stratum -слой) означает дифференциацию множества объектов на группы (слои, уровни) по сходным признакам. Этот способ представляется удобным при анализе многочленных и неоднородных систем, к которым можно отнести лексическую систему языка.
Стратификация в лексике предполагает выделение нескольких множеств лексических единиц в соответствии с системными лексическими параметра-
© Меркулова И. А., 2014
ми: функциональным, синтагматическим, эпидигма-тическим, парадигматическим.
Согласно статистическим закономерностям, действующим в лексике, функциональный вес слова находится в обратной зависимости от его длины, т.е. чем короче слово, тем больше его функциональный вес.
Объектом нашего исследования послужил двуязычный белорусско-русский словарь С. М. Грабчи-кова [7], который был переведен в электронную форму и превращен в базу данных.
Табл. 1 содержит информацию о функциональном параметре распределения белорусских слов, а также о количестве слов, имеющих определенную длину в буквах. Столбец «Накопленное» полезен тем, что позволяет увидеть границу между ядром и периферией. Как только значение в этом столбце превысит 1000, можно проводить границу между ядром и периферией. Столбец «Функциональный вес» отражает вес ранга частоты в порядке возрастания длины слова. Он получен путем деления разности суммы единиц всех рангов и накопленной суммы единиц от первого до данного ранга на сумму единиц всех рангов.
Первую позицию (2 слова длиной в 1 букву и звук) занимают союз а и предлог з, но для описания лексики они не играют важной роли, так как лишены лексической семантики. Среди полнозначных слов, находящихся в «верхушке», отметим ёд 'йод', юр 'похоть, сладострастие', яд 'яд', яр 'овраг, балка', баль 'бал', бэз 'сирень', бог 'бог', бок 'бок', вар 'кипяток', вось 'ось', вуж 'уж', газ 'газ', гад 'гад, змея', гар 'гарь', гуд 'гудение', гуз 'шишка, нарост', гук1 'звук', гук2 'отросток (на дереве)', гусь 'гусь', дах
Т а б л и ц а 1
Функциональная стратификация белорусской лексики
Количество букв Количество слов Накопленное Функциональный вес*
1 2 2 0,99985
2 13 15 0,99887
3 112 127 0,99044
4 364 491 0,96305
5 1058 1549 0,88343
6 1575 3124 0,76490
7 2092 5216 0,60747
8 2116 7332 0,44822
9 1954 9286 0,30117
10 1549 10835 0,18460
11 1059 11894 0,10491
12 660 12554 0,05524
13 382 12936 0,02649
14 208 13144 0,01084
15 93 13237 0,00384
16 30 13267 0,00158
17 14 13281 0,00053
18 4 13285 0,00023
19 1 13286 0,00015
20 2 13288 0,00000
'крыша, кровля', дно 'дно', дол 'низ, земля', дом 'дом', дур 'дурь', ежа 'пища', енк 'стон', ёсць 'есть', жар 'жар', жах 'ужас', жур 'кисель', зуб 'зуб', золь 'сырость, слякоть', зух 'ухарь, хват', кгй 'палка', кгт2 'замазка', кгт1 'кит', кат 'палач', конь 'конь, лошадь', кош 'корзина', кут 'угол', лж 'число', лад1 'строй, устройство', лад2 'наклонение', лёк 'рассол', лёс1 'судьба', лёс 'лёсс', лой 'жир', лыч 'рыло', мех 'мешок', моц 'мощь, сила, крепость', мур 'каменная стена', ток 'ток', нуль 'ноль', нюх 'обоняние', пан 'помещик', пах 'запах', пыл 'пыль', рад 'ряд', рад 'радый, рад',ржа 'ржавчина',рог1 'рог',рог2 'угол', рэй 'тон',рэч 'вещь', сок 'сок', сум 'скука', суд 'суд', сып 'сыпь', уюк 'вьюк', фае 'фойе', ход 'ход', хгб 'щетина', цень 'тень', цот 'чет', цуд 'чудо', чос 'перец, острота', чуць 'слышать', шаль 'шаль', шал 'бешенство', шво 'шов', шыя 'шея', юда 'иуда', юха 'кровь', ява 'явь', яда 'пища'.
Что касается слов, имеющих наибольшую длину в 20 букв, их два - гнтэрнацыяналгстычны 'интерна-
* Здесь и далее в таблицах: Ф-вес - функциональный вес, С-вес - синтагматический вес, Э-вес - эпидигматический вес, П-вес - парадигматический вес.
ционалистический' и параунальна-ггстарычны 'сравнительно-исторический'.
Максимальное количество слов (2116) имеют длину в 8 букв.
Интересующий нас корпус слов - функциональное ядро белорусской лексики - таким образом, будет включать также слова длиной от 2 до 5 букв и составит 1549 единицы.
Величина расхождения длины слова в буквах и звуках определяется путем вычисления Коэффициента совершенства орфографии (КоСОг). Для этого мы взяли контрольное множество в 500 слов и получили суммарную длину этих слов в звуках (ДЗсум) и буквах (ДБсум). Коэффициент совершенства орфографии вычисляется по формуле: КоСОг = ДЗсум : ДБсум.
Для контрольного множества в 500 белорусских слов КоСОг оказался равен 0,95 (3501 : 3698). Это означает, что разница длины в звуках и буквах не принципиальная, и для определения функционального веса слов можно использовать длину в буквах.
Оценка синтагматического веса белорусских слов осуществлялась стандартным способом - посредством подсчета фразеосочетаний.
В качестве объекта сначала выступил «Белорусско-русский словарь» под редакцией академика К. К. Крапивы [8], затем данные были дополнены двухтомным словарем фразеологизмов И. Я. Лепеше-ва [9]. Отметим, что словари не имеют содержательных расхождений в определении «верхушки» синтагматического ядра лексики. Например, по двуязычному словарю наибольший синтагматический вес имеет лексема рука (76 фразеологизмов), а по фразеологическому словарю она перемещается на второе место (210 фразеологизмов), уступая место лексеме вока (226 фразеологизмов). При этом общий состав синтагматического ядра практически не меняется, а его размер составляют 1197 слов. В табл. 2 приводятся данные по фразеологическому словарю.
Примеры синтагматически нагруженных слов: вока 'глаз' (226), рука 'рука' (210), галава 'голова' (201), даваць 'давать' (161), адзгн 'один' (146), свой 'свой' (145), душа 'душа' (128), нага 'нога' (123), бог 'бог' (109), язык 'язык' (104), свет 'свет' (98), сэрца 'сердце' (93), чорт 'черт' (91), браць 'брать' (88), нос 'нос' (79), вуха 'ухо' (78), узяць 'взять' (74), слова 'слово' (69), зуб 'зуб' (57), вада 'вода' (54), плячо 'плечо' (53), бок 'бок' (48), месца 'место' (48), пайс-цг 'пойти' (47), зямля 'земля' (46), кроу 'кров' (46), ведаць 'знать' (45), канец 'конец' (43), паказаць 'показать' (43), быць 'быть' (42), дарога 'дорога' (42), дух 'дух' (40). Заметим, что особенностью словаря фразеологизмов является распределение фразеосо-четаний по словоформам. Например, 226 фразеологизмов лексемы 'вока'' (глаз, орган зрения) склады-
Т а б л и ц а 2
Синтагматическая стратификация белорусской лексики
Количество фразео- Количество слов Накопленное Синтагматический вес Количество фразео- Количество слов Накопленное Синтагматический вес
сочетаний сочетаний
226 1 1 0,99973 35 1 49 0,98693
210 1 2 0,99947 34 4 53 0,98586
201 1 3 0,99920 33 4 57 0,98480
161 1 4 0,99893 32 3 60 0,98400
146 1 5 0,99867 31 2 62 0,98346
145 1 6 0,99840 30 1 63 0,98320
128 1 7 0,99813 29 3 66 0,98240
123 1 8 0,99787 28 3 69 0,98160
109 1 9 0,99760 27 5 74 0,98026
104 1 10 0,99733 26 2 76 0,97973
101 1 11 0,99707 25 4 80 0,97866
98 1 12 0,99680 24 4 84 0,97759
93 1 13 0,99653 23 1 85 0,97733
91 1 14 0,99627 22 6 91 0,97573
88 1 15 0,99600 21 5 96 0,97439
83 17 0,99547 20 10 106 0,97173
79 1 18 0,99520 19 9 115 0,96933
78 1 19 0,99493 18 11 126 0,96639
74 21 0,99440 17 12 138 0,96319
69 1 22 0,99413 16 15 153 0,95919
57 1 23 0,99387 15 9 162 0,95679
54 1 24 0,99360 14 15 177 0,95279
53 1 25 0,99333 13 19 196 0,94772
48 2 27 0,99280 12 24 220 0,94132
53 2 29 0,99226 11 30 250 0,93332
48 2 31 0,99173 10 37 287 0,92345
47 2 33 0,99120 9 45 332 0,91144
46 2 35 0,99066 8 37 369 0,90157
45 1 36 0,99040 7 75 444 0,88157
43 2 38 0,98986 6 104 548 0,85383
42 2 40 0,98933 5 128 676 0,81969
40 1 41 0,98906 4 215 891 0,76234
39 1 42 0,98880 3 306 1197 0,68071
38 3 45 0,98800 2 700 1897 0,49400
37 1 46 0,98773 1 1852 3749 0,00000
36 2 48 0,98720
ваются из примеров фразеологизмов, включающих формы вока, вокам, вот, вочы, вачам, вачамi, вачэй, вачах, вачыма.
Третий параметр характеристики лексики - парадигматический.
Материал для белорусского языка был получен на основе «Белорусско-русского словаря» под редакцией К. К. Крапивы с привлечением одноязычного словаря синонимов белорусского языка М. К. Клыш-ки [10].
Для белорусского языка максимальный парадигматический вес имеет значение 'говорить' (55 синонимов): гаварыць, казаць, гаматць, мармытаць, муркаць, гугнець, гутарыць, размауляць, субяседнг-
чаць, багць, балбатаць, балабонгць, лепятаць, лапа-таць, ляпаць, пляскаць, бурчаць, плявузгаць, вякаць, чаупцг, вярзцг, красамоутчаць, зюзюкаць, дудукаць, тарабарыць, балакаць, сакрэтнгчаць, гергетаць, гуторыць, талкаваць, дзейкаць, выступаць, спяваць, трашчаць, барабатць, бубтць, трубгць, гусцг, рэзаць, сыпаць, плесцг, несцг, гарадзгць, малоць, брахаць, гаукаць, перакгдвацца словами, звангць ва усе званы, распускаць язык, часаць язык, мазолгць язык, трапаць языком, пералгваць з пустога у парожняе, тачыць лясы, разводзщь балачкг.
На втором месте ряд со значением 'хороший' (53 синонима): добры, нядрэнны, някепскг, высакая-касны, здатны, дасканалы, удалы, станоучы, слауны,
Т а б л и ц а 3
Парадигматическое ядро белорусской лексики
Количество Количество Накоп- Парадигмати-
слов синонимов ленное ческой вес
55 1 1 0,99965
53 1 2 0,99930
50 1 3 0,99895
45 1 4 0,99861
42 1 5 0,99826
40 1 6 0,99791
37 1 7 0,99756
36 1 8 0,99721
34 1 9 0,99686
33 1 10 0,99651
30 1 11 0,99616
29 1 12 0,99582
28 1 13 0,99547
26 1 14 0,99512
24 1 15 0,99477
23 2 17 0,99407
22 7 24 0,99163
21 6 30 0,98954
20 3 33 0,98849
19 2 35 0,98780
18 3 38 0,98675
17 7 45 0,98431
16 10 55 0,98082
15 10 65 0,97734
14 13 78 0,97280
13 12 90 0,96862
12 17 107 0,96269
11 30 137 0,95223
10 22 159 0,94456
9 40 199 0,93061
8 48 247 0,91388
7 60 307 0,89296
6 79 386 0,86541
5 123 509 0,82252
4 198 707 0,75349
3 319 1026 0,64226
2 602 1628 0,43236
спрауны, варты, адмысловы, адборны, адменны, узорны, прыкладны, бездакорны, беззаганны, зайз-дросны, цудоуны, гдэальны, прыстойны, людскг, хвацкг, ладны, першакласны, першагатунковы, стоп-рацэнтны, запраускг, не абы-якг, дыхтоуны, файны, непауторны, сапраудны, непараунальны, незраунаны, майстэрскг, класны, першы, царскг, анельскг, блгскучы, крыштальны, залаты, рэдкг, што трэба, на пяць, на славуяк, на падбор, як на заказ, хоць на выстауку, хоць куды, будзь здароу.
Третью позицию занимает ряд со значением 'ударит' (50 синонимов): выцяць, вытнуць, адарыць,
стукнуць, сцебануць, зхвастануць, хвасянуць, ляснуць, убрыкнуць, спляжыць, грукнуць, бэцнуць, трахнуць, гакнуць, ахнуць, трэснуць, дзеубануць, заехаць, зма-заць, уляпгць, урэзаць, агрэць, смальнуць, жарнуць, тузануць, улупгць, свгснуць, сунуць, садануць, рвазда-нуць, гвазнуць, звездануць, джвугнуць, пацягнуць, паласнуць, шлёгнуць, шлёпнуць, шлягнуць, сперазаць, шмаргануць, хлестануць, хлыснуць, джагнуць, апля-вушыць, грунуць, збабоучыць, кашкануць, пачастваць, секануць, пекануць.
Далее по убыванию следуют семемы плохой, негодяй, обман, умереть, беда, бить, большой, повозка, слабый, ослабеть, идти, кусок, еда, понять, убить, дурак, недостаток, смерть, дыра.
Таким образом, парадигматическое ядро будут составлять 1026 рядов, размерность которых возрастает начиная от 3 синонимов.
Наконец, последний параметр - эпидигматиче-ский.
Данные о многозначности белорусских слов были получены по толковому словарю белорусского языка [11]. Распределение слов в белорусском словаре в зависимости от числа значений представлено в табл. 4.
Т а б л и ц а 4
Эпидигматическая стратификация белорусской лексики
Количество Количество Накоп- Эпидигмати-
значений слов ленное ческий вес
27 1 1 0,99998
17 1 2 0,99997
16 4 6 0,99991
14 3 9 0,99986
13 8 17 0,99974
12 8 25 0,99962
11 17 42 0,99935
10 11 53 0,99918
9 28 81 0,99875
8 36 117 0,99820
7 78 195 0,99700
6 159 354 0,99455
5 351 705 0,98915
4 885 1590 0,97554
3 2301 3891 0,94014
2 8045 11936 0,81637
1 53064 65000 0,00000
Как мы видим, большинство слов в белорусском языке имеет одно значение. Для выявления ядра по данному параметру необходимо выбрать 1590 слов с количеством значений от 4 значений и больше.
«Лидером» по эпидигматическому параметру является глагол гсцг 'идти' с 27 значениями. В первом десятке самых многозначных слов оказываются также прыняць 'принять' - 17 значений; добры 'добрый',
прайсцг 'пройти', ставгць 'ставить', цягнуць 'тянуть' - по 16 значений; бгць 'бить', хадзгць 'ходить', чорны 'черный' - по 14 значений; адбгць 'отбить', браць 'брать', гарэць 'гореть', сабраць 'собрать', стаць 'стать', стаяць 'стоять', узняць 'поднять', цяжкг 'тяжелый' - по 13 значений; зняць 'снять', лезцг 'лезть', насгць 'носить', падняць 'поднять', правесцг 'провести', спусцгць 'спустить', трымаць 'держать', ход 'ход' - по 12 значений.
В результате слияния частнопараметрических ядер (ЧПЯ) мы получаем четыре множества слов:
1) слова, вошедшие во все четыре ядра - это малое параметрическое ядро лексики с максимально богатыми системными связями (их параметрический вес более 3); 2) слова, вошедшие в три ЧПЯ, относятся к большому параметрическому ядру лексики (их параметрический вес более 2); 3) слова, вошедшие в два ЧПЯ, относятся к периферии большого параметрического ядра; 4) слова, вошедшие в одно ЧПЯ в силу их малого веса, не представляют интереса для исследования. Фрагмент малого параметрического ядра приводится в табл. 5.
Т а б л и ц а 5
Малое лексико-семантическое ядро белорусского языка (фрагмент)
Слово Значение Ф-вес С-вес Э-вес П-вес Е-вес
бшь бить; стучать; течь 0,9999 0,9982 0,9968 0,9843 3,9792
бок бок; особенность; направление 0,9991 0,9904 0,9982 0,9891 3,9767
ющ идти; двигаться; проходить; делаться, происходить 0,9999 0,9959 0,9969 0,9807 3,9735
вада вода; недостаток 0,9968 0,9954 0,9984 0,9776 3,9681
браць брать 0,9997 0,9929 0,9989 0,9748 3,9663
душа душа; сущность; характер 0,9941 0,9874 0,9995 0,9753 3,9563
ход ход; способ; движение; походка 0,9996 0,9891 0,9914 0,9741 3,9542
даць дать; ударить 0,9991 0,9999 0,9612 0,9931 3,9533
быць быть; находиться 0,9735 0,9851 0,9976 0,9953 3,9515
дух дух; сущность; теплота; запах; настроение; дыхание 0,9968 0,9874 0,9975 0,9688 3,9505
малы малый; маленький 0,9941 0,9874 0,9914 0,9731 3,9460
узяць взять; приобрести; жениться; сдвинуться 0,9735 0,9959 0,9986 0,9779 3,9459
хлеб хлеб; еда 0,9735 0,9986 0,9955 0,9758 3,9434
час час; время 0,9981 0,9566 0,9898 0,9939 3,9383
добры добрый; хороший 0,9999 0,9997 0,9914 0,9387 3,9298
гара гора; холм; препятствие; куча; чердак 0,9883 0,9824 0,9864 0,9704 3,9274
цень тень; грусть; призрак; подозрение 0,9941 0,9956 0,9737 0,9638 3,9272
несщ нести; говорить; пахнуть 0,9987 0,9994 0,9947 0,9313 3,9239
дзень день; время; сутки 0,9883 0,9566 0,9971 0,9802 3,9221
чорны черный; скучный; несчастный 0,9999 0,9981 0,9898 0,9335 3,9212
шлях путь; дорога; способ 0,9883 0,9891 0,9685 0,9740 3,9199
гарэць гореть; блестеть; болеть 0,9997 0,9974 0,9934 0,9261 3,9166
есщ есть, кушать 0,9941 0,9959 0,9877 0,9338 3,9115
брат брат; друг 0,9735 0,9797 0,9821 0,9748 3,9101
воля воля; свобода 0,9981 0,9705 0,9794 0,9619 3,9098
белы белый; бледный; седой; чистый 0,9735 0,9652 0,9907 0,9757 3,9051
ляжаць лежать; болеть; находиться 0,9941 0,9891 0,9846 0,9355 3,9034
1мя имя, название 0,9941 0,9874 0,9367 0,9846 3,9029
план план; намерение 0,9968 0,9824 0,9522 0,9698 3,9011
жыць жить 0,9987 0,9186 0,9821 0,9932 3,8925
Применение метода параметрического анализа дает возможность судить о состоянии лексико-семан-тической системы белорусского языка на сегодняшний день, ее доминанте (слове с максимальным параметрическим весом), малом (170 слов) и большом (554 слова) ядре и периферии.
Доминантой белорусского словаря, согласно проведенному исследованию, является глагол бщь - бить, ударять, течь; вице-доминантой - существительное бок - бок, особенность, направление; на третьем месте глагол кщ - идти, происходить.
Какую же ценность представляет полученная количественная информация?
Как справедливо замечает Ю. А. Тулдава, «... квантитативное исследование языковых явлений, особенно в сочетании с системным подходом, не просто внешнее дополнение качественного анализа, а нечто большее, так как именно таким путем возможно более глубокое познание лингвистического объекта в его качественной определенности» [12].
Ядро лексико-семантической системы белорусского языка - это тот необходимый и достаточный лексический минимум, отобранный, заметим, не случайным образом, а по системному весу лексем, далее можно использоваться в сопоставительных и типологических исследованиях. Кроме того, в полученных результатах заложен потенциал оптимизации преподавания лексики.
ЛИТЕРАТУРА
1. Титов В. Т. Общая квантитативная лексикология романских языков / В. Т. Титов. - Воронеж : Изд-во ВГУ 2002.
2. Титов В. Т. Частная квантитативная лексикология романских языков / В. Т. Титов. - Воронеж : Изд-во ВГУ, 2004.
Воронежский государственный университет
Меркулова И. А., кандидат филологических наук, доцент кафедры теоретической и прикладной лингвистики
E-mail: [email protected]
Тел.: 220-41-49
3. Воевудская О. М. Параметрические характеристики английской лексики / О. М. Воевудская // Вестник Воронеж. гос. ун-та. Сер.: Лингвистика и межкультурная коммуникация. - 2012. - № 2. - С. 94-100.
4. Долбилова Е. В. Параметрический анализ каталанской лексики / Е. В. Долбилова // Вестник Воронеж. гос. ун-та. Сер.: Лингвистика и межкультурная коммуникация. - 2010. - № 1. - С. 13-21.
5. Кретов А. А. Параметрический анализ лексики балканских языков (квантитативный аспект) / А. А. Кретов, В. Т. Титов, М. В. Катов // Вестник Воронеж. гос. ун-та. Сер.: Лингвистика и межкультурная коммуникация. - 2013. - № 2. - С. 7-16.
6. Меркулова И. А. Лексическое ядро словацкого языка по данным словарей / И. А. Меркулова // Вестник Воронеж. гос. ун-та. Сер.: Лингвистика и межкультурная коммуникация. - 2013. - № 1. - С. 115-120.
7. Грабчиков С. М. Белорусско-русский словарь / С. М. Грабчиков ; под ред. А. Е. Баханькова. - 2-е изд., перераб. - Минск : Нар. асвета, 1975.
8. Белорусско-русский словарь : около 90 000 слов / под ред. К. К. Крапивы. - М. : Изд-во иностранных и национальных словарей, 1962.
9. Лепешау I. Я. Слоушк фразеалапзмау : у 2 т. / I. Я. Лепешау. - Мшск : Беларус. энцыклапедыя 1мя П. Броуш, 2008.
10. КлышкаМ. К. Слоушк сшошмау i бл1зказначных слоу / аут.-склад. М. К. Клышка. - Минск : Радыёла-плюс, 2005.
11. Тлумачальны слоушк беларускай мовы : больш за 65 000 слоу / пад рэд. М. Р. Судшка, М. Н. Крыуко, 1996.
12. ТулдаваЮ. А. Проблемы и методы квантитативно-системного исследования лексики / Ю. А. Тулдава. - Таллин : Валгус, 1987.
Voronezh State University
Merkulova I. A., Candidate of Philology, Associate Professor of the Theoretical and Applied Linguistics Department
E-mail: [email protected]
Tel.: 220-41-49