УДК 811.134.1’371
ПАРАМЕТРИЧЕСКИМ АНАЛИЗ КАТАЛАНСКОЙ ЛЕКСИКИ
Е. В. Долбилова Воронежский государственный университет Поступила в редакцию 1 сентября 2009 г.
Аннотация: исследуются квантитативные характеристики каталанской лексики. По данным каталанско-русского словаря выявляется параметрическое ядро каталанской лексики и определяется системный вес каждого из входящих в это ядро слов.
Ключевые слова: квантитативная лингвистика, параметрический анализ, лексика, ядро словаря.
Abstract: the article presents quantitative characteristics of Catalan vocabulary. The research is based on the Catalan-Russian dictionary from which parametric core of the Catalan vocabulary is extracted and systemic weight for every core word is counted.
Key words: quantitative linguistics, parametric analysis, vocabulary, lexical core.
Данное исследование является применением параметрического анализа, разработанного В. Т. Титовым [1, 2], к материалу каталанской лексики. Цель данной статьи - выявить ядро каталанской лексикосемантической системы и определить системный вес каждой из входящих в это ядро единиц.
Существенными для лексико-семантической системы признаются четыре параметра: 1) функциональный (длина слова); 2) эпидигматический (количество значений); 3) синтагматический (количество фразеологизмов); 4) парадигматический (максимальный размер синонимического ряда, в который входит данное слово).
Объектом исследования является каталанско-русский словарь [3], электронная версия которого была
превращена в базу данных, послужившую затем источником необходимой информации.
Функциональный параметр
Одной из важнейших характеристик словаря является длина слова, так как употребительность слова, в общем случае, обратно пропорциональна его длине. Для того чтобы выделить наиболее употребительную лексику в языке, нужно взять те полнозначные слова, длина которых наименьшая. Как указывает В. Т. Титов, функциональное ядро, как и остальные квантитативные ядра, должно быть максимально близко к 1000 или незначительно превосходить эту величину. Распределения каталанских слов по длине показано на рис. 1.
Рис. 1. Распределение каталанской лексики по длине
© Долбилова Е. В., 2010
Длина (в буквах)
Рис. 2. Распределение лексики по функциональному весу в каталанско-русском словаре
Медианой распределения каталанских слов по длине является 8-типичная длина каталанского слова (в буквах). Интересующий нас корпус слов характеризуется длиной в 2-4 буквы. Таким образом, получено функциональное ядро каталанской лексики размером 1349 слов.
Примеры каталанских слов длиной в 2 буквы: ах 0,993 туз; аи 0,993 птица; Ье 0,993 овца; Ьё 0,993 добро, польза; Ьо 993 хороший; са 0,993 собака, пёс; йо 0,993 даяние, пожертвование, дар, подаяние; /е 0,993 вера; fi 0,993 конец; fi 0,993 мелкий; іо 0,993 ион; та 0,993 моя; та 0,993 рука; по 0,993 нет; пи 0,993 голый,раздетый, обнаженный, нагой; от 0,993 вяз; ог 0,993 золото; ох 0,993 кость; ох 0,993медведь; ои 0,993 яйцо; ра 0,993 хлеб; рі 0,993 сосна; хі 0,993 впадина, углубление, выемка; хо 0,993 звук; іе 0,993 чай; іо 0,993 тон, лад; их 0,993 пользование, употребление, применение; гі 0,993 вино; ха 0,993 шах.
Далее мы определили отношение количества слов определенной длины к их параметрическому весу, что позволило построить диаграмму (рис. 2).
Синтагматический параметр
Как отмечает В. Т. Титов, синтагматическая активность слов важна не сама по себе, а как показатель широты и простоты их семантики, отличающий корневые, непроизводные слова от производных [1]. В словаре синтагматическая активность слов находит свое проявление в наличии у них фразеологизмов, указываемых за ромбом. Наличие заромбовой части у слова уже выделяет его как синтагматически активное.
Для решения этой задачи мы извлекли заромбо-вые части словарных статей из электронного словаря каталанского языка и представили полученный материал в виде табл. 1
Т а б л и ц а 1
Распределение каталанской лексики по наличию фразеологизмов
ФС Слов Накопл. С-вес
42 1 1 0,9999
40 1 2 0,9999
30 1 3 0,9998
29 1 4 0,9998
28 1 5 0,9997
27 1 6 0,9996
26 1 7 0,9996
24 2 9 0,9995
22 2 11 0,9993
21 2 13 0,9992
20 1 14 0,9992
17 7 21 0,9987
16 4 25 0,9985
15 5 30 0,9982
14 7 37 0,9978
13 8 45 0,9973
12 8 53 0,9968
11 9 62 0,9962
10 12 74 0,9955
9 21 95 0,9943
8 23 118 0,9929
7 36 154 0,9907
6 55 209 0,9874
5 71 280 0,9831
4 111 391 0,9763
3 206 597 0,9639
2 399 996 0,9397
1 1090 2086 0,8738
0 14441 16527 0,0000
Ранги значений (от 0 до 42)
Рис. 3. Распределение каталанской лексики по числу фразеологизмов
Приведем примеры слов, обладающих максимальной синтагматической активностью: mà рука 42; fer делать, производить, изготовить; cap голова 30; bé добро, польза 29;peu нога, стопа, ступня 28; cop удар 27; dia день 26; hora час; temps время, срок 24; casa дом; pas шаг 22; cara лицо; mon мир, свет, земля 21; aigua вода 20.
Распределение каталанской лексики по числу фразеологизмов представлено на рис. 3.
Эпидигматический параметр
О деривационном потенциале слов говорит их многозначность. Эпидигматический вес лексем прямо пропорционален количеству имеющихся у них значений. Лексемы с максимальным числом значений имеют максимальный эпидигматический вес, и наоборот.
Распределение каталанских слов по многозначности дано в табл. 2.
За пределами исследования оказываются слова, не являющиеся существительными, прилагательными или глаголами, а также слова с ограничительными пометами, свидетельствующими об их социальной, функциональной или территориальной маркированности. Распределение слов по Д-весу представлено на рис.4.
Слова, имеющие наибольшее количество значений в каталанском языке: fer делать, производить, изготавливать 35; passar проходить 29; donar давать, дать 28; picar кусать, жалить 28; tirar тянуть, тащить, волочить 27; correr бежать 23; tallar разрезать 22; clau гвоздь 20; portar носить 20;
Т а б л и ц а 2
Распределение каталанских слов по многозначности
Значений Слов Накопл. Д-вес
35 1 1 0,9999
29 1 2 0,9999
28 2 4 0,9998
27 2 6 0,9996
23 1 7 0,9996
22 1 8 0,9995
20 3 11 0,9993
19 4 15 0,9991
18 4 19 0,9988
17 7 26 0,9984
16 7 33 0,9980
15 7 40 0,9976
14 9 49 0,9970
13 11 60 0,9964
12 17 77 0,9953
11 20 97 0,9941
9 64 195 0,9921
8 77 272 0,9835
7 143 415 0,9749
6 220 635 0,9615
5 377 1012 0,9387
4 687 1699 0,8971
3 1497 3196 0,8065
2 3656 6852 0,5851
1 9662 16514 0
Рис. 4. Распределение каталанской лексики по деривационному весу
posar ставить 20; bo хороший 19; carregar нагружать, грузить 19; deixar отпускать, оставлять, класть, бросать 19; treure вынимать, вытаскивать, извлекать 19; boca рот 18; caure падать, сваливаться 18; dir произносить, говорить 18; prendre брать, хватать 18; calar набрасывать 17; cap голова 17; cobrir закрывать, прикрывать 17; desfer разрушать, ломать 17; fotre спать 17; parar терпеть, выдерживать 17; trencar разбивать, бить, ломать 17; anar идти 16; baix низкий, невысокий, маленький, низкорослый 16; escampar разбрасывать, раскидывать, рассыпать 16; esser существовать, быть 16; fort сильный, крепкий, здоровый, дюжий 16; mort мёртвый, безжизненный 16; tocar трогать, дотрагиваться, прикасаться 16; batre бить, ударять 15; clar светлый 15; girar вращаться, кружиться, вертеться, крутиться, поворачиваться 15; llançar кидать, бросать, швырять 15; moll мягкий 15; pujar подниматься 15.
Парадигматический параметр
В монографии В. Т. Титова парадигматическая стратификация лексики осуществлялась с опорой на частотность метаслов [1]. Частота метаслов на всем корпусе словаря позволяет выделить метаслова с гиперонимической и синонимической функциями.
Впоследствии В. Т. Титов и А. А. Кретов предложили позиционный метод парадигматического анализа лексики [4]. За позицию в дефиниции принимается порядковый номер метаслова в дефиниции: первое метаслово занимает первую позицию, второе
- вторую, третье - третью. Затем подсчитывается частота метаслова в первой позиции, в первых двух
позициях, в первых трех позициях, вплоть до полного состава дефиниции.
Таким образом, для выделения парадигматического ядра словаря необходимо в отдельные строки собрать все значения всех слов и фразеологизмов словаря по принципу: одна строка - одна дефиниция и осуществить описанный выше позиционный анализ дефиниций. Слова, дефиниции которых совпали в первых трех позициях (тем более - совпали целиком), допустимо считать синонимами.
Следующим шагом в совершенствовании компьютерной стратификации лексики по парадигматическому параметру явились работы В. Т. Титова и А. А. Кретова в соавторстве с Н. В. Огарковой и автором этой статьи [5, 6]. Синонимические ряды строятся на основе отношений между множествами метаслов, входящих в дефиниции. Совпадение и включение этих множеств дают синонимы. В случае пересечения множеств синонимичными признаются лексемы, в дефинициях которых множества метаслов совпадают наполовину и более. Работа с пересекающими множествами проводилась в интерактивном режиме. Парадигматическая стратификация каталанского словаря представлена в табл. 3 и на рис. 5.
Т а б л и ц а 3
Распределение каталанской лексики
по числу синонимов
Синон. Рядов Накопл. П-вес
1S 1 1 1,000
13 2 3 1,000
11 1 4 1,000
10 3 7 1,000
О к о н ч а н и е т а б л. 3
Синон. Рядов Накопл. П-вес
9 10 17 0,999
8 9 26 0,999
7 20 46 0,998
6 43 89 0,996
5 117 206 0,992
4 252 458 0,982
3 768 1226 0,952
2 3408 4634 0,818
1 20 774 25 408 0,000
Список значений, образующих максимальные синонимические ряды: ‘круг’ - 15; ‘вид’ ‘ поднимать’
- 13; ‘принимать’ - 11; ‘вести’; ‘освобождать’ ‘угол’
- 10; ‘быть’ ‘ вход’ ‘ доска’ ‘ передавать’ подниматься’ ‘снимать’ ‘ собирать’ ‘ спускать’ ‘ ставить’ ‘ удар’ - 9 и т.д.
Рис. 5. Распределение каталанской лексики по парадигматическому параметру
Параметрическая стратификация каталанской лексики
Мы получили функциональное ядро размером 1349 слов, синтагматическое ядро размером в 996 слов, эпидигматическое ядро размером в 1012 слов и
парадигматическое ядро размером в 1226 слов. Сложение этих параметров и стратификация лемм в порядке убывания их суммарного, т.е. параметрического, веса позволили получить ядро каталанской лексики (табл. 4).
Т а б л и ц а 4
Малое параметрическое ядро каталанской лексики
Лемма Б Р Б Е N Значение
pas 1,00 0,94 1,00 0,97 3,99 шаг
cop 0,94 1,00 1,00 0,97 3,99 удар
та 0,99 0,99 1,00 0,99 3,97 рука
о 0,99 1,00 1,00 0,97 3,96 игра, забава
реи 0,99 0,94 1,00 0,97 3,95 нога, стопа, ступня
ий 0,99 0,98 1,00 0,97 3,94 глаз
сог 0,99 0,98 1,00 0,97 3,94 сердце
П р о д о л ж е н и е т а б л. 4
Лемма D P S F N Значение
cos 0,99 0,94 1,00 0,97 3,93 тело
bo 1,00 0,94 0,99 0,99 3,93 хороший
be 0,99 0,94 1,00 0,99 3,92 добро, польза
pit 0,98 0,98 0,99 0,97 3,92 грудь
cap 1,00 0,94 1,00 0,97 3,92 голова
toc 0,96 1,00 0,98 0,97 3,92 прикосновение, касание
dir 1,00 0,94 1,00 0,97 3,91 поизносить, говорить
fer 1,00 0,94 1,00 0,97 3,91 делать, производить
pes 0,99 0,94 1,00 0,97 3,90 сила тяжести
pres 0,99 0,94 0,96 0,92 3,90 арестованный
pla 1,00 0,94 0,99 0,97 3,90 ровный, гладкий
mal 0,99 0,94 1,00 0,97 3,90 плохой, нехороший
cua 0,99 0,94 0,99 0,97 3,89 хвост
punt 0,97 0,94 0,98 0,99 3,89 знак, точка, отметка
veu 0,98 0,94 0,99 0,97 3,89 голос
fii 0,99 0,94 0,98 0,97 3,89 нитка, нить
fe 0,96 0,94 0,99 0,99 3,89 вера
creu 0,99 0,99 0,98 0,92 3,89 распятие, крест
casa 0,97 0,99 1,00 0,92 3,89 дом, здание
rao 0,97 0,94 1,00 0,97 3,88 ум, рассудок
ala 0,99 0,94 0,98 0,97 3,88 крыло
fi 0,98 0,94 0,96 0,99 3,88 мелкий
flor 0,98 0,98 1,00 0,92 3,88 цветок
dur 0,99 0,94 0,98 0,97 3,88 твердый, жесткий
via 0,97 0,94 0,98 0,97 3,88 дорога, путь
ple 0,98 0,98 0,94 0,97 3,88 полный
alt 1,00 0,94 0,96 0,97 3,87 высокий
cas 0,96 0,94 1,00 0,97 3,87 случай, событие
cul 0,96 0,94 1,00 0,97 3,87 таз, зад
mare 0,96 0,94 0,99 0,92 3,87 мать
pare 0,96 0,94 0,99 0,92 3,87 отец
sant 0,96 0,94 0,99 0,92 3,87 святой, священный
tros 0,96 0,94 0,99 0,92 3,87 кусок
sec 0,99 0,94 0,96 0,97 3,86 сухой
bany 0,97 0,99 0,98 0,92 3,86 купание
gra 0,98 0,94 0,96 0,97 3,86 зерно, семя
fill 0,97 0,98 0,99 0,92 3,86 сын дочь
moll 1,00 0,98 0,96 0,92 3,86 мягкий
anar 1,00 0,94 1,00 0,92 3,85 идти
boca 1,00 0,94 1,00 0,92 3,85 рот
mort 1,00 0,94 1,00 0,92 3,85 мертвый
fava 0,97 0,99 0,96 0,92 3,85 боб
buc 1,00 0,94 0,94 0,97 3,85 пространство
part 0,94 0,99 1,00 0,92 3,85 часть, доля
clau 1,00 0,94 1,00 0,92 3,85 гвоздь
camp 0,99 0,94 0,99 0,92 3,84 поле, нива
cami 0,99 0,94 0,99 0,92 3,84 дорога
lloc 0,99 0,94 1,00 0,92 3,84 место, местность
raig 0,96 0,98 0,98 0,92 3,84 луч
dret 0,99 0,94 0,99 0,92 3,84 прямой
bra3 0,98 0,94 1,00 0,92 3,84 рука
П р о д о л ж е н и е т а б л. 4
Лемма D P S F N Значение
clar 1,00 0,94 0,98 0,92 3,84 светлый
bell 0,97 0,98 0,96 0,92 3,84 прекрасный, красивый
buit 0,96 0,99 0,96 0,92 3,84 пустой, свободный
fons 0,99 0,94 0,98 0,92 3,83 дно, глубина
coll 0,99 0,94 0,99 0,92 3,83 шея
gust 0,94 0,98 1,00 0,92 3,83 вкус
fred 0,99 0,94 0,98 0,92 3,83 холодный, студёный
font 0,94 0,98 0,96 0,92 3,83 источник, родник
llum 0,97 0,94 1,00 0,92 3,83 свет
bot 0,97 0,94 0,94 0,97 3,83 бурдюк
buf 0,97 0,94 0,94 0,97 3,83 шут
pic 0,97 0,94 0,94 0,97 3,83 мотыга, кирка
cama 0,97 0,94 0,99 0,92 3,83 нога
gran 0,97 0,94 1,00 0,92 3,82 большой
tort 0,96 0,98 0,96 0,92 3,82 кривой
gola 0,99 0,94 0,98 0,92 3,82 горло, глотка, зев
truc 0,96 1,00 0,94 0,92 3,82 удар
cara 0,96 0,94 1,00 0,92 3,82 лицо, физиономия
fosc 0,98 0,94 0,98 0,92 3,82 темный, мрачный
tall 0,99 0,94 0,96 0,92 3,82 остриё, лезвие
net 0,94 0,94 0,96 0,97 3,82 чистый
ca 0,94 0,94 0,94 0,99 3,81 собака, пёс
gota 0,96 0,94 0,99 0,92 3,81 капля
puny 0,96 0,94 0,98 0,92 3,80 запястье
gent 0,94 0,94 1,00 0,92 3,79 народ, люди
rem 0,94 0,94 0,94 0,97 3,79 весло
prim 0,99 0,94 0,94 0,92 3,79 тонкий
carn 0,94 0,94 0,99 0,92 3,79 мясо, плоть
llei 0,94 0,94 1,00 0,92 3,79 закон
amor 0,94 0,94 0,99 0,92 3,78 любовь
sort 0,94 0,94 0,99 0,92 3,78 судьба, участь, доля
goma 0,96 0,94 0,96 0,92 3,78 резина
pols 0,96 0,94 0,96 0,92 3,78 пульс
ras 1,00 0,94 0,87 0,97 3,78 подстриженный
cert 0,94 0,94 0,98 0,92 3,77 достоверный, верный
grau 0,99 0,99 0,87 0,92 3,77 пролив
obra 0,94 0,94 0,98 0,92 3,77 дело, поступок, работа
base 0,97 0,94 0,94 0,92 3,77 основание, фундамент
botó 0,97 0,94 0,94 0,92 3,77 пуговица
capa 0,97 0,94 0,94 0,92 3,77 плащ, накидка
ferm 0,97 0,94 0,94 0,92 3,77 крепкий, твердый
verd 0,97 0,94 0,94 0,92 3,77 зелёный
clot 0,97 1,00 0,87 0,92 3,76 яма, углубление
comú 0,97 0,94 0,87 0,92 3,76 общий, совместный
vell 0,94 0,94 0,96 0,92 3,76 старый
ram 0,97 0,94 0,87 0,97 3,76 ветка
bord 0,96 0,94 0,94 0,92 3,76 дикий, неплодородный
gras 0,96 0,94 0,94 0,92 3,76 жирный
volt 0,96 0,94 0,94 0,92 3,76 контур, очертания
fix 0,96 0,94 0,87 0,97 3,75 неподвижный
pal 0,96 0,94 0,87 0,97 3,75 палка
О к о н ч а н и е т а б л . 4
Лемма D P S F N Значение
tir 0,96 0,94 0,87 0,97 3,75 выстрел, стрельба
greu 0,97 0,98 0,87 0,92 3,75 тяжелый
amic 0,94 0,94 0,94 0,92 3,74 друг, подруга
call 0,94 0,94 0,94 0,92 3,74 ущелье, теснина
curs 0,94 0,94 0,94 0,92 3,74 курс, направление
geni 0,94 0,94 0,94 0,92 3,74 дух, гений
plom 0,94 0,94 0,94 0,92 3,74 свинец
rosa 0,94 0,94 0,94 0,92 3,74 роза
vers 0,94 0,94 0,94 0,92 3,74 стихотворение, стих
baix 1,00 0,94 0,87 0,92 3,73 низкий, невысокий
boci 0,94 0,99 0,87 0,92 3,72 кусок, кусочек, ломоть
vara 0,94 0,99 0,87 0,92 3,72 прут
disc 0,94 0,98 0,87 0,92 3,71 диск
mira 0,94 0,98 0,87 0,92 3,71 прицел
vena 0,94 0,98 0,87 0,92 3,71 вена
adob 0,96 0,94 0,87 0,92 3,69 соление, маринование
corn 0,96 0,94 0,87 0,92 3,69 рог
bram 0,94 0,94 0,87 0,92 3,67 рёв
fals 0,94 0,94 0,87 0,92 3,67 ложный, ошибочный
pila 0,94 0,94 0,87 0,92 3,67 гора, стопка, штабель
suar 0,94 0,94 0,87 0,92 3,67 потеть
taló 0,94 0,94 0,87 0,92 3,67 пятка
tela 0,94 0,94 0,87 0,92 3,67 материал, ткань
Проведенные исследования позволили выделить тической системы каталанского словаря. Ею является
малое ядро, малую периферию и большую перифе- существительное _ряя-«шаг». Доминанта адъективной
рию русско-каталанского словаря (их соотношение лексики - прилагательное ¿»-«хороший», глагольной
см. на рис. 6). - глагол ^-«говорить».
Один из главных результатов проведенного исследования - определение доминанты лексико-семан-
Рис. 6. Организация параметрического ядра каталанского словаря
ЛИТЕРАТУРА
1. Титов В. Т. Общая квантитативная лексикология романских языков : монография / В. Т. Титов. - Воронеж : Изд-во Воронеж. гос. ун-та, 2002. - 240 с.
2. Титов В. Т. Частная квантитативная лексикология романских языков : монография / В. Т. Титов. - Воронеж : Изд-во Воронеж. гос. ун-та, 2004. - 552 с.
3. Diccionari rus-catalá y catalá-rus // Svetlana Bank, Dorota Szmidt, Monika Zgustová. - Barcelona : Enciclopedia Catalana, 1999. - 566 с.
4. КретовА. А. Алгоритм позиционного выявления синонимии / А. А. Кретов, В. Т. Титов // Вестник ВГУ. Серия : Системный анализ и информационные технологии. 2006. - № 1. - С. 62-65.
Воронежский государственный университет
Долбилова Е. В., преподаватель кафедры романской филологии факультета РГФ
E-mail: [email protected]
Тел.: 8-903-857-57-78
5. Кретов А. А. Структура и описание программного комплекса для проведения лексико-семантического анализа языка / А. А. Кретов, В. Т. Титов, Н. В. Огарко-ва, Е. В. Долбилова // Лінгвістичні студіі : Збірник наукових праць. - Донецьк : Донецький національний університет, 2008. - Вып. 16. - С. 393-400.
6. Огаркова Н. В. Анализ характеристик словаря и структуры словарной статьи, необходимых для корректной работы блока разбора программного комплекса «ипі(версальньій) CompLex/СПЛекСИс (Система для Проведения ЛЕКсико-Семантических Исследований») / Н. В. Огаркова, О. А. Березовская, А. А. Кретов // Проблемы компьютерной лингвистики. - Воронеж, 2008. - Вып. 3. - С. 159-169.
Voronezh State University
Dolbilova E. V., Lecturer, Department of Romance Philology Faculty of Romance and Germanic Philology
E-mail: [email protected]
Тєі.: 8-903-857-57-78