Научная статья на тему 'Параметрический анализ каталанской лексики'

Параметрический анализ каталанской лексики Текст научной статьи по специальности «Языкознание и литературоведение»

177
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КВАНТИТАТИВНАЯ ЛИНГВИСТИКА / ПАРАМЕТРИЧЕСКИЙ АНАЛИЗ / ЛЕКСИКА / ЯДРО СЛОВАРЯ / QUANTITATIVE LINGUISTICS / PARAMETRIC ANALYSIS / VOCABULARY / LEXICAL CORE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Долбилова Е. В.

исследуются квантитативные характеристики каталанской лексики. По данным каталанско-русского словаря выявляется параметрическое ядро каталанской лексики и определяется системный вес каждого из входящих в это ядро слов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

the article presents quantitative characteristics of Catalan vocabulary. The research is based on the Catalan-Russian dictionary from which parametric core of the Catalan vocabulary is extracted and systemic weight for every core word is counted.

Текст научной работы на тему «Параметрический анализ каталанской лексики»

УДК 811.134.1’371

ПАРАМЕТРИЧЕСКИМ АНАЛИЗ КАТАЛАНСКОЙ ЛЕКСИКИ

Е. В. Долбилова Воронежский государственный университет Поступила в редакцию 1 сентября 2009 г.

Аннотация: исследуются квантитативные характеристики каталанской лексики. По данным каталанско-русского словаря выявляется параметрическое ядро каталанской лексики и определяется системный вес каждого из входящих в это ядро слов.

Ключевые слова: квантитативная лингвистика, параметрический анализ, лексика, ядро словаря.

Abstract: the article presents quantitative characteristics of Catalan vocabulary. The research is based on the Catalan-Russian dictionary from which parametric core of the Catalan vocabulary is extracted and systemic weight for every core word is counted.

Key words: quantitative linguistics, parametric analysis, vocabulary, lexical core.

Данное исследование является применением параметрического анализа, разработанного В. Т. Титовым [1, 2], к материалу каталанской лексики. Цель данной статьи - выявить ядро каталанской лексикосемантической системы и определить системный вес каждой из входящих в это ядро единиц.

Существенными для лексико-семантической системы признаются четыре параметра: 1) функциональный (длина слова); 2) эпидигматический (количество значений); 3) синтагматический (количество фразеологизмов); 4) парадигматический (максимальный размер синонимического ряда, в который входит данное слово).

Объектом исследования является каталанско-русский словарь [3], электронная версия которого была

превращена в базу данных, послужившую затем источником необходимой информации.

Функциональный параметр

Одной из важнейших характеристик словаря является длина слова, так как употребительность слова, в общем случае, обратно пропорциональна его длине. Для того чтобы выделить наиболее употребительную лексику в языке, нужно взять те полнозначные слова, длина которых наименьшая. Как указывает В. Т. Титов, функциональное ядро, как и остальные квантитативные ядра, должно быть максимально близко к 1000 или незначительно превосходить эту величину. Распределения каталанских слов по длине показано на рис. 1.

Рис. 1. Распределение каталанской лексики по длине

© Долбилова Е. В., 2010

Длина (в буквах)

Рис. 2. Распределение лексики по функциональному весу в каталанско-русском словаре

Медианой распределения каталанских слов по длине является 8-типичная длина каталанского слова (в буквах). Интересующий нас корпус слов характеризуется длиной в 2-4 буквы. Таким образом, получено функциональное ядро каталанской лексики размером 1349 слов.

Примеры каталанских слов длиной в 2 буквы: ах 0,993 туз; аи 0,993 птица; Ье 0,993 овца; Ьё 0,993 добро, польза; Ьо 993 хороший; са 0,993 собака, пёс; йо 0,993 даяние, пожертвование, дар, подаяние; /е 0,993 вера; fi 0,993 конец; fi 0,993 мелкий; іо 0,993 ион; та 0,993 моя; та 0,993 рука; по 0,993 нет; пи 0,993 голый,раздетый, обнаженный, нагой; от 0,993 вяз; ог 0,993 золото; ох 0,993 кость; ох 0,993медведь; ои 0,993 яйцо; ра 0,993 хлеб; рі 0,993 сосна; хі 0,993 впадина, углубление, выемка; хо 0,993 звук; іе 0,993 чай; іо 0,993 тон, лад; их 0,993 пользование, употребление, применение; гі 0,993 вино; ха 0,993 шах.

Далее мы определили отношение количества слов определенной длины к их параметрическому весу, что позволило построить диаграмму (рис. 2).

Синтагматический параметр

Как отмечает В. Т. Титов, синтагматическая активность слов важна не сама по себе, а как показатель широты и простоты их семантики, отличающий корневые, непроизводные слова от производных [1]. В словаре синтагматическая активность слов находит свое проявление в наличии у них фразеологизмов, указываемых за ромбом. Наличие заромбовой части у слова уже выделяет его как синтагматически активное.

Для решения этой задачи мы извлекли заромбо-вые части словарных статей из электронного словаря каталанского языка и представили полученный материал в виде табл. 1

Т а б л и ц а 1

Распределение каталанской лексики по наличию фразеологизмов

ФС Слов Накопл. С-вес

42 1 1 0,9999

40 1 2 0,9999

30 1 3 0,9998

29 1 4 0,9998

28 1 5 0,9997

27 1 6 0,9996

26 1 7 0,9996

24 2 9 0,9995

22 2 11 0,9993

21 2 13 0,9992

20 1 14 0,9992

17 7 21 0,9987

16 4 25 0,9985

15 5 30 0,9982

14 7 37 0,9978

13 8 45 0,9973

12 8 53 0,9968

11 9 62 0,9962

10 12 74 0,9955

9 21 95 0,9943

8 23 118 0,9929

7 36 154 0,9907

6 55 209 0,9874

5 71 280 0,9831

4 111 391 0,9763

3 206 597 0,9639

2 399 996 0,9397

1 1090 2086 0,8738

0 14441 16527 0,0000

Ранги значений (от 0 до 42)

Рис. 3. Распределение каталанской лексики по числу фразеологизмов

Приведем примеры слов, обладающих максимальной синтагматической активностью: mà рука 42; fer делать, производить, изготовить; cap голова 30; bé добро, польза 29;peu нога, стопа, ступня 28; cop удар 27; dia день 26; hora час; temps время, срок 24; casa дом; pas шаг 22; cara лицо; mon мир, свет, земля 21; aigua вода 20.

Распределение каталанской лексики по числу фразеологизмов представлено на рис. 3.

Эпидигматический параметр

О деривационном потенциале слов говорит их многозначность. Эпидигматический вес лексем прямо пропорционален количеству имеющихся у них значений. Лексемы с максимальным числом значений имеют максимальный эпидигматический вес, и наоборот.

Распределение каталанских слов по многозначности дано в табл. 2.

За пределами исследования оказываются слова, не являющиеся существительными, прилагательными или глаголами, а также слова с ограничительными пометами, свидетельствующими об их социальной, функциональной или территориальной маркированности. Распределение слов по Д-весу представлено на рис.4.

Слова, имеющие наибольшее количество значений в каталанском языке: fer делать, производить, изготавливать 35; passar проходить 29; donar давать, дать 28; picar кусать, жалить 28; tirar тянуть, тащить, волочить 27; correr бежать 23; tallar разрезать 22; clau гвоздь 20; portar носить 20;

Т а б л и ц а 2

Распределение каталанских слов по многозначности

Значений Слов Накопл. Д-вес

35 1 1 0,9999

29 1 2 0,9999

28 2 4 0,9998

27 2 6 0,9996

23 1 7 0,9996

22 1 8 0,9995

20 3 11 0,9993

19 4 15 0,9991

18 4 19 0,9988

17 7 26 0,9984

16 7 33 0,9980

15 7 40 0,9976

14 9 49 0,9970

13 11 60 0,9964

12 17 77 0,9953

11 20 97 0,9941

9 64 195 0,9921

8 77 272 0,9835

7 143 415 0,9749

6 220 635 0,9615

5 377 1012 0,9387

4 687 1699 0,8971

3 1497 3196 0,8065

2 3656 6852 0,5851

1 9662 16514 0

Рис. 4. Распределение каталанской лексики по деривационному весу

posar ставить 20; bo хороший 19; carregar нагружать, грузить 19; deixar отпускать, оставлять, класть, бросать 19; treure вынимать, вытаскивать, извлекать 19; boca рот 18; caure падать, сваливаться 18; dir произносить, говорить 18; prendre брать, хватать 18; calar набрасывать 17; cap голова 17; cobrir закрывать, прикрывать 17; desfer разрушать, ломать 17; fotre спать 17; parar терпеть, выдерживать 17; trencar разбивать, бить, ломать 17; anar идти 16; baix низкий, невысокий, маленький, низкорослый 16; escampar разбрасывать, раскидывать, рассыпать 16; esser существовать, быть 16; fort сильный, крепкий, здоровый, дюжий 16; mort мёртвый, безжизненный 16; tocar трогать, дотрагиваться, прикасаться 16; batre бить, ударять 15; clar светлый 15; girar вращаться, кружиться, вертеться, крутиться, поворачиваться 15; llançar кидать, бросать, швырять 15; moll мягкий 15; pujar подниматься 15.

Парадигматический параметр

В монографии В. Т. Титова парадигматическая стратификация лексики осуществлялась с опорой на частотность метаслов [1]. Частота метаслов на всем корпусе словаря позволяет выделить метаслова с гиперонимической и синонимической функциями.

Впоследствии В. Т. Титов и А. А. Кретов предложили позиционный метод парадигматического анализа лексики [4]. За позицию в дефиниции принимается порядковый номер метаслова в дефиниции: первое метаслово занимает первую позицию, второе

- вторую, третье - третью. Затем подсчитывается частота метаслова в первой позиции, в первых двух

позициях, в первых трех позициях, вплоть до полного состава дефиниции.

Таким образом, для выделения парадигматического ядра словаря необходимо в отдельные строки собрать все значения всех слов и фразеологизмов словаря по принципу: одна строка - одна дефиниция и осуществить описанный выше позиционный анализ дефиниций. Слова, дефиниции которых совпали в первых трех позициях (тем более - совпали целиком), допустимо считать синонимами.

Следующим шагом в совершенствовании компьютерной стратификации лексики по парадигматическому параметру явились работы В. Т. Титова и А. А. Кретова в соавторстве с Н. В. Огарковой и автором этой статьи [5, 6]. Синонимические ряды строятся на основе отношений между множествами метаслов, входящих в дефиниции. Совпадение и включение этих множеств дают синонимы. В случае пересечения множеств синонимичными признаются лексемы, в дефинициях которых множества метаслов совпадают наполовину и более. Работа с пересекающими множествами проводилась в интерактивном режиме. Парадигматическая стратификация каталанского словаря представлена в табл. 3 и на рис. 5.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Т а б л и ц а 3

Распределение каталанской лексики

по числу синонимов

Синон. Рядов Накопл. П-вес

1S 1 1 1,000

13 2 3 1,000

11 1 4 1,000

10 3 7 1,000

О к о н ч а н и е т а б л. 3

Синон. Рядов Накопл. П-вес

9 10 17 0,999

8 9 26 0,999

7 20 46 0,998

6 43 89 0,996

5 117 206 0,992

4 252 458 0,982

3 768 1226 0,952

2 3408 4634 0,818

1 20 774 25 408 0,000

Список значений, образующих максимальные синонимические ряды: ‘круг’ - 15; ‘вид’ ‘ поднимать’

- 13; ‘принимать’ - 11; ‘вести’; ‘освобождать’ ‘угол’

- 10; ‘быть’ ‘ вход’ ‘ доска’ ‘ передавать’ подниматься’ ‘снимать’ ‘ собирать’ ‘ спускать’ ‘ ставить’ ‘ удар’ - 9 и т.д.

Рис. 5. Распределение каталанской лексики по парадигматическому параметру

Параметрическая стратификация каталанской лексики

Мы получили функциональное ядро размером 1349 слов, синтагматическое ядро размером в 996 слов, эпидигматическое ядро размером в 1012 слов и

парадигматическое ядро размером в 1226 слов. Сложение этих параметров и стратификация лемм в порядке убывания их суммарного, т.е. параметрического, веса позволили получить ядро каталанской лексики (табл. 4).

Т а б л и ц а 4

Малое параметрическое ядро каталанской лексики

Лемма Б Р Б Е N Значение

pas 1,00 0,94 1,00 0,97 3,99 шаг

cop 0,94 1,00 1,00 0,97 3,99 удар

та 0,99 0,99 1,00 0,99 3,97 рука

о 0,99 1,00 1,00 0,97 3,96 игра, забава

реи 0,99 0,94 1,00 0,97 3,95 нога, стопа, ступня

ий 0,99 0,98 1,00 0,97 3,94 глаз

сог 0,99 0,98 1,00 0,97 3,94 сердце

П р о д о л ж е н и е т а б л. 4

Лемма D P S F N Значение

cos 0,99 0,94 1,00 0,97 3,93 тело

bo 1,00 0,94 0,99 0,99 3,93 хороший

be 0,99 0,94 1,00 0,99 3,92 добро, польза

pit 0,98 0,98 0,99 0,97 3,92 грудь

cap 1,00 0,94 1,00 0,97 3,92 голова

toc 0,96 1,00 0,98 0,97 3,92 прикосновение, касание

dir 1,00 0,94 1,00 0,97 3,91 поизносить, говорить

fer 1,00 0,94 1,00 0,97 3,91 делать, производить

pes 0,99 0,94 1,00 0,97 3,90 сила тяжести

pres 0,99 0,94 0,96 0,92 3,90 арестованный

pla 1,00 0,94 0,99 0,97 3,90 ровный, гладкий

mal 0,99 0,94 1,00 0,97 3,90 плохой, нехороший

cua 0,99 0,94 0,99 0,97 3,89 хвост

punt 0,97 0,94 0,98 0,99 3,89 знак, точка, отметка

veu 0,98 0,94 0,99 0,97 3,89 голос

fii 0,99 0,94 0,98 0,97 3,89 нитка, нить

fe 0,96 0,94 0,99 0,99 3,89 вера

creu 0,99 0,99 0,98 0,92 3,89 распятие, крест

casa 0,97 0,99 1,00 0,92 3,89 дом, здание

rao 0,97 0,94 1,00 0,97 3,88 ум, рассудок

ala 0,99 0,94 0,98 0,97 3,88 крыло

fi 0,98 0,94 0,96 0,99 3,88 мелкий

flor 0,98 0,98 1,00 0,92 3,88 цветок

dur 0,99 0,94 0,98 0,97 3,88 твердый, жесткий

via 0,97 0,94 0,98 0,97 3,88 дорога, путь

ple 0,98 0,98 0,94 0,97 3,88 полный

alt 1,00 0,94 0,96 0,97 3,87 высокий

cas 0,96 0,94 1,00 0,97 3,87 случай, событие

cul 0,96 0,94 1,00 0,97 3,87 таз, зад

mare 0,96 0,94 0,99 0,92 3,87 мать

pare 0,96 0,94 0,99 0,92 3,87 отец

sant 0,96 0,94 0,99 0,92 3,87 святой, священный

tros 0,96 0,94 0,99 0,92 3,87 кусок

sec 0,99 0,94 0,96 0,97 3,86 сухой

bany 0,97 0,99 0,98 0,92 3,86 купание

gra 0,98 0,94 0,96 0,97 3,86 зерно, семя

fill 0,97 0,98 0,99 0,92 3,86 сын дочь

moll 1,00 0,98 0,96 0,92 3,86 мягкий

anar 1,00 0,94 1,00 0,92 3,85 идти

boca 1,00 0,94 1,00 0,92 3,85 рот

mort 1,00 0,94 1,00 0,92 3,85 мертвый

fava 0,97 0,99 0,96 0,92 3,85 боб

buc 1,00 0,94 0,94 0,97 3,85 пространство

part 0,94 0,99 1,00 0,92 3,85 часть, доля

clau 1,00 0,94 1,00 0,92 3,85 гвоздь

camp 0,99 0,94 0,99 0,92 3,84 поле, нива

cami 0,99 0,94 0,99 0,92 3,84 дорога

lloc 0,99 0,94 1,00 0,92 3,84 место, местность

raig 0,96 0,98 0,98 0,92 3,84 луч

dret 0,99 0,94 0,99 0,92 3,84 прямой

bra3 0,98 0,94 1,00 0,92 3,84 рука

П р о д о л ж е н и е т а б л. 4

Лемма D P S F N Значение

clar 1,00 0,94 0,98 0,92 3,84 светлый

bell 0,97 0,98 0,96 0,92 3,84 прекрасный, красивый

buit 0,96 0,99 0,96 0,92 3,84 пустой, свободный

fons 0,99 0,94 0,98 0,92 3,83 дно, глубина

coll 0,99 0,94 0,99 0,92 3,83 шея

gust 0,94 0,98 1,00 0,92 3,83 вкус

fred 0,99 0,94 0,98 0,92 3,83 холодный, студёный

font 0,94 0,98 0,96 0,92 3,83 источник, родник

llum 0,97 0,94 1,00 0,92 3,83 свет

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

bot 0,97 0,94 0,94 0,97 3,83 бурдюк

buf 0,97 0,94 0,94 0,97 3,83 шут

pic 0,97 0,94 0,94 0,97 3,83 мотыга, кирка

cama 0,97 0,94 0,99 0,92 3,83 нога

gran 0,97 0,94 1,00 0,92 3,82 большой

tort 0,96 0,98 0,96 0,92 3,82 кривой

gola 0,99 0,94 0,98 0,92 3,82 горло, глотка, зев

truc 0,96 1,00 0,94 0,92 3,82 удар

cara 0,96 0,94 1,00 0,92 3,82 лицо, физиономия

fosc 0,98 0,94 0,98 0,92 3,82 темный, мрачный

tall 0,99 0,94 0,96 0,92 3,82 остриё, лезвие

net 0,94 0,94 0,96 0,97 3,82 чистый

ca 0,94 0,94 0,94 0,99 3,81 собака, пёс

gota 0,96 0,94 0,99 0,92 3,81 капля

puny 0,96 0,94 0,98 0,92 3,80 запястье

gent 0,94 0,94 1,00 0,92 3,79 народ, люди

rem 0,94 0,94 0,94 0,97 3,79 весло

prim 0,99 0,94 0,94 0,92 3,79 тонкий

carn 0,94 0,94 0,99 0,92 3,79 мясо, плоть

llei 0,94 0,94 1,00 0,92 3,79 закон

amor 0,94 0,94 0,99 0,92 3,78 любовь

sort 0,94 0,94 0,99 0,92 3,78 судьба, участь, доля

goma 0,96 0,94 0,96 0,92 3,78 резина

pols 0,96 0,94 0,96 0,92 3,78 пульс

ras 1,00 0,94 0,87 0,97 3,78 подстриженный

cert 0,94 0,94 0,98 0,92 3,77 достоверный, верный

grau 0,99 0,99 0,87 0,92 3,77 пролив

obra 0,94 0,94 0,98 0,92 3,77 дело, поступок, работа

base 0,97 0,94 0,94 0,92 3,77 основание, фундамент

botó 0,97 0,94 0,94 0,92 3,77 пуговица

capa 0,97 0,94 0,94 0,92 3,77 плащ, накидка

ferm 0,97 0,94 0,94 0,92 3,77 крепкий, твердый

verd 0,97 0,94 0,94 0,92 3,77 зелёный

clot 0,97 1,00 0,87 0,92 3,76 яма, углубление

comú 0,97 0,94 0,87 0,92 3,76 общий, совместный

vell 0,94 0,94 0,96 0,92 3,76 старый

ram 0,97 0,94 0,87 0,97 3,76 ветка

bord 0,96 0,94 0,94 0,92 3,76 дикий, неплодородный

gras 0,96 0,94 0,94 0,92 3,76 жирный

volt 0,96 0,94 0,94 0,92 3,76 контур, очертания

fix 0,96 0,94 0,87 0,97 3,75 неподвижный

pal 0,96 0,94 0,87 0,97 3,75 палка

О к о н ч а н и е т а б л . 4

Лемма D P S F N Значение

tir 0,96 0,94 0,87 0,97 3,75 выстрел, стрельба

greu 0,97 0,98 0,87 0,92 3,75 тяжелый

amic 0,94 0,94 0,94 0,92 3,74 друг, подруга

call 0,94 0,94 0,94 0,92 3,74 ущелье, теснина

curs 0,94 0,94 0,94 0,92 3,74 курс, направление

geni 0,94 0,94 0,94 0,92 3,74 дух, гений

plom 0,94 0,94 0,94 0,92 3,74 свинец

rosa 0,94 0,94 0,94 0,92 3,74 роза

vers 0,94 0,94 0,94 0,92 3,74 стихотворение, стих

baix 1,00 0,94 0,87 0,92 3,73 низкий, невысокий

boci 0,94 0,99 0,87 0,92 3,72 кусок, кусочек, ломоть

vara 0,94 0,99 0,87 0,92 3,72 прут

disc 0,94 0,98 0,87 0,92 3,71 диск

mira 0,94 0,98 0,87 0,92 3,71 прицел

vena 0,94 0,98 0,87 0,92 3,71 вена

adob 0,96 0,94 0,87 0,92 3,69 соление, маринование

corn 0,96 0,94 0,87 0,92 3,69 рог

bram 0,94 0,94 0,87 0,92 3,67 рёв

fals 0,94 0,94 0,87 0,92 3,67 ложный, ошибочный

pila 0,94 0,94 0,87 0,92 3,67 гора, стопка, штабель

suar 0,94 0,94 0,87 0,92 3,67 потеть

taló 0,94 0,94 0,87 0,92 3,67 пятка

tela 0,94 0,94 0,87 0,92 3,67 материал, ткань

Проведенные исследования позволили выделить тической системы каталанского словаря. Ею является

малое ядро, малую периферию и большую перифе- существительное _ряя-«шаг». Доминанта адъективной

рию русско-каталанского словаря (их соотношение лексики - прилагательное ¿»-«хороший», глагольной

см. на рис. 6). - глагол ^-«говорить».

Один из главных результатов проведенного исследования - определение доминанты лексико-семан-

Рис. 6. Организация параметрического ядра каталанского словаря

ЛИТЕРАТУРА

1. Титов В. Т. Общая квантитативная лексикология романских языков : монография / В. Т. Титов. - Воронеж : Изд-во Воронеж. гос. ун-та, 2002. - 240 с.

2. Титов В. Т. Частная квантитативная лексикология романских языков : монография / В. Т. Титов. - Воронеж : Изд-во Воронеж. гос. ун-та, 2004. - 552 с.

3. Diccionari rus-catalá y catalá-rus // Svetlana Bank, Dorota Szmidt, Monika Zgustová. - Barcelona : Enciclopedia Catalana, 1999. - 566 с.

4. КретовА. А. Алгоритм позиционного выявления синонимии / А. А. Кретов, В. Т. Титов // Вестник ВГУ. Серия : Системный анализ и информационные технологии. 2006. - № 1. - С. 62-65.

Воронежский государственный университет

Долбилова Е. В., преподаватель кафедры романской филологии факультета РГФ

E-mail: [email protected]

Тел.: 8-903-857-57-78

5. Кретов А. А. Структура и описание программного комплекса для проведения лексико-семантического анализа языка / А. А. Кретов, В. Т. Титов, Н. В. Огарко-ва, Е. В. Долбилова // Лінгвістичні студіі : Збірник наукових праць. - Донецьк : Донецький національний університет, 2008. - Вып. 16. - С. 393-400.

6. Огаркова Н. В. Анализ характеристик словаря и структуры словарной статьи, необходимых для корректной работы блока разбора программного комплекса «ипі(версальньій) CompLex/СПЛекСИс (Система для Проведения ЛЕКсико-Семантических Исследований») / Н. В. Огаркова, О. А. Березовская, А. А. Кретов // Проблемы компьютерной лингвистики. - Воронеж, 2008. - Вып. 3. - С. 159-169.

Voronezh State University

Dolbilova E. V., Lecturer, Department of Romance Philology Faculty of Romance and Germanic Philology

E-mail: [email protected]

Тєі.: 8-903-857-57-78

i Надоели баннеры? Вы всегда можете отключить рекламу.