Научная статья на тему 'Статистична структура роману Івана Франка“Борислав сміється”'

Статистична структура роману Івана Франка“Борислав сміється” Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
156
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧНА СТРУКТУРА ТЕКСТУ / ЧАСТОТНИЙ СЛОВНИК / КіЛЬКіСНі ХАРАКТЕРИСТИКИ ТЕКСТУ / БАГАТСТВО ЛЕКСИКИ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бук С.

Бук С. Н. Статистическая структура романа Ивана Франко “Борислав смеется” / С. Н. Бук // Ученые записки Таврического национального университета им. В. И. Вернадского. Серия «Филология. Социальные коммуникации». 2010. Т. 23 (62), № 3. С. 114-118.В статье выясняется понятие статистической структуры текста, определяемое на лексическом уровне, как правило, по данным частотного словаря (ЧС). На основании ЧС романа И. Франко “Бори-слав смеется” получены количественные характеристики текста, которые сравниваются с соответст-вующими данными других романов писателя.Ключевые слова: статистическая структура текста, частотный словарь, количественные характеристики текста, богатство лексики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Buk S. N. Statistical structure of Boryslav Laughs, a novel by Ivan Franko / S. N. Buk // Scientific Notes of Taurida V. I. Vernadsky National University. Series: Philology. Social communications. 2010. Vol. 23 (62), No 3. P. 114-118.In the article, the notion of the statistical structure of text is explored. On the lexical level it is defined as a rule from the frequency dictionary data. On the base of Boryslav Smijet'sja [Boryslav Laughs], a novel byIvan Franko, the quantitative parameters of text are obtained. They are compared with the respective data fromother novels of the writer.Key words: statistical structure of text, frequency dictionary, quantitative parameters of text, vocabulary richness.

Текст научной работы на тему «Статистична структура роману Івана Франка“Борислав сміється”»

Ученые записки Таврического национального университета им. В. И. Вернадского Серия «Филология. Социальные коммуникации». Том 23 (62). № 3. 2010 г. С. 114-118.

НАЦИОНАЛЬНЫЕ ЯЗЫКИ И ИХ ВЗАИМОДЕЙСТВИЕ

УДК 811.161.2'1'324'38 (038)

СТАТИСТИЧНА СТРУКТУРА РОМАНУ 1ВАНА ФРАНКА "БОРИСЛАВ СМЮТЬСЯ"

Бук С.

Львовский национальный университет имени Ивана Франко, г. Львов, Украина E-mail: solomija@gmail.com

У статп з'ясовано поняття статистично! структуры тексту, яку на лексичному рiвнi, як правило, визначають за даними частотного словника (ЧС). На n^^^i ЧС роману I. Франка "Борислав смieться" отримано кiлькiснi характеристики тексту та зютавлено !х з вщповщними даними для iнших романiв письменника.

Ключовi слова: статистична структура тексту, частотний словник, кшьюсш характеристики тексту, багатство лексики.

Постановка проблеми. Статистична структура тексту (ССТ) — розподш час-тоти одиниць мови в текст!, що мае певну регуляршсть. Вiн рiзний для рiзних мов-них елементiв. Наприклад, статистичнi параметри стилiв, що встановлюються на рiзних рiвнях, мають неоднакову стилерозрiзнювальну потужнють для рiзних пар стилiв: бшьш спорiдненi стилi найвиразнiше розмежовуються на синтаксичному рiвнi, менш спорiдненi — на лексичному " [7, с. 239]. ССТ розумiеться як його кшьюсна органiзацiя, як його модель [6, с. 130].

ССТ описують певш закони й теоретичнi формули (Закон переваги, Закон Цшфа, Закон Мандельброта тощо). СТТ на рiвнi лексем, як правило, визначають за даними частотного словника (ЧС), що подае до кожно! реестрово! одинищ !! частотнiсть, тобто кiлькiсть вживання у текстi. Рiзниця мiж ССТ е одним iз критерив унаочнення вiдмiнностей мiж рiзними текстами, стилями, авторами. Ви-значенню й уточненню структурно-кiлькiсних закономiрностей будови тексту присвячеш роботи В. Перебийнiс, Н.Дарчук, М. Муравицько!, М. Арапова, Ю. Тулдави, P. Фрумкшо!, В. Левицького, Б. Головша та iнших авторiв, яю розгля-дають ЧС як лшгвютичну модель, вивчення яко! сприяе виявленню законiв функцiонування мови та мовлення. Так, ЧС укладено до творiв багатьох письменникiв (В. Шекспiра, В. Гюго, К. Чапека, М. Павича, Ф. Достоевського), у т. ч. й до поетичних [5] та прозових [2-4] творiв I. Франка.

Роман I. Франка "Борислав смiеться" (1881) привертав увагу багатьох мовознавщв (О. Горбача, З. Франко, О. Сербенсько!, I. Ощипко, С. Жилко, I. Щхоцького, I. Петличного), довгий час твiр входив у шкшьну програму як такий, у якому вперше вiдображено початковi форми революцшно! боротьби робiтництва та стихiйне пробудження його класово! свiдомостi, проте у лшгвостатистичному

СТАТИСТИЧНА СТРУКТУРА РОМАНУ ВАНА ФРАНКА "БОРИСЛАВ ...

ракурс вш ан^зуеться вперше. Такий пiдхiд до твору е логiчною частиною проекту квантитативно! параметризаци велико! прози I. Франка [1].

Важливою проблемою укладення ЧС е добiр джерел. У нашому випадку ними стали першодрук 1881-1882 рр. (див. рис. 1) та видання твору 1979 р. [8], як поза правописними вщмшностями е щентичними. Цiкавою орфографiчною деталлю тексту е використання у власних назвах на мющ сучасного "г" лггери латинсько! графiки "§": Оотлгб, Гаммершляg. Твiр друкувався у журналi "Сьвгг", видання яко-го припинилось, i роман залишився незакiнченим. До "Борислава..." I. Франко, як вщомо, не хотiв нi повертатися, не хопв його нi дописати, ш видати окремою книгою, мабуть тому, що його захоплення сощалютичним вченням з часом зменшилося, а зi смертю М. Драгоманова в 1895 р. втратилось.

Рис. 1 — Фрагмент першо! сторшки VIII роздшу роману 1вана Франка "Борислав смiеться", надрукованого у львiвському часопис "Сьвiт" 25 лютого 1882 р. (цен-тральну частину сторiнки займае портрет Михайла Максимовича).

Проектуючи ЧС "Борислава..." на прижиттеве видання, щкаво вiдзначити напи-сання частки -ся разом, на вiдмiну вiд шших Франкових романiв, в оригiнальних виданнях яких саме вона займае стало друге за частотшстю мiсце.

У ЧС розрiзнено омонiмiю, зведено фонетичш варiанти слiв, здiйснено струк-турну, морфолопчну та ономастичну анотацi!. Так, у ромаш виявлено 80 власних назв (у 2204 слововживаннях), серед яких кшьюсно домiнують власнi назви голов-них персонажiв: Бенедьо (306), Герман (261), Леон (252), Готл1б (128), Рифка (127), МатШ (119) та назва мюта Борислав (183).

115

У результат укладення ЧС роману "Борислав..." було отримано основш його кiлькiснi характеристики. Обсяг тексту (кшьюсть слововживань): 77 456, тобто серед творiв I. Франка, до яких укладено ЧС, це другий за величиною шсля "Пере-хресних стежок" (93 888), що перебiльшуe "Основи суспiльностi" (67 174), "Для до-машнього огнища" (44 840), "Великий шум" (37 005). Вщповщно, i обсяг словника словоформ (16 064), i обсяг словника лексем (8 576) у цьому творi також бшьшь

Зведений список лем п'яти згаданих творах велико1 прози мютить 20980 рiзних ств, що значно перевищуе Словник мови Т. Шевченка (6 116) та Г. Квггки-Основ'яненка (11 772).

Багатство словника, яке обчислюсться як вщношення обсягу словника лексем до обсягу тексту, обернено пропорцшне довжиш тексту, тобто, чим довший текст, тим потенцшно менше з'являеться у ньому нових слiв [6, с. 143]. Тому цей показник у "Борислаы..." (8 572/77 456 = 0,111) бшьший, шж у "Перехресних..." (0,106) i менший за iншi романи: "Основи..." (0,125), "Для домашнього..." (0,145), "Великий шум" (0,175),

Середня повторюванiсть слова у текстi — величина, обернена до попередньо1, i становить 9,04, тобто в середньому кожне слово трапляеться у текст 9 разiв. Проте ця величина дуже узагальнена, адже кiлькiсть ошв, що трапилися в романi один раз (hapax legomena) — 4 370, тобто вони займають бшьше, нiж половину словника (50,98%). Приблизно таю ж результати i для iнших творiв: у "Перехресних..." вони займають 49,18% словника, "Основах..." — 51,76%, "Для домашнього..." — 51,85%, "Великому шумГ'— 56,7%. Саме в них криеться основне багатство лексикону письменника.

За допомогою величини hapax legomena обчислюють i^^^ винятковосп словника (0,51) та тексту (0,056). Ц величини логiчно корелюють iз вiдповiдними дани-ми ЧС шших романiв: "Перехреснi..." (0,49/0,052), "Основи..." (0,52/0,065), "Для домашнього..." (0,52/0,075), "Великий шум" (0,57/0,099).

Протилежним до шдексу винятковосп е iндекс концентрацiï словника/тексту, що вказуе частку словника/тексту, яку займають слова iз великою частотою (умовно iз частотою 10 i бшьше). У тексп "Борислава..." таких ств 61 328, що становить 79,18% обсягу його тексту, а в словнику — 916, що становить 10,69% його словника. У "Перехресних..." вщповщш показники лопчно бшьшк 74 651 (79,5%) та 1 123 (11,3%), в решти творах меншого обсягу щ показники лопчно меншк в "Основах..." 51 021 (75,95%) та 796 (9,48%), "Для домашнього..." 32 516 (72,5%) та 598 (9,2%), "Великому шумГ' 25 456 (68,8%) та 479 (7,4%). В принциш, чим менше у тексп ви-сокочастотних ств, тим рiзноманiтнiша лексика тексту i навпаки. Отже, справджу-ються попередньо отримаш результати.

Унаочнити розподш кшькосп ств iз певною частотою залежно вiд цiеï частоти можна на графшу (рис. 2).

Треба зауважити, що цей графiк вiдрiзняеться вщ рангово-частотноï кривоï, хо-ча й отриманий за ïï даними i вiзуально дуже до неï подiбний.

На пiдставi отриманих рангово-частотно1' залежност та частотного спектру тексту було знайдено значення т. зв. h- i £-точки. Координати цих точок визначаються з умови рiвностi значень функци i аргумента [10, p. 17, 35]. Отримане значення h-точки 109 означае, що слово з частотою 109 мае ранг 109, а значення £-точки 20

116

СТАТИСТИЧНА СТРУКТУРА РОМАНУ ВАНА ФРАНКА "БОРИСЛАВ .

означае, що у текст е 20 слiв iз частотою 20. 1снують гiпотези, що щ точки можуть слугувати межею зон словника, де переважають семантичнi (самостшш) або синсемантичнi (службовi) частини мови [10, р. 18, 37]. Суттева вщмшнють мiж ци-ми значеннями, а також аналiз частотного списку, дае шдстави стверджувати, що така границя знаходиться посередине

Рис. 2 — Частотний спектр роману 1вана Франка "Борислав смiеться".

На думку польського науковця В. Маньчака, "Проблеми, яю розглядають мовознавцi, розпадаються насамперед на двi категори: 1) т, якi можна розв'язати за допомогою статистики i 2) тi, яких за допомогою статистики розв'язати не можна. Мовознавство, яке розумдать як точну науку, займаеться тiльки проблемами першо! категори. 1ншими словами, йдеться про те, щоби так формулювати проблеми, щоби 1х можна було розв'язати за допомогою статистики. Якщо це не можливо, ними не варто займатися, як не варто займатися жодними дослщженнями, про як наперед вщомо, що вони не можуть привести до висновюв, як можна перевiрити" [9, с. 8]. Характеристика роману у свпл статистично! лiнгвiстики, а саме визначення ССТ твору, безперечно, належить до проблем першого типу.

Висновки i перспектива. Таким чином, в результат анатзу ЧС роману "Борислав..." отримано важливi кшьюсш характеристики роману, як становлять стати-стичну структуру його тексту. Квантитативш параметри твору корелюють з аналогiчними величинами iнших ромашв I. Франка i дають змогу визначити його мюце серед них. ССТ роману у перспективi також може увиразнити лексичш особливостi твору, що становить окремий науковий штерес i стане темою подаль-шого дослiдження твору, оскiльки кiлькiсна та яюсна сторони мови та мовлення корелюють i взаемопов'язанi.

1000

10

100

частота

117

Список литературы

1. Бук С. Квантитативна параметризащя текста 1вана Франка: спроба проекту // 1ван Франко: Студи та матерiали. — Львiв, 2010 (у друщ); див. препринт arXiv:1005.5466v1 [cs.CL]. — Електронний ресурс <http://arxiv.org/abs/1005.5466>.

2. Бук С. Роман 1вана Франка "Для домашнього огнища" крiзь призму частотного словника / С. Н. Бук // Препринт arXiv:1006.0153v1 [cs.CL]. — Електронний ресурс <http://arxiv.org/abs/1006.0153>.

3. Бук С. Статистичш характеристики роману 1вана Франка "Основи суспшьносп" (на основi частотного словника твору) // Вюник: Проблеми украгнсько! термшологп. — Льв1в: Нацiональний унiверситет "Львiвська полiтехнiка". — 2010 (у друщ).

4. Бук С., Ровенчак А. Частотний словник роману 1вана Франка "Перехреснi стежки" // Стежками Франкового тексту. — Льв1в: Видавничий центр ЛНУ iменi 1вана Франка, 2007. — С. 138-369.

5. Лексика поетичних творiв 1вана Франка: Методичш вказiвки з розвитку лексики / уклад. I. I. Ковалик, I. Й. Ощипко, Л. М. Полюга. — Льв1в: ЛДУ, 1990. — 264 с.

6. Перебийшс В. С., Муравицька М. П., Дарчук Н. П. Частотш словники та 1х використан-ня.— К.: Наук. думка, 1985. — 204 с.

7. Статистичш параметри ститв / за ред. В. С. Перебийшс.— К.: Наук. думка, 1967.— 260 с.

8. Франко I. Борислав смieться // Зiбрання творiв у 50-ти томах. — Т. 15: Повгста та оповвдання. — К.: Наук. думка, 1979. — С. 256-480.

9. Manczak W. Problemy j^zykoznawstwa ogolnego. — Wroclaw; Warszawa; Krakow: Ossolineum, 1996. — 257 s.

10. Popescu I.-I. et al. Word frequency studies. — Berlin; New York: Mouton de Gruyter, 2009. — xii, 278 p.

Бук С. Н. Статистическая структура романа Ивана Франко "Борислав смеется" / С. Н. Бук // Ученые записки Таврического национального университета им. В. И. Вернадского. Серия «Филология. Социальные коммуникации». - 2010. - Т. 23 (62), № 3. - С. 114-118.

В статье выясняется понятие статистической структуры текста, определяемое на лексическом уровне, как правило, по данным частотного словаря (ЧС). На основании ЧС романа И. Франко "Борислав смеется" получены количественные характеристики текста, которые сравниваются с соответствующими данными других романов писателя.

Ключевые слова: статистическая структура текста, частотный словарь, количественные характеристики текста, богатство лексики.

Buk S. N. Statistical structure of Boryslav Laughs, a novel by Ivan Franko / S. N. Buk // Scientific Notes of Taurida V. I. Vernadsky National University. - Series: Philology. Social communications. - 2010. -Vol. 23 (62), No 3. - P. 114-118.

In the article, the notion of the statistical structure of text is explored. On the lexical level it is defined as a rule from the frequency dictionary data. On the base of Boryslav Smijet'sja [Boryslav Laughs], a novel by Ivan Franko, the quantitative parameters of text are obtained. They are compared with the respective data from other novels of the writer.

Key words: statistical structure of text, frequency dictionary, quantitative parameters of text, vocabulary richness.

Поступила в редакцию 01.09.2010 г

118

i Надоели баннеры? Вы всегда можете отключить рекламу.