Научная статья на тему 'Применение квантитативных корпусных методик для выявления церковнославянизмов в современном русском языке'

Применение квантитативных корпусных методик для выявления церковнославянизмов в современном русском языке Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
295
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНЫЕ ИССЛЕДОВАНИЯ / КВАНТИТАТИВНЫЕ КОРПУСНЫЕ МЕТОДЫ / ЗНАЧИМАЯ ЛЕКСИКА / ЦЕРКОВНОСЛАВЯНСКИЙ ЯЗЫК / СОВРЕМЕННЫЙ РУССКИЙ ЯЗЫК / РЕЛИГИОЗНЫЙ ХРИСТИАНСКИЙ ДИСКУРС / CORPUS STUDY / QUANTITATIVE CORPUS METHODS / LEXICAL MARKERS OF DISCOURSE / CHURCH SLAVONIC LANGUAGE / MODERN RUSSIAN LANGUAGE / RELIGIOUS DISCOURSE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Литвинцева Кристина Викторовна, Ляшевская Ольга Николаевна

В основе исследования лежит гипотеза о дискурсивной близости церковнославянского языка и религиозного христианского дискурса современного русского языка. При помощи корпусного статистического анализа показано, что с точки зрения лексического состава эта часть языка заметно сближается с церковнославянским языком, если сравнивать ее с неспециализированным современным русским языком. Это может служить доказательством специфичности исследуемой части языка, дополнительным доводом при решении вопроса о его отдельном статусе. Исследование проводится на материале Национального корпуса русского языка, а именно через сравнение данных Церковнославянского корпуса, Основного корпуса и входящего в него подкорпуса церковно-богословских текстов. С помощью критерия логического правдоподобия и метода главных компонент (PCA) выявляется пласт лексики современных текстов, которые предлагается считать церковнославянизмами; показано, что лексика разных знаменательных частей речи по-разному представляет «расстояние» между корпусами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Литвинцева Кристина Викторовна, Ляшевская Ольга Николаевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USE OF QUANTITATIVE CORPUS METHODS FOR DETECTION OF SLAVONICISMS IN MODERN RUSSIAN

The starting point of this study is the hypothesis of the discursive proximity of the Church Slavonic language and Christian religious discourse of the modern Russian language. Analysing lexical structure by means of quantitative corpus methods, we show that the latter is closer to Church Slavonic than to the mainstream modern Russian language. This can serve as a proof of the specificity of the register in question, an additional argument when deciding on its separate status. Our study is based on the material of the Russian National Corpus, namely the Church-Slavonic corpus, the Main Corpus and the Subcorpus of church-and-theologу texts. Using the log-likelihood criterion and PCA visualisations, we reveal the body of lexemes in Russian texts that can be considered Slavonicisms (церковнославянизмы) and show that the “distance” between the corpora can be measured differently if one takes into account adjectives, nouns and verbs separately.

Текст научной работы на тему «Применение квантитативных корпусных методик для выявления церковнославянизмов в современном русском языке»

Вестник ПСТГУ. Серия III: Филология.

2017. Вып. 53. С. 43-55

Литвинцева Кристина Викторовна, Национальный исследовательский университет

«Высшая школа экономики

Российская Федерация, 101000, г. Москва, Мясницкая ул., д. 20

tinalitvina@gmail.com

Ляшевская Ольга Николаевна,

Национальный исследовательский университет

«Высшая школа экономики».

Институт русского языка им. В. В. Виноградова РАН

Российская Федерация, 101000, г. Москва, Мясницкая ул., д. 20

olesar@yandex.com

Применение квантитативных корпусных методик

ДЛЯ ВЫЯВЛЕНИЯ ЦЕРКОВНОСЛАВЯНИЗМОВ

*

В СОВРЕМЕННОМ РУССКОМ ЯЗЫКЕ

В основе исследования лежит гипотеза о дискурсивной близости церковнославянского языка и религиозного христианского дискурса современного русского языка. При помощи корпусного статистического анализа показано, что с точки зрения лексического состава эта часть языка заметно сближается с церковнославянским языком, если сравнивать ее с неспециализированным современным русским языком. Это может служить доказательством специфичности исследуемой части языка, дополнительным доводом при решении вопроса о его отдельном статусе. Исследование проводится на материале Национального корпуса русского языка, а именно через сравнение данных Церковнославянского корпуса, Основного корпуса и входящего в него подкорпуса церковно-бо-гословских текстов. С помощью критерия логического правдоподобия и метода главных компонент (РСА) выявляется пласт лексики современных текстов, которые предлагается считать церковнославянизмами; показано, что лексика разных знаменательных частей речи по-разному представляет «расстояние» между корпусами.

Исследование посвящено изучению лексики религиозного христианского дискурса современного русского языка (ХУ111—ХХ1 вв.), т. е. языка проповедей, богословских эссе, религиозной прессы и других текстов, созданных христианами для обсуждения христианства как отдельного пласта современного русского языка. Будет сделана попытка при помощи корпусного статистического анализа

* Исследование выполнено при финансовой поддержке РГНФ, грант № 17-04-12064 «Разработка модулей НКРЯ для автоматической разметки и словарной поддержки старорусских и церковнославянских текстов».

К. В. Литвинцева, О. Н. Ляшевская

Введение

показать, что с точки зрения лексического состава эта часть языка заметно ближе к церковнославянскому, чем к неспециализированному современному русскому языку, что может служить доказательством специфичности исследуемой части языка, дополнительным доводом при решении вопроса о его отдельном статусе. В основе данного исследования лежит гипотеза о дискурсивной близости церковнославянского языка и религиозного дискурса современного русского языка.

Материал исследования

В нашем исследовании объектами сравнения выступают Церковнославянский корпус НКРЯ (далее ЦС) и церковно-богословский подкорпус современного русского языка (далее корпус ЦБ). ЦС НКРЯ — самый объемный из его исторических корпусов (4,7 млн словоупотреблений). Объем ЦБ — 4 млн словоупотреблений. В качестве референтного корпуса используются тексты Основного корпуса НКРЯ (далее ОК), созданные в 1950—2007 гг. Данные по этому корпусу получены из частотного словаря НКРЯ (объем выборки — 92 млн словоупотреблений)1.

Входящие в ЦС кодифицированные тексты, созданные в разные периоды, покрывают существенную часть всех функционирующих на этом языке текстов. Корпус включает Священное Писание (книги Ветхого и Нового Завета), литургические тексты (Минеи, Октоих, акафисты и др.), житийная литература, святоотеческие тексты (патерики, прологи и др.), указатели (Типикон, месяцеслов). При этом богослужебные тексты, безусловно, составляют большую часть текст когда-либо написанных на церковнославянском языке.

Несколько менее полно и адекватно представляет свой срез языка корпус ЦБ, однако он достаточно объемен и разнообразен, чтобы отражать религиозный христианский дискурс XVIII—XXI вв. Высокая активность в создании текстов церковно-богословской сферы связана с деятельностью митр. Платона (Левши-на), прот. С. Булгакова, прот. Г. Флоровского, митр. Антония (Сурожского), с публикацией Синодального перевода Евангелия и изданием Деяний Священного Собора. Среди жанров, представленных в ЦБ НКРЯ, преобладает проповедь, однако также имеются тексты таких жанров, как Священное Писание, послания, поучения, слова, жития, статьи, трактаты, дневники, указатели и др.

Среди лексических маркеров религиозной тематики (Бог, церковь, потир, батюшка) особое место занимают церковнославянизмы — лексемы, пришедшие из богослужебной практики и используемые в неиронической, нестилизаторской функции, но в рамках дискурсивной коммуникации2. Таким образом, в религиозном дискурсе современного русского языка церковнославянская по

1 Национальный корпус русского языка. URL: http://www.ruscorpora.ru/corpora-intro. html; Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.

2 Только один из 942 текстов, отнесенных к религиозной сфере функционирования, посвящен изучению ислама, однако он не оказывает существенного влияния на картину распределения лексики в религиозном дискурсе.

происхождению лексика используется в тех же значениях, что и в церковнославянском языке или в приближенных к ним3.

Методы исследования

Статистические методы исследования Исследование базируется на понятии значимой лексики, или лексических маркеров, наблюдаемых в определенном языковом срезе. Сам по себе факт частоты употребления слов в том или ином сегменте языка еще ничего не говорит об особой конституирующей роли рассматриваемой лексики для данного сегмента либо об уникальности самого сегмента, поскольку, например, частотные служебные союзы и предлоги почти всегда будут обнаруживаться в верхней части частотных списков разных стилей и жанров. Однако, сравнивая частоты слов в разных подкорпусах, можно получить списки значимой лексики для соответствующих сегментов языка.

В качестве метрики сравнения используется критерий отношения правдоподобия (log—likelihood), вычисляемый на основе следующей матрицы (табл. 1):

Таблица 1

Матрица абсолютных частот для вычисления коэффициента значимости LL-score

Подкорпус 1 Подкорпус 2

Частота a b

Размер c d

Эта метрика, широко используемая в корпусной лингвистике4, опирается на математическое ожидание частоты слова, исходя из доли вхождений слова в совокупном корпусе и относительного размера рассматриваемого подкорпуса. Например, ожидаемая частота E1 слова сёрдце в ЦБ составляет 1186 словоупотреблений (3967298 х 28677 / 95949705), а наблюдаемая частота — 6132 словоупотреблений, т. е. более чем в пять раз больше. Напротив, ожидаемая частота E2 того же существительного в ОК составляет 27 491 словоупотреблений, что больше наблюдаемой частоты в этом корпусе (22 545). Показатель критерия log—likelihood (LL-score) для этого слова составляет 1 1207 95, что значительно выше порога статистической значимости. При расчете метрики мы не принимаем во внимание, что корпуса ЦБ и ОК частично пересекаются, поскольку вклад ЦБ в ОК пренебрежимо мал.

3 См. об этом в работах: Добрушина Е. Р. Словарь христианской лексики: состав словника // Вестник ПСТГУ. Серия III: Филология. 2012. № 3(29). С. 105-113; Литвинцева К. В. Особенности функционирования трех фразеологизмов с лексемой Божий в религиозных и светских текстах // Вестник ПСТГУ. Серия III: Филология. 2014. № 4 (39). С. 67-81.

4 LL-score = 2-(a-ln(a / E1) + b4n(b /E2)); где E1= c(a+b)/(c+d); E2 = d-(a+b)/(c+d). См. Rayson P., GarsideR. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6. Отношение правдоподобия учитывает как относительную частоту (во сколько раз чаще слово встречается в одном корпусе по сравнению с другим), так и абсолютную частоту (см. Ляшевская, Шаров. Указ. соч., с. VIII).

Таблица 2

Частота существительного сердце в ЦБ и ОК и размер соответствующих корпусов

ЦБ ОК Всего

Частота 6 132 22 545 28 677

Размер 3 967 289 91 982 416 95 949 705

В качестве еще одного способа анализа ассоциации лексики с тем или иным из рассматриваемых корпусов был выбран метод главных компонент (principal component analysis, PCA)5. Метод основан на понятии расстояния (х2) в векторном пространстве, в котором каждое исходное измерение задается частотами слов в определенном корпусе. В нашем случае три измерения задаются осями ЦС, ОК и ЦБ. Чем меньше угол между вектором слова и одной из осей, тем больше слово ассоциируется с соответствующим корпусом, иными словами, тем больше его вклад в корпус. Метод PCA позволяет перевести координаты точек-лексем на плоскость таким образом, что можно визуально выделить кластеры, ассоциированные с тем или иным корпусом. Перед применением метода абсолютная частота слов была логарифмирована.

Установление лексических соответствий

В качестве предварительной процедуры словники корпусов были леммати-зированы, а именно, при помощи морфологического анализатора МуБ1еши словаря А. Е. Полякова6 все словоформы одного слова были приведены к начальной, словарной форме (лемме). Ошибки лемматизации были устранены вручную, кроме того, вручную были разведены леммы глаголов разного вида.

Затем были найдены соответствия лемм в трех корпусах. Под лексическими соответствиями (аналогами) мы понимаем условно идентичные по внешней и внутренней форме лексемы, морфологическая форма которых одинакова, а основные значения не имеют существенных отличий (агнецъ — агнец, хладный — холодный). Здесь следует сделать несколько оговорок. Некоторые из сопоставляемых лексем могут быть признаны вслед за О. А. Седаковой церковнославяно-русскими паронимами, т. е. близкими по написанию и звучанию словами родственных языков7 (например, структура значений и частот их использования у церковнославянских лексем сын и слово принципиально отличается от наблюдаемой картины в современном русском языке). Лексемы типа слава в большинстве случаев имеют разную семантику в ЦС и современном русском языках. Однако нам важно, что такие слова имеют сходную семантику в церковнославянском языке и религиозном дискурсе современного русского

5 См. Levshina N. How to do Linguistics with R. John Benjamins, 2015. P. 353—361. Для анализа данных и построения графиков использовался язык R, библиотеки FactoMineR и factoextra.

6 См.: Mystem+ [Электронный ресурс]. URL: http://web-corpora.net/wsgi/mystemplus.wsgi/ mystemplus/; Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram/

7 Седакова О. А. Предисловие // Словарь трудных слов из богослужения: Церковнославяно-русские паронимы. М., 2008. С. 1—12.

языка (отражаемом в ЦБ). Кроме того, в большинстве случаев семантическая разница между лексическими аналогами в церковнославянском и русском языках не оказывает существенного влияния на общую картину распределения лексики. По этой причине в данном исследовании используется термин «лексический аналог» для обозначения внешне схожих лексических единиц близкой семантики.

В ходе построения частотного списка ЦБ нами были приняты некоторые технические решения, призванные сделать его единообразным. Среди таких решений следует назвать:

1. Нивелирование паронимов. В отличие от словаря О. А. Седаковой перед нами не стояли просветительские задачи толкования значений, нам необходимо было получить общую картину представления церковнославянизмов в религиозном дискурсе современного русского языка. Поэтому, например, русским лексическим аналогом церковнославянской лексемы добрый, часто употребляемой в значении «красивый», мы считали лексему добрый, обычно употребляемую в значении «хороший».

2. Унифицирование морфемного состава лексических аналогов. Русские лексические аналоги устанавливаются, исходя из известных свойств церковнославянизмов, таких как неполногласие; начальные а-, у-, э-; щ вместо русского ч; жд вместо ж; специфические окончания типа -ие и др. Так, например, церковнославянской лемме премтняти в нашей системе соответствует лемма переменять.

Естественно, что такая унификация сопряжена с некоторыми «шероховатостями». Например, при наличии двух аналогов, как в случае с церковнославянской леммой сребряный, для которой в русском языке сосуществует два аналога: собственно церковнославянизм сребряный и собственно русский вариант — серебряный, нам необходимо было принять решение в пользу одной леммы. Иначе возникнет избыточность при подсчете: наличие двух аналогов одной леммы вдвое увеличит ее шансы на попадание в топ значимой лексики и, соответственно, исказит общую картину. В случае с леммой сребряный (как и в большинстве аналогичных) решение было принято в пользу заметно преобладающего по частоте аналога серебряный. Резюмируя, следует признать, что лексическим аналогом церковнославянской леммы практически всегда становилось ее исконно русское однокоренное соответствие, однако каждый трудный случай всегда делался предметом особого внимания.

Значимая лексика церковнославянского и церковно-богословского корпусов

Мы сравнили попарно корпуса ЦС и ОК, а затем корпуса ЦБ и ОК, чтобы выявить значимую лексику ЦС и ЦБ-корпусов на фоне лексического фонда современного русского языка. В табл. 3(а) приведен список полнозначных слов ЦС, отсортированный в порядке убывания LL-score, в табл. 3(б) — аналогичный список для ЦБ-корпуса (здесь и далее леммы приводятся в современном написании).

Таблица 3

Значимая лексика ЦС и ЦБ корпусов, упорядоченная по убыванию коэффициента LL-score

(а) Значимая лексика ЦС-корпуса

Лемма ipm, ЦС ipm, ОК score

Господь 8 594 58 211 866

глас 25 387 6 148 526

Бог 40 265 425 137 359

святой 27 230 140 115 709

ныне 21 401 56 103 930

слава 23 996 120 102 519

глаголать 14 294 1 85 524

Христос 19 970 101 85 081

ирмос 11 381 1 68 233

божественный 13 096 36 63 055

радоваться 12 152 58 52 550

дева 9 785 16 50 738

богородица 8 854 8 48 241

приять 8 119 3 46 700

молитва 9 691 52 40 735

вопиять 6 767 2 39 585

душа 16 186 357 38 981

петь 11 698 143 37 668

Божий 10 482 100 37 122

преподобный 7 920 26 37 069

Господень 6 179 1 36 744

тропарь 5 976 3 33 736

сын 13 510 285 33 374

единый 11 082 161 33 113

стих 6 352 11 32 551

(б) Значимая лексика ЦБ-корпуса

Лемма ipm, ЦБ ipm, ОК score

Бог 6 133 425 73 846

Божий 3 437 100 56 887

Христос 2 906 101 45 587

Господь 2 451 58 42 834

церковь 3 097 179 40 470

святой 2 264 140 28 750

Иисус 1 496 34 26 432

молитва 1 508 52 23 737

дух 1 925 154 21 652

грех 1 266 72 16 692

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вера 1 645 165 16 316

духовный 1 382 104 16 029

христов 913 26 15 256

апостол 832 22 14 160

преподобный 807 26 13 021

человек 6 281 2 723 12 674

евангелие 784 25 12 582

жизнь 4 054 1 390 12 477

учение 861 47 11 542

любовь 1 758 324 11 237

сердце 1 546 245 11 208

благодать 610 13 10 970

душа 1 716 357 9 792

христианин 633 23 9 754

старец 587 17 9 731

Среди значимой лексики как ЦС, так и ЦБ мы наблюдаем слова семантически соотносимые с Богом (Бог, Божий, Господь), церковью (молитва), святыми (святой, преподобный), человеком (душа). Однако мы не можем говорить об абсолютном совпадении лексики в анализируемых корпусах, причиной чему в большей мере служит факт попадания в верхнюю часть списка значимой лексики ЦС собственно богослужебной лексики (глас, ныне, слава, ирмос, радоваться, петь, тропарь, стих). Такое распределение значимой лексики в корпусах объясняется тем, что церковнославянский язык — это прежде всего богослужебный язык, тогда как в современном русском языке религиозный дискурс служит скорее для комментирования богослужения, Священного Писания, догматов и т. п. В то же

время в целом на основании сопоставления значимой лексики ЦС и ЦБ мы можем говорить не только о лексических аналогах в церковнославянском языке и религиозном дискурсе русского языка, но и о наличии общих семантических полей, включающих лексику близкой семантики, группирующуюся вокруг таких ядерных слов, как Бог, церковь, святой, человек.

Следует отдельно оговорить, что лексема приять, несмотря на наличие лексического аналога в русском языке (принять), была проанализирована именно в форме церковнославянизма ввиду своей высокой частотности в ОК. А для лексемы вопиять, например, не учитывался формальный аналог вопить по причине расхождения в семантике (взывать vs. орать).

Среди служебной лексики значимыми оказываются, во-первых, замещенные в современном русском языке другими словами местоимения (аз, сий, сие, той, иже), союзы (яко, ибо, аще), неполногласные предлоги (пред, чрез). Во-вторых, в круг значимой лексики попадают личные и притяжательные местоимения 1-го и 2-го лица (мы, наш, твой), отражающие диалогические отношения между богом и человеком.

Итак, на основании полученных статистических данных можно сделать вывод о лексической близости церковнославянского языка и религиозного дискурса современного русского языка, представленного в ЦБ. Статистическое сравнение частотности лексики по этим корпусам показывает, что пласт ЦБ-текстов современного русского языка и церковнославянские тексты имеют общее ядро, и что это ядро в религиозном дискурсе современного русского языка составляют те лексемы, которые могут быть названы церковнославянизмами.

Сопоставление лексики трех корпусов с помощью метода главных компонент

Критерий LL-score не позволяет сравнивать более двух корпусов; помимо этого, он используется для выявления различий в словоупотреблении (лексических маркеров), а не сходства. С помощью метода главных компонент (РСА) мы получили три графика, отражающих относительную частоту функционирования наиболее частотных имен прилагательных, существительных и глаголов сразу в трех корпусах.

На рис. 1—3 вектора условно изображают на плоскости три домена (в ЦС, ЦБ и ОК). Чем ближе точка, символизирующая лексему, к одному из доменов по горизонтали (первая компонента) или по вертикали (вторая компонента), тем в большей степени эта лексема ассоциируется с этим доменом. На графике, изображенном на рис. 1, имена прилагательные, расположенные справа от начала координат (большой, самый, другой, новый), ассоциированы с корпусом ОК и, в меньшей степени, с корпусом ЦБ; прилагательные, расположенные слева, ассоциированы с ЦС (честный, божественный, преподобный). Кластер святой и Божий равно близок к ЦС и ЦБ, но явно недопредставлен в ОК. Чем дальше слово отстоит от начала координат, тем более неравномерно распределение его частоты (в пользу некоторого домена). Как видно, прилагательные большой и честный демонстрируют самое неравномерное распределение, причем большой недопредставлен в ЦС (ср. велии и др. синонимы), а честный — в ЦБ.

т 1 1 *ЦБ

ЦС СВЯТОЙ *.

6о[кий 1 другой

великий | • / < сам

преподобны!. _божественЛЙ$ > :ристов \ 1 / N. 1 / первый самый •

небесный » * единый { 1 новый - - *

господень г • > юдобный

чистый -й- • 1

* честные \ 1 1 • 1

1 1 1

1' ( 1 большой*

. . I I 1

-2-1012

□¡т1 (51.4%)

Рис. 1. Частотные имена прилагательные в корпусах ЦС, ЦБ и ОК: визуализация методом главных компонент

Анализируя рис. 2 аналогичным образом, можно прийти к выводу, что имена существительные людие, ирмос и богородичен (т. е. богослужебная лексика, лексика акафистов, ирмологиев и т. п.) представляют в основном ЦС, но не ЦБ. Существительные Бог, Господь и Христос ассоциированы и с ЦС, и с ЦБ (причем Господь — больше с ЦС), а слова раз, год, работа «предпочитают» ОК. Вместе с тем мы видим, что среди имен существительных наблюдается много таких, которые не обнаруживают заметных частотных преференций ни к одному из корпусов (ср. свет, страсть, Иисус). Это связано с тем, что, в отличие от имен прилагательных, в верхнюю часть кумулятивного списка частотной лексики попадает много высокочастотных существительных, у которых частотные распределения не зависят от рассматриваемых нами доменов.

Помимо вклада каждой из индивидуальных лексем в частоту того или иного домена, визуализация с помощью PCA позволяет оценить «расстояние» между корпусами на основе полученных частотных распределений. Вопреки первоначальной гипотезе, ЦБ-корпус неизменно оказывается ближе к ОК, чем к ЦС, однако же его вектор неизменно отклоняется в сторону последнего. Это наблюдение можно прокомментировать таким образом, что, несмотря на наличие большого пласта церковнославянизмов, в верхней части частотного списка присутствует много слов, распределение частот которых в ОК и ЦБ похоже.

Как следует из рис. 3, менее всего ЦБ и ОК противопоставляются по глагольной лексике. В обоих корпусах редко встречаются такие церковнославянизмы, как глаголать, приять, вопиять, в то время как в ЦС реже представлены глаголы

Рис. 2. Частотные имена существительные в корпусах ЦС, ЦБ и ОК: визуализация методом главных компонент

* быть

цс\

радоваться р "еть М ЗСТИ аг иметь * ВЫПОТ!. .МОЧЬ___- ЦЬ

глаголать дат^^----

Г сотворить. • * явиться вопиять -----ко тетсг--- идти стать

• • приять родить знать • _1_1

сказать

ГО ВОИ ИТ ь

1

01гл1 (69.7%)

Рис. 3. Частотные глаголы в корпусах ЦС, ЦБ и ОК: визуализация методом главных компонент

говорить и сказать. В целом глаголы, расположенные левее начала координат, ассоциируются с ЦС, а глаголы, расположенные справа, — с ЦБ и ОК-корпусами. Расположение глагола быть в верхней правой четверти отражает роль этого глагола как грамматического показателя в домене ЦС, но еще больше — как конституирующего ряд более специфичных для ЦБ конструкций (ср. человек есть образ Божий; этому есть причина; модальный маркер может быть).

Таким образом, метод главных компонент удачно дополняет статистические методы выделения значимой лексики, позволяя оценивать «тривергенцию» (т. е. относительное распределение лексики в трех корпусах), ранжировать значимую (на фоне ОК) лексику и делая возможным определить долю пересечений частотного лексического состава корпусов как корреляцию/ковариацию частотных показателей.

Выводы

На основе полученных данных: 1) близких по количеству совпадений списков значимой лексики для ЦБ и ЦС, а также 2) сближения расстояния между этими двумя корпусами представляется обоснованным утверждать, что ЦБ и ЦС в достаточной мере лексически близки друг другу. Выявлена лексика русских церковно-богословских текстов, значимо отличающаяся по частоте употребления от общей лексики современного русского языка и имеющая аналоги среди лексических маркеров церковнославянского языка.

Кроме церковнославянизмов, в ЦБ-текстах был выявлен иной частотный тип лексики: теологические термины. Этот тип лексики также является конституирующим для ЦБ и, соответственно, для религиозного дискурса современного русского языка. Однако это та часть значимой лексики, что выступает маркером отличия церковно-богословских текстов на русском языке от текстов на церковнославянском языке.

Некоторые вопросы, тем не менее, остаются для дальнейшего исследования. Так, в силу того, что при подсчете частотности использовались только лексемы, встречающиеся в корпусе более 10 раз, более 600 лемм остались за рамками проводимого анализа. В то же время, принимая решение об игнорировании части лексем при расчетах, мы исходили из представления о том, что если некоторая лексема частотна менее чем в 80% случаев, то, в соответствии с распределением Ципфа, вероятность ее попадания в список значимой лексики ничтожно мала. Тем не менее всегда остается небольшая вероятность того, что какая-то значимая лемма останется за границами списка, поэтому в будущем имеет смысл произвести расчеты также для низкочастотных лексем.

Еще одна проблема примененной методики — неоднородный частеречный состав лексики. Так, в силу регулярности употребления у глаголов обычно не наблюдается значительного сдвига семантики в диахронии: глаголы типа печь, грести, петь сохраняют изначальное значение, тогда как существительные и прилагательные, например, достаточно часто или переходят в разряд устаревших (очи, десный), или изменяют семантику (единица, добрый). Таким образом, существительные и прилагательные, являющиеся лексическими аналогами цер-

ковнославянских лексем, скорее можно будет признать церковнославянизмами, чем глаголы.

Кроме того, без последовательного контекстуального анализа всех текстов оказывается невозможным различение наречий на -о/-е (Кате стало хорошо) и среднего рода прилагательных на —о/-е (платье было хорошо), поэтому возможные морфологические различия между ними были нами проигнорированы. В дальнейшем может быть проведена работа по различению лексем данных морфологических категорий.

Безусловно, отдельного эксперимента заслуживает применение и сопоставление эффективности других статистических мер, используемых для составления контрастных ранжированных списков лексики. Ср. в этой связи, например, меры дивергенции Кулльбака—Ляйблера, энтропии Йенсена—Шеннона и др., включая варианты их оптимизации, а также методики их использования для

сравнения трех корпусов (тривергенции)8.

* * *

В соответствии с принципами открытости и воспроизводимости научных исследований данные, использованные в настоящей публикации, и скрипт R для их обработки доступны по адресу: https://github.com/olesar/Reproducible-Research/upload/master/lexicon-of-church.

Ключевые слова: корпусные исследования, квантитативные корпусные методы, значимая лексика, церковнославянский язык, современный русский язык, религиозный христианский дискурс.

Список литературы

Добрушина Е. Р. Словарь христианской лексики: состав словника // Вестник ПСТГУ. Серия III: Филология. 2012. № 3 (29). С. 105-113. Литвинцева К. В. Особенности функционирования трех фразеологизмов с лексемой Божий в религиозных и светских текстах // Вестник ПСТГУ. Серия III: Филология. 2014. № 4 (39). С. 67-81.

Литвинцева К. В. «Церковнославянизм» как лингвистический термин // Вестник Орловского государственного университета. 2015. № 6 (47). С. 264-267. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М., 2009. URL: http://dict.ruslang.ru/ freq.php

Национальный корпус русского языка. URL: http://www.ruscorpora.ru/corpora-intro.html Поляков А. Е. Грамматический словарь церковнославянского языка (по материалам корпуса). URL: http://feb-web.ru/febupd/slavonic/dicgram/ Седакова О. А. Словарь трудных слов из богослужения: Церковнославяно-русские паронимы. М., 2008.

8 Cm.: Oakes M. P. Statistical Measures for Corpus Profiling // Proceedings of the Open University Workshop on Corpus Profiling, London, UK, 2008; Mehri A., Darooneh A. H. The role of entropy in word ranking // Physica A: Statistical Mechanics and its Applications 390 (s 18-19), 2011. P. 3157-3163 h gp.

Mehri A., Darooneh A. H. The role of entropy in word ranking // Physica A: Statistical Mechanics

and its Applications 390 (s 18-19), 2011. P. 3157-3163. Mystem+ . URL: http://web-corpora.net/wsgi/mystemplus.wsgi/mystemplus/6. Oakes M. P. Statistical Measures for Corpus Profiling // Proc. of the Open University Workshop

on Corpus Profiling. London, UK, 2008. Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL, 2000. P. 1-6.

St. Tikhon's University Review. Litvintseva Kristina,

Series III: Philology. Graduate Student,

2017. Vol. 53. P. 43—55 National Research University "Higher School of Economics

20 Miasnitskaia str., Moscow, 101000, Russian Federation tinalitvina@gmail.com Lyashevskaia Olga, Candidate of Sciences in Philology, National Research University "Higher School of Economics Institute of Russian Language, Russian Academy of Sciences, 20 Miasnitskaya str., Moscow, 101000, Russian Federation olesar@yandex.ru

Use of Quantitative Corpus Methods for Detection of Slavonicisms in Modern Russian

K. Litvintseva, O. Lyashevskaia

The starting p oint ofthis study is the hypothesis ofthe discursive proximity ofthe Church Slavonic language and Christian religious discourse of the modern Russian language. Analysing lexical structure by means of quantitative corpus methods, we show that the latter is closer to Church Slavonic than to the mainstream modern Russian language. This can serve as a proof of the specificity of the register in question, an additional argument when deciding on its separate status. Our study is based on the material of the Russian National Corpus, namely the Church-Slavonic corpus, the Main Corpus and the Subcorpus of church-and-theology texts. Using the log-likelihood criterion and PCA visualisations, we reveal the body of lexemes in Russian texts that can be considered Slavonicisms (церковнославянизмы) and show that the "distance" between the corpora can be measured differently if one takes into account adjectives, nouns and verbs separately.

Keywords: corpus study, quantitative corpus methods, lexical markers of discourse, Church Slavonic language, modern Russian language, religious discourse.

References

Dobrushina E. R., "Slovar' khristianskoi leksi-ki: sostav slovnika", in: Vestnik PSTGUIII: Filologiia, 3 (29), 2012, 105-113. Levshina N., How to Do Linguistics with R. John

Benjamins, 2015. Liashevskaia O. N., Sharov S. A., Chastot-nyi slovar' sovremennogo russkogo iazyka (na materialakh Natsional'nogo korpusa russkogo iazyka). Moscow, 2009. Litvintseva K. V., "Osobennosti funktsio-nirovaniia trekh frazeologizmov s leksemoi Bozhii v religioznykh i svetskikh tekstakh", in: Vestnik PSTGU III: Filologiia, 4 (39),

2014, 67-81.

Litvintseva K. V., "Tserkovnoslavianizm kak lingvisticheskii termin", in: Vestnik Orlov-skogo gosudarstvennogo universiteta, 6 (47),

2015, 264-267.

Mehri A., Darooneh A. H., "The role of entropy in word ranking", in: Physica A: Statistical Mechanics and its Applications, 390, 2011, 3157-3163.

Natsional'nyi korpus russkogo iazyka, available at: http://www.ruscorpora.ru/corpora-in-tro.html.

Oakes M. P., "Statistical Measures for Corpus Profiling", in: Proceedings of the Open University Workshop on Corpus Profiling, London, UK, 2008.

Rayson P., Garside R.,"Comparing corpora using frequency profiling", in: Proceedings of the Comparing Corpora Workshop at ACL, 2000, 1-6.

Sedakova O. A., Slovar' trudnykh slov iz bogo-sluzheniia: Tserkovnoslaviano-russkie paro-nimy, Moscow, 2008.

i Надоели баннеры? Вы всегда можете отключить рекламу.