Полилингвиальность и транскультурные практики
Polylinguality and Transcultural Practices ISSN 2618-897X (print), ISSN 2618-8988 (online)
2022 Том 19 № 2 252-263
http://journals.rudn.ru/education-languages
DOI 10.22363/2618-897X-2022-19-2-252-263
Научная статья
Карачаево-балкарский роман: опыт дальнего чтения
Аннотация. В статье впервые проводится апробация отдельных методов дальнего чтения на материале карачаево-балкарских романов. Объектом исследования служат тексты 55 художественных произведений на карачаево-балкарском языке (преимущественно романов). На материале анализируемых текстов, а также некоторой сопроводительной метаинформации делаются выводы о динамике публикационной активности в отношении карачаево-балкарских романов, в частности указывается на беспрецедентное снижение такой активности в период с 2011 г. (обнаружено всего два опубликованных романа в этот период). Впервые к образцам карачаево-балкарской литературы применен метод вычисления межтекстового расстояния Delta (с дальнейшей древовидной кластеризацией), в очередной раз подтвердивший свою высокую эффективность в вопросах атрибуции текстов. Помимо безошибочной атрибуции анализируемых текстов, сгенерированная древовидная структура характеризуется наличием двух ветвей (карачаевской и балкарской), а также двух подветвей в составе балкарской ветви. При этом внутрибалкарские диалекты не находят отражения на дереве. Обнаружено проявление хронологического принципа: произведение, наиболее отстоящее на дереве от других произведений того же автора, всегда опубликовано или раньше всех остальных, или позже всех остальных.
Ключевые слова: карачаево-балкарский роман, дальнее чтение, публикационная активность, стилометрия, межтекстовое расстояние, метод Дельта, кластерный анализ
История статьи: поступила в редакцию: 04. 02.2022; принята к печати: 04. 04.2022
Конфликт интересов: отсутствует
Для цитирования: Берберов А.Б. Карачаево-балкарский роман: опыт дальнего чтения // Полилингвиальность и транскультурные практики. 2022. Т. 19. № 2. С. 252—263. DOI 10.22363/2618-897X-2022-19-2-252-263
© Берберов А.Б., 2022
iiccl © 1 This work is licensed under a Creative Commons Attribution 4.0 International License i^WiH https://creativecommons.org/licenses/by/4.0/
А.Б. Берберов
, ш
Российское энергетическое агентство, Российская Федерация, 129085, Москва, Проспект Мира, 105, стр. 1 Н [email protected]
Research Article
Karachay-Balkarian Novel: Distant Reading Practice
A.B. Berberov
Russian Energy Agency, Building 1, Prospect Mira 105, Moscow, 129085, Russian Federation H [email protected]
Abstract. The article for the first time tests some methods of distant reading on the material of Karachay-Balkarian novels. The object of the study is the texts of 55 fiction works in the Karachay-Balkar language (mainly novels). Based on the analyzed texts, as well as some related meta-information, conclusions are drawn about the dynamics of publication activity in relation to Karachay-Balkarian novels — in particular, an unprecedented decrease in such activity since 2011 is indicated (only two published novels were found during this period). For the first time, the method Delta for calculation of intertextual distances (together with tree-like clusterization) was applied to the samples of Karachay-Balkarian literature, once again confirming its high efficiency. In addition to the unmistakable attribution of the analyzed texts, the generated tree structure is characterized by the presence of two branches (Karachay and Balkarian), as well as two sub-branches within the Balkarian branch. At the same time, intra-Balkarian dialects are not revealed on the tree. The chronological principle has been found: the work located the furthest on the tree from the other works of the same author is always published either earlier than all the others, or later than all the others.
Key words: Karachay-Balkarian novel, distant reading, publication activities, stylometry, intertextual distance, method Delta, cluster analysis
Article history: Received: 04.02.2022; Accepted: 04.04.2022
Conflict of interests: none
For citation: Berberov, A.B. 2022. "Karachay-Balkarian Novel: Distant Reading Practice". Polylinguality and Transcultural Practices, 19 (2), 252—263. DOI 10.22363/2618-897X-2022-19-2-252-263
Введение
Карачаево-балкарская литература прошла сложный путь развития, вбирая в себя как фольклорное наследие родного народа, так и художественный опыт развитых литератур [1]. Возникшая после Октябрьской революции [2; 3], она на протяжении ХХ в. демонстрирует активное освоение самых разнообразных жанров — в полном соответствии с теорией ускоренного развития Георгия Гачева [4].
Формирование жанра романа в карачаево-балкарской прозе явилось важным этапом в развитии художественного мышления. Кайсын Кулиев писал: «Если роман в какой-нибудь из молодых литератур уже занял свое место и утвердился в ней, то обычно говорят о зрелости данной словесности» [5. С. 2]. Следуя этой идее, стоит признать зрелость карачаево-балкарской литературы, так как к 2022 г. она насчитывает порядка 50 романов, многие из которых вошли в сокровищницу кавказской, тюркской и мировой художественной мысли.
Параллельно с романным творчеством развивается и литературоведение: исследованию карачаево-балкарского романного жанра посвящали работы Ф. Урус-биева, А. Теппеев, З. Толгуров, А. Мусукаева, Ф. Гулиева (Занукоева), С. Акачи-ева, А. Сарбашева и др. Если в 1974 г. Алим Теппеев писал, что «в целом литературная критика и литературоведение еще сильно отстают от уровня балкарской литературы» [2. С. 7], то по состоянию на 2022 г. можно говорить об устранении такого отставания.
При этом все еще остаются отдельные направления, практически не затронутые карачаево-балкарским литературоведением. К таковым, в частности, относится исследовательская стратегия distant reading [6], название которой может быть переведено на русский язык как «дистанцированное, отвлеченное чтение» или «дальнее чтение». Такое «дальнее чтение» в противоположность «медленному чтению» предполагает, что «литературовед не сносится с текстом напрямую, а пытается уловить значимые для литературы тенденции опосредованно, через модели, в основу которых положена извлеченная из исходного текста и систематизированная информация» [7. С. 9]. Как отмечает лингвист Б. Орехов, «исследователь способен прочесть за отведенное ему время конечное число художественных произведений, а посвятить полному объему сложно организованных текстов достойное количество времени и сил для выявления и осмысления всех нюансов — задача нереализуемая. Меж тем литературная традиция в целом как система, как комплексный объект, — предмет, взывающий к изучению в не меньшей степени, чем отдельный текст. И отвлеченное чтение дает возможность обозреть традицию (или хотя бы масштабный набор текстов) целиком» [7. С. 9].
Концепция дальнего чтения охватывает большое количество инструментов, направленных на решение самых разнообразных задач. В настоящей работе мы ограничиваемся решением двух задач:
— дать количественную оценку карачаево-балкарских романов на основе доступных текстов, с учетом диалектной принадлежности и времени публикации;
— провести компьютерный анализ индивидуальных авторских стилей с последующей графической кластеризацией произведений.
Методы и объект исследования
Для решения поставленных задач применяются следующие инструменты:
— программа Microsoft Excel — для составления сводной таблицы анализируемых произведений и визуализации столбиковой диаграммы;
— программа Stylo — для древовидной кластеризации анализируемых произведений на основе вычисления межтекстовых расстояний.
Объектом исследования послужила коллекция из 55 произведений на карачаево-балкарском языке (табл. 1). Основополагающие принципы формирования такой коллекции:
— основа коллекции — романы (в количестве 50 штук), однако для тестирования ряда гипотез добавлено пять повестей (отмечены звездочками в табл. 1);
— основной источник текстов — электронная библиотека Фонда «Эльбрусоид» (http://www.elbrusoid.org/library/);
— подавляющее большинство известных нам романов могут быть обнаружены на этом ресурсе, однако отдельные карачаево-балкарские романы по состоянию на 10.04.2022 отсутствуют;
— все выгружаемые с электронной библиотеки тексты сохранялись в формате .txt и подвергались минимальным корректорским правкам: удалению вспомогательных элементов текста (как правило, русскоязычных) и корректировке ряда ошибок при сканировании.
Таблица 1 /Table 1
Объект исследования/Study object
Автор/ Author Название произведения/ Title of literary text Год публикации/ Year of publication Примерное количество слов/ Words' quantity
Акаев Тахир Хакийкат уахтысы 2005 86 000
Акаев Тахир Жарыкъ толкъун 2012 123 000
Аппаев Хасан Къара кюбюр 1958 86 000
Байчоров Магомет Уллу Къарачайда 1967 84 000
Байрамукова Халимат Къарчаны юйдегиси 1961 53 000
Байрамукова Халимат Джылла бла таула 1964 102000
Байрамукова Халимат Чолпан 1970 104 000
Байрамукова Халимат Мёлек 1981 73 000
Байрамукова Халимат Онтёрт джыл 1990 74 000
Гадиев Ибрагим Санга айтама* 1959 45 000
Гадиев Ибрагим Нарт уя 1982 122000
Гуртуев Берт Жангы талисман 1970 120000
Гуртуев Берт Адилгерий 1988 31 000
Гуртуев Салих Ёксюзле жулдузну сарыны 2010 68 000
Гуртуев Эльдар Малкъарбеклары* 1977 93 000
Гуртуев Эльдар Шамсудин къаласы 1982 79 000
Залиханов Жанакаит Тау къушла 1962 110 000
Залиханов Жанакаит Жаннган жюрекле 1970 121 000
Залиханов Жанакаит Бахсан жулдузу 1984 90 000
Залиханов Жанакаит Эки тюбешиу 1985 125000
Кагиева Назифа Джулдузла джукъланмайдыла* 1968 84 000
Кагиева Назифа Тейри джарыкъ 1985 118 000
Кагиева Назифа Къарча 1994 122000
Кациев Хабу Тамата 1971 65 000
Коркмазов Кёккёз Горда бычакъ (2) 1974 74 000
Коркмазов Кёккёз Хорланнган аджал 1979 39 000
Коркмазов Кёккёз Горда бычакъ (3) 1984 57 000
Кубанов Ахмат Кюн таякъла* 1971 53 000
Кубанов Ахмат Сыналгъан джылла* 1975 58 000
Кубанов Дахир Таулада таууш 1963 91 000
Кубанов Дахир Эки заман 1968 49 000
Кучинаев Магомет Айыу бла кертме ашаргъа базыннган 1987 117 000
Кучинаев Магомет Уллу Малкъар 1991 106000
Кучинаев Магомет Кюн балалары 1997 195 000
Лайпанов Билал Къазауат 2015 128000
Теппеев Алим Ташуюл 1976 118 000
Теппеев Алим Ас-Тах 2002 78 000
Окончание табл. 1/End of Table 1
Автор/ Author Название произведения/ Title of literary text Год публикации/ Year of publication Примерное количество слов/ Words' quantity
Теппеев Алим Баязир 2002 77 000
Теппеев Алим Алтын Хардар 2006 132 000
Токумаев Жагафар Дерти къама 1976 73 000
Токумаев Жагафар Къурч бюгюлмейди 1979 105000
Токумаев Жагафар Жукъусуз тала 1983 77 000
Токумаев Жагафар Мени ёмюрюм 2004 110 000
Толгуров Зейтун Жетегейле 1982 118 000
Толгуров Зейтун Кёк геле 1993 118 000
Толгуров Зейтун Акъ жыйрыкъ 2005 94 000
Урусова Аминат Айсанат 1987 73 000
Хубиев Осман Джукъусуз кечеле 1969 53 000
Хубиев Осман Аманат 1990 113 000
Шаваев Хасан Огъары чат 2003 64 000
Шаваев Хасан Анапа ауазы 2005 59 000
Шаваева Миналдан Мурат 1964 55 000
Шаваева Миналдан Тейри жарыгъы 1988 96 000
Этезов Омар Аслан 1978 98 000
Этезов Омар Урушну отунда 1989 60 000
* Повесть.
Динамика публикационной активности карачаево-балкарских романов
Подготовленный для анализа датасет был дополнен мета-информацией:
— сведениями о годе публикации (что не обязательно совпадает с годом написания);
— округленным до тысяч количеством слов;
— маркером происхождения автора («М» — Малкарское ущелье, «Б» — Бак-санское, «Ч» — Чегемское, «Х» — Холамо-Безенгийское, «К» — Карачай).
Такой дополненный датасет был проанализирован на предмет динамики публикационной активности за максимально возможный период времени (рисунок 1).
На рисунке 1 представлена динамика публикационной активности в отношении карачаево-балкарских романов. Для целей анализа годы объединены в десятилетия (с небольшим расширением временного интервала для крайнего левого столбика).
Период с 1958 по 1970 г. характеризуется подъемом национального самосознания на фоне реабилитации народа и возвращения в родные края. Этот период достаточно ярко представлен целой плеядой романистов — в первую очередь карачаевских. На эти годы «приходится пик культурообразующего процесса, связанного с возрождением, вторичным ускоренным развитием, окончательным формированием и утверждением базисной жанровой системы в национальной прозе» [8. С. 3].
г
н
и £
о
и 2!
С/3
О 2
1157
110
1951970
776
1971-1980
122
79
11В
125
118
117
Куч кнам Ма помет ~ «Уллу Малкыр* (1991]
f £
f f
Толгутмв Эентуи--кек геле" (1991}
КЛГИЙБЭ HiiHiJi -
iKtapja»(199 J)
Кучинаев Магомет -"Кйн балкары" 11997}
541
3
3
76В
Anif5 Тахир -«Жзрмкъ толкъун» (2012)
Лайланйаtunaл -
э
251
12В
1981-1990
1991-2000
2001-2010
2011-2020
к>
Рис. 1. Публикации карачаево-балкарских романов по десятилетиям (сегменты — отдельные романы, подписи — количество слов в них (в тыс.))/ Fig. 1. Published Karachay-Balkarian novels across decades (segments stand for the novels, captions stand for respective word numbers (in thousands))
td
о
3-
о
>
ш
£
I
a
a
a ^
i s
к 2
I
to
Ul
to to
ON
Следующее десятилетие (1971—1980) демонстрирует некоторое снижение публикационной активности на фоне продолжающегося с 1964 г. «периода застоя» в СССР. При этом именно в этот период набирают обороты балкарские романисты. В эти годы отмечается «ослабление идеологического давления партии, что позволило [молодым писателям] обращаться к ранее запрещенным темам, дало большую свободу действий» [9. С. 114].
Период с 1981 по 1990 год — пиковый как по общему карачаево-балкарскому «романному объему», так и по количеству активных романистов. Однако если первую половину этого десятилетия связывают с продолжением периода расцвета балкарской литературы, то вторую половину — уже с застойными тенденциями [9. С. 126].
На фоне распада СССР и последовавшего кризиса 1990-х в этом десятилетии произошло почти трехкратное снижение активности романистов. Всего четыре известных нам романа, изданных в этот период, приведены на рис. 1. В отношении этого периода Ф.Х. Гулиева (Занукоева) в своей монографии пишет «о некоторой растерянности писателей, временной утрате духовных ориентиров, что было обусловлено происходившими в жизни общества глобальными процессами эпохального значения — распадом СССР, последовавшим за этим политическим и экономическим кризисом и т.д. В условиях, когда прежние идеалы и представления рухнули, а новые еще не появились, когда тоталитаризм сменился полной анархией, свободой слова и действия, писатели и поэты, так же как и все остальные жители страны, пребывали в смятении. Тем не менее события прошлого научили их преодолевать препятствия, продолжать творить в любых условиях» [9. С. 126].
Период с 2001 по 2010 г. демонстрирует положительный тренд, приближаясь в итоге к аналогичным показателям «застойного периода» 1971—1980 гг.
Наиболее критичным положение выглядит в рамках последнего рассматриваемого периода — с 2011 по 2020 г. В это десятилетие опубликованы всего два романа (см. рис. 1). Такое беспрецедентно низкое значение требует выявления причин во избежание дальнейшей стагнации.
Кластерный анализ карачаево-балкарских романов на основе индивидуальных авторских стилей
Среди многих методов вычисления межтекстовых расстояний и количественной атрибуции текстов наибольшее признание получил метод Delta [10]. Согласно парадигме, лежащей в основе этого метода, какие-то яркие, содержательные элементы текста практически бесполезны при определении авторства, так как сильно зависят от жанра и сюжета произведения, а также достаточно легко могут быть изменены при наличии у автора соответствующего намерения. С другой стороны, употребление самых популярных элементов текста (слов с высокой частотностью, в том числе служебных), как правило, почти не чувствительно к авторскому замыслу.
Показательный пример такого принципа — подход к определению авторства картин, возникший во второй половине XIX в. Автор подхода — Джованни Мо-
релли — утверждал, что нужно обращать внимание на детали, например, на то, как нарисованы уши или пальцы (https://postnauka.ru/faq/99046). Скорее всего, художник не будет задумываться, как именно ему нарисовать ухо, потому что он привык его рисовать определенным образом.
Похожий принцип реализован и в почерковедении: для идентификации автора рукописного текста используется не содержание текста, а различные признаки почерка, как правило, не осознаваемые автором и потому достаточно устойчивые.
Суть метода Delta состоит в том, что для каждого анализируемого текста рассчитываются частотности определенного количества (например, 100 или 200) самых частотных слов и полученные профили частотностей попарно сравниваются между всеми анализируемыми текстами. Различия в двух профилях частотностей могут быть выражены одним числом, и это число, рассчитанное для пары текстов одного автора, как правило, меньше, чем число, рассчитанное для пары текстов разных авторов.
Метод Delta подтвердил свою эффективность на огромном количестве текстов на разных языках. Этот метод находит применение, в частности, в случаях необходимости атрибуции произведений сомнительного авторства. Так, проверке подвергались «Тихий Дон» Шолохова, произведения Шекспира, книга Джоан Роулинг, которую она выпустила под псевдонимом, и многие другие тексты. Использование метода Delta зачастую сопряжено с дальнейшим применением алгоритмов кластеризации, позволяющих визуализировать результат в виде ден-дрограммы. Подробнее о методе Delta можно прочитать, например, в статье Н.К. Мамаева и др. [11] и в заметке лингвиста Б. Орехова (https://postnauka.ru/ faq/99046).
В карачаево-балкарской литературной традиции неизвестны примеры спорного или сомнительного авторства крупных произведений, которые требовали бы применения методов количественной атрибуции текстов. Однако определение индивидуальных авторских стилей карачаево-балкарских романистов вызывает большой интерес как с точки зрения апробации этого метода на карачаево-балкарском материале (что производится впервые), так и с точки зрения кластеризации карачаево-балкарских авторов на основе стилевых особенностей.
Отметим, что жанр романа — наиболее подходящий для такого рода экспериментов, так как упомянутый метод основан на статистических закономерностях, и, следовательно, нуждается в текстах возможно большего объема.
Инструментом для такого исследования служит программа Stylo [12], написанная на языке программирования R. Графический интерфейс программы позволяет оставить базовые настройки анализа либо скорректировать какие-то из них при необходимости. Ключевыми параметрами для расчета являются:
— язык (для нашего случая выбран Other; также отмечено поле Native Encoding;
— регистр слов (выбран вариант с сохранением регистра);
— процент отбраковки слов (выбрано нулевое значение, т.е. анализируются все слова, независимо от доли документов, в которых эти слова встречаются);
— Delta Distance (вид расчетной математической формулы; выбран Cosine Delta, как демонстрирующий в среднем наибольшую эффективность по оценкам разработчика).
к>
ON
о
to о
X ^
О
н
ж
и
д д о
и
д
Со £
и ч и Д Д и
Dccumonls Cluster Analyst
Tif ш £hk0Dlr_{inM M
■Zh»e»iBiJTtra, Ы _Kii£Jmyug}i
i Zrfwwv 1 Zilfianov
-ZhfeJuv! MiW.EMj В -Zhir,ih.s,i иато БЧ) I ffBBi, ЁЧГ EJu-1U*9hnif
В
1 ZBlHisntw-ilwiBkiil 1:96i 1
1 ХкчуИцЬи (1П71 Tamjla " __I ЗИмК«-М1п1ИшГ (1SB3 ЧЛБ) Teyn-zrwvgy
-I 1
' ZflliliifKri-ZnanjyiiHJ:96i 64LTiu>iibKi
•| mrtwrB^giBfflL gvAiwfly
:.-..■■, T-—. ' (87й ■ M.' ! нп
_j Efcmv-t>™_i 1 BBS ЧЫипиипВЛрж
ВИиМЭИШ'^пВЛ Wjnin
eJII'.san-EhUKlgiu Qlhiniigffl-ihyuiUJi
I 1 Gadifv-ib
1 Gurtufrr-SHihJJDKI.
(ТЙВЗ Ml WBitUyi
i'v HE i Jil J гао?1^ КБ l_Anil*-eai>
I И9Ё2 XV' si-jmsjdTiHiilaiy
1 0(irtw-£k)«r-|ia7? KOWhubrttn
AVMi-iainr i2DD!r Ub! HaKiAar-jiimy
Твдда-Г- иа"я ---с
Те-----
К
1 Tefwev-AJun I haS^iibi Twhw'i
j Sjiii'iiuiivj-Hji-Tal (11Й4 dzny1U-№-1auld 1 <^1 jf^rtW^yytJ^isj
,...........—....., . ______________KHCM
-I 1 Клдчч»-Ч«И1 I I0B&. Krj»i4-e;i4fyr
1 KncvtNizjii 11966 КI Dzhidduzlt-dzhiMmiymb
_jKiAertwiiahU -■:L-il- к'- T«jUdH«*nii
.--'MSSMU1-196B Ki~KirH'kyu6yur
,- 1 &iya»nw-Me30ni#l П96Г K) ULu-KBrjihBiO«
i unmMni KubiWH-Ds!'.? (19ffi.H! ЕП-ЗЙЛЦП
HubSv-Ovnan (1990 iMnnmc
I ' миьчч-оитип (1W5. KID^imusui-lKiinie
1 LflH>afn>i-ailil_|2t)15. К1_Клгвий
I
■ XiriMne/AhflMQ 1 Pinijijri-&[rtJft
I ■
I
' K*l#!H3Br-KMl*Z_I1flT9, К l_l IrrflflfTQjfl и17г
10OMFW CullKl^OS □Wanes: «uribL'g
Рис. 2. Результат кластеризации романов на основе индивидуальных авторских стилей/ Fig. 2. Novels clusterized based on authors' individual styles
tn
о
тз o\ о 13
о
м >
fcn
a »
0
1
¡5 »
>S "a
a «
3
e
«
e
H
ЧО j?
N О
Далее в программу загружаются анализируемые тексты (см. табл. 1).
Результат древовидной кластеризации текстов в очередной раз подтвердил высочайшую эффективность метода Delta (см. рис. 2).
Обсуждение результатов
Визуальный анализ сгенерированного дерева позволяет сделать следующие выводы.
Все анализируемые тексты абсолютно точно сгруппированы по используемому диалекту языка (в верхней ветви — произведения балкарских авторов, в нижней ветви — карачаевских).
За редким исключением все произведения одного автора располагаются максимально близко друг к другу.
Исключением является роман «Тау къушла» Ж. Залиханова, немного отстоящий от других трех романов этого автора. Возможное объяснение — эволюция авторского стиля: этот роман издан в 1962 г. — задолго до остальных романов.
Такой же хронологический принцип проявляется во всех других случаях, где из нескольких романов один выделяется из общей группы. Так, у Ж. Токумаева выделяется самый поздний роман; у М. Кучинаева, З. Толгурова, А. Теппеева, Н. Кагиевой — их самые ранние романы; у Х. Байрамуковой — ее два самых ранних романа.
В балкарской ветви четко выделяются две стилевые подветви: условно «Зали-ханово-Токумаевская» и «Теппеево-Толгуровская». Конкретные стилевые особенности, объединяющие авторов в рамках одной подветви и отличающие авторов из разных подветвей, на данный момент нам неизвестны и требуют комментариев со стороны специалистов в творчестве этих авторов. Один из возможных критериев такого разделения на две подветви — большая приверженность представителей Теппеево-Толгуровской подветви к русской и советской литературной традиции.
Небольшое варьирование исходных настроек расчета может приводить к незначительным изменениям в конфигурации ветвей (например, четыре романа Ж. Залиханова максимально приближаются друг к другу). При этом как разделение на карачаевскую и балкарскую ветви, так и дальнейшее разделение балкарской ветви на две подветви достаточно устойчивы к изменению исходных настроек в разумных пределах.
В то время как литературные карачаевский и балкарский диалекты безошибочно разделились на дереве, внутрибалкарские диалекты не нашли никакого отражения в структуре дерева. Возможное объяснение этого факта состоит в том, что внутрибалкарские диалекты преимущественно отличаются на фонетическом уровне, а при написании текстов на литературном балкарском языке какие бы то ни было различия ничтожны. Дополнительное объяснение может заключаться в «горниле войны» и депортации, что повлекло за собой как нарушение вербальной связи будущих балкарских писателей со своими родителями, так и усреднение диалектных различий на фоне совместного проживания на территории Средней Азии представителей разных ущелий.
Заключение
Качество подготовленной в рамках работы базы текстов, а также факт успешного применения ряда компьютерных методов к обработке этих текстов позволяют с оптимизмом оценивать дальнейшие перспективы в данном направлении.
Так, в качестве первоочередной задачи мы рассматриваем совершенствование текущей базы карачаево-балкарских художественных произведений — как в части максимально возможного устранения имеющихся опечаток (возникающих в том числе по причине несовершенного сканирования), так и в части уточнения методологии отбора и обработки текстов разных жанров.
К таким методологическим вопросам относятся следующие:
1) максимально полный учет опубликованных карачаево-балкарских художественных произведений (с привлечением дополнительных информационных ресурсов — электронных и печатных);
2) формализация критериев жанровой классификации произведений;
3) разработка компьютерного алгоритма, трансформирующего тексты с карачаевского диалекта на балкарский и обратно. Цель — исключение диалектного фактора при анализе стилей для обеспечения непосредственной сравнимости стилей карачаевских и балкарских авторов. Такой алгоритм должен включать как минимум замену карачаевского «Дж» на балкарское «Ж» и переключение наиболее популярных диалектизмов.
Решение этих методологических вопросов будет способствовать распространению описанного метода стилевой кластеризации на другие карачаево-балкарские литературные жанры: малую прозу, поэзию, драматургию, фольклор.
В дальнейшем возможно полноценное корпусное исследование карачаево-балкарской художественной литературы, что с технической точки зрения потребует разработки нормализатора словоформ (их приведения к словарным формам) и алгоритма идентификации и исключения стоп-слов (самых частотных слов, как правило, не несущих смысловой нагрузки). Одним из результатов такого исследования может быть список редких слов, использованных авторами в своих произведениях, но отсутствующих в современных словарях карачаево-балкарского языка. Другой возможный результат — программа-конкордансер, позволяющая анализировать частотности отдельных слов и словосочетаний в текстах разных произведений.
В заключение отметим, что продемонстрированный нами пример успешного применения стилеметрического алгоритма Delta на материале карачаево-балкарских романов позволяет надеяться на появление аналогичных работ на материалах художественных произведений прочих малых народов России, в том числе северокавказских.
Список литературы
1. Сарбашева А.М. Формирование историзма мышления и балкарский роман. Нальчик: КБНЦ РАН, 2001.
2. Теппеев А.М. Балкарская проза. Нальчик: Эльбрус, 1974.
3. Акачиева С.М. Карачаевский роман. Черкесск: Карачаево-Черкесское отделение Ставропольского книжного издательства, 1980.
4. Гачев Г.Д. Неминуемое. Ускоренное развитие литературы. М.: Художественная литература, 1989.
5. Кулиев К.Ш. Слово одобрения // Эльберд М. Страшен путь на Ошхамахо. Нальчик: Эльбрус, 1980.
6. Moretti F. Distant reading. London; New York: Verso, 2013.
7. Орехов Б. Башкирский стих XX века. Корпусное исследование. Санкт-Петербург: Алетейя, 2019.
8. Додуева С.Ж. Балкарская проза 1960—1980-хгодов: Жанровая специфика и национальное своеобразие: автореф. дис. ... канд. филол. наук. Нальчик, 2007.
9. Гулиева (Занукоева) Ф.Х. Карачаево-балкарская несказочная проза и ее традиции в балкарской литературе. Нальчик: ФГБНУ КБИГИ, 2015.
10. Burrows J. 'Delta': a Measure of Stylistic Difference and a Guide to Likely Authorship // Literary and Linguistic Computing. Vol. 17. Issue 3, 1 September 2002. Pp. 267—287.
11. Мамаев Н.К. и др. Метод Дельты Бёрроуза для определения авторства анонимных и псев-донимных литературных произведений на русском языке // Proceedings ofthe R. Piotrowski's Readings in Language Engineering and Applied Linguistics. 2018. Pp. 1—14.
12. Eder M. et al. Stylometry with R: A package for computational text analysis // The R Journal. 2016. Vol. 8. No. 1. Рр. 107—121. doi: 10.32614/RJ-2016-007
References
1. Sarbasheva, A.M. 2001. Formirovanie istorizma myshleniya i balkarskiy roman. Nalchik: KBNC RAN publ. Print. (In Russ.)
2. Teppeev, A.M. 1974. Balkarskaya proza. Nalchik: Elbrus publ. Print. (In Russ.)
3. Akachieva, S.M. 1980. Karachaevskiy roman. Cherkessk: Karachaevo-Cherkesskoe otdelenie Stavropolskogo knizhnogo izdatelstva publ. Print. (In Russ.)
4. Gachev, YD. 1989. Neminuemoe. Uskorennoe razvitie literatury. Moscow: Khudozhestvennaya literatura publ. Print. (In Russ.)
5. Kuliev, K.Sh. 1980. Slovo odobreniya. Elberd, M. Strashen put na Oshkhamakho. Nalchik: Elbrus publ. Print. (In Russ.)
6. Moretti, F. 2013. Distant Reading. London; New York: Verso. Print.
7. Orekhov, B. 2019. Bashkirskiy stikh XX veka. Korpusnoe issledovanie. St. Petersburg: Aleteya publ. Print. (In Russ.)
8. Dodueva, S.Zh. 2007. Balkarskaya proza 1960—1980-h godov: Zhanrovaya specifica i nacionalnoe svoeobrazie: Candidate Thesis. Nalchik. Print. (In Russ.)
9. Gulieva (Zanukoeva), FKh. 2015. Karachaevo-Balkarskaya neskazochnaya proza i ee tradicii v balkarskoy literature. Nalchik: FGBNU KBIGI publ. Print. (In Russ.)
10. Burrows, J. 2002. 'Delta': a Measure of Stylistic Difference and a Guide to Likely Authorship. Literary and Linguistic Computing 17 (3): 267—287. doi: 10.1093/llc/17.3.267
11. Mamaev, N.K. et al. 2018. "Metod Delty Berrowza dlya opredeleniya avtorstva anonimnyh i psevdonimnyh literaturnyh proizvedeniy na russkom yazyke". Proceedings of the R. Piotrowski's Readings in Language Engineering and Applied Linguistics: 1—14.
12. Eder, M. et al. 2016. "Stylometry with R: A package for computational text analysis". The R Journal 8 (1): 107—121. doi: 10.32614/RJ-2016-007
Сведения об авторе:
Берберов Али Бурханович — кандидат технических наук, директор проекта Российского
энергетического агентства. E-mail: [email protected]. ORCID: 0000-0001-7847-3770
Bio Note:
Ali Burkhanovich Berberov is a PhD in Technical Sciences, project director in Russian Energy
Agency. E-mail: [email protected] ORCID: 0000-0001-7847-3770