Научная статья на тему 'Сентимент-анализ “al-Nawа̄dir al-sulṭа̄niyya wa al-maḥа̄sin al-yūsufiyya” Ибн Шаддада: апробация метода'

Сентимент-анализ “al-Nawа̄dir al-sulṭа̄niyya wa al-maḥа̄sin al-yūsufiyya” Ибн Шаддада: апробация метода Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сентимент-анализ / образ другого / арабская история / Крестовые походы / Салах ад-Дин / Sentiment Analysis / Image of the Other / Arab History / Crusades / Salah al-Din

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Олег Александрович Соколов, Наталья Александровна Кижаева

Применение методов анализа больших объемов данных для исследования исторических нарративов развивает концепции, сложившиеся в ходе так называемого «лингвистического поворота» в современной исторической науке. При этом ключевым вопросом становится не то, какие события автор исторического сочинения включает в создаваемый им конструкт прошлого и какие причинно-следственные связи между ними выстраивает, а то, как, с лингвистической и литературоведческой точки зрения, он высказывается об объекте повествования. Важнейшим методом исследования в данном случае становится сентимент-анализ, т. е. определение эмотивной окраски больших объемов текста при помощи нейросетей. Целью данного исследования является рассмотрение эффективности программных продуктов CAMeL Tools и Mazajak для анализа эмоционального контура текста арабоязычных исторических источников. CAMeL Tools: An Open Source Python Toolkit for Arabic Natural Language Processing представляет собой пакет программ на языке Python, Mazajak: An Online Arabic Sentiment Analyser –веб-интерфейс для сентимент-анализа. Оба анализатора представлены в свободном доступе в сети Интернет. По итогам исследования алгоритм CAMeL Tools верно определил тональность 71,8% контекстов, в то время как Mazajak – 45,8%. На основании соотнесения результатов ручного и автоматического анализа были выделены следующие основные причины расхождений в оценках: разрыв синтагм при автоматическом выделении контекстов, значимые имена и прозвища (laqab), а также неверная оценка тональности основного действия контекста.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Олег Александрович Соколов, Наталья Александровна Кижаева

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Sentiment analysis of “al-Nawа̄dir al-sulṭа̄niyya wa-l-maḥа̄sin al-yūsufiyya” by Ibn Shaddad: testing of the method

The use of large data analysis methods for the study of historical narratives develops the concepts that emerged during the so-called “linguistic turn” in modern historical science. In this case, the key question is not what events the author of a historical work includes in the construct of the past he creates and what cause-and-effect relationships he builds between them, but how, from a linguistic and literary point of view, he speaks about the object of the narrative. The most important research method in this case is sentiment analysis that is determining the emotive coloring of large volumes of text using neural networks. The goal of this study is to examine the effectiveness of the CAMeL Tools and Mazajak software products for analyzing the emotional contour of the text of Arabic historical sources. CAMeL Tools: An Open Source Python Toolkit for Arabic Natural Language Processing is a package of programs in Python, Mazajak: An Online Arabic Sentiment Analyzer – a web interface for sentiment analysis. Both analyzers are freely available on the Internet. According to the results of the study, the CAMeL Tools algorithm correctly identified the sentiment of 71.8% of contexts, while Mazajak – 45.8%. Based on the correlation of the results of manual and automatic analysis, the following main reasons for discrepancies in assessments were identified: breaks in syntagmas when automatically identifying contexts, notional names and nicknames (laqab), as well as an incorrect assessment of the tone of the main action of the context.

Текст научной работы на тему «Сентимент-анализ “al-Nawа̄dir al-sulṭа̄niyya wa al-maḥа̄sin al-yūsufiyya” Ибн Шаддада: апробация метода»

Арабистика Евразии, т. 6 № 4, Декабрь 2023

junO tl tA^ljjVl Cil^lj^ll

Eurasian Arabic Studies, v. 6 No. 4, December 2023

АРАБИСТИКА ЕВРАЗИИ EURASIAN ARABIC STUDIES

ИВРАЗИЯАРАБИСТИКАСЫ

Исторические науки

Научная статья УДК 94

DOI: 10.26907/2619-1261.2023.6.4.93-108

Сентимент-анализ "al-Nawä dir al-suM niyya wa al-mahä sin al-yüsufiyya"

Ибн Шаддада: апробация метода

Олег Александрович Соколов1, Наталья Александровна Кижаева2

1,2Санкт-Петербургский государственный университет, Санкт-Петербург, Россия 1o.a.sokolov@spbu.ru, https://orcid.org/0000-0002-6051-5239 2natalia.kizhaeva@gmail.com, http://orcid.org/0000-0003-4343-9921

Аннотация. Применение методов анализа больших объемов данных для исследования исторических нарративов развивает концепции, сложившиеся в ходе так называемого «лингвистического поворота» в современной исторической науке. При этом ключевым вопросом становится не то, какие события автор исторического сочинения включает в создаваемый им конструкт прошлого и какие причинно-следственные связи между ними выстраивает, а то, как, с лингвистической и литературоведческой точки зрения, он высказывается об объекте повествования. Важнейшим методом исследования в данном случае становится сентимент-анализ, т. е. определение эмотивной окраски больших объемов текста при помощи нейросетей.

Целью данного исследования является рассмотрение эффективности программных продуктов CAMeL Tools и Mazajak для анализа эмоционального контура текста арабоязычных исторических источников. CAMeL Tools: An Open Source Python Toolkit for Arabic Natural Language Processing представляет собой пакет программ на языке Python, Mazajak: An Online Arabic Sentiment Analyser -веб-интерфейс для сентимент-анализа. Оба анализатора представлены в свободном доступе в сети Интернет.

По итогам исследования алгоритм CAMeL Tools верно определил тональность 71,8% контекстов, в то время как Mazajak - 45,8%. На основании соотнесения результатов ручного и автоматического анализа были выделены следующие основные причины расхождений в оценках: разрыв синтагм при

автоматическом выделении контекстов, значимые имена и прозвища (¡адаЬ), а также неверная оценка тональности основного действия контекста.

Ключевые слова: сентимент-анализ, образ другого, арабская история, Крестовые походы, Салах ад-Дин

Благодарности: Исследование выполнено в рамках проекта №2 22-28-01046, https://www.rscf.ru/project/22-28-01046/.

Для цитирования: Соколов О. А., Кижаева Н. А. Сентимент-анализ "а1-Nawаdir al-sultаmyya wa al-mahаsm al-yйsufiyya" Ибн Шаддада: апробация метода // Арабистика Евразии. 2023. т. 6 № 4. С. 93-108. DOI: 10.26907/26191261.2023.6.4.93-108.

Historical Sciences

Original article

Sentiment analysis of "al-Nawadir al-sulta niyya wa-l-maha sin al-yusufiyya"

by Ibn Shaddad: testing of the method

Oleg A. Sokolov1, Natalia A. Kizhaeva2

1,2St-Petersburg State University, St Petersburg, Russia

1o.a.sokolov@spbu.ru, https://orcid.org/0000-0002-6051-5239

2natalia.kizhaeva@gmail.com, http://orcid.org/0000-0003-4343-9921

Abstract. The use of large data analysis methods for the study of historical narratives develops the concepts that emerged during the so-called "linguistic turn" in modern historical science. In this case, the key question is not what events the author of a historical work includes in the construct of the past he creates and what cause-and-effect relationships he builds between them, but how, from a linguistic and literary point of view, he speaks about the object of the narrative. The most important research method in this case is sentiment analysis that is determining the emotive coloring of large volumes of text using neural networks.

The goal of this study is to examine the effectiveness of the CAMeL Tools and Mazajak software products for analyzing the emotional contour of the text of Arabic historical sources. CAMeL Tools: An Open Source Python Toolkit for Arabic Natural Language Processing is a package of programs in Python, Mazajak: An Online Arabic Sentiment Analyzer - a web interface for sentiment analysis. Both analyzers are freely available on the Internet.

Арабистика Евразии, т. 6 № 4, Декабрь 2023

junO t£.j tl tA^ljjVl Cil^lj^ll

Eurasian Arabic Studies, v. 6 No. 4, December 2023

АРАБИСТИКА ЕВРАЗИИ EURASIAN ARABIC STUDIES

ИВРАЗИЯАРАБИСТИКАСЫ

According to the results of the study, the CAMeL Tools algorithm correctly identified the sentiment of 71.8% of contexts, while Mazajak - 45.8%. Based on the correlation of the results of manual and automatic analysis, the following main reasons for discrepancies in assessments were identified: breaks in syntagmas when automatically identifying contexts, notional names and nicknames (laqab), as well as an incorrect assessment of the tone of the main action of the context.

Keywords: Sentiment Analysis, Image of the Other, Arab History, Crusades, Salah al-Din

Acknowledgments: The research was supported by Russian Science Foundation (project no. 22-28-01046, https://rscf.ru/en/project/22-28-01046/).

For citation: Sokolov O. A., Kizhaeva N. A. Sentiment analysis of "al-Nawadir al-sultaniyya wa-l-mahasin al-yusufiyya" by Ibn Shaddad: testing of the method. Eurasian Arabic Studies. 2023;6(4):93-108. (In Russ.). DOI: 10.26907/26191261.2023.6.4.93-108.

С начала XXI в. все сферы современного гуманитарного знания переживают бурный рост заинтересованности в междисциплинарных подходах и использовании передовых технических решений для решения старых и новых исследовательских задач. Не является исключением и сфера арабистики и исламоведения, в которой набирают популярность методы изучения текстовых источников с применением технологий анализа больших объемов данных [1, с. 389-396]. Подобные исследования до последнего времени фокусировались практически исключительно на современных медиа-текстах [2, с. 2479-2490], однако не меньший интерес представляет и массив средневековых арабографических памятников [3, с. 53-60].

Применение методов анализа больших объемов текста для изучения исторических нарративов стало логическим следствием так называемого «лингвистического поворота» в современной исторической науке. Как отмечает К. Дженкинс: «Первое определение истории состоит в том, что это один из многих дискурсов об окружающем мире. Эти дискурсы не создают мир, но осмысляют его и придают ему все те значения, которые он имеет. Та часть мира, которая является объектом исследования истории, - это прошлое» [4, с. 6-7]. Х. Вайт в свою очередь говоря о процессе создания исторических нарративов акцентирует внимание на «универсальной потребности не только рассказывать, но и придавать событиям аспект нарративности» [5, с. 4].

Введение

Арабистика Евразии, т. 6 № 4, Декабрь 2023

junO t£.j tl tA^ljjVl Cil^lj^ll

Eurasian Arabic Studies, v. 6 No. 4, December 2023

АРАБИСТИКА ЕВРАЗИИ EURASIAN ARABIC STUDIES

ИВРАЗИЯАРАБИСТИКАСЫ

Данные авторы, таким образом, говорят о важности изучения не только того, что за события автор исторического сочинения включает в создаваемый конструкт прошлого и какие причинно-следственные связи между ними выстраивает, но и того, как, с лингвистической и литературоведческой точки зрения, он высказывается об объекте повествования. Эти данные позволяют нам получить дополнительную, иногда ключевую информацию об интересующем нас историческом периоде или личности. Исходя из этого, мы приходим к необходимости досконального изучения лингвистической стороны исторических нарративов, в том числе, эмоционального контура высказываний [6, с. 762-772]. Важнейшим методом в данном случае является сентимент-анализ, подразумевающий в первую очередь определение эмотивной окраски больших объемов текста при помощи нейросетей [7, с. 408-430].

Сентимент-анализ является методом обработки естественного языка (англ. Natural Language Processing, NLP). Вместе с другими задачами NLP подходы к сентимент-анализу прошли путь развития от алгоритмов, основанных на правилах и статистической обработке корпусов текстов, до использования машинного обучения, глубоких нейронных сетей и больших языковых моделей [8, с. 320-342; 9, с. 129-140]. В последние десять лет наиболее активно разрабатывались методы анализа с использованием различных архитектур нейронных сетей [10, с. 9-17; 6, с. 179-191], в том числе, специализирующихся на анализе текстов на диалектах арабского языка [11, с. 108-121], а также создавались датасеты для обучения и оценки моделей [14, с. 3552]. С появлением новых архитектур языковых моделей активно ведется работа над их дообучением для арабского языка [13, 14, 15], появляются также большие языковые и диалоговые модели (аналоги GPT и ChatGPT) [16, 17]. Многие модели и программные библиотеки выкладываются в открытый доступ (например, на GitHub.io или hugginface.com), что позволяет использовать их в научных и прикладных исследованиях и вести работы по улучшению качества работы алгоритмов.

Методы и материалы исследования

Целью нашего исследования является рассмотрение эффективности программных продуктов CAMeL Tools и Mazajak для анализа эмоционального контура текста арабоязычных исторических источников.

CAMeL Tools: An Open Source Python Toolkit for Arabic Natural Language Processing [18, с. 7022-7032] представляет собой пакет программ на языке Python для обработки текстов на арабском языке, Mazajak: An Online Arabic Sentiment Analyser - веб-интерфейс для сентимент-анализа [19]. Оба анализатора представлены в свободном доступе в сети Интернет.

Арабистика Евразии, т. 6 № 4, Декабрь 2023

junO t£.j tl tA^ljjVl Cil^lj^ll

Eurasian Arabic Studies, v. 6 No. 4, December 2023

АРАБИСТИКА ЕВРАЗИИ EURASIAN ARABIC STUDIES

ИВРАЗИЯАРАБИСТИКАСЫ

Онлайн-система для сентимент-анализа на арабском языке Mazajak основана на использовании двух последовательных глубоких нейронных сетей: сверточной нейронной сети (англ. Convolutional Neural Network, CNN) и следующей за ней нейронной сети архитектуры «долгая краткосрочная память» (англ. Long Short-Term Memory, LSTM). Первым этапом любой программы обработки естественного языка является предобработка данных. В Mazajak она проходит в три этапа: нормализация букв (замена разных написаний букв на один вариант), удаление повторяющихся букв (особенность написания в социальных медиа), очистка (удаление диакритики, пунктуации, ссылок и т. п.). Для того, чтобы использовать алгоритмы машинного обучения, текст на естественном языке надо представить в числовом виде. Такое представление слов в виде численного вектора называется эмбеддингом (англ. embedding). В системе Mazajak в качестве эмбеддингов была использована модель word2vec [20]. Обучающими данными для модели стали 250 млн сообщений из социальных медиа на арабском языке, собранных в период с 2016 по 2019 г. Такой объем обучающих данных позволил учесть большинство диалектов и разнообразие тем. Первая нейронная сеть - CNN - находит паттерны в данных и извлекает признаки из предложений. Вторая нейронная сеть - LSTM - работает с извлеченными признаками, учитывая контекст и порядок слов. На последнем слое нейронной сети происходит классификация слова на три класса: positive, neutral, negative.

Подход, реализованный в CAMeL Tools, основан на дообучении (англ. fine-tuning) мультиязычной модели архитектуры трансформер mBERT [21] и AraBERT [22] для задачи классификации на три класса (также positive, neutral и negative). Чтобы модель правильно работала с текстами на различных диалектах арабского, авторы использовали разнообразные датасеты для дообучения и оценки [23, 24]. В частности, была обучена модель для сентимент-анализа классического арабского языка на датасете OpenITI. Эту модель мы и использовали в исследовании.

Таким образом, исследование методологически опирается на анализ эмотивной окраски выборки контекстов при помощи вышеуказанных алгоритмов.

В качестве исторического источника для анализа нами был выбран памятник "al-Nawädir al-sultäniyya wa al-mahäsin al-yUsufiyya" («Редкие сведения о султане и благие качества Йусуфа»), представляющий собой жизнеописание султана Салах ад-Дина ал-Аййуби (1137-1193), составленное его секретарем кади Баха ад-Дином Ибн Шаддадом (1145-1234) [25, с. 157]. Выбор данного источника обусловлен важностью изучения мусульманско-христианского взаимодействия в Средиземноморье в Средние века для реконструкции паттернов восприятия христиан и христианства в мусульманских регионах в исторической перспективе.

Арабистика Евразии, т. 6 № 4, Декабрь 2023

junO t£.j tl tA^ljjVl Cil^lj^ll

Eurasian Arabic Studies, v. 6 No. 4, December 2023

АРАБИСТИКА ЕВРАЗИИ EURASIAN ARABIC STUDIES

ИВРАЗИЯАРАБИСТИКАСЫ

В качестве примеров для анализа нами были выбраны контексты с лексемами: nasranT (христианин, христианский), jihüd (джихад), mujíihid (муджахид), al-'üdid (ал-'Адид). Выбор этих лексем обусловлен следующими факторами.

Чтобы оценить точность оценок мы выбрали три группы контекстов, которые с большой вероятностью будут иметь определенную окраску. Мы предположили, что контексты с лексемами «джихад» и «муджахид(ы)» должны с большой вероятностью получить положительную оценку в связи со спецификой памятника, посвященного борьбе мусульман с крестоносцами. В качестве примера негативно окрашенных контекстов были выбраны упоминания последнего фатимидского халифа ал-'Адида Лидиниллаха (1151-1171). Этот выбор продиктован двумя соображениями: во-первых, автор хроники, кади Ибн Шаддад, будучи суннитским автором и сподвижником Салах ад-Дина должен был негативно или, как минимум, нейтрально оценивать фигуру ал-'Адида, во-вторых, мы также посчитали важным проанализировать оценку контекстов, в центре которых находится имя собственное. Наконец, выбор лексемы «христианин» («христианский», «христиане») обусловлен тем, что контексты содержащие ее предположительно должны иметь негативную окраску в силу природы описываемого в памятнике мусульманско-христианского противостояния, однако, т. к. противники мусульман в повествовании именуются по этнической принадлежности (ifTanj), контексты с упоминанием христиан могут не быть напрямую связаны с войной против крестоносцев и, таким образом, в данном случае возможна нейтральная окраска. Исходя из этого, выявление соотношения негативных и нейтральных контекстов в последнем примере представляет значительный интерес.

В случае с лексемой nasrüm нами оценивались все включающие ее контексты, как те, в которых она выполняет функции прилагательного «христианский», так и те, в которых она выступает в качестве субстантива со значением «христианин».

Для того, чтобы воспользоваться программными пакетами сентимент-анализа, исходный текстовый документ был автоматически предобработан: удалены символы, не входящие в арабский алфавит, знаки пунктуации, маркеры разметки и нумерация страниц. Для анализа нами была выбрана ширина контекста 10 слов до и после исследуемого слова, в некоторых случаях меньше, так как контексты могли накладываться друг на друга. При поиске контекстов специально не учитывались знаки препинания и деление на абзацы в тексте. Например, искомое слово могло оказаться заголовком параграфа и тем самым единственным словом в строке. Оба алгоритма, CAMeL Tools и Mazajak, принимают на вход текстовую строку, а на выходе выдают метку класса: positive, neutral или negative. При этом CAMeL Tools

сопровождает метку числом от 0 до 1 - степенью уверенности в метке, чем она ближе к 1, тем больше алгоритм уверен в правильности определенного класса.

Всего было проанализировано 96 контекстов, это количество достаточно велико, чтобы быть репрезентативным, но при этом не слишком большое, чтоб можно было вручную оценить все контексты и соотнести полученные результаты с оценками алгоритмов 1234) [25, с. 157]. Выбор данного источника обусловлен важностью изучения мусульманско-христианского взаимодействия в Средиземноморье в Средние века для реконструкции паттернов восприятия христиан и христианства в мусульманских регионах в исторической перспективе.

Результаты исследования

В случае с оценками контекстов алгоритмами, в первую очередь необходимо отметить, что уже расчет оценок анализируемых лексем вне контекстов показал любопытные результаты.

Таблица 1. Базовые оценки лексем

Лексема CAMeL Tools Mazajak

al-'ädid neutral: 0.6791 neutral

nasräni negative: 0.7075 negative

nasärä negative: 0.7693 negative

jihä d positive: 0.7919 neutral

mujä hid neutral: 0.5450 neutral

muj^hidUn negative: 0.3488 neutral

Было выявлено, что оба алгоритма вне контекста негативно оценивают обозначающие христиан лексемы т§гаш и na§ага. Применительно к Mazajak, обученному на примерах из современных социальных сетей, это можно объяснить тем, что редко используемые в современном языке лексемы nasranT и na^ra встречаются в постах, цитирующих средневековые сочинения религиозных и политических деятелей, высказывавшихся о христианах в негативном ключе. Это предположение косвенно подтверждается тем, что используемая в современном языке для обозначения христиан лексема masThT (masThiyyun) оценивается алгоритмом нейтрально. CAMeL Tools же при этом в случае с masThT (masThiyyun) показывает труднообъяснимый результат:

единственное число оценивается алгоритмом негативно, а множественное -позитивно, обе оценки, однако, имеют небольшую степень уверенности (negative: 0.3858 и positive: 0.4028 соответственно).

В случае с формами mujiihid и mujiihidGn CAMeL Tools также показывает различные результаты: единственное число оценивается нейтрально, в то время как множественное - негативно.

Таблица 2. Оценки контекстов

Лексема Оценка CAMeL Tools Mazajak Ручная оценка

al-'ädid Positive 1 9 2

Neutral 26 6 25

Negative 12 24 12

nasräni Positive 0 0 0

Neutral 3 0 2

Negative 3 6 4

nasärä Positive 0 0 0

Neutral 2 0 2

Negative 1 3 1

jihä d Positive 16 10 11

Neutral 13 4 17

Negative 3 18 4

mujä hid Positive 1 2 1

Neutral 8 1 7

Negative 2 8 3

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

mujähidUn Positive 1 0 3

Neutral 4 3 2

Negative 0 2 0

Оценки контекстов алгоритмами были сопоставлены с ручной оценкой. Для каждого класса (positive, neutral, negative) были рассчитаны классические для классификации метрики точность (Prec), полнота (Rec) и F1-мерa (F1).

Таблица 3. Метрики качества классификации

Лексема Kлäсс CAMeL Tools Mazajak

Prec Rec F1 Prec Rec F1

al-'ädid positive 1 0,5 0,67 0,22 1 0,36

neutral 0,81 0,84 0,82 0,83 0,2 0,32

negative 0,67 0,67 0.67 0,42 0,83 0,56

nasrän! positive - - - - - -

neutral 0,33 0,5 0,4 0 0 0

negative 0,67 0,5 0,57 0,67 1 0,8

nasárá positive - - - - - -

neutral 1 1 1 0 0 0

negative 1 1 1 1 1 1

jihâ d positive 0,63 0,9 0,74 0,8 0,73 0,76

neutral 0,92 0,71 0,8 0,75 0,17 0,28

negative 0 0 0 0,22 1 0,36

mujâ hid positive 0 0 0 0,5 1 0,67

neutral 0,75 0,86 0,8 1 0,14 0,24

negative 1 0,67 0,8 0,37 1 0,54

mujáhidün positive 1 0,33 0,5 0 0 0

neutral 0,5 1 0,67 0,67 1 0,8

negative - - - - - -

Посчитанные метрики позволили более детально оценить качество работы алгоритмов. Было выявлено, что у CAMeL Tools более сбалансированы точность и полнота, в то время как у Mazajak чаще одно превалирует над другим. Значение F1-меры по всем классам и контекстам 0,63, у Mazajak 0,45.

На основании соотнесения результатов ручного и автоматического анализа можно выделить следующие основные причины расхождений в оценках контекстов.

В первую очередь необходимо отметить, что при автоматическом выделении контекстов из текста источника неизбежно происходит разрыв синтагм и смысловых фрагментов, так как средневековые арабоязычные памятники не содержат знаков пунктуации и корректное выявление границ высказываний автоматическим способом является отдельной исследовательской задачей, ожидающей своего решения. Представленный ниже контекст демонстрирует пример подобного разрыва синтагм:

al-himq wa al-suMn yatüfu min al-maymana ilää al-maysara yahuttu al-ms 'aUä jihiäd wa laqltuhu miräran laysa ma'ahu Ша sabiyiän bi janbayhi lää gayr [26, с. 132] (...петля, и султан скакал с правого [фланга] на левый, призывая людей к джихаду, и я встретил его несколько раз, [и] рядом с ними были только двое воинов [из его гвардии]...)

Первое слово himq, в широком контексте памятника имеющее значение «петля» (также имеет значение «ссора» и омографы с негативными значениями hurnq - «дифтерия, гнилокровие» и hanmq - «удушающий, душитель»), стало причиной общей негативной оценки контекста обоими алгоритмам, хотя излагаемые в нем сведения носят сугубо нейтральный характер.

Во-вторых, следует подчеркнуть влияние на оценку контекстов значимых личных имен и прозвищ. Распространенные в средневековых памятниках прозвища (laqab) в подавляющем большинстве случаев имеют сугубо положительные значения, что значительно меняет эмоциональную окраску контекстов, т. к. алгоритмы не учитывают то, что эти слова должны восприниматься как имена собственные. Данную ситуацию наглядно иллюстрирует следующий пример:

al-'üdil wa al-malikayn al-afdal wa al-zühir wa al-malik al-mansür wa al-malik al-mujühid sTrküh sühib hims wa al-amjad bahram süh bin farruhsüh sühib [26, с. 225] (.. .ал-'Адил и ал-Малик ал-Афдал и ал-Малик аз-Захир и ал-Малик ал-Мансур и ал-Малик ал-Муджахид Ширкух, правитель Хомса, и ал-Амджад Бахрам Шах ибн Фаррухшах, правитель.)

В этом случае перед нами простое перечисление имен исторических деятелей, при этом в контексте отсутствуют действия или описания, что позволяет с уверенностью классифицировать его как нейтральный. Несмотря на это, оба алгоритма оценивают его как позитивный, т.к. прозвища правителей al-malik al-afdal - «лучший царь», al-malik al-mansür - «победоносный царь» и т. д., воспринимаются ими как значимые.

Наконец, третьим важным фактором, негативно влияющим на точность автоматических оценок, является неверная трактовка алгоритмами основного действия в контексте, как это произошло со следующим примером:

al-'askar al-islamT fa irtafa'at al-aswüt bi al-tahlTl wa al-takbTr wa rakiba al-suMn yatalaqqü mujahidTn wa süra wa kuntu fT hidmatihi hattü atü tal kaysün [26, с. 104] (.войско мусульман и раздались крики прославления и восхваления, и султан ехал верхом, встречая муджахидов, и он отбыл, и я был в его распоряжении пока он не добрался до Тал Кайсана.)

Из-за того, что сочетание irtafa'at al-aswüt - «раздались крики» (букв. «поднялись крики») имеет негативную окраску, Mazajak оценил таким же образом и весь контекст, а CAMeL Tools дал нейтральную оценку, хотя данный фрагмент в целом является позитивным, т.к. речь идет о восхвалении Салах ад-Дина его воинами.

Выводы

Исследование позволило вычислить степень эффективности алгоритмов CAMeL Tools и Mazajak для анализа определенных типов контекстов и выявило особенности текста источника, приводящие к неточностям в машинном определении эмотивной окраски примеров.

Алгоритм CAMeL Tools верно определил тональность 71.8% контекстов, в то время как Mazajak - 45.8%. Данный результат выглядит логичным исходя из

того, что использованный нами пакет CAMeL Tools для классического арабского языка был обучен на корпусе средневековых текстов, а Mazajak на примерах из социальных сетей. Это также подтверждает необходимость создания и доработки моделей, предназначенных именно для анализа классических текстов.

Среди особенностей работы алгоритмов также следует отметить, что Mazajak в отличие от CAMeL Tools, определяет подавляющее большинство контекстов как позитивные, либо негативные (14.5% нейтральных контекстов у Mazajak, против 58.3% у CAMeL Tools и 57.2% при ручной оценке).

Также можно предположить, что более точные результаты были бы получены при анализе данными алгоритмами более широких контекстов, что, однако, требует специальной предобработки текста источника.

Список источников

1. Bernikova O. A., Redkin O. I. Morphological Aspects of Emotiveness in the Quran // International Multidisciplinary Scientific Conference on Social Sciences and Arts. 2018. Vol. 5. P. 389-396.

2. Boudad N., Faizi R., Thami R., Chiheb R. Sentiment analysis in Arabic: A review of the literature // Ain Shams Engineering Journal. 2018. Vol. 9, Issue 4. P. 2479-2490.

3. Соколов О. А., Кижаева Н. А. Сентимент-анализ средневековых арабских письменных памятников на примере «Путешествия» (al-Rihla) Ибн Баттуты // Исламоведение. 2022. Т. 13, № 4(54). С. 53-60.

4. Jenkins K. Re-thinking History. Routledge: London and New York. 2004. 115 p.

5. White H. The Content of the Form. Narrative Discourse and Historical Representation. Baltimore: The Johns Hopkins University Press. 1987. 130 p.

6. Sprugnoli R., Tonelli S., Marchetti A., Moretti G. Towards sentiment analysis for historical texts. Digital Scholarship in the Humanities. 2016. Vol. 31, Issue 4. P. 762-772.

7. Oueslati O., Cambria E., Ben HajHmida M., Ounelli H. A review of sentiment analysis research in Arabic language // Future Generation Computer Systems. 2020. Vol. 112. P. 408-430.

8. Al-Ayyoub M. et al. A comprehensive survey of arabic sentiment analysis // Information processing & management. 2019. V. 56. №. 2. P. 320-342.

9. Alharbi A., Taileb M., Kalkatawi M. Deep learning in Arabic sentiment analysis: An overview // Journal of Information Science. 2021. V. 47. №. 1. P. 129-140.

10. A1 Sallab A. et al. Deep learning models for sentiment analysis in Arabic. Proceedings of the second workshop on Arabic natural language processing. 2015. P. 9-17.

11. Abu Kwaik K. et al. LSTM-CNN deep learning model for sentiment analysis of dialectal Arabic. Arabic Language Processing: From Theory to Practice: 7th International Conference, ICALP 2019, Nancy, France, October 16-17, 2019, Proceedings 7. Springer International Publishing, 2019. P. 108-121.

12. Elnagar A., Khalifa Y., et Einea A., Hotel Arabic-Reviews Dataset Construction for Sentiment Analysis Applications. Intelligent Natural Language Processing: Trends and Applications. Cham: Springer International Publishing, 2018, P. 35-52.

13. Abdul-Mageed M., Elmadany A. R., Nagoudi E. ARBERT & MARBERT: deep bidirectional transformers for Arabic. arXiv preprint arXiv:2101.01785. 2020.

14. Antoun W., Baly F., Hajj H. Arabert: Transformer-based model for arabic language understanding. arXiv preprint arXiv:2003.00104. 2020.

15. Nagoudi E. M. B., Elmadany A. R., Abdul-Mageed M. AraT5: Text-to-text transformers for Arabic language generation. arXiv preprint arXiv:2109.12068. 2021.

16. Antoun W., Baly F., Hajj H. AraGPT2: Pre-trained transformer for Arabic language generation. arXiv preprint arXiv:2012.15520. 2020.

17. Sengupta N. et al. Jais and jais-chat: Arabic-centric foundation and instruction-tuned open generative large language models. arXiv preprint arXiv:2308.16149. 2023.

18. Obeid O. et al. CAMeL tools: An open source python toolkit for Arabic natural language processing. Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020. P. 7022-7032.

19. Farha I. A., Magdy W. Mazajak: An online Arabic sentiment analyser. Proceedings of the fourth Arabic natural language processing workshop. 2019. P. 192-198.

20. Mikolov T., Chen K., Corrado G. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781. 2013.

21. Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT. 2019. P. 4171-4186.

22. Antoun W., Baly F., Hajj H. Arabert: Transformer-based model for arabic language understanding. arXiv preprint arXiv:2003.00104. 2020.

23. Elmadany A., Mubarak H., and Magdy W. Arsas: An Arabic speech-act and sentiment corpus of tweets. In Hend Al-Khalifa, et al., editors, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Paris,

France. URL:http://lrec-conf.org/workshops/lrec2018/W30/pdf/22_W30.pdf (Дата обращения: 15 сентября 2023)

24. Nabil M., Aly M., Atiya A. ASTD: Arabic sentiment tweets dataset // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, September. Association for Computational Linguistics. Pages. 2015. P. 2515-2519.

25. Phillips J. The Life and Legend of the Sultan Saladin. New Haven: Yale University Press. 2019. 516 p.

26. Ibn Shaddiäd, Bahiä' al-DTn. al-Nawiädir al-sultiäniyya wa al-maMsin al-yüsufiyya. Al-Qahira: Mu'assasat hindawT li al-ta'lTm wa al-taqafa. 2015. 232 s.

Bibliographic References

1. Bernikova O. A., Redkin O. I. Morphological Aspects of Emotiveness in the Quran. International Multidisciplinary Scientific Conference on Social Sciences and Arts. 2018;5:389-396.

2. Boudad N., Faizi R., Thami R., Chiheb R. Sentiment analysis in Arabic: A review of the literature. Ain Shams Engineering Journal. 2018;9(4):2479-2490.

3. Sokolov O. A., Kizhaeva N. A. Sentiment analysis of medieval Arabic written monuments on the example of "The Journey" (al-Rihla) by Ibn Battuta. Islamovedenie [Islamic Studies]. 2022;13(4):53-60. (In Russ.).

4. Jenkins K. Re-thinking History. Routledge: London and New York. 2004. 115 p.

5. White H. The Content of the Form. Narrative Discourse and Historical Representation. Baltimore: The Johns Hopkins University Press. 1987. 130 p.

6. Sprugnoli R., Tonelli S., Marchetti A., Moretti G. Towards sentiment analysis for historical texts. Digital Scholarship in the Humanities. 2016;31(4):762-772.

7. Oueslati O., Cambria E., Ben HajHmida M., Ounelli H. A review of sentiment analysis research in Arabic language. Future Generation Computer Systems. 2020;112:408-430.

8. Al-Ayyoub M. et al. A comprehensive survey of arabic sentiment analysis. Information processing & management. 2019;56(2):320-342.

9. Alharbi A., Taileb M., Kalkatawi M. Deep learning in Arabic sentiment analysis: An overview. Journal of Information Science. 2021;47(1):129-140.

10. Al Sallab A. et al. Deep learning models for sentiment analysis in Arabic. Proceedings of the second workshop on Arabic natural language processing. 2015. P. 9-17.

11. Abu Kwaik K. et al. LSTM-CNN deep learning model for sentiment analysis of dialectal Arabic. Arabic Language Processing: From Theory to Practice: 7th International Conference, ICALP 2019, Nancy, France, October 16-17, 2019, Proceedings 7. Springer International Publishing. 2019. P. 108-121.

12. Elnagar A., Khalifa Y., et Einea A., Hotel Arabic-Reviews Dataset Construction for Sentiment Analysis Applications. Intelligent Natural Language Processing: Trends and Applications. Cham: Springer International Publishing, 2018, P. 35-52.

13. Abdul-Mageed M., Elmadany A. R., Nagoudi E. ARBERT & MARBERT: deep bidirectional transformers for Arabic. arXiv preprint arXiv:2101.01785. 2020.

14. Antoun W., Baly F., Hajj H. Arabert: Transformer-based model for arabic language understanding. arXiv preprint arXiv:2003.00104. 2020.

15. Nagoudi E. M. B., Elmadany A. R., Abdul-Mageed M. AraT5: Text-to-text transformers for Arabic language generation. arXiv preprint arXiv:2109.12068. 2021.

16. Antoun W., Baly F., Hajj H. AraGPT2: Pre-trained transformer for Arabic language generation. arXiv preprint arXiv:2012.15520. 2020.

17. Sengupta N. et al. Jais and jais-chat: Arabic-centric foundation and instruction-tuned open generative large language models. arXiv preprint arXiv:2308.16149. 2023.

18. Obeid O. et al. CAMeL tools: An open source python toolkit for Arabic natural language processing. Proceedings of the Twelfth Language Resources and Evaluation Conference. 2020. P. 7022-7032.

19. Farha I. A., Magdy W. Mazajak: An online Arabic sentiment analyser. Proceedings of the fourth Arabic natural language processing workshop. 2019. P. 192-198.

20. Mikolov T., Chen K., Corrado G. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781. 2013.

21. Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT. 2019. P. 4171-4186.

22. Antoun W., Baly F., Hajj H. Arabert: Transformer-based model for arabic language understanding. arXiv preprint arXiv:2003.00104. 2020.

23. Elmadany, A., Mubarak, H., and Magdy, W. (2018). Arsas: An Arabic speech-act and sentiment corpus of tweets. In Hend Al-Khalifa, et al., editors, Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Paris, France. URL:http://lrec-conf.org/workshops/lrec2018/W30/pdf/22_W30.pdf (Accessed: 15.09.2023)

24. Nabil M., Aly M., Atiya A. ASTD: Arabic sentiment tweets dataset. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal, September. Association for Computational Linguistics. Pages. 2015. P. 2515-2519.

25. Phillips J. The Life and Legend of the Sultan Saladin. New Haven: Yale University Press, 2019. 516 p.

26. Ibn Shaddiid, BaM' al-Dln. al-Nawiidir al-sult&niyya wa al-maMsin al-yusufiyya. Al-Qahira: Mu'assasat hindawT li al-ta'llm wa al-taqafa. 2015. 232 P. (In Arab.)

Информация об авторах Information about the authors

Олег Александрович Соколов - канд. Oleg A. Sokolov - Candidate of

ист. наук, старший преподаватель History, Senior Lecturer of St.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кафедры арабской филологии Санкт- Petersburg University, Saint

Петербургского государственного Petersburg, Russia;

университета, Санкт-Петербург, Россия; https://orcid.org/0000-0002-6051-

https://orcid.org/0000-0002-6051-5239, 5239,

e-mail: o.a.sokolov@spbu.ru e-mail: o.a.sokolov@spbu.ru

Наталья Александровна Кижаева - канд. Natalia A. Kizhaeva - Candidate of

ф-м. наук, научный сотрудник Санкт- Physical and Mathematical Sciences,

Петербургского государственного Researcher at St. Petersburg

университета, Санкт-Петербург, Россия; University, Saint Petersburg, Russia;

http://orcid.org/0000-0003-4343-9921, http://orcid.org/0000-0003-4343-

e-mail: natalia.kizhaeva@gmail.com 9921,

e-mail: natalia.kizhaeva@gmail.com

Статья поступила в редакцию 18.10.2023; одобрена после рецензирования 13.11.2023; принята к публикации 20.11.2023.

The article was submitted 18.10.2023; approved after reviewing 13.11.2023; accepted for publication 20.11.2023.

Раскрытие информации о конфликте интересов: Автор заявляет об отсутствии конфликта интересов.

Conflicts of Interest Disclosure: The author declares Conflicts of Interest Disclosure.

i Надоели баннеры? Вы всегда можете отключить рекламу.