Научная статья на тему '«ВАЛИДАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ'

«ВАЛИДАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
129
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТОНАЛЬНОСТИ / МАШИННОЕ ОБУЧЕНИЕ / ВАЛИДАЦИЯ МОДЕЛЕЙ / РАСПОЗНАВАНИЕ ЭМОЦИЙ / КОЭФФИЦИЕНТЫ МЕЖАННОТАТОРСКОГО СОГЛАСИЯ / АЛЬФА КРИППЕНДОРФА / КАППА КОЭНА / КАППА ФЛЕЙСА / АВТОМАТИЗИРОВАННАЯ ОБРАБОТКА ТЕКСТОВ НА РУССКОМ ЯЗЫКЕ / КАЧЕСТВО ЖИЗНИ

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Басина Полина Александровна, Дунаева Дарья Олеговна, Саркисова Анна Юрьевна

Приводятся результаты валидации 6 моделей машинного обучения для определения тональности русскоязычных публикаций по тематике качества жизни населения. Использованы коэффициенты межаннотаторского согласия - альфы Криппендорфа, каппа Коэна и каппа Флейса. Полученные значения коэффициентов показали низкий уровень надежности между экспертными метками и метками, которые были присвоены моделями. Сделаны выводы о наиболее частых причинах разногласий при определении тональности моделями машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Басина Полина Александровна, Дунаева Дарья Олеговна, Саркисова Анна Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VALIDATION OF MACHINE LEARNING MODELS FOR AUTOMATED SENTIMENT DETERMINATION OF RUSSIAN-LANGUAGE TEXTS

Sentiment analysis is one of the most demanded natural language processing operations for solving applied problems. One of the key methods of automated sentiment analysis is supervised machine learning. In the presence of a large selection of ready-made solutions for determining the tonality, the results of the models give significant errors due to the complexity and contextual conditionality of the linguistic explication of emotions. The article presents the results of the validation of 6 models for determining the sentiment of Russian-language publications using a research validation dataset - expertly marked 300 statements extracted from social network messages on the subject of quality of life and corresponding to one of the sentiment types: positive, negative, neutral. To evaluate the performance of the models, interannotator agreement coefficients were used, in particular, Krippendorff's alpha, Cohen's kappa and Fleiss's kappa coefficients. The obtained values of the coefficients showed a low level of reliability between the expert labels and the labels that were assigned by the models. Among the experiments performed, the lowest agreement coefficients were achieved for the Blanchefort model trained on Rusentiment data, and the highest for the model of the same developer trained on medical feedback data. Based on the results obtained, conclusions were drawn about the most common causes of disagreements in determining sentiment by machine learning models. Machine learning models correctly identify the tone of texts if they contain bright lexical markers that match in tone the general tone of the statement. On the contrary, problems in determining the tone of an emotionally charged message by the model are provoked by the presence of a word with the opposite tone in it. The use of emotive vocabulary that does not match the tone of the entire statement, the presence of marker words not in their direct meanings, the use of uppercase, forms of complicated communication (including irony, sarcasm) remain risk factors for attracting automated analysis resources: with a high degree of probability the automatic classification model will not be able to correctly determine the tone of the text. The main reason for the “difficulties” of the automated determination of sentiment is the complexity of the task of focusing on the utterance as an integral unit and the refusal to focus on individual formal indicators. The utterance is the minimum communicative unit of speech. Capturing its semantic and emotionally expressive integrity is a super task for machine learning models in sentiment analysis. So, it is still quite difficult to trust machine learning models in solving such a complex task as automated categorization of emotions. It is advisable to associate the prospects for research directions in this area, first of all, with the development of high-quality, linguistically sound training datasets.

Текст научной работы на тему ««ВАЛИДАЦИЯ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АВТОМАТИЗИРОВАННОГО ОПРЕДЕЛЕНИЯ ТОНАЛЬНОСТИ РУССКОЯЗЫЧНЫХ ТЕКСТОВ»

Вестник Томского государственного университета. 2022. № 485. С. 206-216 Vestnik Tomskogo gosudarstvennogo universiteta - Tomsk State University Journal. 2022. 485. рр. 206-216

СОЦИОЛОГИЯ И ПОЛИТОЛОГИЯ

Научная статья

УДК 316.65 + 81'322.2

аог 10.17223/15617793/485/23

Валидация моделей машинного обучения для автоматизированного определения

тональности русскоязычных текстов

Полина Александровна Басина1, Дарья Олеговна Дунаева2, Анна Юрьевна Саркисова3

1, 2, Национальный исследовательский Томский государственный университет, Томск, Россия

1 basina@data.tsu.ru 2 ddo@data.tsu.ru 3 sarkisova@data.tsu.ru

Аннотация. Приводятся результаты валидации 6 моделей машинного обучения для определения тональности русскоязычных публикаций по тематике качества жизни населения. Использованы коэффициенты межаннотаторского согласия - альфы Криппендорфа, каппа Коэна и каппа Флейса. Полученные значения коэффициентов показали низкий уровень надежности между экспертными метками и метками, которые были присвоены моделями. Сделаны выводы о наиболее частых причинах разногласий при определении тональности моделями машинного обучения.

Ключевые слова: анализ тональности, машинное обучение, валидация моделей, распознавание эмоций, коэффициенты межаннотаторского согласия, альфа Криппендорфа, каппа Коэна, каппа Флейса, автоматизированная обработка текстов на русском языке, качество жизни

Источник финансирования: исследование выполнено при финансовой поддержке РНФ, проект 18-18-00480 «Субъективные индикаторы и психологические предикторы качества жизни».

Для цитирования: Басина П.А., Дунаева Д.О., Саркисова А.Ю. Валидация моделей машинного обучения для автоматизированного определения тональности русскоязычных текстов // Вестник Томского государственного университета. 2022. № 485. С. 206-216. аог 10.17223/15617793/485/23

Original article

doi: 10.17223/15617793/485/23

Validation of machine learning models for automated sentiment determination

of Russian-language texts

Polina A. Basina1, Darya O. Dunaeva2, Anna Yu. Sarkisova3

1:2,3 National Research Tomsk State University, Tomsk, Russian Federation 1 basina@data.tsu.ru 2 ddo@data.tsu.ru 3 sarkisova@data.tsu.ru

Abstract. Sentiment analysis is one of the most demanded natural language processing operations for solving applied problems. One of the key methods of automated sentiment analysis is supervised machine learning. In the presence of a large selection of ready-made solutions for determining the tonality, the results of the models give significant errors due to the complexity and contextual conditionality of the linguistic explication of emotions. The article presents the results of the validation of 6 models for determining the sentiment of Russian-language publications using a research validation dataset - expertly marked 300 statements extracted from social network messages on the subject of quality of life and corresponding to one of the sentiment types: positive, negative, neutral. To evaluate the performance of the models, interannotator agreement coefficients were used, in particular, Krippendorffs alpha, Cohen's kappa and Fleiss's kappa coefficients. The obtained values of the coefficients showed a low level of reliability between the expert labels and the labels that were assigned by the models. Among the experiments performed, the lowest agreement coefficients were achieved for the Blanchefort model trained on Rusentiment data, and the highest for the model of the same developer trained on medical feedback data. Based on the results obtained, conclusions were drawn about the most common causes of disagreements in determining sentiment by machine learning models. Machine learning models correctly identify the tone of texts if they contain bright lexical markers that match in tone the general tone of the statement. On the contrary, problems in determining the tone of an emotionally charged message by the model are provoked by the presence of a word with the opposite

© Басина П. А., Дунаева Д.О., Саркисова А.Ю., 2022

tone in it. The use of emotive vocabulary that does not match the tone of the entire statement, the presence of marker words not in their direct meanings, the use of uppercase, forms of complicated communication (including irony, sarcasm) remain risk factors for attracting automated analysis resources: with a high degree of probability the automatic classification model will not be able to correctly determine the tone of the text. The main reason for the "difficulties" of the automated determination of sentiment is the complexity of the task of focusing on the utterance as an integral unit and the refusal to focus on individual formal indicators. The utterance is the minimum communicative unit of speech. Capturing its semantic and emotionally expressive integrity is a super task for machine learning models in sentiment analysis. So, it is still quite difficult to trust machine learning models in solving such a complex task as automated categorization of emotions. It is advisable to associate the prospects for research directions in this area, first of all, with the development of high-quality, linguistically sound training datasets.

Keywords: sentiment analysis, machine learning, model validation, emotion recognition, inter-annotator agreement coefficients, Krippendorffs alpha, Cohen's kappa, Fleiss's kappa, quality of life, well-being

Financial support: The study was supported by the Russian Science Foundation, Project No. 18-18-00480.

For citation: Basina, P.A., Dunaeva, D.O. & Sarkisova, A.Yu. (2022) Validation of machine learning models for automated sentiment determination of Russian-language texts. Vestnik Tomskogo gosudarstvennogo universiteta -Tomsk State University Journal. 485. рр. 206-216. (In Russian). doi: 10.17223/15617793/485/23

Введение

Одним из наиболее актуальных направлений компьютерной лингвистики является сентимент-анализ [1], который находит практическое применение в социологии, маркетинге, безопасности, финансовой сфере, политике и др. (см., например, [2-5] и др.). Сентимент-анализ включает в себя два основных блока: 1) анализ тональности - классификацию текстов на основе эксплицированного в них эмоционального отношения авторов к предмету речи; 2) извлечение мнений - выделение из корпуса текстов всех эмоционально-оценочных отзывов о конкретных заданных объектах.

Анализ тональности может осуществляться вручную или автоматизировано. На сегодняшний день ручная разметка текстов, безусловно, обеспечивает более корректный и качественный результат, позволяя учитывать специфику исследовательской задачи, однако увеличивающиеся объёмы данных, равно как и важность временного фактора в эффективности их обработки при современном темпе социальных, экономических, политических изменений, актуализируют задачу совершенствования методов автоматизированного определения тональности.

Разрабатываются такие методы автоматизированного анализа тональности, как генерация правил, использование тональных словарей, построение теоретико-графовых моделей, машинное обучение с учителем или без учителя, а также гибридные методы. Недостатками всех методов, требующих привлечения словарей, являются низкая универсальность, высокая трудоёмкость, необходимость большого объёма слов, потребность в обновляемости словарей, наличии специализированных словарей и др. В зарубежных исследованиях идёт активный поиск решений для совершенствования процедуры автоматизированного анализа тональности на основе методов с использованием словарей [6-10]. Тормозящим фактором также является тот, что готовые технические решения в области автоматизированного определения тональности сильно зависимы от конкретного языка. В работе А.А. Двойниковой, А.А. Карпова [11], содержащей

обзор подходов к анализу тональности русскоязычных текстовых данных, отмечается, что на начало 2020 г. в свободном доступе удалось найти четыре тональных словаря и семь текстовых корпусов, предназначенных для задачи сентимент-анализа текстов на русском языке [11. С. 23].

В нашем исследовании внимание концентрируется на машинном обучении с учителем. При данном подходе используется «обучающая выборка» - вручную размеченные по тональностям тексты, на которых обучается модель с целью последующего использования данной модели для автоматизированной классификации коллекции текстов намного большей размерности. Технологиям автоматизированного определения тональности с использованием машинного обучения посвящены, например, последние работы [12-16].

В использовании метода машинного обучения для обработки текстов первостепенную роль играет качество обучающей выборки. Сама модель превращается в «чёрный ящик», выдающий решение под ключ; в то время как именно разметка текстов может быть максимально научно обоснованной. Эффективность модели в распознавании тональности определяется 1) качеством обучающей выборки; 2) допустимой степенью возможности категоризации эмоций и автоматизации их определения в целом; 3) способами создания векторных представлений текстов и самой моделью (архитектурой).

Последний критерий нуждается в комментарии, так как далее он затрагиваться в статье не будет.

В рамках представленного эксперимента были использованы модели RuBERT.

RuBERT представляет собой нейронную сеть BERT, основанную на архитектуре трансформер, которая была обучена на русскоязычных данных. С 2018 г. упомянутая архитектура занимает лидирующие позиции в обработке естественного языка. Она основана на механизме внимания (attention), что позволяет модели обращать внимание на разные части текста и лучше понимать закономерности, необходимые для решения задачи. Результаты модели BERT показали значительный прирост по сравнению с предыдущими SOTA-решениями [17].

Эффективность работы алгоритмов для задач текстовой классификации зависит от многих факторов, где одними из значимых являются язык и источник данных. Популярными и эффективными алгоритмами классификации русскоязычного контента социальных сетей признаются рекуррентные нейронные сети (LSTM, GRU, BiLSTM). Однако на сегодняшний день предобученная на большом корпусе русскоязычных данных модель RuBERT показывает лучшие результаты [18-22]. Например, в 2020 г. А. Голубев и соавт. [20], используя пять российских наборов оценок («ROMIP-2013» и «Twitter SentiRuEval 2015-2016»), провели тестирование стандартных архитектур нейросетевых моделей (CNN, LSTM, BiLSTM) и мо-делей-трансформер RuBERT. Во-первых, важно отметить, что в случае моделей BERT предварительная обработка не оказывает значимого влияния (изменение около 0,01%). Во-вторых, в рамках поставленной задачи модель RuBERT-NLI показала лучшие результаты. Интересно, что один из участников «SentiRuEval-2015» загрузил ручную аннотацию тестового набора данных Telecom. Авторы отмечают, что лучшие результаты BERT очень близки к ручной маркировке [20]. Также данный тезис был подтвержден в нашем исследовательском опыте [23].

Наиболее актуальное направление исследований в данной области, таким образом, имеет лингвистический и психолингвистический вектор. Необходим поиск адекватных лингвистических (разного уровня) маркеров с учётом их функционирования в многообразии контекстов, которые будут обеспечивать точность отнесения включающих их высказываний к одному из типов тональности (насколько это вообще возможно).

Объективными лингвистическими трудностями автоматизированной детекции тональности являются категоризация сложных эмоций; многообразие и нестандартность формы выражения, затрудняющие идентификацию эмоции; зависимость от контекста -вплоть до антонимичной семантики эмоции при изолированном извлечении объективирующих её слов и фраз; лексическая полисемия; средства непрямой коммуникации; подтекст и имплицитность смыслов; наличие интегративных и дифференцирующих маркеров для каждой эмоции; несводимость общей тональности текста к тональности эмотивных слов; необязательная зависимость между частотностью позитивно/негативно окрашенной лексики и тональностью текста в целом и т.д. (см. также [24. С. 231-232; 25. С. 83]). К осложняющим факторам при работе с текстовыми данными большой размерности относятся количество шума в текстах, наличие спама в форме мнений, желательность обучающей выборки большого размера, требующей краудсорсинга. Для сложных шкал эмоций значимо также отсутствие в современной психологии чёткой классификации эмоций [25. С. 83].

Цель данного исследования - уточнить некоторые системные лингвистические трудности автоматизированного определения тональности с использованием методов машинного обучения с учителем посредством валидации ряда моделей, ориентированных на

обработку русскоязычных текстов, и анализа разногласий в результатах.

Материал и методы

Описание материала. Материал для тестирования моделей (для создания валидационного датасета) извлечён из наиболее популярной российской социальной сети «ВКонтакте» (https://vk.com/). Социальные сети - это динамичная среда, удобная для получения картины общественного мнения, так как она количественно репрезентативная и требует сравнительно небольших временных и материальных исследовательских ресурсов [26]. Автоматизированный сбор данных осуществлялся с помощью открытого API «ВКонтакте» [27].

В исходном датасете были представлены сообщения из региональных сообществ социальной сети «ВКонтакте» за 2020-2021 гг. [28], общее количество постов составило 88 733. С помощью алгоритма автоматической классификации [23] были отобраны только те сообщения, которые описывают социальную, политическую или экономическую жизнь региона (35 135 постов), далее были отфильтрованы и исключены сообщения с информационной тональностью - новости и объявления: «... формальные тексты существенно отличаются от неформальных по структуре и лексике и поэтому требуют другого подхода» [29. С. 44]. В результате был получен дата-сет, включающий в себя 1 500 постов, в которых содержится информация о социально-политической жизни в регионах РФ с выраженным отношенческим компонентом.

Исследовательский валидационный датасет включает извлечённые вручную текстовые фрагменты (как правило, ограниченные одним предложением) (далее - высказывания), которые более или менее однозначно можно отнести к одному из типов тональности: позитивному, негативному или нейтральному. Датасет составил 300 единиц - по 100 текстов каждой тональности.

Валидационный датасет представляет собой результат авторской выборки и авторской разметки по тональностям искомых текстов. В разделе «Принципы разметки валидационного датасета» описано, руководствуясь какими критериями авторы данной статьи размечали тексты по категориям.

О выборе шкалы тональности. В исследовательской практике используются разные шкалы тональностей: бинарная (положительная или отрицательная оценка), тернарная (положительная, отрицательная, нейтральная оценки), многоклассовая (расширенное количество более детализированных классов), дискретная (присвоение каждому тексту оценочного индекса, выраженного численно; не только наличие сен-тимента, но и интенсивность). Для решения некоторых задач «шкала тональности мнений должна быть гибкой, ориентированной на построение как абсолютных, так и сравнительных оценок» [30. С. 138].

В настоящем исследовании выбрана тернарная шкала тональности.

С одной стороны, было решено отказаться от сложных шкал. Исследование выполняется в рамках задачи построения индексов субъективного качества жизни [31]. «Субъективное» качество жизни как предмет анализа предполагает внимание именно к восприятию самим человеком уровня своего благополучия (в данном случае - зафиксированному им в социальных сетях). Оценка субъективного благополучия складывается из того, какие тематики превалируют в публикациях (что пишут), и того, какое эмоционально-экспрессивное отношение в них выражается (как пишут). Позитивное отношение означает, что сообщение содержит некоторую положительную оценку или выражение одобрения какой-либо новости или ситуации, упомянутой в сообщении; отрицательное отношение означает, что оно содержит неодобрение, негодование по отношению к содержанию сообщения; нейтральное отношение означает, что сообщение является чисто информативным и не содержит никакой оценки.

Отказ от сложных шкал позволяет предупредить риски повышения субъективности индекса, вызванные разночтениями в интерпретации большого количества эмоций.

С другой стороны, бинарная шкала, хотя и используется для анализа тональности текстов в социальных сетях [32], требует предварительной селекции текстов. Логично, что «применение бинарной шкалы тональности допустимо только при наличии предварительного этапа фильтрации объективных суждений и нейтральных мнений» [30. С. 137].

Принципы разметки валидационного датасета

При присвоении тональности высказыванию контекст извлечённых высказываний не учитывался. Эмоциональная окраска высказываний оценивалась в их изолированном виде.

Например:

- «Я рыдаю от бессилия» (negative), «Люди оторваны от остальной части города, а ещё спецслужбы не смогут приехать вовремя на вызов» (negative).

- «Были приведены в порядок территория и детская площадка» (positive), «Сайт сделан так, что граждане легко могут разобраться в нем вне зависимости от возраста» (positive).

- «Во всем регионе введен режим самоизоляции» (neutral), «Таким образом, выходными днями объявляются с 1 по 11 мая» (neutral).

При разметке высказываний не учитывались наличие и характер эмотивной лексики или других формальных элементов текстов. Принципиальное значение имела только общая оценочно-смысловая нагрузка высказывания.

Интерес представляла именно эмоциональная оценка с точки зрения говорящего. Если она никоим образом не выражена в рамках самого высказывания, то высказывание относилось к нейтральным. Например, нейтральными являются высказывания: «При этом четверть (24,5%) участников опроса отказались верить в существование эпидемии, а еще 9,1%

считают опасность преувеличенной», или «Ситуацию в министерстве на момент публикации не прокомментировали», или «В этот период во всех образовательных организациях происходят изменения».

Важным моментом также является то, что анализу подлежит именно пропозиция самого высказывания. Пресуппозиции не влияют на итоговую тональность. Оценочно-смысловую модальность высказывания определяет прежде всего его предикативное ядро.

Например, высказывание «Суд признал экс-бухгалтера окружной больницы виновной в мошенничестве» является нейтральным, несмотря на то, что говорящий даёт негативную оценку экс-бухгалтеру (считает её «мошенницей»). Аналогично нейтральным является высказывание «Убийцу из монастырской пекарни в Тверской области взяли под стражу» (говорящий присваивает лицу негативный ярлык «убийца», но высказывание посвящено не этому).

В случае сложных предложений приоритетной для определения доминантной тональности высказывания оказывается оценка, выраженная в главном предложении сложноподчинённых предложений или логически главная - в сложносочинённых. Например, в высказывании «Возможно, не все в курсе, но УК рекомендовано активно продолжать обрабатывать подъезды» смысловой акцент, определяющий тональность, - на рекомендациях УК, а не на том, что «не все в курсе».

В целом разметка определялась, в первую очередь, не формализованными параметрами, а целостным смыслом высказывания. Последнее определяло как коннотативный макрокомпонент его семантики, так и прагматическую интенцию говорящего.

Отбор моделей для валидации

Для тестирования были выбраны обученные под целевую задачу (определение тональности) модели, размещенные на сайте https://huggingface.co/. Hugging Face - это сообщество и платформа для изучения данных, которая предоставляет инструменты, позволяющие пользователям создавать, обучать и развертывать модели ML на основе кода и технологий с открытым исходным кодом (OS). Также Hugging Face представляет собой коммуникативную площадку для широкого круга специалистов по обработке данных, исследователей и инженеров ML, каждый из которых может внести свой вклад в проекты с открытым исходным кодом (см.: https://towardsdatascience.com/whats-hugging-face-122f4e7eb11a).

При отборе моделей мы руководствовались следующими критериями: 1) целевой задачей - определением тональности текстового сообщения; 2) тернарной системой шкалирования - дифференциацией позитивной, негативной и нейтральной тональностей; 3) языком - русским. Данным требованиям соответствовала 21 модель (https://huggingface.co/models? language=ru&sort=downloads&search=sentimen). В качестве четвёртого критерия выделено количество ска-

чиваний как показатель популярности и востребован- Результатом отбора стали 6 моделей RuBERT ности модели: определён порог - 30 скачиваний. (табл. 1). В каждой модели используются следующие

метки: 0 - NEUTRAL, 1 - POSITIVE, 2 - NEGATIVE.

Т а б л и ц а 1

Список моделей машинного обучения, отобранных для валидации

№ модели Название модели (ссылка) Название датасета Объем (кол-во сообщений) Тематика

1 Tatyana/rubert-base-cased-sentiment-new (https://huggingface.co/Tatyana/rubert-base-cased-sentiment-new) Агрегированный корпус, состоящий из общедоступных датасетов для анализа тональности русскоязычных текстов 323 320 Смешанные темы

2 blanchefort/rubert-base-cased-sentiment (https://huggingface.co/blanchefort/rubert-base-cased-sentiment) Агрегированный корпус, состоящий из общедоступных датасетов для анализа тональности русскоязычных текстов (состав датасетов отличает от представленной выше модели) 351 797 Смешанные темы

3 blanchefort/rubert-base-cased-sentiment-rusentiment (blanchefort/rubert-base-cased-sentiment-rusentiment) 31 185 Общая тематика (посты социальной сети)

4 cointegrated/rubert-tiny-sentiment-balanced (https://huggingface.co/cointegrated/rubert-tiny-sentiment-balanced) Наборы данных, собранных Сметаниным 574 907 Смешанные темы

5 blanchefort/rubert-base-cased-sentiment-rurewiews (https://huggingface.co/blanchefort/rubert-base-cased-sentiment-rurewiews) RuReviews 60 000 Женская одежда и аксессуары

6 blanchefort/rubert-base-cased-sentiment-med (https://huggingface.co/blanchefort/rubert-base-cased-sentiment-med) Отзывы о медучреждениях 172 074 Медицинские отзывы

Справедливо отметить, что отбор моделей не учитывал тематику использованных в них обучающих датасе-тов. Рассмотрению подлежали все модели, соответствующие перечисленным выше критериям. Несмотря на то, что в данной статье акцент делается на универсальных лингвистических и процедурных факторах подготовки обучающих выборок, необходима оговорка о том, что несоответствие тематик текстов также, безусловно, влечёт за собой известную погрешность.

Методика выявления степени согласованности

Одним из известных и наиболее простых методов для оценки качества аннотирования является сравнение аннотаторов (в нашем случае предсказанных меток моделей) с некоторым золотым стандартом - правильными ответами, которые мы принимаем за истину. Популярным решением является расчет межанно-тарского соглашения - показатель согласия между аннотаторами (в нашем случае - между истинным ответом и предсказанными моделями классами). В представленной работе мы используем межаннотар-ское согласие для определения того, можем ли мы доверять общедоступным моделям - согласуются ли наши представления об эмоциональной окраске текстов с теми, которые научились определять модели с помощью обучающих данных.

Коэффициент альфа Криппендорфа (Krippendorff's alpha) позволяет определить общее согласие в наборе данных; также используются альтернативы данного коэффициента каппа Коэна (Cohen's kappa) и каппа Флейса (Fleiss's kappa) [33].

Методы интерпретации данных

Для интерпретации результатов использовались:

1) анализ коэффициентов согласия моделей с экспертной разметкой и между собой;

2) качественный анализ разногласий, лингвистический анализ «трудностей» автоматизированного определения тональности текста.

Результаты и обсуждение

Полученные коэффициенты позволяют сделать вывод о крайне низкой степени согласованности моделей с экспертной разметкой. Коэффициенты согласия моделей с экспертной разметкой представлены в табл. 2.

В случае с альфа Криппендорфа надежным признается коэффициент согласия в интервале от 0,8 и выше [34]. Ни одна модель не показала хороший результат по этому коэффициенту.

Лэндис и Кох предложили следующую интерпретацию коэффициентов каппа [35]: значения <0 указывают на отсутствие согласия, 0,01-0,20 - незначительное отсутствие, 0,21-0,40 - справедливое, 0,410,60 - умеренное, 0,61-0,80 - существенное и 0,811,00 - почти полное согласие. Согласно рассмотренному определению, по критерию каппа Коэна модели № 1-5 демонстрируют схожие результаты и справедливую степень согласия (коэффициенты каппа Коэнна = 0,34-0,37), а модель № 6 - умеренную степень согласия (коэффициент каппа Коэна = 0,42). Однако следует учитывать, что данная интерпретация не является общепринятой.

Т а б л и ц а 2

Коэффициент ы согласия моделей с экспертной разметкой

№ модели Модель Альфа Криппендорфа Каппа Флейса Коэффициент согласия Каппа Коэна

1 Tatyana/rubert-base-cased-sentiment-new 0,33 0,32 0,34

2 blanchefort/rubert-base-cased-sentiment 0,33 0,32 0,34

3 blanchefort/rubert-base-cased-sentiment-rusentiment 0,27 0,27 0,34

4 cointegrated/rubert-tiny-sentiment-balanced 0,33 0,32 0,34

5 blanchefort/rubert-base-cased-sentiment-rurewiews 0,36 0,36 0,37

6 blanchefort/rubert-base-cased-sentiment-med 0,39 0,39 0,42

В случае каппа Флейса самые плохие результаты показала модель № 3 (0,27), модели № 1, 2, 4 демонстрируют немного лучшие результаты (0,32). У моделей № 5 и 6 самые высокие результаты по этому критерию - 0,36 и 0,39 соответственно.

Таким образом, результаты моделей в целом слабо согласуются с результатами ручной разметки согласно выделенным коэффициентам межаннотарского соглашения; самые высокие значения коэффициентов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Лучше всех позитивную тональность сообщений определяет модель № 6 (обучена на медицинском контенте) - расхождение с экспертной разметкой составляет всего 3%. Все остальные модели определили в два раза меньше позитивных сообщений по сравнению с экспертной разметкой. Сообщения с негативной тональностью модели определяют значительно лучше, можно выделить модели № 1, 2 и 5. Доля негативных сообщений, которые они обнаружили в дата-сете, отличается от экспертной разметки не более чем на 4%. Стоит отметить, что модель № 6, показавшая наилучшие результаты по определению позитивных сообщений, к негативу относит почти в два раза больше сообщений по сравнению с экспертной разметкой (61%). Эта модель практически не выявляет нейтральную тональность, классифицируя сообщения почти бинарно. Нейтральные сообщения плохо определяют и все остальные модели - их количество значительно больше, чем в экспертной разметке (на 18-42%).

Совпадение долей сообщений по каждой категории не является автоматически показателем качества той или иной модели. Для определения качества необходимо понять, какие сообщения эксперт и модели оценивают одинаково, а по каким у них возникают разногласия. Для этого обратимся к примерам сообщений по каждой тональности.

Для начала отметим, что в датасете присутствует 28 сообщений, по которым абсолютно все модели согласны с экспертной разметкой. Среди них 10 негативных, 5 нейтральных и 13 позитивных.

согласия среди представленных расчетов демонстрирует модель № 6 (ЫапсЬеЬй/гиЬеП-Ьазе-саБе^ БепйтеШ-теф.

Для того чтобы подробнее проанализировать разногласия между экспертной разметкой и тестируемыми моделями, обратимся к табл. 3, в которой указано количество сообщений в разрезе по трем типам тональностей, классифицированных вручную и моделями.

Основная особенность эмоционально окрашенных высказываний (позитивных или негативных) из этой группы - наличие в них ярких лексических маркеров, совпадающих по тональности с общей тональностью высказывания.

Так, негативные тексты включают слова-маркеры: «вредители», «хуже», «кошмар», «рухлядь», «хамский», «ужас», «убожество» и т.п. Например, высказывание «Это - вредители, причем действуют целенаправленно, чтобы было всем ещё хуже» все модели безошибочно категоризировали как негативное. Другие примеры негативных текстов, не вызвавшие трудностей у моделей: «Такое ощущение что мы живем в промышленной зоне, рядом жилых домов нет, только через дорогу, и никому до нас нет дела»; «Доколе этот ужас будет в центре Магистрального проезда?».

Правильно определённые позитивные сообщения включают такие слова-маркеры, как «прекрасно», «хорошо», «удобно», «красивый», «уникальный», «лучшие», «отличный», «не хуже», «вкусно», «спасибо», «добрые дела», «уютно», «добрый», «супер» и пр. При этом вновь эмоциональный посыл ни одного высказывания не противоречит эмоциональной окраске данных слов. Например: «Субботник - это прекрасный способ проявить наше желание жить в красивом мире!»; «В нашем инфекционном отделении Снежинска самые лучшие в мире врачи и медсестры!».

Единогласно идентифицированные нейтральные сообщения не содержат эмоционально окрашенных слов, междометий, а также восклицательных знаков.

Т а б л и ц а 3

Количество сообщений, соответствующих каждому типу тональности

№ модели Название POSITIVE NEUTRAL NEGATIVE

Кол-во % Кол-во % Кол-во %

Экспертная разметка 100 33 100 33 100 33

1 Tatyana/rubert-base-cased-sentiment-new 53 17 154 51 93 31

2 blanchefort/rubert-base-cased-sentiment 53 17 154 51 93 31

3 blanchefort/rubert-base-cased-sentiment-rusentiment 44 14 224 75 32 11

4 cointegrated/rubert-tiny-sentiment-balanced 52 17 188 63 60 20

5 blanchefort/rubert-base-cased-sentiment-rurewiews 56 18 158 53 86 29

6 blanchefort/rubert-base-cased-sentiment-med 110 36 10 3 180 61

Примеры текстов: «Обсудили ситуацию на встрече со службами территориальной администрации и мэрии г. Ярославля»; «Рассказываем, как так получилось».

Таким образом, модели хорошо определяют тональность коротких сообщений, выражающих одну мысль, содержащих непротиворечивую эмотивную лексику. Для классификации такого рода текстов модели можно считать релевантными, вероятнее всего они будут показывать хорошие результаты, однако требуются дополнительные тесты.

Также в датасете обнаружено 14 сообщений, где все 6 моделей не согласны с экспертной разметкой, а зачастую и между собой. Среди них 11 позитивных, 2 нейтральных и 1 негативное.

Анализ данных высказываний показывает, что проблемы при определении моделью тональности эмоционально окрашенного сообщения провоцирует наличие в нём слова с противоположной тональностью. Например, позитивное высказывание «Скоро безобразие закончится» 4 модели категоризировали как негативное, 2 - как нейтральное.

При лингвистически корректном определении тональности в данном случае слово «закончится» (позитив) оказывается важнее слова «безобразие» (негатив), потому что оно является предикатом данного высказывания и его ремой. Это тот фокус пропозиции, ради которого создавалось автором данное высказывание. Слова в синтаксической конструкции не равноценны с точки зрения семантики и прагматики целостного высказывания - что представляет при машинном обучении несомненную трудность. (Единственно верное решение её видится во включении в обучающую выборку множества подобных примеров: где слово противоречит по тональности высказыванию в целом. Необходимым условием при этом является качественная разметка).

Еще одной причиной «трудностей» моделей можно считать лексическую полисемию, использование слов в переносном значении: «Вооружившись необходимым инвентарем, участники уборки с энтузиазмом принялись за работу» (наличие маркера «вооружившись» приводит к ошибкам моделей).

Разногласия в результатах обусловливаются также наличием одновременно позитивных и негативных маркеров в одном высказывании: «Благодаря мусоро-перерабатывающему комбинату пластик, картон, макулатура, жесть, алюминий, полиэтилен получат новую жизнь, а не будут десятилетиями гнить и тлеть на полигонах».

Выявлено также, что текст, написанный в верхнем регистре, модели иногда автоматически расценивают как негативно окрашенный, потому что традиционно в социальных сетях заглавными буквами принято писать срочные объявления или выражать агрессию -«РАБОТНИКИ МАРИЭНЕРГО ПОМОГЛИ БЛАГОУСТРОИТЬ ПАМЯТНИК УЧАСТНИКАМ ВЕЛИКОЙ ОТЕЧЕСТВЕННОЙ ВОЙНЫ». Модель не учитывает смысл сообщения в данном случае, несмотря на наличие «позитивных» слов-маркеров «помогли» и «благоустроить».

Одно из сообщений, отмеченных в экспертной разметке как нейтральное, модели посчитали пози-

тивным: «В наше время здоровье очень важная вещь. Это самый дорогой подарок». В сообщении констатируется важность здоровья, а не его наличие в конкретном случае (что означало бы позитивную тональность). Модели же, реагируя на слова «здоровье» и «подарок», определяют сообщение как позитивное. Строго говоря, в данном высказывании есть авторская оценка (субъективное отношение к здоровью), но измерить её по шкале «хорошо - плохо» невозможно, что вновь ставит вопросы как о выборе шкалы, так и о термине «нейтральное высказывание».

Второе нейтральное с точки зрения экспертов сообщение модели отметили негативным - вновь по причине наличия «негативного» слова-маркера: «Вы управляете транспортными средствами повышенной опасности».

Модели полностью не согласны только с одним негативным, согласно экспертной разметке, сообщением. Трудность обусловлена тем, что в сообщении содержится ирония: «Видимо это большой труд -убрать за собой».

Итак, использование эмотивной лексики, не совпадающей по тональности с тональностью всего высказывания, наличие слов-маркеров не в прямом значении, использование верхнего регистра, формы осложнённой коммуникации (в том числе иронии, сарказма) остаются факторами риска для привлечения ресурсов автоматизированного анализа: с большой долей вероятности модель автоматической классификации не сможет корректно данные тексты «прочитать». Поэтому на сегодняшний день использование таких моделей для анализа авторских текстов, написанных в разговорном стиле в открытых источниках, даёт низкие результаты и требует разработки новых подходов для обучения моделей.

Анализ примеров текстов, показавших частичные совпадения результатов экспертной разметки и моделей, дал несколько наблюдений.

1. Модель может реагировать на нестандартный порядок слов, фамильярные обращения, стык официальной и неофициальной лексики. (Например, высказывание «Знаете ли вы, дорогие друзья, что в столичном микрорайоне Лесозавод действует один из лучших в Северо-Западном федеральном округе Центр восстановления личности "Пробуждение"?» определено тремя моделями как негативное, двумя -как нейтральное, только одной - как позитивное).

2. Эмоциональный синтаксис, кричащая пунктуация - признак негативной тональности для ряда моделей (Например, высказывание «Никогда не сомневались, что сургутские педагоги - лучшие!!! И сегодня получили очередное подтверждение этому» определено тремя моделями как негативное, несмотря на лексический маркер «лучшие»).

3. Ведущей причиной ошибок моделей остаётся несоответствие присутствующего лексического маркера общей тональности высказывания (Примеры: «Прекрасная русская забава: 25 декабря в снег закатать асфальт, а 27-го ломать экскаватором»; «Только благодаря поддержке Бердникова С.Н. и официального представителя администрации города, нам удаётся решать многие проблемы посёлков!»).

Основной причиной трудностей автоматизированного определения тональности видится сложность задачи фокусировки на высказывании как целостной единице и отказ от фокусировки на отдельных формальных индикаторах.

Высказывание является минимальной коммуникативной единицей речи. Уловить его смысловую и эмоционально-экспрессивную целостность - сверхзадача для моделей машинного обучения в сентимент-анализе.

Заключение

По результатам исследования представляются значимыми следующие выводы.

1. Для совершенствования качества результатов автоматизированного определения тональности текстов с использованием машинного обучения с учителем ключевую роль играет качество обучающей выборки. В обучающую выборку необходимо включать большое количество разнотипных по способу выражения эмоций текстов, в том числе содержащих и не содержащих слова с коннотацией; одновременно содержащих слова с противоположными оценками; репрезентирующих непрямую коммуникацию, иронию и сарказм; включающих лексику, отличающуюся тональностью от общей тональности текста и др. Объём выборки и очистка от шума также повышают эффективность обучения модели.

В некоторых апробированных моделях для обучения было использовано объединение общедоступных датасетов. То есть это могли быть как датасеты разного тематического домена, так и отличные с точки зрения поставленной задачи (определение токсичных высказываний, оценка тональности) и форматов используемых речевых стилей - пост и отзыв (отзыв имеет цель -оценить что-то, пост - не всегда). В свою очередь, такое объединение приводит к дисбалансу, например, тематических доменов, в итоговой выборке.

Также важно учитывать, что различные датасеты используют различные оценочные шкалы. Таким образом, приведение разных датасетов к тернарной шкале тоже представляет собой достаточно субъективный вопрос (например, когда из 5-балльной шкалы создается тернарная шкала). В каждом ли датасете будет справедлив такой перевод? Будут ли равны содержательно в таком случае одинаковые классы?

2. Необходима тщательная согласованность инструкций по аннотированию данных: договорённость о терминах, прозрачная логика разметки, унифицированные принципы категоризации данных. В частности, остаётся дискуссионным понятие «нейтрального» текста. Это текст, не окрашенный эмоционально? Или текст, по которому невозможно определить, положительной является его эмоциональная окраска или отрицательной? Является ли нейтральным текст, содержащий информацию о негативном/позитивном событии, но не содержащий эмоциональной оценки говорящего («На трассе произошло ДТП»)?

Различение пресуппозиции и пропозиции, учтённое при разметке валидационного датасета, представ-

ляется важным принципом подготовки обучающих выборок, который должен отражаться в инструкциях для разметчиков. Тональность как категориальный признак высказывания (отдельной и целостной смысловой единицы) должна быть зависима от пропозиции высказывания. На настоящий момент добиться такой зависимости от машины если и возможно, то только путём строгого соблюдения данного принципа в обучающих выборках. Речь, разумеется, не идёт об экстраполяции уникальных пропозиций и пресуппозиций на другие тексты, но о лингвистически корректной разметке в каждом отдельном случае.

3. В рассмотренных нами решениях при формировании обучающих данных использованы разные способы получения меток (например, ассесоры или автоматически проставленные метки за счет базовой оценки отзывов). В таком случае является невозможным получение информации о том, какими правилами руководствовались пользователи при проставлении той или иной оценки в своем отзыве. В данном случае мы имеем субъективный эффект: 5 звезд для одного пользователя и 5 звезд для другого являются эквивалентными значениями?

4. В рассматриваемой задаче было необходимо присвоить высказыванию (тексту) одну тональность (а не найти в нём эмоционально нагруженные отдельные элементы, которых может оказаться и несколько и которые могут характеризоваться противоположными по отношению друг к другу коннотациями). Таким образом, ее решение требует от машины выхода на синтаксический уровень. Искусственному интеллекту на современном этапе трудно работать с высказыванием как целостной единицей. Исследование показало, что в основном его возможности остаются на уровне слова, максимум связи слов. Если в высказывании есть оценочное слово, не совпадающее с оценочной семантикой всего высказывания, почти наверняка модели будут выдавать ошибки.

5. Очевидно, по этой причине моделям оказывается проще верно идентифицировать негативные и позитивные сообщения. Нейтральные сообщения, не имеющие явных индикаторов, сложнее поддаются идентификации. (Сказывается также неопределённость термина). То, что модели ошибочно выделяют больше нейтральных высказываний по сравнению с экспертной разметкой, объясняется частым отсутствием в данных текстах эмотивной лексики или других формально вычленяемых признаков экспликации эмоции.

6. В качестве практической рекомендации для определения тональности русскоязычных текстов, опубликованных в социальной сети «ВКонтакте» и связанных с экономическими и социально-политическими темами, сегодня может быть предложено использовать лучшую по нашим результатам модель blanchefort/rubert-base-cased-sentiment-med (https://huggingface.co/blanchefort/rubert-base-cased-sentiment-med).

Итак, моделям машинного обучения в решении такой сложной задачи, как автоматизированная категоризация эмоций, сегодня доверять ещё достаточно

трудно. Перспективы направлений исследований в очередь, с проработкой качественных, лингвистиче-данной области целесообразно связывать, в первую ски обоснованных обучающих датасетов.

Список источников

1. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and Trends in Inf. Retrieval. 2008. № 2 (1-2). Р. 1-135.

2. Das N., Sadhukhan B., Chatterjee T., Chakrabarti S. Effect of public sentiment on stock market movement prediction during the COVID-19 out-

break // Social Network Analysis and Mining. 2022. Vol. 12 (1). Р. 92.

3. Ghobakhloo M., Ghobakhloo M. Design of a personalized recommender system using sentiment analysis in social media (case study: banking

system) // Social Network Analysis and Mining. 2022. Vol. 12 (1). Р. 84.

4. Umair A., Masciari E., Ullah M.H.H. Sentimental Analysis Applications and Approaches during COVID-19: A Survey // ACM International Con-

ference Proceeding Series. 2021. P. 304-308.

5. Zhu Y., Hu J., Li B. Purchasing Warning Mechanism Based on Text Sentiment Analysis // Journal of Uncertain Systems. 2022. Vol. 15 (2).

Р. 2250006.

6. Alshari E.M., Azman A., Doraisamy S., Mustapha N., Alkeshr M. Effective Method for Sentiment Lexical Dictionary Enrichment Based on

Word2Vec for Sentiment Analysis // Proceedings - 2018 4th International Conference on Information Retrieval and Knowledge Management: Diving into Data Sciences, CAMP 2018. 2018, 8464775. P. 177-181.

7. Cruz L., Ochoa J., Roche M., Poncelet P. Dictionary-based sentiment analysis applied to a specific domain // Communications in Computer and

Information Science 656 CCIS. 2017. P. 57-68.

8. Gao Y., Su P., Zhao H., Qiu M., Liu M. Research on Sentiment Dictionary Based on Sentiment Analysis in News Domain // Proceedings - 2021

7th IEEE International Conference on Big Data Security on Cloud, IEEE International Conference on High Performance and Smart Computing, and IEEE International Conference on Intelligent Data and Security, BigDataSecurity/HPSC/IDS. 2021. 9463563. P. 117-122.

9. Rice D.R., Zorn C. Corpus-based dictionaries for sentiment analysis of specialized vocabularies // Political Science Research and Methods. 2021.

№ 9 (1). P. 20-35.

10. Xu G., Yu Z., Yao H., Li F., Meng Y., Wu X. Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary // IEEE Access. 2019. Vol. 7. P. 43749-43762.

11. Двойникова А.А., Карпов А.А. Аналитический обзор подходов к распознаванию тональности русскоязычных текстовых данных // Информационно-управляющие системы. 2020. № 4 (107). С. 20-30.

12. Bhasin A., Das S. Twitter sentiment analysis using Machine Learning and Hadoop: A comparative study // ICSCCC 2021 - International Conference on Secure Cyber Computing and Communications, 2021. 9478077. P. 267-272.

13. Maada L., Fararni K., Aghoutane B., Fattah M., Farhaoui Y. A comparative study of Sentiment Analysis Machine Learning Approaches // 2022 2nd International Conference on Innovative Research in Applied Science, Engineering and Technology, IRASET. 2022. 178001. P. 1-5.

14. Zhang J., Yan K., Mo Y. Multi-task learning for sentiment analysis with hard-sharing and task recognition mechanisms // Information (Switzerland). 2021. Vol. 12(5). P. 207.

15. Zhang C., Liu L. Research on Semantic Sentiment Analysis Based on BiLSTM // 2021 4th International Conference on Artificial Intelligence and Big Data, ICAIBD 2021, 9459091. P. 377-381.

16. Ilgun H., Kilij E. Sentiment Analysis using Transformers and Machine Learning Models // Proceedings - 6th International Conference on Computer Science and Engineering, UBMK 2021. P. 42-45.

17. Devlin J., Chang M., Lee, L., Toutanova K.Bert: Pre-training of deep bidirectional transformers for language understanding // ArXiv. 2019. Vol. abs/1810.04805. URL: https://www.semanticscholar.org/paper/BERT%3A-Pre-training-of-Deep-Bidirectional-for-Devlin-Chang/df2b0e 26d0599ce3e70df8a9da02e51594e0e992 (accessed: 25 March 2021).

18. Shulginov V.A., Mustafin R.Z., Tillabaeva A.A. Automatic Detection of Implicit Aggression in Russian Social Media Comments // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference «Dialogue». 2021. Vol. 20. P. 636-645.

19. Smetanin S. Toxic comments detection in Russian // Computational Linguistics and Intellectual Technologies: Papers from the Annual Conference «Dialogue 2020». 2020. Vol. 19. URL: https://www.dialog-21.ru/media/5181/smetaninsi-029.pdf (accessed: 5 March 2021).

20. Golubev A., Loukachevitch N.V. Improving Results on Russian Sentiment Datasets // ArXiv. 2020. Vol. abs/2007.14310. URL: https://arxiv.org/pdf/2007.14310.pdf (accessed: 25 September 2021).

21. Konstantinov A., Moshkin V., Yarushkina N. Approach to the use of language models BERT and Word2vec in sentiment analysis of social network texts // Studies in systems, decision and control. 2021. Vol. 337. P. 462-473.

22. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // ArXiv. 2019. Vol. abs/1905.07213. URL: https://arxiv.org/abs/1905.07213 (accessed: 8 March 2021).

23. Басина П.А., Гойко В.Л., Петров Е.Ю., Бакулин В.В. Классификация публикаций сообществ «ВКонтакте»для оценки качества жизни населения // Компьютерная лингвистика и интеллектуальные технологии : по материалам ежегодной междунар. конф. «Диалог» (2022). Вып. 21, доп. т. М. : Изд-во РГГУ, 2022. С. 1001-1016.

24. Андреева А.Н., Никитина М.С. Сентимент-анализ брендов в российской блогосфере как инструмент маркетинговых исследований // Бренд-менеджмент. 2012. № 4. С. 226-243.

25. Колмогорова А.В. Вербальные маркеры эмоций в контексте решения задач сентимент-анализа // Вопросы когнитивной лингвистики. 2018. № 1 (54). С. 83-93.

26. Redjeki, S., Widyarto, S. Big data analytics for prediction using sentiment analysis approach // Journal of Theoretical and Applied Information Technology. 2022. Vol. 100 (13). P. 4987-5000.

27. Благинин А.Л., Сайфулин Э.Р., Саркисова А.Ю. Из опыта организации автоматизированного сбора данных в Томском университете // Большие данные и проблемы общества : сб. статей по итогам Междунар. науч. конф. (Киров, 19-20 мая 2022 г.). Томск : Изд-во Томского государственного университета, 2022. С. 34-46.

28. Дунаева Д.О. Методология сбора данных из открытых онлайн-источников для оценки качества жизни населения (на примере социальной сети «ВКонтакте») // Перспективы развития фундаментальных наук : сб. тр. XIX Междунар. конф. студентов, аспирантов и молодых ученых (Томск, 26-29 апреля 2022 г.) : в 7 т. Т. 5: Экономика и управление / под ред. И.А. Курзиной, Г.А. Вороновой. Томск : Изд-во Томского политехнического университета, 2022. С. 14-17.

29. Polyakov P.Yu., Kalinina M.V., Pleshko V.V. Automatic object-oriented sentiment analysis by means of semantic templates and sentiment lexicon dictionaries // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. 2015. Vol. 2 (14). P. 44-52.

30. Чернышевич М.В. Классификация тональности мнений для задачи автоматического сентимент-анализа текста // Учёные записки УО ВГУ им. П.М. Машерова. 2018. Т. 28. С. 136-140.

31. Shchekotin E., Goiko V., Myagkov M., Dunaeva D. Assessment of quality of life in regions of russia based on social media data // Journal of Eurasian Studies. 2021. Vol. 12, № 2. P. 182-198.

32. Shayegan M.J., Molanorouzi M.A lexicon weighted sentiment analysis approach on Twitter // International Journal of Web Based Communities. 2021. Vol. 17 (3). P. 149-162.

33. Монарх (Манро) Р. Машинное обучение с участием человека / пер. с англ. В.И. Бахура. М. : ДМК Пресс, 2022. 498 с.

34. Krippendorff K. Content analysis: An introduction to its methodology. Thousand Oaks, CA : Sage, 2004. 422 p.

35. Landis J.R, Koch G.G. The measurement of observer agreement for categorical data // Biometrics. 1977. Vol. 33 (1). P. 159-174.

References

1. Pang, B. & Lee, L. (2008) Opinion mining and sentiment analysis. Foundations and Trends in Inf. Retrieval. 2 (1-2). pp. 1-135.

2. Das, N. et al. (2022) Effect of public sentiment on stock market movement prediction during the COVID-19 outbreak. Social Network Analysis and

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Mining. 12 (1). P. 92.

3. Ghobakhloo, M. & Ghobakhloo, M. (2022) Design of a personalized recommender system using sentiment analysis in social media (case study:

banking system). Social Network Analysis and Mining. 12 (1). P. 84.

4. Umair, A., Masciari, E. & Ullah, M.H.H. (2021) Sentimental Analysis Applications and Approaches during COVID-19: A Survey. ACM

International Conference Proceeding Series. pp. 304-308.

5. Zhu, Y., Hu, J. & Li, B. (2022) Purchasing Warning Mechanism Based on Text Sentiment Analysis. Journal of Uncertain Systems. 15 (2).

P. 2250006.

6. Alshari, E.M. et al. (2018) [Effective Method for Sentiment Lexical Dictionary Enrichment Based on Word2Vec for Sentiment Analysis]. CAMP

2018. Proceedings of the 4th International Conference on Information Retrieval and Knowledge Management: Diving into Data Sciences. 8464775. Kota Kinabalu. 26-28 March 2018. IEEE. pp. 177-181.

7. Cruz, L. et al. (2017) Dictionary-based sentiment analysis applied to a specific domain. Communications in Computer and Information Science 656

CCIS. pp. 57-68.

8. Gao, Y. et al. (2021) [Research on Sentiment Dictionary Based on Sentiment Analysis in News Domain]. BigDataSecurity/HPSC/IDS 2021.

Proceedings of the 7th IEEE International Conference on Big Data Security on Cloud, IEEE International Conference on High Performance and Smart Computing, and IEEE International Conference on Intelligent Data and Security. 9463563. New York. 15-17 May 2021. IEEE. pp. 117-122.

9. Rice, D.R. & Zorn, C. (2021) Corpus-based dictionaries for sentiment analysis of specialized vocabularies. Political Science Research and

Methods. 9 (1). pp. 20-35.

10. Xu, G. et al. (2019) Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary. IEEE Access. 7. pp. 43749-43762.

11. Dvoynikova, A.A. & Karpov, A.A. (2020) Analiticheskiy obzor podkhodov k raspoznavaniyu tonal'nosti russkoyazychnykh tekstovykh dannykh

[Analytical review of approaches to the recognition of the tonality of Russian-language text data]. Informatsionno-upravlyayushchie sistemy. 4 (107). pp. 20-30.

12. Bhasin, A. & Das, S. (2021) [Twitter sentiment analysis using Machine Learning and Hadoop: A comparative study]. ICSCCC 2021. Proceedings of the International Conference on Secure Cyber Computing and Communications. 9478077. Jalandhar. 21-23 May 2021. IEEE. pp. 267-272.

13. Maada, L. et al. (2022) [A comparative study of Sentiment Analysis Machine Learning Approaches]. IRASET 2022. Proceedings of the 2nd International Conference on Innovative Research in Applied Science, Engineering and Technology. 178001. Meknes. 3-4 March 2022. IEEE. pp. 1-5.

14. Zhang, J., Yan, K. & Mo, Y. (2021) Multi-task learning for sentiment analysis with hard-sharing and task recognition mechanisms. Information

(Switzerland). 12 (5). P. 207.

15. Zhang, C. & Liu, L. (2021) [Research on Semantic Sentiment Analysis Based on BiLSTM]. ICAIBD 2021. Proceedings of the 4th International Conference on Artificial Intelligence and Big Data. 9459091. Chengdu. 28-31 May 2021. IEEE. pp. 377-381.

16. Ilgun, H. & Kilij, E. (2021) [Sentiment Analysis using Transformers and Machine Learning Models]. UBMK 2021. Proceedings of the 6th International Conference on Computer Science and Engineering. Ankara. 15-17 September 2021. IEEE. pp. 42-45.

17. Devlin, J. et al. (2019) Bert: Pre-training of deep bidirectional transformers for language understanding. ArXiv. abs/1810.04805. [Online] Available from: https://www.semanticscholar.org/paper/BERT%3A-Pre-training-of-Deep-Bidirectional-for-Devlin-Chang/df2b0e26d0599ce3e70df8a9da02e51594e0e992. (Accessed: 25.03.2021).

18. Shulginov, V.A., Mustafin, R.Z. & Tillabaeva, A.A. (2021) [Automatic Detection of Implicit Aggression in Russian Social Media Comments]. Computational Linguistics and Intellectual Technologies. Proceedings of the International Dialogue 2021 Conference. 20. Moscow. 16-19 June

2021. Moscow: Russian State University for the Humanities. pp. 636-645.

19. Smetanin, S. (2020) [Toxic comments detection in Russian]. Computational Linguistics and Intellectual Technologies. Proceedings of the International Dialogue 2020 Conference. 19. Moscow. 17-20 June 2020. [Online] Available from: https://www.dialog-21.ru/media/5181/smetaninsi-029.pdf. (Accessed: 5.03.2021).

20. Golubev, A. & Loukachevitch, N.V. (2020) Improving Results on Russian Sentiment Datasets. ArXiv. abs/2007.14310. [Online] Available from: https://arxiv.org/pdf/2007.14310.pdf. (Accessed: 25.09.2021).

21. Konstantinov, A., Moshkin, V. & Yarushkina, N. (2021) Approach to the use of language models BERT and Word2vec in sentiment analysis of social network texts. Studies in systems, decision and control. 337. pp. 462-473.

22. Kuratov, Y. & Arkhipov, M. (2019) Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. ArXiv. abs/1905.07213. [Online] Available from: https://arxiv.org/abs/1905.07213. (Accessed: 08.03.2021).

23. Basina, P.A. et al. (2022) [Classification of publications of communities "VKontakte" for assessing the quality of life of the population]. Dialog. Komp'yuternaya lingvistika i intellektual'nye tekhnologii. [Dialogue. Computer Linguistics and Intelligent Technologies]. Proceedings of the International Conference. Vol. 21. Moscow. 29 May - 1 June 2022. Moscow: Russian State University for the Humanities. pp. 1001-1016. (In Russian).

24. Andreeva, A.N. & Nikitina, M.S. (2012) Sentiment-analiz brendov v rossiyskoy blogosfere kak instrument marketingovykh issledovaniy [Sentiment Analysis of Brands in the Russian Blogosphere as a Marketing Research Tool]. Brend-menedzhment. 4. pp. 226-243.

25. Kolmogorova, A.V. (2018) Verbal'nye markery emotsiy v kontekste resheniya zadach sentiment-analiza [Verbal markers of emotions in the context of solving problems of sentiment analysis]. Voprosy kognitivnoy lingvistiki. 1 (54). pp. 83-93.

26. Redjeki, S. & Widyarto, S. (2022) Big data analytics for prediction using sentiment analysis approach. Journal of Theoretical and Applied Information Technology. 13 (100). pp. 4987-5000.

27. Blaginin, A.L., Sayfulin, E.R. & Sarkisova, A.Yu. (2022) [From the experience of organizing automated data collection at Tomsk University]. Bol'shie dannye i problemy obshchestva [Big data and problems of society]. Proceedings of the International Conference. Kirov. 19-20 May

2022. Tomsk: Tomsk State University. pp. 34-46. (In Russian).

28. Dunaeva, D.O. (2022) [Methodology for collecting data from open online sources to assess the quality of life of the population (on the example of the social network "VKontakte")]. Perspektivy razvitiya fundamental'nykh nauk [Prospects for the Development of Fundamental Sciences]. Proceedings of the 19th International Conference. Tomsk. Vol. 5. 26-29 April 2022. Tomsk: Tomsk Polytechnic University. pp. 14-17. (In Russian).

29. Polyakov, P.Yu., Kalinina, M.V. & Pleshko, V.V. (2015) Automatic object-oriented sentiment analysis by means of semantic templates and sentiment lexicon dictionaries. Komp'juternajaLingvistika i Intellektual'nye Tehnologii. 14 (2). pp. 44-52.

30. Chernyshevich, M.V. (2018) Klassifikatsiya tonal'nosti mneniy dlya zadachi avtomaticheskogo sentiment-analiza teksta [Classification of the sentiment of opinions for the task of automatic sentiment analysis of the text]. Uchenye zapiski UO VGU im. P.M. Masherova. 28. pp. 136-140.

31. Shchekotin, E. et al. (2021) Assessment of quality of life in regions of Russia based on social media data. Journal of Eurasian Studies. 2 (12). pp. 182-198.

32. Shayegan, M.J. & Molanorouzi, M. (2021) A lexicon weighted sentiment analysis approach on Twitter. International Journal of Web Based Communities. 17 (3). pp. 149-162.

33. Monarch, R. (2022) Mashinnoe obuchenie s uchastiem cheloveka [Machine Learning with Human Participation]. Translated from English by V.I. Bakhur. Moscow: DMK Press.

34. Krippendorff, K. (2004) Content Analysis: An introduction to its methodology. Thousand Oaks, CA: Sage.

35. Landis, J.R. & Koch, G.G. (1977) The measurement of observer agreement for categorical data. Biometrics. 33 (1). pp. 159-174.

Информация об авторах:

Басина П. А. - аналитик Научно-исследовательской лаборатории прикладного анализа больших данных, ассистент кафедры социологии Национального исследовательского Томского государственного университета (Томск, Россия). E-mail: basina@data.tsu.ru

Дунаева Д. О. - лаборант Научно-исследовательской лаборатории прикладного анализа больших данных, ассистент кафедры социологии Национального исследовательского Томского государственного университета (Томск, Россия). E-mail: ddo@data.tsu.ru

Саркисова А.Ю. - канд. филол. наук, младший научный сотрудник Научно-исследовательской лаборатории прикладного анализа больших данных Национального исследовательского Томского государственного университета (Томск, Россия). E-mail: sarkisova@data.tsu.ru

Авторы заявляют об отсутствии конфликта интересов. Information about the authors:

P.A. Basina, analyst, Research Laboratory for Applied Big Data Analysis, Tomsk State University (Tomsk, Russian Federation). Email: basina@data.tsu.ru

D.O. Dunaeva, lab assistant, Research Laboratory for Applied Big Data Analysis; teaching assistant, Tomsk State University (Tomsk, Russian Federation). E-mail: ddo@data.tsu.ru

A.Yu. Sarkisova, Cand. Sci. (Philology), junior researrch feloow, Research Laboratory for Applied Big Data Analysis, Tomsk State University (Tomsk, Russian Federation). E-mail: sarkisova@data.tsu.ru

The authors declare no conflicts of interests.

Статья поступила в редакцию 22.10.2022; одобрена после рецензирования 13.12.2022; принята к публикации 30.12.2022.

The article was submitted 22.10.2022; approved after reviewing 13.12.2022; accepted for publication 30.12.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.