Научная статья на тему 'THINK ABOUT WHAT YOU’VE LEARNED: АНАЛИЗ ТОНАЛЬНОСТИ ДЛЯ МОДЕЛИРОВАНИЯ ПОЛЬЗОВАТЕЛЬСКОГО ОПЫТА В СФЕРЕ ОНЛАЙН-ОБРАЗОВАНИЯ'

THINK ABOUT WHAT YOU’VE LEARNED: АНАЛИЗ ТОНАЛЬНОСТИ ДЛЯ МОДЕЛИРОВАНИЯ ПОЛЬЗОВАТЕЛЬСКОГО ОПЫТА В СФЕРЕ ОНЛАЙН-ОБРАЗОВАНИЯ Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
17
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
компьютерная лингвистика / автоматическая обработка естественного языка / анализ тональности / извлечение ключевых слов / оценка пользовательского опыта / онлайн-образование / впечатления обучающихся / computational linguistics / natural language processing / sentiment analysis / keywords extraction / user experience evaluation / online education / student feedback

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Кирина Маргарита Александровна

статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов, характеризующих отношение пользователей к изучаемым темам, образовательному процессу и платформе в целом. Для определения тональности отзыва и выделения ключевых слов используются алгоритмы VADER и RAKENLTK соответственно. Исследование показало, что совмещение этих инструментов может считаться эффективным для определения настроений обучающихся.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Кирина Маргарита Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Think about what you've learned: sentiment analysis for modeling user experience in the field of online education

The article focuses on the application of opinion mining techniques to evaluate user experience on the Hyperskill educational platform, using Python, Java, and Kotlin programming projects as the basis of analysis. The study utilizes sentiment analysis and keyword extraction methods to gauge users' attitudes towards the platform, learning process, and topics covered. To achieve this, the VADER and RAKE-NLTK algorithms are employed to determine polarity and extract keywords respectively. The findings demonstrate that the combination of these tools is highly effective for conducting sentiment analysis of students' feedback.

Текст научной работы на тему «THINK ABOUT WHAT YOU’VE LEARNED: АНАЛИЗ ТОНАЛЬНОСТИ ДЛЯ МОДЕЛИРОВАНИЯ ПОЛЬЗОВАТЕЛЬСКОГО ОПЫТА В СФЕРЕ ОНЛАЙН-ОБРАЗОВАНИЯ»

УДК 81'33

DOI: 10.31249/chel/2024.02.10

Кирина М.А.

THINK ABOUT WHAT YOU'VE LEARNED: АНАЛИЗ ТОНАЛЬНОСТИ ДЛЯ МОДЕЛИРОВАНИЯ ПОЛЬЗОВАТЕЛЬСКОГО ОПЫТА В СФЕРЕ ОНЛАЙН-ОБРАЗОВАНИЯ©1

Национальный исследовательский университет «Высшая школа экономики», Россия, Санкт-Петербург, mkirina@hse.ru

Аннотация. В статье рассматриваются способы автоматического анализа мнений для оценки пользовательского опыта применительно к отзывам на проекты в рамках онлайн-курсов по программированию на Python, Java и Kotlin, представленных на англоязычной образовательной платформе Hyperskill. В исследовании описывается подход с опорой на методы анализа тональности и извлечения ключевых слов, характеризующих отношение пользователей к изучаемым темам, образовательному процессу и платформе в целом. Для определения тональности отзыва и выделения ключевых слов используются алгоритмы VADER и RAKE-NLTK соответственно. Исследование показало, что совмещение этих инструментов может считаться эффективным для определения настроений обучающихся.

Ключевые слова: компьютерная лингвистика; автоматическая обработка естественного языка; анализ тональности; извлечение ключевых слов; оценка пользовательского опыта; онлайн-образование; впечатления обучающихся.

© Кирина М.А., 2024

1 Публикация подготовлена в результате проведения исследования по проекту «Текст как Big Data: моделирование конвергентных процессов в языке и речи цифровыми методами» в рамках Программы фундаментальных исследований НИУ ВШЭ в 2023 г.

Автор выражает благодарность А. Д. Москвиной за помощь в сборе данных и комментарии на разных этапах исследования.

Получена: 01.11.2023 Принята к печати: 25.01.2024

Kirina M.A.

Think about what you've learned: sentiment analysis for modeling user experience in the field of online education©

National Research University Higher School of Economics, Russia, Saint-Petersburg, mkirina@hse.ru

Abstract. The article focuses on the application of opinion mining techniques to evaluate user experience on the Hyperskill educational platform, using Python, Java, and Kotlin programming projects as the basis of analysis. The study utilizes sentiment analysis and keyword extraction methods to gauge users' attitudes towards the platform, learning process, and topics covered. To achieve this, the VADER and RAKE-NLTK algorithms are employed to determine polarity and extract keywords respectively. The findings demonstrate that the combination of these tools is highly effective for conducting sentiment analysis of students' feedback.

Keywords: computational linguistics; natural language processing; sentiment analysis; keywords extraction; user experience evaluation; online education; student feedback.

Received: 01.11.2023 Accepted: 25.01.2024

Введение

Люди никогда еще столько не писали: современное информационное поле изобилует разными формами пользовательского контента. Особенностью текстов, публикуемых в социальных интернет-сетях, микроблогах, на форумах, сайтах-агрегаторах или официальных порталах компаний, является то, что они, как правило, выступают маркерами общественного мнения о различных новостях [Benrouba, Boudour, 2023], политических [Haselmayer, Dingler, Jenny, 2022] и культурных событиях [A sentiment analysis approach ..., 2018], но преимущественно - о приобретаемых товарах и услугах [Mutinda, Mwangi, Okeyo, 2023]. По этой причине именно отзывы, а точнее извлечение из них мнений и настроений пользователей, попадают в фокус прикладных исследований, целью которых

© Kirina M.A., 2024

обычно становится принятие решений в отношении разрабатываемых продуктов для бизнеса.

С ростом популярности онлайн-курсов моделирование пользовательского опыта стало предметом интереса в сфере образования [Deng, Benckendorff, Gannaway, 2019] [Sentiment analysis on ..., 2021] [Su, Peng, 2023]. Очевидно, что отслеживание эмоциональной окраски мнений, которые выражают обучающиеся в отношении пройденного курса, дает разработчикам образовательных продуктов возможность определять зоны роста и, что немаловажно, оценивать эффективность используемой методики обучения. При этом отмечается, что целесообразным является ориентироваться не только на количественную оценку, которую традиционно предлагают поставить курсу по завершении, но и на текстовые отзывы, оставляемые обучающимися, - для выявления конкретных характеристик продукта, которые вызвали соответствующее настроение [Ngoc, Thi, Thi, 2021].

В компьютерной лингвистике выделяют класс методов контент-анализа, связанных с автоматической обработкой текстов для извлечения информации из массива неструктурированных данных. Задача анализа тональности (англ. sentiment analysis), или, как его еще называют, анализа мнений (англ. opinion mining), заключается в определении текста, выражающего мнение автора по поводу обсуждаемого в нем предмета, и характеристики этого мнения с позиций содержания и эмоциональной валентности [Лукашевич, 2017, с. 127].

Целью настоящего исследования является изучение применимости методов анализа тональности для оценки пользовательского опыта в сфере онлайн-образования. Кроме того, оценивается эффективность использования ключевых слов для качественной характеристики положительных и отрицательных впечатлений обучающихся. Подчеркивая значимость учета пользовательского опыта при разработке образовательных продуктов, далее мы рассмотрим комплексное применение методов анализа тональности и выделения ключевых слов для извлечения полезной информации из терминологически насыщенных текстов. Материалом выступят «рефлексивные» отзывы обучающихся на онлайн-курсы по программированию.

Особенности материала обусловливают актуальность проводимого исследования. Повышение спроса на рынке труда на спе-

циалистов, имеющих навыки работы с технологиями, которые позволяют автоматизировать рутинные задачи с помощью программного кода в бытовой и профессиональных сферах, обеспечивает успех IT-направления в онлайн-образовании. На сегодняшний день область является точкой притяжения значительного количества людей, желающих расширить свои компетенции, что обеспечивает высокий прирост пользовательского контента, быстрый и эффективный анализ которого требует разработки специализированных лингвистических инструментов.

Анализ тональности: описание метода и существующих подходов

Существует несколько классификаций факторов, составляющих мнение. Из общего определения задачи анализа тональности выводятся следующие три: 1) субъект тональности, 2) тональная оценка и 3) объект тональности. Под субъектом тональности понимается автор документа / высказывания, то есть тот, кто выразил свое мнение в тексте. Характер выражаемого мнения с точки зрения его эмоциональности составляет непосредственно тональную оценку. Наконец, мнение должно быть направлено на некоторую сущность (предмет), включая все ее свойства, аспекты; вместе они представляют объект тональности [Пазельская, Соловьев, 2011, с. 511-512]. Таким образом, тональность текста складывается из «лексической тональности составляющих его единиц и правил их сочетания» [там же].

Принято выделять две группы методов для автоматического определения тональности текста: лингвистико-инженерные и на основе машинного обучения [Wankhade, Rao, Kulkarni, 2022]. Отметим главные особенности каждой из этих групп алгоритмов.

Среди лексических методов, иначе именуемых лингвистическими или инженерно-лингвистическими, принято выделять подходы на основе правил (rule-based approach) и подходы на основе словарей (dictionary-based approach). В их основе лежит следующая логика:

1) необходимо составить словарь эмотивной лексики;

2) необходимо задать правила (лингвистические, контекстные или логические) для определения тональной оценки некоторого текстового фрагмента.

Источниками обычно становятся уже существующие словари оценочной лексики для целевого языка или подобные словари, но переведенные с других языков машинным способом [Лукашевич, 2017, с. 148]. Каждому слову в словаре соответствует некоторая тональная оценка. Слова из словаря сопоставляются со словами из анализируемого текста, и затем присвоенные им оценки суммируются на уровне предложений и далее на уровне некоторого текстового фрагмента.

На этапе определения общей тональной оценки сегмента применяются заданные системой правила, зачастую в соответствии с логической моделью «если... то...». Так, анализируется, входит ли слово в некоторое множество или нет. Например, «если цепочка содержит глагол из списка ("любить ', "нравиться", "обожать " и др.) и не содержит глагола из другого списка ("ужасать", "отвращатьь" и др.) или отрицания, то ее тональность положительная» [Хохлова, 2016]. Далее будет вычислена общая сумма весов для проанализированного фрагмента.

Автоматическое определение тональности текста методами машинного обучения традиционно относят к задаче классификации. Среди известных алгоритмов наиболее часто используют метод опорных векторов (SVM), наивный байесовский классификатор [Parveen, Pandey, 2016], логистическую регрессию и градиентный бустинг [Comparative study ..., 2018].

Результаты применения методов как на основе словарей и правил, так и на основе машинного обучения, сильно зависят от предметной области [Koltsova, 2016]. В принципе, оба подхода оказываются зависимыми от данных, которые были выбраны в качестве ориентира. Тематическое разнообразие текстовой коллекции, а также недостаточный размер обучающих данных, создание которых само по себе является трудоемкой и дорогостоящей задачей, могут негативно влиять на исход применения методов машинного обучения [Лукашевич, 2022]. Лингвистико-инженерные подходы, в свою очередь, наоборот, быстры, легко интерпретируемы и не зависят от объема и качества исходной выборки [Zhang, Gan, Jiang, 2014].

В отношении нейронных сетей, т. е. глубинного обучения, несмотря на их высокую популярность на сегодняшний день, отмечают сложности при их обучении (повышенные мощности, долгое

время обучения) и интерпретации результатов [Lexicon-based methods ..., 2022]. Стоит также учитывать языковые особенности -как правило, для русского языка, требуется большая адаптация модели. В связи с этим в последнее время выдвигается идея развития систем анализа тональности в сторону гибридных моделей, сочетающих сразу несколько подходов [Birjali, Kasri, Beni-Hssane, 2021].

Основные направления исследований: тематическая характеристика

На протяжении последних двух десятилетий анализ тональности активно применяется как основной или вспомогательный метод для проведения исследований широкого тематического спектра. Приведем несколько примеров исследований, отдавая предпочтение работам социогуманитарной направленности.

В [Mutinda, Mwangi, Okeyo, 2023] обсуждаются польза анализа отзывов на товары и услуги для развития бизнес-сегмента, а также новаторские технические решения для векторизации текстовых данных для последующей классификации по сентименту. Так, авторы представляют модель LeBERT, сочетающую лингвистический подход (словари эмоциональной лексики и n-граммы) и технологии глубинного обучения (модель BERT и сверточные нейронные сети). В ходе экспериментов на таких наборах данных, как отзывы на товары, фильмы и рестораны с Amazon, IMDb и Yelp соответственно, было обнаружено, что предложенная модель позволяет достигнуть точности 88,73% (F-мера), превосходя другие современные модели. Авторы приходят к выводу, что совмещение лексического подхода и векторного представления слов позволяет улучшить классификацию отзывов по тональности, что представляется особенно сложной задачей ввиду высокой разреженности и размерности данных.

Отслеживание поведения потребителей актуально и для сферы туризма. В [Mehra, 2023] с применением методов аспектного анализа тональности и анализа эмоций исследуется такое явление, как культурный шок, называемое в работе в терминах эмоционального анализа «неожиданным удивлением» (англ. unexpected surprise), которое, в свою очередь, может быть как позитивным

(happy surprise), так и негативным (sad surprise). В качестве материала выбраны комментарии в социальных сетях, оставленные туристами, преимущественно американцами и европейцами, после совершения поездок в Индию, Китай и Объединенные Арабские Эмираты (ОАЭ). Обсуждается влияние опыта, полученного во время путешествия, на характер реакции туристов в социальных сетях постфактум. Результаты могут помочь менеджерам в области туризма предвосхищать реакцию клиентов на особенности, мотивированные культурой места назначения.

Жанр социальных медиа представляет интерес не только для прогнозирования востребованности предлагаемых заказчиками продуктов и услуг, но и в контексте ограничения негативного влияния некоторых сообщений на психическое здоровье пользователей. В [Benrouba, Boudour, 2023] предлагается подход к фильтрации потенциально вредного с точки зрения эмоционального воздействия контента на примере постов в Twitter. После определения списка эмоциональной лексики, состоящего из 450 слов английского языка, тексты классифицировались на предмет соответствие одному из пяти эмоциональных состояний (радость, печаль, гнев, страх, отвращение) и общей полярности (положительная или отрицательная).

Особенно популярным подобный материал - твиты - является в области политики, где на его основе строятся предсказания исходов выборов, оценивается влияние пиар-кампаний, составляется портрет государственных деятелей в глазах общества. В [Sentiment analysis on Twitter ..., 2022] рассматриваются такие методы анализа тональности, как BERT, наивный байесовский классификатор и GerVADER. Сравнение осуществляется применительно к 58 000 постов немецких политиков и партийных аккаунтов, оставленных в период выборов 2021 г. в германский Бундестаг. По итогам исследования было установлено, что негативные настроения характеризовали периоды до и после выборов, а также то, что посты оппозиционных партий в среднем оказывались более негативными, чем у правящих партий. Наибольшей точностью отличалась модель-трансформер BERT, превосходя традиционные методы машинного обучения и подходы на основе словарей и правил.

Парадигма «пользователь - продукт» в контексте моделирования образовательного опыта

Первый массовый онлайн-курс (Massive Open Online Courses, MOOC) появился в 2008 г. [Daniel, 2012]. Долгое время к подобному формату относились скорее как к угрозе «традиционному» обучению в классе. Однако с 2019 г., периода пандемии, ценность онлайн-образования стремительно возросла [Dalipi, Zdravkova, Ahlgren, 2021].

В продуктовой аналитике под пользовательским опытом (англ. user experience) понимается совокупность впечатлений и ощущений от взаимодействия человека с цифровым артефактом [Law, Van Schaik, 2010]. Отмечается, что удобство использования платформы обладает значимостью и в сфере онлайн-образования, являясь неотъемлемой частью процесса обучения, влияющей на его эффективность [Ovaska, 2013]. Однако пользовательские впечатления в контексте онлайн-образования характеризуются более сложной структурой: так, участник курса выступает не только как пользователь, но и как студент. Иными словами, пользователь оказывается также экспериенцером и учебного опыта (англ. learning experience), в рамках которого в ходе использования цифрового продукта он изучает дидактические материалы, получает новые знания и навыки.

Специфика контекста обучения приводит к качественной модификации отзывов, традиционно используемых для оценки пользовательских настроений. Оставляемый по итогам прохождения онлайн-курса студенческий фидбэк может расцениваться как рефлексия над опытом обучения на платформе, особая форма его фиксации в информационном поле, из которого был изъят второй участник коммуникации - преподаватель. Успешность цифрового образовательного продукта оказывается в значительной мере зависящей не столько от формата изложения материала, сколько от его проработанности и подробности инструкций по выполнению интерактивных заданий.

В этой связи подчеркивается, что ввиду специфики контекста обучения авторы онлайн-курсов должны при их разработке и улучшении принимать во внимание оставляемый студентами фидбэк [Ngoc, Thi, Thi, 2021]. Моделирование учебного опыта пользо-

вателей, в частности предсказание того, вернутся ли они к курсу, порекомендуют ли его, а также выявление факторов (например, лектор, материал, структура и др.), которые были сочтены успешными или, наоборот, помешавшими прохождению, может быть осуществлено с применением методов анализа тональности.

Как отмечают [Dalipi, Zdravkova, Ahlgren, 2021], фокус исследований в области оценки эффективности образовательных курсов смещается на апробацию методов анализа тональности в 2019-2020 гг. Так, сравниваются подходы на основе машинного обучения и NLP-инструменты, эксплуатирующие в основном подходы на основе правил и словарей. Интересным направлением также становится комбинация тематического моделирования и сенти-мент-анализа. После 2019 г., как указывают [Dalipi, Zdravkova, Ahlgren, 2021], наряду с использованием машинного обучения и методов автоматической обработки естественного языка в рамках задачи сентимент-анализа образовательных курсов начинают активно использоваться архитектуры глубинного обучения - такие нейронные сети, как CNN, LSTM, BERT и RNN.

Например, в [Explowing learner engagement ..., 2019] обсуждается применение таких алгоритмов, как латентное размещение Дирихле (Latent Dirichlet Allocation, LDA) и латентно-семантический анализ (Latent Semantic Analysis, LSA) для выявления тем, встречающихся в текстах на образовательных форумах, с последующим сопоставлением тональных оценок, характерных для каждой из обнаруженной тем. Это позволило определить, что обсуждают обучающиеся на подобных площадках и как они взаимодействуют друг с другом.

Перспективными в заданной области кажутся работы, в которых используется словарный подход для определения полярности текста, а затем осуществляется валидация результатов с применением машинного обучения. В [Opinion mining ..., 2021] описывается способ формирования словаря тональной лексики, характерной для образования: авторы анализируют наиболее частотные слова, характеризующие мнения, которые встречаются в отзывах анализируемой выборки. Это решение во многом мотивировано спецификой тех онлайн-курсов, которые подвергаются анализу, -онлайн-курсов по машинному обучению. Так были сформированы списки слов - как положительных (good, useful, excellent, easy и др.),

так и отрицательных (boring, short, problem, hard и др.), которые затем были использованы для классификации отзывов. Предложенная модель применялась для идентификации лучшего среди лекторов анализируемых онлайн-курсов.

Материал и методика исследования

В качестве материала исследования были выбраны отзывы на учебные проекты в рамках онлайн-курсов по программированию на образовательной платформе Hyperskill от JetBrains Academy1. Особенностью обучения на платформе является реализуемый подход, напоминающий концепцию learning-by-doing, или, как его называют сами разработчики, project-based learning [Орлова, 2019]. Так, в рамках каждого трека, предполагающего изучение одного из языков программирования (Python, Java, Kotlin, Scala или Go), пользователю предлагается выполнить ряд проектов от простых к сложным. Каждый проект направлен на решение одной практической задачи (например, построение небольшого чат-бота). По мере прохождения стадий проекта обучающийся изучает необходимые для этого теоретические темы, выполняет задания и, наконец, пишет полноценную программу на изучаемом языке программирования.

По завершении проекта пользователю дается возможность описать результаты проделанной работы, поделиться впечатлениями от обучения и взаимодействия с платформой в целом. Отзывы на платформе бывают нескольких видов: рефлексии на результаты обучения в рамках проекта (рис. 1) и фидбэки на проект (рис. 2). Помимо этого, пользователя также просят выставить оценку проекту по пятизвездочной шкале по трем критериям: полезность (usefulness), понятность (clarity) и веселость (fun).

1 Hyperskill. JetBrains Academy - Learn programming by building your own apps. URL: https://hyperskill.org/

JetBrains Academy

; Study plan Qg Map

<- Back to Study plan

Think about what you've Learned in the project

Project: Web Scraper

Reflection is about you becoming aware of your own learning processes and achievements. Please write down what you have learned during this project, what difficulties you have experienced and overcome. Just a few lines is better than none!

It's a few really useful modules to learn how to work with (requests, beautifulsoup), however, the tasks prior to stages sometimes weren't helpful at all. Moreover, the

0 Allow us to use your reflection publicly to help other learners select projects.

v' Reflection sent!

Go to study plan

Help out others in Discussion feed

Рис. 1. Пример рефлексии (проект Web Scraper, трек Python Core)

JetBrains Academy := Study plan QB Map Track •*"

Back to Study plan

Share some feedback on the project

Project: Web Scraper

Rate the project

Usefulness

★ ★ ★ ★

Clarity

★ ★ ft ft

★ ★ ft ft ft

How can we improve this project?

Make tasks clearer for .inexperienced users m

>S Feedback senti

Рис. 2. Пример фидбэка (проект Web Scraper, трек Python Core)

Если говорить об образовательном курсе как о некотором продукте (или услуге), то функционально отзывом на него на платформе Hyperskill является именно публичная рефлексия1: это то, что посетители сайта видят в секции с отзывами под каждым проектом (рис. 3). Опубликованный отзыв также сопровождается оценкой, которую выставил пользователь проекту - это среднее значение оценок полезности, понятности и веселости.

Reviews

ф Tomas Dolejsek 3 days ago ^ 3.7

This project will teach you how to get and process data from webpages. Some stages are quite hard, because it's not very clear what to do (and how). But with some external research it is doable. And mainly - this project is meaningful. You can update it for your own personal purposes.

© Delete f Edit Charge status -

Рис. 3. Пример публичной рефлексии (проект Web Scraper, трек Python Core)

Для анализа пользовательского опыта именно этот тип отзывов будет представлять интерес, так как сформулированный для пользователя вопрос (Think about what you've learnt in the project) и сопроводительный текст подталкивают его вспомнить о том, что он изучил, и оценить как положительные, так и отрицательные стороны своего опыта.

Материалом исследования стали 28 624 публичных рефлексии (далее - отзывы) на проекты в рамках треков по изучению Python, Java и Kotlin, опубликованные с июня 2019 по февраль 2023 г. (табл. 1). Из них с помощью регулярных выражений были отобраны 27 584 отзыва, написанных на английском языке. Итоговый объем выборки составил 816 545 токенов.

1 Пользователь может запретить публикацию рефлексии; тогда она, как и фидбэк (по умолчанию), будет видна только разработчикам.

Таблица 1.

Материал исследования: количественные характеристики

Язык программирования Объем

В проектах В отзывах В токенах

Python 25 17 077 503 355

Java 10 2 408 239 360

Kotlin 7 8 099 73 830

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Итого 42 27 584 816 545

Помимо собственно текстов отзывов и ГО проекта, на который он был оставлен, также выгружалась внутренняя информация о дате публикации и оценках, поставленных пользователем (табл. 2).

Таблица 2.

Пример выгрузки отзывов с метаданными

language project id date text clarity fun usefulness

Python 98 23.02. 2020 This is pretty basic stuff that I already know, except for regular expressions, which were new to me. The only exercise which was rather difficult was the XOR exercise. 4 4 4

Рис. 4. Облако частотных слов и словосочетаний (на материале всех отзывов)

Как видно из рис. 4, пользователи, действительно, затрагивают в отзывах темы, соответствующие аспектам их образовательного опыта (learn, understand, code, practice, think, problem, work и т.д.).

Средняя длина отзыва составила 29,6 токенов; от проекта к проекту значение этого параметра варьируется от 22 от 35 токенов (рис. 5). В связи с этим можно предположить, что хотя содержательно исследуемые отзывы отличны от конвенциональных форм выражения пользовательского мнения, но по формальным характеристикам они имеют пересечения.

Рис. 5. Средняя длина отзыва (для каждого проекта)

Мы будем рассматривать отношение обучающихся к проекту в целом, а также к пройденным темам, образовательному процессу и платформе, извлекая сентимент и ключевые термины из каждого отзыва по-отдельности с помощью алгоритмов УЛОБЯ (https://pypi.org/

project/vaderSentiment) и RAKE-NLTK (https://pypi.org/project/rake-nltk) соответственно. Кратко охарактеризуем используемые методы.

VADER (Valence Aware Dictionary for sEntiment Reasoning) -инструмент с открытым кодом, принцип работы которого сочетает использование словаря и правил для вычисления результирующей тональности с учетом полярности и интенсивности ее выражения [Hutto, Gilbert, 2014]. Словарь, используемый в VADER, насчитывает 7520 единиц, включая не только собственно тонально-окрашенную лексику, но и обширный список эмотиконов в западном стиле, а также акронимы и сленговые выражения, характерные для компьютерно опосредованной коммуникации [Hutto, Gilbert, 2014]. В табл. 3 представлен фрагмент используемого лексикона.

Таблица 3.

Примеры тонально-окрашенных словарных единиц из VADER-лексикона

Токен Средняя тональная Стандартное Экспертные оценки

оценка отклонение

difficultly -1.7 0.45826 [-1, -2, -1, -2, -2, -1, -2, -2, -2, -2]

clear 1.6 1.2 [2, 1, 1, 0, 3, 1, 2, 4, 2, 0]

thankfully 1.8 0.6 [2, 1, 2, 1, 2, 3, 2, 2, 1, 2]

meh -0.3 0.78102 [-1, 0, -1, 0, -1, -1, 1, 0, 1, -1]

wtf -2.8 0.74833 [-4, -3, -2, -3, -2, -2, -2, -4, -3, -3]

:-)) 2.8 1.07703 [3, 4, 4, 1, 2, 2, 4, 2, 4, 2]

После сопоставления токенов исследуемого фрагмента с наличествующими в словаре лексическими единицами используется ряд правил, позволяющих адаптировать тональную оценку под влиянием контекста. В отличие от моделей «мешка слов» (англ. bag-of-words) алгоритм VADER учитывает порядок слов, определяя отношения между модификаторами степени, выраженными наречиями меры и степени [Hutto, Gilbert, 2014]. В качестве примеров таких «слов-бустеров» можно привести absolutely, amazingly, /racking, fuckin, most, remarkably как повышающие тональность стоящего после слова и almost, barely, marginally, kindof, kind-of - как понижающие. Как видно, перечень включает в себя модификаторы разной стилистической окраски (ср. remarkably -fuckin) и варианты их написания (ср. kindof - kind-of). Кроме того,

как влияющие на тональную оценку слова рассматриваются намеренное изменение регистра, нестандартные случаи оформления пунктуации и контексты отрицания; учитывается вероятность использования эмоционально-окрашенной лексики в идиомах.

Значение compound, представляющее собой собственно тональную оценку, вычисляется как сумма оценок слов из лексикона после применения правил:

,

где X - этс /yiyi а валентных оценок (valence scores), задающих для слова полярность и интенсивность сентимента по шкале от -4 до +4; а - нормализующая константа.

Нормализованная взвешенная тональная оценка принимает значения в промежутке от -1 до +1. Чем выше тональная оценка, тем более положителен текст, и наоборот. Для преобразования количественного ответа в категориальный обычно используются следующие пороговые значения [Hutto, Gilbert, 2014]:

• compound >= 0.05 ^ позитивная тональность;

• compound > -0.05 и compound score < 0.05 ^ нейтральная тональность;

• compound <= -0.05 ^ негативная тональность.

По результатам предыдущих исследований точность VADER применительно к похожим по формату на анализируемые в настоящем исследовании тексты - посты в Твиттер - составила 72% [Al-Shabi, 2020]. Кроме того, во время экспериментов на нашем материале библиотека VADER не только позволяла получить более разнообразные оценки и эмпирически сопоставимые с общей тональностью текстов, но и лучше улавливала негативный сентимент в отзывах значительной длины.

RAKE (Rapid Automatic Keyword Extraction) - один из алгоритмов для извлечения ключевых слов [Automatic keywords extraction ..., 2010]. Его особенностью можно назвать понимание ключевых слов как ключевых фраз, характеризующих текст. Так, принцип работы связан со следующим наблюдением: длина ключевой фразы, как правило, больше единицы, при этом в ее состав

редко попадают пунктуационные знаки и стоп-слова - слова, обладающие минимальной лексической ценностью. В этой связи при формировании списка содержательных слов (content words) алгоритм оценивает позицию стоп-слов и пунктуационных знаков, заданных пользователем, и, разбивая на основе этих списков предложения на фразы, определяет кандидаты в ключевые слова (candidate keywords).

В настоящей работе алгоритм применяется для категоризации понятий и терминов, используемых пользователями при оставлении фидбэка. Для выделения ключевых слов нами используется метрика отношения степени слова к частотности (deg(w) / freq(w)), которая позволяет выделять слова, главным образом встречающиеся в более длинных кандидатах в ключевые слова. Использование именно этого метода обусловлено необходимостью работы с каждым отзывом по отдельности, что представляется релевантным при совмещении задач анализа тональности и извлечения ключевых слов, на которые направлен проводимый эксперимент.

Результаты и их оценка

В результате анализа были получены данные о средней тональной оценке и количестве положительных и отрицательных отзывов (в абсолютных и относительных значениях) для каждого образовательного проекта. Для отнесения отзыва в соответствующую категорию были использованы пороговые значения, предложенные в [Hutto, Gilbert, 2014] и описанные выше. Всего автоматически удалось разметить 23 251 отзыв, что составило 84% от общего объема выборки. Из них 19 786 отзывов были оценены как положительные, 3 429 - как отрицательные.

В табл. 4 приводятся примеры положительных и отрицательных отзывов. Как видно, VADER хорошо справляется со смешанным сентиментом в отзывах средней длины. Правильность назначенной метки, характеризующей полярность отзыва, устанавливалась эмпирически.

Таблица 4.

Примеры размеченных по тональности отзывов

Образовательный проект Текст отзыва compound Метка

3 Coffee Machine Basic of java is quite clear. Felt happy. Questions standard is pretty good 0.9179 pos

7 Coffee Machine Really interesting, useful and funny project. Good for learning the OOP. 0.8995 pos

8 Zookeeper Very good project to start if you're a beginner. This is sure crack your head at While Loop lol 0.807 pos

9 Text-Based Browser It's very useful to project to learn about many things, but sometimes test cases are nonsense and summary of the problem is very hard to follow -0.7931 neg

8 Zookeeper FUCKING TRASH BULLSHIT STUPID IDE FUCK YALL STUPID JETBRAINS PROGRAMMERs FUCCCK!!!!!!!!!!!!!! -0.9723 neg

Для определения того, о чем говорится в отзывах, из каждого, где возможно, извлекались по пять ключевых слов. Минимальная длина ключевой фразы была задана равной 1, максимальная - 3. Пример размеченного таким образом отзыва приводится в табл. 5.

Таблица 5.

Пример отзыва с извлеченными из него ключевыми словами

Образовательный проект Текст отзыва Compound Ключевые слова

42_Smart Calculator 1 had get closer experience with 2 important data structures: the stack and the queue 0.2023 stack

42_Smart Calculator 1 had get closer experience with 2 important data structures: the stack and the queue 0.2023 queue

После этого из общего списка ключевых слов вручную отбирались те, которые действительно отсылают к определенным

сущностям объекта тональности в соответствии с тремя категориями:

• темы (a_topic) - отсылает к темам, изученным пользователями во время прохождения проектов (модули, методы, библиотеки, пакеты и проч.), например: boolean type, loops, split, class attributes, sys module, string, nested lists, socket, emuns, mutable lists, arrays, math library, oop;

• процесс обучения (a_learning_process) - включает в себя все, что связано с изучением тем и выполнением заданий (этапы работы над проектом (в терминах Hyperskill - стадии), описание заданий, тестовые случаи для проверки кода); например: final stage, solution, solve problems, lessons, first steps, tutorial, questions, description, examples, test cases, code editor, hints helped, correct solution;

• платформа (a_platform) - то, что связано с платформой и ее организацией в целом (используемая методика, упоминания платформы / разработчиков, скорость работы сайта / IDE, стоимость подписки); например: jetbrains academy, many thanks, study plan, topics covered, native language, website, hyperskill team, step approach.

Всего получилось определить 981 ключевое слово, отсылающее к разным частям пользовательского опыта. Из них к категории a_topic были отнесены 577, к a_learning_process - 309 и к a_platform - 95. Извлеченные ключевые слова в основном соответствовали следующим частеречным паттернам: ADJ + NOUN (252 ключевых слова), NOUN (208), NOUN + NOUN (131), VERB, NOUN (116).

Наконец, каждый отзыв, если в нем упоминался аспектный термин, был сопоставлен с соответствующей категорией. Количественные показатели, приводимые в табл. 6 на примере проекта Zookeeper, были получены в двух вариантах: для всех проектов, сгруппированных по изучаемому языку программирования, и для каждого проекта по отдельности.

Таблица 6.

Распределение ключевых слов по положительным и отрицательным отзывам (на примере проекта 98_2оокеерег)

Категория Средняя тональная оценка Количество вхождений в отзывы Итого

положительные отрицательные

Абс. % Абс. %

Процесс обучения 0,40 1545 83,65 302 16,35 1847

Платформа 0,55 656 91,24 63 8,76 719

Темы 0,34 1491 84,81 267 15,19 1758

Итого 3692 632 4324

В отношении первого набора данных можно сделать следующие наблюдения:

1) категория «процесс обучения» встречается в отзывах, в которых превалирует положительная лексика, оставленных на проекты в первую очередь по Kotlin (86,88% от общего числа отзывов, в которых встречается соответствующие термины) и Java (86,69%), для проектов по Python это значение несколько меньше -84,79%.

2) категория «платформа» упоминается в наиболее положительных контекстах в отзывах на проекты по Kotlin (96%), затем идут проекты по Java (93,35%) и, наконец, Python (91,28%);

3) категория «темы» входит в значительное количество отзывов на Kotlin (86,98%), затем следуют Python (85,17%) и Java (84,99%).

Таким образом, можно предположить, что наиболее положительно оценивают свой опыт пользователи, проходившие обучение на платформе Hyperskill по языку программирования Kotlin. При этом наибольшее количество упоминаний проблем с платформой встречается в отзывах на проекты в рамках онлайн-курсов по Python. Интересно, что в наименее положительных контекстах упоминаются темы, которые изучаются в рамках трека по Java.

Что касается распределения ключевых слов по положительным и отрицательным отзывам для каждого проекта, то здесь можно прослеживать «входимость» ключевых слов в отзывы

определенной тональности. На рис. 9 приводится пример распределения самых показательных положительных и отрицательных терминов по аспектам для проекта Zookeeper (трек Python Core).

Рис. 9. Наиболее положительные и отрицательные ключевые термины по категориям «процесс обучения», «платформа», «темы» (на примере проекта 98_Zookeeper)

Так, в процессе обучения позитивный опыт составляют правильность решения задач (correct solution), понятные объяснения материала и заданий (good examples, theoretical part, task descriptions), а негативный - проверка решений с помощью редактора кода

(code editor) и трудности на последнем этапе проекта (final step / stage). Пользователи, прошедшие проект Zookeeper, судя по всему, не имели значительных проблем с платформой (кроме того факта, что она является англоязычной). Самыми сложными темами оказались форматирование строк (string formatting), работа с командной строкой (command line), а в позитивных контекстах упоминались списковые включения (list comprehension), булевые значения (boolean values), условные операторы (elif statements).

Перейдем к оценке полученных результатов. Для анализа категорий пользовательского опыта, полученных на основе извлеченных ключевых слов, была проведена разметка части данных тремя экспертами, ранее имевшими опыт программирования и ознакомленными со спецификой задачи анализа тональности. Для каждого аннотатора на основе всех данных были сформированы выборки по 500 отзывов, отобранных случайным образом по следующим критериям:

1) отзывы должны быть на английском языке;

2) в выборке должны присутствовать отзывы разной длины: средней и выше / ниже среднего;

3) соблюдается пропорциональное соответствие «представленности» языков программирования в выборке реальным данным.

Так, в каждую выборку вошли по 360 отзывов на проекты по Python, по 100 - по Java и 40 - по Kotlin. Суммарный объем размеченных данных составил 1500 отзывов.

Разметка осуществлялась с помощью doccano1 - открытого инструмента для аннотирования данных, применяемого для широкого спектра задач обработки естественного языка. Характеристика категорий в задании для аннотаторов соответствовала представленной выше. Кроме того, необходимо было разметить оценочные слова, которые характеризуют категорию положительно (тег s_positive) или негативно (snegative), хотя не привязаны к какой-либо конкретной сущности, но описывают общие впечатления пользователя от обучения. Пример размеченного отзыва представлен на рис. 10.

1 https://github.com/doccano/doccano

I learned haw to use the socket module and practiced with the llertoals. son and time

■ a_topic 'Atopic "Atopic "a topic

modules. A small interesting and fur project, but Boar description and imperfect tests -s^positive -sjDositive -s^negatlve -s_negative

•6 .positive ajeaming^p... ajeaming_p...

spoil the impression a bit. •S-negative

Albeit a bit expensive for non-US/bon-European customers. JetBrains Academy is the 1 ¿„negative a.platfcrm

best programming learning platform jc come across thus far! ■ s_positive a_platforrti

Рис. 10. Пример аннотирования отзыва в (!оссапо

В соответствии с табл. 7 в результате экспертной разметки получены 1537 ключевых слов, в то время как автоматически удалось определить 981, что составляет 63,83% от «золотого стандарта».

Таблица 7

Сравнение количества извлеченных терминов автоматически и вручную

Категория Количество извлеченных ключевых слов Доля автоматических от экспертных, %

автоматически вручную

Процесс обучения 309 621 49,76

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Платформа 95 117 81,20

Темы 577 799 72,22

Итого 981 1537 63,83

Если сравнивать по категориям, то наибольшая эффективность автоматического извлечения на основе методов ключевых слов достигнута для категорий «платформа» (81,20%) и «темы» (72,22%). Вероятно, ввиду разнообразия форм выражения категория «процесс обучения» оказалась самой сложной для формирования машинным способом.

Заключение

Извлечение мнений и настроений из пользовательского контента помогает бизнесу принимать решения в отношении разрабатываемых продуктов. В последнее время в спектр подобных задач все чаще попадают отзывы, оставляемые обучающимися на различные онлайн-курсы.

В статье была представлена идея анализа тональности на основе категоризации ключевых слов, извлеченных автоматически, для оценки пользовательского опыта применительно к тематически специфичным отзывам-рефлексиям на прохождение проектов по изучению языков программирования. Результаты исследования позволили нам охарактеризовать отношение пользователей Hyper-skill к изучаемым темам, образовательному процессу и платформе. Оценив качество автоматической разметки, можно установить, что состав таких категорий, как «платформа» (81,20%) и «темы» (72,22%), наиболее соответствует ключевым словам, выделенным вручную.

Таким образом, подход к анализу тональности пользовательских отзывов на онлайн-курсы по программированию с применением методов извлечения ключевых слов для выявления ключевых слов можно считать достаточно эффективным для обобщения впечатлений от онлайн-образования. Использование ключевых слов, как было продемонстрировано на примере проекта Zookeeper, позволяет определять проектно-зависимые факторы, влияющие на отношение пользователей к процессу обучения.

В продолжение исследования, во-первых, представляется целесообразным провести серию экспериментов, направленных на аспектно-ориентированный анализ тональности, то есть с учетом контекстных оценочных слов, выделенных в ходе экспертной разметки (a_positive, a negative), и выявления отношения пользователей к конкретным сущностям. Во-вторых, может быть перспективным использование для определения эмоциональной валентности отзыва «взвешенных» тональной и пользовательской оценок. Также для автоматизации суммаризации пользовательского опыта на нашем материале потенциально интересна апробация методов тематического моделирования.

Список литературы

Автоматическая обработка текстов на естественном языке и анализ данных / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. - Москва : Изд-во НИУ ВШЭ. - 2017. - 269 с.

Лукашевич В. Автоматический анализ тональности текстов: проблемы и методы // Интеллектуальные системы. Теория и приложения. - 2022. - Т. 26. - № 1. - С. 50-61.

Орлова Д. With love from Stepik: образовательная платформа Hyperskill // Хабр. -URL: https://habr.com/ru/companies/stepic/articles/447434/

Пазельская Г., СоловьевН. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной международной конференции «Диалог» (Бекасово, 25-29 мая 2011 г.). -Москва : Изд-во РГГУ. - 2011. - № 10. - С. 17.

Прикладная и компьютерная лингвистика / Николаев И.С., Митренина О.В., Ландо Т.М., Хохлова М.В., Митрофанова О.А., Захаров В.П., Шерстинова Т.Ю., Бочаров В.В., Добров А.В., Букия Г.Т. - Москва : URSS. - 2016. - 316 с.

A sentiment analysis approach for evaluation of events in field of cultural heritage / Clarizia F., Colace F., De Santo M., Lombardi M., Pascale F. // 2018 Fifth international Conference on social Networks analysis, management and Security (SNAMS). -IEEE, 2018. - P. 120-127.

Al-Shabi M. Evaluating the performance of the most important Lexicons used to Sentiment analysis and opinions Mining // IJCSNS. - 2020. - Т. 20, N 1. - Р. 1-7.

Automatic keyword extraction from individual documents / Rose S., Engel D., Cramer N., Cowley W. // Text Mining / eds. M.W. Berry, J. Kogan. - Chichester : John Wiley & Sons, 2010. - P. 1-20.

Benrouba F., Boudour R. Emotional sentiment analysis of social media content for mental health safety // Soc. Netw. Anal. Min. - 2023 - Vol. 13(1). - P. 1-11.

BirjaliM.., KasriM.., Beni-Hssane A. A comprehensive survey on sentiment analysis: Approaches, challenges and trends // Knowl.-Based Syst. - 2021 - Vol. 226. - P. 107134. DOI: https://doi.org/10.1016/j.knosys.2021.107134

Comparative study of sentiment analysis with product reviews using machine learning and lexicon-based approaches / Nguyen H, Veluchamy A., Diop M., Iqbal R. // SMU Data Science Review. - 2018. - Vol. 1(4). - Art. 7.

Dalipi F., Zdravkova K., Ahlgren F. Sentiment analysis of students' feedback in MOOCs: a systematic literature review // Front. Artif. Intell. - 2021. - Vol. 4. - P. 728708.

Daniel J. Making sense of MOOCs: musings in a maze of myth, paradox and possibility // J. Interact. Media Educ. - 2012. - N 3. - Р. 1-20.

DengR., BenckendorffP., Gannaway D. Progress and new directions for teaching and learning in MOOCs // Comput. Educ. - 2019. - Vol. 129. - P. 48-60.

Exploring learner engagement patterns in teach-outs using topic, sentiment and on-topicness to reflect on pedagogy / Yan W., Dowell N., Holman C., Welsh S.S., Choi H., Brooks C. // Proceedings of the 9th International Conference on Learning Analytics & Knowledge, LAK 2019, March 4-8, 2019. - Tempe : 2019. - P. 180-184.

Haselmayer M., Dingier S.C., Jenny M. How women shape negativity in parliamentary speeches - a sentiment analysis of debates in the Austrian Parliament // Parliam. Aff. -2022 - Vol. 75(4). - P. 867-886.

Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. -2004. - P. 168-177.

Hutto C., Gilbert E. VADER: a parsimonious rule-based model for sentiment analysis of social media text // Proc. Int. AAA Conf. Web Soc. Media. - 2014. - Vol. 8(1). - P. 216-225.

LawE. L.-C., Van SchaikP. Modelling user experience - an agenda for research and practice // Interact. Comput. - 2010. - Vol. 22(5). - P. 313-322.

Lexicon-based methods vs. BERT for text sentiment analysis / Kotelnikova A., Paschenko D., Bochenina K., Kotelnikov E. // Analysis of Images, Social Networks and Texts: 10th International Conference, AIST 2021, Tbilisi, Georgia, December 16-18, 2021, Revised Selected Papers : Springer, 2022. P. 71-83.

Liu B. Sentiment analysis: mining opinions, sentiments, and emotions. - New York : Cambridge University Press, 2015. - 384 p.

Mehra P. Unexpected surprise: emotion analysis and aspect based sentiment analysis (ABSA) of user generated comments to study behavioral intentions of tourists // Tour. Manag. Perspect. - 2023 - Vol. 45. - P. 101063.

Mutinda J., Mwangi W., Okeyo G. Sentiment analysis of text reviews using lexicon-enhanced bert embedding (LeBERT) model with convolutional neural network // Appl. Sci. - 2023 - Vol. 13(3). - P. 1-14.

Ngoc T.V., Thi M.N., Thi H.N. Sentiment Analysis of Students' Reviews on Online Courses: A Transfer Learning Method // Proceedings of the International Conference on Industrial Engineering and Operations Management. - 2021. - P. 306-314.

Opinion mining from student text review for choosing better online courses / Chak-ravarthy V.J., Kameswari M., Mydeen H.D., Seenivasan M. // IOP Conf. Ser. Mater. Sci. Eng. - 2021. - Vol. 1070(1) - P. 012067.

Ovaska S. User experience and learning experience in online HCI courses // HumanComputer Interaction - INTERACT 2013 Lecture Notes in Computer Science. / ed. by P. Kotze et al. - Berlin : Heidelberg: Springer, 2013. - P. 447-454.

Sentiment analysis on massive open online course evaluation / Yan X., Li G., Li Q., Chen J., Chen W., Xia F. // 2021 International Conference on Neuromorphic Computing (ICNC). - IEEE - 2021 - P. 245-249.

Sentiment analysis on Twitter for the major German parties during the 2021 German Federal Election / Schmidt T., Fehle J., Weissenbacher M., Richter J., Gottschalk P., Wolff C. // Proceedings of the 18th Conference on Natural Language Processing (KONVENS 2022), 2022. - P. 74-87.

Su B. , Peng J. Sentiment analysis of comment texts on online courses based on hierarchical attention mechanism //Applied Sciences. - 2023. - Vol. 13(7). - P. 1-11.

Zhang H., Gan W., Jiang B. Machine learning and lexicon based methods for sentiment classification: a survey // 2014 11th Web Information System and Application Conference. - Tianjin, China, 2014. - P. 262-265. DOI: https://doi.org/10.1109/WISA. 2014.55

References

Bolshakova, E.I., Voroncov, K.V., Efremova, N.Je., Klyshinskij, Je.S., Lukashe-vich, N.V., Sapin, A.S. (2017). Avtomaticheskaja obrabotka tekstov na estestvennom jazyke i analiz dannyh [Automatic natural language processing and data analysis]. Moscow: Izd-vo NIU VShJe.

Lukashevich, N.V. (2022). Avtomaticheskij analiz tonal'nosti tekstov: problemy i me-tody [Automatic sentiment analysis: problems and methods]. Intellektual'nye sistemy. Teoriya i prilozheniya, 26(1), 50-61.

Orlova, D. (2019). With love from Stepik: Obrazovatel'naja platforma Hyperskill [With love from Stepik: Educational platform Hyperskill]. In Habr. Retrieved from: https://habr.com/ru/companies/stepic/articles/447434/

Pazel'skaja, A.G., Solov'ev, A.N. (2011). Metod opredelenija jemocij v tekstah na russkom jazyke [Method for determining emotions in texts in Russian]. Komp'juternaja lingvistika i intellektual'nye tehnologii. Moscow: Izd-vo RGGU, 10, 17.

Nikolaev, I.S., Mitrenina, O.V., Lando, T.M., Hohlova, M.V., Mitrofanova, O.A., Za-harov, V.P., Sherstinova, T.Yu., Bocharov, V.V., Dobrov, A.V., Bukiya, G.T. (2016). Prikladnaja i komp'juternaja lingvistika [Applied and computational linguistics]. Moscow: URSS.

Clarizia, F., Colace, F., De Santo, M., Lombardi, M., Pascale, F. (2018). A sentiment analysis approach for evaluation of events in field of cultural heritage. In 2018 Fifth international Conference on social Networks analysis, management and Security (SNAMS) (pp. 120-127). IEEE.

Al-Shabi, M. (2020). Evaluating the performance of the most important Lexicons used to Sentiment analysis and opinions Mining. IJCSNS, 20(1), 1.

Rose, S., Engel, D., Cramer, N., Cowley, W. (2010). Automatic keyword extraction from individual documents. In Berry, M.W., Kogan, J. (eds.) Text Mining (pp. 1-20). Chichester: John Wiley & Sons.

Benrouba, F., Boudour, R. (2023). Emotional sentiment analysis of social media content for mental health safety. Soc. Netw. Anal. Min., 13(1), 1-11.

Birjali, M., Kasri, M., Beni-Hssane, A. (2021). A comprehensive survey on sentiment analysis: Approaches, challenges and trends. Knowledge-Based Systems, 226, 107134. DOI: https://doi.org/10.1016/j.knosys.2021.107134

Nguyen, H., Veluchamy, A., Diop, M., Iqbal, R. (2018). Comparative Study of Sentiment Analysis with Product Reviews Using Machine Learning and Lexicon-Based Approaches. SMUData Science Review. 1(4), 23.

Dalipi, F., Zdravkova, K., Ahlgren, F. (2021). Sentiment Analysis of Students' Feedback in MOOCs: A Systematic Literature Review. Frontiers in Artificial Intelligence, 4, 728708. DOI: https://doi.org/10.3389/frai.2021.728708

Daniel, J. (2012). Making sense of MOOCs: Musings in a maze of myth, paradox and possibility. Journal of Interactive Media in Education, 3, 1-20.

Deng, R., Benckendorff, P., Gannaway, D. (2019). Progress and new directions for teaching and learning in MOOCs. Computers & Education, 129, 48-60. DOI:

Yan, W., Dowell, N., Holman, C., Welsh, S.S., Choi, H., Brooks, C. (2019). Exploring learner engagement patterns in teach-outs using topic, sentiment and on-topicness to reflect on pedagogy. In: Proceedings of the 9th International Conference on Learning Analytics & Knowledge, LAK2019 (pp. 180-184). Tempe.

Haselmayer, M., Dingler, S.C., Jenny, M. (2022). How women shape negativity in parliamentary speeches - a sentiment analysis of debates in the Austrian Parliament. Parliam. Aff, 75(4), 867-886.

Hu, M., Liu, B. (2004). Mining and summarizing customer reviews. In: Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 168-177).

Hutto, C., Gilbert, E. (2014). VADER: A Parsimonious Rule-Based Model for Sentiment Analysis of Social Media Text. Proceedings of the International AAAI Conference on Web and Social Media, 8(1), 1.

Law, E. L.-C., Van Schaik, P. (2010). Modelling user experience-An agenda for research and practice. Interacting with Computers, 22(5), 313-322.

Kotelnikova, A., Paschenko D., Bochenina, K., Kotelnikov, E. (2022). Lexicon-based methods vs. BERT for text sentiment analysis. In Analysis of Images, Social Networks and Texts: 10th International Conference, AIST 2021 (pp. 71-83). Tbilisi: Springer.

Liu, B. (2015). Sentiment analysis: Mining opinions, sentiments, and emotions. Cambridge University Press.

Mehra, P. (2023). Unexpected surprise: emotion analysis and aspect based sentiment analysis (ABSA) of user generated comments to study behavioral intentions of tourists. Tour. Manag. Perspect, 45, 101063.

Mutinda, J., Mwangi, W., Okeyo, G. (2023). Sentiment analysis of text reviews using lexicon-enhanced bert embedding (LeBERT) model with convolutional neural network. Appl. Sci, 13(3), 1-14.

Ngoc, T.V., Thi, M.N., Thi, H.N. (2021). Sentiment Analysis of Students' Reviews on Online Courses: A Transfer Learning Method. In Proceedings of the International Conference on Industrial Engineering and Operations Management (pp. 306-314).

Chakravarthy, V.J., Kameswari, M., Mydeen, H.D., Seenivasan, M. (2021). Opinion mining from student text review for choosing better online courses. IOP Conf. Ser. Mater. Sci. Eng., 1070(1), 012067. DOI: https://doi.org/10.1016/j.compedu.2018.10.019

Ovaska, S. (2013). User experience and learning experience in online HCI courses. In Kotze, P., Marsden, G., Lindgaard, G., Wesson, J. Winckler, M. (eds.). HumanComputer Interaction - INTERACT 2013 (pp. 447-454). Springer. DOI: https://doi.org/10.1007/978-3-642-40498-6_34

Yan, X., Li, G., Li, Q., Chen, J., Chen, W., Xia, F. (2021). Sentiment analysis on massive open online course evaluation. In 2021 International Conference on Neuromor-phic Computing (ICNC) (pp. 245-249). IEEE.

Schmidt, T., Fehle, J., Weissenbacher, M., Richter, J., Gottschalk, P., Wolff, C. (2022). Sentiment analysis on Twitter for the major German parties during the 2021 German Federal Election. In Proceedings of the 18th Conference on Natural Language Processing (KONVENS 2022) (pp. 74-87).

Su, B., Peng, J. (2023). Sentiment analysis of comment texts on online courses based on

hierarchical attention mechanism. Applied Sciences, 13(7), 1-11. Zhang, H., Gan, W., Jiang, B. (2014). Machine learning and lexicon based methods for sentiment classification: a survey. In 2014 11th Web Information System and Application Conference (pp. 262-265). Tianjin, China. DOI: https://doi.org/10.1109/WISA.2014.55

Об авторе

Кирина Маргарита Александровна - младший научный сотрудник лаборатории языковой конвергенции, преподаватель департамента филологии, Национальный исследовательский университет «Высшая школа экономики», Россия, Санкт-Петербург, mkirina@hse.ru

About the author

Kirina Margarita Aleksandrovna - Junior Research Fellow of Linguistic Convergence Laboratory, Lecturer of Department of Philology, National Research University Higher School of Economics, Russia, St. Petersburg, mkirina@hse.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.