УДК 004.8
Пронин А.Г.
магистрант второго курса Московский государственный технологический университет
«СТАНКИН» (г. Москва, Россия)
ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ
Аннотация: в работе описаны основные методы и подходы машинного обучения, позволяющие проводить сентимент-анализ текстов на естественном языке. Дается характеристика каждого метода, а также сравнение результатов их обучения. По результатам данной статьи определены наиболее результативные методы анализа настроения текстов.
Ключевые слова: алгоритм, машинное обучение, искусственный интеллект, анализ настроения, выборка.
В последние годы наблюдается значительный рост интереса к применению технологий искусственного интеллекта (ИИ) и машинного обучения (МО) в медицине и психологии. Одной из наиболее перспективных областей является анализ настроений в текстах, написанных пациентами. Этот подход открывает новые возможности для диагностики и мониторинга психологических состояний, предоставляя важную информацию о настроении, эмоциональном состоянии и даже потенциальных психических расстройствах.
Анализ настроений, или сентимент-анализ, является методом обработки естественного языка (NLP), который позволяет определять эмоциональную окраску текстовой информации. В контексте медицинских записей и самовыражений пациентов в социальных сетях, блогах или в личных дневниках, этот метод может выявлять скрытые сигналы о состоянии психического
здоровья, которые могут быть не очевидны даже для профессионалов в области медицины.
Целью данного исследования является определение наиболее подходящих алгоритмов машинного обучения для задачи анализа настроений в медицинских и психологических текстах. Мы рассмотрим различные подходы и методы решения поставленной задачи анализ будет проведен с учетом специфики медицинских текстов, включая использование специализированной лексики, особенностей выражения эмоций и настроений пациентами.
Существует два основных подхода к определению тональности текстов: подход, основанный на использовании правил и словарей и подход, основанный на методах машинного обучения.
Подход, основанный на использовании словарей тональности, предполагает анализ эмоциональной окраски отдельных слов в тексте и их вклад в общую тональность текста. В этом контексте применяются словари тональности, где каждому слову присваивается значение, отражающее его значимость для эмоциональной окраски текста. Затем, применяя специализированную функцию, которая учитывает частоту появления каждого слова в тексте, осуществляется расчет суммарной эмоциональной окраски текста.
Wi = f{nt (Wi),..., щ (wa)},
Где n£ (wy ) - количество вхождений слова j в текст i. а - количество слов в словаре тональности.
Ниже будут приведены методы машинного обучения, которые могут подойти для решения задачи анализа текстовых записей пациентов.
Наивный байесовский классификатор в анализе настроений основан на принципах байесовской статистики и представляет собой подход к классификации текстов, опирающийся на вероятностные модели. Он использует теорему Байеса для расчета вероятности того, что данный текст принадлежит к определенному классу настроения (например, положительному, нейтральному или отрицательному), исходя из частоты встречаемости слов в тексте.
Представим его в виде формулы:
агешах РШ ^Ш
ТО*) =
¿=1
число документов класса фд.
общее количество документов
и "т
Р(х; ) =--вхождение слова xi в документ класса Qfc (со сглаживанием) *
аМ +
Л^ — количесиво слов входящих в документ класса фд. М — количество слов из обучающей выборки Л^ — количество вхождений слова X; в документ класса фд. а — параметр для сглаживания
Когда объем текста очень большой, приходится работать с очень маленькими числами. Для того чтобы этого избежать, можно преобразовать формулу по свойству логарифма:
Метод опорных векторов - это мощный алгоритм машинного обучения, используемый для классификации и регрессии. В контексте анализа настроений, SVM применяется для определения тональности текста, разделяя данные на классы (например, положительные и отрицательные отзывы) с помощью оптимально подобранной разделяющей гиперплоскости. Основная идея состоит в том, чтобы найти такую гиперплоскость, которая максимизирует зазор между классами данных, делая классификацию наиболее четкой и устойчивой к ошибкам. Опорные вектора — это те элементы выборки, которые находятся ближе всего к границе решения, и они играют ключевую роль в определении положения разделяющей гиперплоскости.
Некоторая выборка линейно разделима, если в ней возможно получить (построить) линейный пороговый классификатор:
1ое аЬ = 1ое а + 1ое ъ
Подставляем и получаем:
агатах 1ое Р(^)+ 1ое Р(х^ )
где х = (х1,..., хп) — признаковое описание объекта х, вектор ж =
(ш1,... , шп) е!" и скалярный порог е Е являются параметрами алгоритма.
Таким образом задача состоит в том, чтобы подобрать значения вектора ж такие, при которых функционал, определяющий число ошибок равен нулю:
где < w,х >= w0 — разделяющая гиперплоскость.
Метод Random Forest представляет собой ансамблевую технику машинного обучения, которая создает множество деревьев решений в процессе обучения. Принцип работы алгоритма основан на комбинации методов бэггинга и использования случайных подмножеств признаков для каждого дерева, что способствует повышению точности классификации. В ансамбле каждое дерево строится независимо от других, а окончательное решение о классификации объекта принимается путем голосования, где определяющим становится класс, получивший большинство голосов от деревьев.
Алгоритм градиентного бустинга — это мощная техника машинного обучения, предназначенная для решения задач регрессии и классификации, которая работает на принципе последовательного улучшения моделей. Он создает ансамбль слабых предсказательных моделей, обычно деревьев решений, путем последовательного добавления новых моделей, которые исправляют ошибки предыдущих. В каждом шаге алгоритм направлен на минимизацию функции потерь, используя градиентный спуск, что позволяет точно корректировать ошибки предыдущих моделей. Градиентный бустинг эффективен в снижении как смещения, так и дисперсии, что делает его одним из самых мощных и широко применяемых алгоритмов для создания высокоточных моделей в различных задачах машинного обучения.
Пусть, например, в качестве функции потерь будет среднеквадратичная ошибка (MSE):
^[у;(< W, Xt > —Wo) < 0] = 0
Loss = MSL =
где, у£ = ¿тое значение,у? = ¿тое предсказание, ¿(у£, ур) функция потерь
Используя градиентный спуск и обновляя предсказания, основанные на скорости обучения (learning rate), ищем значения, на которых MSE минимальна.
yf = yf + а * 5- yf )2|^yf
что становится,ур = уf — а * 2 * £(у£ — ур) где, а это скорость обучения ^(у£ — ур) есть сумма остатков
Было проведено сравнение эффективности приведенных методов путем обучения моделей на выборке, полученной из источника Psychological Data from the Open Science Framework (OSF) и очищенной для повышения точности.
Как показатель эффективности метода использовалась AUC - площадь под кривой ошибок ROC-кривой (Receiver Operating Characteristic). Авторы оптимизировали несколько моделей, настраивая параметры для достижения наилучших результатов. Процесс включал в себя тщательную предобработку данных и выбор признаков. Ниже приведены сравнительные результаты различных методов традиционного машинного обучения.
• Наивный байесовский классификатор - точность 75.5%
• Метод опорных векторов - точность 91.15%
• Метод Random Forest - точность 88.39%
• Алгоритм градиентного бустинга - точность 81.34%
Как можно заметить, среди используемых в традиционном машинном обучении методов, наилучшие результаты демонстрируют модели логистической регрессии и метод опорных векторов, но сложность моделей часто зависит от объема и качества обучающих данных. В дополнение, эффективность традиционных подходов может существенно меняться в зависимости от количества и выбора признаков, качества обучения модели и чистоты входящих данных.
Однако результаты показывают, что некоторые методы выдают хорошие результаты на тестовых выборках и использование искусственного интеллекта в сфере психологии имеет хорошие перспективы.
СПИСОК ЛИТЕРАТУРЫ:
1. Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M. Lexicon-based methods for sentiment analysis// Computational Linguistic, Volume 37 Issue 2, p. 267-307, 2011;
2. Pang, B., Lee, L.: Opinion Mining and Sentiment Analysis// Foundations and Trends in Information Retrieval: Vol. 2: No 1-2, pp 1-135. 2008;
3. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышински Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных// Изд-во НИУ ВШЭ, 2017. — с.17-18;
4. Нугуманова А.Б., Бессмертный И.А. Обогащение модели Bag of words семантическими связями для повышения качества классификации текстов предметной области // журнал «Программные продукты и системы» № 2 за 2016 год. с. 89-99
Pronin A.G.
Moscow State Technological University «STANKIN» (Moscow, Russia)
EXPLORING MACHINE LEARNING TECHNIQUES FOR ANALYZING SENTIMENT IN PATIENT RECORDS
Abstract: paper describes the main methods and approaches of machine learning that allow to perform sentiment analysis of natural language texts. The characterization of each method is given, as well as a comparison of their training results. Based on the results of this paper, the most effective methods for sentiment analysis of texts are identified.
Keywords: algorithm, machine learning, artificial intelligence, sentiment analysis, sampling.