Научная статья на тему 'ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ'

ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
65
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
алгоритм / машинное обучение / искусственный интеллект / анализ настроения / выборка / algorithm / machine learning / artificial intelligence / sentiment analysis / sampling

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пронин А.Г.

В работе описаны основные методы и подходы машинного обучения, позволяющие проводить сентимент-анализ текстов на естественном языке. Дается характеристика каждого метода, а также сравнение результатов их обучения. По результатам данной статьи определены наиболее результативные методы анализа настроения текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пронин А.Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPLORING MACHINE LEARNING TECHNIQUES FOR ANALYZING SENTIMENT IN PATIENT RECORDS

Paper describes the main methods and approaches of machine learning that allow to perform sentiment analysis of natural language texts. The characterization of each method is given, as well as a comparison of their training results. Based on the results of this paper, the most effective methods for sentiment analysis of texts are identified.

Текст научной работы на тему «ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ»

УДК 004.8

Пронин А.Г.

магистрант второго курса Московский государственный технологический университет

«СТАНКИН» (г. Москва, Россия)

ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ

Аннотация: в работе описаны основные методы и подходы машинного обучения, позволяющие проводить сентимент-анализ текстов на естественном языке. Дается характеристика каждого метода, а также сравнение результатов их обучения. По результатам данной статьи определены наиболее результативные методы анализа настроения текстов.

Ключевые слова: алгоритм, машинное обучение, искусственный интеллект, анализ настроения, выборка.

В последние годы наблюдается значительный рост интереса к применению технологий искусственного интеллекта (ИИ) и машинного обучения (МО) в медицине и психологии. Одной из наиболее перспективных областей является анализ настроений в текстах, написанных пациентами. Этот подход открывает новые возможности для диагностики и мониторинга психологических состояний, предоставляя важную информацию о настроении, эмоциональном состоянии и даже потенциальных психических расстройствах.

Анализ настроений, или сентимент-анализ, является методом обработки естественного языка (NLP), который позволяет определять эмоциональную окраску текстовой информации. В контексте медицинских записей и самовыражений пациентов в социальных сетях, блогах или в личных дневниках, этот метод может выявлять скрытые сигналы о состоянии психического

здоровья, которые могут быть не очевидны даже для профессионалов в области медицины.

Целью данного исследования является определение наиболее подходящих алгоритмов машинного обучения для задачи анализа настроений в медицинских и психологических текстах. Мы рассмотрим различные подходы и методы решения поставленной задачи анализ будет проведен с учетом специфики медицинских текстов, включая использование специализированной лексики, особенностей выражения эмоций и настроений пациентами.

Существует два основных подхода к определению тональности текстов: подход, основанный на использовании правил и словарей и подход, основанный на методах машинного обучения.

Подход, основанный на использовании словарей тональности, предполагает анализ эмоциональной окраски отдельных слов в тексте и их вклад в общую тональность текста. В этом контексте применяются словари тональности, где каждому слову присваивается значение, отражающее его значимость для эмоциональной окраски текста. Затем, применяя специализированную функцию, которая учитывает частоту появления каждого слова в тексте, осуществляется расчет суммарной эмоциональной окраски текста.

Wi = f{nt (Wi),..., щ (wa)},

Где n£ (wy ) - количество вхождений слова j в текст i. а - количество слов в словаре тональности.

Ниже будут приведены методы машинного обучения, которые могут подойти для решения задачи анализа текстовых записей пациентов.

Наивный байесовский классификатор в анализе настроений основан на принципах байесовской статистики и представляет собой подход к классификации текстов, опирающийся на вероятностные модели. Он использует теорему Байеса для расчета вероятности того, что данный текст принадлежит к определенному классу настроения (например, положительному, нейтральному или отрицательному), исходя из частоты встречаемости слов в тексте.

Представим его в виде формулы:

агешах РШ ^Ш

ТО*) =

¿=1

число документов класса фд.

общее количество документов

и "т

Р(х; ) =--вхождение слова xi в документ класса Qfc (со сглаживанием) *

аМ +

Л^ — количесиво слов входящих в документ класса фд. М — количество слов из обучающей выборки Л^ — количество вхождений слова X; в документ класса фд. а — параметр для сглаживания

Когда объем текста очень большой, приходится работать с очень маленькими числами. Для того чтобы этого избежать, можно преобразовать формулу по свойству логарифма:

Метод опорных векторов - это мощный алгоритм машинного обучения, используемый для классификации и регрессии. В контексте анализа настроений, SVM применяется для определения тональности текста, разделяя данные на классы (например, положительные и отрицательные отзывы) с помощью оптимально подобранной разделяющей гиперплоскости. Основная идея состоит в том, чтобы найти такую гиперплоскость, которая максимизирует зазор между классами данных, делая классификацию наиболее четкой и устойчивой к ошибкам. Опорные вектора — это те элементы выборки, которые находятся ближе всего к границе решения, и они играют ключевую роль в определении положения разделяющей гиперплоскости.

Некоторая выборка линейно разделима, если в ней возможно получить (построить) линейный пороговый классификатор:

1ое аЬ = 1ое а + 1ое ъ

Подставляем и получаем:

агатах 1ое Р(^)+ 1ое Р(х^ )

где х = (х1,..., хп) — признаковое описание объекта х, вектор ж =

(ш1,... , шп) е!" и скалярный порог е Е являются параметрами алгоритма.

Таким образом задача состоит в том, чтобы подобрать значения вектора ж такие, при которых функционал, определяющий число ошибок равен нулю:

где < w,х >= w0 — разделяющая гиперплоскость.

Метод Random Forest представляет собой ансамблевую технику машинного обучения, которая создает множество деревьев решений в процессе обучения. Принцип работы алгоритма основан на комбинации методов бэггинга и использования случайных подмножеств признаков для каждого дерева, что способствует повышению точности классификации. В ансамбле каждое дерево строится независимо от других, а окончательное решение о классификации объекта принимается путем голосования, где определяющим становится класс, получивший большинство голосов от деревьев.

Алгоритм градиентного бустинга — это мощная техника машинного обучения, предназначенная для решения задач регрессии и классификации, которая работает на принципе последовательного улучшения моделей. Он создает ансамбль слабых предсказательных моделей, обычно деревьев решений, путем последовательного добавления новых моделей, которые исправляют ошибки предыдущих. В каждом шаге алгоритм направлен на минимизацию функции потерь, используя градиентный спуск, что позволяет точно корректировать ошибки предыдущих моделей. Градиентный бустинг эффективен в снижении как смещения, так и дисперсии, что делает его одним из самых мощных и широко применяемых алгоритмов для создания высокоточных моделей в различных задачах машинного обучения.

Пусть, например, в качестве функции потерь будет среднеквадратичная ошибка (MSE):

^[у;(< W, Xt > —Wo) < 0] = 0

Loss = MSL =

где, у£ = ¿тое значение,у? = ¿тое предсказание, ¿(у£, ур) функция потерь

Используя градиентный спуск и обновляя предсказания, основанные на скорости обучения (learning rate), ищем значения, на которых MSE минимальна.

yf = yf + а * 5- yf )2|^yf

что становится,ур = уf — а * 2 * £(у£ — ур) где, а это скорость обучения ^(у£ — ур) есть сумма остатков

Было проведено сравнение эффективности приведенных методов путем обучения моделей на выборке, полученной из источника Psychological Data from the Open Science Framework (OSF) и очищенной для повышения точности.

Как показатель эффективности метода использовалась AUC - площадь под кривой ошибок ROC-кривой (Receiver Operating Characteristic). Авторы оптимизировали несколько моделей, настраивая параметры для достижения наилучших результатов. Процесс включал в себя тщательную предобработку данных и выбор признаков. Ниже приведены сравнительные результаты различных методов традиционного машинного обучения.

• Наивный байесовский классификатор - точность 75.5%

• Метод опорных векторов - точность 91.15%

• Метод Random Forest - точность 88.39%

• Алгоритм градиентного бустинга - точность 81.34%

Как можно заметить, среди используемых в традиционном машинном обучении методов, наилучшие результаты демонстрируют модели логистической регрессии и метод опорных векторов, но сложность моделей часто зависит от объема и качества обучающих данных. В дополнение, эффективность традиционных подходов может существенно меняться в зависимости от количества и выбора признаков, качества обучения модели и чистоты входящих данных.

Однако результаты показывают, что некоторые методы выдают хорошие результаты на тестовых выборках и использование искусственного интеллекта в сфере психологии имеет хорошие перспективы.

СПИСОК ЛИТЕРАТУРЫ:

1. Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M. Lexicon-based methods for sentiment analysis// Computational Linguistic, Volume 37 Issue 2, p. 267-307, 2011;

2. Pang, B., Lee, L.: Opinion Mining and Sentiment Analysis// Foundations and Trends in Information Retrieval: Vol. 2: No 1-2, pp 1-135. 2008;

3. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышински Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных// Изд-во НИУ ВШЭ, 2017. — с.17-18;

4. Нугуманова А.Б., Бессмертный И.А. Обогащение модели Bag of words семантическими связями для повышения качества классификации текстов предметной области // журнал «Программные продукты и системы» № 2 за 2016 год. с. 89-99

Pronin A.G.

Moscow State Technological University «STANKIN» (Moscow, Russia)

EXPLORING MACHINE LEARNING TECHNIQUES FOR ANALYZING SENTIMENT IN PATIENT RECORDS

Abstract: paper describes the main methods and approaches of machine learning that allow to perform sentiment analysis of natural language texts. The characterization of each method is given, as well as a comparison of their training results. Based on the results of this paper, the most effective methods for sentiment analysis of texts are identified.

Keywords: algorithm, machine learning, artificial intelligence, sentiment analysis, sampling.

i Надоели баннеры? Вы всегда можете отключить рекламу.