___________УЧЕНЫЕ ЗАПИСКИ КАЗАНСКОГО УНИВЕРСИТЕТА
Том 156, кн. 4 Естественные науки
2014
УДК 519.767.6+615.036.2
ИНТЕЛЛЕКТУАЛЬНОЕ ИЗВЛЕЧЕНИЕ ЭМОЦИОНАЛЬНОГО ОТКЛИКА ПОТРЕБИТЕЛЕЙ ЛЕКАРСТВЕННЫХ СРЕДСТВ ИЗ ОТЗЫВОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Е.Д. Изотова
Аннотация
В статье рассмотрены подходы алгоритма машинного обучения с учителем с целью извлечения эмоциональных откликов пользователей о лекарственных средствах (ЛС) из отзывов на естественной языке. Произведена оценка сбалансированности классов отзывов (положительных/отрицательных/нейтральных) в сети Интернет среди потребителей ЛС. Подобрано оптимальное соотношение классов в обучающей выборке для обучения классификатора. Составлен комплекс правил подготовки текста отзыва для построения вектора: перевод всего текста в нижний регистр, исключение стоп-слов (местоимений, частиц, местоимений), обработка отрицания в предложении. Составлены словари униграмм: частотный словарь и словарь по методу взаимной информации. Приведены результаты работы классификатора по каждой комбинации изучаемых параметров системы классификации эмоциональных откликов пользователей.
Ключевые слова: лекарственные средства, машинное обучение, обучение с учителем, нейронные сети, тональность текста, «сумка слов», словарь униграмм, метод взаимной информации, естественный язык, русский язык.
Введение
Оценка мнений и фактов об эффективности и качестве используемых лекарственных препаратах после выпуска их на рынок представляет собой важную часть в цепочке разработки и использования лекарственных средств (ЛС).
Имеющиеся на сегодняшний день методы мониторинга эффективности препаратов, такие как метод спонтанных сообщений, активный мониторинг стационаров или рецептурный мониторинг, позволяют выделить лишь частные случаи мнений пользователей, побочных эффектов и эффективность лекарственных препаратов.
В системе Российского фармаконадзора самым эффективным методом мониторинга постклинических исследований ЛС является система спонтанных сообщений. Основным преимуществом системы спонтанных сообщений является возможность зарегистрировать очень редкие или неожиданные нежелательные побочные реакции [1]. Однако вклад данного подхода в общий объем данных по мониторингу составляет от 2% до 10% от числа выявляемых неблагоприятных побочных реакций в странах с хорошо отлаженной системой фармаконадзора (Австралия, Новая Зеландия, Великобритания, Швеция, Канада) [2, 3]. Причинами этого являются недостаток времени на документирование выявленного случая, плохое знание системы информирования и особенно трудности
52
ИНТЕЛЛЕКТУАЛЬНОЕ ИЗВЛЕЧЕНИЕ ЭМОЦИОНАЛЬНОГО ОТКЛИКА... 53
в установлении причинной связи между реакцией и приемом ЛС [1]. Недостатком метода спонтанных сообщений является также отсутствие данных о частоте встречаемости побочной реакции [4], кроме того, отмечается наличие личного предубеждения сообщающего [5].
В системе постмаркетенговых исследований ЛС опускается большой пласт имеющейся информации, которая не сообщается врачам пациентами. Часто наблюдается самоназначение лекарственных средств. При этом подобная информация размещается на форумах, на страницах отзывов о препаратах, в блогах. Объем размещаемых данных огромны, и они нигде не учитываются.
На сегодняшний день основной объем работ по классификации и анализу информации приходится на методы машинного обучения. Задачи, решаемые с помощью этого подхода, - это распознавание и синтез речи, методы машинного перевода и анализ текстов на естественном языке [6, 7]. Поэтому актуальным и своевременным вопросом является разработка алгоритма извлечения из сети Интернет мнений пользователей, представляющих собой эмоционально окрашенные тексты отзывов, иначе говоря, определение тональности отзыва о препарате.
При классификации текста на естественном языке по тональности важны оценочные слова, выражающие эмоциональный отклик респондента. Слова могут быть как позитивной, так и негативной направленности, например, отличный, лучший, замечательный, потрясающий, ужасный, наихудший, отвратительный, плохой и т. д.
Классификацию по тональности проводят на уровне оценки всего текстового документа или на уровне отдельных предложений [8] с разделением на положительные и отрицательные или на большее число классов. Наиболее сложными для однозначной постановки эмоциональной оценки являются сложносочиненные и сложноподчиненные предложения, зачастую выражающие более одного суждения.
1. Материалы и методы
В качестве объекта исследования выступали тексты отзывов пользователей, принимавших ЛС. Отзывы, размещенные в свободном доступе в сети Интернет, представлены на русском языке. Подход к классификации по тональности основан на составлении тонального словаря с использованием нейронной сети.
Общий алгоритм работы классификатора представлен на рис. 1. Отзыв на естественном языке в виде текстовой информации предварительно программно подготавливается: весь текст переводится в нижний регистр, обрабатываются отрицания в предложениях, удаляются местоимения, частицы (кроме частицы не), союзы, убирается пунктуация. На следующем этапе идет построение вектора слов на основе ранее подготовленного словаря. На этом этапе происходит представление текста в числовой форме, удобной для обработки машиной. Затем вектор слов подается в нейронную сеть, которая может работать в двух режимах: в режиме обучения и в режиме предсказания. В режиме обучения к размеченному вектору текста, классификатору, подается еще тип класса, к которому относится данный текст, чтобы классификатор обучился. В режиме предсказания программа пытается предсказать класс поданного текста на основании предыдущего опыта.
54
Е.Д. ИЗОТОВА
Рис. 1. Общий алгоритм работы классификатора
При каждом отдельном запуске классификатора случайным образом назначаются 75% от общего числа отзывов, которые подаются классификатору в качестве обучающейся выборки (режим обучения) и 25% - в качестве тестовой выборки (режим предсказания). При этом тестовая и тренировочная выборки текстов не пересекаются.
Одним из ключевых и сложно разрешимых разделов построения классификатора является составление словаря. В работе использованы словари, полученные за счет извлечения из текста статистически значимых слов, для оценки эмоционального отклика на ЛС. Для составления словаря использована метрика частоты встречаемости отдельных слов во всем потоке тестовой выборки (частотный словарь) и метод взаимной информации. Данные словари относятся к группе словарей униграмм - «сумки слов», где каждое слово в словаре является равновероятным и имеет равный вес при построении вектора слов.
Представление векторной модели текста происходит на основе словаря. Каждому слову в словаре ставится в соответствие единица на основании присутствия слова в тексте отзыва. Если слово из словаря в обработанном тексте не встречается, то вес его равен нулю. В результате получается вектор, описывающий текст отзыва на основе словаря и состоящий из нулей и единиц.
Для оценки уровня подготовки словаря и качества классификации использовались метрики: точность - precision (P), полнота - recall (R), метрика Ван Ризбергена (Е1) [9]. Для анализа точности совпадений всего объема полученных результатов была использована метрика - аккуратность - accuracy (A).
В архитектуре искусственной нейронной сети лежит система нейронной сети, в которой нейроны располагаются по слоям. Условно структуру многослойной нейронной сети можно разделить на три блока: входной слой нейронов, вычислительные слои нейронов и выходной слой нейронов. Количество нейронов входного слоя соответствует длине используемого словаря, количество выходных нейронов - количеству классов, которые пытается предсказать система.
ИНТЕЛЛЕКТУАЛЬНОЕ ИЗВЛЕЧЕНИЕ ЭМОЦИОНАЛЬНОГО ОТКЛИКА... 55
Алгоритм обучения нейронной сети производится методом обратного распространения ошибки. Используемая функция активации нейрона - логистическая функция (разновидность сигмоидной функции). Область значений функции активации лежит в диапазоне [-1, 1].
2. Результаты и их обсуждение
2.1. Сбалансированность отзывов на ЛС в сети Интернет по классам.
Важным моментом обучения классификатора является подбор обучающей выборки. Для классификации использовано 3030 размеченных единиц отзывов о различных лекарственных препаратах российских и зарубежных производителей.
В сети Интернет чаще всего отзывы представлены в пятибальной шкале от сильно негативных до положительных. При оценке текстов отзывов пользователей о ЛС наблюдается сильное преобладание положительных типов отзывов (рис. 2, а). При разделении на большее количество классов нивелируется вероятность выпадения одного из классов, поэтому для построения модели некоторые классы были соединены (рис. 2, б). Так, при пересчете на двухклассовое распределение (положительные/отрицательные) доля положительных отзывов составляет 77%, а отрицательных - 23%. Несбалансированное соотношение приводит к неверному обучению нейронной сети, в частности к сдвигу весов в нейронной сети в сторону предсказания положительного типа на 30-40%. Поэтому для сбалансированной работы классификатора на этапе обучения в работе использовано равное количество отзывов каждого класса. Для обучения задействовано 1346 отзывов.
а} Распределение отзывов о лекарственных средствах. ^ Распределение отзывов о лекарственных средствах,
Рис. 2. Распределение отзывов о ЛС: а) на пять классов; б) на два класса (положительные и отрицательные)
2.2. Качество классификации при использовании словаря униграмм.
Оба словаря (частотный словарь и словарь по методу взаимной информации) показали примерно одинаковые результаты при классификации отзывов пользователей о ЛС на «положительные», «нейтральные» и «отрицательные». Значения R, P и A достаточно сильно отличаются в группах обучающей и тестовой выборок (см. табл. 1). Это говорит о том, что функция, описывающая поведение данных и предсказания, слишком хорошо подогнана к обучающимся данным и плохо отображает данные тестовой выборки, то есть имеется ошибка переобучения (overfitting).
56
Е.Д. ИЗОТОВА
Табл. 1
Характеристика качества работы классификатора при использовании частотного словаря и построенного по методу взаимной информации для трех классов: положительные/отри-цательные/нейтральные
Тип отзыва Частотный словарь Метод взаимной информации
А R P F1 А R P F1
Для обучающей выборки
Положительный 0.98 1 0.97 0.98 0.99 0.98 0.98 0.98
Отрицательный 0.98 0.95 1 0.97 0.99 1 1 1
Нейтральный 0.98 0.98 0.99 0.99 0.99 0.99 0.99 0.99
Для тестовой выборки
Положительный 0.73 0.68 0.81 0.74 0.76 0.68 0.71 0.69
Отрицательный 0.73 0 0 - 0.76 0 0 -
Нейтральный 0.73 0.86 0.73 0.79 0.76 0.86 0.75 0.80
Для отрицательных значений R, P и F1 не рассчитаны в связи с тем, что система не может данный отзыв классифицировать как отрицательный (табл. 1). Нейронная сеть воспринимает данные отзывов как шум и относит их либо к положительным, либо к нейтральным объектам.
В русском языке есть показатель отрицания с максимально широкой сочетаемостью - частица не, ср. не приехал, не ходи, не Ваня, не вкусный, не вчера и т. д. Термин «отрицательное предложение» обычно применяется к предложению, содержащему отрицание при финитном глаголе или предикативе, поскольку именно такое отрицание чаще всего оказывает влияние на структуру предложения в целом [10]. Простая обработка в предложении частицы не (включение в вектор наравне с остальными словами корпуса) не влияет на модальность предложения.
2.3. Качество классификации при использовании словаря униграмм с обработкой отрицания в предложениях. Для обработки исчезновения ключевого модального компонента предложения в работе частица не опускалась в месте употребления, при этом прибавлялась к словам, окружающим ее в предложении. Частица не ставится в начало следующих за ней двух слов.
Пример. Предложение: «Не очень понравился, кислый». При обычном разборе переходит в предварительно подготовленный текст [неочень; непонрави-лось; кислый].
Несмотря на образовавшиеся ошибки в словах, частица не не потерялась, и теперь слова, попадающие под влияние этой частицы, сохранили модальную отрицательную окраску.
С применением обработки отрицаний в предложении значение переобучения (табл. 2) уменьшилось для нейтральных и положительных данных и появились, пусть даже с небольшими значениями, данные для оценки отрицательных отзывов. Это говорит о том, что классификатор автоматически определяет и может отнести отрицательные отзывы к классу «отрицательные».
ИНТЕЛЛЕКТУАЛЬНОЕ ИЗВЛЕЧЕНИЕ ЭМОЦИОНАЛЬНОГО ОТКЛИКА... 57
Табл. 2
Характеристика качества работы классификатора при использовании словаря, построенного по методу взаимной информации с обработкой отрицания для трех классов: по-ложительные/отрицательные/ нейтральные
Тип отзыва А R P F1
Для обучающей выборки
Положительный 0.97 0.98 0.92 0.95
Отрицательный 0.97 1 1 1
Нейтральный 0.97 0.95 0.99 0.97
Для тестовой выборки
Положительный 0.73 0.72 0.67 0.69
Отрицательный 0.73 0.14 0.25 0.18
Нейтральный 0.73 0.82 0.8 0.81
2.3 Влияние гиперпараметров на качество классификации при использовании словаря униграмм с обработкой отрицания в предложениях. К гиперпараметрам работы классификатора относят параметры, которые жестко фиксируются в системе: длина словаря, число слоев в сети, число нейронов в слое, эпоха тренировки. Влияние гиперпараметров на качество классификации представлено на рис. 3. В качестве меры сравнения представлена мера Ван Риз-бергена, арифметически усредненная по всем классам (F1m).
0.6
0.59
1 2 3 4 5 6
Варианты
Рис. 3. Качество классификации по усредненной мере F1m для различных типов словарей: 1 - словарь на 149 слов, 2 слоя нейронов, 12 шагов минимизации; 2 - словарь на 627 слов, 2 слоя нейронов, 12 шагов минимизации; 3 - словарь на 627 слов, 2 слоя нейронов, 20 шагов минимизации; 4 - словарь на 627 слов, 2 слоя нейронов, 30 шагов минимизации; 5 - словарь на 627 слов, 2 слоя нейронов, 60 шагов минимизации; 6 -словарь на 627 слов, 3 слоя нейронов, 60 шагов минимизации
Наилучшим результатом является вариант 4, характеризующийся расширенным словарем на 627 слов с 2 слоями нейронов (входной слой - количество слов в словаре - 627 нейрона, выходной - 2 класса классификации: положительный/ отрицательный отзыв - 1 нейрон с выходом 0 или 1) с 30 шагами минимизации и F1m = 0.587. В то время как самый плохой результат из этой группы вариантов меньше по F1m на 3.8%.
58
Е.Д. ИЗОТОВА
Заключение
По данным [11] максимальное качество работы классификатора при использовании словаря униграмм варьирует по F1m 0.6-0.7 единиц. Примененный в работе подход позволил достичь по F1m 0.58, что близко к максимально возможному значению при использовании словаря униграмм.
Использование словаря униграмм в классификации является самым простым вариантом среди подходов машинного обучения с учителем. Для улучшения качества классификации планируется рассмотреть использование словаря биграмм, подготовить больший размеченный корпус отзывов о ЛС, включить в предподготовку текста морфологический и синтаксический анализ.
Литература
1. Зырянов С.К., Белоусов Ю.Б. Организация и развитие службы фармаконадзора // Фарматека. - 2005. - № 16. - URL: http://www.pharmateca.ru/ru/archive/article/6317, свободный.
2. Кукес В.Г. Клиническая фармакология. - М.: ГЭОТАР-Медиа, 2009. - 1052 с.
3. Fletcher A.P. Spontaneous adverse drug reaction reporting vs event monitoring: a comparison // J. R. Soc. Med. - 1991. - V 84, No 6. - P. 341-344.
4. Астахова А.В., Брайцева Е.В., Лепахин Е.В. Контроль безопасности лекарственных средств // Фармация. - 2000. - № 4. - С. 92-96.
5. Фитилев С.Б. Служба безопасности лекарств в Российской Федерации // Новая аптека. - 1998. - № 2. - C. 13-19.
6. Мельчук И.А. Опыт теории лингвистических моделей «смысл о текст»: семантика, синтаксис. - М.: Языки рус. культуры, 1999. - 211 с.
7. Pang B., Lee L., Vaithyanathan S. Thumbs up sentiment classification using machine learning techniques // Proc. Conf. on Empirical Methods in Natural Language Processing (EMNLP). - 2002. - V. 5. - P. 79-86. - doi: 10.3115/1118693.1118704.
8. Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts // Proc. 6th Int. Conf. on Computational Linguistics and Intelligent Text Processing. - 2005. - P. 486-497. - doi: 10.1007/978-3-540-30586-6_53.
9. Steven M. On understanding and classifying web queries: Ph.D. Thesis. - Chicago, IL, USA: Illinois Institute of Technology, 2006. - 96 p.
10. Руднева А.Б. ГИА. Русский язык. Универсальный справочник. - М.: Яуза-Пресс, 2014. - 208 с.
11. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters // Computational Intelligence. - 2006. - V 22, No 2. - P. 110-125.
Поступила в редакцию 28.08.14
Изотова Екатерина Дмитриевна - ассистент кафедры биохимии и биотехнологии, Казанский (Приволжский) федеральный университет, г. Казань, Россия.
E-mail: izotova.e.d@gmail.com
ИНТЕЛЛЕКТУАЛЬНОЕ ИЗВЛЕЧЕНИЕ ЭМОЦИОНАЛЬНОГО ОТКЛИКА... 59
* * *
SENTIMENT ANALYSIS OF THE DRUG REVIEWS
E.D. Izotova
Abstract
A program was designed to make a sentiment analysis of the drug reviews using supervised learning. Upon the completion of the project, we estimated the balance (positive/negative/neutral) of the review classes in the web among the drug consumers. For the training of the classifier, the optimal ratio of the classes was found in the training sample. During the research, we drafted a set of rules to prepare the text of the reviews for the construction of the vector. The following rules are proposed: the translation of the entire text to lowercase, the exception of stopwords (pronouns, particles, and pronouns), and the processing of negation in the sentence. For the program we also compiled unigram dictionaries: the frequency dictionary and the dictionary created using pointwise mutual information method (PMI). The results of the classifier’s work for each combination of the studied parameters of the classification system for consumers’ emotional responses are presented in the article.
Keywords: drugs, machine learning, supervised learning, neural networks, tone analysis, bag of words, unigram dictionary, pointwise mutual information (PMI), natural language, Russian language.
References
1. Zyryanov S.K., Belousov Yu.B. Organization and development of pharmacovigilance services. Farmateka, 2005, no. 16. Available at: http://www.pharmateca.ru/ru/archive/article/6317.
2. Kukes V.G. Clinical pharmacology. Moscow, Izd. GEOTAR-Media, 2009. 1052 p. (In Russian)
3. Fletcher A. Spontaneous adverse drug reaction reporting vs event monitoring: a comparison. J. R. Soc. Med., 1991, vol. 84, no. 6, pp. 341-344.
4. Astakhova A.V, Braitseva E.V, Lepakhin E.V Drug safety control. Farmatsiya, 2000, no. 4, pp. 92-96. (In Russian)
5. Fitilev S.B. Drug safety services in the Russian Federation. Novaya apteka, 1998, no. 2, pp. 13-19. (In Russian)
6. Melchuk I.A. An Attempt at Theoretical Analysis of the Linguistic Models “Meaning о Text”: Semantics and Syntax. Moscow, Yazyki russkoi kultury, 1999. 211 p. (in Russian)
7. Pang B., Lee L., Vaithyanathan S. Thumbs up sentiment classification using machine learning techniques. Proc. Conf. on Empirical Methods in Natural Language Processing (EMNLP), 2002, vol. 5, pp. 79-86. doi: 10.3115/1118693.1118704.
8. Wiebe J., Riloff E. Creating subjective and objective sentence classifiers from unannotated texts. Proc. 6th Int. Conf. on Computational Linguistics and Intelligent Text Processing, 2005, pp. 486-497. doi: 10.1007/978-3-540-30586-6_53.
9. Steven M. Understanding and Classifying Web Queries: Ph.D. Thesis. Chicago, IL, USA, Illinois Institute of Technology, 2006. 96 p.
10. Rudneva A.B. State Final Examination. The Russian Language. Universal Guide. Moscow, Yauza-Press, 2014. 208 p. (In Russian)
11. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters. Computational Intelligence, 2006, vol. 22, no. 2, pp. 110-125.
Received August 28, 2014
Izotova Ekaterina Dmitrievna - Assistant Lecturer, Department of Biochemistry and Biotechnology, Kazan Federal University, Kazan, Russia.
E-mail: izotova.e.d@gmail.com