ADASYN как метод решения проблемы несбалансированности данных при сентимент-анализе текстовой информации

Баймаханбетов Мухит Абилкасымович; Нурумов Кайдар Серикович; Оспанова Улжан Абаевна; Булдыбаев Тимур Керимбекович; Акоева Инесса Георгиевна

Баймаханбетов Мухит Абилкасымович,

главный аналитик АО «Информационно-аналитический центр» МОН РК, г. Нур-Султан, [email protected]

Нурумов Кайдар Серикович,

магистр политологии, менеджер Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК, [email protected]

Оспанова Улжан Абаевна,

магистр менеджмента, Проектный менеджер Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК, [email protected]

Булдыбаев Тимур Керимбекович,

директор Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК, [email protected]

Акоева Инесса Георгиевна,

главный аналитик Департамента прикладных исследований и разработок, АО «Информационно-аналитический центр» МОН РК, [email protected]

В процессе распознавания тональности новостных текстов исследователи зачастую сталкиваются с проблемой несбалансированности корпусов текстов. Наблюдаемый перекос в разметке текстов может объяснятся отражением объективной реальности, когда преобладание нейтральных публикаций обусловлено принципами журналистской этики. Преобладание же негативных текстов над позитивными можно объяснить их большей популярностью у читательской аудитории и способностью к вирусному распространению. Таким образом, для решения вопроса классификации текстов в несбалансированных корпусах, предлагается рассмотреть возможности применения метода ADASYN. В статье представлены экспериментальные результаты сравнения метрик производительности алгоритмов машинного обучения на несбалансированном текстовом корпусе с использованием предложенного метода генерации синтетических данных и без него. По результатам исследования приведены замечания и выводы авторов об особенностях применения метода и выдвинут ряд предложений для дальнейших исследований в этой области.

Ключевые слова: ADASYN, несбалансированность данных, сентимент-анализ, машинное обучение

о с

СП ^

о

сч

Данная статья подготовлена в рамках реализации ПЦФ №БН05236839 Комитета науки Министерства образования и науки Республики Казахстан

Введение

Растущая потребность в автоматическом анализе настроений в новостных текстах сопровождается растущим интересом к использованию обработки естественного языка (NLP) и машинного обучения для автоматического анализа популярного контента онлайн-новостейм [1]. Существует множество метрик, предназначенных для оценки производительности машинного обучения, таких как confusion matrix, precision-recall, F1 score и другие, которые также являются эффективными метриками для понимания качества производительности машинного обучения. Однако многие исследователи очень часто встречаются с проблемой несбалансированностью данных. При работе с такими данными показатели точности не соответствуют классификации мелких классов из-за неравного распределения данных. Для решения проблемы существует множество широко используемых методов преодоления проблемы дисбаланса данных. При несбалансированности данных в корпусе, даже при достижении приемлемых результатов точности, результаты производительности алгоритмов машинного обучения очень низки. Такие противоречивые результаты часто имеют место, когда речь идет об использовании больших объемов разносторонней текстовой информации при исследовании социальных или медицинских явлений.

Ниже дано описание методов и использованные данные, а также полученные результаты попытки повысить производительность алгоритмов без потерь в точности классификации текстов. Наблюдаемый дисбаланс в распределении данных отражает объективную реальность в области электронных СМИ и журналистики. Преобладание публикаций с нейтральной тональностью обусловлено принципами журналистской этики, постулирующими непредвзятое отношение к предоставлению информации. В свою очередь, преобладание публикаций с негативной тональностью над позитивной можно объяснить их большей популярностью у читательской аудитории и способностью к вирусному распространению, как было доказано в исследовании Хансена и соавторов [2].

Несбалансированность корпусов новостных публикаций характерна не только для корпуса, собранного в ходе данного исследования, но и для аналогичных корпусов новостных текстов различного происхождения. К примеру, корпус новостных публикаций на русском языке, предоставляемый в открытом режиме доступа, был собран в ходе проекта Linis-crowd, реализованного Лабораторией Интернет-исследований Высшей школой экономики (Россия, Санкт-Петербург)1. В данном корпусе соотношение позитивных, негативных и нейтральных публикаций составляет 9,8%, 38%, и 52,2% соответственно, что также указывает на его несбалансированность по признаку «тональность».

Схожая тенденция наблюдается в зарубежных корпусах новостных текстов доступных в открытой базе массивов данных на различных иностранных языках

1 linis-crowd.org

kaggle.com2. Однако необходимо учитывать, что несбалансированность корпуса новостных текстов характерна для необработанных корпусов. Как правило, для целей машинного обучения корпуса проходят предварительную чистку, в ходе которой часть текстов, способная стать причиной несбалансированности удаляется.

При работе с несбалансированными массивами данных, преобладание мажоритарных классов оказывает значительное влияние на результаты машинного обучения. При этом точность (accuracy) машинного обучения становится ненадежной метрикой его результативности. Так, расчет точности машинного обучения на несбалансированных данных зачастую дает приемлемый и даже высокий уровень (от 80% и выше), но при этом другие метрики результативности машинного обучения, такие как матрица ошибок (confusion matrix) [3] повышенная точность (presicion), полнота (recall) [4], и F-мера [5] (F1 score) демонстрируют противоположную картину. Неравномерное распределение данных приводит к неспособности алгоритмов распознавать и классифицировать миноритарные классы текстов.

Наука о данных выработала несколько стратегий для нивелирования эффекта, оказываемого несбалансированностью, на результаты машинного обучения. Основная стратегия заключается в изменении баланса классов. Наиболее широко применимым подходом для решения указанной проблемы, в силу своей практичности и эффективности, является применение различных стратегий балансирования выборки - сэмплинг (sampling), которые можно разделить на две группы: случайные и специальные. Сэмплинг используется для изменения распределения классов и называется восстановлением равновесия (rebalancing) с целью получения более сбалансированного обучающего множества [6].

Восстановление баланса классов может проходить тремя путями. В первом случае удаляют некоторое количество примеров мажоритарного класса андерсэмплинг (undersampling), во втором - увеличивают количество примеров миноритарного оверсэмплинг (oversampling) [7]. В первой ситуации случайным образом выбирается n записей миноритарного класса и их полностью копируют, во второй - удаляют k записей мажоритарного класса. Третий подход составление сбалансированных подмножеств из исходного массива данных, к которым относится бустинг (boosting) [8].

Среди множества методов и техник оверсэмплинга, одной из сравнительно новых групп методов является генерирование синтетических данных (synthetic data generation).

Генерирование синтетических данных является техникой схожей с бустингом, при которой машина искусственно генерирует данные на основе исходного массива. Среди методов генерирования синтетических данных можно отметить технику синтетического оверсэм-плинга миноритарных классов SMOTE (Synthetic minority oversampling technique), введенную Н.В. Чаула и соавторами [9]. SMOTE предусматривает случайную интерполяцию пар ближайших соседей в миноритарном классе, что приводит к увеличению размера подмножества, составляющего миноритарный класс. Введение техники SMOTE стало импульсом для разработки новых техник, основанных на совершенствовании данного метода. К ним относятся такие методы как SMOTEBoost [10], Borderline-SMOTE [11], RWO-sampling [12], DataBoost-IM [13]. SMOTE также является предшественником метода ADASYN, разработанного Х. Хе и соавторами [14]. Отличие метода от исходной техники SMOTE состоит в том, что ADASYN генерирует данные адаптивным способом,

2 kaggle.com

при котором количество генерируемых данных происходит на основе весов, определяемых в зависимости от распределения данных и уровня трудности обучения на миноритарных классах.

Методы и данные

В ходе формирования первичного корпуса новостных текстов экспертная разметка по признаку «тональность» показала несбалансированность корпуса. Так, корпус из 5211 новостных текстов из 5 источников: tengrinews.kz, сатотЬг^, azattyq.org, кЕ.ехре!!, 2акоп.1с, отличающихся друг от друга по стилистике, уровню популярности, тематической направленности, был классифицирован по трем категориям тональности: «негативной», «нейтральной» и «позитивной». Данная разметка проводилась экспертами, получившими единую инструкцию по методологии разметки с указанием критериев отнесения статьи к одной из вышеуказанных категорий. Полученная в результате разметка корпуса по признаку «тональность» представлена в Таблице 1.

Таблица 1

Класс Кол-во

Негативные 696

Нейтральные 4120

Позитивные 395

Итого: 5211

Как видно из таблицы 1, по признаку «тональность» мы имеем высокую степень несбалансированности данных. Миноритарный класс, включающий статьи с позитивной тональностью, составляет всего 7,58%. Несмотря на то, что класс негативных публикаций превышает количество позитивных публикаций, он все же относится к категории миноритарных и составляет лишь 13,36% корпуса. Несбалансированность корпуса является следствием большого количества публикаций, относящихся к мажоритарному классу «нейтральные», который составил 79,06% корпуса.

Причиной отказа от андерсэмплинга стал размер корпуса, который является достаточно небольшим для целей машинного обучения. Составление сбалансированных подмножеств в нашем случае не дало существенного улучшения точности и других метрик результативности машинного обучения. Исходя из этого, было принято решение использовать оверсэмплинг.

Из различных техник оверсэмплинга мы остановились на методе генерирования синтетических данных ADASYN. В случае малых корпусов использование ADASYN рекомендуется ввиду того, что он позволяет проводить машинное обучение без удаления основной части элементов выборки (модель становится более устойчивой к вероятности ошибки), вместо того, чтобы использовать генерирование синтетических данных для простого увеличения размерности выборки.

При использовании ADASYN генерирование синтетических данных происходит с применением следующей функции:

С = (|5та;|-|5т;п|)х^ (1)

где р е [0,1] - параметр, используемый для определения необходимого уровня сбалансированности после процесса генерирования синтетических данных.

Затем, для каждого элемента е Бт1п определяются К-ближайшие соседи на основе евклидового расстояния и рассчитывается вес Г; по формуле:

= 1.....|5т;п| (2)

о о n и m

О m э m й А

S £ m

О

х О m

0

01 и А ы о n А X

s m

где Д; количество элементов в подмножестве К-бли-жайших элемента xt который в свою очередь относится к Smaj, а Z является константой нормализации, при которой Г; является функцией распределения = 1).

Далее, для определения количества синтетических элементов, которые необходимо сгенерировать для каждого е Smln используется формула:

д1=Г1хС (3)

И наконец, для каждого xt е Smin, генерируется gt синтетических элементов в соответствии с формулой 1.

Ключевой идеей алгоритма ADASYN является использование плотности распределения Г в качестве критерия для автоматического принятия решения о необходимом количестве для каждого элемента миноритарного подмножества путем адаптивного изменения весов различных элементов миноритарного подмножества, что в итоге компенсирует неравномерное распределение (несбалансированность) данных.

В ходе исследования на исходном корпусе были получены такие метрики результативности машинного обучения алгоритмами K-ближайших соседей (K-nearest neighbors. K-NN) и наивный Байес (Naïve Bayes, NB) как точность (accuracy), повышенная точность-полнота (precision-recall) и F-мера (F1 score). Затем мы сравнили данные метрики результативности машинного обучения до и после проведения ADASYN.

Полученные результаты

Результаты машинного обучения до процедуры ADASYN для алгоритмов K-NN и Naïve Bayes представлены ниже в Таблицах 2 и 3 соответственно.

Таблица 2

Метрики результативности машинного обучения с применением алгоритма КММ до процедуры АйАЭУМ

K-NN ML

accuracy 78%

precision (neg)= 43% recall (neg)= 24%

precision (neut)= 81% recall (neut)= 94%

precision (pos)= 25% recall (pos)= 4%

precision (macro avg)= 50% recall (macro avg)= 41%

F1 score 42%

Таблица 3

Метрики результативности машинного обучения с применением алгоритма Naïve Bayes до процедуры ADASYN

NB ML

accuracy 79%

precision (neg)= 46% recall (neg)= 33%

precision (neut)= 82% recall (neut)= 94%

precision (pos)= 0% recall (pos)= 0%

precision (macro avg)= 43% recall (macro avg)= 42%

F1 score 42%

Из таблиц выше видно значительное расхождение между метрикой точность и метриками повышенная точность-полнота и F-мера. При этом если точность машинного обучения составила почти 80% для обоих алгоритмов, то остальные метрики показывают, что машинное обучение результативно только при определении класса публикаций «нейтральные». Класс «позитивные» либо не распознается машиной вовсе, либо в очень редких случаях. В случаях с классом «негативные» машина пра-"о вильно определяет 20-40% случаев. о Матрицы ошибок на тестовом подмножестве (30%)

ф для алгоритмов K-NN и Naïve Bayes представлены ниже о в Таблицах 4 и 5 соответственно.

N Вышеприведенные таблицы подтверждают наблюде-

т- ние о неспособности машины правильно определять ми-2 норитарные классы. По алгоритму Naïve Bayes машинное

обучение абсолютно не справилось с задачей определения публикаций, относящихся к классу «позитивные».

Таблица 4

Матрица ошибок с применением алгоритма K-NN до процедуры ADASYN _

Пред сказанный класс

негативн ый нейтральн ый позитивн ый

Действительн ый класс негативны й 33 105 1

нейтральн ый 40 777 8

позитивны й 3 73 3

Таблица 5

Матрица ошибок с применением алгоритма Naïve Bayes до процедуры ADASYN _

Предсказанный класс

негативн ый нейтральн ый позитивн ый

Действительн ый класс негативны й 38 55 6

нейтральн ый 150 654 98

позитивны й 0 0 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее была проведена процедура ADASYN, позволившая сбалансировать корпус. Характеристики корпуса после процедуры ADASYN представлены ниже в Таблице 6.

Таблица 6

Разметка корпуса по признаку «тональность» после ADASYN

Класс Кол-во %

Негативные 3333 33,24

Нейтральные 3295 32,86

Позитивные 3400 33,91

Итого: 10028 100

Затем были вычислены метрики результативности машинного обучения на корпусе, расширенном за счет процедуры ADASYN для алгоритмов K-NN и NB, представленные в Таблицах 7 и 8 соответственно.

Таблица 7

Метрики результативности машинного обучения с применением алгоритма КММ после процедуры АйАЭУМ

K-NN ML (ADASYN)

accuracy 52%

precision (neg)= 23% recall (neg)= 31%

precision (neut)= 84% recall (neut)= 65%

precision (pos)= 15% recall (pos)= 22%

precision (macro avg)= 40% recall (macro avg)= 48%

F1 score 39%

Таблица 8

Метрики результативности машинного обучения с применением алгоритма Naïve Bayes после процедуры ADASYN

NB ML (ADASYN)

accuracy 33%

precision (neg)= 39% recall (neg)= 50%

precision (neut)= 86% recall (neut)= 24%

precision (pos)= 11% recall (pos)= 87%

precision (macro avg)= 45% recall (macro avg)= 34%

F1 score 34%

До процедуры ADASYN наблюдалось ярко выраженное несоответствие между показателями точность и повышенная точность-полнота, F-мера, где разница между

точностью и F-мерой составила 36% и 37% для алгоритмов K-NN и NB соответственно. После процедуры ADASYN эта разница существенно сократилась, составив 13% и 1% для алгоритмов K-NN и NB соответственно.

Матрицы ошибок на тестовом подмножестве (30%) для алгоритмов K-NN и Naïve Bayes представлены ниже в Таблицах 9 и 10 соответственно.

Таблица 9

Матрица ошибок с применением алгоритма K-NN после процедуры ADASYN

Пред сказанный класс

негативн ый нейтральн ый позитивн ый

Действительн ый класс негативны й 67 52 20

нейтральн ый 214 437 174

позитивны й 12 33 34

Таблица 10

Матрица ошибок с применением алгоритма Naïve Bayes

Пред сказанный класс

негативн ый нейтральн ый позитивн ый

Действительн ый класс негативны й 69 31 39

нейтральн ый 100 202 523

позитивны й 7 3 69

Заключение

Вышеприведенные результаты подтверждают, что с проведением процедуры уравновешивания классов ADASYN, алгоритм смог лучше определять миноритарные классы.

Необходимо отметить, что хотя после процедуры ADASYN наблюдается резкое снижение точности машинного обучения (accuracy): на 26% и 46% для алгоритмов K-NN и NB соответственно, точность машинного обучения (accuracy) после процедуры ADASYN гораздо более соответствует фактической результативности машинного обучения, чем до данной процедуры.

Таким образом, было получено экспериментальное подтверждение эффективности метода ADASYN для решения проблемы несбалансированности корпуса по признаку «тональность», хотя точность машинного обучения (accuracy) осталась низкой после процедуры. Задача повышения точности машинного обучения при определении данного признака была решена в ходе дальнейшей работы над проектом за счет увеличения количества предикторов, учитываемых при анализе.

Литература

1. Korencic D., Ristov S., Snajder J. Document-based topic coherence measures for news media text // Expert Systems with Applications. 2018. (114). C. 357-373.

2. Hansen L.K. et al. Good Friends, Bad News - Affect and Virality in Twitter // Communications in Computer and Information Science Future Information Technology. 2011. C. 34-43.

3. Visa S., Ramsay B., Ralescu A. Knaap E. Confusion Matrix-based Feature Selection // CEUR Workshop Proceedings. 2011. (710). С. 120-127.

4. Prasath et al. Distance and Similarity Measures Effect on the Performance of K-Nearest Neighbor Classifier - A Review // arXiv.org [Электронный ресурс]. URL: https://arxiv.org/abs/1708.04321 (Дата обращения: 05.12.2019).

5. Chomboon K. et al. An Empirical Study of Distance Metrics for k-Nearest Neighbor Algorithm // The Proceedings of the 2nd International Conference on Industrial Application Engineering 2015. 2015.

6. Weiss G.M., McCarthy K., Zabar B. Cost-Sensitive Learning vs. Sampling: Which is Best for Handling Unbalanced Classes with Unequal Error Costs? // Proceedings of the 2007 International Conference on Data Mining. CSREA Press, 2007. C. 35-41

7. McCarthy K., Zabar B., Weiss G.M. Does Cost-Sensitive Learning Beat Sampling for Classifying Rare Classes? // Proceedings of the First International Workshop on Utility-Based Data Mining (at KDD-05). ACM Press, 2005. - C. 69-75.

8. Nikulin V.N. On the Evaluation of the Homogeneous Ensembles with CV-passports. // PAKDD 2013, Springer LNCS 7867, J. Li et al. (Eds.). 2013. C. 109-120.

9. Chawla N.V. et al. SMOTE: Synthetic Minority Over-sampling Technique // Journal of Artificial Intelligence Research. 2002. (16). C. 321-357.

10. Chawla N.V. et al. SMOTEBoost: Improving Prediction of the Minority Class in Boosting // Knowledge Discovery in Databases: PKDD 2003 Lecture Notes in Computer Science. 2003. C. 107-119.

11. Han H., Wang W.-Y., Mao B.-H. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning // Lecture Notes in Computer Science Advances in Intelligent Computing. 2005. C. 878-887.

12. Zhang H., Li M. RWO-Sampling: A random walk over-sampling approach to imbalanced data classification // Information Fusion. 2014. (20). C. 99-116.

13. Guo H., Viktor H.L. Learning from imbalanced data sets with boosting and data generation // ACM SIGKDD Explorations Newsletter. 2004. № 1 (6). C. 30.

14. He H., Garcia E. Learning from Imbalanced Data // IEEE Transactions on Knowledge and Data Engineering. 2009. № 9 (21). C. 1263-1284.

ADASYN as a method for solving the data imbalance in

sentiment analysis of texts Baimakhanbetov M.A., Nurumov K.S., Ospanova U.A, Buldybayev T.K., Akoyeva I.G.

JSC "Information-Analytical Center"

In the process of tonality detection of news researchers often encounter the problem of imbalance in the corpus of texts. The observed misalignment in the markup of texts can be explained by a reflection of objective reality when the predominance of neutral publications is caused by the principles of journalistic ethics. The predominance of negative texts over positive ones can be explained by their stronger preferences among readers and the ability to spread virally. Thus, to address the classification of texts in imbalanced corpora, it is proposed to consider the possibility of using the ADASYN method. The article presents the experimental results of comparing the performance metrics of machine learning algorithms on an unbalanced text corpus using the proposed method of generating synthetic data and without it. Based on the results of the study, the authors' comments and conclusions on the features of the application of the method are presented, and a number of proposals for further research in this area are put forward. Keywords: ADASYN, data imbalance, sentiment-analysis, machine

learning References

1. Korencic D., Ristov S., Snajder J. Document-based topic coherence measures for news media text // Expert Systems with Applications. 2018. (114). C. 357-373.

2. Hansen L.K. et al. Good Friends, Bad News - Affect and Virality in

Twitter // Communications in Computer and Information Science Future Information Technology. 2011. C. 34-43.

3. Visa S., Ramsay B., Ralescu A. Knaap E. Confusion Matrix-based

Feature Selection // CEUR Workshop Proceedings. 2011. (710). S. 120-127.

4. Prasath et al. Distance and Similarity Measures Effect on the

Performance of K-Nearest Neighbor Classifier - A Review //

о о и n m

О m э m й А

S £ m О

х О m

О Dl и А ы о и А X

s m

arXiv.org [Electronic resource]. URL:

https://arxiv.org/abs/1708.04321 (Date of access: 05.12.2019).

5. Chomboon K. et al. An Empirical Study of Distance Metrics for k-

Nearest Neighbor Algorithm // The Proceedings of the 2nd International Conference on Industrial Application Engineering 2015. 2015.

6. Weiss G.M., McCarthy K., Zabar B. Cost-Sensitive Learning vs.

Sampling: Which is Best for Handling Unbalanced Classes with Unequal Error Costs? // Proceedings of the 2007 International Conference on Data Mining. CSREA Press, 2007.S. 35-41

7. McCarthy K., Zabar B., Weiss G.M. Does Cost-Sensitive Learning

Beat Sampling for Classifying Rare Classes? // Proceedings of the First International Workshop on Utility-Based Data Mining (at KDD-05). ACM Press, 2005 .-- S. 69-75.

8. Nikulin V.N. On the Evaluation of the Homogeneous Ensembles

with CV-passports. // PAKDD 2013, Springer LNCS 7867, J. Li et al. (Eds.). 2013. S. 109-120.

9. Chawla N.V. et al. SMOTE: Synthetic Minority Over-sampling

Technique // Journal of Artificial Intelligence Research. 2002. (16). C. 321-357.

10. Chawla N.V. et al. SMOTEBoost: Improving Prediction of the Minority Class in Boosting // Knowledge Discovery in Databases: PKDD 2003 Lecture Notes in Computer Science. 2003. C. 107119.

11. Han H., Wang W.-Y., Mao B.-H. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning // Lecture Notes in Computer Science Advances in Intelligent Computing. 2005. C. 878-887.

12. Zhang H., Li M. RWO-Sampling: A random walk over-sampling approach to imbalanced data classification // Information Fusion. 2014. (20). C. 99-116.

13. Guo H., Viktor H.L. Learning from imbalanced data sets with boosting and data generation // ACM SIGKDD Explorations Newsletter. 2004. No. 1 (6). C. 30.

14. He H., Garcia E. Learning from Imbalanced Data // IEEE Transactions on Knowledge and Data Engineering. 2009. No. 9 (21). C. 1263-1284.

o

E £

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

o> ^

o w

ADASYN as a method for solving the data imbalance in sentiment analysis of texts

Текст научной работы на тему «ADASYN как метод решения проблемы несбалансированности данных при сентимент-анализе текстовой информации»