ANIMAL DELAY PERIOD PREDICTION IN THE SHELTER USING NLP METHODS
Marchenkov I.
6-th year student, Department of Information Systems and Technologies, Igor Sikorsky Kyiv Polytechnic Institute, Kyiv
ПРОГНОЗУВАННЯ ПЕР1ОДУ ЗАТРИМКИ ТВАРИНИ В ПРИТУЛКУ З ВИКОРИСТАННЯМ
МЕТОД1В NLP
Марченков 1.Д.
студент 6-го курсу кафедри тформацшних систем i технологт, НТУУ «КП1 iм. 1горя Скорського», м. Кшв
Abstract
The problem of homeless animals is considered in the article. Among the 7-8 million animals that end up in rescue shelters, about 45% of animals are euthanized, 15-25% of animals die due to overcrowding in shelters each year. The aim of the study is to improve the rate of appropriation of animals in shelters, using machine learning methods: Logistic regression, Naive Bayes classifier, Support vector machine, Decision trees, Random forest and Extremely randomized trees, as well as Natural language processing methods.
Анотащя
У статп розглянуто можливi шляхи виршення одте! з проблем безпритульних тварин. Серед 7-8 мшьйошв тварин, яК потрапляють до рятувальних притулив, близько 45% тварин щадаються евтаназп, 15-25% тварин помирають через переповнення притулив щороку. Метою дослщження е оцшка перюду перебування тварини в притулку та зменшення цього перюду, за рахунок використання методiв машинного навчання: лопстично! ре-гресш (Logistic regression), на!вного баесевого класифшатора (Naive Bayes classifier), методу опорних вега^в (Support vector machine), дерева ршень (Decision tree), випадкового люу (Random forest) та гранично випадкових лiсiв (Extremely randomized trees), а також методiв обробки природньо! мови (Natural language processing).
Keywords: Pet adoption, euthanasia problem, machine learning methods, natural language processing, decision support tool.
Ключовi слова: привласнення тварин, проблема евтаназп, методи машинного навчання, обробка природно! мови, шструмент шдтримки прийняття ршень.
Вступ. Проблема безпритульних тварин в Укрш'ш стоггь досить гостро i е актуальною як у великих мютах, так i в маленьких селах. Головними шструмен-тами у подоланш безпритулъностi тварин е системна яшсна стерилiзацiя тварин-безхатъкiв, активне при-лаштування !х у сiм'i, а також ввдповщальне ставлення господарiв до сво!х домашнiх улюбленцiв - обов'яз-ковi реестрацiя та чiпування. У даному дослiдженнi ро-зроблено алгоритм, що буде прогнозувати перiод, який тварина проведе у притулку до и привласнення господарем. Отриманий результат допоможе розробити стратеги для зменшення проведеного перюду в притулку та зниження показнику евтаназп.
Огляд лггератури. Клевенджер Дж. провiв до-слiдження [1] щодо позитивного впливу стерилiзацii на ймовiрнiстъ привласнення домашшх тварин. Автор до-слiдив вплив ствпращ ветеринарних медичних шкiл у збшьшенш кiлъкостi привласнення домашнiх тварин, пропонуючи безкоштовну стерилiзацiю. Результати продемонстрували, що ствпраця мiж ветеринарними клшками та мiсцевими притулками для тварин змен-шила евтаназiю на 26 % домашшх тварин. Браун та ш. провели дослвдження [2], в якому оцiнювали вплив вiку, породи, кольору та вiзерунку шерстi на три-валiстъ перебування у притулку без евтаназп. Автори дшшли висновку, що колiр не впливав на термш перебування, тодi як стать, вiзерунок шерстi та порода були
суттевими чинниками для перюду перебування котш у притулку.
У наборi даних, що використовуеться для виршення задачi прогнозування перiоду затримки, за-лежна змiнна складаеться з п'яти клаав, чотири з яких мають порядкову властивiсть, тобто чим бшьше зна-чення змiнноi, тим шзшший перiод привласнення. Френк i Хол стверджують, що стандартнi пiцходи виршення можуть не враховувати порядкову вла-стивiсть вихiдноi' змiнноi [3], тому вони пропонують використовувати метод дерев ршень.
Опис набору даних. Для розумшня логiки побу-дови математично! моделi розглянуто! зацачi, спочатку було проаналiзовано структуру набору даних, який ви-користовуватиметься для дослiдження проблеми прогнозування перiоду привласнення тварин iз притулку.
Набiр даних розмщено на провiднiй платформi захисту тварин Малайзп PetFinder та у сощальнш ме-режi спецiалiстiв по обробщ даних та машинному нав-чанню (англ. Machine Learning) Kaggle. Набiр скла-даеться з трьох частин. Перший - це файл CSV iз детальною шформащею, що включае тип тварини (собака чи кгг), породу, стать, забарвлення, довжину хутра, стерилiзацiю, стан здоров'я та опис. Опис ш-формацii подано в таблищ 1.
Другий набiр даних - це файли опиав JSON з оцiнкою привaбливостi, а третш набiр - велика ко-лекцiя фaйлiв зображень. Загалом нaбiр складаеться з
14993 запиав домашшх тварин та 23 характеристик по Пром1жки часу у pi3Hm класах неоднаковг Клас «0» кожнш i3 них. Вихщна змiнна AdoptionSpeed, що е по- мютить у собi iнтервал po3MipoM 1 день, клас «2» - iH-казником перiоду привласнення мае п'ять клаав (табл. тервал 23 дш.
2). Привласнень у промiжку з 91 по 100 день не було.
Таблиця 1
__Опис набору даних__
Ha3Ba Heîa^e^- Опис Вимпр
MO1 3M1MMO1 (для дискретних змшних)
PetID Ушкальний iдентифiкатор тварини
Type Тип тварини 1 - Собака, 2 - Юг
Name 1м'я тварини
Age Вiк тварини у шсяцях
Breedl Первинна порода тварини 306 можливих варiантiв
Breed2 Вторинна порода тварини (у випадку якщо порода е змiшаною) 306 можливих варiантiв
1 - Самець, 2 - Самиця, 3 - Зтшана
Gender Стать тварини (якщо запис мiстить дек1лька тварин)
Colorl Колiр 1 7 можливих варiантiв
Color2 Колiр 2 7 можливих варiантiв
Color3 Колiр 3 7 можливих варiантiв
1 - Малий, 2 - Середнш, 3 - Вели-
MaturitySize Розмiр тварини у зршому вiцi кий, 4 - Дуже великий, 0 - Не вка-зано
FurLength Довжина хутра 1 - Коротке, 2 - Середне, 3 - Довге, 0 - Не вказано
Vaccinated Наявнiсть вакцинацп 1 - Так, 2 - Ш, 3 - Не впевнений
Dewormed Дегельмiнтизацiя 1 - Так, 2 - Ш, 3 - Не впевнений
Sterilized Наявнiсть стерилiзацil 1 - Так, 2 - Ш, 3 - Не впевнений
Health Стан здоров'я 1 - Здоровий, 2 - Незначна травма, 3 - Серйозна травма, 0 - Пропустит
Quantity Юльшсть тварин у профiлi
Fee Вартстъ привласнення 0 - Безкоштовно
State Розташування штату в Малайзи 15 можливих варiантiв
RescuerlD Унiкальний iдентифiкатор рятiвника
VideoAmt Загальна к1льк1сть завантажених вiдео для ще! тва-
рини
PhotoAmt Усього завантажених фотографш для ще! тварини
Текстовий опис профiлю тварини. Основна мова -
Description англшська, в деяких профiлях присутня малайська або китайська
SentimentMagni-tude Величина емоцiйностi текстового опису (ввд 0.0 до
SentimentScore Загальна емоцiйнiсть текстового опису тварини (ввд -1.0 до 1.0)
Змшш PetID, Name, RescuerlD видалимо з нав-чально! B^ipKH, оск1льки вони не впливатимуть на значения залежно! змшно! при побудовi моделi. До ознак також було додано довжину текстового опису. Для обробки безпосередньо текстового опису було ви-користана модель «торба ств» (bag-of-words), що представляе текст у виглядi мультимножини його слiв, не беручи до уваги граматику i навiть порядок слв, пiдраховуючи частоту появи кожного слова [4]. Шсля цього було застосовано швидке кодування (One-Hot Encoding) - процес, за допомогою якого категоршш змiннi були перетворенi на ввдповвдну алгоритмам машинного навчання форму [5].
Методи
Логiстична Регреая. Багатокласова логiстична регресiя може бути застосована для класифiкацiï 5 змшних. Ймовiрнiсний розподiл вiдповiдi по заданим вх1дним параметрам:
еРс*Щ
де X - матриця ознак, що описують спостере-ження, / - набiр коефiцiентiв регресiï, с - клас, ймовь рнiсть належностi до якого треба визначити, Yt - еле-мент iз множини класiв, е@с*Х1 - оцiнка ввднесення спо-стереження i до класу с, YJk=ie^k*Xl - сума оцшок ввднесення спостереження i до кожного класу к iз множини К.
Багатокласова лопстична регресш e розширенням бшарного випадку. Модель передбачае обчислення ймовiрностi нaлежностi об'екту до кожного i3 клaсiв.
Таблиця 2
Опис залежно! змшно!
Залежна змшна Перiод привласнення
0 У той же день
1 Ввд 1 до 7 дшв
2 Вiд 8 до 30 дшв
3 В1д 31 до 90 дшв
4 Шсля 100 днiв перебування у притулку привласнення вiдсутнe
НаТвний баeсiв класифшатор. Метод базу-еться на теоремi Баеса iз передбаченням класу на основi незалежних предикторiв. На!вну баесову модель легко побудувати та вона особливо тдходить для великих масивiв даних. Вiдомо, що на!вний ба-есiв метод не тшьки простий, але й у деяких випад-ках перевершуе найскладнiшi методи класифжацп [6]. Теорема Баеса представляе спосiб обчислення апостерюрно! ймовiрностi Р(с|х) з Р(с), Р(х) та Р(х|с). Рiвняння теореми Баеса:
Р(х1с)Р(с)
Р(с\х) = ■
Р(х)
де Р(с\х) - апостерюрна ймовiрнiсть класу с для предиктора х, Р(с) - aпрiорнa ймовiрнiсть класу с, Р(х\с) - умовна ймовiрнiсть предиктора х при клаа с, Р(х) - аирюрна ймовiрнiсть предиктора.
Метод Опорних BeKTopiB. Основна iдея методу - переведения вихщних векторiв у прослр бiльш високо! розмiрностi i пошуку роздшьно! гше-рплощини з максимальним зазором у цьому простора Двi пaрaлельнi гiперплощини будуються по обидва боки гiперплощини, що роздме класи. Роз-дiльною гiперплощиною буде гшерплощина, що мaксимiзуe вiдстaнь до двох паралельних гшерпло-щин. Алгоритм працюе у припущеннi, що чим бь льша рiзниця або вщстань м1ж цими паралельними гiперплощинaми, тим меншою буде середня поми-лка клaсифiкaторa.
Дерева Рiшень (Decision Trees). Дерево рь шень, або метод дерева класифжацп, на кожному крощ обирае змiнну, яка е найбшьш вiдповiдною для подiлу, а попм знаходить точку подiлу. З точки зору найкращого подiлу, iнтерпретовaно це як по-дш, який найкращим чином зменшуе похибку та покращуе чистоту листкових вузлiв [7].
Випадковий лiс. Випадковий лiс (random forest) ефективно оброблюе даш з великою к1льк1стю ознак i клaсiв [8], тому вони можуть стати у нaгодi,
особливо при побудовi моделi iз закодованим текстом при обробщ природньо! мови. Добре оброблю-ють i дискретш, i безперервнi ознаки, а також нада-ють можливiсть оцiнити рiвень впливовостi кожно! змшно! на модель (тест out-of-bag). Гранично випа-дковi лiси (extremely random forests) ще бтше по-силюють роль випадковосп [9]. Поряд iз випадко-вим вибором ознак випадково вибираються також пороговi значення. Цi випадково генеровaнi зна-чення стають правилами розбиття, що додатково зменшують вaрiaтивнiсть моделi. Тому викорис-тання гранично випадкових лiсiв зазвичай призво-дить до бiльш гладких кордошв прийняття рiшень, порiвняно з тими, яш вдаеться отримати за допомо-гою випадкових лiсiв.
Результат. Були побудоваш моделi, що опи-сaнi вище, з урахуванням та без урахування текстового опису тварини. Результати наведеш в таблиц 3. Точнiсть моделi лопстично! регреси отримала незначну перевагу iз урахуванням опису на тесто-вих даних. Модель на!вного Баесу та метод опорних векторiв ввдчутно погiршили результат з викорис-танням NLP. Дерева прийняття ршень показали не-значне попршення. Випадковий лiс та гранично ви-пaдковi лiси покращили свш результат при викори-стaннi природньо! обробки мови. Результат точностi при використанш випадкового лiсу покра-щився на 1,16 %, гранично випадкових лгав - 8,52 %. Нaйкрaщi результати мають випадковий лю та гранично випaдковi лiси, з невеликою рiзницею то-чностi.
Для моделi випадкового лiсу, що е найкращою за точнiстю, було побудовано пстограму впливо-востi ознак на модель (рис. 1). Найвпливовшими ознаками е вш тварини, к1льк1сть фотогрaфiй, по-казники величини та загально! емоцшносп текстового опису, а також розмiр опису, що сумарно мають впливовють понад 40 %. Тобто, опис тварини та його наявшсть е значними чинниками, що впли-вають на вибiр тварини для привласнення новим господарем.
Таблиця 3
Результат тестування моделей класифжаци_
Тренувальнi данi TecTOBi даш
Назва методу Точшсть Точшсть Точшсть Точшсть
(без NLP) (з NLP) (без NLP) (з NLP)
Лопстична регре^ 0.337 0.337 0.333 0.334
Навний Баес 0.338 0.608 0.338 0.231
Метод опорних векторiв 0.307 0.278 0.311 0.283
Дерева прийняття рiшень 0.442 0.445 0.383 0.378
Випадковий лiс 0.443 0.999 0.431 0.436
Гранично випадковi лiси 0.998 0.998 0.399 0.433
Ознака Рисунок 1
Впливовгсть незалежних змтних на результат при застосуванн класифгкатору випадкового лгсу
Побудовано матрицю невщповщностей (confusion matrix) для п'яти ^p^iB затримки тва-рини в притулку, що характеризують вiдносну шви-дкiсть вiд найменшого значения до найбiльшого (вiд 0 до 4). Дана матриця дае можливiсть унаоч-нити пpодуктивнiсть алгоритму, зазвичай керова-ного навчання. Кожен з рядшв цiеi матpицi предста-вляе зразки прогнозованого класу, тодi як кожен зi стовпцiв представляе зразки справжнього класу [10]. Значення поданi у вiдсотках вiдносно ix шль-костi по класу (рис. 2). Ми аналiзуемо результати вщнесення кожного класу та визначаемо частку не-вipно ввднесених класiв.
Тестова вибipка мае 2,93% значень, що ввдно-сяться до класу «0». Це невелика шльшсть ввдносно
шших класiв, тому при побудовi моделi ми зштов-хнулися з певними складнощами, оск1льки вона вщ-несла до класу «0» лише 2 значения зi 132 можли-вих, причому зробила у цих випадках помилку. Тобто класифiкатор у тдсумку не зможе нам спро-гнозувати за ознаками, чи зможуть привласнити тварину у той же день, що вона i потрапила до притулку.
Якщо розглядати iншi класи, то бачимо, що елементи по дiагоналi мають найбiльшi значення ввдносно 1х колонок. Чим значення елементу по дь агоналi ближче до 100%, тим краще класифжуе модель даний клас. У випадку класу «1» класифiкатор правильно зробив прогноз для 37% запиав, класу «2» - 41%, класу «3» - 18% та для класу «4» показав 55% точности
0 6.3 2.7 0.95 2.5
0 37 28 8.1 12
0.76 33 41 13 22
0 21 27 18 20
0.76 14 29 8.2 55
-50
-40
-30
20
-10
Справжшй клас
Рисунок 2 - Матриця невiдповiдностей моделi випадкового лку
Висновки. У ходi дослщження було побудо-вано бaзовi моделi машинного навчання: лопстичну регресш, на!вний баеав клaсифiкaтор, метод опорних векторiв, дерева ршень, випадковий лiс та гранично випaдковi лiси. Було зроблено порiвияния ефективностi роботи моделей: з та без врахування текстового опису. Текстовий опис було оброблено засобами NLP, за допомогою моделi «bag-of-words».
Серед усiх моделей машинного навчання найкраще себе показав випадковий лю iз точнiстю класифжацп 0.436 на тестових даних. Методи обробки природньо! мови покращили результат клaсифiкaтору випадкового люу на 1.16 %. Найвп-ливовiшими на результат ознаками виявилися: вiк тварини, кiлькiсть фотогрaфiй, показники величини та загально! емоцiйностi текстового опису, а також довжина опису.
СПИСОК Л1ТЕРАТУРИ:
1. Clevenger J, Kass PH. Determinants of adoption and euthanasia of shelter dogs spayed or neutered in the University of California veterinary student surgery program compared to other shelter dogs. J Veterinary Med Educs / 1. Clevenger J, Kass PH. - 2003. -№30. - С. 8.
2. Brown WP. Age, breed designation, coat color, and coat pattern influenced the length of stay of cats at a no-kill shelter / Brown WP, Morgan KT. // J Appl Anim Welf Sci. - 2015. - №18. - С. 80.
3. Frank E. A simple approach to ordinal classification. In European Conference on Machine Learning / E. Frank, M. Hall. // Springer. - 2001. - С. 145-156.
4. Zhang Y. Understanding bag-of-words model: a statistical framework / Y. Zhang, R. Jin, Z. Zhou. // International Journal of Machine Learning and Cybernetics volume. - 2010. - №1. - C. 43-52.
5. Potdar K. A Comparative Study of Categorical Variable Encoding Techniques for Neural Network Classifiers / K. Potdar, T. Pardawala, C. Pai. // International Journal of Computer Applications. - 2017. -№175. - C. 7-9.
6. Ray S. 6 Easy Steps to Learn Naive Bayes Algorithm with codes in Python and R / Sunil Ray. -2015.
7. Classification And Regression Trees / L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone. -Boca Raton, Florida, United States: Routledge, 2017. -368 c.
8. Cutler A. Random Forests / A. Cutler, D. R. Cutler, J. R. Stevens // Ensemble Machine Learning: Methods and Applications / A. Cutler, D. R. Cutler, J. R. Stevens., 2011. - (Springer). - (45; kh. 1). - C. 157176.
9. Chakrabarty N. Navo Minority Over-sampling Technique (NMOTe): A Consistent Performance Booster on Imbalanced Datasets / N. Chakrabarty, S. Biswas. // Journal of Electronics and Informatics. -2020. - №2. - C. 96-136.
10. Powers D. M. Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness & Correlation / David Martin Ward Powers. // Journal of Machine Learning Technologies. - 2008. - №2. - C. 37-63.