ПРЕДВАРИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ РЕЗУЛЬТАТОВ АНГЛИЙСКОЙ ПРЕМЬЕР-ЛИГИ

Никитин К.О.

УДК 51-78

Никитин К.О.

магистр, студент кафедры математической кибернетики института «Компьютерные науки и прикладная математика»

Московский авиационный институт (национальный исследовательский университет) (г. Москва, Россия)

Научный руководитель: Сологуб Г.Б.

кандидат физико-математических наук, доцент кафедры математической кибернетики института «Компьютерные науки и прикладная математика»

Московский авиационный институт (национальный исследовательский университет) (г. Москва, Россия)

ПРЕДВАРИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ РЕЗУЛЬТАТОВ АНГЛИЙСКОЙ ПРЕМЬЕР-ЛИГИ

Аннотация: Машинное обучение — это разновидность искусственного интеллекта (ИИ), которая позволяет компьютерам учиться и импровизировать самостоятельно, без явного программирования. Машинное обучение связано с созданием компьютерных программ, которые могут получать доступ к данным и учиться самостоятельно. Спортивное прогнозирование является одной из быстрорастущих областей, поскольку объем ставок достигает миллиардов долларов. Возможность применять алгоритмы и использовать данные о футбольных матчах, чтобы попытаться предсказать исход будущих игр, является особенно важным аспектом машинного обучения в футболе. Результаты спортивных матчей бывает трудно предсказать, часто случаются неожиданные исходы. Футбол является хорошим примером, поскольку матчи имеют установленную продолжительность (в отличие от ракеточных видов спорта, таких как теннис, где игра ведется до тех пор, пока один игрок

не выиграет). В этом исследовании методы машинного обучения используются для прогнозирования команды-победителя в Английской Премьер-Лиге (АПЛ). Цель состоит в том, чтобы точно предсказать окончательный результат футбольного матча, который определяет команду-победителя. Для обучения данных в этой статье используются такие алгоритмы, как метод опорных векторов (SVM), ансамблевый алгоритм (XGBoost), логистическая регрессия (Logistic Regression), из них выберем тот, который покажет самую высокую и лучшую точность предсказания. Данные за предыдущие сезоны взяты из открытого источника kaggle.com.

Ключевые слова: прогнозирование футбольных матчей, машинное обучение, классификация, SVM, XGBoost, Logistic Regression.

Введение

Футбол — самый популярный вид спорта во всем мире, в него играют 250 миллионов игроков в более чем 200 странах. Аналитические прогнозы всегда были в сфере спорта. Если быть более точным, аналитика в области футбола — это метод создания значимой информации и принятия решений, на основе которых можно действовать, используя данные, связанные с футболом. Данные включают в себя что угодно, начиная от того, сколько голов забила команда, и заканчивая множеством факторов, таких как расстояние, пройденное игроком в ходе матча, или количество сыгранных передач, а также сколько из них были точными, а также сколько из них тех, которые создали шанс для своей команды забить и так далее.

В каждом футбольном турнире формируются группы, и команды играют по 2 матча с каждой другой командой в своей лиге — один на своем домашнем поле, а другой на домашнем стадионе соперника. Каждый такой матч имеет 3 выполнимых исхода: победа хозяев, матч заканчивается вничью или победа команды гостей.

Учитывая такой формат, естественно, что существует множество онлайн фэнтези-лиг, букмекерских контор и других, которые пытаются предсказать конечный результат каждого матча. В ходе этой работы была предпринята попытка выявить факторы, влияющие на исход матча, и одновременно предсказать результаты любого матча, используя эти факторы.

Наиболее важной составляющей верного прогноза является правильный набор данных для футбольных матчей. В этой статье мы рассмотрим версию футбольного прогноза, представленную в виде задачи классификации с целевым признаком, состоящего из 3 классов: победа хозяев, победа гостей и ничья.

Исходы спортивных матчей трудно предсказать, часто их дополняют неожиданности. Футбол, в частности, является примечательным примером, поскольку матчи имеют фиксированную продолжительность (как и в теннисе, в котором играют с ракетками до тех пор, пока игрок не выиграет).

Однако из-за малой результативности игр (менее 3 голов за игру в среднем по английской премьер-лиге за последние 15 лет) присутствует элемент случайности, связанный с количеством голов, забитых в матче. Необходимо выяснить, может ли применение машинного обучения обеспечить лучшую и более проницательную информацию для футбольной аналитики. Это делает результаты матчей несовершенной мерой эффективности команды и, следовательно, неполным показателем для прогнозирования будущих результатов.

В этой статье представлены модели для прогнозирования исхода футбольных матчей в английской премьер-лиге. Был подготовлен набор данных прошлых сезонов для различных классификаторов машинного обучения. Были проведены сравнения между алгоритмами, и будет рассмотрен тот, который оказался наиболее точным, т.е. имеющим более надежную точность прогноза. Классы целевого признака: победа хозяев (И), победа в гостей (А), ничья ф).

Описание набора данных

Прогноз делается на основе данных прошлых игр за последние сезоны. Мы получили набор данных, который содержит данные, начиная с 2000 года.

• Season - матч сезон;

• DateTime - соответствие даты и времени (гггг-мм-дд чч:мм:сс);

• HomeTeam - домашняя команда;

• Awayteam - команда гостей;

• FTHG - количество голов команды хозяев;

• FTAG - количество голов команды гостей;

• FTR - результат матча (Н=победа хозяев, D=ничья, А=победа в гостей);

• HTHG - забитые голы командой хозяев до перерыва;

• HTAG - забитые голы командой гостей до перерыва;

• Referee - судья матча;

• HS - количество ударов по мячу командой хозяев;

• AS - количество ударов по мячу командой гостей;

• HST - количество ударов команды хозяев в створ ворот;

• AST - количество ударов команды гостей в створ ворот;

• HC - количество угловых команды хозяев;

• AC - количество угловых команды гостей;

• HF - количество фолов, совершенных командой хозяев;

• AF - количество фолов, совершенных командой гостей;

• HY - количество желтых карточек, полученных командой хозяев;

• AY - количество желтых карточек, полученных командой гостей;

• HR - количество красных карточек, полученных командой хозяев;

• AR - количество красных карточек, полученных командой гостей. Всего получается 22 признака. Общее количество записей в наборе

данных 8289.

season date time hometeam а^ау1еат fthg ttag ttr hthg htag referee hf at hy ay hr ar

0 2000-01 2000-08-19 Ctiarlton Мап СИу 4 0 H 2.0 0.0 Rob Harris .. 13.0 12.0 1.0 2.0 0.0 0.0

1 2000-01 2000-08-19 Chelsea West Нат 4 2 H 1.0 0.0 Graham Barber .. 19.0 14.0 1.0 2.0 0.0 0.0

2 2000-01 2000-08-19 Coventry М^й1еБЬгоидГ1 1 3 A 1.0 1.0 Barry Knight .. 15.0 21 0 5.0 3.0 1.0 0.0

3 2000-01 2000-08-19 Derby Зои№атр1оп 2 2 D 1.0 2.0 AndyD'Urso 11 0 13.0 1.0 1.0 0.0 0.0

4 2000-01 2000-08-19 LeeOs Еуег1оп 2 0 H 2.0 0.0 Dermot Gallagher .. 21 0 20 0 1.0 3.0 0.0 0.0

3 о

0 3

1 1 3 о

3234 2021 -22 2022-04-09 Watford Leeds 0 3 A 0.0 1.0

3235 2021 -22 2022-04-10 Brentford West Ham 2 0 H 0.0 0.0

3236 2021 -22 2022-04-10 Leicester Crystal Palace 2 1 H 2.0 0.0

3237 2021 -22 2022-04-10 Man City Liverpool 2 2 D 2.0 1.0

3233 2021 -22 2022-04-10 Norwich Burnley 2 0 H 1.0 0.0

АМагПпег ... 8.0 12 0 2.0 0.0 0.0 0.0 0 3 О 3

M Atkinson .. 2 0 6 0 0 0 1 0 0.0 0.0 3 0 1 1

R Jones ... 11 0 12 0 1.0 1.0 0.0 0.0 3 0 3 О

A Taylor ... 9 0 11 0 1.0 4.0 0.0 0.0 1 1 3 0

M Oliver ... 12.0 10 0 1.0 1.0 0.0 0.0 3 0 3 о

Рис. 1. Набор данных АПЛ.

Предварительная обработка данных

Одни признака менее значимы или несущественны для прогнозирования результата. Поэтому очистка данных включает в себя сохранение только тех признаков, которые подходят для прогноза. Были преобразованы категориальные данные в закодированные, в соответствии с требованиями реализованных алгоритмов машинного обучения. Пропуски заполнены средними значениями по каждой команде. Добавлены новые признаки, которые высчитывают скользящее среднее по каждому признаку как команды хозяев, так и команды гостей. Размер окна равен 10.

Исследовательский анализ

В нашем первоначальном исследовательском анализе было обнаружено, что команда хозяев явно имеет преимущество над командой гостей.

J 2000

S

I

1500

о

3500

3000

2500

1000

500

Рис. 2. Распределение целевого признака.

Кроме того, было замечено, что статистика личных встреч сама по себе не является очень надежным фактором для прогнозирования конечного результата футбольного матча. Сочетание других факторов, таких как количество голов в лиге и результат первого тайма, оказывает существенное влияние на конечный результат.

Моделирование

Былии реализованы следующие три алгоритма: ансамблевый метод (XGBoost), логистическая регрессия (LogisticRegressюn), метод опорных векторов ^УМ).

Логистическая регрессия (LogisticRegression) — это метод машинного обучения, который используется для решения проблем классификации. Это прогностический аналитический метод, основанный на идее вероятности. Алгоритм классификации логистическая регрессия используется для прогнозирования вероятности категориальной зависимой переменной. Зависимая переменная в логистической регрессии — это двоичная переменная с данными, закодированными как 1 (да, правда, нормально, успех и т. д.) или 0 (нет, ложь, ненормально, неудача и т. д.). В данном случае используется функция softmax, которая позволяет оценивать вероятности более 2 классов.

Метод опорных векторов (SVM) — это модель машинного обучения, которая полезна для регрессионного анализа и задач классификации. Она подпадает под категорию так называемого контролируемого обучения машинного обучения, т.е. обучения с учителем. Метод опорных векторов основан на идее поиска наилучших гиперплоскостей, которые делит набор данных на столько частей, сколько всего у нас классов.

XGBoost расшифровывается как Extreme Gradient Boosting основанн на алгоритме деревьев решений с градиентным бустингом. XGBoost применяет лучший метод регуляризации для уменьшения переобучения. Также "xgboost" -это библиотека с открытым исходным кодом, которая предоставляет алгоритмы машинного обучения на основе методов градиентного бустинга. XGBClassifier -это класс библиотеки xgboost предназначенный для классификации, совместимый с API sci-kit-learn.

Эксперимент

Исследование проводится для получения наилучшей точности. В этой статье мы оперируем данными последних сезонов АПЛ. Это делается для того, чтобы определить, влияет ли количество обучающих данных на точность прогноза. Ниже приведена точность каждой модели с оптимизированными гиперпараметрами с помощью GridSearchCV.

Логистическая регрессия: оценка F1 и точность для тестового набора: 0,46 и 0,6.

Машина опорных векторов (SVM): оценка F1 и точность для тестового набора: 0,47 и 0,59.

Классификатор XGB: оценка F1 и точность для тестового набора: 0,45 и

0,6.

Рис. 3. Графики гос-кривых трех методов.

В ходе предварительного исследования методов машинного обучения в прогнозировании результатов футбольных матчей были проанализированы и сравнены три модели: логистическая регрессия, машина опорных векторов ^УМ) и классификатор XGB.

Результаты показали, что все три модели достигли сопоставимых результатов в точности прогнозирования, которая составила около 0,6 для всех моделей. Оценка F1 также оказалась на уровне 0,45-0,47, что указывает на достаточно неплохую способность моделей к предсказанию результатов футбольных матчей.

В итоге для данного набора данных можно использовать более простую модель для прогнозирования - логистическую регрессию или метод опорных векторов, которые значительно быстрее обучаются по сравнению с анасамблевой моделью.

Заключение

Спортивная аналитика — это быстро развивающаяся область, и с развитием алгоритмов машинного обучения машинное обучение можно использовать и в этой области. Наша цель состояла в том, чтобы создать модель, которая могла бы эффективно предсказывать результат футбольного матча, которую затем можно было бы использовать в различных областях, таких как анализ производительности, индустрия ставок и фэнтези-лиги. Игра в футбол зависит не только от цифр, но и от игроков и других факторов. Кроме того, футбол — непредсказуемый вид спорта, и в сочетании с тем фактом, что игры обычно мало результативны, ожидать очень высокой точности невозможно. Это исследование можно дополнительно улучшить, приняв во внимание другие факторы, такие как статистика здоровья игроков или анализ настроений из социальных сетей.

СПИСОК ЛИТЕРАТУРЫ:

1. Thamaraimanalan T, Naveena D, Ramya M et al. Prediction and classification of fouls in soccer game using deep learning. Irish interdisciplinary Journal of science & research 2020; 4(3): 66-78. 2.

2. Yang. Predict soccer match outcome based on player performance, Francis Academic Press, UK, 2021; 3(3): 74-78. ISSN 2618-1576.DOI: 10.25236/fsr

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Воронцов, К. В. Лекции по методу опорных векторов/ К. В. Воронцов // http://www.ccas.ru/voron/download/SVM.pdf [Электронный ресурс]. — 2007. — Режим доступа: http://tka4.org/materials/lib/Articles-Books/Speech%20Recognition/from%20Nickolas/SVM.pdf. — Дата доступа: 10.05.2023.

4. Chen T., Guestrin C. XGBoost / T. Chen // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016.

5. Dixon, M. J., & Coles, S. G Modelling Association Football Scores and Inefficiencies in the Football Betting Market / M. J. Dixon // Journal of the Royal Statistical Society: Series C (Applied Statistics). — 1997. — Vol.46 No2. — P. 265280.

Nikitin K.O.

Moscow Aviation Institute (Moscow, Russia)

Scientific advisor: Sologub G.B.

Associate Professor of Department of Mathematical Cybernetics Moscow Aviation Institute (Moscow, Russia)

PRELIMINARY STUDY OF MACHINE LEARNING METHODS IN PREDICTING THE RESULTS OF THE ENGLISH PREMIER LEAGUE

Abstract: Machine learning is a kind of artificial intelligence (AI) that allows computers to learn and improvise independently, without explicit programming. Machine learning involves the creation of computer programs that can access data and learn on their own. Sports forecasting is one of the fastest growing areas, as the volume of bets reaches billions of dollars. The ability to apply algorithms and use football match data to try to predict the outcome offuture games is a particularly important aspect of machine learning in football. The results of sports matches can be difficult to predict, unexpected outcomes often happen. Football is a good example, as matches have a set duration (unlike racquet sports such as tennis, where the game is played until one player wins). In this study, machine learning methods are used to predict the winning team in the English Premier League (Premier League). The goal is to accurately predict the final result of a football match that determines the winning team. To train the data in this article, algorithms such as the support vector machine (SVM), ensemble algorithm (XGBoost), logistic regression (Logistic Regression) are used, from them we will choose the one that will show the highest and best prediction accuracy. Data for previous seasons are taken from an open source kaggle.com .

Keywords: football match prediction, machine learning, classification, SVM, XGBoost, Logistic Regression.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никитин К.О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никитин К.О.

PRELIMINARY STUDY OF MACHINE LEARNING METHODS IN PREDICTING THE RESULTS OF THE ENGLISH PREMIER LEAGUE

Текст научной работы на тему «ПРЕДВАРИТЕЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ПРОГНОЗИРОВАНИИ РЕЗУЛЬТАТОВ АНГЛИЙСКОЙ ПРЕМЬЕР-ЛИГИ»