Научная статья на тему 'СОЗДАНИЕ АВТОРСКОЙ МОДЕЛИ ОЖИДАЕМЫХ ГОЛОВ В ФУТБОЛЕ'

СОЗДАНИЕ АВТОРСКОЙ МОДЕЛИ ОЖИДАЕМЫХ ГОЛОВ В ФУТБОЛЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФУТБОЛ / XG / EXPECTED GOALS / МАШИННОЕ ОБУЧЕНИЕ / ГРАДИЕНТНЫЙ БУСТИНГ / FOOTBALL / MACHINE LEARNING / GRADIENT BOOSTING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куклев Сергей Антонович

В статье приведен пример построения модели для расчета ожидаемых голов в футболе. Модель создается на основании открытых данных с помощью открытой библиотеки машинного обучения. Решается задача бинарной классификации результата удара по воротам на основании большого количества исторических данных об ударах по воротам, включающих пространственное положение, временные характеристики и другую контекстную информацию. Используются данные пяти крупнейших европейских футбольных лиг за сезон 2017-2018 года. Для обучения моделей использовался основанный на градиентном бустинге решающих деревьев алгоритм Gradient Boosting Machine, входящий в состав библиотеки H2O. Полученный результат может быть интересен как любителям футбола, так и исследователям, сферой интересов которых является футбольная статистика.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CREATING AN AUTHOR'S MODEL OF EXPECTED GOALS IN FOOTBALL

The article provides an example of fitting a model for calculating expected goals in football. The model created from open data using a machine learning open source library. The problem of the binary classification of the result of a shot on goal is solved, based on a large amount of historical data on shots on goal, including spatial position, time characteristics and other contextual information. Employs data from European football leagues for 2017/2018. To train the models, we used the Gradient Boosting Machine algorithm based on the gradient boosting of decision trees, which is part of the H2O framework. The obtained result may be of interest to both football fans and researchers who are interested in football statistics.

Текст научной работы на тему «СОЗДАНИЕ АВТОРСКОЙ МОДЕЛИ ОЖИДАЕМЫХ ГОЛОВ В ФУТБОЛЕ»

УДК 004.852

СОЗДАНИЕ АВТОРСКОЙ МОДЕЛИ ОЖИДАЕМЫХ ГОЛОВ В ФУТБОЛЕ

Куклев Сергей Антонович, ученик; ГБОУ СО «ЛАП № 135 (Базовая школа РАН)», Самара, Российская Федерация

Аннотация: В статье приведен пример построения модели для расчета ожидаемых голов в футболе. Модель создается на основании открытых данных с помощью открытой библиотеки машинного обучения. Решается задача бинарной классификации результата удара по воротам на основании большого количества исторических данных об ударах по воротам, включающих пространственное положение, временные характеристики и другую контекстную информацию. Используются данные пяти крупнейших европейских футбольных лиг за сезон 2017-2018 года. Для обучения моделей использовался основанный на градиентном бустинге решающих деревьев алгоритм Gradient Boosting Machine, входящий в состав библиотеки H2O. Полученный результат может быть интересен как любителям футбола, так и исследователям, сферой интересов которых является футбольная статистика.

Ключевые слова: футбол; xG; eXpected Goals; машинное обучение; градиентный бу-стинг.

CREATING AN AUTHOR'S MODEL OF EXPECTED GOALS IN FOOTBALL

Kuklev Sergei Antonovich, student; SR SBEI LAT 135 RAS, Samara, Russia

Abstract: The article provides an example of fitting a model for calculating expected goals in football. The model created from open data using a machine learning open source library. The problem of the binary classification of the result of a shot on goal is solved, based on a large amount of historical data on shots on goal, including spatial position, time characteristics and other contextual information. Employs data from European football leagues for 2017/2018. To train the models, we used the Gradient Boosting Machine algorithm based on the gradient boosting of decision trees, which is part of the H2O framework. The obtained result may be of interest to both football fans and researchers who are interested in football statistics.

Keywords: football; xG; eXpected Goals; machine learning; gradient boosting.

Для цитирования: Куклев, С. А. Создание авторской модели ожидаемых голов в футболе / С. А. Куклев. - Текст : электронный // Наука без границ. - 2020. - № 12 (52). - С. 16-21. - URL: https://nauka-bez-granic. ru/№-12-52-2020/12-52-2020/

For citation: Kuklev S.A. Creating an author's model of expected goals in football // Scince without borders, 2020, no. 12 (52), pp. 16-21.

Футбол - самая популярная игра во всем мире, у нее миллионы болельщиков во всех странах. И, как и в любой игре, на исход футбольного матча влияет не только мастерство команд, но и элемент случайности. Бывает, что сла-

бая команда выигрывает более сильную благодаря случаю. Как же тогда оценивать силу команды, когда счет матча зависит не только от нее?

Этот вопрос интересует множество любителей футбола, и для ответа на

него футбольные аналитики придумали такой показатель, как xG (eXpected Goals - ожидаемые голы, англ.). В основе xG лежит оценка ударов по воротам, на основе которой можно определить, сколько голов должна была забить команда, учитывая все удары по воротам. Этим показателем пользуются скауты, тренеры, аналитики и, наконец, болельщики. Расчетом показателя xG занимаются аналитические агентства, они публикуют его на своих сайтах. Но методику его расчета они не публикуют, т.к. агентства зарабатывают с ее помощью.

Что представляет из себя xG? Говоря простыми словами - это вероятность от 0 до 1, что за ударом последует гол. 1 означает, что точно будет гол. Эта вероятность считается для каждого удара по направлению ворот противника, а потом суммируется по всем ударам за игру. Таким образом получается ожидаемое количество голов, забитых командой за игру. Упомянутые вероятности считаются с помощью статистической модели, которая получена на основании большого количества исторических данных об ударах по воротам, включающих пространственное положение, временные характеристики и другую контекстную информацию.

Цель работы - создание модели для расчета xG, качество которой будет сопоставимо с моделью, используемой компаниями Opta и Understat. Для ее достижения нужно решить следующие задачи:

• поиск открытых данных о футбольных матчах,

• выбор метода машинного обучения для создания модели,

• выбор программного обеспечения для обучения модели,

• выбор критерия оценки качества полученной модели,

• обучение модели и оценка ее качества,

• сравнение оценки авторской модели с оценками моделей компаний Opta и Understat.

Перед началом исследования было предложено несколько гипотез:

1) Для создания надежной модели достаточно информации о местоположении ударов - т.е. координаты места, с которого наносился удар;

2) Для улучшения модели нужно преобразовать координаты места в дистанцию до центра ворот и угол видимости линии ворот;

3) Для создания хорошей модели достаточно добавить информацию о части тела, которой нанесен удар, о времени с начала игры и о времени, прошедшем с предыдущей атаки.

Компания Wyscout, занимающаяся футбольной аналитикой, выложила в открытый доступ данные обо всех матчах сезона 2017/2018 года пяти ведущих европейских лиг: испанская Ла Лига, итальянская Серия А, немецкая Бундеслига, английская Премьер лига и французская Лига 1 [1]. Этот набор данных содержит все пространственно-временные события (передачи, броски, фолы и т. д.), произошедшие в этих матчах.

Была выбрана информация только об ударах с игры, исключив пенальти, штрафные и угловые удары. После обработки получился набор данных о 40460 ударов, из которых голом завершились 4271 или 10,6 %. На рис. 1 показана пространственная визуализация ударов. Можно заметить, что большинство голов были забиты из штрафной площади.

Удары с игры

Тор 5 Европейских лиг 2017/2018 • гол • промах

Рисунок 1 - Пространственная визуализация ударов

Нужно создать модель, которая будет решать задачу бинарной классификации, т.к. у нас всего два варианта исхода для каждого удара: забит гол или не забит. Для решения такой задачи подходит множество методов машинного обучения, например, случайный лес, метод опорных векторов и т.п. Автором был выбран алгоритм GBM (gradient boosting machine) - метод, основанный на градиентном бустинге решающих деревьев. Этот алгоритм хорошо подходит для задач классификации, когда классы не сбалансированы. В подобранном автором наборе ударов, завершившихся голом всего 10,6 %, а не завершившихся голом 89,4 %, почти в 9 раз больше. Из минусов алгоритма GBM можно выделить низкую интерпретируемость полученной модели. Объяснения, как модель принимает решение, нет, но можно узнать значимость используемых в ней параметров.

Для обучения моделей была выбрана открытая библиотека машинного обучения H2O от компании H2O. ai. Эта библиотека включает в себя реализацию самых популярных алгоритмов машинного обучения. Она

распространяется бесплатно. По этой библиотеке имеется множество обучающих материалов. А самое главное, она имеет собственный веб-интерфейс Flow, следовательно, ей можно пользоваться даже без знания языков программирования.

В качестве критерия оценки качества моделей был выбран показатель AUC. Этот показатель часто используется для оценки моделей бинарной классификации. Он вычисляется как площадь под кривой графика соотношения доли истинно положительных ответов и доли ошибочно положительных ответов. Чем ближе значение показателя AUC к единице, тем качество модели лучше. Значение 0,5 говорит о непригодности модели, т.е. она работает не лучше, чем случайное угадывание. Кроме того, значение показателя AUC для моделей компании Opta можно найти в открытом доступе. Таким образом, можно сравнить авторскую модель с моделью Opta по одному и тому же критерию.

В результате предварительной обработки получился такой набор данных:

1) Результат удара (is_goal). Равен 1, если удар завершился голом, или 0,

если нет.

2) Координаты удара (х1 и у1). Значения местоположения удара в процентах (от 0 % до 100 %) от длины и ширины поля соответственно.

3) Дистанция до центра ворот (distance_to_goal_line). Расстояние в метрах от места удара до центра ворот.

4) Угол видимости линии ворот (angle_to_goal). Это угол для попадания в ворота с места нахождения игрока.

5) Часть тела (skilled_foot). Часть тела, которой игрок совершил удар. Может иметь три значения: а) ведущая нога, б) не ведущая нога, в) голова или другая часть тела.

6) Время удара (еуеПЗес). Количество секунд с начала первого или второго тайма.

7) Номер тайма (matchPeriod). Номер тайма. Может иметь значения 1 или 2.

8) Время с предыдущей атаки (йте_ ргеу). Время в секундах, прошедшее с предыдущего удара этой же команды.

Для обучения и проверки качества моделей полученный набор данных был разделен на 2 части случайным

Для первой модели АиС равен 0,76182, что значительно больше 0,5. Это означает, что полученная модель имеет значимую предсказательную силу. Таким образом, первая гипотеза - для создания надежной модели достаточно информации о местополо-

образом. В первую часть вошло 80 % ударов, на ней будут обучаться модели. По второй части, содержащей 20 % ударов, будет проверяться качество моделей.

Для обучения моделей использовался алгоритм Gradient Boosting Machine, входящий в состав библиотеки H2O. Все гиперпараметры алгоритма оставлены заданными по умолчанию. В дальнейшем возможно улучшение модели с помощью подбора подходящих гиперпараметров.

Всего было обучено 3 модели, использующие разный набор параметров:

1 модель. В качестве параметров используются только координаты места удара (x1 и x2);

2 модель. В качестве параметров используются дистанция до центра ворот (distance_to_goal_line) и угол видимости линии ворот (angle_to_goal);

3 модель. Используются все параметры кроме координат места удара.

Качество получившихся моделей было проверено на тестовой выборке. Результаты показаны в табл. 1 и на рис. 2.

Таблица

жении ударов - подтвердилась.

Значение АиС второй модели больше, чем значение АиС первой модели, а значит вторая модель лучше. Таким образом, простым преобразованием координат места удара в дистанцию до центра ворот и угол видимости во-

Значения AUC моделей на тестовой выборке

Модель AUC

1 модель 0,761820

2 модель 0,764337

3 модель 0,783413

Рисунок 2 - Качество моделей - ROC-кривые

Рисунок 3 - Важность переменных

рот было повышено качество модели. Вторая гипотеза тоже подтвердилась.

И, наконец, третья модель значительно лучше первых двух. Ее AUC равен 0,783413. Именно ее сравним с коммерческими моделями. Из открытых источников известно, что AUC стандартной модели компании Opta равен 0,787. Это больше, чем у полученной мной модели, но разница не очень большая. Можно сказать, что полученный автором результат сопоставим с коммерческими моделями, а значит, третья гипотеза тоже подтвердилась.

Посмотрим на важность переменных в полученной модели. Она показана на рис. 3. На первом месте по важности идет дистанция до ворот, она самая важная. Затем идут угол видимости линии ворот и часть тела, их важность практически одинаковая.

Самой не значимой переменной оказался номер тайма.

Полученная модель может стать отправной точкой для дальнейших исследований и экспериментов по улучшению качества модели. Потенциально модель может улучшить добавление следующих данных:

• Тип паса, после которого совершен удар (длинный пас, проходной мяч, пас назад и т.п.);

• Дистанция, которую пробежал игрок перед ударом;

• Домашний матч или выездной;

• Расположение вратаря.

Полученный результат может быть

интересен как любителям футбола, так и исследователям, сферой интересов которых является футбольная статистика.

REFERENCES

1. Pappalardo, Luca; Massucco, Emanuele (2019): Soccer match event dataset. figshare. Collection. https://doi.org/10.6084/m9.figshare.c.4415000

Материал поступил в редакцию 16.12.2020

© Куклев С.А., 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.