У
правление в социально-экономических системах
УДК 519.2:332.1
ПРИМЕНЕНИЕ МЕТОДОВ АНАЛИЗА ПАТТЕРНОВ И ИНЖЕНЕРИИ ЗНАНИЙ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОГО ОБЕСПЕЧЕНИЯ ПРОЦЕССОВ УПРАВЛЕНИЯ СПОРТИВНЫМИ КЛУБАМИ1
О.В. Ена, И.В. Ефименко, Р.Б. Колесов
Представлен подход к обеспечению информационно-аналитической поддержки процессов управления спортивными командами и траекториями профессионального развития отдельных игроков на основе методов анализа паттернов данных и структурного распознавания образов. Предложенный подход апробирован в рамках предметной области американского футбола.
Ключевые слова: паттерны данных, метод анализа паттернов данных, информационно-аналитическая система, поддержка принятия решений, лучшие практики, РБЬ, формальные грамматики, структурное распознавание образов.
ВВЕДЕНИЕ
Исследования, связанные с задачами квалификационного отбора, формирования индивидуальных тренировочных программ и информационно-аналитического обеспечения деятельности спортивных клубов, имеют важное значение для развития целого семейства информационно-аналитических систем в области стратегического управления, поддержки принятия решений и формализации знаний.
Комплексная природа командных взаимодействий, зависимость управления от тактических схем и широкий набор персональных характеристик спортсменов определяют высокий уровень сложности задачи информационно-аналитического обеспечения процессов управления спортивными клубами. Ее решение предполагает применение новых методов анализа динамических показате-
1 Работа выполнена при финансовой поддержке Министерства образования и науки РФ по государственному контракту от 14.06.2012 г., № 07.514.11.4144, в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 гг.».
лей развития спортсменов и новых подходов к построению многокритериальных моделей управления спортивными клубами как сложными организациями.
Анализ литературы по моделированию спорта показывает, что исследования и разработки в данной предметной области ведутся с середины прошлого века по нескольким направлениям. В конце 1990-х гг. исследования были преимущественно связаны с моделированием коллективной работы спортсменов
Вместе с тем, как показывает проведенное авторами исследование, в данной области мало применяются методы и средства анализа сложных динамических зависимостей, связанных с разными типами характеристик игроков (персональные физические характеристики, индивидуальные игровые показатели, показатели тактического и командного взаимодействия) и вариантами наилучшего применения игроков в команде. Поэтому системное применение современных математических методов для информационно-аналитической поддержки спортивных команд представляется актуальной задачей.
Актуальность указанной задачи определяется также целесообразностью создания научно-техни-
32
СОЫТВОЬ БС!ЕМСЕ8 № 2 • 2014
ческого задела в сегменте информационно-аналитических систем нового поколения, обладающих большим потенциалом коммерциализации инновационных решений в силу многообразия форм применения и широты целевой аудитории для продуктов и услуг, базирующихся на полученных результатах.
1. ПОСТАНОВКА ЗАДАЧИ
Цель настоящей работы состоит в решении задачи информационно-аналитической поддержки управления командами в игровых видах спорта на базе новых методов анализа паттернов данных [4, 5] и инженерии знаний [6]. Это позволит выполнить комплексный анализ игровых и персональных характеристик спортсменов, выявить скрытые зависимости между группами параметров в целях системного аналитического обеспечения деятельности спортивной команды.
В качестве модельной предметной области в настоящей работе выбран американский футбол. Такой выбор позволяет задействовать для анализа максимально полные информационные базы, отражающие деятельность спортивного клуба, включая сведения о различных стадиях развития футболиста (университет, профессиональная команда), широкий набор показателей деятельности футболистов (игровых, тренировочных и антропометрических). Ярко выраженная дифференциация игровых ролей футболистов, наличие для каждой роли (позиции) базовых и вспомогательных навыков обеспечивают многообразие потенциально применимых аналитических методов для формирования формализованных портретов игроков, сравнения игроков на одной и той же или разных игровых позициях, а также широкий спектр аналитических функций, связанных с динамикой развития футболиста, соответствия игрока позиции и др.
С учетом изложенного сформулируем постановку задачи. Необходимо:
— выбрать наиболее характерные показатели, описывающие развитие профессионального спортсмена в игровых видах спорта; показатели должны отражать как персональные (рост, вес и др.), так и игровые (количество тактико-технических действий и др.) характеристики игрока и агрегированы в комплексные показатели в соответствии с различными аспектами развития игрока;
— выполнить анализ полученных данных методом анализа паттернов для разных игровых позиций и дать их семантически значимую интерпретацию;
— предложить методику структурного описания паттернов данных и эффективные алгоритмы их автоматического распознавания.
Представляется, что применение методов анализа паттернов обеспечит возможность выполнения качественно новых видов анализа для наборов статистических показателей игроков и спортивной команды, недостижимых с помощью классических способов кластеризации данных, путем вовлечения в процессы анализа динамики изменения ситуации в контексте набора взаимосвязанных агрегированных показателей, а методы распознавания структурных представлений паттернов снизят вычислительную сложность обработки больших и сверхбольших объемов статистических данных.
2. РЕШЕНИЯ ДЛЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ ПОДДЕРЖКИ В ИГРОВЫХ ВИДАХ СПОРТА
2.1. Сбор и первичная обработка данных
В качестве исходных данных были использованы значения показателей, характеризующих параметры игроков, с сайта collegefootballdata.org за период с 2009 по 2012 г. (около 70 тыс. наблюдений в год). В исходных данных каждый показатель соответствовал паре «игрок — игра». В процессе анализа из имеющихся данных были исключены игроки, выступившие в малом количестве игр (в результате выборка сократилась в среднем до 4 тыс. наблюдений в год), исходные данные были отображены в пространстве игроков (каждому игроку был присвоен идентификационный номер). Вычисления проводились в среде «Microsoft SQL Studio» и «Microsoft Excel».
Изначально игроки были охарактеризованы 20-ю количественными показателями. В целях сокращения их количества для последующей обработки методом анализа паттернов данных и исключения сильно коррелирующих показателей было принято решение о формировании агрегатных показателей (с учетом семантики исходных). Совместно с экспертом в предметной области была разработана система из семи основных показателей, характеризующих поведение игроков на поле (табл. 1).
Каждый показатель агрегирует входящие в него параметры и определяет зависимость между ними. В качестве примера приведем формулу расчета для одного из агрегатных показателей:
Tackle =
Tackle Solo + Tackle Assist
1+
Games Qty
Tackle For Loss Yard \ 1 0 0 • Tackle For Loss ;
где дробь перед скобками — среднее число блокировок пробежек соперника за игру (сумма числа блокировок пробежек противника, выполненных одним игроком, и блокировок, выполненных группой игроков, за сезон, деленная на число игр за се-
X
X
Ruch Pass Rec Field Goal Punt Tackle Sack
Ruch 1,00
Pass 0,26 1,00
Rec 0,22 -0,06 1,00
Field Goal -0,05 -0,02 -0,05 1,00
Punt 0,03 0,04 -0,06 0,10 1,00
Tacklee -0,22 -0,08 -0,20 -0,07 -0,08 1,00
Sack -0,12 -0,04 -0,11 -0,04 -0,05 0,44 1,00
Рис. 1. Корреляционная матрица показателей
зон), а выражение в скобках — коэффициент эффективности блокирования передач, сделанных за линией розыгрыша с потерей ярдов команды соперника (Tackle For Loss — число блокировок пробежек противника, сделанных с потерей пройденных ярдов, Tackle For Loss Yard — суммарное расстояние потерянных ярдов противника, полученных при блокировке пробежек, 100 ярдов — длина поля за исключением очковых зон).
С учетом значимости частных показателей Tackle Solo и Tackle Assist для оценки эффективности игрока показателю Tackle Assist может быть присвоен коэффициент 0,5, тогда формула приобретет вид
Tackle =
Tackle Solo + 0,5 Tackle Assist
1 +
Games Qty Tackle For Loss Yard Л
100 • Tackle For Loss J
Далее для всех показателей была проведена нормализация и затем — анализ корреляционных связей между показателями. Полученная корреля-
Таблица 1
Агрегаты показателей игроков
Идентификатор агрегата
Rush Pass
Rec
Field Goal Punt
Tackle Sack
Семантика агрегата
Эффективность игрока при пробежках Эффективность выполненных игроком передач
Эффективность игрока при получении передач
Эффективность реализации филд-гола (разновидности гола в ворота противника) Эффективность пантов игрока (разновидности удара по мячу в сторону соперника с целью заставить его начать атаку как можно дальше от очковой зоны) Эффективность блокировок атак соперника Характеристика действий при потере мяча за линией розыгрыша с потерей ярдов своей команды
ционная матрица представлена на рис. 1 и свидетельствует о возможности включения в дальнейшее рассмотрение всех сформированных показателей.
2.2. Исследование значений агрегатных показателей с помощью метода анализа паттернов данных
В результате преобразований, описанных в п. 2.1, в дальнейшем анализе было использовано
16 095 наблюдений за период с 2009 по 2012 г. Из рассмотрения были исключены все наблюдения с нулевыми показателями. Для каждого наблюдения была сформирована кусочно-линейная функция, и к полученному множеству функций был применен метод анализа паттернов данных [4]. В качестве вспомогательного шага была выполнена кластеризация модифицированным методом k-сред-них [7] с использованием евклидовой метрики. Результаты анализировались путем пошагового варьирования числа кластеров и оценки полученных результатов с участием экспертов в предметной области в смысле возможности их семантической интерпретации.
В результате анализа было сформировано
17 кластеров и выявлено 8 уникальных паттернов данных, семантика которых, как показывает интерпретация результатов, соответствует одному из типов, а именно, паттерн, характеризующий:
— отдельную позицию игрока на поле (игроков одной позиции);
— несколько игровых амплуа по общим особенностям поведения;
— игроков с определенной результативностью (низкой или высокой, для одного или нескольких амплуа);
— определенный стиль (предпочитаемый тип поведения на поле) игрока в рамках конкретного амплуа — наиболее интересный случай, рассматриваемый далее детально.
В качестве примера на рис. 2 приведен паттерн, для которого характерно наличие высокого значения показателя Rush и низкого значения Rec (каждая кривая соответствует отдельному игроку). Этот
х
X
Рис. 2. Множество кривых для высокорезультативных игроков позиций RB
паттерн описывает поведение 430 игроков позиции RB (Runningback), которые показывают отличные результаты в нападении. Другой пример (рис. 3) описывает 2417 игроков с очень низкими показателями Tackle и Rec (не превышают 0,1), т. е. игроков с низкой результативностью. Интересно, что в множество, характеризуемое паттерном, входят кривые, соответствующие показателям игроков всех возможных позиций.
2.3. Анализ интересных случаев
На следующем этапе был выполнен детальный анализ данных с учетом динамики изменения показателей для отдельного игрока с помощью метода, предложенного в работе [8], а также исследованы возможности выявления паттернов, характеризующих определенный тип поведения на поле в рамках одного игрового амплуа.
Для выполнения динамического анализа из исходных данных за 2009—2012 гг. (в играх приняло участие 11 739 чел.), были выделены те игроки, которые участвовали во всех чемпионатах (674 чел.). Для этой выборки была проведена кластеризация паттернов данных игроков по отдельным годам, а результаты были представлены в виде временных рядов в координатах «годы — номера паттернов». Оказалось, что поведение лишь 91 игрока (без учета игровой позиции) из указанного множества абсолютно стабильное, т. е. характеризуется одним и тем же паттерном на протяжении всех четырех лет. Остальные категории распределились следующим образом: абсолютно нестабильных игроков — 38; почти стабильных (меняли паттерн 2 раза) — 313; нестабильных (меняли паттерн 3 раза) — 232. Предполагается дальнейшее исследование динамических рядов в рамках анализа смены позиций
Рис. 3. Множество кривых для низкорезультативных игроков различных позиции
игроков в контексте перехода в более «результативные» кластеры. Результаты могут быть использованы для построения систем управления командами.
С точки зрения выявления определенных стилей игроков наибольший интерес представляют паттерны данных, характеризующие поведение игроков позиции QB (Quarterback, ключевой игрок команды нападения), поскольку данная позиция предполагает наибольшее число возможных действий на поле.
Число наблюдений по игрокам с позицией QB за период с 2009 по 2012 г. составляет 979. Для соответствующей выборки была проведена кластеризация и выполнен детальный анализ ее результатов, представленных в 18 кластерах, который позволил сформировать 6 уникальных паттернов данных, характеризующих, с точки зрения эксперта, определенный тип поведения и/или результативность игрока.
Интерпретация полученных паттернов данных с привлечением экспертов в предметной области позволяет выявить стили поведения игроков в рамках амплуа QB:
— игроки, предпочитающие отдавать передачи вместо проведения самостоятельных пробежек, с низкими значениями показателей приема передач;
— игроки, комбинирующие пробежки и передачи мяча (примерно в равной мере), с низкими значениями показателей приема передач;
— игроки, предпочитающие при получении мяча самостоятельно совершать пробежки вместо передачи мяча;
— игроки, предпочитающие при получении мяча самостоятельно совершать пробежки вместо передачи мяча, с низкой результативностью;
Rush Pass Rec
Рис. 4. Пример паттерна данных для позиции QB
Rush Pass Rec
Рис. 5. Паттерн наилучших игроков позиции QB
— игроки, в подавляющем большинстве случаев предпочитающие самостоятельные пробежки, характеризуемые низкими значениями показателей приема передач и высокой результативностью;
— игроки, стиль поведения которых в целом аналогичен предыдущему случаю, но в большей степени использующие передачи своей команде.
На рис. 4. представлен пример паттерна, характеризующего первый из перечисленных стилей поведения игроков. Кластеры игроков, описываемых представленным паттерном данных, приведены в табл. 2.
3. РЕШЕНИЯ ДЛЯ ПОИСКА ЛУЧШИХ ПРАКТИК
3.1. Применение метода анализа паттернов
Одна из целей настоящего исследования заключается в разработке методов, позволяющих определять степень результативности игрока и находить оптимальную для него позицию с учетом «лучших практик» для схожего соотношения показателей. Для ее достижения был проведен анализ рейтингов ста лучших игроков за последние несколько лет. Такие рейтинги ежегодно составляются экспертами национальной футбольной лиги и публикуются на официальном сайте nfl.com.
Наибольшей интерес представляют случаи появления в рейтинге новичков, недавно перешедших в профессиональную лигу. Очевидно, что паттерны, характеризующие таких игроков на момент перехода, можно считать эталонными для определенной позиции.
В процессе анализа рейтингов рассматривались игроки позиции QB. В результате был выбран игрок (Josh Freeman), который после окончания колледжа перешел в профессиональную лигу и, отыграв там три года, в 2011 г. попал в список ста лучших игроков и список десяти лучших игроков позиции QB. Паттерн, характеризующий соотношение параметров для данного игрока, будем считать фиксирующим «лучшие практики» (один из возможных типов) для позиции QB.
Паттерн, характеризующий игроков с аналогичным набором показателей, представлен на рис. 5. Его отличительные черты — высокие значения показателя Pass и умеренные значения показателя Rush.
3.2. Анализ паттернов данных с помощью методов структурного распознавания образов
В рамках настоящего исследования для поиска «лучших практик» в дополнение к рассмотренному подходу применялся метод структурного распознавания образов, предложенный в работе [9] и модифицированный для случая анализа паттернов данных в работе [10].
В соответствии с методом [10], для описания паттернов данных, представленных отрезками кусочно-линейных функций, введем в рассмотрение несколько видов базовых элементов, которые используются в анализе временных рядов при торгах на биржах. Каждый отрезок кусочно-линейной функции будем характеризовать, в зависимости от его тренда, как «медвежий» (Bear) — в случае нисходящей траектории, «бычий» (Ox) — в случае восходящей траектории — и «побочный» (Flat) — при «ровном» боковом движении тренда. Далее, используя язык описания изображений PDL [11], можно сформировать структурное описание всего паттерна данных.
Понятно, что использование базисной триады терминалов «Bear — Ox — Flat» служит лишь на-
Таблица 2
Кластеры игроков, описываемых паттерном (см. рис. 4)
Кластер Число игроков Диапазон значений показателей
Rush Pass Rec
1 38 0,05-0,30 0,75-1,00 0-0,05
2 63 0,05-0,25 0,55-0,70 0-0,05
3 95 0,05-0,20 0,40-0,55 0-0,05
4 55 0-0,20 0,30-0,45 0-0,05
Таблица 3
Диапазоны значений и соответствующие им индексы базовых элементов
чальным приближением. Анализ паттернов данных для «лучших практик» игроков, представленный в п. 3.1, показал, что в данном случае требуется более «тонкое» разграничение базовых элементов, опирающееся на различия в характеристиках, на значениях которых формируются соответствующие кусочно-линейные функции. С учетом изложенного для каждого типа базового элемента был введен в рассмотрение индекс, характеризующий принадлежность значения параметра к заданному диапазону, что, по существу, определяет углы наклона отрезков кусочно-линейной функции. Эмпирически выбранные с помощью эксперта диапазоны значений и соответствующие им индексы представлены в табл. 3.
Таким образом, каждый из базовых элементов представлен не только типом, но и его характеристическим индексом. Так, например, элемент 0, специфицирует отрезок с восходящим трендом, правая точка которого принадлежит диапазону /.
Аналогично, начальное положение цепочки всего паттерна будем задавать точкой которая фиксирует принадлежность значения начала первого отрезка кусочно-линейной функции к /-му диапазону.
В результате рассмотренной операции кодирования кусочно-линейных функций формируются цепочки символов, характеризующие паттерны игроков. При таком кодировании, по мнению эксперта, каждой цепочке соответствует определение квалификации игрока.
На основе полученной системы базовых элементов, фиксирующих направления трендов с учетом нормированных значений характеристик в узлах кусочно-линейных функций построим распознающую грамматику, которая будет определять результативность игрока в зависимости от набора его показателей.
Для построения такой грамматики О = <И, Т, Р, О>, где N — множество нетерминальных символов, Т — множество терминальных символов, Р — множество правил вывода, а Q — начальный символ грамматики (О е N), поступим таким образом:
— множество Т сформируем из объектов, характеризующих тип отрезков паттерна с учетом его
характеристического индекса; тогда Т = {В, О., Р}, где В{ — элемент множества «медвежьего» тренда, 0, — элемент множества «бычьего» тренда, — элемент множества «побочного» тренда, / е [1, 4];
— во множество N введем символы, соответствующие фрагментам паттернов данных;
— в качестве начального символа грамматики выберем нетерминальный символ О, соответствующий понятию паттерна, и перейдем к построению правил вывода Р в грамматике О.
Примеры PDL-цепочек для групп паттернов для позиции РВ представлены в табл. 4.
На основании множества PDL-цепочек можно сформировать множество Р правил порождающей грамматики О:
О ^ я1х\я2у\я31\я4м,
X^ Р1Р1\02Х'\03Х'\04Х, X' ^ Вх,
у ^ ву \Р2Х'\03Х\04Х, у ^ ад 04,
М ^ В2Х'\Z, Z ^ в^.
Таблица 4
РОЬцепочки для паттернов игроков на позиции ЦВ
Паттерн
№
Группа
Вид паттерна
PDL-
пред-ставле-ние
Sj + O4 +
+ B,
0,6
0,4
0,2
Rush Pass Rec
Sj + o2 + + B,
Rush Pass Rec
S2 + F2 + +B
Rush Pass Rec
S3 + Bj + + F
Диапазон Индекс
[0-0,25) 1
[0,25-0,5) 2
[0,5-0,75) 3
[0,75-1] 4
Рис. 6. Конечный автомат по распознаванию паттернов данных игроков позиции ОБ
Обсуждение результатов применения данной грамматики для распознавания паттернов «лучших практик» для позиции ОБ с экспертом в предметной области показало, что она дает достаточно хорошо интерпретируемые результаты.
Построенная грамматика является автоматной [11], поэтому распознаватель цепочек языка, ею порождаемых, может быть реализован в виде конечного автомата (рис. 6).
Нетрудно показать, что данный конечный автомат распознает все паттерны данных игроков позиции ОБ и только их, временная сложность распознавания равна длине цепочки, а емкостная сложность равна 1.
ЗАКЛЮЧЕНИЕ
В работе рассмотрены вопросы применения методов анализа паттернов данных для поддержки процессов информационно-аналитического обеспечения деятельности спортивных команд. Предложен метод структурного описания паттернов данных и алгоритмы их распознавания с помощью порождающих грамматик. Помимо специализации, ориентированной на информационно-аналитическое обеспечение деятельности спортивных команд, представленные научно-методологические и технологические решения могут быть применены в таких предметных областях, как стратегическая деятельность предприятий, механизмы государственного регулирования секторов экономики и в других областях, связанных с формализацией комплексных сложно структурируемых процессов.
В качестве направлений дальнейших исследований предполагается более детальный анализ вспомогательных показателей деятельности игро-
ков, глубокая проработка математического аппарата ранжирования (взвешивания) показателей, а также создание моделей управления игроками на уровне всей команды с помощью методов многокритериальной поддержки принятия решений.
Авторы считают своим долгом поблагодарить д-ра техн. наук, профессора В.Ф. Хорошевского за полезные обсуждения в процессе подготовки настоящей работы.
ЛИТЕРАТУРА
1. Carron A.V., Widmeyer W.N., Brawley L.R. The development of an instrument to assess cohesion in sport teams: The Group Environment Questionnaire // J. Sport Psy. — 1985. — Vol. 7. — P. 244—266.
2. Garganta J. Trends of tactical performance analysis in team sports: bridging the gap between research, training and competition // Revista Portuguesa de Ciencias do Desporto, Porto. — 2009. — Vol. 9, N 1. — P. 81—89.
3. Lebed F. System approach to games and competitive playing // European Journal of Sport Science. — 2006. — Vol. 6 (1). — P. 33—42.
4. Анализ данных науки, образования и инновационной деятельности с использованием методов анализа паттернов. Препринт WP7/2012/07 / Ф.Т. Алескеров и др. — М.: Изд. дом НИУ—ВШЭ, 2012. — 72 с.
5. Few S. Multivariate Analysis Using Parallel Coordinates. — URL: http://www.perceptualedge.com/articles/b-eye/parallel_ coordinates.pdf (дата обращения 15.05.2013).
6. Gavrilova T.A. Ontological Engineering for Practical Knowledge Work // Lecture Notes in Artificial Intelligence 4693. — Springer, 2007. — P. 1154—1162.
7. Миркин Б.Г. Методы кластер-анализа для поддержки принятия решений: обзор: Препринт WP7/2011/03. — М.: Изд. дом НИУ—ВШЭ, 2011. — 88 c.
8. Aleskerov F., Nurmi H. A Method for Finding Patterns of Party Support and Electoral Change: An Analysis of British General and Finnish Municipal Elections // Mathematical and Computer Modelling. — 2008. — P. 1225—1253.
9. Narasimhan R.N. Syntax-directed interpretation of classes of pictures // Comm. ACM. — 1966. — Vol. 9. — P. 166—173.
10. Хорошевский В.Ф. Новые технологические тренды: выявление в текстах на базе использования гибридных моделей и анализа временных рядов паттернов данных // Информационно-измерительные и управляющие системы. — 2013. — № 5 (11). — С. 25—34.
11. Shaw A.C. A formal picture description scheme as a basis for picture processing system // Information and Control. — 1969. — N 14. — P. 9—52.
Статья представлена к публикации членом редколлегии Ф.Т. Алескеровым.
Ена Олег Валерьевич — директор Центра информационно-аналитических систем, И [email protected],
Ефименко Ирина Владимировна — канд. фил. наук.,
вед. науч. сотрудник Центра информационно-аналитических
систем, И [email protected],
Колесов Родион Борисович — магистр, И [email protected], Национальный исследовательский университет — Высшая школа экономики, г. Москва.