Научная статья на тему 'ИНТЕРПРЕТИРУЕМАЯ МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ГЕОАНАЛИТИКИ: МОДЕЛИРОВАНИЯ РАЗМЕЩЕНИЯ ТОРГОВЫХ ТОЧЕК РОЗНИЧНОЙ СЕТИ'

ИНТЕРПРЕТИРУЕМАЯ МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ГЕОАНАЛИТИКИ: МОДЕЛИРОВАНИЯ РАЗМЕЩЕНИЯ ТОРГОВЫХ ТОЧЕК РОЗНИЧНОЙ СЕТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
162
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЕОАНАЛИТИКА / РИТЕЙЛ / МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / МАШИННОЕ ОБУЧЕНИЕ / ГРАДИЕНТНЫЙ БУСТИНГ / ЯЗЫК ПРОГРАММИРОВАНИЯ PYTHON

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гринева Н.В., Иванов И.Д., Аблязина Н.Х.

Актуальность представляемого в статье исследования заключается в интерпретации модели, созданной с использованием пространственных данных и основанной на сложном методе машинного обучения, требующем привлечения дополнительных инструментов для получения влияния факторов на выходные данные модели. Целью нашего исследования является построение и реализация интерпретации модели машинного обучения на основе пространственных данных. В рамках статьи определены причины необходимости возможности содержательной интерпретации модели. Описан ряд подходов, где сочетаются пространственные данные с машинным обучением. Осуществлен отбор факторов и подбор гиперпараметров для моделей. Проведено моделирование при помощи нескольких методов машинного обучения, выделен оптимальный метод с точки зрения точности и интерпретации. Главными инструментами стали язык программирования Python и его библиотеки pandas, sklearn, XGBoost, hyperopt, shap, boostaroota. Проведен детальный анализ полученной содержательной интерпретации в модели градиентного бустинга. Результатом работы является интерпретируемая модель машинного обучения, которая может быть использована в реальных процессах принятия решений бизнесом по открытию торговых точек розничной сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTERPRETABLE MACHINE LEARNING MODEL FOR THE GEOANALYTICS PROBLEM: SIMULATION OF THE LOCATION OF POINTS OF RETAIL CHAIN

The relevance of the research presented in the article lies in the interpretation of a model created using spatial data and based on a complex machine learning method that requires the use of additional tools to obtain the influence of factors on the output of the model. The purpose of our study is to build and implement the interpretation of a machine learning model based on spatial data. Within the framework of the article, the reasons for the need for the possibility of a meaningful interpretation of the model are determined. A number of approaches are described that combine spatial data with machine learning. The selection of factors and the selection of hyperparameters for the models were carried out. Modeling was carried out using several methods of machine learning, the optimal method was identified in terms of accuracy and interpretation. The main tools are the Python programming language and its libraries pandas, sklearn, XGBoost, hyperopt, shap, boostaroota. A detailed analysis of the obtained meaningful interpretation in the gradient boosting model was carried out. The result of the work is an interpretable machine learning model that can be used in real business decision-making processes for opening retail outlets.

Текст научной работы на тему «ИНТЕРПРЕТИРУЕМАЯ МОДЕЛЬ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ГЕОАНАЛИТИКИ: МОДЕЛИРОВАНИЯ РАЗМЕЩЕНИЯ ТОРГОВЫХ ТОЧЕК РОЗНИЧНОЙ СЕТИ»

Интерпретируемая модель машинного обучения для задачи геоаналитики: моделирования размещения торговых точек розничной сети

Гринева Наталья Владимировна,

к.э.н., доцент, доцент Департамента анализа данных и машинного обучения, Финансовый университет при Правительстве Российской Федерации, NGrineva@fa.ru

Иванов Иван Дмитриевич,

руководитель проектов, ООО «БСТ Диджитал», ivanov@bst-mc.com Аблязина Наиля Хамитовна.

студент магистратуры, Российская академия народного хозяйства и государственной службы при Президенте РФ, nablyazina-21@edu.ranepa.ru

Актуальность представляемого в статье исследования заключается в интерпретации модели, созданной с использованием пространственных данных и основанной на сложном методе машинного обучения, требующем привлечения дополнительных инструментов для получения влияния факторов на выходные данные модели. Целью нашего исследования является построение и реализация интерпретации модели машинного обучения на основе пространственных данных. В рамках статьи определены причины необходимости возможности содержательной интерпретации модели. Описан ряд подходов, где сочетаются пространственные данные с машинным обучением. Осуществлен отбор факторов и подбор гиперпараметров для моделей. Проведено моделирование при помощи нескольких методов машинного обучения, выделен оптимальный метод с точки зрения точности и интерпретации. Главными инструментами стали язык программирования Python и его библиотеки pandas, sklearn, XGBoost, hyperopt, shap, boostaroota. Проведен детальный анализ полученной содержательной интерпретации в модели градиентного бустинга. Результатом работы является интерпретируемая модель машинного обучения, которая может быть использована в реальных процессах принятия решений бизнесом по открытию торговых точек розничной сети. Ключевые слова: геоаналитика, ритейл, математическое моделирование, машинное обучение, градиентный бустинг, язык программирования Python.

Городская экономика представляет собой сложную систему, функционирующую в едином пространстве, благодаря чему появляются взаимосвязи между разными ее компонентами. Расположение предприятий возле крупных транспортных узлов позволяет увеличивать посещаемость, так как у потребителя не возникают дополнительные затраты, чтобы добраться до иного места. Наблюдаются закономерности в расположении различных предприятий в городе: в более дорогих районах города будут располагаться предприятия соответствующего ценового сегмента, определенные предприятия располагаются преимущественно в центре города, для спальных районов чаще можно встретить продовольственные магазины и т.д. Закономерности, выявленные не только в виде эвристик, но и смоделированные при помощи математических методов, помогают компаниям более эффективно строить свою политику развития, наращивать экономические показатели, развиваться и расширяться. Из современных методов моделирования для задачи прогнозирования, лучшие результаты демонстрируют методы машинного обучения в силу высокой точности и регулируемой сложности при помощи выбора конкретного алгоритма. Продукты, предполагающие готовые решения для размещения бизнеса с использованием пространственных данных и методов машинного обучения, набирают в России популярность в последние годы. Однако основная проблема, возникающая при применении широкого ряда методов машинного обучения, - невозможность интерпретации полученных результатов.

Возможность получения интерпретации результатов - базовая потребность при оценке моделей: так управляющие компании понимают, согласуется ли будущий инструмент системы принятия решений с результатами внутренней аналитики компании, а так-же с ее взглядами и политикой.

В последние годы в научной литературе появились работы, посвященные интерпретации сложных моделей, как полученных для решения размещения предприятий, так и для смежных областей. Например, Антипов Е.А. и Покрышевская Е.Б [1]. Пишут о преимуществах градиентного бустинга как интерпретируемого метода в рамках исследования ритейла (моделирование продаж). Авторами используются Shapley values, позволяющие получить оценку влияния факторов в разрабатываемой модели.

Представлен и более простой способ интерпретации модели градиентного бустинга в работе о коммерциализации городского пространства в Южной Корее, освещающей способ оценки возникновения кафе и ресторанов [2]. По результатам проведенного исследования авторы выделяют главные факторы, оказывающие наибольшее влияние на возникновение предприятий общественного питания, такие как стоимость земли и факторы спроса (число рабочих мест, численность населения и др.). Такая оценка проводится на основе встроенного метода в реализации градиентного бустинга, возвращающего важность факторов.

X X

о

го А с.

X

го m

о

2 О

м

CJ

fO CS

о

CS <0

о ш m

X

<

m О X X

Анализ на основе важностей факторов также демонстрируется в работе по размещению бизнеса в результате аналитики данных Facebook (запрещенная в РФ соц. сеть) [3], написанной сингапурскими исследователями в 2016 г.

Интерес представляет ряд работ, где решается задача размещения без перехода к содержательной интерпретации модели: статья Карамшук Д. и др. В ней продемонстрирована сила пространственных особенностей и характеристик мобильности пользователей в прогнозировании наилучшего размещения розничных магазинов на основе данных о посещении [4]; статья «DeepStore: An Interaction-Aware Wide&Deep Model for Store Site Recommendation With Attentional Spatial Embeddings», где отсутствует возможность интерпретации в силу использования нейронной сети как основного метода моделирования [5]; работа Тахтарова И. А. и Сергеева А. В. «Разработка и исследование технологии геомаркетинга на основе транспортных факторов и нелинейной регрессионной модели» [6] с использованием линейной регрессии на полиномиальных признаках; исследование Булычева Д. М. [7], где автором при помощи нейросетевого метода строится модель, позволяющая наиболее точно предсказывать экспертные оценки для размещения тех или иных объектов в пространстве.

Отметим, что в упомянутых нами выше исследованиях, использующих пространственные данные для решений по размещению объектов, авторами преимущественно игнорируется возможность интерпретации с использованием дополнительных инструментов и сама интерпретация факторов.

Было бы несправедливо не отметить практическую сторону вопроса, которая активно используется в отечественном бизнесе, в ритейле. Так российская IT компания ООО «БСТ Ди-джитал» (ОГРН 1137746327014), Москва, уже несколько лет реализует проект BST Digital - комплексную систему поддержки принятия решений по открытию новых и управлению текущими локациями точек продаж розничной сети [11]. Это прикладное, алгоритмическое, программное решение задач геоаналитики - так сейчас называют анализ местоположения торговой точки, изучения движения потоков потенциальных покупателей, прогнозирования объемов продаж и т.п., на основании которого бизнес принимает решение по открытию нового подразделения розничной сети продаж. По мнению авторов проекта, которые мы разделяем: «Машинное обучение позволяет объединить всю экспертизу и выдать объективный независимый прогноз выручки в новой точке, причем за секунды. То, что не под силу обычному аналитику» [12].

Постановка задачи

Направление применения пространственных данных для прогнозирования экономических показателей начало развиваться в 2010-х гг.: согласно исследованию 2012 г. Esri [8], компании-поставщика программного обеспечения в сфере геоинформационных систем (ГИС), лишь небольшая часть среди более чем 180 бизнес-менеджеров, IT-менеджеров и сотрудников организаций различного размера в различных отраслях имела высокий уровень осведомленности о возможности и эффективности использования пространственных данных для аналитических исследований На текущий момент существует ограниченное количество работ, демонстрирующих возможность использования пространственных данных в интерпретируемых моделях, так как применение пространственных данных вошло в практику недавно.

Основная задача в рамках представленной статьи - построение модели машинного обучения на основе пространственных данных и интерпретация полученных результатов. В качестве объекта исследования выступает сеть кофеен.

Сбор данных и отбор признаков

Путем полевых исследований были собраны данные по 98 кофейням сети N в Москве. В качестве целевой переменной принят средний товарооборот кофеен, выраженный в количестве средних чеков. Данные были отнормированы в целях сохранения конфиденциальной информации.

В исследовании приоритетными являются пространственные данные, в модели они представлены 2338 факторами и подразделяются на следующие категории: мобильные данные, GPS-данные, данные по недвижимости и бизнес-единицам. Применение пространственных данных позволяет получить сведений о конкурентной среде, о «комплементарных» бизнесах, о плотности населения, об интенсивности движения пешеходов и автомобилистов в различное время суток, об аудитории, временно или постоянно находящейся на рассматриваемой территории, о количественных и качественных характеристиках работающих на территории людей, о стоимости недвижимости, что может служить индикатором привлекательности района или стоимости жизни в нем.

В целях исследования отобрано два набора признаков: общий и для использования в дополнительной модели линейной регрессии. Общий набор признаков формировался в несколько этапов: сначала применялся алгоритм BoostARoota, основанный на создании «теневых» признаков для градиентного бустинга; на втором этапе - класс библиотеки sklearn SelectFromModel; а затем проводился отбор по содержательному принципу с исключением близких по смыслу факторов с высокой степенью линейной связи (отобранный фактор также не должен был давать ухудшения качества модели).

Дополнительный набор факторов для модели линейной регрессии сформирован при помощи метода forward selection, представляющего собой постепенное добавление факторов для улучшения ключевой метрики модели [9] (MAPE на кросс-валидации на обучающей выборке). Для контроля мультикол-линеарности и сохранения содержательной интерпретации модели, при добавлении фактора, похожие признаки исключались из альтернатив выбора следующего добавляемого признака для отдельного набора факторов для модели линейной регрессии.

Результаты моделирования

Среди множества методов машинного обучения, выбор был сделан в пользу линейной регрессии (реализация в библиотеке sklearn), решающего дерева (реализация в библиотеке sklearn), случайного леса (реализация в библиотеке sklearn), градиентного бустинга (реализация в библиотеке XGBoost) как наиболее популярных и изученных, с возможностью интерпретации полученных результатов.

С применением перечисленных методов построено 5 моделей - все типы моделей на общем наборе факторов и модель линейной регрессии на отдельном наборе факторов. Данные были разделены на обучающую и тестовую выборку. На следующем этапе проведена процедура подбора гиперпараметров для всех моделей за исключением линейной регрессии (проводилась процедура минимизации ключевой метрики на обучающей выборке на кросс-валидации по 5 фрагментам) с использованием библиотеки hyperopt, построены модели и протестированы на тестовой выборке.

Ключевой метрикой качества модели выбрана средняя абсолютная ошибка в процентах (MAPE - mean average percentage error) как простой показатель, имеющий «прозрачную» бизнес-интерпретацию. Средняя относительная ошибка аппроксимации вычисляется по формуле:

МАРЕ = - * 2"

П yt I

где п - количество объектов, Ь - номер объекта, у£ - фактическое значение целевой переменной, у£ - прогнозное значение, предсказанное моделью.

В результате сравнения полученных моделей (см. таблицу 1) по принципу точности все методы, за исключением градиентного бустинга, показали низкую обобщающую способность, оцененную как МАРЕ на тестовой выборке. Градиентный бу-стинг показал лучшие результаты с точки зрения точности, следовательно, далее были проанализированы содержательные результаты полученной модели, объясняющей сложные процессы, происходящие в городском пространстве.

зированного представления влияния факторов на товарооборот используются значения Шапли в рамках аддитивного представления вкладов отдельных факторов (SHapley Additive exPlanations (SHAP)). В рамках SHAP-values используются концепции из теории игр, тем самым присваивая каждому атрибуту значение важности на основе его влияния на прогноз модели, когда функция присутствует или нет во время оценки SHAP-values. Для объяснения прогнозов сложных моделей, в рамках SHAP-values используется метод атрибутов линейных аддитивных объектов в качестве более простой модели объяснения:

!

f(a) = д(а') = a0 + ^aja'j, i=i

где /(а) - изначальный метод, который мы хотим объяснить, д(а') - более простая модель объяснения, J - число упрощенных входных факторов, а,- - SHAP-values, измеренные для всех возможных ранжирований входных данных, a'j -упрощенный вектор входных данных, который показывает присутствует ли отдельный фактор при оценке, а0 - аналог предсказания модели, при котором ни один из факторов не участвует в оценке.

Более подробно с алгоритмом построения этого графика можно ознакомиться в работе, посвященной этому методу [10].

Таблица 1

Ключевые метрики моделей

MAPE XGB Regressor Linear Regression Linear Regression (forward feature selection) Decision Tree Regressor Random Forest Regressor

На кросс-валида-ции 0.141±0.003* 0.16 0.142 0.155 0.145

На тестовой выборке 0.123±0.004* 0.225 0.181 0.192 0.215

* - интервал обусловлен многократным запуском алгоритма для исключения стохастического компонента.

Интерпретация полученной модели

В модели с применением градиентного бустинга выделены следующие факторы: пешеходный трафик в радиусе 150 м, утренний пешеходный трафик в радиусе 700 м, средний рейтинг объектов в категории "Бизнес-центры" в радиусе 300 м, суммарное количество объектов в категории "Косметика" в радиусе 500 м, рейтинг покупательской активности объектов в категории "Кофейня" в радиусе 150 м, рейтинг покупательской активности объектов в категории "Общепит" в радиусе 300 м, рейтинг покупательской активности объектов в категории "ТЦ" в радиусе 700 м, суммарный мобильный трафик по возрастной группе от 35 до 45 в радиусе 500 м.

Отобранные факторы на прямую коррелируют с бизнес-логикой. Важными оказались факторы, согласующиеся с портретом типичного покупателя, составленного компанией-владельцем кофеен по внутренним данным. Так, например, фактор «Суммарный мобильный трафик по возрастной группе от 35 до 45 в радиусе 500 м» совпадет с возрастом типичного покупателя. Так как типичный покупатель кофейни - это женщина, то среди отобранных факторов логично увидеть фактор «Суммарное количество объектов в категории "Косметика" в радиусе 500 м». Обратимся к графику влияния факторов на целевую переменную, построенному при помощи библиотеки shap.

Хорошее качество модели позволяет применять ее для прогнозирования открытия новых точек. Из-за специфической структуры градиентного бустинга, получить важные факторы с помощью обученной модели несложно. Каждый узел в решающем дереве является условием для одного объекта, предназначенного для разделения набора данных. Мерой, на основе которой выбирается локально оптимальное условие, является ключевая метрика, выбранная для задачи регрессии. В соответствии с этой мерой важность признака может быть ранжирована по усредненному уменьшению меры от каждого признака по всем деревьям в ансамбле. Однако ранжирования важностей признаков, найденных моделью, недостаточно для объяснения отдельного прогноза. Поэтому для более детали-

Рейтинг покупательской активности объектов в категории "Общепит" в радиусе 300м Рейтинг покупательской активности объектов в категории 'ТЦ" в радиусе 700м Рейтинг покупательской активности объектов в категории "Кофейня" в радиусе 150м Пешеходный трафик в радиусе 150м Утренний пешеходный трафик в радиусе 700м Суммарный мобильный трафик по возрастной группе от 35 до 45 в радиусе 500м Средний рейтинг объектов в категории 'бизнес-центры* в радиусе 300м Суммарное количество объектов в категории "Косметика" в радиусе 500м

. Ы+.1*

«"•4M-

5НАР value (impact on model output)

Рисунок 1 - Интерпретация модели градиентного бустинга

В первую очередь, необходимо обозначить, что на рисунке 1 факторы ранжированы по «важности» в модели, т.е. чем выше положение на графике, тем значимее фактор. Позиция точки по оси абсцисс - это SHAP-values, влияние фактора на товарооборот, а цвет точки представляет значение этого фактора (от высокого к низкому). Такой график позволяет судить о характере зависимости, а также сформировать предположения о влиянии факторов. Наибольшее влияние оказывает фактор конкурентной среды (объекты в категории предприятий общественного питания), затем следуют фактор положения относительно ТЦ, фактор конкурентной среды, выражающийся в положении относительно прочих кофеен, трафик, ближе к наименее важным факторам расположились характеристики, связанные с портретом типичного покупателя.

Зависимость прогноза от предприятий общепита достаточно сложная, т.е. нельзя говорить об однозначном положительном влиянии или отрицательном: для разных кофеен соседство с более или менее популярными предприятиями общепита влияет по-разному. Можно предположить, что для этой сферы более точно позволили бы судить признаки, характеризующие направление работы предприятия (кухня, ассортимент и т.д.). Важно отметить, что торговые центры имеют достаточно большое влияние на увеличение прогноза в редких случаях, однако предположение о том, что наличие торгового центра поблизости увеличивает товарооборот в связи с генерацией дополнительных потоков людей, подтверждается. Для кофеен, как и для предприятий общественного питания, эффект влияния на целевую переменную смешанный, однако

X X

о го А с.

X

го m

о

2 О

м

CJ

to сч о сч

о ш СО

<

СО О

здесь более четко прослеживается перетягивание покупателей исследуемыми кофейнями, что может говорить о высокой конкурентоспособности этих кофеен и их сравнительном преимуществе. Утренний трафик имеет наиболее приближенную к линейной зависимость, однако другие типы трафика оказывают более сложное влияние на товарооборот, так как при взаимодействии с другими факторами может наблюдаться изменение паттерна. По вкладам факторов, характеризующих целевую аудиторию кофеен (суммарное количество объектов в категории «Косметика», суммарный мобильный трафик по возрастной группе от 35 до 45), можно сказать, что успех некоторых отдельных кофеен формируется как раз благодаря концентрации целевой аудитории. Бизнес-центры служат нечастыми соседями кофеен в столь небольшом радиусе, но для тех кофеен, что с ними действительно связаны, этот фактор несет значение, хоть и небольшое. Однако такое соседство может приносить, как выгоду, так и убыток, вероятно, более точной интерпретации можно добиться, если обладать информацией о том, к какому сегменту относится бизнес-центр для понимания, совпадает ли уровень требований людей, работающих поблизости, с политикой компании-владельца исследуемых кофеен.

Также проанализируем некоторые факторы с точки зрения интерпретации, для этого обратимся к графикам взаимодействия, строящихся на основе наиболее часто взаимодействующих факторов (см. рисунки 2, 3, 4, 5). По оси ординат отложены shap-values отдельного фактора, по оси абсцисс - значения этого фактора, цвет точки характеризует величину фактора, с которым рассматриваемый фактор наиболее часто взаимодействует.

< &

750 500

-250 -500 -750

. Ч'<\ •>

10000 20000

30000 40000

Пешеходный график в радиусе 150 м

Рисунок 2 - Взаимодействие фактора «Пешеходный трафик в радиусе 150 м»

"Кофейня" в радиусе 150 м

Рисунок 3 - Взаимодействие фактора «Рейтинг покупательской активности объектов в категории "Кофейня" в радиусе 150 м»

Можно предположить, что возрастная группа от 35 до 45 выделяется в качестве наиболее часто взаимодействующего

фактора по причине того, что в целом в пешеходных потоках в различных частях города преобладает эта группа. Анализ, проведенный по рисунку 2 показывает, что наибольшее взаимодействие этот фактор имеет с пешеходным трафиком, а тренд между значением фактора и его вкладом в целевую переменную относительно близок к линейному и, скорее, позитивен.

Фактор покупательской активности по конкурентным кофейням наиболее часто взаимодействует с фактором, характеризующим утренний пешеходный трафик (см. рисунок 3), что заметно отражается в виде большей популярности кофеен, расположенных в местах более интенсивного трафика. Также такое взаимодействие обусловлено и спецификой употребления кофе в первой половине дня. Если рассматривать отдельно небольшие кластеры точек, для каждого отдельного кластера близки значения утреннего пешеходного трафика, а вектор положения этого кластера говорит о положительной зависимости товарооборота от популярности кофеен рядом. Следовательно, вероятно, что для кофеен, группирующихся по принципу схожести утреннего пешеходного трафика, имеет место перетягивание части клиентов из конкурентных кофеен.

в i

-250 -500 -750 -1000

1400 1200 1000 800 600 400

? |

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

О 100 200 300 400 500 600 700 »

Рейтинг покупательской активности объектов в категории "Общепит" в радиусе 300 м

Рисунок 4 - Взаимодействие фактора «Рейтинг покупательской активности объектов в категории "Общепит" в радиусе 300 м»

По выделяющимся факторам на рисунке 4 отделяется два типа кофеен по влиянию конкурентных предприятий общепита на товарооборот: один из типов предполагает негативное влияние на товарооборот (левое облако точек), второй тип отличается устойчивостью к соседству с предприятиями общепита. Для первого типа характерна конкуренция исследуемых кофеен с предприятиями общепита, при этом при наличии популярной конкурентной кофейни влияние на товарооборот оказывается негативным. Для второго типа наблюдается «сим-биотическое» соседство, при котором сочетание популярных предприятий общепита и популярных кофеен создает дополнительный драйвер роста у исследуемых кофеен. Такая картина, вероятно, объясняется различиями в специфике конкурентных предприятий: ассортимент предприятия общепита может не включать кофейные напитки, при этом соседствующая популярная кофейня может значительно отличаться по ценовому сегменту от предприятий общепита, в таком случае, исследуемые кофейни получают сравнительное преимущество.

Фактор, характеризующий утренний пешеходный трафик, в первую очередь взаимодействует с фактором положения относительно конкурентных кофеен (см. рисунок 5). Если визуально оценивать вклад фактора утреннего трафика, отмечается, что в целом, для исследуемых кофеен, расположенных в местах интенсивного утреннего трафика товарооборот выше, так как угол наклона облака точек к оси абсцисс острый. Следовательно, наблюдается приближенная к прямой зависимость между товарооборотом кофейни и утренним трафиком.

Кроме того, близость к конкурентной кофейне и расположение в месте крупного пешеходного потока людей может служить источником роста товарооборота кофейни. При этом низкий трафик в сочетании с соседством с очень популярными кофейнями-конкурентами негативно сказывается на товарообороте исследуемых кофеен.

Рисунок 5 - Взаимодействие фактора «Утренний пешеходный трафик в радиусе 700 м»

Отобранные в ходе работы факторы согласуются с действительностью и бизнес-логикой. Обобщим отобранные факторы по бизнес-логике:

— портрет типичного покупателя (суммарное количество объектов в категории "Косметика" в радиусе 500 м, суммарный мобильный трафик по возрастной группе от 35 до 45 в радиусе 500 м);

— интенсивность трафика (пешеходный трафик в радиусе 150 м, утренний пешеходный трафик в радиусе 700 м);

— точки притяжения (средний рейтинг объектов в категории "Бизнес-центры" в радиусе 300 м, рейтинг покупательской активности объектов в категории "ТЦ" в радиусе 700 м);

— конкурентная среда (рейтинг покупательской активности объектов в категории "Кофейня" в радиусе 150 м, рейтинг покупательской активности объектов в категории "Общепит" в радиусе 300 м).

При этом в силу особенностей алгоритма связи как факторов с товарооборотом, так и факторов между собой оказываются многогранными и сложными, что позволяет аппроксимировать определенные «формулы успеха» отдельных кофеен при помощи математического моделирования. Зачастую подобные взаимосвязи действительно имеют место в реальной жизни, так как пространственные условия для отдельных мест на микроуровне могут значительно различаться даже для близких на макроуровне точек.

Обсуждение результатов и выводы

В работе предложены подходы к созданию интерпретируемой модели машинного обучения для предсказания экономических показателей на основе пространственных данных. Проведен отбор данных, пригодных для моделирования, а так же подбор гиперпараметров для выбранных методов. Выбраны методы моделирования: линейная регрессия, решающее дерево, случайный лес, градиентный бустинг. Проведено моделирование и выделен градиентный бустинг как оптимальный метод с точки зрения точности.

В результате сформированы определенные «паттерны» для отобранных факторов в полученной модели. Для конкурентных предприятий общественного питания нет преобладающего эффекта: предприятия общественного питания могут как перетягивать клиентов кофеен, так и служить источником дополнительного товарооборота. Наличие поблизости торгового центра оказывает положительное влияние на целевую

переменную. Конкурентные кофейни рядом с исследуемыми служат чаще источником клиентов, так как исследуемые кофейни, очевидно, имеют сравнительное преимущество. Трафик пешеходов утром в отличие от остальных показателей интенсивности движения пешеходов, имеющих более сложное влияние, показал приближенное к положительному линейному влияние на целевую переменную. Факторы, описывающие целевую аудиторию кофеен и типичного покупателя (суммарное количество объектов в категории «Косметика», суммарный мобильный трафик по возрастной группе от 35 до 45), влияют более всего на отдельные кофейни, где наблюдается концентрация такой аудитории. Единого паттерна зависимости от положения относительно БЦ не удалось выявить, так как присутствуют эффекты и положительного, и отрицательного влияния на целевую переменную.

Проведенное исследование и моделирование имеет перспективы дальнейшего развития, например, можно использовать более точные данные по конкурентным объектам и БЦ: более детально делить предприятия общепита по их специализации, БЦ по классу комфорта. Так на примере этих объектов можно будет увидеть, какие процессы характерны для ресторанов одной специализации и будут ли они отличаться для ресторанов иной специализации. Таким образом можно будет проверять предположения о роли кофеен для различных видов специализации: например, для ресторанов и кафе, не имеющих в меню кофе или десертов, будет наблюдаться «симбиоз» с исследуемыми кофейнями, так как потребители будут после основного приема пищи в определенном количестве обращаться к кофейне за предлагаемыми товарами. Точно так же и для бизнес-центров можно будет различить, работники каких БЦ относятся к целевой аудитории исследуемых кофеен, а каких - к целевой аудитории конкурентных предприятий.

Литература

1. Antipov E. A., Pokryshevskaya E. B. Interpretable machine learning for demand modeling with high-dimensional data using Gradient Boosting Machines and Shapley values // Journal of Revenue and Pricing Management. - 2020. - Т. 19. - №. 5. - С. 355-364.

2. Noh S. C., Park J. H. Café and Restaurant under My Home: Predicting Urban Commercialization through Machine Learning // Sustainability. - 2021. - Т. 13. - №. 10. - С. 56-99.

3. Lin J. et al. Where is the goldmine? Finding promising business locations through Facebook data analytics // Proceedings of the 27th ACM Conference on Hypertext and Social Media. -2016. - С. 93-102.

4. Karamshuk D. et al. Geo-spotting: mining online location-based services for optimal retail store placement // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. - 2013. - С. 793-801.

5. Liu Y. et al. DeepStore: An interaction-aware wide&deep model for store site recommendation with attentional spatial embeddings // IEEE Internet of Things Journal. - 2019. - Т. 6. -№. 4. - С. 7319-7333.

6. Тахтаров И. А., Сергеев А. В. Разработка и исследование технологии геомаркетинга на основе транспортных факторов и нелинейной регрессионной модели // Сборник трудов III международной конференции и молодежной школы «Информационные технологии и нанотехнологии» (ИТНТ-2017). - Самара: Новая техника. - 2017. - С. 702-706.

7. Булычев Д. М. Прогнозирование результатов экспертного оценивания точек продаж с помощью нейронной сети //Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. - 2019. - №. 4. - С. 6574.

I I

О

ГО

>

JZ

I ГО

m

о

2 О М СО

8. Revealing the 'Where' of Business Intelligence using Location Analytics / Esri. 2012. URL: https://www.esri.com/content/dam/esrisites/sitecore-archive/Files/Pdfs/library/whitepapers/pdfs/business-intelligence-location-analytics.pdf (дата обращения: 21.05.2023)

9. Guyon I., Elisseeff A. An introduction to variable and feature selection // Journal of machine learning research. - 2003. - Т. 3. - №. Mar. - С. 1157-1182.

10. Lundberg S. M., Erion G. G., Lee S. I. Consistent individualized feature attribution for tree ensembles // arXiv preprint arXiv:1802.03888. - 2018.

11. BST Digital - комплексная система поддержки принятия решений по открытию новых и управлению текущими локациями // https://bst.digital/ (дата обращения: 21.05.2023)

12. BST-Органика: как успешно управлять открытиями, найти лучшие места и построить оптимальную сеть торговых точек на территории? // https://new-retail.ru/persony/bst_organika_kak_uspeshno_upravlyat_otkrytiya mi_nayti_luchshie_mesta_i_postroit_optimalnuyu_set_torg1113/ (дата обращения: 21.05.2023)

Interpretable machine learning model for the geoanalytics problem: simulation

of the location of points of retail chain Grineva N.V., Ivanov I.D., Ablyazina N.H.

Financial University under the Government of the Russian Federation, BST Digital LLC JEL classification: C01, C02, C1, C4, C5, C6, C8

The relevance of the research presented in the article lies in the interpretation of a model created using spatial data and based on a complex machine learning method that requires the use of additional tools to obtain the influence of factors on the output of the model. The purpose of our study is to build and implement the interpretation of a machine learning model based on spatial data. Within the framework of the article, the reasons for the need for the possibility of a meaningful interpretation of the model are determined. A number of approaches are described that combine spatial data with machine learning. The selection of factors and the selection of hyperparameters for the models were carried out. Modeling was carried out using several methods of machine learning, the optimal method was identified in terms of accuracy and interpretation. The main tools are the Python programming language and its libraries pandas, sklearn, XGBoost, hyperopt, shap, boostaroota. A detailed analysis of the obtained meaningful interpretation in the gradient boosting model was carried out. The result of the work is an interpretable machine learning model that can be used in real business decision-making processes for opening retail outlets.

Keywords: geoanalytics, retail, mathematical modeling, machine learning, gradient boosting, Python programming language.

References

1. Antipov E. A., Pokryshevskaya E. B. Interpretable machine learning for demand

modeling with high-dimensional data using Gradient Boosting Machines and Shapley values // Journal of Revenue and Pricing Management. - 2020. - T. 19. - No. 5. - S. 355-364.

2. Noh S. C., Park J. H. Café and Restaurant under My Home: Predicting Urban

Commercialization through Machine Learning // Sustainability. - 2021. - T. 13. -No. 10. - S. 56-99.

3. Lin J. et al. Where is the goldmine? Finding promising business locations through

Facebook data analytics // Proceedings of the 27th ACM Conference on Hypertext and Social Media. - 2016. - S. 93-102.

4. Karamshuk D. et al. Geo-spotting: mining online location-based services for optimal

retail store placement // Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. - 2013. - S. 793-801.

5. Liu Y. et al. DeepStore: An interaction-aware wide&deep model for store site

recommendation with attentional spatial embeddings // IEEE Internet of Things Journal. - 2019. - T. 6. - No. 4. - S. 7319-7333.

6. Takhtarov I. A., Sergeev A. V. Development and research of geomarketing

technology based on transport factors and a nonlinear regression model // Proceedings of the III International Conference and Youth School "Information Technologies and Nanotechnologies" (ITNT-2017). - Samara: New technology. -2017. - S. 702-706.

7. Bulychev D. M. Forecasting the results of expert evaluation of points of sale using

a neural network // Bulletin of the Russian New University. Series: Complex systems: models, analysis and control. - 2019. - no. 4. - S. 65-74.

8. Revealing the 'Where' of Business Intelligence using Location Analytics / Esri. 2012.

URL: https://www.esri.com/content/dam/esrisites/sitecore-

archive/Files/Pdfs/library/whitepapers/pdfs/business-intelligence-location-analytics.pdf (accessed 21.05.2023 )

9. Guyon I., Elisseeff A. An introduction to variable and feature selection // Journal of

machine learning research. - 2003. - T. 3. - No. Mar. - S. 1157-1182.

10. Lundberg S. M., Erion G. G., Lee S. I. Consistent individualized feature attribution

for tree ensembles // arXiv preprint arXiv:1802.03888. - 2018.

11. BST Digital - a comprehensive decision support system for opening new and

managing current locations // https://bst.digital/ (date of access: 05/21/2023)

12. BST-Organica: how to successfully manage openings, find the best places and

build the optimal network of outlets in the territory? // https://new-retail.ru/persony/bst_organika_kak_uspeshno_upravlyat_otkrytiyami_nayti_luch shie_mesta_i_postroit_optimalnuyu_set_torg1113/ (date of access: 05/21/2023)

fO СЧ

о

СЧ <0

о ш m

X

<

m О X X

i Надоели баннеры? Вы всегда можете отключить рекламу.