УДК 336(075.8)
DOI: 10.25559/SITITO.16.202003.799-809
Оригинальная статья
Повышение доходности торгового агента на основе метода Q-learning посредством использования производных финансовых показателей
А. С. Гурин, Я. С. Гурин, Р. И. Горохова, С. А. Корчагин, П. В. Никитин*
ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации», г. Москва, Российская Федерация
125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49 * pvnikitin@fa.ru
Аннотация
Повышению доходности торговых агентов уделялось и продолжает уделяться огромное внимание. В статье рассматриваются различные подходы к решению указанной проблемы, одним из которых является обучение с подкреплением активно используемое для решения задач алгоритмической торговли. Повышение эффективности (доходности) алгоритмической торговли возможно двумя способами, с одной стороны, усовершенствование алгоритмов, с другой стороны обогащение данных, которые передаются на вход алгоритмам. В исследовании проведено подтверждение целесообразности применения производных финансовых показателей для задач применения торговых алгоритмов на основе алгоритмов обучения с подкреплением. Основная идея реализации исследования направлена на получение результатов работы торгового агента на основе Q-learning на технических показателях и на производных технических показателях (агент реализован на Python). Проведено обоснование выбора метода Q-learning для решения поставленной задачи, рассмотрены основы принятия решения, политика, стратегия, обучение с подкреплением. В работе рассмотрены вопросы повышения эффективности (доходности) торгового агента на основе алгоритма Q-learning посредством передачи ему производных технических показателей, определены и обоснованы производные технические показатели, проверены результаты работы торгового агента на технических показателях и на производных технических показателях. В исследовании, представленном в статье, проведена эмпирическая проверка возможности создания синтетических финансовых признаков для повышения эффективности алгоритмов обучения, кроме того, проведена проверка получения необходимых результатов при применении алгоритмов обучения с подкреплением. Проведено эмпирическое подтверждение, что применение производных финансовых показателей для повышения эффективности (доходности) торговых агентов на основе метода Q-learning с применением алгоритмов обучения с подкреплением является целесообразным.
Ключевые слова: финансовые показатели, доходность, торговый агент, алгоритмическая торговля, алгоритм Q-learning, обучение с подкреплением.
Авторы заявляют об отсутствии конфликта интересов.
Для цитирования: Гурин, А. С. Повышение доходности торгового агента на основе метода Q-learning посредством использования производных финансовых показателей / А. С. Гурин, Я. С. Гурин, Р. И. Горохова, С. А. Корчагин, П. В. Никитин. — DOI 10.25559/SITITO.16.202003.799-809 // Современные информационные технологии и ИТ-образование. — 2020. — Т. 16, № 3. — С. 799809.
© Гурин А. С., Гурин Я. С., Горохова Р. И., Корчагин С. А., Никитин П. В., 2020
Контент доступен под лицензией Creative Commons Attribution 4.0 License. The content is available under Creative Commons Attribution 4.0 License.
Modern Information Technologies and IT-Education
EDUCATIONAL RESOURCES AND BEST PRACTICES OF IT-EDUCATION
Increasing the Profitability of a Sales Agent Based on the Q-learning Method through the Use of Derived Financial Indicators
A. S. Gurin, Ya. S. Gurin, R. I. Gorokhova, S. A. Korchagin, P. V. Nikitin*
Financial University under the Government of the Russian Federation, Moscow, Russian Federation 49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation * pvnikitin@fa.ru
Increasing the profitability of sales agents has been and continues to be given great attention. The article discusses various approaches to solving this problem, one of which is reinforcement learning, which is actively used to solve algorithmic trading problems. Increasing the efficiency (profitability) of algorithmic trading is possible in two ways, on the one hand, improving the algorithms, on the other hand, enriching the data that is transmitted to the input to the algorithms. The study confirmed the feasibility of using derived financial indicators for the tasks of applying trading algorithms based on reinforcement learning algorithms. The main idea of the research implementation is aimed at obtaining the results of the sales agent's work based on Q-learning on technical indicators and on derived technical indicators (the agent is implemented in Python). The substantiation of the choice of the Q-learning method for solving the problem is carried out, the basics of decision-making, policy, strategy, and reinforcement learning are considered. The paper considers the issues of increasing the efficiency (profitability) of a sales agent based on the Q-learning algorithm by transferring derivative technical indicators to him, determined and substantiated derived technical indicators, verified the results of a sales agent's work on technical indicators and derived technical indicators. In the study presented in the article, an empirical test of the possibility of creating synthetic financial features to improve the efficiency of learning algorithms was carried out, in addition, the verification of obtaining the necessary results when using reinforcement learning algorithms was carried out. Empirical confirmation has been carried out that the use of derived financial indicators to increase the efficiency (profitability) of sales agents based on the Q-learning method with the use of reinforcement learning algorithms is expedient.
Keywords: financial performance, profitability, sales agent, algorithmic trading, Q-learning algorithm, reinforcement learning.
The authors declare no conflict of interest.
For citation: Gurin A.S., Gurin Ya.S., Gorokhova R.I., Korchagin S.A., Nikitin P.V. Increasing the Profitability of a Sales Agent Based on the Q-learning Method through the Use of Derived Financial. Sovremen-nye informacionnye tehnologii i IT-obrazovanie = Modern Information Technologies and IT-Education. 2020; 16(3):799-809. DOI: https://doi.org/10.25559/SITITO.16.202003.799-809
Abstract
Современные информационные технологии и ИТ-образование
Том 16, № 3. 2020 ISSN 2411-1473 sitito.cs.msu.ru
Введение
Вопрос повышения эффективносои ТАйГОВоГО aro'ca быо и остается одним из важнейших воіфетсг ерпрсдеоио с рили-зации алгоритмической торговли [l--]. RONNpecor инПюїзоос ционных технологий и технических возможнпотой 'ЛЯ о-оПР-зации различных подходов позволяют рапсмет-еть оаниыТ вопрос с точки зрения производных технические покасатрлойе [7-15]. Решение проблемы эффектиисесадСоихдоноати) то-лс-вого агента с применением алгоритма Q-leаги-ио псзс-зео.стоі^ід передачи ему производных техничиекки пгоазателей является основой данного исследования [16-18]. В нссрлящсС моменс обучение с подкреплением активна саслстоуется дтс[^рш«^і^я задач алгоритмической торговли. Одним из спрлобао псlвышт-ния эффективности (доходности) сигосетмичеооти р-еоиез^ ли служит усовершенствование алгорит мто [80-22]. Дс-аии способом является обогащение данныт, кот-сые стсзетл^о'ся на вход алгоритмам. Авторы данного н-юоісоо отрята-опас подтвердили эффективность создинит сонимтдкеоеат фиоон-совых признаков для повышения оИЫтктивносги илас[зитмое обучения с учителем. Полезной будто с еаетерос ОИИОГО оодс хода для алгоритмов обучения с подкрепленирт. Иыт ер- ы, сдед ланные в данной работе, позволяо п°соимати л0лсно^анісліе решения о повышении эффективносси тстсаеис оигоо^ітама^ на основе обучения с подкреплениои на сдссис е^^моніс:.
В настоящее время проблеме повышения стхаииссои торгото-го агента посредством использования происиодеых фонднес-вых показателей посвящены многочисленниое нсучаые исследования, в том числе В.В. Бабич [23], Ю.А. Дмис°иевк [12], И.-. Ипатьева [24], Е.В. Стрельникова [22], [25] и ^ [14-1т]. Однаео не представлены в полном объеме возможности примеиснся метода Q-learning посредством иссяльлоаиAия производных финансовых показателей.
Цель исследования
В исследовании поставлена цель подтвердить илиопрпвер-гнуть целесообразность применения производных финансовых показателей для задач применения торговых алгоритмов на основе алгоритмов обучения с подкреплонсзем. Основная идея ре ализации исследованиянап равлена н а по лучение рдс аусьтатов наботы торгового агента на основе Q-learning на тех нич еских додадатллохи на проивводныеаехнических показателях (агент реализован на Python).
Ввиду выбора метода Q-learning для решения задачи, необходимо рассмотреть темы, на основе которых он строится, среди них стратегия, обучение с подкреплением. Рассмотрение всех необходимых теоретических вопросов необходимо для описания алгоритма Q-learning.
Основная часть
В рассматриваемом исследовании применяется жадная стратегия. Стратегия максимизации математического ожидания (ожидаемой прибыли). На каждом шаге t выбирается действие
о масеимальной сце нкии мосанстдт е с коем ажи дадии.
at = arиmaXлохQa
Помсд чсло дейстлно тыпотыигосо, о ост нка мас в мис очігскоса ожидаття oбнтNлчeтcя.
Те = со + 1
= Qa,;+ — - (За!-
Ииеда д ос^тч^і^ іти с птдкрмпнсо аоо чиоое иссто т^поссIаяeооя -о виде Марковского процесса принятия решеннй.
ОиуЧЄНИЄ е CаДK0РПTCOCeM ИCПOOGЗCеCCЯ ГОЩа, КОГда вероят-ннсти или награоы овеизвтетоы.Дса этого oтpтдeляeост тлед ос^ва][іе;^5^ фонщия:
QPs.ap = ^[LcД^,^'OПr?ДSI^'^^^^пs'о^
SB
Несмотря на то, то данная Иункция тадже неизвестна, опыт ид вяeт]я нбучтодя осноосісианоя оа парит те, а-, лсо -месте е s' енрдітооляеи слодыющую скфатмооию: «CCpoGFес мирител ос Еитсиссоя дв еотроятио s' оисдл оасиошао^и дєйлдммт ли Садим иСоазсо нлєтнет моcFяс Q, еРсооыТ Gетавляитlc отлро-тсюна огроое оеыин. сстіеето явного описання аороятностей перехода, значения вероятроітед п-нехода вычисляются мно-rocpоттыт тртщиком симутяанра ти елNчaMоoroнaопpонoro исадоянис.
ге>1,мIcце:^[ д задао сщмнкт аг^нтоо нашрады, пооииоо пн оежет OаоyCCИC: СОПерШИТ В ОПрИДИЛСИНТШ XO-[ OПTeделeHTOе ,Е,ОЙс оттое н тоимсу тато, как°ю -псдяадм агонт мажет получить в оУ,РАЩем. О0[У'ечение пNнтcоaйляст тоСой дтсотсщоиоив рточнс нте еноcояия с^со^і^істй Q оа каждою ходє eipbhtt.
Ооишто- (сонкцдіт mchthhoetm Q для исгсдситма H-lетniом.
О 0^° с-с-]:[Є = <V Cs- NHt0 + ' о -О + т • тахЛ бсян. а-) ~(0 Ot. аО-
гди
rt — стсичинт мигрсды, киок-ук итвнт роста-ит н вооо ход max?KsteH.a)— максимальная ожидаемая награда на последующих ходах
У — факело диикоитисаеания, сс еЛ м Л 1 . Выпажание Є" • maxQ(so+i, а]) уменьшаетоценкупоследующихнаград. я — коэффициент, который регулирует скорость обучения агента.
Ход работы алгоритма проиллюстрирован на рисунке 1.
Постановка задачи обучения с подкреплением заключается в следующем. Для того чтобы сформулировать задачу обучения с подкреплением нужно задать следующие ключевые параметры модели обучения с подкреплением: среда (объекты), возможные действия, функция наград.
Среда включает в себя следующие объекты:
• Набор наблюдений: технические показатели в различные моменты времени
• Дельта цен: изменение цен в различные моменты времени исходя из набора наблюдений.
1 Мороз А.В. Разработка системы мониторинга торговых агентов на базе «1С: Управление торговлей 8.2» // Вестник современных исследований. 2018. № 4.2(19). С. 282-284. URL: https://www.elibrary.ru/item.asp?id=35122057 (дата обращения: 19.06.2020).
Modern Information Technologies and IT-Education
Рис.1.Блок-схемаалгоритмаQ-leaгning F i g. 1. Q-learning algorithm block diagram
• Список позиций: активы, которыми распотагает торговый алгоритм т апстгящио моагоп.
• Значение гоциций:стоимосгк гктивов, коогрпк^ир^і^аіо-лагает торцкпыйцлгтроттонасгоящсй ітоігреп.
Возможные действия игиг^т^^ш^.^ійаоі^тс;^и!иуо^іцтпса^^ао^і^о
бездействие (Held-, тонуцпиокц ии .Лиу), продажа олцаи (Sell).
Исходя из вышипсрипйссзцпыл деТСТЛИЙОСеНПт фиНКЦ ияиз-
град действует следующим образом:
• агент награждается (+1), если текущее действие приводит к прибыли.
• агент штрафуется (-1), если текущее действие приводит к потеря п.
• агент штрафуетси (-1), гсли агент продагт, нк fir спокосал акциями.
На рпждом уоге происаодио абновакние сгТол^а ипкаыцений,
де льиа цел, тсуака позорго и еначений позицру.аыыми с лом-
Тосцті^^ннеіе информационные технологии и ИТ-образование
мт, зрецп пеее-одии сз костоянся гв агсес^-^ниі^з'. Зарееп моде-ог Краалгостоттилгс^т^, чтобы найти политику, которая будет максимизировать функцию наград.
Перличнаїе сзсничеыраы оокаоатели были загружены из от-кувіогоо тлтооошсг Луаи-к 1^и^;шсеЄ с огтощью специализи-а<^^^і^і^о1У і^у^І^с^пОлИшіатип^т^. Зі илщ^^п^і^т1^® для торговли выОцоныткциа аампаауи Аррізтнасааа ПОаУгкдо до уостая-щего момента (19.06.2020).
Дельта цен или изменение цен акций в различные моменты времени представлены изменением значений Close в загруженном временном ряду (Рисунок 2). Другими техническими пока-г анолиыо сазтс: Орат Лцена акций при открытии торгов), High (тыашел знанзигт цшы достигнутое за день торгов), Low (низ-сон значенеє и,лцы достигнутое за день торгов), Adj Close (цена гаклытог при ыгие реЛотвиНсокцик аИзи-торый моселбыть сагиршены шемомеота гті^рьгиияслоуос^іцсео а оасовоса ука),
Том 16, № 3. 2020 ISSN 2411-1473 sitito.cs.msu.ru
Volume (количество акций, с которыми совершались сделки в торговый длов(. Дебтоеение лроизвгдныхтехночеорих псказа-тсеей боддч проиллюстрировано в отдельном разделе.
Date open High LOW close Adj Close volume
0 2014-01-02 79332656 79.575714 76.660001 79.013S70 70.747330 58671200
1 2014-01-03 76980003 79.099996 77.204285 77.262860 69.193306 98116900
2 2014-01-06 76 776572 76114266 76.22SS69 77.704285 69.570625 103152700
3 2014-01-07 77 760002 77.994266 76645711 77.148575 69.073074 79302300
4 2014-01-06 76972655 77.937141 76.955711 77.637146 69 510536 64632400
1623 2020-06-15 333.250000 345.679993 332.579987 342 989990 342 989990 34702200
1624 2020-06-16 351 459991 353.200012 344.720001 352 079987 352 079967 41357200
1625 2020-06-17 355 149994 355 399994 351069996 3515699% 3515899% 28532000
1626 2020-06-16 35 1 410004 353.450012 349.220001 351 730011 351 730011 24205100
1627 2020-06-10 354.640015 356.559996 345.149994 349.720001 349.720001 66072700
Р ис.2. Измененияценитехническихпоказателей F i g. 2. Changes in prices and technical indicators
Изменение состояния среды: списка позиций и их стоимости под влиянием действий агента реализовано с помощью класса Environment1 (рисунок 3). Список позиций или активы, которыми располагает торговый алгоритм изначально задается как пустой python list, который изменяется в зависимости от действий агента (Рисунок 3, строка 12). Значение позиций (стоимость активов) рассчитывается как float значение изначально равное 0 и изменяющееся в зависимости от цен на акции и действий агента (Рисунок 3, строка 13). Класс Environment1 также учитывает награды в зависимости от результатов действий агента (Рисунок 3, строки 21-32). Положительная прибыль трансформируется в положительную награду 1, отрицательная прибыль трансформируется в награду -1 (Рисунок 3, строки 45-48).
В качестве модели обучения была выбрана трехслойная нейронная сеть, реализованная с помощью библиотеки PyTorch. Реализация нейронной сети изображена на рисунке 4.
1 class Environesntl:
2
3 def init (self, data, history_t=90):
+ self.data = data
Б self.history_t = history_t
6 self.resetQ
7
8 def reset(self}:
э self.t = 0
10 self.done = False
11 self.profits = e
12 self.positions = []
13 self.position_value = 0
1+ self.history = [0 for _ in range{self.history_t)]
15 return [self.positior_value] + self.history # obs
16
17 def step(self, act);
IS reward = 0
13
29 # act = 0: hold, l: buy, 2: sell
21 if act == l:
22 self.positions.append(self.data.iloc[self.t, :]['close'])
23 elif act = 2: # sell
24 if len{self.positions) == 0:
2Б reward = -l
26 else:
27 profits = 0
28 for p ir self.positions:
23 profits += (self.data.iloc[self.t, :]['close'] - p)
30 reward += profits
31 self.profits -h= profits
32 self.positions = []
33
34 # set next time
35 self.t -ь= 1
36
37 self.position_value = 0
38 for p in self.positions:
33 self.position_value += (self.data.iloc[self.t, :]['close'] - p)
40 self.history.pop(0)
41 self.history.append{self.data.iloc[self.t, :]['close'] - self.data.iloc[(self.t-l), :]['close'])
42 if (self.t==len(self.data)-l):
43 self.done=True
44 # clipping reward
45 if reward > 0:
46 reward = l
47 elif reward < 0!
48 reward = -l
43 #print ("t=-[%d}, dofie={%str),n£(self.t,self .done))
50 return [self.positior_value] + self.history, reward, self.done # obs, reward, done
Ри с.3.Реализация средыв кодеpython F i g. 3. Environment implementation in python code
Modern Information Technologies and IT-Education
1 class Q_Network(nn.nodule):
2
3 def init <5elf,ob5_len,hidden_siiejaction5_n):
4
5 super((£_Network,self). init {)
6
7 self.fc_val = nn,Sequential{
в пп.і_1пеаг(оЬ£_1еп, hidden_size),
9 nn.ReLU()j
10 nn.Linear(tiidden_si2e, hidden_siie),
и пп.неш(),
12 nn.Linesr(riidden_size, actions_n)
її )
14
15
16 def forward(self,x);
17 h - self.fc_val(x)
IB return (f)
Ріс4^Л’еалр^защм нещюнрой сффи в кодеруШоп I7 ig^^.Ne ural ne^o rk ioiplementatkm m^ftoncod e
Нейрондги сетт имаен о^^/рісщи клюнееые оедамятты: • На юеад перефается сФсатякие оредеї
1 start - time.timeO
2 for epoch in range (epoch_nm):
3
4 pcbs = env.resetO
р 5фГщк Є
6 done = False
7 tctal_reward = 0
s total_loss = 0
9
10
11
12
13
14
15
16 17 IS
19
20 21 22
23
24 26
• На выход передается вектор размерности 3, что соответствует количеству возможных действий агента
• Размерность скрытого слоя нейронной сети 100
• Скорость обучения (learning rate) была установлена на уровне 0,001
• Данные разбиваются на 50 батчей
• Количество эпох 50
• Оптимизатор - Adam
Передача параметров нейронной сети изображена на рисунке 5.
Первым шагом является инициализация среды, включая наблюдения и награды. Q функция передает действие максимизирующее математическое ожидание, основываясь на входных технических показателях. Функция argmax (Рисунок 5 строка 16). Тсплм образом реепио^нся жадная стратегия.Продска-зтнное енаесяие крредиятся е сряду и форщи^пнноюьш набор наалюдлние (іР: Рассеиоыртстсяннкрада фсаповкизтвиис jih-здлюсатами действиаи отязодтакеионсся как выполнентын (ОыернокЯ, строка 43}- В патсеп s охраняетюя поенедыис PNh ре-ФиоиС и соответствующие им наблюдения.
while not done and step < step_nax:
# select act
pact = np.random.randint(3) if np.random.rand() > epsilon:
pact • q(torch.from_numpy(np.array(poOs, dtypesnp.float32).reshape(i, -1))) p3ct = np.argmax(pact.data) pact = pact.nurpyO
# act
obs, reward, done = env.step(pact)
# add memory
memory.append((pobs, pact, reward, obs, done)) if len(memcry) > menory_size: memory.pop(0)
Р и с. 5. Работа модели Fig.5.Modeloperation
В качестве производных показателей будем использовать технические показатевщ ан коворыт часеоериентируются трейдеры. Индикатор Williams %R демонстрирует насколько акция огреоуюыпна или Фсрре-гда нароелтиекуттст на щинапыг ми-и ысксимумыв преды1дущам рртсксе. Для зурПыетпе снижениекяфиванзна ед^е 80 яирнадеаируст о ФеЯ^хеда^-фости акнрыеки депней иФеруыо, довыыеытп ияцккаоорн выаи 20 твидфтнльсскуее о нееОясяимосек гиерьеке икекмую позицию.
°ЫоR = Ф00 *
(C - С4)
((-14 — ^'14)
где, С — Текущаяцена закрытия;
L14— Низшийминимум(LowestLow)запрошедшие 14дней; H14— Высший максимум (Highest High) за прошедшие 14 дней.
Показатель SO (Stochastic Oscillator) демонстрирует расхождение цены закрытия текущего периода относительно цен предыдущих периодов в рамках заданного временного промежутка. Для трейдеров возрастание индикатора выше 80 свидетельствует о скорой остановке роста цены. Снижение индикатора ниже 20свидетельствует о прекращении падения цены.
Совремеесыа ыефыомацискано тфхпдтртое иИЫ-нСфазяванке
—гм 16, 4° Щп ЯтЫД IIS N 2411-1473 sitito.cs.msu.ru
%K
(0,14 - C) (H14 — L14)
(-100)
где, OBVt— балансовый объем в момент t; Volt — Объем торгов в момент t;
Ct— цена закрытия в момент t.
где, С — Текущая цена закрытия;
L14— Низшийминимум (Lowest L4w) запрошедшие 14 дней; Н.— Высшіай максимум (Highest High) за прошедшие 14 дней.
HHpnKaTopMACDanS )L PMovino Average Conveege nce Divergence and Signal Aine), сигналпзирующийо необходиыости .окушки слспітдпжи акции. Обычны при goveggnonHH енссбЛ МАПй снпнальноё nvvno cgoop-воерхтрейдеры іетеимают pe incvve снпаупте екции. gpo перелечении линией MACD сигнальной линии сверху-вниз,трейдерыпринимаютрешение продавать.
MACD = £ieLa12(C) — ЕМА26(И)
SignalLine = ЕМА9( MACD)
Все вышеперечисленные производные финансовые показатели рассчитываются с помощью python библиотеки technical analysislibrary.
Полученные результаты исследования и их обсуждение
Во время проведения проектной работы применим метод обучения с подкреплением Q-learning с трехслойной нейронной сетью для торгового алгоритма на трех наборах данных:
• Наборе стандартных технических показателей
• Наборе производных технических показателей
• Наборе совмещающем стандартные и производные технические показатели.
где, MACD — схождение-расхождение скользящих средних; С — серия цен закрытия;
EMAn— n дневная экспоненциальная скользящая средняя.
Показатель RSI (Relative Strength Index) определяет степень перекупленности или перепроданности акции. Акция переку-п.еоо, шогиоиз-за ажиотежнососдросе происхорит ее ворко-церек. Анция пкрнплпдане,кргдр н рсоуинтате паничеооив про-дпж н^£і нетеоценске. Иодкзаосиь выло 00 стидеотлоскеуот к пидекипненноотр, Яоинзкєєдь нижеЗО тежет есноеоолвонво-долп ж перенекданности.
RSI о= 100 р-
100
ШОУ
30 Avera,дс Gain Over pad 14 dayc
Average Loss Over past 14 days
Осциллятор PROF (Price Rale 0f Chenee), дичоветрирует как сиаьно.гртки р^^ опіике влияют тицену. Пврєсєуслдєєтяи-к^^і^е^сзйі суповой линив е^о^т^то^-ооозлж^Е^кдспонвл ик покуеку обратная ситуация дает сигнал на продажу.
(Со -о Ct-n)
PROC(t) у С f
С-—до
где, Ct— ценазакрытиявмоментt;
Индикатор OBV (On Balance Vуume), основанный на данных о цене акций и объеме сделок по ним. Част о трейдеры используют его для подтверждения тредов. Пересечение индикатора своей скользящей средней может служить сигналом для покупки, если пересечение идет снизу-вверх или продажи, если оереосеенис идее евкр^-вное.
(OBVt-! + Volt, if Ct > Ct-i
OBV(t) ус ] OBV-^ - VoTt, if Ct < Cp-i
T ОЛВУето p II pi T b1
Данные были разбиты на обучающий (0,9) и проверочный (0,1) наборы. Обучающий набор включал значения за даты с 01.01.2014 по 31.10.2019. Проверочный набор включал значения за даты 01.11.2019 по 19.06.2020. Результаты применения алгоритма представлены в таблице 1.
Таблица1. Результаты применения алгоритма на различных наборах данных
Table1. Resultsofapplying the algorithm on various data sets
Стандартные технические показатели Производные технические показатели Стандартные и производные технические показатели
Вложения 10000у.е. 10000 у.е. 10000 у.е.
Прибыль 306,9 у.е. 403,2 у.е 935,6 у.е.
Доходность 3,069% 4,032%. 9,356%
Время обучения bCollab 7мин.26с. 7 мин. 38 с. 7 мин. 27 с.
Худший результат агент показал на стандартных технических показателях (доходность составила 3,069%). Лучший результат агент показал на наборе данных, совмещающем стандартные и производные технические показатели (доходность со-ставила9,356%).
Исходя из полученных результатов, можно сделать вывод, что эффективность (доходность) торгового агента на основе алгоритма Q learning можно повысить посредством передачи ему производных технических показателей.
Нужно отметить, что обучение происходило на данных за период экономического подъема с 01.01.2014 по 31.10.2019. A вот тестовый набор представляет собой данные за период рецессии с 01.11.2019 по 19.06.2020, связанной с мировой эпидемией корона вируса. При этом агент демонстрирует доходность, что говорит об устойчивости используемой модели.
Modern Information Technologies and IT-Education
Заключение
Подводя итог, можно сказать, что в результате проведенного исследования теоретически рассмотрены основы повышения доходности торгового агента: объяснение терминов, метод обучения с подкреплением, применение алгоритма Q-learning для реализации торгового агента. Определены и обоснованы производные технические показатели, проверены результаты работы торгового агента на технических показателях и на производных технических показателях. Авторы эмпирически подтвердили, что применение производных финансовых показателей для повышения эффективности (доходности) торговых агентов на основе метода Q-learning с применением алгоритмов обучения с подкреплением является целесообразным.
Список использованных источников
[1] Alexandre, M. Macroeconomic impacts of trade credit:
An agent-based modeling exploration / M. Alexandre, G. T. Lima.— DOI 10.1016/j.econ.2020.04.002 //
EconomiA.— 2020.— Vol. 21, issue 2.— Pp. 130-144.— URL: https://www.sciencedirect.com/science/article/pii/ S1517758020300321 (дата обращения: 19.06.2020).
[2] Dai, Y. Price delegation and salesforce contract design with
asymmetric risk aversion coefficient of sales agents / Y. Dai, X. Chao. — DOI 10.1016/j.ijpe.2015.11.006 // International Journal of Production Economics.— 2016.— Vol. 172.— Pp. 31-42.— URL: https://www.sciencedirect.com/
science/article/pii/S0925527315004405 (дата обращения: 19.06.2020).
[3] Diaz, E. Is ICT good for employees? An analysis of its effects on sales agents' perceptions of service cannibalization / E. Diaz, D. Martm-Consuegra, A. Esteban.— DOI 10.1016/j.chb.2015.05.012 // Computers in Human Behavior.— 2015.— Vol. 51, part A.— Pp. 263-271 — URL: https://www.sciencedirect.com/science/article/pii/ S0747563215003751 (дата обращения: 19.06.2020).
[4] Soberman, D. A. Marketing agencies, media experts and sales agents: Helping competitive firms improve the effectiveness of marketing / D. A. Soberman.— DOI 10.1016/j.ijresmar.2008.05.003 // International Journal of Research in Marketing.— 2009.— Vol. 26, issue 1.— Pp. 21-33.— URL: https://www.sciencedirect.com/science/ article/pii/S0167811608000815 (дата обращения:
19.06.2020).
[5] Пученкова, В. А. Проблемы организации взаимоотношений менеджера по работе с клиентами (торгового агента) с потенциальными потребителями / В. А. Пученкова // Экономика и социум.— 2016.— № 6-3(25).— С. 268-271.— URL: https://www.elibrary.ru/ item.asp?id=26721288 (дата обращения: 19.06.2020).
[6] Shin, G. H. The profitability of asset sales as an explanation of asset divestitures / G. H. Shin.— DOI 10.1016/j. pacfin.2007.10.004 // Pacific-Basin Finance Journal.— 2008.— Vol. 16, issue 5.— Pp. 555-571.— URL: https://www.sciencedirect.com/science/article/pii/ S0927538X07000686 (дата обращения: 19.06.2020).
Современные информационные технологии и ИТ-образование
[7] Gupta, S. Dynamic Decision Making in Marketing Channels / S. Gupta, J. H. Steckel, A. Banerji.— DOI 10.1007/978-1-4757-5196-3_2 // Experimental Business Research; ed. by R. Zwick, A. Rapoport. — Springer, Boston, MA, 2002.— Pp. 21-47.— URL: https://link.springer.com/ch apter/10.1007/978-1-4757-5196-3_2 (дата обращения:
19.06.2020) .
[8] Syam, N. Waiting for a sales renaissance in the fourth industrial revolution: Machine learning and artificial intelligence in sales research and practice / N. Syam, A. Sharma.— DOI 10.1016/j.indmarman.2017.12.019 // Industrial Marketing Management.— 2018.— Vol. 69.— Pp. 135-146.— URL: https://www.sciencedirect.com/ science/article/pii/S0019850117302730 (дата обращения: 19.06.2020).
[9] Fang, K. Customer profitability forecasting using Big Data analytics: A case study of the insurance industry / K. Fang, Y. Jiang, M. Song. — DOI 10.1016/j.cie.2016.09.011 // Computers & Industrial Engineering.— 2016.— Vol. 101.— Pp. 554-564.— URL: https://www.sciencedirect. com/science/article/pii/S0360835216303515 (дата обращения: 19.06.2020).
[10] Loureiro, L. D. Exploring the use of deep neural networks for sales forecasting in fashion retail / A. L. D. Loureiro, V. L. Migueis, L. F. M. da Silva. — DOI 10.1016/j.dss.2018.08.010 // Decision Support Systems.— 2018.— Vol. 114.— Pp. 81-93.— URL: https://www.sciencedirect.com/science/ article/pii/S0167923618301398 (дата обращения:
19.06.2020) .
[11] Ozdemir, K. A. Understanding latent drivers of firm
behaviour: A new methodological approach applied to agents' company visit scores / K. A. Ozdemir. — DOI 10.1016/j.econmod.2020.11.001 // Economic
Modelling.— 2021.— Vol. 94.— Pp. 455-472.— URL: https://www.sciencedirect.com/science/article/pii/ S0264999320312372 (дата обращения: 19.06.2020).
[12] Дмитриев, Ю. А. Современные подходы к повышению эффективности торгового персонала на глобальном уровне / Ю. А. Дмитриев // Известия Международной академии аграрного образования. — 2018. — № 38. — С. 71-74. — URL: https://www. elibrary.ru/item.asp?id=32464321 (дата обращения:
19.06.2020) . — Рез. англ.
[13] Саханевич, Д. Ю. Исследование подходов и методов применения искусственного интеллекта и машинного обучения в социально-экономических процессах / Д. Ю. Саханевич.— DOI 10.24147/1812-3988.2020.18(2).65-79 // Вестник Омского университета. Серия: Экономика.— 2020.— Т. 18, № 2.— С. 65-79.— URL: https:// www.elibrary.ru/item.asp?id=43843508 (дата обращения: 19.06.2020). — Рез. англ.
[14] Миронов, В. В. Прогнозирование рыночных цен при помощи нейронных сетей / В. В. Миронов, Е. Н. Рябов // ИТ Арктика. — 2016.— № 2.— С. 3-40.— URL: https:// www.elibrary.ru/item.asp?id=32616702 (дата обращения: 19.06.2020). — Рез. англ.
[15] Gerdin, J. The contingent nature of complementarity between results and valuebased controls for managing
Том 16, № 3. 2020 ISSN 2411-1473 sitito.cs.msu.ru
company-level profitability: A situational strength
perspective / J. Gerdin, T. Johansson, G. Wennblom. — DOI 10.1016/j.aos.2019.101058 // Accounting, Organizations and Society. — 2019.— Vol. 79, Article 101058.— URL: https://www.sciencedirect.com/science/article/pii/ S0361368219300534 (дата обращения: 19.06.2020).
[16] Cheng, T. Y. The effect of risk-taking behavior on profitability: Evidence from futures market / T. Y. Cheng, C. I. Lee, C. H. Lin. — DOI 10.1016/j.econmod.2019.04.017 // Economic Modelling. — 2020. — Vol. 86. — Pp. 19-38. -URL: https://www.sciencedirect.com/science/article/pii/ S0264999317319004 (дата обращения: 19.06.2020).
[17] Соколова, Е. С. Алгоритмизация мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий / Е. С. Соколова, К. А. Разинкин.— DOI 10.26102/2310-6018/2020.28.1.040 // Моделирование, оптимизация и информационные технологии. — 2020. — Т. 8, № 1(28). — С. 21-22. — URL: https://www.elibrary.ru/item.asp?id=43136548 (дата обращения: 19.06.2020). — Рез. англ.
[18] Matignon, L. Hysteretic Q-learning: an algorithm for Decentralized Reinforcement Learning in Cooperative Multi-Agent Teams / L. Matignon, G. J. Laurent, N. Le Fort-Piat.— DOI 10.1109/IR0S.2007.4399095 // 2007 IEEE/ RSJ International Conference on Intelligent Robots and Systems. — San Diego, CA, USA, 2007. — Pp. 64-69. — URL: https://ieeexplore.ieee.org/document/4399095 (дата обращения: 19.06.2020).
[19] Медведев, А. В. Анализ экономики региона на основе многокритериальной математической модели / А В. Медведев, А. В. Смольянинов, Л. С. Аврова, Е. Г. Колесникова // Современные проблемы науки и образования.— 2013.— № 6.— С. 886.— URL: https://www. elibrary.ru/item.asp?id=21163321 (дата обращения:
19.06.2020). — Рез. англ.
[20] Ильмуратов, Д. П. Производные финансовые инструменты в формировании портфеля на российском финансовом рынке / Д. П. Ильмуратов // Colloquium-journal.— 2019.— № 13-10(37).— С. 100-105.— URL: https://www.elibrary.ru/item.asp?id=38594693 (дата обращения: 19.06.2020). — Рез. англ.
[21] Крылов, С. И. Сбалансированная система показателей и прикладной стратегический анализ в стратегическом управлении финансами / С. И. Крылов // Экономический анализ: теория и практика.— 2015.— № 18(417). — С. 2-14. — URL: https://www.elibrary.ru/item. asp?id=23422564 (дата обращения: 19.06.2020).— Рез. англ.
[22] Стрельников, Е. В. Проблемы применимости показателей риска производных финансовых инструментов / Е. В. Стрельников // Фундаментальные исследования.— 2013.— № 4-2.— С. 490-493.— URL: https:// www.elibrary.ru/item.asp?id=18814723 (дата обращения: 19.06.2020). — Рез. англ.
[23] Бабич, В. В. Разработка алгоритма продвижения товарной продукции на целевом рынке / В. В. Бабич // Via scientiarum— Дорога знаний.— 2017.— № 1.— С. 147-151.— URL: https://www.elibrary.ru/item.
asp?id=29915123 (дата обращения: 19.06.2020).— Рез. англ.
[24] Ипатьев, И. Р. Управление рисками и основные проблемы использования внебиржевых производных финансовых инструментов. Страхование опционных позиций / И. Р. Ипатьев // Финансовые рынки и банки.— 2020.— № 3.— С. 144-150.— URL: https://www. elibrary.ru/item.asp?id=43118789 (дата обращения:
19.06.2020). — Рез. англ.
[25] Стрельников, Е. В. Изменчивость риска производных
финансовых инструментов / Е. В. Стрельников // Фундаментальные исследования.— 2015.— № 2-16.— С. 3584-3588.— URL: https://www.elibrary.ru/item.
asp?id=23465986 (дата обращения: 19.06.2020).— Рез. англ.
Поступила 19.06.2020; одобрена после рецензирования 18.10.2020; принята к публикации 06.11.2020.
|об авторах:|
Гурин Арсений Станиславович, магистрант департамента анализа данных и машинного обучения, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации» (125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49), ORCID: http://orcid.org0000-0002-8449-3476, gurin-arseny@mail.ru
Гурин Яков Станиславович, магистрант департамента анализа данных и машинного обучения, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации» (125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49), ORCID: http://orcid.org/0000-0003-2774-5048, gurin-yakov@mail.ru
Горохова Римма Ивановна, доцент департамента анализа данных и машинного обучения, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации» (125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49), кандидат педагогических наук, доцент, ORCID: http://orcid. org/0000-0001-7818-8013, rigorokhova@fa.ru Корчагин Сергей Алексеевич, доцент департамента анализа данных и машинного обучения, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации» (125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49), кандидат физико-математических наук, ORCID: http:// orcid.org/0000-0001-8042-4089, sakorchagin@fa.ru Никитин Петр Владимирович, доцент департамента анализа данных и машинного обучения, ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации» (125993, Российская Федерация, ГСП-3, г. Москва, Ленинградский пр., д. 49), кандидат педагогических наук, доцент, ORCID: http://orcid. org/0000-0001-8866-5610, pvnikitin@fa.ru
Все авторы прочитали и одобрили окончательный вариант рукописи.
Modern Information Technologies and IT-Education
References
[1] Alexandre M., Lima G.T. Macroeconomic impacts of trade credit: An agent-based modeling exploration. Econo-miA. 2020; 21(2):130-144. (In Eng.) DOI: https://doi. org/10.1016/j.econ.2020.04.002
[2] Dai Y., Chao X., Price delegation and salesforce contract design with asymmetric risk aversion coefficient of sales agents. International Journal of Production Economics. 2016; 172:31-42. (In Eng.) DOI: https://doi.org/10.1016/j. ijpe.2015.11.006
[3] Diaz E., Martm-Consuegra D., Esteban A. Is ICT good for employees? An analysis of its effects on sales agents' perceptions of service cannibalization. Computers in Human Behavior. 2015; 51(A):263-271. (In Eng.) DOI: https://doi. org/10.1016/j.chb.2015.05.012
[4] Soberman D.A. Marketing agencies, media experts and sales agents: Helping competitive firms improve the effectiveness of marketing. International Journal of Research in Marketing. 2009; 26(1):21-33. (In Eng.) DOI: https://doi. org/10.1016/j.ijresmar.2008.05.003
[5] Puchenkova V.A. Problemy organizacii vzaimootnoshenij menedzhera po rabote s klientami (torgovogo agenta) s po-tencial'nymi potrebiteljami [Problems of organizing relationships between a customer relationship manager (sales agent) with potential customers]. Economics and Society. 2016; 6(3):268-271. Available at: https://www.elibrary.ru/ item.asp?id=26721288 (accessed 19.06.2020). (In Russ.)
[6] Shin G.H. The profitability of asset sales as an explanation of asset divestitures. Pacific-Basin Finance Journal. 2008; 16(5):555-571. (In Eng.) DOI: https://doi.org/10.1016/j. pacfin.2007.10.004
[7] Gupta S., Steckel J.H., Banerji A. Dynamic Decision Making in Marketing Channels. In: Zwick R., Rapoport A. (ed.) Experimental Business Research. Springer, Boston, MA; 2002. p. 21-47. (In Eng.) DOI: https://doi.org/10.1007/978-1-4757-5196-3_2
[8] Syam N., Sharma A. Waiting for a sales renaissance in the fourth industrial revolution: Machine learning and artificial intelligence in sales research and practice. Industrial Marketing Management. 2018; 69:135-146. (In Eng.) DOI: https://doi.org/10.1016/j.indmarman.2017.12.019
[9] Fang K., Jiang Y., Song M. Customer profitability forecasting using Big Data analytics: A case study of the insurance industry. Computers & Industrial Engineering. 2016; 101:554-564. (In Eng.) DOI: https://doi.org/10.1016/j. cie.2016.09.011
[10] Loureiro A.L.D., Migueis V.L., da Silva L.F.M. Exploring the use of deep neural networks for sales forecasting in fashion retail. Decision Support Systems. 2018; 114:81-93. (In Eng.) DOI: https://doi.org/10.1016/j.dss.2018.08.010
[11] Ozdemir K.A. Understanding latent drivers of firm behaviour: A new methodological approach applied to agents' company visit scores. Economic Modelling. 2021; 94:455-472. (In Eng.) DOI: https://doi.org/10.1016/j.econ-mod.2020.11.001
[12] Dmitriev Yu.A. Modern Approaches to Boosting Sales Force Effectiveness at Global Level. Izvestia MAAO. 2018;
Современные информационные технологии и ИТ-образование
(38):71-74. Available at: https://www.elibrary.ru/item.as-p?id=32464321 (accessed 19.06.2020). (In Russ., abstract in Eng.)
[13] Sakhanevich D.Yu. Research of Approaches and Methods of Applying Artificial Intelligence and Machine Learning in Socio-Economic Processes. Herald of Omsk University. Series Economics. 2020; 18(2):65-79. (In Russ., abstract in Eng.) DOI: https://doi.org/10.24147/1812-3988.2020.18(2).65-79
[14] Mironov V.V., Ryabov E.N. Forecasting market prices by using neural networks. ITArctica. 2016; (2):3-40. Available at: https://www.elibrary.ru/item.asp?id=32616702 (accessed
19.06.2020). (In Russ., abstract in Eng.)
[15] Gerdin J., Johansson T., Wennblom G. The contingent nature of complementarity between results and valuebased controls for managing company-level profitability: A situational strength perspective. Accounting, Organizations and Society. 2019; 79:101058. (In Eng.) DOI: https://doi. org/10.1016/j.aos.2019.101058
[16] Cheng T.Y., Lee C.I., Lin C.H. The effect of risk-taking behavior on profitability: Evidence from futures market. Economic Modelling. 2020; 86:19-38. (In Eng.) DOI: https://doi. org/10.1016/j.econmod.2019.04.017
[17] Sokolova E.S., Razinkin K.A. Algorithmization of Multi-Agent Learning with Reinforcement in the Game-Theoretic Problems of Finding Optimal Strategies. Modeling, optimization and information technology. 2020; 8(1):21-22. (In Russ., abstract in Eng.) DOI: https://doi.org/10.26102/2310-6018/2020.28.1.040
[18] Matignon L., Laurent G.J., Le Fort-Piat N. Hysteretic Q-learn-ing: an algorithm for Decentralized Reinforcement Learning in Cooperative Multi-Agent Teams. In: 2007 IEEE/RSJ International Conference on Intelligent Robots and Systems, San Diego, CA, USA; 2007. p. 64-69. (In Eng.) DOI: https:// doi.org/10.1109/IROS.2007.4399095
[19] Medvedev A.V., Smolyaninov A.V., Avrova L.S., Kolesnikova E.G. Analysis of regional economy on the basis of multi-objective mathematical model. Modern problems of science and education . 2013; (6):886. Available at: https://www.eli-brary.ru/item.asp?id=21163321 (accessed 19.06.2020). (In Russ., abstract in Eng.)
[20] Elmuratov J.F. Derivative financial instruments in portfolio on the Russian financial market. Colloquium-journal. 2019; (13-10):100-105. Available at: https://www.elibrary.ru/ item.asp?id=38594693 (accessed 19.06.2020). (In Russ., abstract in Eng.)
[21] Krylov S.I. Balanced scorecard and applied strategic analysis in strategic financial management. Economic Analysis: Theory and Practice. 2015; (18):2-14. Available at: https://www. elibrary.ru/item.asp?id=23422564 (accessed 19.06.2020). (In Russ., abstract in Eng.)
[22] Strelnikov E.V. Theproblems of Usage Risk of Special Financial Instruments. Fundamental research. 2013; (4-2):490-493. Available at: https://www.elibrary.ru/item.as-p?id=18814723 (accessed 19.06.2020). (In Russ., abstract in Eng.)
[23] Babich V.V. Algorithm development promotion of commercial products in the target market. Via scientiarum —
Том 16, № 3. 2020 ISSN 2411-1473 sitito.cs.msu.ru
The Road of Knowledge. 2017; (1):147-151. Available at: https://www.elibrary.ru/item.asp?id=29915123 (accessed
19.06.2020) . (In Russ., abstract in Eng.)
[24] Ipatyev I.R. Risk Management and Basic Problems of OTC Derivatives Dealing. Insurance of Optional Positions. Financial Markets and Banks. 2020; (3):144-150. Available at: https://www.elibrary.ru/item.asp?id=43118789 (accessed
19.06.2020) . (In Russ., abstract in Eng.)
[25] Strelnikov E.V. The Usage Risk of Special Financial Instruments. Fundamental research. 2015; (2-16):3584-3588. Available at: https://www.elibrary.ru/item.as-p?id=23465986 (accessed 19.06.2020). (In Russ., abstract in Eng.)
Submitted 19.06.2020; approved after reviewing 18.10.2020; accepted for publication 06.11.2020.
About the authors:
Arseny S. Gurin, Undergraduate student of the Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation (49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation), ORCID: http://orcid. org0000-0002-8449-3476, gurin-arseny@mail.ru Yakov S. Gurin, Undergraduate student of the Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation (49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation), ORCID: http://orcid. org/0000-0003-2774-5048, gurin-yakov@mail.ru Rimma I. Gorokhova, Associate Professor of the Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation (49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation), Ph.D. (Pedagogy), Associate Professor, ORCID: http://orcid.org/0000-0001-7818-8013, rigorokhova@fa.ru
Sergey A. Korchagin, Associate Professor of the Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation (49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation), Ph.D. (Phys.-Math.), ORCID: http://orcid.org/0000-0001-8042-4089, sakorchagin@ fa.ru
Petr V. Nikitin, Associate Professor of the Department of Data Analysis and Machine Learning, Financial University under the Government of the Russian Federation (49 Leningradskiy prospect, Moscow 125993, GSP-3, Russian Federation), Ph.D. (Pedagogy), Associate Professor, ORCID: http://orcid.org/0000-0001-8866-5610, pvnikitin@fa.ru
All authors have read and approved the final manuscript.
Modern Information Technologies and IT-Education