Научная статья на тему 'ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ВВЕДЕНИЯ ГИПЕРПАРАМЕТРА ДЛЯ ε-ЖАДНОЙ СТРАТЕГИИ МАШИННОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ'

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ВВЕДЕНИЯ ГИПЕРПАРАМЕТРА ДЛЯ ε-ЖАДНОЙ СТРАТЕГИИ МАШИННОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ Текст научной статьи по специальности «Математика»

CC BY
2
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
обучение с подкреплением / ε-жадная стратегия / reinforcement learning / ε -greedy strategy

Аннотация научной статьи по математике, автор научной работы — Д.А. Калинин, Л.В. Липинский

В данной работе рассматривается влияние изменения переменной ε на выходные значения фунции обучения с подкреплением, исследуется характер изменений поведения функции обучения в зависимости от характера изменения ε-переменной.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INVESTIGATION OF THE EFFECTIVENESS OF INTRODUCING A HYPERPARAMETER FOR AN ε -GREEDY REINFORCEMENT LEARNING STRATEGY

This article considers the influence of a change in the variable ε on the output values of the reinforcement learning function, investigates the nature of changes in the behavior of the learning function depending on the nature of the change in the ε variable.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ВВЕДЕНИЯ ГИПЕРПАРАМЕТРА ДЛЯ ε-ЖАДНОЙ СТРАТЕГИИ МАШИННОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ»

УДК 519.7

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ВВЕДЕНИЯ ГИПЕРПАРАМЕТРА ДЛЯ S-ЖАДНОЙ СТРАТЕГИИ МАШИННОГО ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

Д.А. Калинин* Научный руководитель — Л.В. Липинский

Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

* Е-mail: mitya.kalinin1@gmail.com

В данной работе рассматривается влияние изменения переменной е на выходные значения фунции обучения с подкреплением, исследуется характер изменений поведения функции обучения в зависимости от характера изменения е-переменной.

Ключевые слова: обучение с подкреплением, е-жадная стратегия.

INVESTIGATION OF THE EFFECTIVENESS OF INTRODUCING A HYPERPARAMETER FOR AN S -GREEDY REINFORCEMENT

LEARNING STRATEGY

D. A. Kalinin* Scientific supervisor — L.V. Lipinskii

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation

* Е-mail mitya.kalinin1@gmail.com

This article considers the influence of a change in the variable е on the output values of the reinforcement learning function, investigates the nature of changes in the behavior of the learning function depending on the nature of the change in the е variable.

Keywords: reinforcement learning, е -greedy strategy.

Введение. Обучение с подкреплением — один из видов машинного обучения, при котором происходит обучение модели, которая не имеет сведений о системе, но имеет возможность производить какие-либо действия в ней. Действия переводят систему в новое состояние и модель получает от системы некоторое вознаграждение [1].

Из принятой классификации методов данного вида машинного обучения выбраны несколько, и протестированы на задаче «Taxi» из общедоступной библиотеки OpenAI для языка программирования Python — Gym.

Условия задачи: «Есть 4 места (обозначенные разными буквами), и ваша задача — забрать пассажира в одном месте и высадить его в другом. Вы получаете +20 очков за успешную высадку и теряете 1 очко за каждый необходимый временной шаг. Существует также штраф в размере 10 баллов за незаконные действия по подбору и высадке пассажиров» [2].

На рис. 1 представлена задача в текстовом виде, где жёлтый прямоугольник обозначает агента, — такси, — буква голубого цвета обозначает пассажира, буква фиолетового цвета — пункт назначения. Место пассажира и пункта назначения каждый раз выбираются случайно.

Секция «Математические методы моделирования, управления и анализа данных»

Рис. 1. Иллюстрация задачи

Обзор существующих механик обучения. Стандартное Q-обучение предполагает обыкновенно «жадную» стратегию [3], цель которой — выбрать вариант развития событий с наибольшей выручкой:

ееЯ,^) ^ссЯ,^) + а [йс+1 + утах&&+1,а))- 0(5С,ЛС)]

(1)

В некоторых ситуациях такая стратегия может в конечном итоге оказаться менее выигрышной, если функция «застрянет» в локальном максимуме, и не найдёт путей для выхода из него. Для таких случаев используется стратегия 8-жадной стратегии, когда вводится дополнительный параметр, ответственный за принятие агентом спонтанных решений [4]. Такой подход становится более эффективным для классов задач, однако для других классов задач может оказаться менее эффективным, чем обычная «жадная» стратегия [5]. Для целей повышения этой эффективности предлагается ввести гиперпараметр, который будет отвечать за скорость изменения значения 8 с течением времени.

Практические результаты. Сравнительные графики для различных стратегий для последних десяти итераций обучения представлены на рис. 2.

Сравнение стратегий с различными параметрами

жадная стратегия

■ Жадная стратегия с неизменным параметром

■ Жадная стратегия с изменяющимся параметром

Порядковый номер эксперимента

Рис. 2. Сравнение стратегий за последние 10 итераций обучения

На рис. 3 представлены графики для различных стратегий для первых ста итераций обучения. Из этих данных можно сделать вывод, что для данной задачи стратегия с гиперпараметром обучается быстрее 8-жадной стратегии с неизменным параметром.

Сравнение стратегий с различными параметрами

Порядковый номер эксперимента

Рис. 3. Сравнение стратегий за первые 100 итераций обучения

Вывод. В ходе решения данной задачи наиболее эффективной показала себя обычная «жадная» стратегия, при которой агент обучения не полагается на случайное условие изучения окружающей среды, а выбирает наиболее эффективное решение, исходя из условий собственного нахождения. С другой стороны, s-жадная стратегия показала себя менее эффективно по сравнению с обычной жадной стратегией, а также при сравнении со стратегией, в которой параметр s изменяется с течением времени, из чего возможно сделать вывод, что уменьшение параметра s с течением времени позволяет системе в начале своего развития изучать окружающую среду, а в конечных итерациях цикла находить наиболее выгодную стратегию, эффективность которой примерно сопоставима с жадной стратегией без параметра s.

Библиографические ссылки

1. Обучение с подкреплением для самых маленьких [Электронный ресурс] URL: https://habr.com/ru/post/308094/ (дата обращения 07.04.2022)

2. Taxi-v3 [Электронный ресурс] URL: https://gym.openai.com/envs/Taxi-v3/ (дата обращения 07.04.2022)

3. Q-Learning [Электронный ресурс] URL: https://www.sciencedirect.com/topics/ engineering/q-learning (дата обращения 07.04.2022)

4. An introduction to Q-Learning: reinforcement learning [Электронный ресурс] URL: https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/ (дата обращения 07.04.2022)

5. Exploration vs. Exploitation in Reinforcement Learning [Электронный ресурс] URL: https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning (дата обращения 07.04.2022)

© Калинин Д. А., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.