Научная статья на тему 'АЛГОРИТМ ПРЕДСКАЗАНИЯ ВЕРОЯТНОСТИ УСПЕХА ПЕРЕДАЧИ СИГНАЛА В БЕСПРОВОДНОЙ СИСТЕМЕ СВЯЗИ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ'

АЛГОРИТМ ПРЕДСКАЗАНИЯ ВЕРОЯТНОСТИ УСПЕХА ПЕРЕДАЧИ СИГНАЛА В БЕСПРОВОДНОЙ СИСТЕМЕ СВЯЗИ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
31
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АДАПТИВНАЯ ГЕНЕРАЦИЯ И КОДИРОВАНИЕ / БЕСПРОВОДНАЯ СИСТЕМА СВЯЗИ / МАТРИЦА ФОРМИРОВАНИЯ ЛУЧА / МАШИННОЕ ОБУЧЕНИЕ / НЕЙРОННЫЕ СЕТИ / СПЕКТРАЛЬНАЯ ЭФФЕКТИВНОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бобров Е.А.

В настоящей работе описывается динамический алгоритм машинного обучения для прогнозирования вероятности успешной передачи сигнала и адаптивного формирования и кодирования сигнала в массивной системе MIMO (Multiple Input Multiple Output). Алгоритм основан на полносвязной нейронной сети, которая первоначально обучается на выходе стандартного алгоритма OLLA (Outer Loop Link Adaptation), а затем постепенно дообучается по принципу обратной связи с беспроводной системой. Для обоснования качества работы предложенного алгоритма проводится численное моделирование системы MIMO в различных сценариях, с различными характеристиками канала связи и с различными скоростями обслуживаемых пользователей. В статье показано преимущество предложенного алгоритма над современным алгоритмом Q-обучения и стандартной схемой OLLA.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бобров Е.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ALGORITHM FOR PREDICTING THE PROBABILITY OF SIGNAL TRANSMISSION SUCCESS IN A WIRELESS COMMUNICATION SYSTEM USING MACHINE LEARNING

This paper describes a dynamic machine learning algorithm for predicting the probability of successful signal transmission and adaptive signal shaping and coding in a massive MIMO (Multiple Input Multiple Output) system. The algorithm is based on a full-link neural network, which is initially trained on the output of a standard OLLA (Outer Loop Link Adaptation) algorithm, and then gradually refined on the principle of wireless system feedback. In order to substantiate the performance quality of the proposed algorithm, numerical simulation of the MIMO system in different scenarios, with different link characteristics and with different speeds of served users is conducted. The paper shows the advantage of the proposed algorithm over the modern Q-learning algorithm and the standard OLLA scheme.

Текст научной работы на тему «АЛГОРИТМ ПРЕДСКАЗАНИЯ ВЕРОЯТНОСТИ УСПЕХА ПЕРЕДАЧИ СИГНАЛА В БЕСПРОВОДНОЙ СИСТЕМЕ СВЯЗИ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ»

УДК 519.724.2

Е.А. Бобров1

АЛГОРИТМ ПРЕДСКАЗАНИЯ ВЕРОЯТНОСТИ УСПЕХА ПЕРЕДАЧИ СИГНАЛА В БЕСПРОВОДНОЙ СИСТЕМЕ СВЯЗИ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ

В настоящей работе описывается динамический алгоритм машинного обучения для прогнозирования вероятности успешной передачи сигнала и адаптивного формирования и кодирования сигнала в массивной системе MIMO (Multiple Input Multiple Output). Алгоритм основан на полносвязной нейронной сети, которая первоначально обучается на выходе стандартного алгоритма OLLA (Outer Loop Link Adaptation), а затем постепенно дообучается по принципу обратной связи с беспроводной системой. Для обоснования качества работы предложенного алгоритма проводится численное моделирование системы MIMO в различных сценариях, с различными характеристиками канала связи и с различными скоростями обслуживаемых пользователей. В статье показано преимущество предложенного алгоритма над современным алгоритмом Q-обучения и стандартной схемой OLLA.

Ключевые слова: адаптивная генерация и кодирование, беспроводная система связи, матрица формирования луча, машинное обучение, нейронные сети, спектральная эффективность.

1. Введение. В настоящем разделе приводится краткий обзор современных методов оптимизации сигнала и диагностики канала связи. Процесс адаптивной генерации и кодирования (Adaptive Modulation and Coding — AMC), осуществляемый при адаптации канала связи, — это важнейшая часть современных беспроводных систем связи. Этот процесс становится особенно важным и сложным в массивных системах MIMO с динамическим формированием луча. Передовые методы AMC позволяют значительно увеличить скорость передачи данных, которые могут быть переданы [1].

В соответствии с процедурой AMC нисходящего канала нового радио (5G) [2] пользовательское оборудование (User Equipment — UE) должно предложить обслуживающей базовой станции (Base Station — BS) соответствующую схему генерации и кодирования (Modulation and Coding Scheme — MCS) для использования в следующей передаче. Предоставляемое UE значение MCS на базовой станции определяется с помощью индикатора качества канала (Channel Quality Indicator — CQI). Однако этого показателя недостаточно для высокопроизводительного обслуживания. Первая причина заключается в том, что каждый CQI связан с интервалом отношения сигнал/помеха/шум (Signal-to-Interference-and-Noise-Ratio — SINR), который может соответствовать более чем одному MCS. Кроме того, в массивных системах MIMO точность CQI ограничена количеством конкретных антенных портов, которое обычно меньше, чем количество передающих антенн на BS. В связи с этим BS не может полагаться только на отчет CQI пользователя при выборе MCS. Поэтому для достижения этой цели предлагаются различные методы AMC.

Известная схема с обратной связью (Outer Loop Link Adaptation — OLLA) была впервые предложена в [3]. Схема OLLA изменяет оценку SINR на основе CQI путем смещения [4,5], которое может быть положительным (делая выбор MCS более консервативным) или отрицательным (когда выбор CQI был слишком оптимистичным). Это смещение обновляется на основе коэффициента успешной передачи транспортных блоков так, чтобы средний коэффициент ошибок блока был как можно ближе к заданной цели [6].

Следует отметить, что семейство алгоритмов OLLA использует только информацию о последней передаче данных и не учитывает более точные SINR данные о канале, например, измерения

1 Факультет ВМК МГУ, асп., e-mail: eugenbobrovQya.ru

на основе зондирования (Sounding Reference Signals — SRS). В противоположность этому предлагается применять адаптивный и самообучающийся алгоритм, который предсказывает следующий MCS, используя доступные измерения, связанные с SINR. Алгоритм выполняет как сопоставление SINR и данных канала с оптимальным MCS, так и обучение (самообучение) в режиме онлайн. Настоящая работа является продолжением работы автора [7].

1.1. Работа в условиях нестационарной среды. Основное преимущество нового алгоритма глубокого обучения — это способность адаптироваться к различным средам, различным типам каналов и различным условиям сценария, которые BS не может измерить напрямую, например, скорость UE. Из-за эффекта старения канала скорость пользователя — это важный скрытый фактор для оптимального выбора MCS, и его трудно уловить с помощью предварительно обученной модели на основе искусственного интеллекта. В подходе модель способна адаптивно обучаться поведению UE и неявно учитывать его скорость.

Эта проблема называется дрейфом концепции [8]. Она описывается как ситуация, когда некоторые скрытые особенности важны и меняются со временем, но не могут быть измерены. Таким образом, задача попадает в класс алгоритмов инкрементального обучения [9], которые приступают к оптимизации в нестационарных средах, таких, как массивный MIMO-сервис мобильного UE. В работе [10] также изучался подход глубокого обучения в сценариях массивного MIMO.

Традиционная OLLA адаптирует свое смещение на основе обратной связи HARQ-подтверждения (Acknowledge — АСК) для передаваемого транспортного блока. Адаптация выполняется только в случае передачи. В этом отношении техника OLLA сильно зависит от характеристик трафика. Если трафик разрежен по сравнению с вариациями канала, адаптация OLLA может не достичь удовлетворительного качества. Однако другие современные алгоритмы, такие, как, например, eOLLA [6], могут обновлять свое смещение независимо от того, осуществляется передача или нет, что очень удобно для сценариев с всплесками трафика.

2. Линейная модель беспроводной системы связи. В настоящем разделе кратко описывается модель однопользовательской MIMO-системы. В системе MIMO есть возможность передавать несколько информационных символов многоантенному пользователю на одном физическом ресурсе. Количество таких символов называется рангом пользователя. При определенных условиях канала более высокий ранг пользователя может значительно увеличить количество передаваемой информации, но в то же время он повышает требования к качеству канала. Однопользовательская модель MIMO описывается следующей линейной системой: r = G(HWx + n).

Здесь r € CL — вектор символов, задетектированных на приемнике, x € CL — вектор отправленных символов, H € CRxT — канальная матрица, W € CTxL — матрица прекодирования, G € CLxR — матрица детектирования и n ~ CN(0,1£) — вектор шума. Константа T — число передающих антенн, R — число приемных антенн, L — ранг пользователя. Предполагается, что они связаны следующим образом: L ^ R ^ T. Для матрицы детектирования G предполагается

W

структура решения выглядит по образу работы [6]. Алгоритм прогнозирует вероятность успешного подтверждения для каждого MCS, учитывая SINR.

3. Структура предлагаемого алгоритма. В настоящем разделе приводится схема нового алгоритма, модель нейронной сети и сложность обучения с использованием подхода буфера выборки. Предлагается рассматривать произведение спектральной эффективности и вероятности успешной передачи и максимизировать полученное значение при возможных вариантах выбора MCS:

mcssE (sinr) = argmax{pw (acklmcs,sinr)SE(mcs)}. (1)

mcs

Этот подход соответствует максимизации ожидаемой пропускной способности в предположении вероятностной схемы Бернулли. Здесь pw(acklmcs, sinr) — это модель нейронной сети, которая предсказывает вероятности и имеет веса w в качестве параметров для оптимизации. На этапе вывода нейронная сеть принимает на вход оценки SINR для конкретной частоты и MCS и выдает на выходе вероятность подтверждения. Алгоритм перебирает значения MCS и выбирает

Рис. 1. Блок-схема предложенного алгоритма глубокого обучения

схему, которая обеспечивает максимальную ожидаемую пропускную способность (см. рис. 1).

В настоящее время наблюдается тенденция к использованию метода Q-обучения (также называемого обучением с подкреплением) для решения задачи адаптивной генерации и кодирования (АМС) [13]. Эта техника рассматривает выбор MCS как действие обучаемого агента.

Хотя глубокое Q-обучение (DQN) широко применяется в системах беспроводной связи и может быть применено и к этой задаче [14], утверждается, что такое применение не является естественным. Предлагается альтернативная схема (1) с использованием классического глубоких) обучения, которая, как оказалось, превосходит Q-обучение.

Выбор архитектуры основан на следующих наблюдениях.

1. В модели АМС все действия выполняются немедленно, а задержка вознаграждения строго определена заранее. Вознаграждение не зависит от будущих действий, как, например, в шахматной игре, которая моделируется Q-обучением.

2. Действия обученного агента никак не влияют на MIMO-систему. Фактический SINR трансмиссии не зависит от выбранного MCS.

3. Канал связи, измерения базовой станции (BS) и прекодирование в общем случае изменяются во времени. Таким образом, имеется последовательный доступ к входным данным (признакам) и обучающим результатам (меткам). Более старые данные становятся неактуальными.

Наблюдения (1) и (2) мотивируют использование традиционного подхода глубокого обучения, а не Q-обучения. Рассматривается предсказание подтверждения (АСК) как задача двоичной классификации и используется схема (1) для выбора оптимального MCS. Наблюдение (3) мотивирует использование онлайн-подхода.

По сравнению с Q-обучением основным отличием нового подхода является использование бинарной логистической функции потерь (log-loss) вместо Q-обучения Temporal-Difference (TD)-Loss [15]. Таким образом, осуществляется переход к задаче бинарной классификации вместо максимизации отложенной награды (1) и вместо моделирования влияния на систему действий агента (2).

Важно, что для данного типа оптимизации не требуется моделировать цепочку будущих действий. Действительно, предложенный алгоритм предсказывает только MCS для следующей передачи, в то время как подход Q-обучения предсказывает цепочку будущих действий (которые заключены в Q-значениях). Таким образом, новый алгоритм больше подходит для решения задачи выбора MCS и, как показывается далее, обеспечивает более стабильную работу.

В качестве конкурента новому решению рассматривается следующая регрессионная модель Q-обучения [13,14], которая выбирает MCS на основе следующего принципа максимизации:

mcssE(sinr) = argmax{(аеЩтсв, sinr)}. (2)

mcs

Здесь qWE(acklmcs, sinr) — это регрессия па основе нейронной сети, предсказывающая вещественные скалярные значения. Модель Q-обучения настраивается на вознаграждения r(ack,mcs) = SE(mcs)[ack], где [ж] — индикаторная функция, которая возвращает 1, если условие x истинно, и 0, в противном случае. Условие ack соответствует получению подтверждения успеха. Более подробно об этом будет сказано в следующем разделе.

2 4 6

Рис. 2. Временная ось работы нового алгоритма: 1 включена схема OLLA, которая собирает первичный набор данных; 2 — оптимизация параметров wf нового алгоритма из начального случайного приближения; 5 — новый алгоритм работает с параметрами wf, собирая в буфер памяти дополнительные данные, которые заменяют собой наиболее старые измерения; 4 — оптимизация параметров wf нового алгоритма из оптимальной точки предыдущего шага: w¡¿ = wf; 5 — новый алгоритм работает с параметрами wf; 6 — оптимизация параметров wf нового алгоритма: w§ = wf

3.1. Нейросетевая модель. В настоящей работе предлагается использовать простую нейронную сеть для бинарной классификации с двумя скрытыми слоями. Эта модель является легкой, быстро обучаемой и устойчивой к изменениям окружающей среды в условиях онлайн-обучения. В предложенной модели классификации используется стандартная сигмоидная функция, которая принимает любой вещественный входной сигнал t и выдает значение от нуля до единицы. Сигмоидная функция а : R — (0,1) определяется как: a(t) = 1/(1 + e-t).

Таким образом, вероятность успеха ack выражается в терминах сигмоидной функции а в зависимости от аргументов mcs и sinr через функцию fw, которая в свою очередь является функцией нейронной сети с весами w: pw(ack\mcs, sinr) = a(fw(mcs, sinr)).

Выход модели для заданного вектора входных признаков может быть интерпретирован как вероятность и служит основой для классификации. Метод оптимизации вычисляет функцию качества для всех наблюдений n € {1,... ,N}, на которых от обучен. Ф ункция J подсчитывает log-вероятности АСК следующим образом, где ackn € {0,1} — истинный отклик, который приходит после завершения действия, a pw — вероятностная модель получения ackn, которая является

функцией признаков {sinrn,mcsn}: 1 N

'Hw) = TT / (ackn\ogpw(ackn\sinrn,m.csn) + (l—ackn)\og(l—pw(ackn\sinrn,m.csn))) —> max. (3)

Nw n=1

Для подхода Q-обучения к вознаграждению применяется функция MSE-Loss. Поскольку в системе отложенного вознаграждения не предусмотрено, функция TD-Loss имеет значение сглаживающего параметра y = 0 [15]:

1 N 2

F(w) Т7 V (qw{ackn\sinrn, mcsn) - r(ackn, mcsn)) min. (4)

Nw n=1

3.2. Сложность алгоритма. Для процесса онлайн-обучения используется алгоритм Adam один из самых совершенных градиентных алгоритмов первого порядка [16]. Стоит отметить, что полученное на текущем шаге оптимизации решение (оптимальные веса модели) может быть использовано в качестве начальной точки для следующего шага переобучения w^+i, в результате чего получается следующее отношение: wO+i = (см. рис. 2). Из этого следует, что в практической реализации достаточно сделать несколько градиентных шагов на этапе переобучения модели.

Поскольку алгоритм работает в режиме онлайн, его необходимо дообучать на новые данные. Предлагается использовать буфер памяти для каждого пользователя, содержащий последние

(к+1)-й набор данных

Новые данные

к-й набор данных

Рис. 3. Буфер памяти данных нового алгоритма

измерения канала: характеристики SINR, выбранный MCS и результат передачи ack/nack. Данные буфера обновляются в порядке FIFO (First-In-First-Out); самые старые образцы заменяются самыми новыми. Механизм буфера памяти представлен на рис. 3.

Предлагается добавлять новые образцы в буфер с адаптивной частотой подвыборки данных, чтобы избежать ситуации, когда большинство характеристик остаются неизменными между измерениями канала. Таким образом, размер буфера памяти и скорость дообучения значительно уменьшаются без потери качества предсказания. Качество предсказания потенциально может даже улучшиться, поскольку буфер памяти расширяется до своих пределов. Для экспериментов с пользователями с непрерывным трафиком частота подвыборки выбирается как величина, обратная вероятности длины прослушивания канала, исключая пилотные сигналы.

Схема нового алгоритм,а глубокого обучения и, Q-обучения с буфером, памяти Алгоритмы 1 и 2. Различия в описании алгоритмов состоит в используемых функциях обучения и активации выходного слоя нейросети.

Параметры: начальное значение yo и размер шага d OLLA, начальный CQI co, заданная величина BLER (BLock Error Rate) b, размер буфера U, период дообучения N. Инициализация: OLLA: y = yo, CQI: c = co, буфер выборки размером U и модель нейронной сети A(w) с числом узлов P и числом связей Q. Сложность вычислений: O(Q/N) и память O(PU). Для каждого шага k = 1,... ,U выполнять:

Установить MCS ^ max(min(round(c + y), 1), k);

Получить и поместить в буфер этикетки: АСК или NACK: a € {0,1}, и характеристики: CQI c € {1,..., n}, SINR s € Rm, MCS € {1,... , k}; Обновить параметры OLLA: y ^ y + da — d(1 — a)(1 — b)/b; Обучить A(w), ориентируясь на J (3) или F (4) и используя буфер памяти; Конец цикла

Для каждого шага к = U + 1, U + 2,... выполнять:

Установить MCS ^ A(w) предсказания нейросети по формулам (1) или (2); Получить и, заменить самые старые значения буфера: метки АСК или NACK: a € {о, 1}, и признаки CQI c € {1,... ,n}, SINR s € Rm, MCS € {1,..., k}; Если к mod N = 0 тогда

Инициализировать параметры нейросети из предыдущего шага: wO =

A

Конец условия Конец цикла

Входные данные нейронной сети в предлагаемом подходе и в современном подходе Q-обучения совпадают для обоих алгоритмов. Пространство признаков алгоритмов состоит из: SINR для каждой пользовательской антенны (RxNum = 4 для экспериментов); сообщаемого CQI; временного интервала от последнего зондирования; величины RSRP (Reference Signal Received Power) и одного из значений MCS. Дополнительные параметры смещения настраиваются для каждого уровня

Рис. 4. Блок-схема используемой нейронной сети

сети. На выходном слое прогнозируется успех трансмиссии. Применяется стандартный способ нормализации входных данных путем вычитания среднего значения и деления его на стандартное отклонение для каждого признака но всем выборкам. Структура нейросети представлена на рис. 4.

Структура нейронных сетей нового алгоритма и Q-обучения одинакова во всех аспектах, за исключением функций активации на скрытом слое и выходном слое. Новый алгоритм для выходного слоя использует сигмоидную функцию, а метод Q-обучения тождественную. В качестве скрытого слоя предложенный алгоритм использует активацию ReLU, а Q-обучение гиперболический тангенс (tanh). Это различие мотивировано разницей в задачах, которые решают модели.

Предложенный алгоритм решает задачу бинарной классификации, предсказывая вероятность успеха, а модель Q-обучения решает задачу регрессии, предсказывая вещественные Q-значения. Замечено, что для задачи классификации ReLU подходит больше, чем tanh, а для задачи регрессии tanh лучше, чем ReLU. Таким образом, выбраны такие функции активации, которые дают наилучшие результаты качества предсказания для каждого из рассмотренных подходов.

4. Результаты моделирования на уровне системы MIMO. В настоящем разделе описаны результаты численного моделирования. Во-первых, сравниваются предложенный алгоритм машинного обучения со стандартной схемой OLLA. Выигрыш и проигрыш в производительности рассчитываются по отношению к производительности алгоритма OLLA. Получаются стабильные, равномерно лучшие результаты по сравнению со стандартным методом. В среднем, предложенный алгоритм увеличивает пропускную способность системы MIMO от 12,64% до 21,52% в зависимости от скорости пользователя (см. табл. 1). Средние значения получены из 10 случайных инициализаций среды эксперимента. Ранги пользователей: 1 3. Скорости: 3 км/ч и 60 км/ч. Преимущество нового алгоритма заключается в использовании дополнительной информации, основанной на измерениях SINR. Следует также отметить, что механизм работы обратной связи OLLA слишком консервативен в быстро меняющейся среде.

4.1. Улучшение качества с помощью машинного обучения. Приводятся экспериментальные результаты для различных скоростей, рангов пользователей и случайных стартовых значений. Новый алгоритм не настраивается вручную для различных условий системы: все гиперпараметры модели остаются неизменными. Это важно, поскольку в настоящей коммерческой системе базовая станция не имеет информации о скорости пользователя и, тем более, о его окружении (например, городском, сельском и т.д.). Предложенная онлайн-модель глубокого обучения выполняет отображение измерений SINR с оптимальным значениями MCS. Наиболее значительное преимущество достигается на подъемах и спадах качества SINR, поскольку новый алгоритм более адаптивен к мгновенному SINR, чем OLLA, и мгновенно сходится к оптимальному MCS.

Таблица 1

Выигрыш в спектральной эффективности нового алгоритма по сравнению с OLLA

Ранг 1 Ранг 2 Ранг 3

Скорость Метод Новая Выигрыш Метод Новая Выигрыш Метод Новая Выигрыш

агента OLLA схема в качестве OLLA схема в качестве OLLA схема в качестве

3 км/ч 1.71 1.96 14.76% 2.4 2.83 18.15% 2.61 3.09 18.62%

60 км/ч 0.84 0.91 14.27% 1.08 1.21 19.24% 1.07 1.23 21.52%

Таблица 2

Выигрыш в спектральной эффективности нового алгоритма и современного Q-обучения по

сравнению со стандартным подходом OLLA

Выигрыш над OLLA Ранг 1 Ранг 2 Ранг 3 Ранг 4

Новый алгоритм 8.47% 14.30% 23.70% 22%

Современное Q-обучение 2.73% 7% 16% 18%

4.2. Сравнение производительности алгоритмов. Далее сравнивается производительность нового алгоритма с производительностью алгоритма Q-обучения. Результаты моделирования показывают, что новый алгоритм работает равномерно лучше по всем сценариям для всех рангов пользователей (1-4) при скорости 30 км/ч и случайной траекторией перемещения (см. табл. 2).

5. Заключение. В настоящей работе предлагается новое решение по адаптивной генерации и кодированию для массивных MIMO-систем. Этот алгоритм учится предсказывать вероятность успеха передачи для различных значений MCS и выбирает MCS с наибольшей ожидаемой пропускной способностью. Результаты моделирования показывают, что предложенный метод превосходит как подход Q-обучения, так и традиционный метод адаптации канала внешнего контура OLLA.

По сравнению со стандартным алгоритмом OLLA, новый метод улучшает производительность системы MIMO в сценарии с непрерывным трафиком. В работе дано объяснение этому преимуществу. Предложенный подход имеет меньшую сложность и обеспечивает лучшую и более стабильную работу, чем стандартный метод Q-обучения. Кроме того, предложенный метод полностью совместим с текущими спецификациями 5G RAN (Radio Access Network). Анализ проблемы ЛМС. представленный в настоящей работе, обеспечивает разработку лучших по качеству и более простых решений на основе нейросети для адаптивного выбора MCS в массивных MIMO-системах.

СПИСОК ЛИТЕРАТУРЫ

1. Chung S. Т., Goldsmith A. J. Degrees of freedom in adaptive modulation: a unified view / / IEEE Transactions on Communications. 2001. 49. N 9. P. 1561-1571.

2. H u h H., Tulino A. M., С aire G. Network MIMO with linear zero-forcing beamforming: Large system analysis, impact of channel estimation, and reduced-complexity scheduling // IEEE Transactions on Information Theory. 2011. 58. N 5. P. 2911-2934.

3. Sam path A., Kumar P. S., Holtzman J. M. On setting reverse link target SIR in a CDMA system // 1997 IEEE 47th Vehicular Technology Conference. Technology in Motion, Vol. 2. IEEE.

1997. P. 929-933.

4. Song P., Jin S. Performance evaluation on dynamic dual layer beamforming transmission in TDD LTE system // 2013 Third International Conference on Communications and Information Technology (ICCIT), IEEE. 2013. P. 269-274.

5. Pedersen К. I., Monghal G., К о vacs I. Z., et al. Frequency domain scheduling for OFDM A with limited and noisy channel feedback // 2007 IEEE 66th Vehicular Technology Conference, IEEE, 2007. P. 1792-1796.

6. Blanquez-Casado F., Gomez G., del Carmen Aguayo-Torres M., Entrambasaguas J. T. eOLLA: an enhanced outer loop link adaptation for cellular networks // EURASIP Journal on Wireless Communications and Networking. 2016. 2016. N I. P. 1-16.

7. В о b г о v E., К г о p о t о v D., Lu H., Z a e v D. Massive MIMO adaptive modulation and coding using online deep learning algorithm // IEEE Communications Letters. 2022. 26. N 4. P. 818-822.

8. G a m a J., Z 1 i о b a i t é I., В i f e t A., et al. A survey on concept drift adaptation // ACM Computing Surveys (CSUR). 2014. 46. N 4. P. 1-37.

9. Krawczyk В., С an о A. Online ensemble learning with abstaining classifiers for drifting and noisy-data streams // Applied Soft Computing. 2018. 68. P. 677-692.

10. Wen C.-K., Shih W.-T., Jin S. Deep learning for massive MIMO CSI feedback // IEEE Wireless Communications Letters. 2018. 7, N 5. P. 748-751.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Wubben D., Bohnke R., Kuhn V., Kammeyer K.-D. Near-maximum-likelihood detection of MIMO systems using MMSE-based lattice-reduction // 2004 IEEE International Conference on Communications. Vol. 2. IEEE, 2004. P. 798-802.

12. Sun L., M с К ay M. R. Eigen-based transceivers for the MIMO broadcast channel with semi-orthogonal user selection // IEEE Transactions on Signal Processing. 2010. 58. N 10. P. 5246-5261.

13. M ota M. P., A r au jo D. C., Net о F. H. С., et al. Adaptive modulation and coding based on reinforcement learning for 5g networks // 2019 IEEE, Globecom Workshops (GC Wkshps). IEEE. 2019. P. 1-6.

14. Zhang L., Tan J., Liang Y.-C. et al. Deep reinforcement learning-based modulation and coding scheme selection in cognitive heterogeneous networks // IEEE Transactions on Wireless Communications. 2019. 18. N 6. P. 3281-3294.

15. T e s a u г о G. et al. Temporal difference learning and TD-Gammon // Communications of the ACM. 1995. 38. N 3. P. 58-68.

16. К i n g m a D. P., В a J. Adam: A method for stochastic optimization // arXiv preprint arXiv: 1412.6980. 2014.

Поступила в редакцию 31.03.22 Одобрена после рецензирования 10.06.22 Принята к публикации 10.06.22

i Надоели баннеры? Вы всегда можете отключить рекламу.