Научная статья на тему 'Применение методов машинного обучения на основе решающих деревьев для компенсации нелинейных искажений в волоконно-оптических линиях связи'

Применение методов машинного обучения на основе решающих деревьев для компенсации нелинейных искажений в волоконно-оптических линиях связи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
129
72
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ракитский А. А., Редюк А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение методов машинного обучения на основе решающих деревьев для компенсации нелинейных искажений в волоконно-оптических линиях связи»

ВКВО-2019- ВОСПИ

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

НА ОСНОВЕ РЕШАЮЩИХ ДЕРЕВЬЕВ ДЛЯ КОМПЕНСАЦИИ НЕЛИНЕЙНЫХ ИСКАЖЕНИЙ В ВОЛОКОННО-ОПТИЧЕСКИХ ЛИНИЯХ СВЯЗИ

1 2 3*

Ракитский А.А. ' ' , Редюк А.А.

2,1

1 Новосибирский государственный университет, г. Новосибирск 2Институт вычислительных технологий СО РАН, г. Новосибирск 3 Сибирский государственный университет телекоммуникаций и информатики, г. Новосибирск

* E-mail: rakitskY.anton@gmail.com

DOI 10.24411/2308-6920-2019-16057

В настоящее время методы машинного обучения получили широкое распространение и применение практически во всех областях науки. Целесообразность применения таких методов в исследованиях, связанных с волоконно-оптическими линиями связи, была показана, например, в работах [1,2]. Тем не менее, существуют перспективные методы машинного обучения, возможность применения которых для решения задачи компенсации нелинейных искажений ранее не исследовалась. К таким методам относятся, в том числе, ансамбли классификаторов, базирующиеся на решающих деревьях, такие как Random Forest [3], Extra Trees и Gradient Boosting. Важными плюсами таких методов, благодаря которым на них пал выбор в данной работе, являются легкая интерпретируемость получаемых результатов и относительно низкая потребность в вычислительных ресурсах. Например, для классификации объекта при помощи «случайного леса», состоящего из 100 деревьев глубиной не более 10, потребуется не более 1000 операций сравнения без использования операций умножения.

При выполнении данной работы было проведено исследование возможности применения описанных выше алгоритмов для компенсации нелинейных искажений в волоконно-оптических линиях связи. Результаты экспериментов показали, что, даже при ограничении на конфигурацию классификатора в 1000 операций сравнения, можно подобрать такие параметры, при которых сформированный классификатор позволяет улучшить результат базовых методов определения значений сигнала.

Краткая теория

Решающее дерево - простой классификатор, представляющий из себя двоичное дерево, в котором каждый внутренний узел имеет двух потомков и содержит в себе некоторое логическое условие, а листовой узел относится к тому или иному классу.

Случайный лес - набор решающих деревьев, каждое из которых построено на основе случайной подвыборки обучающих данных. Исследуемый объект классифицируется каждым из деревьев, а итоговый результат классификации определяется при помощи голосования.

Экспериментальная часть исследования

При проведении исследования использовались данные, смоделированные ранее в рамках работы [4]. Рассматривалась трёхканальная передача импульсов с использованием двух поляризаций в каждом канале с форматом модуляции 16-QAM (quadature amplitude modulation) на 2000 км. В качестве формы импульсов использовалась форма RRC (root raised cosine) с коэффициентом сглаживания 0,1 на символьной скорости 32 ГБод и межканальным расстоянием 37,5 ГГц. Число передаваемых символов для обучения и тестового запуска для каждой поляризации составляло 216. В данной работе рассматриваются только внутриканальные нелинейные искажения, без учёта влияния второй поляризации или соседних каналов. В контексте задачи классификации, 16-QAM модуляция будет означать, что каждый импульс можно отнести к одному из 16 классов. Основной задачей является выявление возможности подбора параметров классификатора, которые позволяют улучшить результаты простейших методов определения значений импульсов. Сравнение результатов работы классификатора будет производиться с простейшим методом, когда импульс относится к тому узлу сетки, к которому он находится ближе всего.

Прежде всего необходимо описать ход самого исследования. Имеются 25 наборов данных с разной передаваемой мощностью (от -6 до 6 дБ с шагом 0.5). Каждый из этих наборов содержит обучающую и тестовую последовательности импульсов длинами по 65536 значений. В исследовании мы рассматривали только средний канал и одну поляризацию, не учитывая влияние остальных.

116 №6 2019 СПЕЦВЫПУСК «ФОТОН-ЭКСПРЕСС-НАУКА 2019» www.fotonexpres.rufotonexpress@mail.ru

ВКВО-2019 ВОСПИ

Так как мы не ставили перед собой целью разработку новых алгоритмов построения решающих деревьев или их ансамблей, то для исследования воспользовались готовыми решениями на языке python при помощи библиотеки scikit-learn. Рассматривались такие классификаторы, как RandomForest, ExtraTrees и GradientBoosting, все они используют в своей основе решающие деревья. К сожалению, классификаторы ExtraTrees и GradientBoosting показали слабые результаты ещё на начальных этапах исследовании, поэтому были исключены из дальнейшего рассмотрения.

Отдельно рассмотрим, каким образом строятся классификаторы и что используется в качестве признаков объекта, а кроме того, как именно учитываются межимпульсные взаимодействия внутри канала. Во-первых, несмотря на то, что каждый символ представляется комплексным числом, для работы с классификатором мы будем рассматривать вещественную и мнимую части как два независимых числа. Таким образом, импульс задаётся двумя вещественными числами. Объектом классификации назовём полученный символ, значение которого необходимо определить. Для того, чтобы учесть межимпульсное влияние, мы добавим в объект в качестве дополнительных характеристик значения нескольких соседних импульсов, как уже полученных, так и тех, которые будут получены после рассматриваемого. Одним из параметров конфигурации нашего классификатора будет именно это число соседей. Очевидно, что чем больше соседей попадают в рассмотрение, тем более перегруженным становится каждый объект и тем больше времени требуется для обучения такого классификатора. В рамках исследования мы рассматривали не более 10 соседей с каждой из сторон. В качестве ответа для обучающей последовательности использовалось истинное значение импульса, которое было передано изначально.

Другими параметрами «случайного леса» являются количество решающих деревьев и их максимальная высота. Так как рассматриваемый метод интересен в первую очередь его низкими трудозатратами, мы рассматривали только те конфигурации, в которых произведение числа деревьев и их максимальной глубины не превосходит 1000.

Результаты

На Рис.1 приведены краткие результаты исследования. Для каждой мощности конфигурация классификатора подбиралась индивидуально, и было отмечено, что число соседей больше одного перестало иметь значение, начиная с мощности 2 дБ. При этом RandomForest улучшает результат простейшего метода на 2-3% начиная с мощности 0 дБ, при достаточно малых вычислительных затратах. Так, чтобы классифицировать объект случайным лесом с конфигурацией 50 деревьев, глубина 12, 1 сосед, а именно такая конфигурация является наиболее популярной среди всех рассматриваемых наборов данных, потребуется не более 600 операций сравнения вещественных чисел.

Ь : Ь 4.Ь 4 '. А , 1 1,Ь I О.Ь О ') I 1,Ь 2 jl Ь i ■ 4 А.Ь Ь 6

Рисунок 1. Улучшение качества классификации КапйотЕог^ в процентах относительно

простейшего метода

Полученные результаты позволяют говорить о том, что данный метод имеет потенциал применения на практике и может быть использован, например, в качестве дополнения к другим методам компенсации нелинейных искажений [1].

Исследование выполнено при поддержке Российского научного фонда (грант № 17-72-30006).

Литература

1.

2.

3.

4.

Averyanov, Evgeny, et al. "Perturbative Machine Learning Technique for Nonlinear Impairments Compensation in WDM Systems." 2018 European Conference on Optical Communication (ECOC). IEEE, 2018 Shen, Thomas Shun Rong, and Alan Pak Tao Lau. "Fiber nonlinearity compensation using extreme learning machine for DSP-based coherent communication systems. " 16th Opto-Electronics and Communications Conference. IEEE, 2011

Liaw, Andy and Matthew Wiener. "Classification and regression by randomForest. " R news 2.3 (2002): pp. 18-22. Редюк, А. А, et al. "Метод компенсации нелинейных искажений сигнала в волоконных системах связи на основе теории возмущений и машинного обучения." Прикладная фотоника 5.3 (2018): 265-276

№6 2019 СПЕЦВЫПУСК «ФОТОН-ЭКСПРЕСС-НАУКА 2019» www.fotonexpres.rufotonexpress@mail.ru

117

i Надоели баннеры? Вы всегда можете отключить рекламу.