Научная статья на тему 'РАЗРАБОТКА ВЫСОКОПРОИЗВОДИТЕЛЬНОГО LDPC-ДЕКОДЕРА С КОНВЕЙЕРНОЙ ОБРАБОТКОЙ ДАННЫХ'

РАЗРАБОТКА ВЫСОКОПРОИЗВОДИТЕЛЬНОГО LDPC-ДЕКОДЕРА С КОНВЕЙЕРНОЙ ОБРАБОТКОЙ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОДЫ С НИЗКОЙ ПЛОТНОСТЬЮ ПРОВЕРКИ ЧЕТНОСТИ (LDPC) / МОДЕЛИРОВАНИЕ / АЛГОРИТМ ДЕКОДИРОВАНИЯ СУММЫ ПРОИЗВЕДЕНИЙ (SPA) / ПЛИС / ПОЛЯ ГАЛУА (GF)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Башкиров А.В., Хорошайлова М.В., Ципина К.Д.

Разработан эффективный алгоритм декодирования суммы произведений (MSPA), который не только сокращает задержку критического пути, но и улучшает использование аппаратных средств и пропускную способность декодера при сохранении погрешности алгоритма декодирования. Алгоритм min-sum (MS) и его варианты заменяют сложные вычисления контрольных узлов (CN) в SPA простыми операциями сложения и сравнения, но это приводит к потере производительности до 1 дБ по сравнению с SPA для более высоких длин кодовых слов, кодовых скоростей и степеней узла. Представлены три полностью параллельные архитектуры низкоплотностного декодера, основанные на структуре проекционной геометрии (PG) полей Галуа LDPC-кодов. Эти конструкции отличаются архитектурами битового узла (BN) и контрольного узла (CN). Схема 9-битного квантования с фиксированной точкой используется для достижения лучшей производительности при исправлении ошибок. Другим значительным вкладом этой работы является конвейеризация предлагаемых архитектур декодера для дальнейшего повышения общей пропускной способности. Эти параллельные и конвейерные архитектуры реализованы для 73-битных (скорость 0,616) и 1057-битовых (скорость 0,769) кодов PG-LDPC с регулярной структурой на программируемой логической интегральной схеме (ПЛИС) Xilinx Virtex-6 LX760. Предлагаемые конструкции также являются гибкими с точки зрения квантования, степени узла, коэффициента параллельности и длины кодового слова

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A HIGH-PERFORMANCE LDPC DECODER WITH PIPELINED DATA PROCESSING

This paper develops an efficient sum-of-products (MSPA) decoding algorithm that not only reduces the critical path delay, but also improves hardware utilization and decoder throughput while maintaining decoding algorithm error. The min-sum (MS) algorithm and its variants replace the complex control node (CN) calculations in SPA with simple addition and comparison operations, but this results in a performance loss of up to 1 dB compared to SPA for higher codeword lengths, code rates, and powers node. Three fully parallel low-density decoder architectures based on the projection geometry (PG) structure of the Galois fields of LDPC codes are presented. These designs differ in bit node (BN) and control node (CN) architectures. A 9-bit fixed-point quantization scheme is used to achieve better error correction performance. Another significant contribution of this work is the pipelining of proposed decoder architectures to further improve overall throughput. These parallel and pipelined architectures are implemented for 73-bit (rate 0.616) and 1057-bit (rate 0.769) regular structure PG-LDPC codes on the Xilinx Virtex-6 LX760 field-programmable logic integrated circuit (FPGA). The proposed designs are also flexible in terms of quantization, node degree, parallelism factor, and codeword length

Текст научной работы на тему «РАЗРАБОТКА ВЫСОКОПРОИЗВОДИТЕЛЬНОГО LDPC-ДЕКОДЕРА С КОНВЕЙЕРНОЙ ОБРАБОТКОЙ ДАННЫХ»

DOI 10.36622/VSTU.2023.19.3.013 УДК 621.382

РАЗРАБОТКА ВЫСОКОПРОИЗВОДИТЕЛЬНОГО LDPC-ДЕКОДЕРА С КОНВЕЙЕРНОЙ ОБРАБОТКОЙ ДАННЫХ

А.В. Башкиров, М.В. Хорошайлова, К.Д. Ципина Воронежский государственный технический университет, г. Воронеж, Россия

Аннотация: разработан эффективный алгоритм декодирования суммы произведений (MSPA), который не только сокращает задержку критического пути, но и улучшает использование аппаратных средств и пропускную способность декодера при сохранении погрешности алгоритма декодирования. Алгоритм min-sum (MS) и его варианты заменяют сложные вычисления контрольных узлов (CN) в SPA простыми операциями сложения и сравнения, но это приводит к потере производительности до 1 дБ по сравнению с SPA для более высоких длин кодовых слов, кодовых скоростей и степеней узла. Представлены три полностью параллельные архитектуры низкоплотностного декодера, основанные на структуре проекционной геометрии (PG) полей Галуа LDPC-кодов. Эти конструкции отличаются архитектурами битового узла (BN) и контрольного узла (CN). Схема 9-битного квантования с фиксированной точкой используется для достижения лучшей производительности при исправлении ошибок. Другим значительным вкладом этой работы является конвейеризация предлагаемых архитектур декодера для дальнейшего повышения общей пропускной способности. Эти параллельные и конвейерные архитектуры реализованы для 73-битных (скорость 0,616) и 1057-битовых (скорость 0,769) кодов PG-LDPC с регулярной структурой на программируемой логической интегральной схеме (ПЛИС) Xilinx Virtex-6 LX760. Предлагаемые конструкции также являются гибкими с точки зрения квантования, степени узла, коэффициента параллельности и длины кодового слова

Ключевые слова: коды с низкой плотностью проверки четности (LDPC), моделирование, алгоритм декодирования суммы произведений (SPA), ПЛИС, поля Галуа (GF)

Введение

Кодирование с контролем ошибок имеет большое значение в современных системах цифровой связи для обнаружения и исправления ошибок в принимаемых потоках данных. Коды с низкой плотностью проверки четности (LDPC) представляют собой особый класс линейных блочных кодов, впервые введенных Галлагером [1] в 1962 году. Они являются конкурентами турбокодов [2] для контроля ошибок в цифровых системах хранения данных и связи. Однако турбокоды имеют ограниченное применение по сравнению с LDPC кодами из-за их низкого коэффициента усиления при кодировании, высокой задержки декодирования и необходимости проведения очень сложных вычислений. LDPC-коды играют заметную роль в современных системах связи, которые требуют не только превосходных характеристик ошибок, близких к пределу Шеннона, по сравнению с обычными каналами [3, 4]. Эти две особенности продвигают использование LDPC-кодов как одних из наиболее подходящих кандидатов для различных стандартов связи [5]. Однако коды LDPC с более высокими скоростями кодирования в основном по-

лезны для стандартов с низким уровнем шума и высокой пропускной способностью, таких как мультиплексирование с ортогональным частотным разделением (от англ. orthogonal frequency-division multiplexing, OFDM).

Среди различных классов LDPC-кодов LDPC-коды проекционной геометрии (PG) с алгоритмом декодирования суммы произведений (SPA) имеют большое минимальное расстояние, которое демонстрирует наилучшую производительность по ошибкам и более быструю сходимость. Однако высокопроизводительные конвейерные системы с высокой пропускной способностью PG-LDPC декодера, разработанные с использованием SPA, по-прежнему являются большой проблемой (большим вызовом) из-за более высокой взаимосвязи и вычислительной сложности. Многие из существующих аппаратных реализаций LDPC-кодов используют последовательные или частично параллельные архитектуры с общим доступом к памяти, где площадь микросхемы и стоимость оборудования вызывают большие ограничения.

Итак, для решения этих проблем в этой статье предлагаем высокопроизводительные, с высокой пропускной способностью, ресур-соэффективные конструкции полностью параллельных и конвейерных декодеров PG-

© Башкиров А.В., Хорошайлова М.В., Ципина К.Д., 2023

LDPC, которые способны обеспечивать пропускную способность в диапазоне гигабит в секунду (Gbps) при умеренной длине блока.

Структурированные LDPC-коды на основе проекционной геометрии

Код LDPC полностью описывается М х N разреженной матрицей проверки четности Н, где М строк представляют ограничения проверки четности, а N столбцов, каждый из которых соответствует определенному биту кодового слова. Кодовое слово длиной N

бит содержит К бит сообщения и М контрольных битов. Кодовая скорость R равна

Я=К/К=1-М/К

В обычном коде LDPC матрица Н содержит ровно 'с единиц в каждом столбце (вес столбца) и ровно 'г единиц в каждой строке (вес строки); в противном случае это называется неправильным кодом. Например, на рис. 1 (а) показана LDPC-матрица Н для а (2, 3) обычного кода с 'с = 2 и 'г = 3 длиной 6 бит.

Рис. 1. Матрица H и ее граф Таннера для (2, 3) регулярного кода

Двудольный граф Таннера может быть использован для графического представления LDPC кодов. Граф состоит из двух типов узлов - битовых узлов (В^ и контрольных узлов (СЭД, и два узла разного типа могут соединяться друг с другом только через ребро. Ребра графа Таннера могут быть представлены ненулевыми элементами "1" в матрице Н. Существует N битовых узлов, по одному для каждого бита кодового слова с; и М контрольных узлов, по одному для каждого набора ограничений проверки четности. Граф Таннера, соответствующий матрице Н на рис. 1 (а), проиллюстрирован на рис. 1 (б), где N представлены кружками, а М - квадратами.

Квантование сообщения LDPC-кода в течение проекционной геометрии (2,2Я)

Граф Таннера такой же, как граф падения точечных линий проективной плоскости размерности т над PG (т, ОБ (2я)), где т = 2 и s = 3. Здесь В№ / С№ представляют точки / линии геометрии соответственно, и соответственно столбцы / строки матрицы проверки четности Н. Кодовое слово LDPC-кода над ОР(2я) содержит символы из поля Галуа ОБ(р = 2) - {0,1}, где ограничения определе-

ны арифметически по модулю 2, а p обозначает простое число.

Выбор квантования сообщений влияет не только на сложность и производительность модели, но и на пропускную способность. Однако это зависит от ресурсов, доступных для хранения и вычислений на ПЛИС. Для повышения производительности мы рассматриваем 9-битную схему квантования в формате знак-величина с фиксированной точкой (SM), где наиболее значимый бит (MSB) представляет знак, а остальные 8 бит - величину. В части величины наиболее значимые 3 бита представляют целое число, а остальные 5 битов - дробную часть. Чтобы разместить дополнительные биты для расширения знака и переполнения из-за накопления, внутренний канал передачи данных сделан шириной 13 бит для BN и шириной 12 бит для CN.

Функциональные блоки предлагаемого LDPC-декодера

Декодер LDPC состоит из трех основных компонентов - элементов обработки (BNs/CNs), содержащих канал передачи данных, модулей памяти для хранения битовых / контрольных обновлений во время итераций и

сети соединений для маршрутизации обновлений между узлами различного типа.

Для предлагаемых конструкций рассматриваем 73-битные (скорость 0,616) и 1057-битные (скорость 0,769) LDPC-коды с регулярной структурой, основанные на PG(2,GF(2s)). Основными вычислительными блоками в В№ и С№ являются многовходовые многоразрядные сумматоры, вычитатели и умножители / Ш^. Обновления битов / проверок вычисляются с использованием метода total-sum-first. Вычисления "сначала общая сумма" (для обновлений BN / СЭД реализованы с использованием развернутой параллельной архитектуры для сканирования с накоплением, которая обеспечивает более высокую степень параллелизма и, следовательно, подходит для приложений с высокой пропускной способностью. В конструкции декодера используются два типа запоминающих устройств: битовая память (BMs) и контрольная память (CMs).

На рис. 2 показана архитектура полностью параллельного В^ БК считывает сообщения проверки бит и данные из встроенной памяти; выполняет преобразование дополнения SM в на принятых входных данных, выполняет сканирование накопления с использованием многобитового дерева сумматора вместе с отдельными входными сообщениями, которые хранятся отдельно на соответствующих регистрах (L-Regs), выполняет сканирование выходных данных (вычисление остатка) путем вычитания отдельных входных данных из накопленной суммы с использованием многобитовых полных вычитателей, и, наконец, выходные данные (обновления битов) преобразуются в 9-битный формат SM, и записываются обратно в ВМ.

С№ вычисляют сообщения проверки на бит таким же образом, как и их аналоги, но с двумя существенными отличиями - вычисления CN выполняются в логарифмической и гиперболической областях касательных. Кроме того, величина и знаковая часть обновлений вычисляются с помощью различных путей данных. В пути значения 9-разрядных входных данных SM, полученных от ВМ, подвергаются преобразованию ф(х), прежде чем оставшиеся величины вычисляются с использованием того же подхода «сначала общая сумма», которая используется в обновлениях битов. Наконец, оставшиеся значения повторно преобразуются обратно путем применения к ним обратной функции ф :(х) (ф (х) является самоинверсионной функцией). Для реализации ф (х) можно

использовать метод линейной аппроксимации по частям. Одним из прямых способов реализации ф (x) является использование LUT. Поскольку функция ф (x) сильно нелинейна, ее квантование приведет к большой потере производительности. Следовательно, для достижения надлежащей производительности декодирования прямая реализация с использованием LUT потребовала бы гораздо большего объема памяти, особенно доля кодов, имеющих более высокие степени узла, и биты квантования.

Опять же, для полностью параллельного проектирования каждому CN потребуется свой собственный LUT, чтобы ускорить работу и избежать конфликтов доступа к памяти.

Для полностью параллельных и конвейерных конструкций LDPC-декодеров нам потребуется по крайней мере 657 (73* 9) элементов цифровых сигнальных процессоров (Digital Signal Processing, DSP) для 73-битного кода. Если количество узлов увеличивается, то требуется больше элементов DSP, что затрудняет их размещение на новейших ПЛИС. Это сравнительно увеличивает сложность и площадь аппаратного обеспечения, и стоимость проектирования. Здесь описаны два разных подхода к полностью параллельному проектированию CN:

- Первая конструкция (CN_A) состоит из блоков MAC 2wr, как показано на рис. 3. Они обозначаются как - PH-MACs и IN-MACs. Значения wr PH-MAC используются для вычисления функции ф (x), тогда как значения wr IN-MAC используются для вычисления функции ф 1(x). Выходные данные из PH-MACs уменьшаются до 12 бит для вычисления величины в блоке суммирования (total-sum-first) аналогично вычислению BN, используя развернутую параллельную архитектуру. После преобразования величины ф 1(x) выходные данные насыщаются, объединяются с их аналогом знака и, наконец, сохраняются в CMs. Логика знака реализована с использованием дерева элементов XOR(логическая операция Exclusive OR (XOR) gate), которое работает одновременно с обработкой величины.

- Вторая конструкция (CN_B) аналогична первой - за исключением того, что единицы измерения MAC и насыщенности повторно используются через канал обратной связи, как показано на рис. 4. Однако в конструкцию введен один мультиплексор (MUX) на входе каждого блока MAC для выбора между операциями ф (x) и ф 1(x); и один демультиплексор (De-MUX) на выходе каждого блока насыщения.

Рис. 2. Полностью параллельная архитектура блока битового узла (БЫ)

Рис. 3. Полностью параллельная архитектура CN без обратной связи (СЫ_Л)

Рис. 4. Полностью параллельная архитектура CN с обратной связью (С^В)

System Generator использует блок компилятора конечной импульсной характеристики, который помогает использовать выделенные аппаратные ресурсы, доступные в устройствах Virtex, для создания оптимизированных реализаций ПЛИС разработанной модели

Модифицированная архитектура декодера SPA (MSPA)

Две конструкции параллельных декодеров на основе SPA, имеют несбалансированные вычислительные сложности и каналы передачи данных между BN и CN. Это, в свою очередь, влияет на задержку критического пути и количество циклов, требуемых на итерацию. Эти эффекты могут быть сведены к минимуму с помощью метода декодирования MSPA, который изменяет этапы обновления BN /CN в SPA для достижения аппаратной балансировки между BN и CN. Метод декодирования MSPA описан в следующих шагах:

- этап обновления BN - для метода декодирования MSPA вычислений BN может быть изменено следующим образом:

+ X Ф

m'eju(n )~m

4 (v . )

V m ,n p

(1)

где все входящие сообщения в BN п от всех его соседних С№ сначала преобразуются в

ф 1 (х) перед повторным сканированием.

- этап обновления CN - вычисления СК может быть изменено следующим образом:

П sgn(«n> М- l)kW

у n'e<r(m)~n

( Y

Xф(ипт |)

(m)~n

(2)

n,m

у n'ecr(mj~n у

Пусть V т,п = Р * S; где Р - часть величины, а S - часть знака. Часть величины Р может быть определен как:

P -

i(un\m |)j

X , фun ,m | n'ea(m)~ n

X, ^(un', m |)l-ф(un, m l) nea(m) У

(3)

В конструкции декодера МР8А, называемого decoder-3, вводим аппаратную балансировку между BN и CN для минимизации задержек с помощью уравнений (1) и (2) соответственно. Для его аппаратной реализации рассмотрим рис. 3 полностью параллельного CN без обратной связи (С^_А). Если все входные значения (входные адреса) на выходной стороне (ф -1(х)) и блоки насыщения этого CN удалить и поместить на входной стороне соответствующего В^ то мы получим оптимизированный BN (BN_C) и оптимизированный CN (С^С). Это действительно обеспечивает аппаратную балансировку между В№ и С№ без ущерба для производительности оригинального SPA-декодера. Декодирование MSPA имеет следующие преимущества:

- в соответствии с наибольшей задержкой в конвейере может быть определен критический путь, который ограничит общую пропускную способность. Однако в конструкции декодера-3, после балансировки критического пути, оптимизированные В№ и С№ будут иметь одинаковую задержку пути. Это, в свою очередь, сокращает время простоя, повышает тактовую частоту и, следовательно, пропускную способность;

- в конструкции CN_A блоки ввода-вывода (ф -1 (х)) и насыщения остаются незанятыми до последнего временного интервала вычисления Поэтому перемещение этих блоков в BN определенно обеспечит эффективное использование оборудования без влияния на производительность декодера;

- для кодов с высокой скоростью, где декодирование wr >> MSPA будет более выгодным с точки зрения сокращения аппаратного обеспечения (например, количество встроенных МАС-адресов, уровень дерева суммирования).

Архитектура конвейерного декодера

На рис. 5(а) показана вышеупомянутая не конвейерная последовательная структура синхронизации для реализаций декодера-1 / деко-дера-3 между этапами обновления В№ и С№.

Как указывалось ранее, архитектура основана на PG(2,GF(2*)). Структурированное свойство кодов PG-LDPC и использование элементов распределенной памяти для хранения обновлений В^СЭД позволяют группам BN и CN работать конвейерным образом. Эти конструкции получены путем перекрытия этапов обновления BN и CN для реализаций де-кодера-1 / декодера-3 с целью повышения об-

un,m _ un

*

*

щей пропускной способности. На рис. 5(б) показана структура синхронизации конвейера для декодера-1р, основанная на архитектуре декодера-1 с несбалансированными вычислительными сложностями между В№ и С№. Здесь пунктирная часть на этапах обновления BN показывает период простоя. На рис. 5(в) показана синхронизация конвейера для деко-дера-3р на основе архитектуры декодера-3 со сбалансированными путями передачи данных между В№ и С№.

Рис. 5. Временная структура конвейера:

(а) не конвейерная временная структура для декодера-1/2;

(б) несбалансированная временная структура конвейера для декодера-1р/2р; (в) сбалансированная временная

структура конвейера для декодера-3р

Для двух случаев, показанных на рис. 5(б) и 5 (в), первая группа BN завершает свои вычисления в первом тактовом цикле, а в последующих тактах [^/р] — 1 той же итерации последовательно обрабатываются остальные группы В^

Группы CN начинают свои вычисления сразу после первого тактового цикла вычисления В№ последовательным образом. Таким образом, последняя группа CN завершит свои вычисления через один цикл после завершения всех вычислений В№. Следовательно, тактовая задержка между этапами обновления BN / CN теперь сокращена только до одного такта, и, следовательно, для одной итерации декодирования требуется всего [Н/р] + 1 такт. Здесь вычисления BN и CN перекрываются для [Мр] - 1 циклов. На следующей итерации В№ может начать свои вычисления сразу после того, как С№ завершит свои вычисления на текущей итерации. Следовательно, прирост пропускной способности составляет Саш= 2[N/p]/([N/p] + 1)^2.

Результаты моделирования

Предлагаемые конструкции полностью параллельных и конвейерных LDPC декодеров были реализованы и ориентированы на ПЛИС Xilinx Virtex-6 LX760.

Коды PG сходятся очень быстро при декодировании SPA. Более быстрая конвергенция является одним из важных факторов для достижения более высокой пропускной способности. Было обнаружено, что предлагаемые конструкции могут быть способны декодировать ошибки в среднем менее чем за восемь итераций, при практических SNRs(> 2). Все моделирование проводилось в предположении, что канал AWGN имеет схему модуляции BPSK. На рис. 6 представлена производительность BER в сравнении с SNR для двух различных длин кодовых слов. Из графиков на рис. 6 ясно, что производительность BER значительно улучшается при увеличении длины кодового слова.

Рис. 6. Производительность BER в сравнении с для разной длины кодового слова

В табл. 1 показан сравнительный анализ между тремя параллельными архитектурами в соответствии с отчетом о синтезе с точки зрения использования различных ресурсов, анализа времени, маршрута размещения сообщений и пропускной способности. Аналогично, для 1057-битного (скорость 0,769) кода PG-LDPC с регулярной структурой с коэффициентом параллельности -73.

Таблица 1

Результаты реализации ПЛИС для 73-битного кода (скорость 0.616)

Параметры Декодер-1 Декодер -2 Декодер -3

Защелки 72851 (7.7 %) 70828 (7.5 %) 73294 (7.73 %)

6-вход LUTs 66585 (14 %) 61283 (13 %) 66585 (14 %)

Параллельный фактор 73

Тактовая частота. (МГц) 1.55 145.8 170.3

Количество циклов 2 2 2

Пропускная способность (Gbps) 1.84 1.77 2

В табл. 2 приведен сравнительный анализ предлагаемых параллельных и конвейерных конструкций с использованием тех же параметров, которые обсуждались выше. Поскольку декодер-1р и декодер-3р являются конвейерными версиями декодера-1 и декодера-3 соответственно; они используют те же ресурсы, что и декодер-1 и декодер-3 соответственно.

Таблица 2

Результаты реализации ПЛИС для 1057-битного (скорость 0,769) кода с коэффициентом

параллельности - 73_

Параметры Декодер-1 Декодер -2 Декодер -3 Декодер -1p Декодер -3p

Защелки 72851 (7.7 %) 70828 (7.5 %) 73294 (7.73 %) 72851 (7.7 %) 73294 (7.73 %)

6-вход LUTs 66585 (14 %) 61283 (13 %) 66585 (14 %) 66585 (14 %) 66585 (14 %)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тактовая частота (МГц) 151.55 145.8 170.3 151.55 170.3

Количество циклов 30 30 30 16 16

Пропускная способность (Gbps) 1.8 1.71 2 3.34 3.75

Заключение

В этой статье представлен эффективный метод декодирования, MSPA, для декодирования кодов PG-LDPC, который не только сокращает задержку критического пути, оптимизирует функциональные блоки декодера, но и улучшает пропускную способность декодера. Параллельные конструкции LDPC декодеров были реализованы для 73-битных и 1057-битных кодов PG-LDPC с регулярной структурой, использующих традиционное SPA и предлагаемое декодирование MSPA отдельно. Исходя из этих конструкций, показано, что декодирование MSPA сводит к минимуму последствия несбалансированных вычислительных сложностей между BN и CN, которые существуют в декодере SPA, путем введения аппаратной балансировки. Предлагаемые конструкции дополнительно конвейеризуются путем перекрытия этапов обновления BN и CN для достижения почти оптимальной пропускной способности и эффективного использования оборудования. Эти оптимизированные конвейерные конструкции декодеров в среднем экономят 45 % от количества циклов, необходимых для каждой итерации.

При 9-битном квантовании с использованием метода декодирования MSPA и конвейер-

ной обработки максимальная достижимая пропускная способность составляет 6,5 Гбит/с, что в два раза больше, чем при традиционном декодировании SPA, а также сопоставимо с существующими стандартами IEEE 802.11 ac / ad / ax WLAN. Архитектуры превосходят другие современные декодеры с точки зрения задержки обработки и быстродействия при частоте битовых ошибок (BER) 10-5. Предлагаемые конструкции также являются гибкими с точки зрения квантования, степени узла, коэффициента параллельности и длины кодового слова.

Литература

1. Memory system optimization for FPGA based implementation of Quasi-Cyclic LDPC codes decoders / X. Chen, J. Kang, S. Lin, V. Akella // IEEE Transactions on Circuits and Systems-I: Regular Papers. 2011. 58(1). Pp. 98-111.

2. A 3.0 Gb/s throughput hardware-efficient decoder for cyclically-coupled QC-LDPC codes / Q. Lu, J. Fan, C.W. Sham, W.M. Tam, F.C.M. Lau // IEEE Transactions on Circuits and Systems-I: Regular Papers. 2016. 63(1). Pp. 134-145.

3. Хорошайлова М.В. Архитектура для стохастических LDPC-декодеров c использованием эффективной площади кристалла на основе ПЛИС // Вестник Воронежского государственного технического университета. 2018. Т. 14. № 1. С. 95-100.

4. A 2.0 Gb/s throughput decoder for QC-LDPC con-volutional codes / C.W. Sham, X. Chen, F.C.M. Lau, Y. Zhao, W.M. Tam // IEEE Transactions on Circuits and Systems-I: Regular Papers. 2013. 60(7). Pp. 1857-1869.

5. Хорошайлова М.В. Архитектура канального ко- Воронежского государственного технического универси-

дирования на основе ПЛИС для 5G беспроводной сети с тета. 2018. Т. 14. № 2. С. 99-105.

использованием высокоуровневого синтеза // Вестник

Поступила 03.04.2023; принята к публикации 13.06.2023 Информация об авторах

Башкиров Алексей Викторович - д-р техн. наук, доцент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: fabi7@mail.ru, ORCID: http://orcid.org/0000-0003-0939-722X Хорошайлова Марина Владимировна - канд. техн. наук, старший преподаватель, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: pmv2205@mail.ru, ORCID: http://orcid.org/orcid.org/0000-0001-9167-9538

Ципина Ксения Дмитриевна - студент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: ksutsipina@mail.ru

DEVELOPMENT OF A HIGH-PERFORMANCE LDPC DECODER WITH PIPELINED DATA

PROCESSING

A.V. Bashkirov, M.V. Khoroshailova, K.D. Tsipina

Voronezh State Technical University, Voronezh, Russia

Abstract: this paper develops an efficient sum-of-products (MSPA) decoding algorithm that not only reduces the critical path delay, but also improves hardware utilization and decoder throughput while maintaining decoding algorithm error. The min-sum (MS) algorithm and its variants replace the complex control node (CN) calculations in SPA with simple addition and comparison operations, but this results in a performance loss of up to 1 dB compared to SPA for higher codeword lengths, code rates, and powers node. Three fully parallel low-density decoder architectures based on the projection geometry (PG) structure of the Galois fields of LDPC codes are presented. These designs differ in bit node (BN) and control node (CN) architectures. A 9-bit fixed-point quantization scheme is used to achieve better error correction performance. Another significant contribution of this work is the pipelining of proposed decoder architectures to further improve overall throughput. These parallel and pipelined architectures are implemented for 73-bit (rate 0.616) and 1057-bit (rate 0.769) regular structure PG-LDPC codes on the Xilinx Virtex-6 LX760 field-programmable logic integrated circuit (FPGA). The proposed designs are also flexible in terms of quantization, node degree, parallelism factor, and codeword length

Key words: Low Density Parity Check (LDPC) Codes, Simulation, Sum Product Decoding Algorithm (SPA), FPGA, Galois Fields (GF)

References

1. Chen X., Kang J., Lin S., Akella V. "Memory system optimization for FPGA based implementation of Quasi-Cyclic LDPC codes decoders", IEEE Transactions on Circuits and Systems-I: Regular Papers, 2011, no 58(1), pp. 98-111.

2. Lu Q., Fan J., Sham C.W., Tam W.M., Lau F.C.M. "A 3.0 Gb/s throughput hardware-efficient decoder for cyclically-coupled QC-LDPC codes", IEEE Transactions on Circuits and Systems-I: Regular Papers, 2016, no 63(1), pp. 134-145.

3. Khoroshailova M.V. "Architecture for stochastic LDPC decoders using the effective crystal area based on FPGA", The Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2018, vol. 14. no. 1, pp. 95-100.

4. Sham C.W., Chen X., Lau F.C.M., Zhao Y., Tam W.M. "A 2.0 Gb/s throughput decoder for QC-LDPC convolutional codes", IEEE Transactions on Circuits and Systems-I: Regular Papers, 2013, no 60(7), pp. 1857-1869.

5. Khoroshailova M.V. "Architecture of FPGA based channel coding for 5G wireless network using high-level synthesis" ("Arhitectyra canalnogo codirovanija na osnove PLIS dlja 5G besprovodnoy seti s ispolzovaniem visocoyrovnevogo sinteza"), The Bulletin of Voronezh State Technical University (Vestnik Voronezhskogo gosudarstvennogo tekhnicheskogo universiteta), 2018, vol. 14, no. 2, pp. 99-105.

Submitted 03.04.2023; revised 13.06.2023 Information about the authors

Alexey V. Bashkirov - Doctor Sc. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: fabi7@mail.ru, ORCID: http://orcid.org/0000-0003-0939-722X

Marina V. Khoroshailova - Cand. Sc. (Technical), Senior Lecturer, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: pmv2205@mail.ru, tel.: 8-910-732-66-13, ORCID: http://orcid.org/0000-0001-9167-9538 Ksenia D. Tsipina - Student, Voronezh State Technical University (84 20-letiya Oktyabrya str., Voronezh 394006, Russia), e-mail: ksutsipina@mail.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.