ЦСП:
Цель - Создавать Потрясающее
Аббревиатура DSP (Digital Signal Processor), или по-русски ЦСП (цифровой сигнальный процессор), прочно утверждается в языке российских разработчиков самых разнообразных электронных устройств. С объявлением весной 2000 года новых семейств ЦСП (TMS320C28x, TMS320C55x и TMS320C64x) компания Texas Instruments ввела в обиход новую расшифровку этого сокращения: DSP — Do Something Phenomenal, или, в переводе на русский, ЦСП — «Цель — создавать потрясающее». Несмотря на шутливый оттенок такой расшифровки, заявленные характеристики трех упомянутых семейств заставляют всерьез рассматривать новые ЦСП как инструмент для создания феноменальных конечных изделий.
Сергей Грибачев
texas@inlinegroup.ru
Рассмотрим свойства семейства TMS320C64x. Сразу следует отметить, что оно создавалось в рамках платформы TMS320C6000, ориентированной на достижение максимального быстродейст-
вия при решении задач ЦОС (цифровой обработки сигналов). Принадлежность к платформе 'С6000 означает полную программную совместимость семейства 'C64x с серийно выпускаемыми семействами
TMS320C6201 /С6701/С6202/С6203 DSP Block Diagram
EMIF
26
Program RAM/Cache/32-Bit Address Data RAM/32-Bit Address
C6201 - 64 Kbytes C6201 - 64 Kbytes
C6202 - 256 Kbytes C6202- 128 Kbytes
C6203 - 384 Kbytes 06203-512 Kbytes
C6701 - 64 Kbytes C6701 - 64 Kbytes
Program/Data Buses
t t
C62x™/C67x™ CPU Core
Program Fetch Control
Instruction Dispatch Registers
Instruction Decode Control
Data Patch 1 Data Patch 2 Logic
A Register File В Register File Test
tTu- ГП Emulation
LI SI Ml D1 D2 М2 S2 L2 Interrupts
DMA ChO Ch 1 Ch 2 Ch 3 Aux Ch
Power Down Modes
JTAG Test/ Emulation Control
Multi-channel (T1/E1) Buffered Serial Port
Multi-channel CT1/E1) Buffered Serial Port
Multi-channel (T1/E1) Buffered Serial Port
(C6202/C6203 only)
Timer
Timer
Host Port Interface/
^ 16-Bit (C6201B/C6701 )
Expansion Bus/ 32-Bit (C6202/C6203)
PLL Clock Generatoi
,r
Рис. 1
Peripherals
■■ь
m э 3" Q 3
О (ft о_
О
>
П О
3
о_
(Г
і
Ю
О
о
о
(D
3
о
3
LI Program Cache
С64х™ DSP CPU
Instruction Fetch
Instruction Dispatch Packet Boundary Span
Data Path 1
Register File A A15-A0
A31-A16
LI SI Ml D1
+
+
Control
Registers
Advanced
Emulation
Г»з
О CD
Э “I
S.-!
Data Path 2
Register File В В 15-BO
B31-B16
t t t
D2 М2 S2
+ + X + +
X + +
+
+
+
+
LI Data Cache
'C62x и 'C67x, что дает возможность вести отладку программ для нового семейства уже сегодня, пользуясь существующими отладочными средствами. Таким образом, огромный объем программных наработок может быть перенесен на новые ЦСП с минимальными временными затратами.
В ЦСП платформы 'С6000 достижение высокого быстродействия достигается за счет использования архитектуры VLIW (Very Large Instruction Word) — так называемой «архитектуры с широким командным словом». На исполнение одновременно выдается восемь 32разрядных команд, каждая из которых выполняется одним из восьми независимых функциональных устройств, сгруппированных в 2 блока. Процесс выполнения команд конвейеризован и распадается на этапы выборки, распаковки, декодирования и исполнения. Запатентованная TI архитектура ядра ЦПУ приведена на рис. 1 и носит название VelociTI.lTM. В состав каждого блока исполнения команд входят регистровый файл (16 32-разрядных регистров) и 4 исполнительных устройства: умножитель 16х16 (устройство М), 40-разрядное АЛУ (устройство L), 32-разрядное АЛУ с 40-разрядным сдвигателем (устройство S) и 32-разрядный адресный сумматор (устройство D). Через систему внутренних шин ЦПУ взаимодействует со встроенной памятью программ/данных и периферийными устройствами. 4-канальный контроллер прямого доступа к памяти позволяет разгрузить ЦПУ от операций ввода/вывода. Подробно данная архитектура, а также конкретные ЦСП рассмотрены в ряде статей и фирменных материалах TI [1-4]. Здесь же хотелось бы отметить, что в рамках семейства TMS320C62x была достигнута пиковая производительность 2400 MIPS (млн инструкций в секунду) при сохранении энергопотребления на самом низком для таких ЦСП уровне (1,3 Вт для TMS320C6203), что дает возможность эффективно использовать их в разнообразных встраиваемых системах. Семейство TMS320C67x характеризуется, с одной стороны, производительностью в 1 GFLOPS (один млрд операций с плавающей запятой в секунду) для ЦСП TMS320C6701, а с другой стороны — самым дешевым из быстродействующих ЦСП TMS320C6712 производительностью 600 MFLOPS при стоимости менее $10.
Семейство TMS320C64x будет превосходить существующие семейства 'С62х и 'C67x по всем параметрам. Усредненное быстродействие ЦПУ будет почти в 10 раз выше, чем у TMS320C6201. Для достижения таких характеристик была использована VLIW-архитектура VelociTI.2TM (рис. 2). Был удвоен объем регистровых файлов в каждом из блоков исполнения, а сами исполнительные устройства расширены и построены по схеме с блочным расщеплением. Например, если в 'C62x устройство М могло выполнять в одном такте умножение 16х16 разрядов, то в 'C64x оно может умножать 32х32 разряда и получать 64-разрядный результат, либо выполнять два умножения 16х16 и получать два 32-разрядных результата, либо — 4 умножения 8х8 с получением четырех 16-разрядых результатов.
Дополнительное повышение производительности достигается включением в систему
Рис. 2
специализированных команд цифровой обработки, таких как умножение полей Галуа ОМРУ4 (используется для поддержки алгоритма Рида-Соломона), вычисление абсолютной величины четырех 8-разрядных разностей SUBABS4 (используется в алгоритмах оценки движения), команды SSHVL и SSHVR сдвига на переменное число разрядов с распространением знака (используются при реализации во-кодерных алгоритмов) и многие другие. Более плотная упаковка программного кода позволяет экономить до 25 % объема ОЗУ.
Важным вкладом в повышение быстродействия нового семейства является использование суб-0,1-микронной технологии при производстве кристаллов. Кремний будет выпускаться с технологическими нормами 0,09 мкм, что позволит при тактовой частоте 1,1 ГГц иметь производительность 8800 МТО, либо 4400 16-разрядных ММАС8 (млн умножений с накоплением в секунду), либо 8800 8-разрядных ММАС8. Интересно, что при такой частоте удается сохранить невысокую мощность рассеивания, в пределах 4 Вт, что выгодно отличает ЦСП семейства 'С64х от быстродействующих процессоров других производителей.
В каких же областях планируется использовать выдающиеся характеристики нового семейства? Прежде всего, это широкополосные системы связи третьего поколения. По оцен-
кам специалистов Т1 один ЦСП 'С64х в состоянии поддерживать до 64 каналов передачи голоса и данных, AMR-вокодеры, видеообработку в стандарте МРЕС4 плюс реализовать ряд новых стандартов обработки, еще находящихся в процессе разработки. Как минимум 8 из 10 ведущих мировых производителей базовых станций третьего поколения уже выбрали семейство 'С64х в качестве базы для будущих разработок. Другой областью применения являются проводные цифровые системы передачи данных. Увеличенное в 8 раз по сравнению с 'С62х быстродействие новых ЦСП дает возможность реализовать на одном кристалле до 32 полноскоростных DSL-модемов либо несколько сотен голосовых каналов. В области обработки изображений пятикратный выигрыш производительности при построении систем визуализации в медицине и десятикратный — при построении систем машинного зрения позволяют создавать устройства с действительно потрясающими свойствами. Причем, как уже отмечалось, ввиду полной программной совместимости возможен плавный переход от серийно выпускаемых сегодня ЦСП семейств TMS320C62x и TMS320C67x к новому семейству TMS320C64x (рис. 3).
Цели создания феноменальных изделий служит также технология eXpressDSPTM, разработанная специалистами Т1 технология разработ-
Таблица1
Адрес C64x AltiVec Pentium!!! Athlon Alpha SPARC 64V
Частота, МГц 1100 400 600 700 1000 1000
Мощность, Вт <4 8 34.5 50 100 100
TMS20C6000™ DSP Platform Roadmap
TIME Scheduled Availability
Рис. 3.
ки, отладки и оптимизации программного продукта, призванная облегчить интеграцию имеющихся программных наработок, повысить качество прикладных программ и существенно сократить время выхода на рынок. В рамках данной технологии реализованы интегрированная программная среда Code Composer Studio™, ядро операционной системы реального времени DSP-BIOS, стандарт написания программных модулей для TMS320TM и многое другое. Но это уже тема для отдельного разговора.
Литература
1. Цифровые сигнальные процессоры. Концепция трех платформ компании Texas Instruments. Грибачев С. А. Цифровая обработка сигналов», №1, 2000.
2. TMS320C6000 CPU and Instruction Set Reference Guide. SPRU189. Материалы TI.
3. TMS320C6201 Data Sheet. SPRS051. Материалы TI.
4. TMS320C6701 Data Sheets. SPRS067. Материалы TI.