Методы искусственного интеллекта
УДК 004.032.26
DOI: 10.25729^1.2023.32.4.001
Быстрые преобразования и самоподобные нейронные сети глубокого обучения. Часть 1. Стратифицированные модели самоподобных нейронных сетей и быстрых преобразований Дорогов Александр Юрьевич
ПАО «Информационные телекоммуникационные технологии» («Интелтех»), Санкт-Петербургский государственный электротехнический университет, Россия, Санкт-Петербург, [email protected]
Аннотация. В работе показано, что в основе построения быстрых преобразований (подобных БПФ) лежат самоподобные структуры, которые в равной степени можно использовать и для построения быстрых нейронных сетей (БНС). Показано, что класс быстрых преобразований определяется системными инвариантами морфологического уровня и может быть описан, как морфогенез терминальных проекций нейронных модулей. Предложены лингвистические модели для описания морфологии, структуры и топологии регулярных самодобных нейронных сетей. Модели легко обобщаются на многомерные варианты нейронных сетей данного типа. Благодаря своей структуре БНС обладают особыми алгоритмами обучения, которые принципиально отличаются от классического ErrorBackPшpagatюn отсутствием механизма обратного распространения ошибки. Алгоритмы обучения основаны на предложенных в работе методах мультипликативной факторизации образов и быстрых преобразований. Разработанные алгоритмы завершаются за конечное число шагов с гарантируемой сходимостью (будет показано в части 2 статьи). Последовательное развитие концепции самоподобия приводит к разработке методов создания быстрых нейронных сетей с глубокой степенью обучения. Самоподобные нейронные сети обладают уникальной возможностью дообучения к новым данным без потери ранее приобретённых знаний. Показано, что БНС могут быть использованы для создания быстродействующей памяти образов с произвольным доступом и сложных устройств комбинационной логики. В работе представлены результаты исследований автора по следующим вопросам: биологические предпосылки самоподобия нейронных сетей; самоподобные многослойные структуры, морфогенез, стратификация модельных представлений; алгоритмы быстрых преобразований, быстрые нейронные сети (БНС), методы настройки; обучение БНС к эталонным функциям; пластичность БНС; пирамидальные нейронные сети глубокого обучения; многоканальные корреляторы; реализация памяти и комбинационной логики на пирамидальных структурах. Результаты исследований будут представлены статьями в трёх частях.
Ключевые слова: самоподные структуры, быстрые преобразования, морфогенез, быстрые нейронные сети, пирамидальные структуры, память образов, комбинационная логика
Цитирование: Дорогов А.Ю. Быстрые преобразования и самоподобные нейронные сети глубокого обучения. Часть 1. Стратифицированные модели самоподобных нейронных сетей и быстрых преобразований / А.Ю. Дорогов // Информационные и математические технологии в науке и управлении. - 2023. - № 4(32). - С. 5-20. - Б01: т.25729/ЕБ1.2023.32.4.001.
Введение. Теория быстрых перестраиваемых спектральных преобразований появилась примерно в то же время, что и теория многослойных нейронных сетей. Обе теории развивались параллельно. Различная терминология, различные теоретические основы, различные области применения развели два направления достаточно далеко друг от друга, хотя общие черты - многослойность и перестраиваемость - были вполне очевидны.
Создание алгоритма быстрого преобразования Фурье (БПФ), безусловно, можно считать одним из выдающихся достижений второй половины 20 века. Время его рождения знаменательно совпало с начальным этапом развития вычислительной техники, когда быстродействие вычислительных машин было ещё крайне низким. Появление алгоритма БПФ стимулировало интерес и к другим видам спектральных преобразований. В задачах фильтрации, сжатия и выделения информативных признаков широкое применение нашли такие преобразования, как
Адамара-Уолша, Хаара, Виленкина-Кристенсона, Хартли, Наклонное, Вейвлет и другие, также обладающие быстрыми алгоритмами. Несмотря на отличия по видам функций, оказалось, что большинство алгоритмов быстрых преобразований имеют подобную структуру и отличаются друг от друга не более, чем значениями коэффициентов базовых операций. Осознание этого факта привело к идее построения обобщённых перестраиваемых спектральных преобразований, наделённых быстрым алгоритмом.
Возможность перестройки значений весовых коэффициентов и многослойная структура алгоритма роднят быстрые перестраиваемые преобразования с многослойными нейронными сетями прямого распространения. Первые подходы к обучению быстрых ортогональных преобразований были развиты в работах А.И. Солодовникова и его научной группы [1]. В то время подобный класс спектральных преобразований называли приспособленными быстрыми преобразованиями. Условие ортогональности влечёт за собой совпадение размерностей входного и выходного вектора для каждого слоя алгоритма. Если отказаться от этого условия, то снимается ограничение и на равенство размерностей, причём, как оказалось, структуру быстрого алгоритма при этом можно сохранить. Отсюда был прямой путь к построению быстрых нейронных сетей (БНС) [2, 3].
В рамках данной парадигмы быстрые перестраиваемые преобразования можно рассматривать, как многослойные нейронные сети, которые отличаются от последних линейными функциями активации и нулевыми смещениями в нейронах. По структурной организации БНС следует отнести к модульным нейронным сетям с инъективными связями. Роль модуля выполняют базовые операции малой размерности, например, для БПФ это базовая операция типа «бабочка». Дальнейшие исследования позволили доказать, что структура быстрых преобразований подчиняется системным инвариантам, основанным на принципе самоподобия.
Идея использования топологии быстрых преобразований БПФ для построения нейронных сетей многократно повторяется и в научных работах современных исследователей, но топология БПФ используется, как правило, только для проектирования нейросетевого модуля в составе свёрточной нейронной сети [4, 5]. Экспериментально показано, что это приводит к увеличению точности в задаче классификации и к увеличению быстродействия сетей. Для уменьшения числа вычислительных операций в свёрточных сетях, начиная с работы ЛеКуна [6], предлагается свёртку вычислять в частотной области на основе алгоритма БПФ. Эта же решение используется в ряде статей [7-9] для разных видов свёрточных сетей. Во всех выше перечисленных работах для построения алгоритма БПФ используется метод, предложенный Кули и Тьюки ещё в 60-х годах прошлого века для быстрого преобразования с размерностью, кратной степени двойки. Теоретически этот метод может быть использован и для других составных размерностей, но аналитика выражений оказывается весьма громоздкой. Упрощение способа построения преобразования является одной из целей настоящей работы. Далее будет показано, что это достигается за счёт стратификации модельных представлений быстрых алгоритмов.
Оказалось, что модульность и самоподобие характерны и для биологических нейронных сетей. В 20 веке идеи модульной самоподобной организации естественных нейронных сетей были последовательно высказаны нейробиологом Рафаэль Лоренте де Но (Lorente de No) [10], нейрофизиологами Вернон Бенджамин Маунткаслом (Vernon Benjamin Mountcastle) и Дже-ралд Морис Эдельманом (Gerald Maurice Edelman) [11, 12], исследовавших строение новой коры головного мозга человека (неокортекса). Нейробиологи исторически называют нейронные модули нейронными колонками. Про новую кору известно, что вся она гораздо однороднее по своему строению, чем думали раньше; стремительное увеличение её в процессе филогенеза произошло путём умножения колонок, одинаковых в своей основе, а не путём развития
новых типов нейронов или разных способов внутренней организации. Внутренняя структура коры везде одинакова и состоит из повторяющихся многоклеточных единиц.
Лавинообразное увеличение неокортекса является важной чертой эволюции млекопитающих; степень этого увеличения отличает приматов от остальных млекопитающих, а человека - от остальных приматов. Если период появления ветви человека оценивают в 20 млн. лет, то развитие неокортекса - всего 2 млн. лет. Нейрофизиологи объясняют такое быстрое развитие многократным повторением структуры коры через однотипные многоклеточные единицы, фактически эволюционно обосновывая самодобное строение неокортекса. Косвенным подтверждением этого уже в новом столетии явились результаты исследований [13], доказавшие, что все нейронные клетки в пределах одной мини-колонки связаны с одним и тем же рецептивным полем, а смежные мини-колонки могут быть связаны с разными рецептивными полями, что подтверждает принцип инъективной связи, являющийся необходимым условием самоподобия.
1. Стратификация модельных представлений. Математические модели служат средством изучения биологических нейронных сетей и проектирования искусственных нейронных сетей. От модели требуется, чтобы она была простой, но функционально достаточной. Основной проблемой математического моделирования является нахождение приемлемого компромисса между детализацией и простотой описания. Один из путей решения этой проблемы заключается в формировании иерархически вложенных семейств моделей, где каждый уровень иерархии соответствует уровню разумного абстрагирования свойств системы, что ведёт к упрощению каждой частной модели. Такое многоуровневое представление модели принято называть стратификацией [14], а каждый уровень модельного представления - стратой. Стратификация моделей позволяет разделить проектирование нейронной сети на относительно независимые этапы и использовать для каждого этапа специфичный математический аппарат.
Далее будет показано, что страты модельных представлений самоподобной нейронной сети упорядочены по степени абстракции. Высший уровень абстракции соответствует морфологическому представлению, а низший - параметрическому. В математической формулировке стратификация связана с выделением на каждом уровне иерархии эквивалентных отношений и переходом к факторным моделям, описывающим следующий уровень.
2. Морфологические модели модульных нейронных сетей. На морфологическом уровне игнорируется внутреннее строение модулей, значение имеет только их присутствие и наличие связей между ними. Характеристики связей также не определены. Ключевыми моментами концепции морфологического строения нейронных сетей являются многослойность, модульность и самоподобие. В этом разделе будут построены математические модели, связывающие эти понятия воедино.
2.1. Самоподобие и морфогенез. По определению, компактное топологическое пространство X самоподобно, если существует конечное множество £, индексирующее набор несюръективных отображений {} для которых
Х=и/,{х).
Пример. Компактом X является замкнутый отрезок [0,1]. Позиция точки на отрезке (кроме крайне правой точки) в десятичной системе выражается в виде г = в
общем случае с бесконечным числом разрядов, где = 0,1,2, • • •, 9.
Ограничим в позиционном представлении число разрядов уровнем п , и будем считать, что число 0.г_1г_2---г_п соответствует отрезку длиной 10" на компакте X, а значение числа указывает начальную позицию этого отрезка на интервале [0,1]. В частности, для п = 1 число
0.^! будет соответствовать отрезку длиной 0.1, а значение разряда г^ указывает его позицию на X . Введём для этого уровня множество функций /2 ^ (X) , отображающих компакт X на отрезок длиной 0.1 в позиции г = 0., очевидно, что
г-1
В этом примере символ объединения можно заменить прямой суммой, поскольку при разбиении отрезки не пересекаются. Таким образом, можно записать:
X = Ф/ (X).
г-1 1
Процесс можно итеративно продолжить, выбирая в качестве компактов отрезки уже построенного разбиения. Тогда для уровня п получим:
В данном выражении кортеж (г ^ г---2 «) определяет многомерный индекс множества
несюрьективных отображений, разбивающих компакт X на части. Для позиционной системы счисления соответствие между значением числа и его поразрядным представлением го-(является взаимно-однозначными.
Рассмотренное выше классическое понятие самоподобия ориентировано на обслуживание математических моделей фракталов, и не вполне подходит для представления самоподобных объектов не фрактальной природы, поэтому существует необходимость введения обобщающего определения, включающее в себя фрактал как частный случай. Если обратиться к биологии, то подходящим понятием может служить морфогенез живых систем. Под морфогенезом в биологии понимается процесс возникновения новых структур и изменения их формы в ходе индивидуального развития организмов. Не ставя перед собой задачу построения математической модели морфогенеза, введём рабочее определение, достаточное для задач морфологического синтеза самоподобных сетей.
Определение 1. Будем говорить, что на популяции индексированных объектов X = {Л}
определён морфогенез, если для каждого объекта популяции найдётся точное соответствие «родитель-потомок», однозначно индексирующее дочерние объекты.
Например, пусть X = X0 = Ф Л ~ начальная индексированная популяция, тогда направ-
20 0
ленное развитие популяции по поколениям определяется последовательностью индексируемых популяций вида:
Если X - это компактное топологическое пространство, заданное отрезком единичной длины, и объектами популяций являются части отрезка, то все поколения объектов популяции совпадают с этим пространством, так что
х = Хо = Х1 = ■ ■ ■ = Хп_х =■■■, и если ещё потребовать конечности выбора правил индексации объектов популяции, то понятие морфогенеза трансформируется к определению самоподобия на компакте. Заметим теперь, что если ограничиться только условием конечности выбора правил индексации, то это приводит к самоподобным растущим популяциям, не связанным с фракталами. Если снять условие конечности выбора правил индексации, то процесс роста популяции вследствие морфогенеза в общем случае не будет самоподобным.
При неопределённости числа поколений затруднительно ответить на вопрос о конечности выбора правил индексации и самоподобия. В этом случае необходимо вводить дополнительные ограничения, выделяющие самоподобный процесс, например, если для всех поколений морфогенеза отображения «родитель-потомок» совпадают, то, очевидно, морфогенез тривиально самоподобен. Однако класс популяций тривиального самоподобного морфогенеза достаточно узкий, и для практических целей целесообразно его несколько расширить.
Определение 2. Морфогенез назовём регулярным, если в каждом поколении отображение «родитель-потомок» совпадает для всех объектов и однозначно определяется номером поколения.
Очевидно, что тривиальный самоподобный морфогенез является частным случаем регулярного, когда отображения «родитель-потомок» для всех поколений совпадают. Дальнейшее изложение будет в основном связано с регулярным морфогенезом. Прослеживается явная ав-томодельность в описании регулярного и тривиального самоподобного морфогенеза, поэтому и для регулярного морфогенеза мы будем использовать термин самоподобный, делая необходимые пояснения в тех случаях, когда требуется выделить отличия.
2.2. Морфогенез многослойной самоподобной сети. Пусть многослойный сетевой граф Г имеет п слоев. Обозначим через {-4™} ~~ множество вершин в слое т , где т = 0,1,---,и — 1 . Множество вершин входного (нулевого) слоя назовём афферентом сети и обозначим Л? (Г) , а множество вершин конечного слоя назовём эфферентом1 сети и обозначим Е?? (Г)
. Пусть Лт - некоторая вершина сети в слое т . Назовём афферентом вершины (далее обозначается Л? (Лт ) ) подмножество вершин афферента сети, связанных дугами с вершиной Лт, таким образом, имеем Л? (Лт )с Л? (Г) . Аналогично введём понятия эфферента вершины Е?? (Лт ), как подмножество вершин эфферента сети, связанного дугами с вершиной Лт, таким образом, Е??(Лт ) с Е?? (Г) . Афференты и эфференты вершин будем также называть терминальными проекциями.
Обозначим через Г" х( Л") рецепторную окрестность вершины Лт, а через Г( Л™ ) её ак-соновую окрестность. Правило построения графа зададим следующими выражениями:
Е? (Лт ) = лг®к) Е?? (ЛГ')-
Эти правила были ведены автором в 2004 году [15] и названы условиями слабой связанности, поскольку их реализация порождает слабосвязанные сети. Символ прямой суммы подчёркивает, что для любой вершины сети терминальные проекции вершин её окрестности не пересекаются.
В данном случае объектами популяции морфогенеза являются проекции вершин слоёв на терминальные множества. Номер слоя соответствует номеру поколения, причём для аффе-рентов номер поколения возрастает от конечного слоя к начальному, а для эфферентов - от начального к конечному. Начальными популяциями при этом являются вершины терминальных слоёв. Условия слабой связанности справедливы как для регулярного, так и не регулярного морфогенеза.
1 В биологии под афферентами понимают чувствительные нервные окончания (чувствительные рецепторы), которые расположены в органах и тканях и способны воспринимать разного рода раздражения. Эфферентами называют выходы нейронных подсистем, воздействующие на двигательные нервные волокна.
По отношению к проекциям на терминальное поле сети множество вершин слоя разбивается на афферентные и эфферентные классы. Афферентному классу принадлежат вершины нейронного слоя, имеющие общее афферентное множество, назовём эти классы афферентными доменами и обозначим Domp (Am ) = X™m , здесь A™ - один из представителей домена, im
- порядковый номер домена в слое m . Аналогично, отношение проекции вершин слоя m на терминальное эфферентное поле сети разбивает множество вершин конечного слоя на классы
- эфферентные домены, которые обозначим Dom (А^ ) = Ymm , где jm - порядковый номер эфферентного домена в слое m .
Будем полагать, что n — слойный граф сети состоит из одной компоненты связанности и удовлетворяет условиям (1). В этом случае на основании первого условия каждая вершина выходного слоя будет связана со всеми вершинами входного слоя, это означает, что в выходном слое существует всего один афферентный домен. Пусть этот домен имеет номер 0. При регулярном морфогенезе размеры всех рецепторных окрестностей вершин выходного слоя одинаковы, положим их равными рп_х. Афференты вершин окрестностей вершины конечного слоя (т.е. слоя n — 1) не пересекаются и поэтому множество вершин слоя n — 2 распадается на домены, которые пронумеруем индексом in_x. Индекс будет изменяться в диапазоне от 0 до
рп1 — 1. Таким образом, единственный домен конечного слоя в результате первого шага морфогенеза трансформировался в рп_х доменов слоя n — 2, которые обозначим Dom"p-2 (i^). Будем полагать, что каждая вершина слоя n — 2 имеет рецепторную окрестность, состоящую из рп_2 вершин. В слое n — 3 домены в результате морфогенеза получат номера, определяемые
двойным индексом Domnp3' (in_4n_\). Таким образом, достигнув начального слоя, получим, что нумерация доменов этого слоя будет определяться сложным индексом Dom° (ij2- ■ -in_4n-^l . Но
в начальном слое каждый афферентный домен состоит только из одной вершины, поэтому построенный сложный индекс будет определять и номер вершины начального слоя. Афферентные домены промежуточных слоев индексируются выражением Domm (im+1im+2 • • .
Аналогично, каждая вершина входного слоя связана со всеми вершинами выходного слоя, это означает, что во входном слое существует всего один эфферентный домен. Для регулярного морфогенеза зададим размеры аксоновых окрестностей по слоям числами g0,gi,"-,g„-2 и будем использовать индексы ./„,./,, •••,./„ : для нумераций доменов. Повторяя последовательность регулярных разбиений, получим, что для конечного слоя номер домена будет определяться сложным индексом Domngl (j0j• • j„_3j„_2) . Но в конечном слое каждый эфферентный домен состоит только из одной вершины, поэтому построенный сложный индекс будет определять и номер вершины конечного слоя. Эфферентные домены промежуточных слое индексируются выражением Dom^ (jj- • • jm_2 jm_y) . Следующая теорема является
обоснованием использования термина «слабосвязанная сеть».
Теорема. О параллельных путях. В слабосвязанных сетях отсутствуют параллельные
пути.
Доказательство. Предположим противное. Пусть существуют два параллельных отрезка путей, которые начинаются в вершине А и сходятся в вершине B, проходя через её окрестные вершины А1 и А . Так как А - общая точка параллельных отрезков и она предшествует вершинам A и A ,. то афференты окрестных вершин A и A . пересекаются так, что Afr (А Afr (А ) = Afr (А'), но это противоречит условию слабой связанности. Поскольку
утверждение справедливо для любой вершины, включая терминальные, то отсюда следует невозможность параллельных путей для всей сети.
Теорема о морфологии слабосвязанной сети. В каждом слое слабосвязанной сети с одной компонентой связанности афферентные и эфферентные домены попарно пересекаются во всех возможных сочетаниях точно по одной вершине, т.е. для каждой парной комбинации афферентного и эфферентного доменов существует единственная вершина Лтт , такая, что
Оот,, (А- ) П Оотг (А™ ) = Л™ .
Доказательство. Нужно доказать, что все парные сочетания разнотипных доменов имеют не пустое пересечение и что эти пересечения состоят только из одной вершины слоя.
Докажем первое. Предположим, что в слое т существует пара разнотипных доменов, которые не пересекаются по вершинам слоя. В этом случае вершины афферентного домена не связаны с частью вершин эфферента сети и поэтому в сети выделяется две правых конуса вершин, не связанных между собой во всех последующих слоях. С другой стороны, вершины эфферентного домена не связаны с частью вершин афферента сети и в сети выделяются два левых конуса, не связанных между собой в предшествующих слоях. Поскольку домены не пресекаются, то в этом случае в сети существует две не связанные между собой компоненты, что противоречит условию теоремы об однокомпонентности сети.
Докажем второе. Предположим, что домены пересекаются по двум вершинам Лт и А • Тогда эта пара вершин имеет общую афферентную окрестность, т.е. в слое т — 1 существует, по крайней мере, одна вершина Лт—, связанная с вершинами Лт и А, и её эфферент по условию морфогенеза (1), должен быть равен прямой сумме эфферентов вершин ее аксоновой окрестности. В эту прямую сумму входят и вершины Лт и Лт , но поскольку, по предположению, они принадлежат одному эфферентному домену слоя, то для них выполняется Е// (А Е// (А (см. рис. 1). Таким образом, мы пришли к нарушению условия морфогенеза (1) по эфферентам вершин. Аналогично это положение доказывается с использованием эфферентной окрестности пары вершин Лт и Лт •
Из этой теоремы следует, что для самоподобной сети существует взаимно-однозначное соответствие между номером вершины в пределах слоя и индексами пары пересекающихся разнотипных доменов. Для регулярной сети соответствие может быть задано кортежем, представляющим собой поразрядное представление числа в многоосновной системе счисления:
2 (Jo.il ' ' ' Jm—4т+1*т+2 ' ' ' 1) • В этом кортеже допустима любая перестановка индексов.
(2)
Бет
'(Ат)
е// (лт )п Е// (лт
Бетё (Лт1)
Рис. 1. Теорема о морфологии слабосвязанной сети. 3. Граф самоподобной сети. Из выражения (2), для слоя т — 1 получим:
т-1 / •
2 =( JoJl••• J,
Вершины смежных слоёв т и т —1 связаны дугой, если их афференты пересекаются. Афферент вершины 2т '1 определяется разрядными числами кортежа (гт1т+1 ■ ■ •/„_] ), а вершины
2 разрядными числами кортежа (1т+11т+2'''1п. , пересечение афферентов возможно только в
том случае, когда одноименные разряды в приведённых кортежах будут совпадать. Такой же вывод можно сделать, используя условия пресечения эфферентов смежных слоев т и т +1: вершины будут связаны дугой, если в кортежах (Ц---и (J0J1•••Jm_lJm) одноименные
разряды будут совпадать. Полученные правила позволяют достаточно просто выполнить построение графического образа самоподобной модульной сети. На рис. 2 показан пример построения четырёхслойной самоподобной сети для варианта, когда для всех т индексы принимают значения ={0,1} и ^ ={0,1} •
('-УЗ) {лУз) UoJlh) {JoJlh)
Рис. 2. Четырёхслойная самоподобная модульная сеть
Построенный граф полностью описывается лингвистическим предложением:
[([ > (Шз) (лАч) {-]оАь) ] •
Здесь каждое слово предложения представляет кортеж 2т номера вершины сети. В словах предложения допустима любая перестановка индексов.
4. Структурная модель модульной нейронной сети. Структурными характеристиками модульной нейронной сети являются размерности модулей по рецепторным и аксоновым полям и ранги межмодульных связей. Ограничим наше рассмотрение структурно-регулярной сетью, когда все модули в пределах слоя имеют одинаковые структурные характеристики, а все межмодульные связи имеют единичный ранг. Можно показать, что структурная регулярность влечёт за собой и морфологическую регулярность. Структурный синтез нерегулярных самоподобных сетей рассмотрен автором в работе [16].
Целесообразно упростить модель нейронной сети, полагая, что вся обработка сосредоточена в нейронных модулях, а связи осуществляют только передачу данных без внутренней обработки и искажений, т.е. осуществляют тождественное отображение с коэффициентом передачи равным единице. Такой случай характерен для алгоритмов быстрых преобразований типа БПФ.
Обозначим через размерность рецепторных полей, а через ^ - размерности аксоно-
вых полей нейронных модулей в слое т . Пример структурной модели модульной самоподобной нейронной сети с одноранговыми связями показан на рис. 3. Модули входного слоя имеют размерность (3,2), а остальных слоёв — (2,2). Веса всех дуг равны единицы и на рисунке не
показаны. Структурная модель отличается от морфологической наличием весов вершин и дуг на графе модели.
Рис. 3. Структурная модель регулярной самоподобной модульной нейронной сети
с одноранговыми связями
5. Топологическая модель модульной нейронной сети. Входы и выходы структурной модели на рис. 3 являются трёх- и двух-координатными векторами без привязки к номеру отсчёта. Структурная модель непосредственно не перекладывается на алгоритм обработки в сети, её назначение - исследовать общие свойства модульной сети, связанные с вычислительной эффективностью и пластичностью. Для описания алгоритма необходимо построить топологическую модель. В топологической модели элементами рассмотрения являются физические контакты нейронных модулей; это либо входные рецепторы, либо выходные аксоны модуля.
Обозначим через ит и Ут локальные номера рецепторов и аксонов для нейронного модуля в слое т . Диапазоны изменения локальных номеров определяются выражениями:
ит =[0,1.....-1)], V,, = [0,1.....-1)].
Позиционный номер рецептора в пределах нейронного слоя обозначим через ит, а позиционный номер аксона через Ут . Совокупность взаимно-однозначных отображений вида:
{т| . т гт \ т ) тля
ит,2 и , \ут,г V
назовём топологической моделью нейронного слоя, здесь, как и прежде, гт - номер модуля слоя т . Для регулярных нейронных сетей топологические отображения слоя могут быть выражены кортежами:
ит = (( 2т) Ф и), Vм = (( 2т) Ф У).
Символ Ф в данном случае подчёркивает, что место размещения дополнительных разрядов ит и Ут в кортеже 2я = (Уо/^- jя_liя+liя+^ • Л-х) может быть произвольным.
При одноранговых связях каждой дуге графа структурной модели однозначно ставится в соответствие дуга топологической модели, например, можно выбрать следующие взаимнооднозначные соответствия: /т о- , / о \т, тогда возможен следующий вариант топологических отображений:
ит = (№• ■Ут-1ИтИт+1- ^п-х) ,
/ \ (3)
^ = ТО" •Ут-1УтИт+^ ' Ып-1 ) ,
¿* = (^у -ут-1Ит+^ -Ып-х).
В особой ситуации находятся терминальные поля сети, поскольку для разрядных переменных и и уп1 нет соответствующих разрядов в кортеже 2т, но это не мешает построению кортежей топологических отображений слоя. Например, для структурной модели [(¥2*з)(лУз)(л/а)(лЛЛ )] можно построить следующие лингвистические предложения топологической модели:
Для рецепторных полей:
^ = \{иоЩи2щ)(^ЩЩЩ)(V0VlU2U3)(^1^3)] •
Для аксоновых полей:
А* = [[0и1и2и^ ((VoVV2U^ (VoVV2V^] •
Удобно эту модель представить одним лингвистическим предложением:
\(иои1и2и3 ) ( ^Щи2и3 ) ( ^1^3 ) (^1^3 ) ] •
Первое слово в этом предложении соответствует рецепторному полю сети, а последнее - аксоновому. Граф топологической модели строится по тем же правилам, что и граф морфологической модели: дугами соединяются вершины, имеющие одинаковые значения разрядных переменных в смежных слоях. Граф топологической модели для данного примера показан на рис. 4.
Нетрудно убедиться, что данная модель соответствует графу быстрого преобразования Фурье (БПФ) в топологии Кули-Тьюки «с прореживанием по частоте» [17]. Другой вариант топологических отображений может быть задан в виде:
Um = lu u -•••u ±,u V V
\ n 1 n 1 m 1 m ni—1 i
m ' ni 1 ' m-2 Vo
Vm =(u u -•••u ^v V J ),
\ n 1 n 2 m 1 m m 1 m 2 1 0 / ?
x ÎÎ 1 и-2 iîi+l iîi—1 m 2 1 U /
(4)
Эта модель соответствует графу БПФ в топологии Кули-Тьюки «с прореживанием по времени». Граф данной топологической модели показан на рис. 5.
Из полученных результатов можно сделать вывод, что алгоритм быстрого преобразования Фурье является топологической реализацией самоподобной модульной сети, где модулями являются базовые операции типа «бабочка». Для быстрых нейронных сетей вместо базовой операции используется термин нейронное ядро.
Рис. 4. Топологическая модель алгоритма БПФ «с прореживанием по частоте»
Рис. 5. Граф топологической модели алгоритма БПФ «с прореживанием по времени»
Нетрудно проверить, что для обеих выше приведённых топологий выполняется Vm-1 = ^, Из топологической модели (3) для терминальных слоёв получим:
U0 = =ип-2 ■■ ■и1ио)> ^ = (V 1 ^-2 • • • ■^о)■ Если обозначить через N - размерность рецепторного поля, а через M - размерность ак-сонового поля сети, то из последних выражений непосредственно следует:
N = Р„ , • • • РгРо, М = Я„ I • • • ЯхЯо • Таким образом, размерности терминальных полей сети определяются произведением размерностей нейронных модулей. На рис. 6 показан граф топологической модели (4) для структурной модели, показанной на рис. 3. Для наглядности на графе выделены базовые операции.
Рис. 6. Граф топологической модели с выделенными базовыми операциями
Рассмотрим ещё несколько типов регулярных топологий. На рис. 7 показан граф преобразования с топологией Гуда [18]. На графе явным образом выделены базовые операции. Работа Гуда по быстрому преобразованию Фурье появилась на семь лет раньше хорошо известной работ Кули и Тьюки [17], но прошла не замеченной.
Топологическая схема описывается моделью
ит = {итит+,.. .и„_№.. .у^),
уП = (ит+1ит+2" -ип_№-- -О ,
^ = { ит+1 ит+2■■ ■ип_ 1 У0У1"-Ут_1 )■
Особенность схемы Гуда состоит в том, что все слои графа имеют одинаковый топологический образ. Однако выходные операнды на каждой базовой операции не могут замещать входные отсчёты, поэтому требуется дополнительная память для хранения выходного вектора слоя. Рассмотренные выше топологические схемы Кули-Тьюки с «прореживанием по времени» и по «частоте» являются двойственными друг другу и могут быть получены зеркальным отражением относительно вертикальной оси. Алгоритмически переход к двойственной схеме выполняется заменой переменных в топологической модели по правилам: ит —у"_~т, ит —Уп_х_т . Двойственная топология Гуда описывается моделью:
ит = (у у п... УМ м ....и ),
\ т-1 т-2 и п 1 п 1 т / '
Ут = (У У ,...УМ м ),
\ т т-1 п п 1 п 1 т 1 / '
¡т =(у , ...Упи м ....и ^)■
\ т-1 п п 1 п 1 т 1 /
На рис. 8 показан граф быстрого преобразования с двойственной топологией Гуда.
топологией Гуда ственной топологией Гуда
Алгоритм БПФ для схем Кули-Тьюки по основанию 2 на выходе имеет спектр, гармоники которого имеют двоично-инверсную упорядоченность по частоте. Следующая топологическая схема позволяет получить на выходе спектр с естественным упорядочением по частоте при произвольных основаниях.
ит = (ии^--и и .V V ,
\ /// /»+1 /7-2 /7-1 //7-1 ///-2 1 0 / ?
Vй = (ит+1ит
' ///+2 ' Un-lVm Vm-lVm-2 ' ' ' V1V0
zm =< u
m+\
•и M ,v 0 •
n-2 n-1 w-1 m-2
•V1V0
На рис. 9 показан граф быстрого преобразования, построенный по данной топологии. Двойственная топологическая модель описывается выражениями:
Um = ViV;-
•WA+i '
'l,n-2l,n-\
Vm = (v V V ^•••VVM ^•■■u u , ),
\ m ni—1 /77-2 1 О /7/+1 /7-2 /7-1 / ?
* /7/—1 /77-2 1 U /7/+1 /7-2 /7-1 /
Граф алгоритма БПФ с естественным упорядочением спектра по частотам и двойственной топологией показан на рис. 10.
Рис. 9. Граф алгоритма БПФ с естественным Рис. 10. Граф алгоритма БПФ с естествен-упорядочением спектра по частотам следо- ным упорядочением спектра по частотам вания следования и с двойственной топологией
Для быстрого преобразования Хаара используется следующая топологическая схема [3]:
ит = (и и -и V Л,
\ /7-1 /7-2 /7/+1 /7/ 0 1 /77-2 /7/-1 / '
Vй = Я-А
■*и-1"и-2 ' г'/7/+11;о1;1 ' ' ' Vni-2Vni-\Vm
4 /7-1 /7-2 /7/+1 U 1 /77-2 /7/—1
Граф топологической схемы показан на рис. 11 .
Ж
»i
Jll 1
—
fíkfrEkf В 3
Рис. 11. Топологический граф преобразова- Рис. 12. Граф топологической схемы быст-ния быстрого преобразования Хаара рого преобразования Хаара с двойственной
топологией
Двойственна топологическая модель описывается выражением:
ит = (уу---у у и м .■■■и м V
\ О 1 т-2 т-1 п-1 и-2 ш+1 ш / ?
ут = (УПУ,---У ,У ,У м м
\ О 1 т-2 т-1 ш и-1 и-2 ш+1 / ?
т-2 т-1 и-1 и-2
Топологический граф двойственной модели показан на рис. 12.
6. Параметрические модели быстрых преобразований. В графе быстрого алгоритма модулями являются базовые операции (нейронные ядра), представимые в виде матриц небольшой размерности. Для алгоритма быстрого преобразования в базовой операции 2т слоя т выполняется линейная обработка компонентов входного вектора слоя:
УПт (Ут )=£ хт м ) ^ {мп , Ут ) ,
где х™ и у™ - координаты входного и выходного векторов базовой операции; м™ - матрица
весов базовой операции. Для построения алгоритма преобразования необходимо перейти от локальных переменных ядра к глобальным переменным слоя. Этот переход реализуется на основе топологической модели. Параметрическое описание базовых операций вместе с топологической моделью образует параметрическую модель быстрого преобразования.
Заключение. В статье рассмотрен принцип построения четырехуровневой стратифицированной модели для самоподобных многослойных нейронных сетей с регулярной топологией. Стратификация позволяет исследовать систему на разных стадиях познания и описывать каждый уровень адекватными средствами. Стратифицирование можно рассматривать и как средство последовательного углубления представления о системе: при спуске вниз по иерархии страт система раскрывается в деталях; при подъёме на более абстрактные уровни яснее становится смысл и значение всей системы. В статье показано, что быстрые алгоритмы спектральных преобразований относятся к категории самоподобных нейронных сетей и могут быть представлены четырёхуровневой стратифицированной моделью.
Теоретическая основа быстрых алгоритмов долгое время базировалась на всевозможных теоремах факторизации, которые доказывали возможность разложения матрицы спектрального преобразования в произведение слабозаполненных матриц, где каждая матрица соответствует одному слою быстрого алгоритма [19, 20]. Это породило всплеск работ по теоремам факторизации. На этом пути исследователи столкнулись с тем обстоятельством, что существует большое множество различных матричных разложений для одного и того же спектрального преобразования. Когда число всевозможных теорем факторизации превысило десятки, стало понятным, что этот путь является тупиковым. Тем не менее, поток теорем не закончился и до сих пор. Проблема была чисто методическая и заключалась в смешивании понятий морфологии, структуры и топологии быстрого преобразования. Морфология является устойчивым системным инвариантом, свойственным всему классу быстрых алгоритмов, а топология - это не более чем допустимая реализация системного инварианта в связях между базовыми операциями. Каждая теорема факторизации соответствует одной из допустимых форм топологической реализации, а их число быстро растёт с ростом размерности преобразования. Автором было показано [21], что в основу теории быстрых преобразований следует положить именно системные инварианты, это устраняет необходимость изобретения новых теорем факторизации и позволяет предложить общий метод построения различных топологических реализаций быстрого преобразования при неизменной структуре. Предложенный метод существенно упрощает аналитику при построении быстрых преобразований с произвольными составными размерностями. Более того, выделение структурного и топологического уровней
даёт возможность решать новые задачи, связанные с оценкой параметрическом и топологической пластичности перестраиваемых преобразований.
Список источников
1. Солодовников А.И. Основы теории и методы спектральной обработки информации / А.И. Солодовников, А.М. Спиваковский. - Л., 1986. - 272 с.
2. Дорогов А.Ю. Быстрые нейронные сети / А.Ю. Дорогов. - СПб.: Изд-во С.Петерб. ун-та, 2002. - 80 с.
3. Дорогов А.Ю. Теория и проектирование быстрых перестраиваемых преобразований и слабосвязанных нейронных сетей / А.Ю. Дорогов. - СПб.: «Политехника», 2014. - 328с.
4. Keivan Alizadeh Vahid, Anish Prabhu, Ali Farhadi, Mohammad Rastegari University of Washington butterfly transform: an efficient FFT based neural architecture design. CVPR-2020, Conference on computer vision and pattern recognition June 14-19, 2020, pp. 12024-12033.
5. Yingzhou Li, Xiuyuan Cheng, Jianfeng Lu Butterfly-Net: Optimal function representation based on convolutional neural networks, 2019, DOI: 10.48550/arXiv.1805.074512.
6. Mathieu M., Henaff M., LeCun Y., Fast training of convolutional networks through FFTs, 2013, DOI: 10.48550/arXiv.1312.5851.
7. Varsha Nair, Moitrayee Chatterjee, Neda Tavakoli, Akbar Siami Namin, Craig Snoeyink Fast fourier transformation for optimizing convolutional neural networks in object recognition, 2020, DOI: 10.48550/arXiv.2010.04257.
8. Shaohua Li, Kaiping Xue1, Bin Zhu, Chenkai Ding, Xindi Gao, David Wei, TaoWan. FALCON: A Fourier transform based approach for fast and secure convolutional Neural Network predictions. CVPR-2020, Conference on Computer Vision and Pattern Recognition June 14-19, 2020.
9. Chenlin Meng, Linqi Zhou, Kristy Choi, TriDao, StefanoErmon. Butterfy Flow: building invertible layers with butterfy matrices. Proceedings of the 39-th International conference on machine learning, Baltimore, Maryland, USA, PMLR 162, 2022.
10. Lorente de No R. Cerebral Cortex: Architecture, intracortical connections, motor projections. Physiology of the nervous system. Oxford University Press, New York, 1949, pp. 288-312.
11. Эделмен Дж. Разумный мозг / Дж. Эделмен, В. Маунткасл. - М.: Мир, 1981. - 135.
12. Vernon B Mountcastle Sensory hand: neural mechanisms of somatic sensation. Cambridge, Harvard university press, 2005.
13. Jones E.G. Microcolumns in the cerebral cortex [Free PMC Article (full text)]. Proceedings of the National Academy of Sciences of the United States of America: journal, 2000, vol. 97, no. 10, pp. 5019-5021, PMID 10805761.
14. Волкова В.Н. Основы теории систем и системного анализа: Учеб. для студентов вузов / В.Н. Волкова, А.А. Денисов. - СПб.: Изд-во СПбГТУ, 1999. - 512 с.
15. Дорогов А.Ю. Быстрые нейронные сети: Проектирование, настройка, приложения. // Лекции по нейроин-форматике Ч.1. В тр. школы-семинара «Современные проблемы нейроинформатики», науч.-техн. конф. "Нейроинформатика-2004" 28-30 января 2004 г. Москва. - М.: МИФИ, 2004, с. 69-135.
16. Дорогов А.Ю. Структурный синтез модульных слабосвязанных нейронных сетей. Часть 2 Ядерные нейронные сети / А.Ю. Дорогов // Кибернетика и системный анализ, 2001. - № 4. - с.13-20.
17. Good I.J. The Interaction algorithm and practical fourier analysis. Journal of Royal Statistical Soseity. Ser.B.-1958, vol. 20, no.2, pp. 361-372.
18. Cooley J., Tukey J. An algorithm for the machine calculation of complex Fourier series. Math. Comput, 1965, vol. 19, pp. 297-301.
19. Рабинер Л. Теория и применение цифровой обработки сигналов / Л. Рабинер, Б. Гоулд. - М.: Мир, 1978. -848 с.
20. Дагман Э.Е. Быстрые дискретные ортогональные преобразования / Э.Е. Дагман, Г.А. Кухарев // Новосибирск: Наука. - 1983. - 228 с.
21. Дорогов А.Ю. Структурные и топологические инварианты быстрых перестраиваемых преобразований Сб. тр. VIII Науч.-техн. Всерос. научн. конф. "Нейроинформатика-2006" 24-27 января 2006г. - М.: МИФИ, 2006. - Ч.1. - С.39-50.
Дорогов Александр Юрьевич. Доктор технических наук, доцент, профессор кафедры «Автоматики и процессов управления» Санкт-Петербургского государственного электротехнического университета (СПбГЭТУ) «ЛЭТИ», главный научный сотрудник ПАО «Информационные телекоммуникационные технологии». Основные направления исследований автора связаны с интеллектуальным анализом данных, цифровой обработкой сигналов, проектированием быстрых преобразований и нейронных сетей быстрого обучения, разработкой аналитических платформ, моделированием радио-телекоммуникационных систем. AuthorID: 17611, SPIN 8645-5873, ORCID 0000-0002-7596-6761, [email protected], г. Санкт-Петербург, ул. Попова, 5.
UDC 004.032.26
DOI: 10.25729/ESI.2023.32.4.001
Fast transformations and self-similar deep learning neural networks Part 1. Stratified models of self-similar neural networks and fast transformations Alexander Yu. Dorogov
PJSC "Information Telecommunication Technologies" ("Inteltech"),
St. Petersburg State Electrotechnical University, Russia, St. Petersburg, [email protected]
Abstract. The paper shows that the construction of fast transformations (similar to FFT) is based on self-similar structures that can equally be used to build fast neural networks (FNN). It is shown that the class of fast transformations is determined by system invariants of the morphological level and can be described as the morphogenesis of terminal projections of neural modules. Linguistic models are proposed to describe the morphology, structure and topology of regular self-made neural networks. The models are easily generalized to multidimensional variants of neural networks of this class. Due to their structure, FNN have special learning algorithms that are fundamentally different from the classic ErrorBackPropagation by the absence of a mechanism for error back propagation. The learning algorithms are based on the methods of multiplicative factorization of images and fast transformations proposed in the work. The developed algorithms are completed in a finite number of steps with guaranteed convergence. The consistent development of the concept of self-similarity leads to the development of methods for creating fast neural networks with a deep degree of learning. Self-similar neural networks have a unique opportunity to learn to new data without losing previously acquired knowledge. It is shown that FNN can be used to create high-speed random access image memory and complex combinational logic devices. The paper presents the results of the author's research on the following issues: biological prerequisites for self-similarity of neural networks; self-similar multilayer structures, morphogenesis, stratification of model representations; algorithms for fast transformations, fast neural networks, tuning methods; training of FNN to reference functions; plasticity of FNN; pyramidal neural networks of deep learning; multi-channel correlators; implementation of memory and combinational logic on pyramidal structures. The research results will be presented in three parts of the article.
Keywords: self-similar structures, fast transformations, morphogenesis, fast neural networks, pyramidal structures, image memory, combinational logic
References
1. Solodovnikov A.I., Spivakovskij A.M. Osnovy teorii i metody spektral'noj obrabotki informacii [Fundamentals of the theory and methods of spectral information processing]. Leningrad, 1986, 272 p.
2. Dorogov A.Yu. Bystryye neyronnyye seti [Fast neural networks]. St. Petersburg Publishing House. Univ., 2002, 80 p.
3. Dorogov A.Yu. Teorija i proektirovanie bystryh perestraivaemyh preobrazovanij i slabosvjazannyh nejronnyh setej [Theory and design of fast tunable transformations and loosely coupled neural networks]. St. Petersburg, Politekhnika [Politehnika], 2014, 328 p.
4. Keivan Alizadeh Vahid, Anish Prabhu, Ali Farhadi, Mohammad Rastegari University of Washington butterfly transform: an efficient FFT based neural architecture design. CVPR-2020, Conference on computer vision and pattern recognition June 14-19 2020, pp. 12024-12033.
5. Yingzhou Li, Xiuyuan Cheng, Jianfeng Lu Butterfly-Net: Optimal function representation based on convolutional neural networks, 2019, DOI: 10.48550/arXiv.1805.074512.
6. Mathieu M., Henaff M., LeCun Y., Fast training of convolutional networks through FFTs, 2013, DOI: 10.48550/arXiv.1312.5851.
7. Varsha Nair, Moitrayee Chatterjee, Neda Tavakoli, Akbar Siami Namin, Craig Snoeyink Fast fourier transformation for optimizing convolutional neural networks in object recognition, 2020, DOI: 10.48550/arXiv.2010.04257.
8. Shaohua Li, Kaiping Xue1, Bin Zhu, Chenkai Ding, Xindi Gao, David Wei, TaoWan. FALCON: A Fourier transform based approach for fast and secure convolutional Neural Network predictions. CVPR-2020, Conference on Computer Vision and Pattern Recognition June 14-19 2020.
9. Chenlin Meng, Linqi Zhou, Kristy Choi, TriDao, StefanoErmon. Butterfy Flow: building invertible layers with butterfy matrices. Proceedings of the 39-th International conference on machine learning, Baltimore, Maryland, USA, PMLR 162, 2022.
10. Lorente de No R. Cerebral Cortex: Architecture, intracortical connections, motor projections. Physiology of the nervous system. Oxford University Press, New York, 1949, pp. 288-312.
11. Gerald M. Edelman, Vernon B. Mountcastle Razumnyy mozg [Intelligent brain]. M.: Mir, 1981, 135p.
12. Vernon B Mountcastle Sensory hand: neural mechanisms of somatic sensation. Cambridge, Harvard university press, 2005.
13. Jones E.G. Microcolumns in the cerebral cortex [Free PMC Article (full text)]. Proceedings of the National Academy of Sciences of the United States of America: journal, 2000, vol. 97, no. 10, pp. 5019-5021, PMID 10805761.
14. Volkova V.N., Denisov A.A Osnovy teorii sistem i sistemnogo analiza: Ucheb. dlya studentov vuzov [Fundamentals of systems theory and system analysis: Textbook. for university students]. St. Petersburg, Publishing house of St. Petersburg State Technical University, 1999. 512 p.
15. Dorogov A.Yu. Bystryye neyronnyye seti: Proyektirovaniye, nastroyka, prilozheniya [Fast neural networks: Design, configuration, applications]. Lekcii po nejroinformatike Ch.1. V tr. shkoly-seminara "Sovremennye prob-lemy nejroinformatiki", nauch.-tehn. konf. "Nejroinformatika" [Proceedings of the school-seminar "Modern problems of neuroinformatics", scientific and technical conf. "Neuroinformatics"]. Moscow, MIFI, 2004, pp. 69-135.
16. Dorogov A.Y. Strukturnyy sintez modul'nykh slabosvyazannykh neyronnykh setey. Chast' 2 Yadernyye ney-ronnyye seti [Structural synthesis of modular weakly connected neural networks. II Nuclear neural networks]. Kibernetika i sistemnyy analiz [Cybernetics and system analysis], 2001, vol. 37, no. 4, pp. 470-477.
17. Cooley J., Tukey J. An algorithm for the machine calculation of complex Fourier series. Math. Comput, 1965, vol. 19, pp. 297-301.
18. Good I.J. The Interaction algorithm and practical fourier analysis. Journal of Royal Statistical Soseity. Ser.B.-1958, vol. 20, no.2, pp. 361-372.
19. Lawrence R. Rabiner, Bernard Gold Teoriya i primeneniye tsifrovoy obrabotki signalov [Theory and application of digital signal processing]. M., Mir, 1978, 848 с.
20. Dagman Je. E., Kuharev G.A. Bystrye diskretnye ortogonal'nye preobrazovanija [Fast discrete orthogonal transformations] Publ., Novosibirsk: Nauk :, 1983. 228 p.
21. Dorogov A.Yu. Strukturnyye i topologicheskiye invarianty bystrykh perestraivayemykh preobrazovaniy [ Structural and topological invariants of fast tunable transformations]. Sb. tr. VIII Nauch.-tekhn. Vseros. nauchn. konf. "Neyroinformatika-2006" 24-27 yanvarya 2006g [Sb. tr. VIII Scientific and technical. All-Russian scientific conf. "Neuroinformatics-2006" January 24-27, 2006], M, MEPhI, 2006, Part 1, pp.39-50.
Dorogov Alexander Yurievich. Doctor of technical sciences, associate professor, professor of the department of Automation and Control Processes of St. Petersburg state electrotechnical university (SPbETU) "LETI", Chief researcher of PJSC "Information telecommunication technologies. The main directions of the author's research are related to data mining, digital signal processing, the design of fast transformations and neural networks of fast learning, the development of analytical platforms, modeling of radio and telecommunications systems. AuthorID: 17611, SPIN 8645-5873, ORCID 0000-0002-7596-6761, [email protected] , St. Petersburg, st. Popova, 5.
Статья поступила в редакцию 13.06.2023; одобрена после рецензирования 16.10.2023; принята к публикации 13.12.2023.
The article was submitted 06/13/2023; approved after reviewing 10/16/2023; accepted for publication 12/13/2023.