О ЗАДАЧЕ ПРИМЕНИМОСТИ СЕТЕЙ КОЛМОГОРОВА-АРНОЛЬДА В ЛЕГКОВЕСНОЙ НЕЙРОСЕТЕВОЙ МОДЕЛИ КЛАССИФИКАЦИИ
АКУСТИЧЕСКИХ ДАННЫХ
Г.М. Мкртчян, Московский технический университет связи и информатики, g. m. mkrtchyan@mtuci. ru.
УДК 621_
Аннотация. В данной работе исследуется возможность повышения точности модели MNv3 при использовании сетей Колмогорова-Арнольда (Kolmogorov-Arnold Networks, KAN) на завершающих этапах обработки признаков. Сети KAN позволяют представлять сложные многомерные функции через суперпозицию функций одной переменной, что обеспечивает эффективное выявление нелинейных зависимостей между признаками. Эксперименты показали, что замена финальных слоев модели MNv3 на KAN улучшает точность классификации, особенно при использовании аугментации и дистилляции знаний. Достигнутая точность в 95,11% демонстрирует эффективность KAN в задачах классификации аудиоданных, что открывает новые перспективы для применения данной архитектуры в компактных и вычислительно оптимизированных моделях.
Ключевые слова: сети Колмогорова-Арнольда; классификация аудиоданных; дистилляция знаний; нелинейные зависимости; многомерные функции; машинное обучение; MNv3 ; нейросетевые архитектуры.
ON THE APPLICABILITY PROBLEM OF KOLMOGOROV-ARNOLD NETWORKS IN A LIGHTWEIGHT NEURAL NETWORK MODEL OF ACOUSTIC DATA CLASSIFICATION
G.M. Mkrtchian, Moscow Technical University of Communications and Informatics.
Annotation. This paper investigates the possibility of improving the accuracy of the MNv3 model by using Kolmogorov-Arnold Networks (KAN) at the final stages of feature processing. KANs allow to represent complex multivariate functions through superposition of functions of one variable, which provides effective detection of nonlinear dependencies between features. Experiments have shown that replacing the final layers of the MNv3 model with KANs improves classification accuracy, especially when using knowledge augmentation and distillation. The achieved accuracy of 95.11% demonstrates the effectiveness of KAN in audio data classification tasks, which opens new perspectives for the application of this architecture in compact and computationally optimized models.
Keywords: Kolmogorov-Arnold Networks; audio data classification; knowledge distillation; nonlinear dependencies; multivariate functions; machine learning; MNv3; neural network architectures.
Введение
С развитием и увеличением сложности задач машинного обучения, особенно в области обработки аудиоданных, возрастает потребность в создании высокоэффективных и точных моделей. Конкурентоспособность современных нейронных сетей зачастую обусловлена их способностью выявлять сложные нелинейные зависимости между признаками, что делает их пригодными для широкого спектра задач, таких как классификация и распознавание сигналов. В последние годы такие модели, как BEATs и MNv3, продемонстрировали высокие показатели точности, однако по мере повышения требований к качеству обработки
152
данных становится очевидным необходимость внедрения дополнительных архитектур и подходов, позволяющих улучшить существующие результаты.
Одним из перспективных методов, способным существенно повысить производительность модели, является использование сетей Колмогорова-Арнольда (KAN). Данный подход основан на теореме Колмогорова-Арнольда, утверждающей, что любую многомерную непрерывную функцию можно представить как суперпозицию функций одной переменной. Это свойство открывает возможности для моделирования сложных взаимосвязей между признаками, особенно в задачах классификации, где важно выделить ключевые характеристики, описывающие классы данных. Применение KAN -сетей в задаче классификации аудиозаписей, исследуемое в рамках данного исследования, позволяет компенсировать ограничения традиционных многослойных персептронов и улучшить качество классификации.
Целью данной работы является экспериментальная проверка эффективности замены финальных слоев многослойного персептрона модели MNv3 на сеть Колмогорова-Арнольда для повышения точности классификации.
Обзор легковесных архитектур для классификации аудио
MobileNet [1] и BEATs [2] широко используются в задачах классификации аудио благодаря их легковесной архитектуре и высокой эффективности при работе с крупными наборами данных. MobileNet, изначально разработанный для компьютерного зрения, был адаптирован для аудиоклассификации: так, в статье о AM-MobileNet1D [3] описана версия MobileNetV2, способная обрабатывать одномерные аудиосигналы, что позволяет распознавать речь с высокой точностью при минимальных вычислительных затратах.
Аналогично, модель YAMNet на основе MobileNetVl использует лог-мел-спектрограммы для классификации звуковых событий, таких как музыка, речь и фоновые шумы. Этот подход, реализованный в TensorFlow Hub, обеспечивает эффективность в задачах реального времени [4].
BEATs применяет итеративное самообучение для создания точных представлений звуков, что позволило достичь высоких показателей на наборах данных AudioSet и ESC-50 [5, 6]. В работе [7] приводится сравнительный анализ методов акустического детектирования и классификации, что дополнительно подчеркивает актуальность темы и эффективность подходов.
Описание сетей Колмогорова-Арнольда
Сети Колмогорова-Арнольда (Kolmogorov-Arnold Networks, KAN) представляют собой класс нейросетевых архитектур [8], основанных на теореме Колмогорова-Арнольда [9], которая, как уже указывалось, утверждает, что любую многомерную непрерывную функцию можно представить в виде суперпозиции непрерывных функций одной переменной. Основная идея теоремы заключается в том, что для любой функции f(X), определенной на n-мерном пространстве, существует набор одномерных функций, с помощью которых можно воссоздать поведение исходной функции. Это позволяет свести многомерную задачу к серии одномерных преобразований, что снижает вычислительную сложность и облегчает моделирование сложных зависимостей.
Математически теорема выражается следующим образом:
(1)
где: f(X) : [0, 1] n ^ R - многомерная непрерывная функция от n переменных, q:R ^ R, q,p: [0, 1] ^ R - непрерывные функции одной переменной.
Особенности применения KAN в задаче классификации аудиоданных
В контексте классификации аудиозаписей предложенный теоремой Колмогорова-Арнольда, подход позволяет заменить традиционные многослойные персептроны и свертки на сети, состоящие из функций меньшей размерности. Для каждого класса можно определить одномерные функции, с помощью которых решается задача классификации на уровне признаков. Однако непосредственное применение KAN сопряжено с рядом трудностей:
1. Количество необходимых функций: согласно теореме Колмогорова-Арнольда, для представления многомерной функции потребуется значительное количество функций, равное:
N(2n + í)n, (2)
где: N - число классов, а n - количество переменных, описывающих аудиозапись. В случае с аудиоданными, закодированными на частоте 16 000 Гц с длительностью в одну секунду, это требование становится вычислительно затратным, так как общее число функций может достигать миллиардов.
2. Отсутствие условия дифференцируемости: теорема накладывает лишь требование непрерывности функций, но не их дифференцируемости, что затрудняет использование метода градиентного спуска для обучения сети.
Для решения первой проблемы в данной работе используется подход, аналогичный сверточным нейронным сетям: исходные данные сокращаются до вектора меньшего размера, содержащего только необходимые для задачи классификации характеристики. Это достигается за счет использования модели MNv3 в качестве модели-экстрактора признаков, поверх которой применяется KAN для классификации.
Реализация функций в KAN
Решение второй проблемы стало возможным благодаря переносу функций активации на ребра сети, что позволяет аппроксимировать их с использованием взвешенной суммы базисной функции и 5-сплайна:
ф(х) = wbb(x) + wsspline(x), (3)
где: w - обучаемые параметры; b(x) - базисная функция, в работе использовалась b(x) = silu(x) = ^ * _х; spline (x) - линейная комбинация B-сплайнов степени
h: spline(x) = Bth(x) , где ct - обучаемый параметр. В работе использовались B-сплайны 3-й степени c 11-ю равноудаленными узлами t. B-сплайны могут быть получены с помощью рекурсивной формулы Кокса-де Бура:
B°(x) = L1 ПрИ , (4)
1 0 в противном случае
ВКх) = -——^—B¿-1(x) +'i+k+1 * В+Мх). (5)
ti+k ti ti+k+1 к+1
Итоговый слой Фг KAN-сети представлен описанными функциями 0г,^,р(х), где l - номер слоя; q - номер нейрона из слоя Z — 1; р - номер нейрона в слое l; ri -количество нейронов в слое i:
П-1
xl,p = &l{xl-1,p) = ^ Ф1д,р(х1-1,ц) , (6)
¿ = 1
Сеть KAN представляет собой композицию нескольких слоев, каждый из которых вычисляет выходные значения на основе функций активации, перенесенных на ребра сети и параметризованных сплайнами. На рис. 1 показана структура KAN-сети из двух слоев, а также пример функции активации, параметризуемой с помощью 5-сплайнов.
Рисунок 1
Нейроны в каждом слое связаны с нейронами предыдущего слоя с помощью функций активации определенных через базисную и сплайновую составляющие. Обобщенная формула вычисления выхода нейрона в слое I имеет вид:
ri-i q=1
где: тх - количество нейронов в предыдущем слое.
Композиция слоев KAN позволяет эффективно представлять сложные многомерные функции, разделяя их на небольшие непрерывные функции. Данная архитектура обладает высокой гибкостью и позволяет моделировать сложные зависимости между признаками, особенно на завершающих этапах классификации, где требуется максимально детализированный анализ высокоуровневых признаков.
Постановка задачи
В данной работе рассматривается задача классификации аудиозаписей, которая состоит в определении категории или класса звукового сигнала на основе его характеристик. Основной целью является улучшение точности классификации
155
при помощи современных неиросетевых архитектур, с минимизациеи вычислительных ресурсов и объема модели. В контексте аудиоклассификации важно не только корректно распознавать особенности сигнала, но и выявлять сложные нелинейные зависимости между признаками, которые характеризуют различные классы звуков.
Исходный набор данных состоит из аудиозаписей, закодированных с частотой дискретизации 16 000 Гц и длительностью в одну секунду, разделенных на пять классов. Основной задачей исследования является замена традиционных методов классификации, таких как многослойный персептрон (MLP), на сети Колмогорова -Арнольда (KAN), которые потенциально могут повысить точность модели за счет способности KAN выявлять сложные зависимости между высокоуровневыми признаками.
Для достижения этой цели решаются следующие задачи:
1. Модификация архитектуры модели: внедрение сети Колмогорова-Арнольда в финальные слои модели MNv3, чтобы оценить ее эффективность по сравнению с MLP.
2. Обучение с различными стратегиями: проведение обучения модели как с аугментацией данных, так и с дистилляцией знаний из предобученной модели BEATs, которая ранее продемонстрировала высокие показатели точности.
3. Сравнительный анализ результатов: анализ точности классификации на тестовой выборке для различных конфигураций модели с целью выявления оптимальных параметров и настроек для повышения точности без значительного увеличения вычислительных затрат.
Экспериментальные результаты
Для проверки эффективности сетей Колмогорова-Арнольда (KAN) в задаче классификации аудиоданных был проведен эксперимент, в ходе которого финальные слои многослойного персептрона модели MNv3 были заменены на сеть KAN. Цель данной модификации заключалась в улучшении способности модели выявлять сложные зависимости между высокоуровневыми признаками, извлеченными из аудиоданных на предыдущих слоях.
Рисунок 2
Модель обучалась с использованием различных методов, включая аугментацию данных и дистилляцию знаний из предобученной модели BEATs, которая достигла точности на валидационном наборе данных в О,97О6. На рис. 2 представлено сравнение точности классификации на валидационном наборе данных для модели с использованием KAN и модели с многослойным персептроном (MLP) на финальных слоях. На графике показано изменение точности после каждой эпохи обучения.
После внедрения сетей Колмогорова-Арнольда модель продемонстрировала небольшое, но стабильное улучшение точности классификации на тестовой выборке. Наилучшую точность показали эксперименты с использованием KAN и аугментацией, с и без дистилляции — 95,11%. При этом дистилляция знаний дала незначительное повышение точности, что может быть связано с приближением к точности модели учителя (BEATs).
Таким образом, результаты эксперимента показывают, что использование сетей Колмогорова-Арнольда на завершающих этапах обработки признаков может быть полезным инструментом для улучшения точности компактных моделей, сохраняя при этом их эффективность с точки зрения вычислительных ресурсов.
Заключение
В данной работе была исследована возможность применения сетей Колмогорова-Арнольда (KAN) для повышения точности классификации аудиоданных. Теоретическая основа KAN, основанная на теореме Колмогорова-Арнольда, позволяет представлять многомерные функции через суперпозицию функций одной переменной. Это свойство открывает новые возможности для моделирования сложных зависимостей между признаками, что особенно актуально на финальных этапах классификации, где требуется выявление нелинейных взаимосвязей между высокоуровневыми характеристиками.
Эксперименты показали, что замена финальных слоев многослойного персептрона модели MNv3 на сеть KAN приводит к небольшому, но стабильному повышению точности на тестовой выборке. Наилучшие результаты были достигнуты при использовании KAN совместно с аугментацией и дистилляцией знаний, что позволило достичь точности 95,11%, приближаясь к показателям предобученной модели BEATs. Тем не менее, прирост от дистилляции знаний оказался минимальным, что может свидетельствовать о высоком уровне приближения точности модели к точности учителя.
Полученные результаты подтверждают, что сети Колмогорова-Арнольда могут быть полезным инструментом для улучшения качества обработки данных в компактных моделях, не увеличивая существенно их вычислительные затраты. Это делает KAN перспективным решением для задач, где важна как точность, так и эффективность с точки зрения вычислительных ресурсов. В дальнейшем планируется исследование возможностей оптимизации архитектуры KAN и расширение ее применения на больших моделях с архитектурой трансформер.
Благодарности. Выражаю искреннюю благодарность своему научному руководителю, к.т.н. Михаилу Геннадьевичу Городничеву, за помощь и поддержку в подготовке данной статьи.
Литература
1. Howard A., Sandler M., Chu G., Chen L.-C., Chen B., Tan M., Wang W., Zhu Y., Pang R., Vasudevan V., Le Q. V., Adam H. Searching for MobileNetV3 // arXiv, 2019. - Доступно по ссылке: https://arxiv.org/abs/1905.02244.
2. Chen S., Wu Y., Wang C., Liu S., Tompkins D., Chen Z., Wei F. BEATs: Audio Pre-Training with Acoustic Tokenizers // arXiv, 2022. - Доступно по ссылке: https://arxiv.org/abs/2212.09058.
3. Costa D.B., Silva G.R., Silva M.A., Santos M. T. AM-MobileNet1D: A Portable Model for Speaker Recognition // arXiv, 2020. Доступно по ссылке: https://arxiv.org/abs/2004.00132.
4. TensorFlow. Sound Classification with YAMNet. Доступно по ссылке: https://www.tensorflow.org/hub/tutorials/yamnet.
5. Gemmeke J.F., Ellis D. P. W., Freedman D., Jansen A., Lawrence W., Moore R. C., Plakal M., Ritter M. Audio Set: An Ontology and Human-Labeled Dataset for Audio Events // 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), New Orleans, LA, USA, 2017. - С. 776-780. DOI: 10.1109/ICASSP.2017.7952261.
6. Karol J. Piczak. 2015. ESC: Dataset for Environmental Sound Classification. In Proceedings of the 23rd ACM international conference on Multimedia (MM '15). Association for Computing Machinery, New York, NY, USA, 1015-1018. https://doi.org/10.1145/2733373.2806390
7. Городничев М.Г., Тимчук А.В., Мкртчян Г.М. Сравнение методов акустического детектирования, классификации и локализации для решения задач обнаружения событий и сцен // Экономика и качество систем связи, 2024. - № 1 (31). - С. 71-81.
8. Liu Z., Wang Y., Vaidya S., Ruehle F., Halverson J., Soljacic M., Hou T. Y., Tegmark M. KAN: Kolmogorov-Arnold Networks // arXiv, 2024. - Доступно по ссылке: https://arxiv.org/abs/2404.19756.
9. Колмогоров А.Н., Арнольд В.И. О представлении непрерывных функций нескольких переменных суперпозицией функций одной переменной и сложения // Доклады АН СССР, 1957. - Т. 114. - № 5. - С. 953-956. Оригинальная работа, в которой излагается основа теоремы Колмогорова-Арнольда.