Научная статья на тему 'ЗГОРТКОВА ПОДВІЙНА РАДІАЛЬНО-БАЗИСНА НЕЙРОННА МЕРЕЖА НА ОСНОВІ АКТИВАЦІЙНИХ ЯДЕРНИХ ФУНКЦІЙ СПЕЦІАЛЬНОГО ТИПУ'

ЗГОРТКОВА ПОДВІЙНА РАДІАЛЬНО-БАЗИСНА НЕЙРОННА МЕРЕЖА НА ОСНОВІ АКТИВАЦІЙНИХ ЯДЕРНИХ ФУНКЦІЙ СПЕЦІАЛЬНОГО ТИПУ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
63
16
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чала Ольга Сергіївна

Запропонована нейронна мережа, що має ядерні функції активації та призначена для вирішення задач розпізнавання та класифікації зображень в режимі онлайн. Модифікована імовірнісна нейронна мережа використовується в якості автоенкодера і отримує на вхідний шар зображення, представлені у оригінальній матричній формі. На виходах нейрокомпресора, кількість яких визначається кількістю класів у наборі даних, з'являється вектор сигналів попередньої класифікації. Потім утворений вектор-сигнал надходить на вхідний шар радіально-базисної нейронної мережі, яка утворює розділяючі гіперповерхні між класами довільної складної форми. Система характеризується не тільки високою точністю класифікації, а й високою швидкістю навчання, що дозволяє обробляти потоки даних, які послідовно подаються в режимі онлайн.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Convolutional Double Radial-basis Neural Network Based on Special Type of Kernel Functions

In the article, the convolutional double neural network that has kernel activation function was proposed. It is designed to solve image recognition-classification task in online mode. The neural network has two blocks, where the first one is autoencoder, and as a matter of fact is a modified probabilistic neural network and receives on its input images in their initial matrix form. The output is represented as a vector-signal of the pre-classification, where the length of the vector is defined by the number of classes in a dataset. Then this vector is fed to the input layer of the second block radial-basis neural network that forms separating hypersurfaces between arbitrary complex form classes. The distinctive feature of the proposed system is the combined learning of both blocks of the system, where the first one is tuned by the paradigm of lazy learning, basing on the concept «Neurons at datapoints», and the recognition system follow by the paradigm of supervised learning where synaptic weighs, centers and receptive fields of activation functions are tuned. Following this learning approach, the system is characterised by high accuracy and learning speed, which allows classification of data streams as the sequence of images that are fed in the system in online mode.

Текст научной работы на тему «ЗГОРТКОВА ПОДВІЙНА РАДІАЛЬНО-БАЗИСНА НЕЙРОННА МЕРЕЖА НА ОСНОВІ АКТИВАЦІЙНИХ ЯДЕРНИХ ФУНКЦІЙ СПЕЦІАЛЬНОГО ТИПУ»

УДК 005.01 DOI: 10.30837/0135-1710.2021.177.075

О.С. ЧАЛА

ЗГОРТКОВА ПОДВ1ЙНА РАД1АЛЬНО-БАЗИСНА НЕЙРОННА МЕРЕЖА НА ОСНОВ1 АКТИВАЦ1ЙНИХ ЯДЕРНИХ ФУНКЦ1Й СПЕЦ1АЛЬНОГО ТИПУ

Запропонована нейронна мережа, що мае ядернi функцп активацп та призначена для вирiшення задач розтзнавання та класифшаци зображень в режим онлайн. Модифiкована iмовiрнiсна нейронна мережа використовуеться в якостi автоенкодера i отримуе на вхщний шар зображення, представленi у оригiнальнiй матричнш формi. На виходах нейрокомпре-сора, кшьшсть яких визначаеться к1льк1стю клаав у наборi даних, з'являеться вектор сигналiв попередньо! класифшацп. Потiм утворений вектор-сигнал надходить на вхвдний шар радь ально-базисно! нейронно! мереж1, яка утворюе роздiляючi гiперповерхнi мiж класами дов-шьно! складно! форми. Система характеризуемся не тiльки високою точшстю класифшаци, а й високою швидшстю навчання, що дозволяе обробляти потоки даних, яш послвдовно подаються в режимi онлайн.

1. Вступ

Розтзнавання образ1в-зображень на сьогодт е одтею з ключових задач штелектуально-го анал1зу даних, що виршуеться у онлайн-режим1 в рамках практичних завдань щентиф> каци власникiв електронних пристрош, знаходження правопорушникiв, розтзнавання об'екпв дорожньох' шфраструктури безпшотними машинами, постановки попереднього д1агнозу у медициш. Ця задача е досить складною у комп'ютернш реал1заци через р1зноматттсть форм кожного образу, тому для виршення використовуються шдходи, засноват на апарат обчислювального штелекту [1-3].

На сьогодт найефективтшим апаратом для виршення задач1 розтзнавання образ1в-зображень е згортков1 нейронт мереж1 (CNN), яю е одним з найбшьш передових р1зновид1в глибоких нейронних мереж (DNN) [4-6]. Таю мереж1 забезпечують високу точтсть розтзнавання, проте 1х використання стикаеться з цшим рядом проблем. По-перше, для навчання CNN потр1бт велик обсяги навчальних виборок, яю не завжди доступт при виршент практичних завдань. Використання передавального навчання далеко не завжди дозволяе виршити цю проблему. По-друге, згортков1 нейронт мереж1 мютять, як правило, дуже велику кшьюсть параметр1в синаптичних ваг, та для свого навчання вимагають досить багато часу. Тому робота CNN в онлайн-режим1 е практично неможливою. Згорткова нейронна мережа складаеться з двох секцш: нейрокомпресора, утвореного послщовтстю шар1в згортки та субдискретизаци, та багатошарового персептрона (MLP), який, власне, i виршуе задачу апроксимаци-розшзнавання. Вхвдне зображення поступае на вхiд нейрокомпресора, що перетворюе вхщне зображення у вигляд1 матриц у вектор вщносно невисокох' розм1рност1, який надходить на входи багатошарового персептрона. Бшьшють витрат часу у згорткових нейронних мережах припадае на навчання багатошарових персептротв.

Для того, щоб р1зко тдвищити швидкод1ю процесу розтзнавання, можна використати переваги ймов1ртсних нейронних мереж (PNN), основою яких е ще1 байес1вського висновку ядерноl регреси, в1кон Парзена та оцшки Надарая-Ватсона [7-9]. Налаштування параметр1в таких мереж реатзуеться на основ1 лшивого навчання [10] за принципом «Нейрони в точках даних», тобто проходить дуже швидко, з використанням «миттевих моделей» [11]. Имов1ртст нейронт мереж1, незважаючи на суттев1 переваги у швидкосп, а саме, здатшсть навчатися та виршувати задач1 розтзнавання майже миттево, програють за точтстю згортковим нейронним мережам.

Основною вимогою, що висуваються до MLP, е утверсальт апроксимуюч1 властивосп. Таю властивосп мають не тшьки багатошаров1 персептрони, але й мереж1 рад1ально-базисних функцш (radial-basis function networks, RBFNs) [12-16], яю е «близькими родичами» ймов1ртсних нейронних мереж, що реатзують ядерну апроксимащю [9] i не поступа-ються за точшстю MLP. В [16] була запропонована i дослщжена CNN, в якш замють MLP

була використана RBFN. Така модифжована мережа е досить ефективною при виршенш задачi розпiзнавання образiв, проте все ще мае neBHi недолiки. По-перше, мережi радiально-базисних функцiй страждають вiд «прокляття розмГрностЬ» коли кшькють параметрiв синап-тичних ваг експоненцшно зростае i3 зростанням розмiрностi вхщного вектора, що веде до формування вектора невисоко! розмiрностi на виходi останнього шару субдискретизацп автоенкодера та вщповщно! втрати точностi. По-друге, в такш мережi основний час витра-чаеться на операци згортки та субдискретизацп, а не власне на завдання апроксимаци.

Подолати недолiки розглянутих мереж CNN та RBFN можна, використовуючи замiсть стандартного автоенкодера класичну ймовiрнiсну нейронну мережу. Остання повинна бути модифжована таким чином, щоб вхiдний сигнал, який надходить до мереж^ формувався не у виглядi вектора, а в формi зображення-матрищ [17]. Варто зауважити, що класична ймовiрнiсна нейронна мережа також потерпае вщ «прокляття розмГрностЬ» тобто вона нарощуе свою архiтектуру у першому прихованому шарi патернiв з надходженням нових спостережень з навчально! вибiрки. Для того, щоб подолати цей недолж, можна замiсть стандартно! RBFN застосувати, так звану мережу гшербазисних функцш (HBFN) [18]. Ця мережа використовуе замють рецепторних полiв гшерсфер активацiйних функцiй RBFN, що засновано на гшерелшсо!дах, якi мають довшьну орiентацiю осей. Введення додаткових контурiв навчання параметрiв цих гшерелшсо!дов [19] дозволяе полшшити апроксимацiйнi властивостi мереж^ зменшити кiлькiсть параметрiв (подолання «прокляття розмiрностi») i захиститися вiд виникнення <^рок» у просторi ознак.

2. Архггектура подвшноУ рад1ально-базисно1 нейронно!' мереж1 з матричними

входами

Запропонована нейронна мережа призначена для виршення задачi розпiзнавання зобра-жень, i, подiбно до традицiйних глибоких згорткових нейронних мереж, також складаеться з двох секцш: автоенкодера у виглядi матрично! ймовГрнюно! нейронно! мереж i апроксиматора у виглядi радiально-базисно! нейронно! мережi з налаштовуваними рецепторними полями. При цьому арх^ектури обох секцiй мережi досить близькi i заснованi на використанш багатовим-iрних ядерних активацшних функцiй [9]. Архiтектура запропоновано! мережi наведена на рис.1.

Рис. 1. Архггектура подв1йно!' рад1ально-базисно!' нейронно!' мереж1

Автоенкодер побудований на основi матрично! ймовiрнiсно! нейронно! мереж [17] i мютить три шари обробки шформаци: шар образiв, другий прихований шар, утворений т суматорами (тут т - кшьюсть класiв у вибiрцi) i третiй (вихщний) шар корекцл розподiлу ймовiрностей. Навчальна вибiрка представляе собою масив з N образiв, кожен з яких являе собою

( п; х п2) матрицю-зображення х(к)=(х,1,2(k)}, де k=1,2,..., N - номер образу в навчальнiй

вибiрцi. Також передбачаеться, що N1 образiв у початковому масивi даних вiдноситься до

т

першого класу С11, N2 - до другого С12 й нарештi, Nm - т-го класу С1т , тобто X Nj = N■

j=1

Кшьюсть ядерних активацшних функцiй ^-нейрони) у класичнiй визначаеться обсягом вибiрки N . Активацiйнi функцп шару образiв автоенкодера позначаються як

рА(х, 0Т ,а1), (1)

де ' - номер спостереження; ; вардаеться в iнтервалi ; £Т] е Rn^хn2 - матриця-центр

активацшно! функцп, яка визначаеться в процес навчання; а^ - параметр сферичного рецепторного поля вщповщно! дзвонувато! активацшно! функцп.

В якосп активацшно! функцп була обрана ядерна функщя В. Спанечшкова [20], модифi-кована для матричного випадку:

II ц2

рА(х, с^ ,а;) =1 -||х-' а;;, (2)

де ||х-с'| = Тг(х-с;)(х -с; )т - символ слщу мaтрицi (матрична метрика Фробешуса); а;

- рaдiус рецепторного поля активацшно! функцп.

Другий прихований шар нейрокомпресора утворений т суматорами, кожен з яких вщносить-

ся до конкретного класу С. На виходах цих сумaторiв розраховуються пaрзенiвськi оцiнки щiльностi розподiлу з урахуванням виходiв попереднього шару «О1 (х) для спостереження х:

р] (х) = о[2]( х) = X О;;]( х). (3)

;= N + Иг +1

У результaтi роботи третього шару цi оцiнки уточнюються з урахуванням значень емшричних aпрiорних ймовiрностей 1 i на виходах автоенкодера з'являються ймовiр-ностi вщношення спостереження х, що клaсифiкуеться доу-го класу:

«А (х) = о[2]( х) NN -1. (4)

Таким чином, на виходi нейрокомпресора з'явиться т-вимiрний сигнал оА (х) = (о;4 (х),..., оА (х),..., от (х))т , який е попередньою оцiнкою результат класифшацп.

Нейронна мережа-апроксиматор побудована на основi гiпербaзисной нейронно! мережi (HBNN), що е модифiкaцiею популярно! мереж рaдiaльно-бaзисних функцiй з рецепторними гшерелшсохдними полями, що мають довiльну орiентaцiю осей. При цьому передбачаеться, що в процес навчання HBFN параметри цих гшерелшсохдав можуть налаштовуватися одночасно з синаптичними вагами.

На входи HBFN з навчально! вибiрки надходить посл^овшсть

о4(x(k))=о4(к) = «(х),...,оА(х),...,от(х))Т,k = 1,2,...,N , яка передаеться на h гiпербaзисних R-нейронiв, на виходах яких формуються сигнали

рН (о4 (к), с,, Е-1) = 1 - (сХ-1(оА (к) - с,) = 1 -||оА (к) - с^, I = 1,2,..., h, h >> т, (5)

де с1 е Rm - векторний центр активацшно! функцп рН (о), Е-1 - ковaрiaцiйнa матриця, яка визначае форму, розмiр та орiентaцiю осей рецепторного поля вщповщно! активацшно! функцп.

Вихщш сигнали R-нейронiв подаються на вихвдний шар НВКК, утворений елементарни-ми персептронами Розенблата з активацшними функщями типу БОЙтах. Таким чином, на виходах НВ№К в цiлому формуються сигнали

у] (к) = w]0 + X wX (||о-4 (к) - с, 1) = X w $$ (||о-4 (к) - С, 1Р, ), $ (о)

,=1 1=0

= 1,

У* (к) = БОЙтах У] (к) = ехр У. (к)

X ехР ур (к)

v р=1

(6) (7)

Якщо сигнал на виходi визначае рiвень ймовiрностi того, що образ, який класифь куеться, вiдноситься до конкретного класу, то сигнал на виходi введено! НВКК задае рiвнi нечггко! належностi цього спостереження до того ж класу.

3. Навчання подвшноУ радiально-базисноT нейронно"! мережi з матричними входами

Навчання подвшно! радiально-базисно! нейронно! мережi вiдбуваеться окремо для авто-енкодера i апроксиматора, базуючись на рiзних принципах. Налаштування нейрокомпресо-ра реалiзуеться за допомогою лiнивого навчання за принципом «Нейрони в точках даних» i практично миттево. Тобто центр ядерно! активацшно! функцi! встановлюеться в точцi з координатами вхщного образу з певною класифiкацiею, забезпечуючи високу точнiсть класифiкацi! i високу швидюсть навчання [11].

Налаштування гшербазисно! нейронно! мережi реалiзуеться на основi контрольованого навчання з «гарячим» кодуванням навчального сигналу, тобто елементи зовшшнього на-

вчального сигналу у] (к) можуть приймати тiльки два значення: 1, якщо х(к) належить до конкретного класу, i 0 в шшому випадку.

В якосп критерiю навчання HBFN використовуеться стандартна кросентропiя:

J V /// 1 V Ш I ш \

Е = -XXу](к)1пУ*(к) = -XXу](к)Ьехру](к)| Xехрур(к) I .

(8)

к=1 ]=1 к=1 ]=1 V Р=1 У

Далi для скорочення запису введемо додатковi позначення: w] = (w]0, w]1,..., w]l,..., w]h )т,

$ (о4 (к), с,, Е-1) =(1,$ (о4 (к), с„ Е-1),...,^ (о4 (к), с,, Е-'),...,$ (о4 (к), ск, Е-1})7 .

Градiентна процедура навчання [19] для налаштування синаптичних ваг, центрiв i мат-риць рецепторних полiв мае вигляд:

wjl (к +1) = wjl (к) + - (к +1) (У] (к +1) - wтj (к)$ (||о44 (к +1) -с(к)||Е-1 (к))) $ (||о 4 (к +1) - с,(к)||Е-1 (к)), (9)

с, (к +1) = с, (к) - — (к +1)

У] (к +1) - wT (к +1)$

о4 (к+1)-с, (к)

2 АА

Е-1(к)

w]l (к +1)«

УУ

( (

™ Н

$

V V

о4 (к+1)-с, (к)

2 АА

Е-1 (к)

Е-1(к )(о4 (к +1) - с(к))

(10)

Е-1(к +1) = Е-1(к )-е (к +1)

У] (к +1) - (к + 1)$Н

о4 (к+1)-с, (к)

лА

Е-1 (к)

УУ

^]I (к +1)

( (

Н

$

V V

А

о" (к+1)-с, (к)

ЛА

Е-1(к)

(о4 (к +1) - с, (к + 1))о4 (к +1) - с, (к +1)

г,

У

(11)

-1

-1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

2

де wj й рн ||\oA (k) - ct |j - (h +1) x 1 вектори синаптичних ваг на j-му виходi системи i

сигналiв на виходах R-нейронiв HBNN вiдповiдно; rw (k +1), r/c (k +1), r (k +1) - параметри кроку навчання для налаштування змшних.

Таким чином, на вiдмiну вщ традицiйних CNN, де налаштовуються тшьки синаптичнi ваги нейронiв, в запропонованш системi одночасно уточнюються параметри активацшних функцiй, що забезпечують 1й додаткову гнучюсть i швидкодiю.

4. Висновки

Запропоновано нейромережеву систему, яка була розроблена для виршення задачi класифь кацп образiв-зображень за мiнiмальний час. На вiдмiну вiд традицiйних згорткових нейронних мереж, запропонована система використовуе ядернi активацiйнi функцп. Вона складаегься з двох частин - нейрокомпресора та системи розпiзнавання. В якосп нейрокомпресора викорис-товуеться модифiкована ймовiрнiсна нейронна мережа з матричними входами, а система розтзнавання базуеться на гшербазиснш нейроннiй мереж

Особливiсть розроблено! системи полягае в комбiнованому навчант двох незалежних блоюв. Перший блок, що представлений автоекодером, налаштовуеться за допомогою лiнивого навчання, базуючись на концепцл «Нейрони в точках даних». Система розтзнавання функцiонуе за парадигмою навчання з учителем та дозволяе налаштовувати не тшьки синаптичш ваги, але й характеристики функцш активацл - центри та рецепторн поля. Завдяки такому пiдходу до навчання, система в цшому характеризуеться високою швидюстю та високою точтстю. Ця система дозволяе з високою точтстю виршувати задачу розпiзнавання образiв-зображень за умов коротких та довгих вибiрок та вирiшувати задачу класифшацп потоку даних. При цьому запропонована система не потерпае вiд «прокляття розмiрностi», тобто дозволяе класифiкувати спостереження, що надходять послiдовно у онлайн-режиш та мають форму матриць.

Список лггератури: 1. Mumford C. Computational Intelligence//Springer Berlin Heidelberg. 2009. P. 732. DOI: 10.1007/978-3-642-01799-5. 2. Kacprzyk J, Pedrycz W. Springer Handbook of Computational Intelligence// Berlin Heidelberg: Springer, Verlag. 2015. P. 1634. DOI: 10.1007/978-3-662-43505-2. 3. Kruse R., Borgelt C, Klawonn F, Moewes C., Steinbrecher M., Held P. Computational Intelligence: A Methodological Introduction// Berlin: SpringerVerlag. 2013. P.492. DOI: 10.1007/978-1-4471-5013-8. 4. Bengio Y, Le Cun Y, Hinton G. Deep learning// Nature. № 521( 7553). 2015. P.436-444. 5. Schmidhuber J. Deep learning. Neural networks: An overview//Neural Networks. № 61. 2015. P.85-117. 6. GoodfellowI., Bengio Y, CourvilleA. Deep Learning/MIT Press. 2016. P. 800. 7. SpechtD.F. Probabilistic neural networks// Neural Network. № 3. 1990. pp. 109-118. 8. SpechtD. F. Probabilistic neural networks and polynomial ADALINE as complementary techniques to classification// IEEE Trans. on Neural Networks. №1. 1990. P. 111-121. 9. Kung S.Y. Kernel Methods and Machine Learning// Cambridge: University. 2014. P. 591. DOI: 10.1017/ CBO9781139176224. 10. Zahirniak D.R., Chapman R., Rogers S.K., Suter B.W., Kabriski M, Pyatti V. Pattern recognition using radial basis function network//Aerospace Application of Artificial Intelligence, Proceedings, Dayton, Ohio. 1990. Р. 249-260. 11. Nelles O. Nonlinear Systems Identification// Berlin: Springer. 2001. P.786. DOI: 10.1007/978-3-662-04323-3. 12. Moody J., Darken C.J. Fast learning in networks of locally tuned processing units// Neural Computation. №1. 1989. Р. 281-294. 13. Poggio T., Girosi F. Networks for approximation and learning// Proceedings ofthe IEEE. № 78(9). 1990. Р. 1481-1497. 14. ParkJ., SandbergI. W. Universal Approximation Using Radial-Basis-Function Networks// Neural Computation. №3(2). 1991. Р. 246-257. 15. Leonard J. A., KramerM. A., Ungar L. H. Using radial basis functions to approximate a function and its error bounds// IEEE Transactions on Neural Networks. №3(4). 1992. Р. 624-627. 16. Amirian M., Schwenker F. Radial Basis Function Networks for Convolutional Neural Networks to Learn Similarity Distance Metric and Improve Interpretability// IEEE Access. № 8. 2020. Р. 123087123097. 17. Bodyanskiy Ye., DeinekoA., PlissI., Chala O., Nortsova A. Matrix Fuzzy-Probabilistic Neural Network in Image Recognition Task//2020 IEEE Third International Conference on Data Stream Mining and Processing (DSMP). 2020. Р. 33-36. 18. Bodyanskiy Ye., Tyshchenko A., Deineko A. An evolving radial basis neural network with adaptive learning of its parameters and architecture// Aut. Control Comp. Sci. №49. 2015. Р. 255-260. 19. Bodyanskiy Ye., Kolodyazhniy V., StephanA. An Adaptive Learning Algorithm for a Neurofuzzy Network. Computational Intelligence. Theory and Applications. Fuzzy Days // Lecture Notes in Computer Science, Springer, Berlin, Heidelberg. № 2206. 2001. Р. 68-75. 20. Epanechnikov V.A. Non-Parametric Estimation of a Multivariate Probability Density// Theory Probab. №14(1). 1967. Р. 153-158. DOI: 10.1137/1114019

Надтшла до редколегИ' 29.06.2021

Чала Ольга Сергйвна, молодший науковий сшвробиник ПНДЛ АСУ ХНУРЕ. Науковi iнгереси: нейронт мережi та iншi засоби штучного iнгелекту. Адреса: Укра1на, 61166, м. Харюв, пр. Науки, 14, тел. (057) 702 18 90.

i Надоели баннеры? Вы всегда можете отключить рекламу.