Научная статья на тему 'ВИКОРИСТАННЯ ЗГОРТАЛЬНИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ ІДЕНТИФІКАЦІЇ ОБЛИЧЧЯ ЛЮДИНИ'

ВИКОРИСТАННЯ ЗГОРТАЛЬНИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ ІДЕНТИФІКАЦІЇ ОБЛИЧЧЯ ЛЮДИНИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
434
148
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
класифікація / ідентифікація / нейронна мережа / згортальна нейронна мережа / моделювання / Lenet-5 / шар субдискретизації / повнозв’язний шар / вихідний шар / classification / identification / neural network / convolutional neural network / modeling / Lenet-5 / sub-sampling layer / full layer / output layer / классификация / идентификация / нейронная сеть / сверточная нейронная сеть / моделирование / Lenet-5 / слой субдискретизации / полносвязный слой / выходной слой

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — О.В. Бубенщиков, Є.В. Лєпа

В даній роботі розглянута нейронна мережа, завданням якої є ідентифікація обличчя людини. Ідентифікація особи людини зводиться до розв'язку завдання класифікації, а модель представлена у вигляді згортальної нейронної мережі. У якості прототипу взята нейронна мережа Lenet-5, яка застосовувана для ідентифікації рукописних цифр. Враховуючи, що ідентифікація особи є більш складним завданням, чим ідентифікація рукописних цифр, була змінена архітектура нейронної мережі. Запропоновано три варіанти мережі різної архітектури, зроблене їхнє навчання на одній і тій же вибірці зображень обличчя людині, яка була створена для розв'язку завдання. При цьому використані різні функції активації й методи оцінки точності ідентифікації. Мінімізація функції помилки при ідентифікації виконана методами стохастичного градієнтного спуску (SGD) та Adam. У якості оцінки нейронних мереж різної архітектури використані час навчання й точність ідентифікації. Перший варіант містить 4 шари згортки, 2 шари ЗНМ підвибірки (субдискретизації), вхідний шар та два повнозв’язних шари, один з яких є вихідним шаром. Час навчання та точність класифікації обличчя людини в цій мережі відповідно дорівнює 22,5 хвилин і 50%. Другий варіант містить 3 шари згортки, 3 шари підвибірки, також вхідний шар та два повнозв’язних шари, один з яких є вихідним шаром. Час навчання та точність класифікації в цій мережі відповідно дорівнює 9,2 хвилин і 81,25%. Найкращою, з точки зору точності класифікації та часу навчання, є третій варіант архітектури нейронної мережі. Вона побудована на основі другого варіанта мережі, але кількість нейронів в першому повнозв’язному шарі дорівнює 1024, замість 512. Час навчання та точність класифікації обличчя людини в цій мережі відповідно дорівнює 9,1 хвилин і 93,75%. Подальше підвищення якості може бути досягнуте при збільшенні набору даних і, насамперед, вибірки навчання.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — О.В. Бубенщиков, Є.В. Лєпа

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USE OF CONVOLUTIONAL NEURAL NETWORKS FOR HUMAN FACE IDENTIFICATION

In this work was considered a neural network, whose task is to identify a person's face. Identification of a person's personality is reduced to the solution of the classification problem, and the model is represented as a convolutional neural network. Lennet-5 neural network is used, as a prototype, to identify handwritten digits. Considering that facial identification is a more complex task than identifying handwritten digits, the architecture of the neural network has been changed. Three variants of the network of different architecture was proposed, they trained on the same sample of images of a person, which was created for solving the problem. In this case, lots of activation functions and methods for assessing the accuracy of the identification was used. Minimization of the error function for identification was performed using stochastic gradient descent (SGD) and Adam methods. As an estimation of neural networks of different architecture, time of training and accuracy of identification was used. The first variant contains 4 layers of convolution, 2 layers of CNN sub-sampling, an input layer and two full layers, one of which is the output layer. Training time and classification accuracy of a person’s face in this network are 22.5 minutes and 50%. The second variant contains 3 layers of convolution, 3 layers of the sub-sample, an input layer and two full layers, one of which is the output layer. The time of training and the accuracy of classification in this network are 9.2 minutes and 81.25%. The third variant is the best option for the architecture of the neural network because of the accuracy of the classification and the training time. It is based on the second version of the network, but the number of neurons in the first full layer is 1024, instead of 512. The training time and the accuracy of the classification of a person's face in this network are 9.1 minutes and 93.75%. Further quality improvement can be achieved by increasing the set of data and, the training sample.

Текст научной работы на тему «ВИКОРИСТАННЯ ЗГОРТАЛЬНИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ ІДЕНТИФІКАЦІЇ ОБЛИЧЧЯ ЛЮДИНИ»

1НФОРМАЦ1ЙН1 ТЕХНОЛОГИ

УДК 004.9312

О.В. бубенщиков, ев. лепл

Херсонський нацюнальний технiчний унiверситет

ВИКОРИСТАННЯ ЗГОРТАЛЬНИХ НЕЙРОННИХ МЕРЕЖ ДЛЯ 1ДЕНТИФ1КАЦ11 ОБЛИЧЧЯ ЛЮДИНИ

В данш po6omi розглянута нейронна мережа, завданням яко'1' е iдентифiкацiя обличчя людини. Iдентифiкацiя особи людини зводиться до розв'язку завдання класифжаци, а модель представлена у виглядi згортально'1' нейронной мережi. У якостi прототипу взята нейронна мережа Lenet-5, яка застосовувана для iдентифiкацii рукописних цифр. Враховуючи, що iдентифiкацiя особи е бшьш складним завданням, чим iдентифiкацiя рукописних цифр, була змтена архiтектура нейронноi мережi.

Запропоновано три варiанти мережi ргзно'1' архiтектури, зроблене 1'хне навчання на однш i тш же вибiрцi зображень обличчя людит, яка була створена для розв'язку завдання. При цьому використанi рiзнi функцП активацП й методи оцтки точностi iдентифiкацii. Мiнiмiзацiя функци помилки при iдентифiкацii виконана методами стохастичного градiентного спуску (SGD) та Adam. У якостi оцтки нейронних мереж рiзноi архтектури використат час навчання й точтсть iдентифiкацii.

Перший варiант метить 4 шари згортки, 2 шари ЗНМ пiдвибiрки (субдискретизацп), вхiдний шар та два повнозв 'язних шари, один з яких е вихiдним шаром. Час навчання та точтсть класифжаци обличчя людини в цш мережi вiдповiдно дорiвнюе 22,5 хвилин i 50%.

Другий варiант мiстить 3 шари згортки, 3 шари пiдвибiрки, також вхiдний шар та два повнозв 'язних шари, один з яких е вихiдним шаром. Час навчання та точтсть класифжаци в цш мережi вiдповiдно дорiвнюе 9,2 хвилин i 81,25%.

Найкращою, з точки зору точностi класифжаци та часу навчання, е третш варiант архтектури нейронно'1' мережi. Вона побудована на основi другого варiанта мережi, але кшьюсть нейронiв в першому повнозв'язному шарi дорiвнюе 1024, замють 512. Час навчання та точнкть класифкаци обличчя людини в цш мережi вiдповiдно дорiвнюе 9,1 хвилин i 93,75%.

Подальше тдвищення якостi може бути досягнуте при збiльшеннi набору даних i, насамперед, вибiрки навчання.

Ключовi слова: класифжащя, iдентифiкацiя, нейронна мережа, згортальна нейронна мережа, моделювання, Lenet-5, шар субдискретизацп, повнозв 'язний шар, вихiдний шар.

А.В. БУБЕНЩИКОВ, Е.В. ЛЕПА

Херсонский национальный технический университет

ИСПОЛЬЗОВАНИЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ИДЕНТИФИКАЦИИ ЛИЦА ЧЕЛОВЕКА

В данной работе рассмотрена нейронная сеть, задачей которой является идентификация лица человека. Идентификация личности человека сводится к решению задачи классификации, а модель представлена в виде сверточной нейронной сети. В качестве прототипа взята нейронная сеть Lenet-5, которая применяется для идентификации рукописных цифр. Учитывая, что идентификация личности является более сложной задачей, чем идентификация рукописных цифр, была изменена архитектура нейронной сети.

Предложено три варианта сети различной архитектуры, реализовано их обучение на одной и той же выборке изображений лиц людей, которая была создана для решения данной задачи. При этом использованы различные функции активации и методы оценки точности идентификации. Минимизация функции ошибки при идентификации выполнена методами стохастического градиентного спуска (SGD) и Adam. В качестве оценки нейронных сетей различной архитектуры использованы время обучения и точность идентификации.

Первый вариант содержит 4 слоя свертки, 2 слоя СНС подвыборки (субдискретизации), входной слой и два полносвязных слоя, один из которых является выходным слоем. Время обучения и точность классификации лица человека в этой сети соответственно равна 22,5 минут и 50%.

Второй вариант содержит 3 слоя свертки, 3 слоя подвыборки, также входной слой и два полносвязных слоя, один из которых является выходным слоем. Время обучения и точность классификации в этой сети соответственно равна 9,2 минут и 81,25%.

Лучшей, с точки зрения точности классификации и времени обучения, является третий вариант архитектуры нейронной сети. Она построена на основе второго варианта сети, но количество нейронов в первом полносвязном слое равна 1024, вместо 512. Время обучения и точность классификации лица человека в этой сети соответственно равна 9,1 минут и 93,75%.

Дальнейшее повышение качества может быть достигнуто при увеличении набора данных и, прежде всего, выборки обучения.

Ключевые слова: классификация, идентификация, нейронная сеть, сверточная нейронная сеть, моделирование, Lenet-5, слой субдискретизации, полносвязный слой, выходной слой.

O.V. BUBENSHCHYKOV, E.V. LIEPA

Kherson National Technical University

USE OF CONVOLUTIONAL NEURAL NETWORKS FOR HUMAN FACE IDENTIFICATION

In this work was considered a neural network, whose task is to identify a person's face. Identification of a person's personality is reduced to the solution of the classification problem, and the model is represented as a convolutional neural network. Lennet-5 neural network is used, as a prototype, to identify handwritten digits. Considering that facial identification is a more complex task than identifying handwritten digits, the architecture of the neural network has been changed.

Three variants of the network of different architecture was proposed, they trained on the same sample of images of a person, which was created for solving the problem. In this case, lots of activation functions and methods for assessing the accuracy of the identification was used. Minimization of the error function for identification was performed using stochastic gradient descent (SGD) and Adam methods. As an estimation of neural networks of different architecture, time of training and accuracy of identification was used.

The first variant contains 4 layers of convolution, 2 layers of CNN sub-sampling, an input layer and two full layers, one of which is the output layer. Training time and classification accuracy of a person's face in this network are 22.5 minutes and 50%.

The second variant contains 3 layers of convolution, 3 layers of the sub-sample, an input layer and two full layers, one of which is the output layer. The time of training and the accuracy of classification in this network are 9.2 minutes and 81.25%.

The third variant is the best option for the architecture of the neural network because of the accuracy of the classification and the training time. It is based on the second version of the network, but the number of neurons in the first full layer is 1024, instead of 512. The training time and the accuracy of the classification of a person's face in this network are 9.1 minutes and 93.75%.

Further quality improvement can be achieved by increasing the set of data and, the training sample.

Key words: classification, identification, neural network, convolutional neural network, modeling, Lenet-5, sub-sampling layer, full layer, output layer.

Постановка проблеми

Останшм часом системи щентифшацд людини набирають все бшьшо! популярносп наприклад, для доступу до персональних комп'ютерiв, смартфошв, в сферi безпеки рiзних установ. Одшею з основних е система щентифжацп по зображенню людини. До переваг дано! системи можна вщнести простоту i мобшьшсть обладнання, а також масовють щентифшацд. Хдентифшащл зображення зводиться до розв'язку задачi багатомiрно! класифжацп.

Для виршення задачi розтзнавання оаб юнуе безлiч методiв i алгоритшв, серед яких можна видшити тдходи, засноваш на нейронних мережах, на гнучкому порiвняннi графiв, на прихованих Марковських моделях, на розкладанш Кархунена-Лоева, лш!ях однаково! штенсивносп, i т.д [1].

AH^i3 останшх дослвджень i публжацш

Аналiз методiв роботи з зображеннями показав, що для виршення даного завдання ефектившше буде використовувати штучш нейронш мереж! (ШНМ), в зв'язку з тим, що вони забезпечують можливкть отримання класифжатора, що добре моделюе складну функщю розпод^ зображень обличчя. Основною перевагою використання нейронних мереж для виявлення та щентифжацп особи, е здатшсть до навчання дано! системи для видшення ключових характеристик особи з навчальних ш6ор!в даних.

Формулювання мети дослвдження

Метою роботи була побудова моделi знань у вигляд! нейронно! мереж1 для щентифжацп обличчя людини, з оптимальною структурою, яка забезпечувала б максимальну яшсть щентифжацп. Як основа, була використана вщома архитектура згортально! нейронно! мереж! Lenet-5 [3].

Викладення основного MaTepi&^y дослвдження

ЗНМ навчаеться зроблених наборах даних, що мiстять по п'ятдесят зображень десяти людей, яких треба класифжувати. Цi зображення заздалегiдь оброблеш, та представленнi у форматi JPG, у розмiрi 225x150. Крiм того, е п'ятдесят зображень шших людей для формування класу людини, що не метиться в базi. Зображення зчитуеться входами нейронно! мереж1, а один з виxодiв потрiбен для виведення результату ^м'я людини).

В якосп основи для ЗНМ для класифжацп обличчя людини було обрано архггектуру LeNet-5, оск1льки вона е досить простою в реатзацд, i видае високий вiдсоток точносп при вирiшенi задач класифжацп зображень. Приклад тако! арxiтектури для класифжацп рукописних цифр, представлено на рис. 1.

СЗ: f. maps 16@10х10

Convolutions Subsampling Convolutions Subsamplirg Full connection

Рис. 1. Арх^ектура ЗНМ для класифжаци рукописних цифр

1дея ще! архiтектури полягае в чергуванш шарiв згортки (Convolutions) i шарiв субдискретизацп (Subsampling) для виявлення ключових характеристик на зображеннях та наявносп повнозв'язних шарiв (Full connection) на виходi для класифжацп зображень.

Якщо розглядати процес бiльш детальнiше, то можна зазначити, що шар згортки включае в себе для кожного каналу свш фiльтр та ядро згортки, яке обробляе попереднш шар за фрагментами, тдсумовуючи результати матрично! похщно! для кожного фрагмента. Ваговi коефiцiенти ядра згортки невiдомi i встановлюються в процесi навчання. Шар субдискретизацп являе собою нелiнiйне ущшьнення карти ознак, при цьому група пiкселiв (зазвичай розмiру 2*2) ущшьнюеться до одного пiкселя, проходячи нелшшне перетворення. Пiсля к1лькох проходжень згортки i ущiльнення за допомогою субдискретизацп, даш об'еднуються i передаються вже на звичайну повнозв'язну нейронну мережу.

Але використання ще! ЗНМ в початковому виглядi не е дощльним, оск1льки архiтектура ще! ЗНМ направлена бшьше на класифiкацiю цифр. Зображення обличчя людини е бшьше складним i потребуе бiльш складно! архггектури нейронно! мережi, за рахунок змши кiлькостi шарiв згортки та субдискретизацп для тдвищення знаходження кiлькостi ключових характеристик на зображенш.

Тому було змшено структуру ЗНМ, шляхом додання шарiв згортки та субдискретизацп. Крiм того, було змiнено вхщний шар, що пов'язано з розмiром зображення, який в результатi експерименпв було визначено рiвнем 225х150 у трьох градацiях RGB (червоний-зелений-блакитний). Якщо вибрати розмiр занадто маленький, то мережа не зможе виявити ключовi ознаки осiб, якщо розмiр буде занадто великий, то обчислювальна складшсть мереж! шдвищиться. Збiльшено також кшьшсть нейронiв на повнозв'язному шарi, оскшьки збiльшуеться к1льк1сть ключових характеристик.. Останнш повнозв'язний шар е шаром-класифiкатором, та видае вщсоток того, яка людина зображена на вхщному зображеннi. В результата було отримано перший варiант архiтектури мереж1, яка представлена на рис. 2.

(поражения Ш»р 1Гортки

Рис. 2. ApxiTeKTypa першого BapiaHTy мережi

Зпдно ще! архггектури ЗНМ складаеться з 9 шарiв. Перший шар е вхщним та мiстить 101250 нейрони (225*150*3). Другий та третш шари е згортальними та мютять по 32 карти ознак в кожному шар! Карта ознашв - це набiр шарiв нейронiв, кожен з яких використовуе рiзнi ядра згортки, для пошуку рiзних признаков на зображеш. Ядро являе собою фiльтр або вiкно, яке ковзае по всш областi попередньо! карти i знаходить певш ознаки об'ектiв розмiром 3х3. Розмiр ядра зазвичай визначаеться вщ ситуацп. Якщо розмiр ядра дуже маленький, то воно не зможе видшити будь-як1 ознаки, якщо занадто великий, то збiльшуеться к1льк1сть зв'язшв мiж нейронами.

Четвертий шар е шаром субдискретизацп складаеться с 32 карт ознак i ядром 2х2. Шостий та п'ятий шари - згортальш з 64 картами ознак у кожному з ядром 3х3. Сьомий шар - шар субдискретизацп також з 64 картами ознак та ядром 2х2. Восьмий шар - повнозв'язний шар, розмiром в 512 нейрошв. Останнш дев'ятий шар - повнозв'язний вихщний шар з 11 нейронами, кожен з яких позначае ту чи шшу людину з бази даних, або 11 вщсутшсть у нiй.

Таким чином, на першому та другому шарах згортки юнуе 864 (32 * (3*3) * 3) зв'язки у кожному, на першому шарi дискретизацп - 384 (32 * (2*2) * 3). На третьому та четвертому шарах згортки - 1728 (64 * (3*3) * 3) зв'язшв, на другому шарi дискретизацп - 768 (64 * (2*2) * 3). На першому та другому повнозв'язних шарах - 5632 (512 * 11) зв'язшв. У результата нейронна мережа мае 11968 зв'язшв.

Наступним етапом тсля побудови ЗНМ ще навчання ще! мереж! Для цього використовуеться вибiрка навчання з образiв облич людей. На вхщ нейронно! мереж1 подаються образи й ваги зв'язшв мiж нейронами настроюються так, щоб на виходi мереж1 отриманi образи як найменше вiдрiзнялися б вiд тих, як вже класифiкованi у вибiрцi навчання.

Вщ результатiв навчання нейронно! мереж1 буде залежати як1сть розв'язку завдання iдентифiкацi! обличчя людини. Оцiнка результапв навчання може бути зроблена за наступними показниками:

- швидк1сть навчання;

- шльшсть епох навчання;

- функцп активацi!;

- функцi! мiнiмiзацi! помилки.

Для того щоб можна було почати навчання нейронно! мереж1 потрiбно визначитися з тим, як вимiрювати якостi розпiзнавання зображення. Для цього можна використовувати найпоширешшу в теорп нейронних мереж функцiю середньоквадратично! помилки [5].

ЕР = I (Dp - 0(IPW))2 , (1)

де Ep - це помилка розтзнавання для p-i' навчально! пари, D - бажаний вихщ мереж1,

O(Ip, W) - вихщ мереж1, що залежить в1д p-го входу i вагових коефщенпв W, куди входять ядра згортки, змiщення, ваговi коефщенти S- i F- шарiв.

Завдання навчання полягае у визначеннi такого налаштування ваг W, щоб вони для будь -яко! навчально! пари (Ip, Dp) давали мшмальну помилку Ep. Щоб порахувати помилку для вае! навчально! вибiрки береться середне арифметичне по помилках для вах навчальних пар.

В процесi експерименпв з ЗНМ було виявлено, що для мiнiмiзацii функцi! помилки Ep, в контекстi рiшення задачi класифшаци зображень, найефективнiшими е метод стохастичного градiентного спуску (SGD) [7] та метод Adam [8].

Метод стохастичного градiентного спуску оновлюе кожен параметр, вщшмаючи градiент функцi!, яка ошгашзуеться по вiдповiдному параметру. Потiм ться його на швидшсть навчання. Однак метод SGD може розходитися, якщо швидшсть навчання налаштована невiрно. Метод адаптивно! шерцп (Adam) змiнюе масштаб швидкосп навчання для кожного параметра окремо, з урахуванням всiх минулих градiентiв для цього. Це ефективно зменшуе крок навчання для параметрiв, як1 мають велику величину градiента [8].

Одним з найважливiших аспекпв нейронних мереж е функцiя активацп (activation function), яка привносить в мереж1 нелiнiйнiсть, яка робить !х унiверсальними апроксиматорами функцiй. Функцiя активацп - це споаб нормалiзацii вхвдних даних. Тобто, якщо на вхщ ШНМ подаеться велике число, то пропустивши його через функщю активацп, можна отримати вихщ в потрiбному дiапазонi. Найбiльш часто використовуються наступн функцii активацii [10]:

1. Лшшна функцiя - найпростiша з функцш активацii. Мае вихiд такий же, як i вхiд.

2. Порогова функщя активацii - проста лшшна функщя, яка часто використовуеться в нейронних мережах. Результат приймае значення 0 для негативного аргументу i 1 для позитивного аргументу.

3. Сигмощальна функщя - монотонно зростаюча нелшшна функщя з насиченням. Сигмо!д дозволяе пiдсилювати слабк1 сигнали i не насичуватись вiд сильних сигналiв. Прикладами сигмо1дальной функцп активацп може служити логiстична функцiя або гiперболiчний тангенс.

4. Rectified linear unit (ReLU) або «випрямляч» (rectifier, за аналопею з однополуперюдним випрямлячем в електротехшщ) е найбiльш часто використовувано1 функщею активацii. Функцiя визначаеться наступною формулою [9]

Функщя активацп ReLU активно використовуються в глибоких нейронних мережах для задач комп'ютерного зору i розпiзнаваннi мови. 11 застосування iстотно пiдвищуе швидшсть збiжностi стохастичного градiентного спуску, в деяких випадках до 6 разiв. Також функцiя активацii ReLU не схильна до насичення i вимагае виконання менш ресурсномiстких операцiй в порiвняннi з сигмо!дою та гiперболiчним тангенсом. Тому було в якосп функцii активацii в шарах згортки обрано функцiю RELU.

На вихщному шарi використаеться функцiю активацii Softmax [11]. Цю функцiю доцiльно використовувати в задачах класифжацп, осшльки вона представляе собою зважену i нормовану на одиницю суму експонент. Якщо вхiднi данi представляють собою вибiрку з будь-якого експоненцiального розпод^, то виходи елеменпв можна трактувати як ймовiрностi, що пiдходить для ршення поставленох' задачi.

Навчання нейронно1 мережi було проведено на процесорi Intel Core i7-4500 CPU @ 1.80 GHz. Результата навчання мережi першого варiанту архiтектури ЗНМ (рис. 2), представлеш у табл. 1.

Таблиця 1

Характеристики навчання_

Функщя мiнiмiзацii помилки Кшьшсть епох навчання Швидшсть навчання (1г) Час навчання (хвилин) Точшсть класифжацп, %

SGD 25 0.1 14,6 25

Adam 25 0.1 16,6 35

SGD 30 0.01 20 37

Adam 30 0.01 22,5 50

SGD 35 0.02 23,4 34

Adam 35 0.02 26,3 45

В процеа експериментiв було знайдено оптимальну величину для швидкостi навчання ЗНМ = 0,01 lr. Кiлькiсть епох навчання знаходиться в дiапазонi ввд 25 до 35. При значному збiльшенi кiлькостi епох починаеться процес перенавчання ЗНМ, при якому мережа добре класифжуе данi з навчально1 вибiрки, але погано класифiкуе новi данi, якi не брали учасп в навчаннi. При недостатнiй шлькосп епох, також зменшуеться точнiсть класифжацп.

Цiй варiант архiтектури ЗНМ забезпечуе точнiсть класифiкацii на рiвнi 45-50%. Для тдвищення якостi класифiкацii була змшена архiтектура мережi (другiй варiант), яка наведена на рис. 3.

Рис. 3. Арх^ектура другого варiанту мережi

В нейроннiй мережi було вилучено третiй та п'ятий шари згортки. Додано шар згортки з 64 картами ознак та ядром 3х3, шар субдискретизацп також з 64 картами ознак, але з ядром 2х2 перед першим повнозв'язним шаром.

Характеристики навчання нейронно1 мереж ново! архггектури представлено у табл. 2.

Таблиця 2

Характеристики навчання_

Функшя м!н!м!зац!! помилки Кшьшсть епох навчання Швидшсть навчання (1г) Час навчання (хвилин) Точшсть класифжацп, %

SGD 30 0.01 8,4 75

Adam 30 0.01 9,2 81,25

SGD 25 0.01 6,7 62,50

Adam 25 0.01 7,4 56,25

SGD 35 0.01 11,6 75

Adam 35 0.01 12,8 68,75

Точшсть класифжацп збшьшилась практично вдвое до 81%. Також приблизно у два рази зменшився час навчання мережа

Для подальшого пiдвищення точностi класифжацп була змшена архiтектура нейронно! мереж1 в такий спосiб. Збiльшена к1льк1сть нейронiв в першому повнозв'язному шарi з 512 на 1024. Це в свою чергу збшьшить кшьшсть мiжнейроних зв'язшв, що може позитивно вiдобразиться на класифжацшних здiбностях цiе! мереж1. Наступну архiтектуру мереж1 (третiй варiант), представлено на рис. 4.

субдяскретшэадП

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Зооражеипя Ш«р iropiKi

Рис. 4. Арх^ектура третього варiанту мереж1

Характеристики навчання нейронно! мереж1 змшено! архггектури представлено у табл. 3.

Таблиця 3

_Характеристики навчання_

Функшя мш!м!зацп помилки Кшьшсть епох навчання Швидшсть навчання (1г) Час навчання (хвилин) Точшсть класифжацп, %

SGD 30 0.01 8,5 87,6

Adam 30 0.01 9,1 93,75

SGD 25 0.01 6,7 84

Adam 25 0.01 7,5 82

SGD 35 0.01 11,9 84

Adam 35 0.01 12,7 91,3

Точшсть класифжацп виросла до 94%, а Bei шш1 характеристики практично не змшилися, у тому числ1 й час навчання. Таким чином, використовуючи досить просту архггектуру нейронно! мереж1, отримана висока точшсть класифжацп.

Висновки

1. Виконано створення i навчання згортальних нейронних мереж, здатних реал1зувати завдання класифжацп обличчя людини.

2. Наведен! основш етапи створення та навчання розглянутих нейронних мереж. В результат! було отримано три вар!анта арх!тектури нейронно! мереж!, кожний з яких складаеться з 9 шар!в.

Перший вар!ант м!стить 4 шари згортки, 2 шари ЗНМ шдвиб!рки (субдискретизац!!), вх!дний шар та два повнозв'язних шари, один з яких е вихшним шаром. Час навчання та точшсть класифжацп обличчя людини в цш мереж! вшповшно дор!внюе 22,5 хвилин i 50%.

Другий вар!ант м!стить 3 шари згортки, 3 шари шдвиб!рки, також вхшний шар та два повнозв'язних шари, один з яких е вихшним шаром. Час навчання та точшсть класифжацп в цш мереж! вшповшно дор!внюе 9,2 хвилин i 81,25%.

3. Найкращою, з точки зору точносп класифжацп та часу навчання, е третш вар!ант архггектури нейронно! мереж!. Вона побудована на основ! другого вар!анта мереж!, але к!льк!сть нейрон!в в першому

повнозв'язному шарi дорiвнюe 1024, заметь 512. Час навчання та точшсть класифжацп обличчя людини в цiй мереж вiдповiдно дорiвнюe 9,1 хвилин i 93,75%.

4. Подальше тдвищення якостi може бути досягнуте при збiльшеннi набору даних i, насамперед, вибiрки навчання.

Список використаиоТ лiтератури

1. Habr.com [електронний ресурс] Аналiз пiдходiв розпiзнання обличь -https ://habr. com/company/synesis/blog/238129/.

2. Habr.com [електронний ресурс] Опис особливостей згортальних нейронних мереж -https://habr.com/post/309508/.

3. Deep Learning [електронний ресурс] Опис архггектури Lenet-5 -http://deeplearning.net/tutorial/lenet.html.

4. ИНТУИТ [електронний ресурс] Визначення понять навчання НМ з вчителем та без вчителя -https://www.intuit.ru/studies/courses/88/88/lecture/20555.

5. Efficient BackProp [електронний ресурс] Опис функцп середньоквадратической помилки -http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf.

6. Habr.com [електронний ресурс] Опис функцп перехрестно! ентропп -https ://habr. com/company/wunderfund/blog/314872.

7. Machinelearning.ru [електронний ресурс] Опис методу гращентного спуску -http://www.machinelearning.ru/wiki/index.php?title=Метод_градиентного_спуска

8. Habr.com [електронний ресурс] Опис функцп мiнiмiзацiï помилки Adam -https://habr.com/post/318970.

9. DataReview.info [електронний ресурс] Опис функцп активацп RELU -http://datareview.info/article/eto-nuzhno-znat-klyuchevyie-rekomendatsii-po-glubokomu-obucheniyu-chast-2.

10. AIPortal.ru [електронний ресурс] Функцп активацп в нейронних мережах -http://www.aiportal.ru/articles/neural-networks/activation-function.html.

11. Ievbras.ru [електронний ресурс] Опис функцп активацп Softmax -http://www.ievbras.ru/ecostat/Kiril/Library/Book1/Content394/Content394.htm

i Надоели баннеры? Вы всегда можете отключить рекламу.