DOI 10.36622/VSTU.2021.17.4.003 УДК 004.48
СЛУЧАЙНОЕ МУЛЬТИМОДАЛЬНОЕ ГЛУБОКОЕ ОБУЧЕНИЕ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
А.И. Паршин1, М.Н. Аралов1, 2, В.Ф. Барабанов1, Н.И. Гребенникова1
воронежский государственный технический университет, г. Воронеж, Россия 2НИИ электронной техники, г. Воронеж, Россия
Аннотация: задача распознавания изображений - одна из самых сложных в машинном обучении, требующая от исследователя как глубоких знаний, так и больших временных и вычислительных ресурсов. В случае использования нелинейных и сложных данных применяются различные архитектуры глубоких нейронных сетей, но при этом сложным вопросом остается проблема выбора нейронной сети. Основными архитектурами, используемыми повсеместно, являются свёрточные нейронные сети (CNN), рекуррентные нейронные сети (RNN), глубокие нейронные сети (DNN). На основе рекуррентных нейронных сетей (RNN) были разработаны сети с долгой краткосрочной памятью (LSTM) и сети с управляемыми реккурентными блоками (GRU). Каждая архитектура нейронной сети имеет свою структуру, свои настраиваемые и обучаемые параметры, обладает своими достоинствами и недостатками. Комбинируя различные виды нейронных сетей, можно существенно улучшить качество предсказания в различных задачах машинного обучения. Учитывая, что выбор оптимальной архитектуры сети и ее параметров является крайне трудной задачей, рассматривается один из методов построения архитектуры нейронных сетей на основе комбинации свёрточных, рекуррентных и глубоких нейронных сетей. Показано, что такие архитектуры превосходят классические алгоритмы машинного обучения
Ключевые слова: случайное мультимодальное глубокое обучение, машинное обучение, глубокое обучение, искусственная нейронная сеть, свёрточная нейронная сеть
Введение
Возрастающие требования к точности распознавания изображений диктуют постоянное совершенствование методов машинного обучения для надежной категоризации этих данных. С каждым годом появляются все новые и новые методы и подходы к построению ансамблей нейронных сетей.
В последние годы были достигнуты значительные успехи в создании глубоких (DNN) и многоуровневых свёрточных (CNN) нейронных сетей. Появилось много разновидностей рекуррентных нейронных сетей, таких как сети с долгой краткосрочной памятью (LSTM) и сети с управляемыми рекуррентными блоками (GRU).
Растущие вычислительные возможности позволяют производить расчет сложных ансамблей нейронных сетей, однако, нахождение оптимальной структуры является сложной задачей, требующей больших временных затрат и высокой квалификации исследователей.
Случайное мультимодальное глубокое обучение
Случайное мультимодальное глубокое обучение (RMDL) - это новый метод, который
можно использовать в различных задачах классификации [1]. RMDL улучшает точность и надежность предсказания ансамбля глубоких нейронных сетей, одновременно решая проблему нахождения наилучшей структуры. Случайное мультимодальное глубокое обучение обеспечивает автоматизированное создание оптимальной структуры нейронной сети, экономя много времени и усилий. Метод создает несколько моделей свёрточной нейронной сети (CNN), глубокой нейронной сети (DNN) и рекуррентной нейронной сети (RNN) одновременно, тренирует их и объединяет полученные результаты для получения лучшего предсказания [2], [3].
Глубокая нейронная сеть (DNN) - это нейронная сеть с несколькими скрытыми слоями. Если слоев больше трех, такая сеть называется глубокой. Первый слой нейронной сети является входным слоем, последний слой - выходным слоем, средние слои являются скрытыми слоями. Между собой все слои полностью связаны, то есть любой нейрон в текущем слое связан с любым нейроном как в предыдущем, так и в последующем слое. Глубокая нейронная сеть имеет набор весов и смещений на каждом уровне. Активация нейрона зависит от соответствующих весов и смещений. Задачей обучения глубокой нейронной сети является нахождение наилучших весов и смещений для каждого элемента сети.
© Паршин А.И., Аралов М.Н., Барабанов В.Ф., Гребенникова Н.И., 2021
Свёрточная нейронная сеть (CNN) - разновидность глубоких нейронных сетей, наиболее часто применяемая в задаче анализа визуальных образов. Идея свёрточных нейронных сетей заключается в последовательном чередовании свёрточных, фильтрующих (подвыбороч-ных) и полносвязных слоёв. Свёрточный слой представляет собой применение операции свёртки к выходным данным предыдущего слоя. Фильтрующий слой необходим для снижения размерности изображения. На данном слое исходное изображение делится на блоки и для каждого блока вычисляется определенная функция. На свёрточном слое уже были выявлены некоторые признаки, для дальнейшей обработки столь подробное изображение уже не требуется, и оно уплотняется до менее детального. Также фильтрация уже ненужных деталей служит для уменьшения эффекта переобучения нейронной сети. Полносвязный слой служит для итоговой классификации, моделирует сложную нелинейную функцию, оптимизируя которую, улучшается качество распознавания.
Рекуррентная нейронная сеть (RNN) - еще один тип нейронной сети, используемый в методе RMDL. RNN является в некотором роде искусственной нейронной сетью, соединения между узлами которой образуют направленный граф. Идея рекуррентной нейронной сети состоит в том, чтобы создать множество копий с одной и той же архитектурой, каждая предыдущая копия передает данные следующему слою. Таким образом, рекуррентная нейронная сеть может использовать свое внутреннее состояние для обработки последовательностей различной длины. В последнее время было разработано большое количество различных архи-
тектурных вариаций сетей RNN, но наибольшее распространение получили сети с долгой краткосрочной памятью (LSTM) и управляемый рекуррентный блок (GRU).
Долгая краткосрочная память (LSTM) является специальным типом рекуррентной нейронной сети. LSTM не использует функцию активации, в результате не происходит размытия хранимого значения. Это помогает решить проблему исчезающего градиента при использовании для обновления весов нейронной сети метода обратного распространения ошибки. LSTM показывает достаточно высокие результаты в задачах классификации, распознавания речи и прогнозирования временных рядов с неопределенной продолжительностью временных лагов между важными событиями [4].
Управляемые рекуррентные блоки (GRU) по эффективности сравнимы с сетями долгой краткосрочной памяти во многих практических задачах, но имеют меньше обучаемых параметров, что уменьшает время обучения при одинаковом размере скрытого слоя. Архитектура блока GRU имеет много общего с блоком LSTM, отличие заключается в организации долгосрочного элемента памяти: в блоке LSTM элемент памяти реализован отдельным каналом, в блоке GRU - в векторе скрытого состояния. Как и в случае сети долгой краткосрочной памяти, сеть GRU решает проблему исчезающего градиента, характерную для простой рекуррентной сети [5].
На рис. 1 представлена обобщенная структура модели RMDL. Количество слоев и узлов каждой из этих моделей глубокой нейронной сети выбирается случайным образом.
Рис. 1. Общая структура модели случайного мультимодального глубокого обучения
Для двоичной классификации математическое ожидание прогноза модели RMDL можно найти по формуле [6]:
M(yil,yi2.....(1)
где n - количество случайных моделей, а y;j-выходное предсказание модели j для каждого класса i. Предсказание полученного ансамбля моделей для каждого класса будет зависеть от предсказания каждой модели для данного класса:
9i = [9и — 9ij --9in]T . (2)
Предсказания для каждой модели, в свою очередь, будут определяться следующим образом:
9ij = arg maxfc [softmax(yij)]. (3)
Оценка точности модели случайного мультимодального глубокого обучения
Для оценки точности предсказания модели случайного мультимодального глубокого обучения воспользуемся двумя различными наборами данных. В качестве первого набора данных используем набор рукописных арабских цифр из базы данных MNIST. Этот набор данных содержит 60 000 тестовых и 10 000 тренировочных черно-белых изображений размером 28 х 28 пикселей. На рис. 2 показана зависимость полученной ошибки от количества случайных моделей. Как видим, график зависимости (рис. 2) имеет нелинейный характер, после определенного момента увеличение количества моделей не приводит к снижению ошибки обучения.
Ошибка, %
0.60 0.35 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00
0.52
0.48
0.41
,3
0.21 „, —--—0.19 0.19
----■ -
0.18 0.18 0.18
12 15 18 21 24 27 30 33 36
Количество случайных моделей
Рис. 2. Зависимость ошибки предсказания от количества тренируемых моделей для базы данных рукописных цифр ММБТ
На базе данных MNIST были опробованы алгоритмы двухуровневой нейронной сети [7], нелинейного классификатора [8], метод опорных векторов и к ближайших соседей [9]. Кроме того, были построены модели линейного классификатора [8], градиентного бустинга [10], а также шестиуровневой свёрточной нейронной сети [11]. Таким образом, количе-
ство результатов применения MNIST является статистически достаточным для проведения сравнительного анализа. Как видим из рис. 3, точность полученной модели случайного муль-тимодального глубокого обучения превосходит как классические алгоритмы машинного обучения, так и сложные многоуровневые свёрточ-ные нейронные сети.
Рис. 3. Сравнение точности предсказания для различных методов машинного обучения
В качестве второго набора данных будем использовать небольшую подборку изображений человеческих лиц из базы данных Olivetti, входящих в библиотеку машинного обучения scikit-leam [12]. Этот набор данных содержит 400 различных изображений, принадлежащих 40 различным людям. Каждое изображение является черно-белым и имеет размер 64 х 64. Таким образом, у нас есть 40 классов по 10 изображений в каждом. Составим тренировочный и тестовый набор данных, выделив из каждого класса случайным образом 6 и 4 изобра-
жения соответственно. Количество эпох обучения выбиралось из расчета минимизировать ошибку и при этом не допустить переобучения. На рис. 4 представлена зависимость полученной усредненной ошибки от количества обучаемых моделей. Из-за небольшого количества данных распределение не так наглядно, как для набора данных MNIST, но и тут прослеживается схожая закономерность - после определенного уровня увеличение количества моделей не приводит к существенному уменьшению ошибки.
Рис. 4. Зависимость ошибки предсказания от количества тренируемых моделей для базы данных Olivetti
24
Заключение
В ходе проведенного исследования мы убедились, что метод случайного мультимо-дального глубокого обучения является эффективным алгоритмом создания сложной структуры нейронных сетей. Исходя из вышеприведенного анализа к достоинствам данного метода можно отнести высокую точность и устойчивость предсказания. Единственным недостатком модели случайного мультимодального глубокого обучения можно назвать большие вычислительные затраты. Результирующая модель содержит сложную комбинацию различных моделей нейронных сетей, расчет которых требует также больших затрат. Тем не менее подбор оптимальной модели нейронной сети исследователем является непростой задачей и также требует больших временных ресурсов.
Литература
1. Pandey A., Srivastava D., Thenmalar Dr.S. Fake Information Classifier Using Random Multi-Model Deep Learning // Annals of the Romanian Society for Cell Biology. 2021, Р. 14839-14850. URL: https: //www.annalsofrscb.ro/index.php/journal/article/view/4826
2. An Improvement of Data Classification Using Random Multimodel Deep Learning (RMDL) / M. Heidarysafa, K. Kowsari, D.E. Brown, K.J. Meimandi, L.E. Barnes // International Journal of Machine Learning and Computing, 2018. Vol. 8(4). Р. 298-310. DOI: 10.18178/ijmlc.2018.8.4.703
3. Kowsari K. Diagnosis and Analysis of Celiac Disease and Environmental Enteropathy on Biopsy Images using Deep Learning Approaches // Online Archive of University of
Virginia Scholarship, 2020. URL: https://doi.org/10.18130/v3-837s-3a79
4. Alex G., Abdel-rahman M., Geoffrey H. Speech Recognition with Deep Recurrent Neural Networks. Acoustics // Speech and Signal Processing (ICASSP), IEEE International Conference on: journal. 2013. P. 6645-6649.
5. Gomaa W.H. The Impact of Deep Learning Techniques on SMS Spam Filtering // International Journal of Advanced Computer Science and Applications. 2020. Vol. 11. No. 1. DOI: 10.14569/IJACSA.2020.0110167
6. RMDL: Random Multimodel Deep Learning for Classification, / K. Kowsari , M. Heidarysafa , D.E. Brown , K.J. Meimandi, L.E. Barnes // ICISDM '18: Proceedings of the 2nd International Conference on Information System and Data Mining, 2018. P. 19-28. URL: https://doi.org/10.1145/3206098.3206111
7. Simard P., Steinkraus Y.D., Platt J.C. Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis // Document Analysis and Recognition. Proceedings. Seventh International Conference on: journal. IEEE, 2003. DOI: 10.1109/ICDAR.2003.1227801
8. Gradient-Based Learning Applied to Document Recognition (PDF) / L.Yann, L. Bottou, Y. Bengio, P. Haffner // Proceedings of the IEEE. 1998. 86 (11). P. 2278-2324. DOI: 10.1109/5.726791
9. Deformation models for image recognition / K. Daniel, T. Deselaers, C. Gollan, H. Ney // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007. 29 (8). P. 1422-1435. CiteSeerX 10.1.1.106.3963. DOI: 10.1109/TPAMI.2007.1153
10. Kégl B., Busa-Fekete R. Boosting products of base classifiers // Proceedings of the 26th Annual International Conference on Machine Learning. 2009. P. 497-504.
11. Deep Big Simple Neural Nets Excel on Handwritten Digit Recognition / C.C. Dan, U. Meier, L. M. Gambardella, J. Schmidhuber // Neural Computation. 2010. 22 (12). P. 320720. arXiv:1003.0358. DOI: 10.1162/NECO_a_00052
12. Pedregosa F. Scikit-learn: Machine learning in python // Journal of Machine Learning Research, 2011. Vol. 12. P. 2825-2830.
Поступила 21.06.2021; принята к публикации 19.08.2021 Информация об авторах
Паршин Александр Иванович - аспирант, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
Аралов Михаил Николаевич - ассистент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84); инженер-конструктор, НИИ электронной техники (394033, Россия, г. Воронеж, ул. Старых Большевиков, 5), e-mail: [email protected]
Барабанов Владимир Федорович - д-р техн. наук, профессор, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
Гребенникова Наталия Ивановна - канд. техн. наук, доцент, Воронежский государственный технический университет (394006, Россия, г. Воронеж, ул. 20-летия Октября, 84), e-mail: [email protected]
RANDOM MULTI-MODAL DEEP LEARNING IN THE PROBLEM OF IMAGE RECOGNITION
A.I. Parshin1, M.N. Aralov1,2, V.F. Barabanov1, N.I. Grebennikova1
Voronezh State Technical University, Voronezh, Russia 2Scientific Research Institute of Electronic Engineering, Voronezh, Russia
Abstract: the image recognition task is one of the most difficult in machine learning, requiring both deep knowledge and large time and computational resources from the researcher. In the case of using nonlinear and complex data, various architectures of deep neural networks are used but the problem of choosing a neural network remains a difficult issue. The main ar-
chitectures used everywhere are convolutional neural networks (CNN), recurrent neural networks (RNN), deep neural networks (DNN). Based on recurrent neural networks (RNNs), Long Short Term Memory Networks (LSTMs) and Controlled Recurrent Unit Networks (GRUs) were developed. Each neural network architecture has its own structure, customizable and trainable parameters, and advantages and disadvantages. By combining different types of neural networks, you can significantly improve the quality of prediction in various machine learning problems. Considering that the choice of the optimal network architecture and its parameters is an extremely difficult task, one of the methods for constructing the architecture of neural networks based on a combination of convolutional, recurrent and deep neural networks is considered. We showed that such architectures are superior to classical machine learning algorithms
Key words: random multimodal deep learning, machine learning, deep learning, artificial neural network, convolutional neural network
References
1. Pandey A., Srivastava D., Dr. Thenmalar S. "Fake information classifier using Random Multi-Model Deep Learning", Annals of the Romanian Society for Cell Biology, 2021, pp. 14839-14850, https://www.annalsofrscb.ro/index.php/journal/article/view/4826
2. Heidarysafa M., Kowsari K., Brown D.E., Meimandi K.J., Barnes L.E. "An improvement of data classification using Random Multimodel Deep Learning (RMDL)", International Journal of Machine Learning and Computing, 2018, vol. 8(4), pp. 298-310, doi: 10.18178/ijmlc.2018.8.4.703
3. Kowsari K. "Diagnosis and analysis of celiac disease and environmental enteropathy on biopsy images using Deep Learning approaches", Online Archive of University of Virginia Scholarship, 2020, https://doi.org/10.18130/v3-837s-3a79
4. Alex G., Abdel-rahman M., Geoffrey H. "Speech recognition with Deep Recurrent Neural Networks. Acoustics", Speech and Signal Processing (ICASSP), 2013 IEEE Int. Conf., 2013, pp. 6645—6649.
5. Gomaa W.H. "The impact of Deep Learning Techniques on SMS spam filtering", International Journal of Advanced Computer Science and Applications, 2020, vol. 11, no. 1, doi: 10.14569/IJACSA.2020.0110167
6. Kowsari K., Heidarysafa M., Brown D.E., Meimandi K.J., Barnes L.E. "RMDL: Random Multimodel Deep Learning for classification", ICISDM '18: Proc. of the 2nd Int. Conf. on Information System and Data Mining, 2018, pp. 19-28, doi.org/10.1145/3206098.3206111
7. Simard P.Y., Steinkraus D., Platt J.C. "Best practices for convolutional neural networks applied to visual document analysis", Document Analysis and Recognition, 2003. Proc. of Seventh Int. Conf. IEEE, 2003, doi:10.1109/ICDAR.2003.1227801
8. Yann L., Bottou L., Bengio Y., Haffner P. "Gradient-based learning applied to document recognition", Proc. of the IEEE, no. 86 (11), pp. 2278-2324. doi:10.1109/5.726791
9. Daniel K., Deselaers T., Gollan C., Ney H. "Deformation models for image recognition", IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, no. 29 (8), pp. 1422-1435. CiteSeerX 10.1.1.106.3963. doi:10.1109/TPAMI.2007.1153
10. Kégl B., Busa-Fekete R. "Boosting products of base classifiers", Proc. of the 26th Annual Int. Conf. on Machine Learning, 2009, pp. 497-504.
11. Dan C.C., Meier U., Gambardella L.M., Schmidhuber J. "Deep big simple neural nets excel on handwritten digit recognition", Neural Computation, 2010, no. 22 (12), pp. 3207-20. arXiv:1003.0358. doi:10.1162/NEC0_a_00052
12. Pedregosa F. "Scikit-learn: machine learning in python", J. of Machine Learning Research, 2011, vol. 12, pp. 2825-30.
Submitted 21.06.2021; revised 19.08.2021 Information about the authors
Aleksandr I. Parshin, Graduate student, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: [email protected]
Mikhail N. Aralov, assistant, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), design engineer, Research Institute of Electronic Engineering (5 Starykh Bolshevikov str., Voronezh 394033, Russia,), e-mail:[email protected] Vladimir F. Barabanov, Dr. Sc. (Technical), Professor, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: [email protected]
Natal'ya I Grebennikova, Cand. Sc. (Technical), Associate Professor, Voronezh State Technical University (84 20-letiya Oktyabrya, Voronezh 394006, Russia), e-mail: [email protected]