УДК 519.87
ВВЕДЕНИЕ В ГЛУБИННЫЕ НЕЙРОННЫЕ СЕТИ
А. В. Скороход, М. В. Гордиенко Научный руководитель - Е. С. Семенкин
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31
E-mail: SkorokhodAV@yandex.ru
Отражено введение в глубинные нейронные сети, в частности, историю вопроса и современное состояние области нейронных сетей, глубокого обучения. обучения с частичным привлечением учителя и трансферного обучения.
Ключевые слова: нейронные сети, глубокое обучение, обучение с частичным привлечением учителя, трансферное обучение.
INTRODUCTION TO DEEP NEURAL NETWORKS
A. V. Skorokhod, M. V. Gordienko Scientific supervisor - E. S. Semenkin
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: SkorokhodAV@yandex.ru
This article reflects an introduction to deep neural networks, in particular, the history and the current state of the neural networks science, deep learning, semi-supervised learning, and transfer training.
Keywords: neural networks, deep learning, semi-supervised learning, transfer learning.
Нейросетевые технологии - одни из самых распространенных технологий машинного обучения на сегодняшний день. Также, как и во многих областях жизнедеятельности человека (финансы и экономика, умные дома и беспилотные автомобили, различные системы управления и рекомендательные системы), нейросети получили свое применение в областях, связанных с ракетно-космической тематикой [2]. Поэтому исследование современного состояния данной научной области так актуально.
Впервые нейросеть, как математический алгоритм в том виде, в каком понимает его современность, был разработан Ф. Розенблаттом [1] в 1958 году на основе работ Хебба [16], Маккалока и Питтса [18]. Однослойный персептрон был способен решать простейшие задачи распознавания, и стал точкой отсчета популяризации нейросетевого подхода для решения задач распознавания.
Процесс информационного взрыва сподвиг развитие все более сложных и развитых архитектур нейросетей: многослойный перцептрон [3], сети Кохонена [14, 16], машина Больцмана [4, 15], нейросети с обратными связями [16], и, наконец, глубокое обучение [17], для решения все более сложных и объемных задач компьютерного зрения [19, 20], машинного перевода [21] или распознавания речи, однако результаты все еще были не впечатляющими, и интерес к области уменьшился, хотя до настоящего времени эти проблемы не были решены с достаточной точностью [21].
Актуальные проблемы авиации и космонавтики - 2020. Том 2
В середине 2000-х с развитием вычислительной мощности и переходом вычислений на графические процессоры, благодаря стараниям исследовательской группы в составе Йошуа Бенгио, Джеффри Хинтона и Янна Лекуна позволили создавать сложные технологические архитектуры нейронных сетей, обладающие достаточной производительностью и позволяющие решать широкий спектр задач, не поддающихся эффективному решению ранее [4, 5]. Эффективность при решении задач привела к использованию глубокого обучения почти повсеместно в коммерческих и научных задачах распознавания [9-13].
Однако такие подходы имеют ряд проблем: потребность в большом массиве обучающего набора данных. Получение такого набора, в котором, обычно, содержится от и до самплов, является очень ресурсозатратным, что делает такие наборы очень дорогостоящим [7]. Или проблема исчезновения градиента при обучении алгоритмом группы методов обратного распространения ошибки [8, 9]
Следующей вехой в развитии нейросетевого подхода становятся идеи, решающие ряд данных проблем. Тенденция данного этапа развития нейросетевого подхода - избежание проблем обучения гигантских глубоких нейронных сетей, связанных со сложностью и длительностью процесса обучения.
Так, например, GAN сети [25, 16], принцип работы которых основан на двух антагонистических сетях, одна из которых генерирует ложные образцы, когда как другая старается распознать фальшивые.
Другой пример- обучение с частичным привлечением учителя, начавшееся в 1960-х гг. Многие исследователи машинного обучения обнаружили, что неразмеченные данные, используемые в сочетании с небольшим количеством размеченных, могут значительно повысить точность обучения. Этот факт позволил возобновить популярность обучения с частичным привлечением учителя [22-25].
Кроме того, трансферное обучение используется для решения серьезной проблемы, недоступности больших наборов помеченных данных, путем хранения знаний, полученных при решении одной задачи, и применении их к другой, но связанной с первоначальной проблемой [6, 26-27].
Таким образом, мы рассмотрели путь эволюции нейронных сетей и современное состояние в этой области, используя как классические, так и актуальные современные статьи.
Библиографические ссылки
1. Rosenblatt, F., Principles of Neurodynamics; Perceptrons and the Theory of Brain Mechanisms, Washington: Spartan Books, 1962, p. 616
2. He S. et al. Learning to predict the cosmological structure formation //Proceedings of the National Academy of Sciences. - 2019. - T. 116. - №. 28. - C. 13825-13832.
3. Golovko V. A. Deep learning: an overview and main paradigms //Optical memory and neural networks. - 2017. - T. 26. - №. 1. - C. 1-17.
4. Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. A Learning Algorithm for Boltzmann Machines. — Cognitive Science 9 (1), 1985. — C. 147—169.
5. Hinton, G.E., Osindero, S., and Teh, Y., A fast learning algorithm for deep belief nets, Neural Computation, 2006, vol. 18, pp. 1527-1554.
6. Ragusa E., Gastaldo P., Zunino R. Fast Transfer Learning for Image Polarity Detection //INNS Big Data and Deep Learning conference. - Springer, Cham, 2019. - C. 27-37.
7. Velana M. et al. The senseemotion database: A multimodal database for the development and systematic validation of an automatic pain-and emotion-recognition system //IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction. - Springer, Cham, 2016. - C. 127-139.
8. Glorot X., Bordes A., Bengio Y. Deep sparse rectifier neural networks //Proceedings of the fourteenth international conference on artificial intelligence and statistics. - 2011. - C. 315-323.
9. He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. - 2016. - C. 770-778.
10. Bebawy M., Anwar S., Milanova M. Active Shape Model vs. Deep Learning for Facial Emotion Recognition in Security //IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction. - Springer, Cham, 2016. - C. 1-11.
11. Bimodal Recognition of Cognitive Load Based on Speech and Physiological Changes
12. Held D., Meudt S., Schwenker F. Bimodal Recognition of Cognitive Load Based on Speech and Physiological Changes //IAPR Workshop on Multimodal Pattern Recognition of Social Signals in Human-Computer Interaction. - Springer, Cham, 2016. - C. 12-23.
13. Lebichot B. et al. Deep-learning domain adaptation techniques for credit cards fraud detection //INNS Big Data and Deep Learning conference. - Springer, Cham, 2019. - C. 78-88.
14. Kohonen T. Self-organized formation of topologically correct feature maps //Biological cybernetics. - 1982. - T. 43. - №. 1. - C. 59-69.
15. Ackley D. H., Hinton G. E., Sejnowski T. J. A learning algorithm for Boltzmann machines //Cognitive science. - 1985. - T. 9. - №. 1. - C. 147-169.
16. Zhang X. S. Neural networks in optimization. - Springer Science & Business Media, 2013. - T. 46.
17. Goodfellow I., Bengio Y., Courville A. Deep learning. - MIT press, 2016.
18. McCulloch W. S., Pitts W. A logical calculus of the ideas immanent in nervous activity //The bulletin of mathematical biophysics. - 1943. - T. 5. - №. 4. - C. 115-133.
19. Forsyth D. A., Ponce J. Computer vision: a modern approach. - Prentice Hall Professional Technical Reference, 2002.
20. Schalkoff R. J. Digital image processing and computer vision. - New York : Wiley, 1989. -T. 286.
21. Stein D. Machine translation: Past, present and future //Language technologies for a multilingual Europe. - 2018. - T. 4. - №. 5.
22. Zhu X., Goldberg A. B. Introduction to semi-supervised learning //Synthesis lectures on artificial intelligence and machine learning. - 2009. - T. 3. - №. 1. - C. 1-130.
23. Kingma D. P. et al. Semi-supervised learning with deep generative models //Advances in neural information processing systems. - 2014. - C. 3581-3589.
24. Yuan J., Yu J. Semi-supervised learning with bidirectional adaptive pairwise encoding //2016 15th IEEE International Conference on Machine Learning and Applications (ICMLA). -IEEE, 2016. - C. 677-681.
25. Odena A. Semi-supervised learning with generative adversarial networks //arXiv preprint arXiv:1606.01583. - 2016.
26. Banerjee B., Stone P. General Game Learning Using Knowledge Transfer //IJCAI. - 2007. -C. 672-677.
27. Mihalkova L., Huynh T., Mooney R. J. Mapping and revising Markov logic networks for transfer learning //Aaai. - 2007. - T. 7. - C. 608-614.
© Скороход А. В., 2020