Научная статья на тему 'РЕПОЗИТОРИЙ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА ПРОСТРАНСТВЕННЫХ ДАННЫХ'

РЕПОЗИТОРИЙ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА ПРОСТРАНСТВЕННЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
155
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕПОЗИТОРИЙ / НЕЙРОННАЯ СЕТЬ / НЕЙРОСЕТЕВАЯ МОДЕЛЬ / ГЛУБОКОЕ ОБУЧЕНИЕ / ПРОСТРАНСТВЕННЫЕ ДАННЫЕ / ГЕОИНФОРМАЦИОННАЯ СИСТЕМА / ИНТЕРФЕЙС / ОБМЕН ДАННЫМИ / ОБНАРУЖЕНИЕ ОБЪЕКТОВ / ПРИКЛАДНЫЕ ПРОГРАММНЫЕ ИНТЕРФЕЙСЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ямашкин С. А., Ямашкина Е. О., Ямашкин А. А.

В статье описана разработка репозитория нейросетевых моделей, предназначенных для решения проектных задач в области анализа пространственных данных. Представлены ключевые варианты применения системы для обеспечения поддержки принятия управленческих решений в области устойчивого развития. Приведены результаты проектирования онтологической модели репозитория. Подсистема хранения нейросетевых моделей реализована в форме метаязыка. Модели конвертируются в представления, совместимые с современными программными комплексами для глубокого машинного обучения. Дана характеристика графических веб-интерфейсов репозитория глубоких нейросетевых моделей и подсистемы визуализации моделей глубокого машинного обучения в виде граф-схем, а также интерфейсов получения структурированной информации о конкретных нейросетевых моделях. В рамках репозитория функционирует подсистема разграничения прав доступа для администраторов и пользователей системы. Обсуждаются вопросы актуализации репозитория глубоких нейросетевых моделей в процессе решения практико-ориентированных задач в области обеспечения условий устойчивого развития регионов России и разработки рекомендательной системы для подбора и конфигурирования хранимых в репозитории нейросетевых моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ямашкин С. А., Ямашкина Е. О., Ямашкин А. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

REPOSITORY OF NEURAL NETWORK MODELS FOR SPATIAL DATA ANALYSIS

The article describes the development of a repository of neural network models designed to solve design problems in the field of spatial data analysis. The key options for using the system to provide support for making managerial decisions in the field of sustainable development are presented. The results of designing the ontological model of the repository are presented. The storage subsystem for neural network models is implemented in the form of a metalanguage. Models are converted into representations that are compatible with modern software systems for deep machine learning. The graphical web interfaces of the repository of deep neural network models and the visualization subsystem of deep machine learning models in the form of graph diagrams, as well as interfaces for obtaining structured information about specific neural network models are given. Within the framework of the repository, there is a subsystem for delimiting access rights for administrators and users of the system. The issues of updating the repository of deep neural network models in the process of solving practice-oriented problems in the field of ensuring the conditions for sustainable development of Russian regions and developing a recommender system for selecting and configuring neural network models stored in the repository are discussed.

Текст научной работы на тему «РЕПОЗИТОРИЙ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА ПРОСТРАНСТВЕННЫХ ДАННЫХ»

Репозиторий нейросетевых моделей для анализа пространственных

данных

1 12 1

С.А. Ямашкин , Е.О. Ямашкина ' , А.А. Ямашкин

1 Мордовский государственный университет им. Н.П. Огарёва, Саранск Российский технологический университет (МИРЭА), Москва

Аннотация: В статье описана разработка репозитория нейросетевых моделей, предназначенных для решения проектных задач в области анализа пространственных данных. Представлены ключевые варианты применения системы для обеспечения поддержки принятия управленческих решений в области устойчивого развития. Приведены результаты проектирования онтологической модели репозитория. Подсистема хранения нейросетевых моделей реализована в форме метаязыка. Модели конвертируются в представления, совместимые с современными программными комплексами для глубокого машинного обучения. Дана характеристика графических веб-интерфейсов репозитория глубоких нейросетевых моделей и подсистемы визуализации моделей глубокого машинного обучения в виде граф-схем, а также интерфейсов получения структурированной информации о конкретных нейросетевых моделях. В рамках репозитория функционирует подсистема разграничения прав доступа для администраторов и пользователей системы. Обсуждаются вопросы актуализации репозитория глубоких нейросетевых моделей в процессе решения практико-ориентированных задач в области обеспечения условий устойчивого развития регионов России и разработки рекомендательной системы для подбора и конфигурирования хранимых в репозитории нейросетевых моделей.

Ключевые слова: репозиторий, нейронная сеть, нейросетевая модель, глубокое обучение, пространственные данные, геоинформационная система, интерфейс, обмен данными, обнаружение объектов, прикладные программные интерфейсы.

1. Введение

Согласно Постановлению Правительства Российской Федерации от 1 декабря 2021 года №2148 об утверждении государственной программы Российской Федерации «Национальная система пространственных данных», в целях обеспечения совершенствования и развития системы государственного кадастрового учета недвижимого имущества, а также инфраструктур пространственных данных, требуется реализация мероприятий, направленных на решение проблем ограниченного использования геоинформационных технологий с помощью высокопроизводительной обработки пространственных данных и искусственного интеллекта, и проблемы отсутствия отечественной

геоплатформы, объединяющей сведения, содержащиеся в ведомственных и региональных информационных ресурсах, реестрах и базах данных.

Реализация репозитория нейросетевых моделей позволяет сформировать реестр моделей машинного обучения для анализа больших массивов геопространственных данных [1]. Архитектура созданной программной системы репозитория глубоких нейросетевых моделей интегрирует нейронные сети и обученные модели для их дальнейшего использования с целью решения конкретных проектных задач. Реестр ключевых вариантов использования репозитория включает прецеденты навигации по каталогу моделей системы, подбор и конфигурирование модели с использованием рекомендательной системы, получение информации о конкретной глубокой нейросетевой модели, визуализацию моделей глубокого обучения, доступ к предварительно обученным вариантам конкретной модели, хранение моделей в едином формате метаязыка, взаимодействие с унифицированным прикладным программным интерфейсом, идентификацию и аутентификацию пользователя для получения доступа.

Для организации хранения моделей глубоких нейронных сетей использован комплекс систем управления базами данных, интегрированный в мультимодельное хранилище. Разработка графических интерфейсов репозитория проведена с использованием методологий проектирования Ц1/ЦХ на основе программного стека веб-технологий.

Одна из основных функций репозитория нейросетевых моделей -представление пользователям информации о моделях, представленной в системе с помощью адаптивного веб-интерфейса. Пользователь системы может получить структурированное описание и архитектурное строение модели, характеристики ее производительности, примеры прикладного применения для решения конкретных задач. Нейросетевые модели, хранимые

в репозитории, реализованы в виде граф-схемы с возможностью интерактивного онлайн-редактирования их топологии и архитектуры.

Прикладные программные интерфейсы репозитория реализованы по концепции REST API и служат для обеспечения процессов импорта и экспорта моделей, администрирования каталогов и управления ролями администратора и пользователей системы. Схема прикладных программных

Рис. 1. - Схема прикладных программных интерфейсов репозитория

На рис. 2 представлена схема компонентов домена искусственных нейронных сетей в рамках системы репозитория, самыми важными из которых являются параметры и архитектуры нейронных сетей: количество слоев, параметры их функционирования, мета-описание.

г>ш.в.

Ветвящаяся связь

Рис. 2. - Компоненты домена искусственных нейронных сетей в рамках

репозитория

В рамках репозитория интегрированы модели, позволяющие решать задачи классификации, сегментации и детектирования объектов на основе данных дистанционного космического мониторинга.

Классическая задача классификации изображений в области анализа данных дистанционного мониторинга используется для присвоения метки изображению, соответствующей, например, типу земель [2,3]. Более сложный случай - поиск соответствия нескольких меток к изображению. Этот подход к классификации на уровне изображения не следует путать с классификацией на уровне пикселей, которая называется семантической сегментацией. Дадим описание представленных в репозитории моделей классификации пространственных данных.

1) Сверточная сеть с N сверточными блоками и плотно связанным слоем принятия решения для классификации систем землепользования. Модель обучена на основе набора данных UC Merced Land Use Dataset, включающего более 2000 изображений, разбитых на 21 территориальный класс. Данная модель позволяет достичь точности классификации пространственных данных более 92% при малой емкости, невысокой требовательности к вычислительным ресурсам и значительной устойчивости к переобучению.

2) Модель GeoSystemNet, предназначенная для анализа данных дистанционного мониторинга на основе применения геосистемного подхода для расширения набора обучающих данных. К преимуществам модели относятся достаточное количество степеней свободы (настраиваемых параметров), позволяющее конфигурировать модель, исходя из решаемой проблемы: количество входов модели (тематических уровней анализируемых данных), модулей извлечения и слияния признаков, гиперпараметры персептрона, принимающего итоговое решение о принадлежности территориального участка определенному классу. Архитектура модели

Рис. 3. - Архитектура модели GeoSystemNet

Тестирование модели на основе расширенного на базе геосистемного подхода набора Еш^АТ показало возможность достижения повышения точности классификации в условиях дефицита данных в пределах 9 %.

3) Плотно связанная модель малой емкости, обученная на наборе информационных территориальных дескрипторов, расчет и консолидация которых позволяет снизить размерность анализируемых данных за счет допустимой утраты некоторого количества информации об анализируемой территории. Системный анализ дескрипторов территории, рассчитываемых на основе разнородных пространственных данных (космической съемки территории, цифровой модели рельефа и цифровой ландшафтной карты), позволяет достичь значительного прироста точности классификации метагеосистем, при этом анализ морфометрических дескрипторов увеличивает точность на 3 %, а метрик, рассчитанных на основе цифровых карт - на 11 %.

4) Глубокая нейронная сеть, интегрирующая спектральную и пространственную информацию посредством плотно связанного блока для анализа данных об атомарном участке космической съемки, сверточного блока анализа геопространственной окрестности территории. Анализ геопространственной окрестности и исторических данных позволяет увеличить точность классификации в пределах 10%.

5) Модель метаклассификатора, позволяющая осуществлять объединение нескольких моделей в ансамбль для повышения устойчивости системы классификации. Точность решений, принимаемых ансамблем, имеет тенденцию стремиться к точности наиболее эффективного моноклассификатора системы. Ошибочность системы в большинстве случаев не превышает ошибочность наиболее эффективного классификатора, избегая при этом грубых систематических ошибок, допускаемых отдельными моноклассификаторами. Формирование метаклассификатора по

предложенному алгоритму представляет собой возможность добавить элемент предсказуемости и контроля в использование нейронных сетей, традиционно представляющих собой «черный ящик».

При решении задачи сегментации метка класса присваивается каждому пикселю изображения. При семантической сегментации объектам одного и того же класса присваивается одна и та же метка, тогда как при экземплярной сегментации каждому объекту присваивается уникальная метка. Одноклассовые модели часто обучаются для выделения техногенных объектов и природных процессов, а многоклассовые - для классификации типов растительности и систем землепользования [4]. Представим характеристику моделей классификации пространственных данных, интегрированных в репозитории.

1) Набор 512-, 1024- и 2048-канальных архитектур U-Net, оптимизированных за счет использования методов интерполяции и прореживания с улучшением показателя точности сегментации (меры Жаккара) в пределах 5 %. Модель пространственной сегментации данных обеспечивает высокий порог качества распознавания объектов и формирует методологическую основу для формирования тонко настроенных моделей сегментации. Структура нейронной сети функционально расширяема для смежных предметных областей.

2) Модель сегментации для выделения множества классов растительного покрова и систем землепользования на основе архитектуры U-Net (осуществляющая мультиклассовую сегментацию) [5,6]. Модель может быть скомпилирована и обучена на основе различных функций потерь. Так, функция Focal Loss полезна, когда в обучающем наборе имеются несбалансированные целевые классы.

3) Модель детекции оползневых процессов на основе данных космического мониторинга и цифровой модели рельефа, функционирующая

на основе модифицированной архитектуры U-Net [7]. Процесс предварительной подготовки данных для сегментации предполагает сбор и расширение размеченных данных дистанционного зондирования и карт морфометрических параметров территории. Модель достигает высоких значений метрики качества (коэффициент корреляции Мэтьюса) в пределах 0,7 при картировании оползней в новых регионах.

4) Набор моделей сегментации, обучающихся на основе автоматизировано рассчитываемых на основе мультиспектральных данных дистанционного мониторинга карт спектральных индексов: нормализованные относительные индексы растительности (NDVI), воды (NDWI), сухости (DMCI, NDDI), гарей (NBR) и иных автоматизировано рассчитываемых показателей. При условии установки порогового значения, нейросетевые модели способны обучаться бинарной сегментации, а при определении алгоритма квантования - многоклассовой. Обученные таким образом модели могут применяться для оценки устойчивости территории к затоплению, засухе, возгоранию.

Модели обнаружения объектов реализуют технологию детекции экземпляров семантических природных и природно-техногенных объектов определенного класса на цифровых изображениях дистанционного мониторинга. Модели глубокого обучения способны обеспечивать более высокую точность, меньшие затраты времени и сложность, в сравнении с более ранними подходами компьютерного зрения [8,9].

1) Реализация моделей Fast R-CNN и Faster R-CNN, спроектированной для обнаружения объектов (областей интереса), и основанная на архитектуре, в рамках которой анализируемое изображение подается на вход сверточной нейронной сети и обрабатывается модулем локализации объектов для получения карты признаков и регионов потенциальных объектов, с последующей обработкой слоем прореживания RoI (Region of Interest) и

анализом на основе плотно связанного слоя, выходные сигналы которого передаются двум другим полносвязным слоям: первый определяет байесову вероятность принадлежности объекта определенному классу, а второй — границы региона потенциального объекта.

2) Модель глубокого обучения для обнаружения объектов с помощью регрессии ограничивающей рамки Mask R-CNN, расширяющая Faster R-CNN функцией сегментации изображения на уровне пикселей с разделением задач классификации и прогнозирования маски на уровне пикселей.

Модели обнаружения объектов могут быть использованы при этом для решения задач подсчета объектов, детекции зданий, инфраструктурных объектов, транспортных средств, ландшафтов, растительных и животных объектов [10].

Выводы.

Спроектированная архитектура репозитория нейронных сетей и ее программная реализация позволяет подойти к решению научной проблемы интеграции моделей анализа пространственных данных. В ходе работы над проектом решены следующие задачи:

1) Решена задача проектирования онтологической модели хранилища глубоких нейронных сетей на основе гипотезы о том, что практическое использование глубоких нейронных сетей требует систематизации накапливаемых знаний в системообразующие домены: моделей машинного обучения, данных и задач.

2) Разработана схема хранения моделей глубокого машинного анализа пространственных данных в форме мета-языка, позволяющая решить задачи унифицированного хранения моделей, их импорта и экспорта.

3) Внедрена функции конвертации моделей репозитория в представления, используемые языками высокого уровня на основе алгоритма топологической сортировки.

4) Созданы графические веб-интерфейсы репозитория нейронных сетей, решающие задачу навигации в системе для предоставления структурированной информации о моделях и их визуализации и проектирования на основе редактирования граф-схем.

5) Развернут компонент аутентификации пользователей для решения задачи разделения прав доступа к репозиторию на основе концепции управления доступом на основе ролей.

6) Разработан прикладной программный интерфейс (REST API) для решения задачи обеспечения межмашинного и автоматизированного взаимодействия с репозиторием.

7) Проведена работа по актуализации базы данных репозитория нейронных сетей для обеспечения организационного процесса решения практико-ориентированных задач в области обеспечения условий устойчивого развития регионов России.

8) Предложена реализация рекомендательной системы, осуществляющей функцию подбора и конфигурирования нейросетевых моделей для анализа пространственных данных.

Модели, консолидируемые в репозитории могут быть использованы для решения проектных задач цифровой экономики.

Благодарности. Работа выполнена при финансовой поддержке гранта Президента Российской Федерации (грант № МК-199.2021.1.6).

Литература

1. Ямашкин, С. А., Ямашкина Е. О. Трансляция нейросетевых моделей в программный код на языке программирования высокого уровня // Инженерный вестник Дона. 2022. № 6. URL: ivdon.ru/ru/magazine/archive/n6y2022/774.

2. Касимов Н. С., Мазуров Ю. Л., Тикунов В. С. Концепция устойчивого развития: восприятие в России // Вестник Российской академии наук. 2004. Т. 74. № 1. С. 28-36.

3. Сочава В. Б. Введение в учение о геосистемах. - Новосибирск : Издательство "Наука" Сибирское отделение, 1978. 320 с.

4. Ямашкин, С. А., Ямашкина Е. О. Разработка рекомендательной системы для подбора и конфигурирования глубоких нейросетевых моделей // Инженерный вестник Дона. 2022. № 12. URL: ivdon.ru/ru/magazine/archive/n 12y2022/8070.

5. Kahn A. B. Topological sorting of large networks Communications of the ACM. 1962. Vol. 5. № 11. pp. 558-562.

6. Xu C., Liu W. Integrating a Three-Level GIS Framework and a Graph Model to Track, Represent, and Analyze the Dynamic Activities of Tidal Flats // ISPRS International Journal of Geo-Information. 2021. Vol. 10. №. 2. P. 61.

7. Bengio Y. Learning deep architectures for AI // Foundations and Trends in Machine Learning. 2009. vol. 2. № 1. pp. 1-127.

8. Шолле Ф. Глубокое обучение на Python. - СПб.: Питер, 2018. 400 с.

9. LeCun Y., Bengio Y., Hinton G. Deep Learning // Nature. 2015. № 521. 436-444.

10. Ямашкин С. А., Ямашкина Е. О., Никулин В. В. Анализ межкомпонентных связей в метагеосистемах на основе имитационного моделирования // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика. 2022. № 4. С. 78-87.

References

1. Yamashkin S. A., Yamashkina E.O. Inzhenernyj vestnik Dona, 2022. № 6. URL: ivdon.ru/ru/magazine/archive/n6y2022/774.

2. Kasimov N. S., Mazurov Ju. L., Tikunov V. S. Vestnik Rossijskoj akademii nauk. 2004. T. 74. № 1. pp. 28-36.

3. Sochava V. B. Vvedenie v uchenie o geosistemah [Introduction to the study of geosystems]. Moskva: Izdatel'stvo "Nauka" Sibirskoe otdelenie, 1978. 320 p.

4. Yamashkin S. A., Yamashkina E.O. Inzhenernyj vestnik Dona, 2022. № 12. URL : ivdon.ru/ru/magazine/archive/n 12y2022/8070.

5. Kahn A. B. Topological sorting of large networks Communications of the ACM. 1962. Vol. 5. № 11. pp. 558-562.

6. Xu C., Liu W. ISPRS International Journal of Geo-Information. 2021. Vol. 10. №. 2. P. 61.

7. Bengio Y. Foundations and Trends in Machine Learning. 2009. vol. 2. № 1. pp. 1-127.

8. Sholle F. Glubokoe obuchenie na Python. [Deep Learning in Python]. SPb: Piter, 2018. 400 p.

9. LeCun Y., Bengio Y., Hinton G. Nature. 2015. № 521. pp. 436-444.

10. Yamashkin S. A., Yamashkina E. O., Nikulin V. V. Vestnik Astrahanskogo gosudarstvennogo tehnicheskogo universiteta. Serija: Upravlenie, vychislitel'naja tehnika i informatika. 2022. № 4. pp. 78-87.

i Надоели баннеры? Вы всегда можете отключить рекламу.