Научная статья на тему 'Свёрточные нейронные сети и двоичные отпечатки как инструмент для распознавания природы сейсмических событий'

Свёрточные нейронные сети и двоичные отпечатки как инструмент для распознавания природы сейсмических событий Текст научной статьи по специальности «Математика»

6
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
вейвлет-преобразование / двоичные отпечатки / землетрясение / взрыв / природа сейсмического события / свёрточные искусственные нейронные сети / глубокое обучение / классификация / система Trova / численное моделирование / Wavelet transform / binary fingerprints / earthquake / explosion / nature of seismic event / convolutional artificial neural networks / deep learning / classification / Trova software / numerical modeling

Аннотация научной статьи по математике, автор научной работы — Силкин Константин Юрьевич

В представленной статье по результатам многочисленных опытов убедительно продемонстрированы два факта. Во-первых, несмотря на лаконичность, двоичные отпечатки являются достаточно информативными представлениями записей сигналов, чтобы нести в себе сведения о природе зарегистрированного сейсмического события. Во-вторых, показано, что практически возможно сконструировать и обучить искусственную нейронную сеть, способную с высокой точностью классифицировать события по происхождению на основании их двоичных отпечатков. Двоичные отпечатки – это на несколько порядков сжатое изображение исходной сейсмограммы, получаемое с помощью одномерного вейвлет-преобразования и двумерного преобразования Хаара. Они несут в себе информацию обо всех существенных частотно-временных феноменах, содержащихся в первичной записи. В качестве базового класса нейросетевого классификатора на основании проведённого обзора публикаций по теме были выбраны свёрточные нейронные сети. Они прекрасно зарекомендовали себя при распознавании объектов и персон на растровых изображениях. А двоичные отпечатки, использованные в данном исследовании, – это бинарные изображения размером 64×64 пикселя. Свёрточная нейронная сеть, подготовленная для работы с ними, имеет одну из самых простых для данного вида сетей архитектур и очень скромное число настраиваемых параметров. Благодаря ей легко была достигнута точность классификации 95%. Для доказательства того, что данный итог не случаен, продемонстрирована стратегия моделирования архитектуры свёрточных нейросетей с помощью специально разработанного программного обеспечения – системы Trova. С помощью этой системы можно легко и удобно оперировать сейсмограммами, получать из них двоичные отпечатки, корректно аугментировать данные, создавать, обучать и тестировать нейросети. Сильной стороной системы Trova является развитый функционал графического представления многомерных результатов моделирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Силкин Константин Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Convolutional neural networks and seismogram fingerprints as a tool for recognizing the nature of seismic events

In the presented article, two facts are convincingly demonstrated based on the results of numerous experiments. Firstly, fingerprints are informative enough representations of signal seismograms, despite their compression, to carry information about the nature of a seismic event. Secondly, the study showed that it is practically possible to design and train an artificial neural network capable of classifying events by origin based on their fingerprints with high accuracy. Fingerprints are a ten-thousand-fold compressed representation of the original seismogram obtained using the one-dimensional wavelet transform and the two-dimensional Haar wavelet transform. They carry information about all significant frequency-time phenomena contained in the primary seismogram. Convolutional neural networks were chosen as a class of neural network classifier based on the conducted review of publications on this topic. They have proven themselves to be excellent in recognizing objects and persons in raster images. And the fingerprints used in this study are binary images measuring 64×64 pixels. The convolutional neural network prepared to work with them has one of the simplest architectures for this type of network and a very small number of adjustable parameters. By means of it, the classification accuracy of 95% was easily achieved. To prove that this result is not accidental, a strategy for modeling the architecture of convolutional neural networks using specially developed software, the Trova system, is demonstrated. This software allows the researcher to easily and conveniently operate seismograms, obtain binary fingerprints from them, correctly augment data, create, train and test neural networks. An important feature of the Trova system is the advanced functionality of the graphical representation of multidimensional modeling results.

Текст научной работы на тему «Свёрточные нейронные сети и двоичные отпечатки как инструмент для распознавания природы сейсмических событий»

Российский сейсмологический журнал 2024. Т. 6, № 3. С. 77-92. https://doi.Org/10.35540/2686-7907.2024.3.05. EDN: YWAPCJ

УДК 550.(34.(012:062):344.2)

Свёрточные нейронные сети и двоичные отпечатки как инструмент для распознавания природы сейсмических событий

© 2024 г. К.Ю. Силкин

ФИЦ ЕГС РАН, г. Обнинск, Россия Поступила в редакцию 31.07.2024 г

Аннотация. В представленной статье по результатам многочисленных опытов убедительно продемонстрированы два факта. Во-первых, несмотря на лаконичность, двоичные отпечатки являются достаточно информативными представлениями записей сигналов, чтобы нести в себе сведения о природе зарегистрированного сейсмического события. Во-вторых, показано, что практически возможно сконструировать и обучить искусственную нейронную сеть, способную с высокой точностью классифицировать события по происхождению на основании их двоичных отпечатков. Двоичные отпечатки — это на несколько порядков сжатое изображение исходной сейсмограммы, получаемое с помощью одномерного вейвлет-преобразования и двумерного преобразования Хаара. Они несут в себе информацию обо всех существенных частотно-временных феноменах, содержащихся в первичной записи. В качестве базового класса нейросетевого классификатора на основании проведённого обзора публикаций по теме были выбраны свёрточные нейронные сети. Они прекрасно зарекомендовали себя при распознавании объектов и персон на растровых изображениях. А двоичные отпечатки, использованные в данном исследовании, — это бинарные изображения размером 64x64 пикселя. Свёрточная нейронная сеть, подготовленная для работы с ними, имеет одну из самых простых для данного вида сетей архитектур и очень скромное число настраиваемых параметров. Благодаря ей легко была достигнута точность классификации 95%. Для доказательства того, что данный итог не случаен, продемонстрирована стратегия моделирования архитектуры свёрточных нейросетей с помощью специально разработанного программного обеспечения — системы Trova. С помощью этой системы можно легко и удобно оперировать сейсмограммами, получать из них двоичные отпечатки, корректно аугментировать данные, создавать, обучать и тестировать нейросети. Сильной стороной системы Trova является развитый функционал графического представления многомерных результатов моделирования.

Ключевые слова: вейвлет-преобразование, двоичные отпечатки, землетрясение, взрыв, природа сейсмического события, свёрточные искусственные нейронные сети, глубокое обучение, классификация, система Trova, численное моделирование.

Для цитирования: Силкин К.Ю. Свёрточные нейронные сети и двоичные отпечатки как инструмент для распознавания природы сейсмических событий // Российский сейсмологический журнал. - 2024. - Т. 6, № 3. - С. 77-92. - DOI: https://doi.Org/10.35540/2686-7907.2024.3.05. - EDN: YWAPCJ

Введение

Применение искусственных нейронных сетей (ИНС) для классификации сложно формализуемых феноменов является распространённой практикой в настоящее время. Сейсмология не отстаёт от этой общенаучной тенденции. Одним из перспективных направлений при этом является проблема отнесения зарегистрированного сейсмического события по его сейсмограмме (или её трансформанте) к той или иной (хотя бы

одной из двух) несложно вербализуемой категории, например, «землетрясение / шум» или «землетрясение / взрыв». Возможны и более сложные схемы классификации, например, с одновременным разделением на подземные и поверхностные взрывы или с попутным определением тектонических условий очага события и т.п.

В то же время развитие теории и методов машинного обучения предоставляет исследователям немало многообещающих наработок. Одним из таких нейроинформационных

направлений стало применение глубоких нейронных сетей.

Существует уже большой ассортимент архитектур таких ИНС, ориентированных на ту или иную предметную область, предназначенных для решения специфических задач. Если выбирать их для нужд классификации природы сейсмического события, то даже в этом случае можно остановить внимание на нескольких вариантах: многослойный персептрон с числом скрытых слоёв более двух, самоассоциирующие сети (автоэнко-деры), свёрточные нейронные сети (СНС) и др.

Применительно к этим тенденциям автором данной работы заранее были выполнены исследования, которые позволили выработать «интеллектуальный» (ещё один в дополнение к существующим) подход к оформлению исходных данных. Сделано предложение вместо непосредственной подачи избыточных сырых записей сигналов на вход нейросети готовить их сжатое трансформированное представление. В качестве такого представления выбраны, обоснованы и проверены двоичные отпечатки (ДО) сейсмограмм.

Цель данной статьи можно сформулировать как обоснование практической возможности использования ДО для распознавания по ним природы сейсмического события с помощью нейросетевого классификатора.

К задачам исследования следует отнести: создание, обучение и тестирование такой ИНС, принимающей на входе двоичные отпечатки, которая бы в поставленной цели достигала высокого уровня качества распознавания на валида-ционном наборе данных.

Если учесть, что ДО являются двумерным изображением, то выбор перспективного вида нейросетей становится несложным. Свёрточ-ные нейросети, основанные на имитации работы зрительной коры головного мозга позвоночных (и человека, конечно) являются тем направлением, которое ждёт ещё своей полноценной реализации и развития в сейсмологии.

Тем не менее, прежде чем браться за этот вид ИНС, дань уважения была отдана многослойному персептрону. Проведены длительные эксперименты, в ходе которых выявились принципиальные ограничения классических полносвязных многослойных сетей при решении поставленной задачи. Слишком большое число параметров (неизвестных априори, искомых в ходе обучения) требует неоправданных расходов на разметку данных и обучение сети. При разумных ограничениях времени для того и другого качество даже бинарной (землетрясение / взрыв) класси-

фикации на уровне чуть лучше, чем от подбрасывания монетки, не вселяло оптимизма.

Поэтому дальнейшая работа была продолжена с помощью СНС. Возможности сетей такого вида описаны в многочисленных публикациях, обзор которых будет дан ниже. Однако, как всегда это бывает, продолжением достоинств чего-то непременно являются его же недостатки. Так и в случае свёрточных нейросетей. Свёрточные нейронные сети, в отличие от многослойных персептронов, имеют значительно меньший объём параметров, настраиваемых в ходе обучения, однако для предопределения их архитектурных параметров требуется гораздо больше априорных сведений. Причём, так как универсальной теории на этот счёт ещё не разработано, существует только два источника знаний для выбора подходящей архитектуры сети и её параметров: метод аналогий по литературным источникам и компьютерное численное моделирование.

Разумеется, лучшим выбором была бы комбинация этих методов.

С одной стороны, ДО — это квадратное одно-канальное бинарное изображение небольшого размера (например, 64x64 пикселя) с созвездием прихотливо разбросанных на пустом пространстве редких точек. Поэтому слишком сложные (мощностью до 100 слоёв, как это иногда бывает) глубокие нейросети явно не потребуются.

С другой стороны, подавляющее большинство примеров по опыту применения СНС касается классификации совсем не таких изображений, как двоичные отпечатки. Обычно анализируются картинки с определёнными сигнатурами в виде разноориентированных отрезков линий, дуг и всевозможных их сочетаний. Всё вместе это составляет, например, изображения букв, цифр или образы реальных объектов (дорожных знаков, автомобилей, человеческих лиц и т.п.), а также графиков сейсмограмм или спектров сигналов.

Как поведут себя свёрточные сети с ДО, изначально было не совсем ясно, однако поиск подходящей архитектуры сети был начат с компактного варианта при числе слоёв чуть более 10. Однако к архитектурным параметрам СНС относится масса преднастроек почти всех её слоёв. Чтобы найти (или подтвердить) оптимальное их сочетание, было проведено полномасштабное моделирование.

Для этой цели специально разработано программное обеспечение — система Trova. Более детально оно будет описано ниже. Главное предназначение этой системы — моделирование путём перебора различных комбинаций параметров

слоёв нейросети с наглядной визуализацией качества и стабильности работы сетей, созданных и обученных при этом.

Итог проделанной работы — разработка свёр-точной нейронной сети, которая обеспечивает качество классификации природы сейсмического события по двоичным отпечаткам его сейсмограммы на уровне 95% (на независимых от процесса обучения данных). Обучение такой сети не занимает более пары минут (при наличии графического ускорителя), а реальная работа происходит практически мгновенно.

Обзор изученности проблемы

В статье [Силкин, 2023] большой обзорный раздел с многообразными примерами был подготовлен для того, чтобы нарисовать современную картину применения ИНС в сейсмологии. Там не было акцента именно на свёрточных сетях, но давался общий анализ данной тематики в контексте типа и объёма первичных данных, подаваемых нейросетям на вход. Было убедительно показано, что современная «нейросейсмология» развивается по двум направлениям, расхождение между которыми постоянно усугубляется с годами.

С одной стороны, растёт интерес аппаратно вооружённых исследователей к упрощению своей работы за счёт отказа от первичной обработки сейсмологических данных и загрузки их как есть (или почти как есть) в сверхбольшие нейронные сети (тип данных «массивы» — простые и избыточные).

С другой стороны, идёт не менее значительный ретроградный (в смысле аппаратных требований) процесс развития изощрённых методов формирования сверхкомпактных представлений сейсмологических данных, работать с которыми возможно и при помощи старых компьютеров конца XX в. (тип данных «параметры» — сильно трансформированные и лаконичные).

Бум 2020 года

Если вновь обратиться к сопроводительным материалам [Mousavi, Вего1а, 2022а] для большой обзорной статьи [Mousavi, Вего1а, 2022Ь], то можно наблюдать, как в мировой сейсмологии последних лет развивался интерес к свёрточным нейронным сетям. Число соответствующих научных публикаций показано на рис. 1.

Следует уточнить, что авторы, чьи данные здесь приводятся, сами ссылаются лишь на англоязычные, чаще американские публикации. Однако это не мешает проследить общие тенденции. Поскольку указанная статья вышла в 2022 г., то за этот год её сведения очевидно

страдают неполнотой, а за следующие года — вообще отсутствуют. Поэтому график был здесь дополнен соответствующими ссылками из научной соцсети ResearchGate (www.researchgate.net), в которой, кстати, представлена (самими её авторами) и статья [Mousavi, Вего1а, 2022Ь].

80

>5 70

Я ьи

5 50

Ю >> 40

С

о 30

с

и 5 20

Т

10

0

2017 2018 2019 2020 2021 2022 2023 2024 ■ [Мойвам, Вегога, 2022Ь] □www.researchgate.net

Рис. 1. Частота упоминания свёрточных нейронных сетей в научных публикациях по сейсмологии.

По данным из \Mousavi, Вгтота, 2022а] и сайта научной соцсети ResearchGate

По рисунку можно видеть, что экспоненциальный рост заявленных применений СНС в сейсмологии начался в 2017 году. Однако, достигнув пика всего через три года, он почти также быстро пошёл на спад. Правомерно предположить, что ажиотаж 2020 г. в связи со свёр-точными нейросетями был своеобразной данью моде на эту новую нейроинформационную методику. Затем, судя по всему, исследователи натолкнулись на очевидную непрактичность применения свёрточных нейросетей к сейсмограммам, спектрограммам и другим избыточным изображениям, вследствие чего многие из них потеряли интерес к этому занятию.

В терминологии статьи [Силкин, 2023] до СНС уже дошла очередь работать в сейсмологии с «массивами», но ещё не наступил черёд работать с «параметрами».

В качестве основополагающих публикаций, на основании которых делались собственные намётки архитектуры первого приближения, создаваемых в данном исследовании нейросетей, следует упомянуть разобранные на цитаты статью [Szegedy а1, 2015] и книгу [Aggarwal, 2018] (десятки тысяч упоминаний). Массивный корпус материалов, посвящённых применению СНС для распознавания графических образов как таковых, приводить здесь нет необходимости. Следует упомянуть только характерные примеры публикаций, касающихся использования свёрточных нейросетей непосредственно в сейсмологии.

При этом уместно заметить, что область интереса сейсмологов в основном распадается на два чётких направления: детектирование землетрясения и распознавание природы события.

Первое из них не соответствует теме данной статьи, однако в определённой мере эти две задачи решаются довольно схожим образом, т.к. детектирование события фактически отвечает на вопрос: «Сейчас в записи событие или шум?» [Perol et al., 2017]. Иными словами, и в этом случае производится своего рода классификация на две сильно неравных по представительности группы (землетрясений мало, шума много).

Детектирование событий

Рассмотрим сначала проблему детектирования землетрясений с помощью специально созданных свёрточных нейросетей.

Статья [Ульянов и др., 2021] посвящена выявлению события на сейсмограмме в каком-то произвольном её интервале. В качестве исходных данных используются непосредственно сами трёхкомпонентные записи в виде 15-секунд-ных фрагментов. Архитектура СНС представлена пятикратным повторением разнонастроен-ных свёрточных циклов. Каждый цикл состоит из собственно свёрточного слоя, слоя пакетной нормализации и слоя дропаута. В конце стоит один полносвязный слой. Постулируется верное обнаружение землетрясения на всех протестированных сейсмограммах.

Примерно так же поступают и исследователи из Венесуэлы [Tous et al., 2020]. Однако временные окна они используют 10-секундные, и, кроме того, в структуре свёрточной сети содержится на один меньше свёрточных циклов. Их четыре, и в состав каждого входят слои: свёрточ-ный и максимального пулинга. Замыкают архитектуру три последовательных полносвязных слоя, что существенно увеличивает мощность сети и трудоёмкость её обучения по сравнению с аналогами. Однако задача, которую авторы себе ставят, значительно масштабнее, т.к. кроме собственно обнаружения землетрясения, они рассчитывают сразу определить и в каком тектоническом районе страны очаг образовался. Сообщается о качестве детектирования около 95%.

Подобный подход повторяется и в других статьях, например, [Shen H., Shen Y., 2021]. Отличие — только в длине временного окна (50 с) и архитектуре сети (число свёрточных циклов ещё меньше — три, полносвязных слоёв в конце тоже меньше — два). Однако качество детектирования выше — около 99%. Возможно, потому, что тектонические условия в очаге одновременно с выявлением события авторов не интересуют.

Распознавание событий

Вторая проблема — распознавание природы события — решается, как правило, уже не по трёхкомпонентной сейсмограмме непосредственно, а на основании её спектрограммы или иного двумерного изображения.

Например, статья [Hakim et al., 2023] представляет, как спектрограмма рассчитывается таким образом, чтобы шкала частот (в логарифмическом масштабе) составила 77 дискретов, и отрезок записи с событием был оцифрован по времени таким же числом отсчётов. Значения амплитуд при этом отображаются однока-нальным серым цветом с глубиной 256 градаций. Параллельно три одинаковые свёрточные сети функционируют для каждой компоненты записи. Все они состоят из трёх свёрточных циклов слоёв (свёрточный слой, слой пулинга и слой дропаута). Результат каждой сети формально состыковывается друг с другом в длинный ряд, после чего идут два общих последовательных полносвязных слоя. Заявляется о качестве распознавания 99%.

Оригинальный подход был применён в работе [Ren et al., 2022], где в качестве входа для СНС используется растровое изображение графика сейсмограммы, а не исходный числовой ряд отсчётов, полученных с сейсмоприём-ника. Иными словами, авторы словено сканируют бумажную сейсмограмму с разрешением 244x244 пикселя. Использованная в исследовании свёрточная сеть имеет довольно длинную архитектурную модель. В ней пять свёрточных циклов (сам свёрточный слой и слой пулинга в каждом цикле), после которых идут два полносвязных слоя. Постулируется качество распознавания около 99%.

Ещё дальше пошли в этом направлении авторы статьи [Ertuncay et al., 2024]. Они берут картинки не только волновых форм, но и их Фурье-спектров. Изображения разного вида подаются на две параллельные СНС. Волновые формы анализирует четырёхцикловая сеть, а спектр — двухцикловая (очевидно, спектр классифицируется проще). Затем ответы этих сетей состыковываются и далее последовательно пропускаются через три полносвязных слоя. Качество распознавания землетрясений и взрывов — около 99%.

Подытоживая этот краткий обзор, можно заметить, что архитектура свёрточных сетей во всех процитированных статьях отмечается заметной индивидуальностью. Причём в описанных примерах указывались для краткости обзора только размеры входов и основная модель архитектуры сети. Однако множество других параметров

остались без внимания, хотя они имеют разные значения, что не объясняется авторами работ. Некоторые из таких параметров:

— страйд свёртки, пулинга и пакетной нормализации;

— размер и число ядер в свёрточных слоях;

— размер окон пулинга и нормализации;

— величина вероятности дропаута;

— функции активации в свёрточных и полносвязных слоях и т.п.

Описанные выше факты создают ощущение, что подобные исследования имеют вид определённого рода искусства. Интересно, что в некоторых упомянутых и других публикациях даже встречается слово «art». Поскольку одним из главных свойств науки является независимая повторяемость результатов, то рассматривать процитированные сообщения как искусство вполне допустимо. Ведь не зная, почему именно так были установлены все многочисленные параметры нейросетей, повторить достигнутый результат, тем более настолько близкий к 100% (а иногда и все 100%!), на данных из другого региона независимому исследователю вряд ли получится. Разумеется, во всех остальных аспектах, кроме настройки СНС, отмеченные статьи вполне научны.

Можно предположить, что наметившийся в последние годы сильный спад интереса к свёрточным нейросетям в сейсмологии определённым образом был предопределён заметной субъективностью в использовании такого рода информационных технологий, как это было

показано в обзоре. Другая причина охлаждения к СНС, которая обнаружилась в данной работе ранее другим способом, — преобладание желания исследователей «зарядить» в нейросеть первичные данные практически в исходном варианте, без какой-либо заметной интеллектуальной подготовки.

Данные и методы

Для обучения нейросетей в данной работе использовались параметры двоичных отпечатков, рассчитанных по 716 записям региональных землетрясений и взрывов. Предварительно 10% из них были случайным образом отобраны и отложены для валидации ИНС. Сами данные неоднократно описывались в предшествующих статьях [Силкин, 2022; Silkin, 2023]. Методика получения ДО, а также практика их применения с примерами ранее также были подробно описаны там же.

В общих чертах, двоичные отпечатки — это сверхкомпактные образы сейсмограмм (сжатие 104х), сохраняющие существенный частотно-временной состав волнового пакета записи, достаточный для решения разных задач, в т.ч. и распознавания природы сейсмического события. На рис. 2 приведены типичные образцы ДО событий разного происхождения.

Именно такие изображения и подавались разрабатываемым свёрточным нейросетям. Задача, которая ставилась для них, — верно определить природу сейсмического события: землетрясение,

Рис. 2. Примеры двоичных отпечатков записей нескольких землетрясений (верхний ряд), карьерных взрывов (средний ряд) и шахтных взрывов (нижний ряд).

На изображениях чёрный цвет символизирует значение 0, белый — 1. По осям откладываются индексы преобразования Хаара, ассоциированные со значениями времени (по горизонтали) и частоты в логарифмическом масштабе (по вертикали)

поверхностный или подземный взрыв. В понятие «верно» для начала вкладывается уровень 95% удачных классификаций - не самый высокий из примеров литературного обзора, но и не хуже всех.

Обучение, тестирование и валидация выполнялись традиционным для данного вида ИНС образом. Можно отослать читателя к любой процитированной выше работе, чтобы не увеличивать объём данной статьи.

Проведённый обзор публикаций по теме изначально привёл нас к пониманию, что из двух источников сведений об архитектуре и настройках свёрточной нейросети (опубликованный опыт и собственное моделирование) первый может быть использован только в начале работы. Чтобы сделать собственные исследования более научными и точными, обращая особое внимание на настройки разнообразных слоёв сети, была разработана система Trova (от ит. "chi cerca trova" - «кто ищет, тот найдёт») - ассистент для нейро-архитектурного моделирования.

Система Trova способна решать следующие задачи:

1. Ведение собственного хранилища записей сейсмических сигналов, а также базы данных, содержащей сведения о произошедших событиях, которые присутствуют на сейсмограммах, и о параметрах, выявленных при анализе этих записей.

2. Вычисление компактного представления каждой сейсмической записи - двоичных отпечатков по заданным пользователем параметрам этих отпечатков. В хранилище в виде бинарных изображений также сохраняются и рассчитанные ДО, чтобы при последующем использовании в качестве данных для обучения ИНС их не приходилось рассчитывать заново.

3. Аугментация данных за счёт фильтрации исходных сейсмограмм от низкочастотного шума с помощью двоичных отпечатков, как это было показано в статье [Silkin, 2024], не только с оптимальной граничной частотой, но и с четырьмя несколько смещёнными вверх и вниз границами. При этом происходит не только корректное «размножение» данных в 5 раз, но и ознакомление обучаемой нейросети с реально возникающими на практике случаями неидеальной фильтрации.

4. Ведение справочников доступных параметров сетей, на основании которых они могут быть сконструированы или впоследствии изменены. Справочники определяют: а) типы ИНС; б) модель их архитектуры, соответствующей выбранному типу; в) доступные параметры,

уточняющие строение каждого элемента архитектуры.

5. Создание нейросетей (и сохранение их в базе данных), построенных на основании желаемой модели с типовыми параметрами архитектуры, которые впоследствии будут использованы как основа для экспериментирования.

6. Разработка и сохранение плана эксперимента (над ранее созданной сетью) с помощью задания возможных значений архитектурных параметров ИНС. Для перечисляемых параметров это - ограниченный список, для числовых - минимальное и максимальное значение, а также шаг между ними. Некоторые параметры в эксперименте могут быть и фиксированными, чтобы отличаться от значения по умолчанию.

7. Реализация плана эксперимента по поиску оптимального сочетания архитектурных параметров ИНС с помощью перебора всех возможных комбинаций из тех параметров, которые имеют более одного возможного значения в данном эксперименте. Для каждого опыта (каждого сочетания параметров) производится создание, обучение и тестирование сети. Целевых функций оптимизации две: а) качество решения задачи распознавания (которое должно быть максимальным) и б) градиент функции ошибки (который должен быть минимальным).

8. Расчёт и сохранение матриц ошибок классификации по каждому опыту для последующего анализа причин получившегося итогового уровня качества. Именно эта метрика использовалась в связи с тем, что классификация не является бинарной.

9. Визуализация зависимости целевых функций от значений изменяемых в эксперименте параметров (доступна визуализация до четырёх переменных сразу).

10. Сохранение результатов эксперимента в табличном виде для последующего пользовательского анализа.

Фактически система Trova - это платформа, на основании которой с минимальными дополнениями может быть реализована работа с любыми классами ИНС, если возникнет в них необходимость. Например, первым делом в системе был реализован многослойный персептрон, а лишь потом - свёрточные нейронные сети.

Система Trova написана на языке Matlab, может исполняться в среде пакета Matlab, а также и без него, если имеются хотя бы библиотеки времени исполнения этого пакета. Без существенных модификаций система Trova может быть выполнена в среде российской облачной платформы для разработки сложных алгоритмов

Engee (https://start.engee.com), а также в свободной программной системе для математических вычислений GNU Octave (https://octave.org/), так как они поддерживают язык скриптов Matlab (или очень близкий к нему), а также имеют развитый функционал ИНС.

Демонстрация системы Trova

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пример визуализации трёхмерной функции качества классификации — результата эксперимента по моделированию создания, обучения и валидации свёрточных нейронных сетей в зависимости от значений трёх различных архитектурных параметров — показан на рис. 3.

По рис. 3 видно, что близкие к единице значения (почти стопроцентное качество классификации) наблюдаются при определённых сочетаниях значений моделируемых параметров преимущественно в левой нижней стороне куба, а также и в других его местах.

Подобный результат был получен в процессе длительного (несколько часов при наличии графического ускорителя) выполнения эксперимента по моделированию свёрточных нейро-

сетей с разнообразными сочетаниями значений параметров архитектуры сети.

Алгоритм работы следующий. Исходя из априорных соображений и опираясь на аналоги из стороннего опыта, экспериментатор задаёт пределы и шаг изменения подбираемых параметров. Система Trova сама создаёт, обучает и проверяет нейросети, определяя таким образом качество классификации сейсмических событий, соответствующее всем возможным сочетаниям параметров, чтобы потом обоснованно выбрать наилучшее.

Трёхмерные графики не всегда удобны, поэтому система Trova может показать достигнутые результаты эксперимента и в другой проекции. Например, как одномерный набор из нескольких двумерных изображений (рис. 4).

По рис. 4 может быть более ясным, какие сочетания параметров нейросетей ведут к созданию наилучшей из них. Но если и такой вид непонятен, то есть возможность показать результаты совсем просто — как двумерный набор одномерных графиков (рис. 5).

Рис. 3. Окно «Результаты эксперимента» системы Trova, демонстрирующее трёхмерный график функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей.

Цветовая шкала справа соответствует значениям функции качества Q (в долях 1). Обозначения переменных (описание приведено в таблице): А^ — convolutюn2dLayer_2_fflterSize, А^2 — convolution2dLayer_2_numFilters, — averagePooling2dLayer_6_poolSize

Рис. 4. Окно «Результаты эксперимента» системы Trova демонстрирует одномерный набор двумерных графиков функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей.

По горизонтальным осям графиков отложены значения переменных параметров 1 и 2, а в заголовке графиков — соответствующие значения переменного параметра 3. Вертикальная ось показывает значения функции качества Q (в долях 1). Обозначения переменных соответствуют рис. 3

Arg¡=l, Arg2=8 Arg,=l,Arg2=16 Arg-^l, Argj=\(¡ Arg¡= 1, Arg2=32 Arg~l, Arg2=40 Arg^l,Arg2^48 Arg^l,Arg^5 6 Arg~\,Arg2=64

0.8 «0.6 0.4

0.8 «0.6 0.4

0.8 «0.6 0.4

0.8 ®»0.6 0.4

0.8 «0.6 0.4

0.8 «0.6 0.4

Arg,=2, Arg2=8 Arg,=2,Arg2=16 Arg,=2, Arg2= 16 Arg,=2, Arg2=32 Arg,=2, Arg2=40 Arg,=2,Arg2=48 Arg,=2, Arg2=56 Arg,=2, Arg2=64

Afg,=2,Arg2=8

Arg,=3,Arg2=8

Arg,=2, А ^2=32

Argf= 3, Arg2=32

___ч /

/

Arg,=3,Arg2=8 Arg,=3,Arg2=16 Argf= 3, Arg2= 16 Arg,=3, Arg2=32 Arg,=3, Arg2=40 Arg,=3,Arg2=48 Arg,=3,Arg2=56 Arg,=2, Arg2=64

Ar ?,=-2, Arg2=48

Arg,=3, Arg2=48

\ r

XI

Ar g,=2,A ^2=56

Ar ?i=3 ,A $ и oí

—\

\ / \

i Д/ \

Arg,=4, Arg2=8 Argt=4,Arg2=16 Argt=4, Arg2= 16 Argt=4, Arg2=32 Arg¡=4, Arg2=40 Arg¡=4, Arg2=48 Argt=4, Arg2=56 Arg~4, Arg2=64

Arg,=5, Arg2=8 Arg,=5, Arg2=l6 Arg,=5, Arg2=16 Arg,=5, Arg2=32 Arg1=5,Arg2=40 Arg¡=5,Arg2=4& Arg,=5, Arg2=56 Arg,=5, Arg2=64

Arg,=6, Arg2=8 Arg,=6, Arg2= 16 Arg{= 6, Arg2=\6 Arg,=6, Arg2=32 Arg,=6, Arg2=40 Arg¡=6, Arg2=48 Arg,=6, Arg2=56 Arg,=6, Arg2=64

0.8 «0.6 0.4

Ar g,=6, A ^=32

—— Л

V /

Arg = l, Arg2=32

V / \!

^=8, A \y %=32

V/ \

1ПИ

Arg,=l,Arg2=8 Arg,=l,Arg2=\b Arg,=7, Arg2= 16 Л>&=32 Л>&=40 /¿>g,=7, Л>&=48 Л?&=56 ^=7,^=64

Arg,=8,Arg2=8 Arg,=8,Arg2=16 Argl=8,Arg2=16 Arg,=8, Arg2=32 Arg^S, Arg2=40 Arg,=8,Arg2=48 Arg,=8,Arg2=56 Arg,=8,Arg2=64

^ГУ LZIJ

2 4 6 2 4 6 2 4

Arg, Arg, Argз

2 4 6 2 4 6 2 4

Arg, Argз

Рис. 5. Двумерный набор одномерных графиков функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей.

По горизонтальной оси графиков отложены значения переменного параметра 3, а в заголовке графиков — соответствующие значения переменных параметров 1 и 2. Вертикальная ось показывает значения функции качества Q (в долях 1). Обозначения переменных соответствуют рис. 3

Здесь хорошо можно рассмотреть, что кроме ранее отмеченного сочетания переменных параметров (смысл обозначений виден из рисунков выше) Arg=2 и Arg2=64, стабильно высокий результат наблюдается также при Arg1=2 и Arg2=8. В обоих случаях переменная Arg3 влияет слабо, что, однако, не так при других сочетаниях этих параметров.

Показанные примеры составляют лишь малую часть возможностей по визуализации результатов моделирования. Более того, кроме собственно функции качества всех созданных нейросетей, система Trova может продемонстрировать и значения градиента этой функции, что позволит выбрать самую оптимальную конфигурацию сети, характеризующуюся не только высоким качеством, но и стабильностью решения (достигается при минимуме градиента).

Для каждого опыта эксперимента (т.е. каждого сочетания модельных параметров, каждой полученной при них сети, каждого результата их классификации) можно посмотреть матрицу ошибок, наглядно демонстрирующую способность нейросети распознавать сейсмические события по их двоичным отпечаткам. Например, на рис. 6 демонстрируется матрица ошибок лучшего по качеству опыта из эксперимента, который затрагивал оптимизацию только трёх первых из запланированных для моделирования параметров.

По рисунку можно видеть, что все классы без исключения предсказываются с достоверностью более 91%, в то время как некоторые из них достигают даже уровня качества распознавания 98%. В среднем по всем классам эта величина равна 94.8%.

Также пользователь системы Trova всегда может посмотреть графическое представление

архитектуры сети, созданной в рамках любого опыта. При этом на диаграмму будут вынесены значения модельных параметров данного опыта. Пример показан на рис. 7.

Пример архитектурного моделирования свёрточной нейросети

Во избежание субъективности в настройке архитектуры нейросети и для обеспечения прозрачности в выборе параметров слоёв была проведена серия экспериментов по моделированию свёрточных нейросетей.

В качестве входных данных были заготовлены ДО сейсмограмм разного рода сейсмических событий. С помощью аугментации число обучающих примеров было не только увеличено, но и выровнено по представительности каждого класса. Итого на основе 716 исходных записей было собрано 1718 двоичных отпечатков. В том числе: 560 от карьерных взрывов, 571 от шахтных взрывов и 587 от землетрясений.

Размер входов (как и размер ДО) — 64x64 пикселей. Выходы сети должны указывать на вероятность отнесения входа к одному из трёх обозначенных классов.

Анализ литературных источников дал понимание того, что столь сильно сжатое представление сейсмограммы, как ДО, должно быть по силам довольно мелкой и не очень мощной сети. Поэтому в качестве стартового варианта основной модели архитектуры была выбрана двухцикловая свёрточная сеть с одним полносвязным слоем в конце (рис. 6). Каждый цикл состоит из слоёв: свёрточный слой (convolution2dLayer), слой пакетной нормализации (batchNormalizationLayer), выпрямитель (reluLayer), дропаут ^гороиЛауе^, пулинг по среднему (averagePooling2dLayer).

ы 98.1 91.8 94.8 94.8

3 . п 0.00 2.33 32.0 93.2

о 2 0.58 32.6 0.00 98.2

1 30.2 0.58 1.74 92.9

1 2 С 3 и

И

ПК

лн

ИН

н

ИД

лд

эк

дт

нт

Рис. 6. Матрица ошибок для одного из опытов эксперимента (а) и обозначения её структуры (б).

Классы матрицы ошибок: СИ — истинные, СП — предсказанные; номера классов: 1 — взрыв карьерный, 2 — землетрясение, 3 — взрыв шахтный. Обозначения структуры: Н — недостоверный класс; Д — достоверный класс; число результатов классификации: ИН — истинно недостоверных, ЛН — ложно недостоверных, ЛД — ложно достоверных, ИД — истинно достоверных; характеристики классификатора (определения в таблице): С — специфика, Ч — чувствительность, НТ — недостоверная точность, ДТ — достоверная точность, Т — точность прогнозирования

I 1шаде1прииауег (1) I ,-_-,

сотго1иЪ±оп2(Ц|ауег (2)

1Ш:ег31ге=[3] , пшпГ:Шегз=[16] , Б1:г1с1е=[1 1], РасЗсЛпд=[1 1]

ЬаЪсЬНогта11гаЬ1опЪауег (3)

роо131ге= [1 1], 31г1с1е= [1 1]

| ге!иЪауег (4) |

<1хороиЫ|ауег (5)

ргоЬаЫ1л^у= | 0.5]

а?егадеРоо11пд2<Ц|ауег (6)

Б^1с1е= [1 1], роо1Б1ге=[4]

сотго1иЪ1оп2<Ц|ауег (7)

filterSize=[2 2], гштЕ1Д±ег8=[16]

I ЬаЪсЬНоглаИгаиопЪауег (8) I -. * .-

[ ге1иЪауег (9)|

йгороииауег (Ю)

ргоЬаЬл.1л^у= [0.5]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I £и11уСоппесЪе<1Ьауег (11) I I эо£ЬпахЬауег (12) I

. Т ,

| с!азз1АсаЪ1опЬауег (13) |

Рис. 7. Диаграмма архитектуры моделируемой свёрточной нейросети

За полносвязным слоем (fuИyConnectedLayer) следуют ещё слой с логистической многопеременной передаточной функцией (softmaxLayer) и классифицирующий слой (classificatюnLayer). Они нужны только для правильного оформления результатов на выходе.

Разумеется, уже сейчас возник некоторый субъективизм. Почему сеть двухцикловая, а не одно- или трёх-? Потому что меньше двух свёр-точных циклов и меньше одного полносвязного слоя за ними в литературе вообще не встречается. Т.е. такой вариант — это самая простая архитектура из возможных. Вполне вероятно, что получить стопроцентное качество распознавания при таком минималистичном подходе не получится. Но и 95% для начала было бы достаточно.

Моделированию подлежат параметры, которые можно задавать у этих слоёв. У каждого слоя это индивидуально. В таблице ниже показаны слои, параметры и их возможные значения. У остальных слоёв настраиваемых параметров нет.

Поскольку некоторые слои могут повторяться, необходимо отдельно настраивать каждое вхождение слоя в модель.

Стратегию моделирования разумно строить следующим образом:

1. Осуществить рекогносцировочное моделирование. Выбрать для модельных параметров диапазон и шаг возможных значений так, чтобы диапазон был довольно широк (если он не ограничен с обеих сторон), а шаг изменения был довольно велик (если это возможно), чтобы покрыть весь диапазон небольшим числом шагов.

2. Взять несколько модельных параметров для одного эксперимента. Оптимальным вариантом будет отобрать три первых параметра первых слоёв сети (хотя порядок и не имеет значения). Если брать меньше параметров за раз, то будет очень большое число экспериментов. Если брать больше параметров, то столь многомерные результаты моделирования будет трудно визуализировать. Остальные параметры пока установить по рекомендуемым из литературы предпочтениям.

3. Выполнить эксперимент и найти оптимальное решение — опыт с максимумом качества классификации на валидационном наборе данных при минимуме градиента ошибки.

4. Зафиксировать оптимальную комбинацию первых трёх модельных параметров и сформировать новый эксперимент со следующими тремя параметрами следующих слоёв.

Таблица. Общее описание слоёв свёрточной сети и их параметров

Слой Параметр Описание Ограничения значений

convolution2dLayer filterSize Размер ядра свёртки ЦПЧ, меньше размера входа

numFilters Число ядер свёртки ЦПЧ

Stride Шаг между ядрами свёртки ЦПЧ, меньше размера входа

Padding Вынос ядра свёртки ЦПЧ, меньше размера ядра

dropoutLayer probability Вероятность сброса входного элемента ВНОЧ

averagePooling2dLayer poolSize Размер окна понижения размерности ЦПЧ, меньше размера входа

Stride Шаг между окнами ЦПЧ, меньше размера окна

Примечания: ЦПЧ — целое положительное число, ВНОЧ — вещественное неотрицательное число в диапазоне 0—1.

5. Повторять эксперименты до исчерпания модельных параметров.

6. Провести уточняющее моделирование с перебором всех параметров, которые оказывали существенное влияние на функцию качества (характеризовались более высоким градиентом ошибки), вокруг найденных на рекогносцировочном этапе оптимальных значений, но с меньшим шагом (если это возможно).

Исходя из представленной стратегии, над сетью с такой простой архитектурой были созданы и реализованы следующие эксперименты (всего четыре).

Эксперимент 1. Оптимизировались параметры (далее число между именем слоя и именем параметра — номер слоя в модели, значения заданы по схеме [минимум : шаг : максимум]): convolutюn2dLayer_2_fflterSize=[1 : 1 : 8], convolution2dLayer_2_numFilters=[8 : 8 : 64], averagePooling2dLayer_6_poolSize=[1 : 1 : 6]. Все комбинации этих параметров составили 384 опыта. Эксперимент выполнялся на графическом ускорителе 3.5 ч. Достигнут результат 94.8% качества классификации. Результаты графически представлены на рис. 3—5. Оптимальная комбинация параметров (перечисленных выше в данном абзаце, соответственно): 2, 8, 2, хотя аналогичный результат был и у варианта 2, 64, 2. Но выбор был сделан на более лёгкой сети. Кроме того, в первом случае градиент (не показан здесь) был несколько меньше.

Уже после первого эксперимента был получен результат, близкий к желаемому. Очевидно, что за последние проценты придётся побороться.

Эксперимент 2. Оптимизировались параметры: dropoutLayer_5_probabШty=[0.1 : 0.2 : 0.9], dropoutLayer_10_probabШty=[0.1 : 0.2 : 0.9], convolution2dLayer_7_numFilters=[8 : 8 : 64]. Эксперимент из 200 опытов продолжался 2.5 ч,

но улучшения по сравнению с экспериментом 1 не принёс. Результат на уровне эксперимента 1 был повторён при следующем сочетании параметров: 0.3, 0.5, 56. Графическое представление итога — рис. 8.

Эксперимент 3. Оптимизировались параметры: convolution2dLayer_2_Padding=[0 : 1 : 3], convolution2dLayer_7_Padding=[0 : 1 : 3], convolution2dLayer_7_fllterSize=[1 : 1 : 8]. Эксперимент из 128 опытов продолжался 1.5 ч, но улучшения по сравнению с экспериментом 2 также не принёс. Результат на уровне экспериментов 1 и 2 был повторён при следующем сочетании параметров: 1, 2, 5. Графическое представление итога — рис. 9.

Эксперимент 4. Выбраны самые активно влияющие на результат параметры: convolution2dLayer_2_numFilters=[6 : 2 : 10], convolution2dLayer_7_numFilters=[52 : 2 : 58], dropoutLayer_5_probabШty=[0.2 : 0.1 : 0.5]. Значения для переменных выбраны вблизи найденных в рекогносцировочных экспериментах значений, и с меньшим, чем прежде, шагом промоделированы ближайшие к ним окрестности. Эксперимент из 27 опытов продолжался 0.5 ч. Полученный результат не дал повода скорректировать ранее выбранные значения, т.к. улучшения качества классификации достигнуть не удалось. Графическое представление итога — рис. 10.

Результаты и обсуждение

В результате проведённой серии экспериментов было найдено оптимальное сочетание архитектурных параметров свёрточной нейросети, которому не хватило лишь 0.2% до поставленной цели — показателя 95% в качестве распознавания (по валидационному набору данных), — что для первого раза можно считать приемлемым результатом.

0.8 w 0.6

0.4

0.8 ® 0.6 0.4

Arg,=0.\,Arg2=0A Arg}=0.1, Arg2=0.3 А&=0.1, А&=0.5 Arg,=0.\,Arg2=0.7 Arg^.l, Arg2=0.9

0.

0.6

0.4

0.8 O) 0.6

0.4

20 40

Arg;

Г —' - s

/

20 40

Arg,

Arg,=0.3, Arg2=Q.l Arg,=0.3,Arg2=0.3 Argc^.3, Arg2=0.5 Arg,=0.3,Arg2=0.7 Arg^.3, Arg2=0.9

Arg^O.S, Arg2=Q.1 Ag,=0.5,^?g2=0.3 Ag,=0.5, Ag2=0.5 Arg,=0.5,Arg2=0.7 Arg,=0.5, Arg2=0.9

Arg,=0.7, Arg2=Q. 1 Ag,=0.7, Arg2=0.3 Arg,=0.1, Arg2=0.5 A rg,=0.7, Arg2=0.7 Arg^.7, Arg2=0.9

A rg,=0.9, Arg2=0.1 Argt=0.9, Arg2=0.3 Arg,=0.9, Arg2=0.5 Arg,=0.9, Arg^O.l Arg,=0.9, Arg2=0.9

20 40

Arg,

Рис. 8. Двумерный набор одномерных графиков функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей (эксперимент 2).

По горизонтальной оси графиков отложены значения переменного параметра 3, а в заголовке графиков — соответствующие значения переменных параметров 1 и 2. Вертикальная ось показывает значения функции качества Q (в долях 1). Обозначения переменных (описание приведено в таблице): Argx — dropoutLayer_5_ probability; Arg2 — dropoutLayer_10_probability; Arg3 — convolution2dLayer_7_numFilters

Arg,=0,Arg2=0 Arg,=0, Arg2=\ Arg,=0, Arg2=2 Arg,=0, Arg2=3

0.8 О» 0.6 0.4

0.8 О» 0.6 0.4

0.8 О» 0.6 0.4

0.8 О» 0.6 0.4

2 4 6 8

Argj

2 4 I

Arg,

2 4

Arg,

\ Г \

/ \

\

Arg,=l,Arg2=l Arg,=\,Arg2=2 Argi=l,Arg2=3

Arg,=2, Arg2=0 Arg,=2, Arg2=\ Arg,=2, Arg2=2 Arg,=2, Arg2=3

—— ---N

I f

1

Arg,=3, Arg2=0 Arg,=3, Arg2=\ Arg,=3, Arg2=2 Arg,=3, Arg2=3

2 4 6

Arg,

Рис. 9. Двумерный набор одномерных графиков функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей (эксперимент 3).

По горизонтальной оси графиков отложены значения переменного параметра 3, а в заголовке графиков — соответствующие значения переменных параметров 1 и 2. Вертикальная ось показывает значения функции качества Q (в долях 1). Обозначения переменных (описание приведено в таблице): Argl — convolution2dLayer_2_ Padding; Arg2 — convolution2dLayer_7_Padding; Arg3 — convolution2dLayer_7_filterSize

Arg3=54 Arg3=56 Arg3=58

0.30 6 0.30 6 0.30 6

Рис. 10. Одномерный набор двумерных графиков функции качества классификации в зависимости от значений моделируемых параметров свёрточных сетей (эксперимент 4).

Вертикальная ось показывает значения функции качества 0 (в долях 1). Обозначения переменных (описание приведено в таблице): А^ - convolutюn2dLayer_2_numFilters; Аг?2 - convolutюn2dLayer_7_numFilters; Ащъ -ёгароиИауег_5_ргоЬаЫИ1у

Разумеется, на тестовом наборе данных, который предъявлялся сети после каждой эпохи обучения, результат был порой на уровне 99%. Однако опираться на эти сведения не совсем корректно, т.к. в определённой мере ИНС запоминает не только обучающие, но и тестовые данные, поэтому такая оценка становится не вполне объективной.

Моделирование позволило получить убедительное доказательство, что высокий результат, которого удалось достичь, не случаен. Все существенные параметры слоёв сети были проанализированы в широких интервалах с крупным шагом (где это имело смысл), а затем наиболее влияющие из них — дополнительно уточнены с мелким шагом.

Делая заявление об этом результате, можно было бы добавить, что проблема создания СНС для решения любой поставленной задачи устранена, есть инструмент и есть метод для её решения.

К сожалению, это не так. Да, инструмент есть - система Trova, обладающая массой полезных возможностей. Да, метод моделирования архитектуры нейросети со стратегией поиска оптимальной конфигурации тоже разработан.

Однако следует признать, что критика, которую автор позволил себе в адрес процитированных в обзорном разделе работ коллег, обернулась против него самого. Какие бы усилия ни были предприняты для устранения субъективного произвола при настройке создаваемой нейросети, они лишь объективно доказали, что изначально выбранный вариант оказался подходящим. Первый же эксперимент, построенный в логи-

ке опубликованных достижений других исследователей, привёл к максимальному результату, и никакое дальнейшее моделирование остальных параметров архитектуры улучшения уже не принесло. Простой вариант СНС с априорными настройками вдруг сразу оказался удачным. Как это можно объяснить?

Остаётся только допустить, что данное исследование опять продемонстрировало очередное приобщение к искусству в науке.

Автор признателен коллегам, которые, преодолев бум интереса 2020 г. к применению свёрточных нейросетей в сейсмологии, сохранили накопленный конструктивный опыт, который позволил ему в максимально сжатые сроки достигнуть стоявшей перед ним цели.

Выводы

Подводя итоги, можно заметить, что основная цель исследования достигнута. Аккуратный нейросетевой классификатор природы сейсмических событий на основе двоичных отпечатков сейсмограмм успешно построен. Продемонстрировано, что ДО действительно несут в себе всю необходимую информацию для этого, несмотря на чрезвычайно лаконичный вид. Доказано, что не очень глубокая (простая, а не мелкая) свёр-точная нейросеть со скромным суммарным числом настраиваемых параметров способна играть роль такого классификатора.

Последний факт, кстати, будет очень значим в случае применения такой нейросети на маломощных, в том числе и мобильных устройствах. Ведь в случае детектирования события для распознавания его природы потребуется весьма

скромный вычислительный ресурс, а сама ней-росеть имеет небольшой объём.

Дальнейшее исследование будет направлено на повышение качества классификации. Однако оставшиеся 5% в упущенной точности обойдутся дорого. Скорее всего, придётся углублять сеть (увеличивать число свёрточных циклов), а также добавлять больше полносвязных слоёв. Вероятно, потребуется наращивать число ядер в свёрточных слоях. Кроме того, может стать необходимым и увеличение размера самих ДО. Всё это поставит под вопрос эффективное функционирование классификатора на мобильных устройствах, но это уже проблема следующего этапа.

Автор выражает благодарность канд. физ.-мат. наук, вед. науч. сотр. Кольского филиала ФИЦ ЕГС РАН В.Э. Асмингу за любезную помощь в подборе данных.

Работа выполнена при поддержке Минобрнауки России (в рамках государственного задания №9 07500682-24) и с использованием данных, полученных на уникальной научной установке «Сейсмоинфраз-вуковой комплекс мониторинга арктической кри-олитозоны и комплекс непрерывного сейсмического мониторинга Российской Федерации, сопредельных территорий и мира» (https://ckp-rf.ru/ usu/507436/, http://www.gsras.ru/unu/).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Литература

Силкин К.Ю. Двоичные отпечатки результатов вейвлет-анализа записи сейсмического события как инструмент формирования его компактного образа для целей ней-росетевого распознавания // Российский сейсмологический журнал. - 2022. - Т. 4, № 4. - C. 42-55. - DOI: 10.35540/2686-7907.2022.4.03. - EDN: EMMMDC Силкин К.Ю. Нейросетевая экспертная система оценки алгоритма для оптимальной фильтрации низкочастотного шума с помощью двоичных отпечатков // Российский сейсмологический журнал. - 2023. - Т. 5, № 3. -С. 67-82. - DOI: 10.35540/2686-7907.2023.3.05. - EDN: XXYCLA

Ульянов Н.А., Яскевич С.В., Дергач П.А., Яблоков А.В. Детекция записей слабых локальных землетрясений с использованием нейронных сетей // Геофизические технологии. - 2021. - № 2. - С. 13-23. - DOI: 10.18303/2619-1563-2021-2-13. - EDN: YDFWLR Aggarwal Ch.C. Neural networks and deep learning: A Textbook. - Springer Cham, 2018. - 497 p. - DOI: 10.1007/9783-319-94463-0

Ertuncay D., Lorenzo A.D., Costa G. Seismic signal discrimination of earthquakes and quarry blasts in north-east Italy using deep neural networks // Pure and Applied Geophysics. - 2024. - V. 181. - P. 1139-1151. - DOI: 10.1007/s00024-024-03440-0

Hakim A.R., Saputro A.H., Rohadi S., Adi S.P., Karna-wati D. Classification of earthquake observation stations using multiple input convolutional Neural Network method // IOP Conference Series: Earth and Environmental Science. - 2023. - V 1276. - P. 012046 (1-7). - DOI: 10.1088/1755-1315/1276/1/012046

Mousavi S.M., Beroza G.C. A Dataset of published journal papers using neural networks for seismological tasks (Version 101) // Zenodo. - 2022a. - DOI: 10.5281/ zenodo.6386952

Mousavi S.M., Beroza G.C. Deep-learning seismology // Science. - 2022b. - V. 377. - P. eabm4470. - DOI: 10.1126/ science.abm4470

Perol Th., Gharbi M, Denolle M. Convolutional neural network for earthquake detection and location // Science Advances. - 2017. - V. 4, N 2. - P. e1700578. - DOI: 10.1126/sciadv.1700578

Ren J., Zhou Sh., Wan J., Yang Sh., Liu Ch. Research on identification of natural and unnatural earthquake events based on AlexNet convolutional neural network // Wireless Communications and Mobile Computing. - 2022. - N 2. -P. 1-9. - DOI: 10.1155/2022/6782094 Shen H, Shen Y. Array-Based convolutional neural networks for automatic detection and 4D localization of earthquakes in Hawai'i // Seismological Research Letters. - 2021. -V. 92, N 5. - P. 2961-2971. - DOI: 10.1785/0220200419 Silkin K. Yu. Seismogram fingerprints as a tool for automatic filtering of low-frequency noise // Seismic Instruments. -2023. - V 59, N 2. - P. 26-45. - DOI: 10.21455/si2023.2-3 Silkin K.Yu. Automatic removal of low frequency noise from seismograms using the Fingerprinting method: Algorithms, properties, limitations // Journal of Volcanology and Seismology. - 2024. - V. 18, Is. 3. - P. 275-289. - DOI: 10.1134/S0742046324700556

Szegedy C., Wei L., Yangqing J., Sermanet P., Reed S., Angu-elov D., Erhan D., Vanhoucke V., Rabinovich A. Going deeper with convolutions // Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). -Boston, Maryland, USA, 2015. - P. 1-9. - DOI: 10.1109/ CVPR.2015.7298594

Tous R., Alvarado L, Otero B., Cruz L., Rojas O. Deep neural networks for earthquake detection and source region estimation in north-central Venezuela // Bulletin of the Seismological Society of America. - 2020. - V 110, N 5. -P. 2519-2529. - DOI: 10.1785/0120190172

Сведения об авторе

Силкин Константин Юрьевич, канд. геол.-мин. наук, доц., науч. сотр. Федерального государственного бюджетного учреждения науки Федерального исследовательского центра «Единая геофизическая служба Российской академии наук» (ФИЦ ЕГС РАН), г. Обнинск, Россия. E-mail: const.silkin@ya.ru

Convolutional neural networks and seismogram fingerprints as a tool for recognizing the nature of seismic events

© 2024 K.Yu. Silkin

GS RAS, Obninsk, Russia Received July 31, 2024

Abstract In the presented article, two facts are convincingly demonstrated based on the results of numerous experiments. Firstly, fingerprints are informative enough representations of signal seismograms, despite their compression, to carry information about the nature of a seismic event. Secondly, the study showed that it is practically possible to design and train an artificial neural network capable of classifying events by origin based on their fingerprints with high accuracy. Fingerprints are a ten-thousand-fold compressed representation of the original seismogram obtained using the one-dimensional wavelet transform and the two-dimensional Haar wavelet transform. They carry information about all significant frequency-time phenomena contained in the primary seismogram. Convolutional neural networks were chosen as a class of neural network classifier based on the conducted review of publications on this topic. They have proven themselves to be excellent in recognizing objects and persons in raster images. And the fingerprints used in this study are binary images measuring 64 64 pixels. The convolutional neural network prepared to work with them has one of the simplest architectures for this type of network and a very small number of adjustable parameters. By means of it, the classification accuracy of 95% was easily achieved. To prove that this result is not accidental, a strategy for modeling the architecture of convolutional neural networks using specially developed software, the Trova system, is demonstrated. This software allows the researcher to easily and conveniently operate seismograms, obtain binary fingerprints from them, correctly augment data, create, train and test neural networks. An important feature of the Trova system is the advanced functionality of the graphical representation of multidimensional modeling results.

Keywords Wavelet transform, binary fingerprints, earthquake, explosion, nature of seismic event, convolutional artificial neural networks, deep learning, classification, Trova software, numerical modeling.

For citation Silkin, K.Yu. (2024). [Convolutional neural networks and seismogram fingerprints as a tool for recognizing the nature of seismic events]. Rossiiskii seismologicheskii zhurnal [Russian Journal of Seismology], 6(3), 77-92. (In Russ.). DOI: https://doi.org/10.35540/2686-7907.2024.3.05. - EDN: YWAPCJ

References

Aggarwal, Ch. (2018). Neural networks and deep learning. A Textbook. Springer Cham, 497 p. DOI: 10.1007/9783-319-94463-0

Ertuncay, D., Lorenzo, A.D., & Costa, G. (2024). Seismic signal discrimination of earthquakes and quarry blasts in north-east Italy using deep neural networks. Pure and Applied Geophysics, 181, 1139-1151. DOI: 10.1007/s00024- 024- 03440-0

Hakim, A.R., Saputro, A.H., Rohadi, S., Adi, S.P., & Karnawati, D. (2023). Classification of earthquake observation stations using multiple input convolutional Neural Network method. IOP Conference Series: Earth and Environmental Science, 1276, 012046 (1-7). DOI: 10.1088/1755-1315/1276/1/012046

Mousavi, S.M., & Beroza, G.C. (2022a). A Dataset of published journal papers using neural networks for seis-

mological tasks. (Version 101). Zenodo. DOI: 10.5281/ zenodo. 6386952

Mousavi, S.M., & Beroza, G.C. (2022b). Deep-learning seismology. Science, 377, eabm4470. DOI: 10.1126/ science.abm4470

Perol, Th., Gharbi, M., & Denolle, M. (2017). Convolutional neural network for earthquake detection and location. Science Advances, 4(2), e1700578. DOI: 10.1126/sciadv. 1700578

Ren, J., Zhou, Sh., Wan, J., Yang, Sh., Liu, Ch. (2022). Research on identification of natural and unnatural earthquake events based on AlexNet convolutional neural network. Wireless Communications and Mobile Computing, 2, 1-9. DOI: 10.1155/2022/6782094 Shen, H., & Shen, Y (2021). Array-Based convolutional neural networks for automatic detection and 4D localization of earthquakes in Hawai'i. Seismological Research Letters, 92(5), 2961-2971. DOI: 10.1785/0220200419

Silkin, K.Yu. (2022). [Fingerprints of seismogram wavelet analysis results as a tool for creating a compact signal image for the purposes of neural network recognition]. Rossiiskii seismologicheskii zhurnal [Russian Journal of Seismology], 4(4), 42-55. (In Russ.). DOI: 10.35540/2686-7907.2022.4.03. EDN: EMMMDC Silkin, K.Yu. (2023a). [A neural network expert system that allows assessing the quality of the algorithm for choosing the parameters of optimal removal of low-frequency noise from seismograms using the fingerprint method]. Rossiiskii seismologicheskii zhurnal [Russian Journal of Seismology], 5(3), 67-82. (In Russ.). DOI: 10.35540/2686-7907.2023.3.05. EDN: XXYCLA Silkin, K.Yu. (2023b). Seismogram fingerprints as a tool for automatic filtering of low-frequency noise. Seismic Instruments, 59(2), 26-45. DOI: 10.21455/si2023.2-3 Silkin, K.Yu. (2024). Automatic removal of low frequency noise from seismograms using the Fingerprinting method: Algorithms, properties, limitations. Journal of Volcanology and Seismology, 18(3), 275-289. DOI: 10.1134/S0742046324700556

Szegedy, C., Wei, L., Yangqing, J., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (pp. 1-9). Boston, Maryland, USA. DOI: 10.1109/ CVPR.2015.7298594

Ul'ianov, N.A., Iaskevich, S.V., Dergach, P.A., & Iablokov, A.V. (2021). [Detection of records of weak local earthquakes using neural networks]. Geofizicheskie tekhnologii [Geophysical Technologies], 2, 13-23. (In Russ.). DOI: 10.18303/2619-1563-2021-2-13. EDN: YDFWLR

Tous, R., Alvarado, L., Otero, B., Cruz, L., & Rojas, O. (2020). Deep neural networks for earthquake detection and source region estimation in north-central Venezuela. Bulletin of the Seismological Society of America, 110(5), 2519-2529. DOI: 10.1785/0120190172

Information about author

Silkin Konstantin Yurievich, PhD, Associate Professor, Researcher of the Geophysical Survey of the Russian Academy of Sciences (GS RAS), Obninsk, Russia. E-mail: const.silkin@ya.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.