ИСПОЛЬЗОВАНИЕ ОБЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ПОИСКА МЮОННОГО РАСПАДА т ^ 3ц
Махров Станислав Станиславович,
к.т.н., Московский технический университет связи и информатики (МТУСИ), Москва Россия, [email protected]
Ерохин Сергей Дмитриевич,
к.т.н., доцент, декан факультета ИТ, Московский технический университет связи и информатики (МТУСИ), Москва Россия, [email protected]
Ключевые слова: сверточные нейронные сети, распад мюонов, стандартная модель, машинное обучение, большой адронный коллайдер.
Представлено исследование, связанное с поиском мюонного распада Т- ^ Ц+ Ц- Ц среди реальных данных, собранных сенсорами на большом адронном коллайде-ре в результате столкновений физических частиц. Нахождение мюонного распада является одним из множества шагов, которые позволят признать несостоятельность Стандартной модели и приблизиться к формированию новой Теории всего, что является одной из задач исследований, проводимых на большом адронном коллайдере. В данном исследовании для поиска мюонного распада используется инструмент машинного обучения - искусственная сверточная нейронная сеть, позволяющая производить анализ больших объемов данных для нахождения среди них зависимостей. Следовательно, посредством сверточной сети осуществляется определение зависимостей среди многомерных данных, описывающих 855 819 событий-столкновений физических частиц. На выходе нейронной сети, для каждого события столкновения должна быть вычислена вероятность, с которой оно может привести возникновению мюонного распада. Для решения данной задачи, на основе известной архитектуры LeNet-5 синтезирована архитектура нейронной сети, позволяющая выполнить поиск распада Т- Ц- Ц. После запуска нейронной сети получены искомые вероятности, которые также согласуются с данными других исследователей, что указывает на адекватность вычисленных значений. Полученные результаты могут быть использованы для доказательства несостоятельности Стандартной модели, открывая путь для установления новой Теории всего. На основании исследования показана эффективность искусственных сверточных сетей для поиска зависимостей среди данных, описывающих физические частицы. Описанное исследование затрагивает такие области современных технологий как Big Data и Machine Learning.
Для цитирования:
Махров С.С., Ерохин С.Д. Использование сверточных нейронных сетей для поиска мюонного распада Т ^ 3ц // T-Comm: Телекоммуникации и транспорт. - 2015. - Том 9. - №11. - С. 51-56.
For citation:
Mahrov S.S., Erohin S.D. Using convolutional neural networks for finding muon decay Т ^ 3ц. T-Comm. 2015. Vol. 9. No.11, рр. 51-56.
(in Russian).
Каждая карта признаков содержит ядро свертки (kernel) - матрицу размера LlxL2. Вычисление карты признаков осуществляется путем свертки входной матрицы с ядром свертки. Операция свертки выполняется путем движения скользящего окна, размером с ядро свертки по входной матрице. При каждом наложении скользящего окна на рецептивную область входной матрицы, осуществляется произведение их соответствующих значений (рис, 2), затем полученные произведения суммируются. Шаг скольжения как правило выбирают равным единице.
Суть обучения СНС состоит в поиске таких ядер, в результате свертки с каждой из которых, в конечном итоге на выходе сети, классификатор будет выдавать верные значения, соответствующие входным образам.
При этом каждый элемент на карте признаков считается нейроном, а каждый элемент ядра свертки -весом в нотации описания нейронных сетей. Каждый нейрон, как и нейроны в классических сетях, имеет смещение. Одним из важных отличий сверточных нейронных сетей от классических считается наличие общих разделяемых весов - веса одного и того же ядра используются при получении каждого нейрона карты признаков, В LeNet-5 все ядра имеют размер 5x5 [4].
12 30 48 74 63 S4 17
35*0.<i2+21 *0.21 +52*0.01 +3-0.04+89-0.09 +67*0Л 7+79*в. 14+28*0.05+32*0.11+25*0.01 +12*0.14*37*0.12+56*0.02+45*0.01 +23*0.35 +35*0.;!6+24-0.03+7*0.16+67-0.01+26-0.02 +6 7 -0.( '3+3 2 -0..?3+57*0.04+20*0.03+34*0.07
иишшишш эшшишшш
35 21 52 3 И « 48
67 79 28 32 25 56 7S
12 37 56 45 23 35 45
35 24 7 67 Jft 1»
67 32 57 20 34 23 56 Входная матрица
53 23 59 IS 46 1 41 35 21 52 3 89 40 у
12 30 48 74 « 34 17 67 79 28 32 25 Ъ
9 12 37 56 45 45
35 24 7 67 ¿6 19 67
67 32 57 20 34 23 56
53 23 59 IS 46 1 41
12 30 48 74 6в 34 17
S3 2J И 18 46
67 32 57 20 34 23 W 53 23 5» 15 46 1 41
12 30 48 74 « 34 17
35 21 52 3 89 40 48
67 79 28 32 25 56 78
H 45 23 35 45
35 24 '67 26 19 67
67 32 57 20 34 23 56
35 & 52 3 S9 40 4S 53 23 59 18 4« 1 41
67 79 2l 32 25 56 78 12 30 48 74 68 34 17
12 37 56 23 35 45 5
35 24 7 67 26 19 67
67 32 57 20 34 23 56
53 23 59 18 46 i 41
12 30 4® 74 68 34 17
8
Субдискретизированная карта признаков получается в результате уменьшения размерности исходной карты признаков путем разделения исходной матрицы на области и нахождения в каждой из областей среднего арифметического значения, либо максимального значения. В первом случае субдискретизация будет называться БиЬЗатрКпд, во втором - МахРооПпд. Найденные значения будут составлять уменьшенную - субди-скретизированную карту признаков. Так, например, из матрицы размера 4x4 можно получить матрицу размерам 2x2 (рис. 3) [2].
35 40 41 45
<a> 46 42 <«) 46
42 46 50 55 "52 J>8
48 ©Г 56
Рис. 2. Пример операции свертки входной матрицы 7x7 с ядром размера 5x5
Рис. 3. Операция субдискретизации (тип: MaxPooling)
В исходной архитектуре LeNet-5 согласно рис. 1, принята следующая структура сети:
• INPUT: входная матрица размера 1х;
• С1: 6 карт признаков 28x28 (функция активации
- sigmoid(x)) с ядрами 5x5;
• S2: б субдискретизированных (SubSampling) карт признаков 14x14 (функция активации — 1.7159tanh(x));
• СЗ: 16 карт признаков 10x10 (функция активации - sigmoid(x)) с ядрами 5x5;
• S4: 16 субдискретизированных (SubSampling) карт признаков 10x10 (функция активации — 1.7159tanh(x));
• С5: 120 карт признаков 1x1 (функция активации
- sigmoid(x)) с ядрами 5x5;
• F6: 84 нейрона в полносвязном слое (функция активации - RBF);
• OUTPUT: 10 нейронов в выходном полносвязном слое (функция активации - RBF).
Число нейронов в выходном слое, равное 10 связано с тем, что LeNet-5 была ориентирована на решение задачи распознавания рукописных символов от 0 до 9 из библиотеки MNIST [4].
В, Описание архитектуры для решения задачи поиска мюонного распада
В случае задачи поиска распада т —> Зр архитектура была изменена следующим образом:
• INPUT: входная матрица размера 1x46;
• С1: 6 карт признаков 1x42 (функция активации
- ReLU(x)) с ядрами 6x6;
• S2: 6 субдискретизированных (MaxPooling) карт признаков 1x21;
• СЗ: 16 карт признаков 1x16 (функция активации
- ReLU(x)) с ядрами бхб;
• S4: 16 субдискретизированных (MaxPooling) карт признаков 8x8;
• С5: 120 карт признаков 1x1 (функция активации - ReLU(x)) с ядрами 8x8;
• F6: 84 нейрона в полносвязном слое (функция активации - tanh(x));
• OUTPUT: 2 нейрона в выходном полносвязном слое (функция активации - SoftMax(x)).
Размер входной матрицы 1x46 обусловлен тем, что исходные наборы данных, предоставленные Kaggle, содержали описания событий - столкновений частиц, где число параметров каждого события состояло из 46 элементов, таких как: треки переменных изоляции, пеперечные импульсы мюонов, псевдобыстроты мюонов и др.
Каждое событие было промаркировано 2 типами: 0, если событие, априори, не ведет к мюонному распаду; 1 - симулированное событие, которое должно привести к искомому распаду, соответственно число нейронов в выходном слое OUTPUT = 2.
Выбор активационных функций ReLU (Rectifier Linear Unit) и SoftMax обусловлен несколькими факторами.
ReLU обладает двумя основными преимуществами -это разреженность функции и малая вероятность обращения градиента в нуль.
[я,если .V > 0
ЯеЩх)=\
10,если jc < О
(1)
учета влияния значений, близких к нулю, тем самым обеспечивая коррекцию весов даже при малых выходных значениях функции активации:
{х, если х > 0
(2)
0.01, если х < 0 где х-значение сумматора нейрона.
Выбор БоТСМах в качестве функции активации на выходе СНС обусловлен тем, что данная функция позволяет получить вектор вероятностей относительно [5] каждого выхода нейронной сети в бинарной классификации [0;1].
SoftMax (х, х) =
(3)
Рис. 4. Сравнение функции ReLU с другими популярными функциями активации
Первым преимуществом является низкая вероятность обращения градиента в нуль. Такая ситуация характерна, например, для сигмоида и гиперболического тангенса (рис. 4), при х > 0, когда по мере увеличения аргумента х, график функции становится все более ровным, а градиент, соответственно стремится к нулю. ReLU беспечивает постоянство градиента, что ведет к более быстрому обучению, а следовательно сходимости СНС.
Вторым преимуществом ReLU является разреженность, под которой следует понимать равномерность графика при х < 0, что позволяет четко установить порог значений прохождения импульса от нейрона, в случае других функций (рис. 4), возможны различные ненулевые значения, которые сглаживают порог.
В реализации СНС для поиска мюонного распада, была использована функция вида Leaky ReLU с целью
где х - вектор значении выходов сумматоров всех нейронов в слое, Хщг ~ значение сумматора текущего нейрона, К - количество нейронов в слое.
Использование в качестве функции активации гиперболического тангенса обусловлено необходимостью понизить размерность выходных значений нейронов, а также весов всей сети при последующей их подстройке. При использовании ReLU, нейронная сеть становилась неустойчивой вследствие оперирования слишком большими значениями, поскольку ReLU не уменьшает размер выходного значений, как это делают, например, сигмоид, гиперболический тангенс или SoftMax.
Выбор MaxPooling в качестве способа субдискретизации обусловлен тем, что операции MaxPooling, осуществляющие уменьшение размерности путем выбора максимальных значений в каждой из областей, на которые делится исходная карта признаков, позволяют обеспечить инвариантность карт признаков значительно лучше, чем операция Subsampling. Соответствующие исследования, доказывающие данный аспект, приведены в [2].
Учитывая все указанные модификации, разработанная на основе LeNet-5 нейронная сеть была адаптирована для классификации данных с БАК. Обучение сети осуществлялось на обучающем наборе данных (реальные события без распада и симулированные с распадом), а запуск реальной сети производился только на реальных немаркированных данных, среди которых необходимо было выделить события, ведущие к мюонному распаду.
СНС реализована в среде Visual Studio 2013 и написана на языке С# с использованием библиотеки Intel Integrated Performance Primitives (Intel IPP) [3]. Несмотря на то, что приложения, написанные на компилируемых языках, исполняются быстрее интерпретируемых, использование интерпретируемого языка С# обусловлено удобным функционалом сохранения весов нейронов в формате JSON, который доступен в среде разработки. Производительность вычислений, при этом большая, в сравнении с реализацией на С++, достигнута путем использования библиотеки Intel IPP {табл. 1).
Таблица 1
Сравнение времени прямого прохода метода обратного распространения ошибки
в разработанной СНС при использовании .NET и Intel IPP
Способ вычисления свертки Время на 1 итерацию прямого прохода (в миллисекундах)
.NET 1.9
Intel Integrated Performance Primitives ОД
В качестве метода обучения СНС выбран метод обратного распространения ошибки [7, 8], который определяет стратегию подбора весов многослойной сети с применением градиентных методов оптимизации. Основу метода составляет применение целевой функции (функции ошибки), которую определим в виде квадратичной суммы разностей между фактическими и ожидаемыми значениями выходных значений:
фЦБ^*)2' (4)
ы
где ш - вектор весов всех нейронов, у - выходное значение сети, ad- желаемое выходное значение сети для k-ого входного образа из набора размерностью М.
Для обучения СНС необходимо вначале вычислить ошибку 5 каждого нейрона, начиная с конечных нейронов последнего слоя сети.
Коррекция каждой ошибки осуществляется путем вычисления частной производной функции ошибки. В соответствии с цепным правилом, необходимо вычислить производную ошибки каждого нейрона сети и подкорректировать веса на величину ошибки: дЕ _ дЕ dOUT 8NET дсо~ BOUT ÔNET дсо
Веса нейронов, соответственно корректируются следующим образом:
йУ=(У+Аа>, (6)
ox
(7)
в вычислении градиентов была исправлена, в результате, полное время обучения сети составило 2,7 дня.
На выходе сети для каждого входного вектора из реальных данных с БАК, были получены вероятности того, что соответствующий вектор является событием-столкновением частиц, которое ведет к мюонному распаду х Зр.
Сравнение результатов
Вероятности распада, полученные в исследовании посредством разработанной СНС, сравнивались с другими данными [1], в итоге обнаружено, что полученные значения согласуются с результатами других исследователей, Данный факт указывает на правильное построение интеллектуального классификатора, разработанного на основе СНС (рис. 5).
где со - исходный вес нейрона, Дсо - величина коррекции веса, ш' - новый вес нейрона, 5 - ошибка нейрона, П - скорость обучения, х - величина сумматора нейрона, / - величина выхода нейрона [7, 8].
Скоростью обучения п выбрано значение равное 0,0001.
Результаты экспериментов
Первые эксперименты не позволили добиться успешных результатов вследствие медленной скорости обучения, а также некорректного вычисления градиентов. Позднее, как было указано ранее, приемлемое быстродействие было достигнуто путем использования высокопроизводительной библиотеки Intel IPP, ошибка
■ вероятности распада из результатов других исследователей №1
Щ ■ вероятности распада из результатов других исследователей №2
ЩЦ ■ вероятности распада из результатов других исследователей №3 - вероятности распада из результатов других исследователей №4 I - полученные вероятности распада посредством СНН
Рис. 5. Сравнение найденных вероятностей мюонного распада с результатами других исследователей
Заключение
В результате проведенного исследования выявлено, что среди реальных данных, зафиксированных сенсорами на БАК из 855 819 столкновений физических частиц, к мюонному распаду ведут 23 367 событий-столкновений (вероятность мюонного распада р > 0.85).
Полученные результаты согласуются с данными других исследователей, полученные другими способами классификации, что указывает на корректность результатов проведенного исследования и на высокую эффективность разработанной СНС.
Разработан высокопроизводительный классификатор на основе искусственной сверточной нейронной сети, использующий для свертки прямые инструкции процессоров Intel.
Посредством классификатора решена международная задача поиска мюонного распада, что указывает на несостоятельность Стандартной модели и является еще одним шагом к созданию Теории всего.
Литература
1. Flavours of Physics: Finding т -» p: [Электронный ресурс] // Kaggle. - 2015. - Режим доступа: https://www.kaggle.eom/c/flavours-of-physics (Дата обращения: 25.10.2015).
2. Scherer D., Muller A, Behnke S. Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition // ICANN, 20th International Conference on Artificial Neural Networks (ICANN) 2010 - Thessaloniki, Greece: ICANN, 2010. -Pp. 423-432.
3. Intel Integrated Performance Primitives (Intel IPP): [Электронный ресурс] // Intel Corp. - 2010. - Режим доступа: https://software.intel.com/en-us/intel-ipp (Дата обращения: 25.10.2015).
4. LeCun Y., Bottou L, Bengio Y., Haffner P. Gradient-based learning applied to document recognition. // IEEE, Proceedings of the IEEE. - 86 (11), 1998. - Pp. 2278-2324.
5. ImageNet Classification with Deep Convolutional Neural Networks: [Электронный ресурс] // University of Toronto. -2014. - Режим доступа: http://www.cs.toronto.edu/ ~fritz/absps/imagenet.pdf (Дата обращения: 25.10.2015).
6. Convolutional Neural Networks (LeNet) - DeepLearning 0.1 documentation // LISA Lab [Электронный ресурс]. 2013. -Режим доступа: http://deeplearning.net/tutorial/lenet.html (Дата обращения: 25,10,2015).
7. LeCun Y.f Bengio Y., Hinton G. Deep learning. // Nature. -521, 2015. - Pp. 436-444.
8. Rumethart D.E., Hinton G.E., Williams R.J., Learning Internal Representations by Error Propagation. In: Parallel Distributed Processing, Cambridge, MA, MIT Press, vol. 1, 1986. Pp. 318-362.
USING CONVOLUTIONAL NEURAL NETWORKS FOR FINDING MUON DECAY T ^ 3p
Mahrov Stanislav, MTUCI, Moscow, Russia, [email protected] Erohin Sergey, MTUCI, Moscow, Russia, [email protected]
Abstract
The article presents research related to the finding for muon decay t- ^ p+ p- p among the real data collected by sensors at the Large Hadron Collider as a result of collisions of physical particles. Finding the muon decay is one of many steps that will recognize the failure of the standard model. It will approach to the formation of a new theory of everything that is one of the tasks of research conducted at the Large Hadron Collider. In this research, to finding for the muon decay used the mechanism of Machine Learning - convolution artificial neural network. It allows provide analysis of large data's amounts to find dependencies among them. Consequently, through the network, the definition of the convolution dependencies among multidimensional data describes events of 855 819 collisions of physical particles. The output of the neural network for each event should be calculated collision probability with which it can cause the appearance of the muon decay. We synthesized neural network architecture based on a known architecture LeNet-5 that allows search for the decay t—> p+ p- p. After running the neural network was obtained the required probabilities that are also consistent with results of other researchers. It indicates that calculated values are valid. The research's results can be used to prove the insolvency of the Standard Model, opening the way for the establishment of a new theory of everything. On the basis of the research demonstrated the efficacy of artificial convolutional networks for finding dependencies among the data describing the physical particles. Research uses such modern technologies as the Big Data and Machine Learning.
Keywords: convolutional neural networks, muon's decay, standard model, machine learning, Large Hadron Collider.