хгуэп ХГУЭП ХГУЭП ХГУЭП ХГУЭП ИНФОРМАЦИОННЫЕ СИСТЕМЫ И ТЕХНОЛОГИИ x™™™™™™ Х™П
УДК 524.354.4:004.8 DOI 10.38161/2618-9526-2021-1-055-063
Р.А. Ешенко,
канд. техн. наук, доцент кафедры информационных технологий и систем Дальневосточного государственного университета путей сообщения
(г. Хабаровск) М. С. Петрова,
студентка Дальневосточного государственного университета путей сообщения
(г. Хабаровск)
В.В. Швец,
студент Дальневосточного государственного университета путей сообщения
(г. Хабаровск)
ВЫЯВЛЕНИЕ ПУЛЬСАРОВ СРЕДИ НЕЙТРОННЫХ ЗВЁЗД И ИСТОЧНИКОВ ЭЛЕКТРОМАГНИТНОГО ИЗЛУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ
МАШИННОГО ОБУЧЕНИЯ
В данной статье описан способ упрощения процесса подтверждения гипотез о том, является ли источник электромагнитного излучения пульсаром при помощи использования современных методов машинного обучения. В ходе работы были проанализированы данные более чем 17 000 источников излучения и использован алгоритм распознавания образов, определяющий пульсары с точностью до 98 %.
Ключевые слова: пульсар, искусственный интеллект, машинное обучение, анализ данных, распределение Гаусса, python.
UDC 524.354.4:004.8 DOI 10.38161/2618-9526-2021-1-055-063
R.A. Eshenko,
Candidate of Technical Sciences, Associate Professor, Department of Information Technologies and Systems, Far Eastern State Transport University
(Khabarovsk)
M.C. Petrova,
Student, Far Eastern State Transport University
(Khabarovsk)
V. V. Shvets,
Student, Far Eastern State Transport University
(Khabarovsk)
DETECTION OF PULSARS AMONG NEUTRON STARS AND ELECTROMAGNETIC RADIATION SOURCES USING MACHINE LEARNING METHODS
This article describes a way to simplify the process of confirming hypotheses about whether the source of electromagnetic radiation is a pulsar by using modern machine learning methods. In the course of the work, data from more than 17,000 radiation sources were analyzed and an image recognition algorithm that detects pulsars with an accuracy of up to 98 % was used.
Keywords: pulsar, artificial intelligence, machine learning, data analysis, Gaussian distribution, python.
Пульсары - это космические источники импульсного электромагнитного излучения. В настоящий момент известно более 2 300 радиопульсаров, более 100 пульсаров, излучающих в гамма-диапазоне, десятки рентгеновских пульсаров и несколько пульсаров в оптическом диапазоне [1].
В настоящее время для научного сообщества в сфере астрофизики пульсары получили особенно большое значение, так как в 2019 г. было опубликовано исследование [2], получившее широкий общественный резонанс, в котором доказано, что пульсары можно использовать для регистрации гравитационных волн, так как такое возмущение должно привести к временному изменению скорости вращения тела. Более того, авторы работы доказали, что, зная относительные положения источника волны и пульсара, можно получить информацию об уже зарегистрированных на Земле в прошлом волнах.
Поэтому сейчас особенно актуален поиск новых пульсаров. В работе [3] представлен новый двухэтапный подход к идентификации и классификации групп рассредоточенных одиночных импульсов в выходных данных одноимпульсного поиска с помощью алгоритма идентификации пиков, который отслеживает наклонные тенденции вокруг локальных максимумов на графиках отношения сигнал-шум, в зависимости от меры дисперсии. Однако и ранее различные способы нахождения пульсаров рассматривались учёными всего мира. Учёные из Манчестерского университета изучили исследования, посвящённые отбору пульсаров, за последние пятьдесят лет. Результаты их работы представлены в статье [4]. Из их исследований можно сделать вывод о перспективности использования методов машинного обучения для автоматизации
задачи нахождения пульсаров. Целью данной работы является упрощение и ускорение процесса подтверждения гипотез о том, является ли звезда пульсаром. На основе анализа научных источников было принято решение использовать современные методы машинного обучения для классификации нейтронных звёзд и источников импульсного электромагнитного излучения и выявления пульсаров среди них. Данные были проанализированы с применением современных методов Data Science, на основе анализа были выбраны семь алгоритмов машинного обучения, эффективность которых была экспериментально проверена. В результате исследовательской работы были определены наиболее эффективные алгоритмы и проведена классификация нейтронных звёзд и источников импульсного электромагнитного излучения с точностью 98 %.
Центральное тело пульсара -нейтронная звезда с массой порядка массы Солнца и радиусом порядка 10 км. Такие объекты могут образовываться при взрывах сверхновых звёзд на поздних стадиях звёздной эволюции. Плотность в центре нейтронной звезды больше плотности атомного ядра. При таких плотностях все атомные ядра распадаются, и внутренние слои звезды состоят из сверхтекучих нейтронов, сверхпроводящих протонов и электронов. Ещё две особенности пульсаров - очень сильные магнитные поля и быстрое вращение. В этих условиях генерируются электрические поля напряжённостью более 1010 В/см, которые отрывают от поверхности звезды электроны и ускоряют их до релятивистских скоростей [5].
При вращении пульсаров излучение от них распространяется по небосводу и, когда излучение от пульсара пересекает наш
луч зрения, создаётся заметная картина широкополосного радиоизлучения. Так как пульсары быстро вращаются, этот шаблон периодически повторяется. Таким образом, поиск пульсаров включает поиск периодических радиосигналов с помощью больших радиотелескопов. Каждый пульсар излучает несколько разную диаграмму направленности, которая незначительно меняется с каждым оборотом. Таким образом, обнаружение потенциального сигнала, известного как «кандидат», усредняется по множеству оборотов пульсара, что определяется продолжительностью наблюдения. В отсутствие дополнительной информации каждый кандидат потенциально может оказаться настоящим пульсаром. Однако на практике большинство обнаруженных кандидатов вызвано радиочастотными помехами и шумом, что затрудняет поиск достоверных сигналов [6]. Для анализа был взят набор данных о более, чем 17 000
нейтронных звезд и источников импульсного электромагнитного излучения из исследований британских ученых [7]. Все источники излучения являлись кандидатами в пульсары, собранными за 50 лет астрономических исследований. Из них 16 259 являются примерами ложных сигналов, вызванных радиочастотными помехами или шумом, и 1 639 примерами реальных пульсаров.
В нашей работе используются инструменты машинного обучения для автоматической маркировки кандидатов в пульсары для облегчения дальнейшего анализа учеными. Чтобы подобрать оптимальный алгоритм для классификации, были использованы современные библиотеки и инструменты для анализа данных.
На рисунке 1 представлены графики, характеризующие дисперсионную меру соотношения «сигнал - шум» (DM-SNR кривую), созданные с помощью python-библиотеки pandas.
Рисунок 1 - Характеристики дисперсионной меры соотношения «сигнал - шум»
Рисунок 2 - Характеристики интегрированного профиля радиоимпульса
Как видно из рисунка 1, избыточный эксцесс дисперсионной меры соотношения «сигнал - шум» имеет нормальное распределение с математическим ожиданием, равным восьми. Среднее значение кривой меры дисперсии сигнала и шума равно нулю. Асимметрия кривой DM-SNR распределена по экспоненциальному закону. При этом наибольшее число значений асимметрии кривой меры дисперсии соотношения «сигнал - шум» различных источников электромагнитного излучения и нейтронных звёзд близки к нулю. Стандартное отклонение DM-SNR кривой экспоненциально убывает в промежутке значений от 5 до 120. На рисунке 2 пред-
ставлены графики, характеризующие интегрированный профиль радиоимпульса, созданные с помощью библиотеки pandas.
Из рисунка 2 следует, что наиболее высока концентрация значений избыточного эксцесса интегрированного профиля радиоимпульса в пределах от -2 до 2. При этом среднее значение профиля радиоимпульса имеет разброс значений от 0 до 200 и подчиняется Гауссовскому закону распределения с математическим ожиданием, равным 140. Кроме того, можно наблюдать достаточно высокую (более 11 000) частоту появления в данных о нейтронных звёздах и источниках импульсного электромагнитного излучения значений асимметрии интегрированного
профиля импульса, близких к нулю. Стандартное отклонение интегрированного профиля радиоимпульса также распределено по закону Гаусса-Лапласа.
На рисунке 3 представлена матрица корреляций для набора данных, построенная с помощью библиотек Seaborn и MatPlotLib.
Correlation Map
M*sn of (ha ntagratao profile
Standard deviation or trw tntoQralec profile
Екс**а kuflo«
citograleil oroftla
SUhwis of rrtogralBC [foAte
Mwi ot th> OM-SNfi <
StanUld davtation or th* DM SNR с
Ficm Kunotta ot tr* [1M 5NR сипя
Smwi or in* DM SNR с
targafci*
100 0 S5 -0 87 ■074 «ЭО ■031 «68
055 100 -0 52 «54 000 «06 003 003 «37
•0 87 л» 100 095 041 043 «34 «22 079
•0 74 454 005 .00 041 042 «33 «21 071
-030 ООО 041 041 1 00 080 «62 0 36 040
■0 31 405 043 042 ово 100 «81 «58 049
m 003 0 34 ■0 33 062 «81 100 092 «39
003 -027 ■0 36 «56 ою 100 «26
-0 60 «37 079 071 040 049 «39 02« 100
I
I
I
7 |
■5 £ I
& I
ta f
I
s
I к
2
0
1
i §
■ 3
a 5
в *
0 |
1
2
Рисунок 3 - Матрица корреляций
На матрице корреляций мы можем наблюдать прямую и обратную корреляцию. Коэффициент идеальной прямой корреляции, как известно, равен 1,00, а обратной равен -1,00. В рассматриваемом наборе данных с характеристиками нейтронных звёзд и источников импульсного электромагнитного излучения наибольшую прямую корреляцию мы наблюдаем между целевой переменной и избыточным эксцессом интегрированного профиля. Чуть слабее корреляция с асим-
метрией интегрированного профиля. Также по матрице корреляций видно, что в наборе данных нет параметров, не коррелирующих с целевой переменной, потому что даже самый низкий коэффициент прямой корреляции у среднего значения дисперсионной меры соотношения «сигнал - шум» не менее 0,4. Это показывает, что корреляция наблюдается, пусть и не самая значительная. Кроме того, в наборе данных присутствует и обратная корреляция. Она максимальна между це-
левой переменной и средним значением интегрированного профиля. Минимальна (по модулю) обратная корреляция между целевой переменной и асимметрией дисперсионной меры соотношения «сигнал -шум». Данная характеристика имеет наименьшее влияние на нашу целевую переменную. Помимо зависимости целевой переменной от характеристик из набора данных, все указанные характеристики коррелируют между собой со значениями, отображёнными на матрице корреляций.
Следующие графики созданы с помощью инструмента для визуализации данных, машинного обучения и интеллектуального анализа данных Orange.
На рисунке 4 графически представлены характеристики интегрированного профиля радиоимпульса для ложных источников излучения (на графиках показаны светло-серым цветом) и для реальных пульсаров (на графиках показаны тёмно-серым цветом).
Рисунок 4 - Характеристики интегрированного профиля радиоимпульса для ложных источников излучения и для реальных пульсаров
По рисунку 4 можно определить, что значения избыточного эксцесса интегрированного профиля радиоимпульса ложных источников излучения распределены по нормальному закону, а такое время, как распределение значений данной величины реальных пульсаров, близко к равномерному. Среднее значение интегрированного профиля импульса источников импульсного электромагнитного излучения и нейтронных звёзд, не являющихся пульсарами, также имеет распределение Гаусса с математическим ожиданием около 120, а значения данной характеристики для пульсаров распределены прак-
тически равномерно и в основном на отрезке от 0 до 120. Распределения избыточного эксцесса и среднего значения интегрированного профиля импульса реальных пульсаров также имеют существенные отличия от распределений данных характеристик ложных источников излучения.
На рисунке 5 представлен избыточный эксцесс меры дисперсии соотношения «сигнал - шум» для ложных источников излучения (на графике показаны светло-серым цветом) и для реальных пульсаров (на графике показаны тёмно-серым цветом).
Рисунок 5 - Характеристики меры дисперсии соотношения «сигнал - шум» для ложных источников излучения и для реальных пульсаров
По рисунку 5 можно определить, что распределения избыточного эксцесса, среднего значения и стандартного отклонения меры дисперсии соотношения «сигнал - шум» реальных пульсаров имеют существенные отличия от распределений значений данных характеристик DM-SNR кривой источников импульсного электромагнитного излучения и нейтронных звёзд, не являющихся пульсарами. На основе анализа данных для классификации источников излучения на пульсары и ложные пульсары были выбраны следующие алгоритмы: линейная регрессия, логистическая регрессия, два алгоритма на основе многослойного пер-цептрона (Multi-layer Perceptron regressor и Multi-layer Perceptron dassifier), алгоритм классификации на основе метода опорных векторов и два классификационных алгоритма (ExtraTreeClassifier и AdaBoostClassifier).
Перед непосредственной работой с алгоритмом данные были обработаны и подготовлены для классификации с помощью методов из библиотек NumPy и Pandas. Данные были разделены на обучающую выборку (75 % кандидатов) и выборку для проверки классификации (25 % кандидатов). Точность классификаций, сделанных разными алгоритмами, составила от 66 % до 98 %.
Лучшие результаты показали алгоритм на основе метода опорных векторов (98,0338 % правильно определённых пульсаров) и логистическая регрессия (98,0112 % верных ответов).
В алгоритме на основе метода опорных векторов каждый объект данных представляется как вектор (точка) в p-
мерном пространстве (упорядоченный набор p чисел). Каждая из этих точек принадлежит только одному из двух классов. Вопрос состоит в том, можно ли разделить точки гиперплоскостью размерности p-1. Искомых гиперплоскостей может быть много, поэтому полагают, что максимизация зазора между классами способствует более уверенной классификации. Иными словами, можно ли найти такую гиперплоскость, чтобы расстояние от неё до ближайшей точки было максимальным? Это эквивалентно тому, что сумма расстояний до гиперплоскости от двух ближайших к ней точек, лежащих по разные стороны от неё, максимальна [8]. Данный алгоритм для решения задач классификации применялся в работах [9] и [10].
Логистическая регрессия - это статистическая модель, используемая для прогнозирования вероятности возникновения некоторого события путём его сравнения с логистической кривой, которая выдаёт ответ в виде вероятности бинарного события. Её применение для классификационных задач рассмотрено в работе [11].
Можно сделать вывод о том, что наши экспериментальные результаты согласуются с ранее опубликованными исследованиями, а также о том, что существуют широкие перспективы для дальнейшей работы по данному направлению и модификации указанных алгоритмов для задачи выявления пульсаров среди нейтронных звёзд и источников излучения.
Улучшение спецификаций исследований вызывает экспоненциальный рост числа кандидатов в пульсары из объёмов данных. В нашей работе были проанализированы данные о 17 699 источниках
импульсного электромагнитного излучения и нейтронных звёзд и предложены алгоритмы машинного обучения для отбора перспективных кандидатов в пульсары с помощью машинного обучения. В ходе экспериментальных исследований было выявлено, что наилучшие результаты показали алгоритм на основе метода опорных векторов и логистическая регрессия. Применение этих алгоритмов позволяет в несколько раз ускорить процесс проверки того, является ли данный источник сигналов пульсаром.
Список использованных источников
1 Малов, И.Ф. Радиопульсары / И.Ф. Малов // М. : Наука, 2004.
2 Biswal М., Shreyansh S.D., Ajit M.S., Re-visiting gravitational wave events via pulsars // General Relativity and Quantum Cosmology, 2019.
3 Devine T.R., Goseva-Popstojanova K., and McLaughlin M. «Detection of dispersed radio pulses : a machine learning approach to candidate identification and classification» // Monthly Notices of the Royal Astronomical Society, 2016 459 (2) :1519-1532.
4 Lyon R.J., Why are pulsars hard to find? // A thesis submitted to the University of Manchester for the degree of Doctor of Philosophy in the Faculty of Engineering and Physical Sciences, University of Manchester, 2016.
5 Манчестер, Р. Пульсары / Р. Манчестер, Дж. Тейлор. M. : Мир, 1980.
6 Bhattacharyya B., Cooper S., Malenta M., Roy J., Chengalur J., Keith M., Kudale S., McLaughlin M., Ransom S.M., Ray P.S., and Stappers B.W. «The GMRT High Reso-
lution Southern Sky Survey for Pulsars and Transients. I. Survey Description and Initial Discoveries // The Astrophysical Journal, 2016 817 (130).
7 Lyon R.J., Stappers B.W., Cooper S., Brooke J.M., Knowles J.D., Fifty Years of Pulsar Candidate Selection: From simple filters to a new principled real-time classification approach // Monthly Notices of the Royal Astronomical Society, 2016.
8 Вьюгин, В. В. Математические основы теории машинного обучения и прогнозирования / В. В. Вьюгин // МЦМНО. 2013.
9 Srivastava S. Improved Classification of the High-Resolution Image Data Using Hoeffding Algorithm // Annals of Data Science, 2016 3 (1): 63-70.
10 Михайлов, И. Разработка модификации метода опорных векторов для решения задачи классификации с ограничениями на предметную область / И. Михайлов, З. Аунг. М. : Программные продукты и системы, 2020.
11 Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves // Proc. Of 23 International Conference on Machine Learning, Pittsburgh, PA, 2006.