Научная статья на тему 'АНАЛИЗ СМЕРТНОСТИ В ПЕРИОД ДО ПАНДЕМИИ И В ПАНДЕМИЮ С ИСПОЛЬЗОВАНИЕМ'

АНАЛИЗ СМЕРТНОСТИ В ПЕРИОД ДО ПАНДЕМИИ И В ПАНДЕМИЮ С ИСПОЛЬЗОВАНИЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

43
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
MathCAD / регрессионный анализ / модель / коронавирус / пандемия / смертность. / MathCAD / regression analysis / model / coronavirus / pandemic / mortality.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Елизарова Наталья Юрьевна, Зайнуллин Марат Ильдарович

в статье проводится анализ смертности в России до пандемии и в пандемию с использованием регрессионных моделей. На примере различных моделей показывается, как SARS-Cov-2 повлиял на смертность. Модели реализованы с помощью математического программного обеспечения MathCAD, код которых также приведён.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Елизарова Наталья Юрьевна, Зайнуллин Марат Ильдарович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PRE-PANDEMIC AND PANDEMIC MORTALITY ANALYSIS USING MACHINE LEARNING TECHNIQUES

In this article, we analyze mortality in Russia before and during the pandemic using regression models. Various models are used to show how SARS-Cov-2 affected mortality. The models are implemented using MathCAD mathematical software, the code of which is also given.

Текст научной работы на тему «АНАЛИЗ СМЕРТНОСТИ В ПЕРИОД ДО ПАНДЕМИИ И В ПАНДЕМИЮ С ИСПОЛЬЗОВАНИЕМ»

УДК 004

Елизарова Наталья Юрьевна Elizarova Nataya Yurevna

Кандидат экономических наук, доцент Candidate of Economic Sciences, docent Зайнуллин Марат Ильдарович Zainullin Marat Ildarovich

Магистрант Master student

Казанский национальный исследовательский технический университет им. АН. Туполева-КАИ (КНИТУ-КАИ) Kazan National Research Technical University named after A. N. Tupolev - KAI (KNRTU-KAI)

АНАЛИЗ СМЕРТНОСТИ В ПЕРИОД ДО ПАНДЕМИИ И В ПАНДЕМИЮ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ

PRE-PANDEMIC AND PANDEMIC MORTALITY ANALYSIS USING MACHINE LEARNING TECHNIQUES

Аннотация, в статье проводится анализ смертности в России до пандемии и в пандемию с использованием регрессионных моделей. На примере различных моделей показывается, как SARS-Cov-2 повлиял на смертность. Модели реализованы с помощью математического программного обеспечения MathCAD, код которых также приведён.

Abstract, In this article, we analyze mortality in Russia before and during the pandemic using regression models. Various models are used to show how SARS-Cov-2 affected mortality. The models are implemented using MathCAD mathematical software, the code of which is also given.

Ключевые слова, MathCAD, регрессионный анализ, модель, коронавирус, пандемия, смертность.

Keywords, MathCAD, regression analysis, model, coronavirus, pandemic, mortality.

Как известно, сейчас продолжается пандемия коронавируса, которая очень сильно повлияла на наши жизни. Новые вспышки

XII Международная научно-практическая конференция появляются по всему миру, нас накрывает волна за волной. Несмотря на имеющиеся заявления в СМИ, публикации в журналах, многие люди склонны недооценивать возникшую угрозу или вообще считают её несущественной. Основная цель данной статьи - показать масштаб бедствия в России в цифрах и графиках, доказать или опровергнуть гипотезу о том, что из-за коронавируса смертность сильно возросла и переломила нисходящий тренд.

Для проверки гипотезы и демонстрации будут построены модели, основанные на данных по смертности в России с Января 2006 до декабря 2019 включительно. Далее разработанные модели будут применены для прогнозирования на 2020 и 2021 годы. Затем будет проведено сравнение данных, что дают модели, и данных о реальной смертности.

Данные по смертности в России по месяцам были получены из В1-системы на официальном сайте Федеральной службы государственной статистики [1]. Изобразим данные на графике (рис. 1).

250000

О!

О

• О

♦Ф • »

178000 170000 162000 154000 • •• « • о

>• Л, • ► V • • • о о

• * ► • • • * • т • * ♦ • • • • •. • о о

• • • • • % ш ♦ • * • ► • ♦ • •• • • • • 3

• • •• >•• ф • • • ф • » • • • / • Ь

• V ♦ • •

130000 •

г

О

•с

ГЧ N « М N М N П П М М ^ ч N м м N М П м (Ч П М N N N N (Ч « « « М М М М

•а .о.а.а.а.йллгх.анн-0^ л л л л л л а .о н н .а .а .а л л л л л л л ~ ~ - -

а. х о. п о. п 5 о. « о. &. '-> а- 1 9- ч о. п г о. я о. а. ь а. х а. п а. н з а. я а. а. '-» а. ^

а фЮ V ю да ою^-о я 3 2 V ю я О -3 Ю .3 Я О Ю V ю « ою^юя У

ё-хЗ* 5 I ! ^ 5 I ! 5 1 ! г-гё-хЭ^Е^в®^

— — 4 с " о * < в; — -г * г< и и вг т. < * X

«=с о ^ * ё ч: о ^ - < » ё ч:

г: <

< к <

Дата

••• Смертность до пандемии ооо Смертность в пандемию

Рис. 1. Общая смертность в России по месяцам

На рисунке 1 по вертикальной оси отображено количество умерших людей, а по горизонтальной оси - даты. Обучающая выборка (2006-2019 годы включительно) изображена с помощью закрашенных красным кружков (168 точек данных, «Смертность до пандемии» в легенде), а часть, соответствующая пандемийным месяцам -незакрашенными кружками (17 точек данных, «Смертность в пандемию» в легенде). Итого 185 месяцев (точек данных).

В качестве моделей было решено использовать регрессионные, а именно: линейную, полиномиальную (полином третьей степени) и степенную модели. Нейронная сеть не подходит, т.к. количество точек данных недостаточно для обучения сети и доведения точности до приемлемого уровня. Другие регрессионные модели дают результаты, близкие к прямой линии (и не могут учитывать поэтому некоторую сезонность повышения смертности, которая безусловно присутствует), а потому не используются.

В качестве инструмента для построения моделей и визуализации результатов было выбрано инженерное математическое программное обеспечение PTC Mathcad.

Для оценки величины ошибки была написана подпрограмма, вычисляющая величину относительной ошибки в процентах (рис. 2).

В начале стоит построить линейную модель, чтобы, пусть и грубо, оценить основной тренд смертности. Для этого была написана короткая программа (рис. 3):

»

return Е

Рисунок 2. Подпрограмма вычисления относительной ошибки в процентах

1.733 х 10 V -153.912

link := liiie(Dates,Deaths) = lin_y(x) := | liii_k0 + lin kj-x J rel en- := ReffiiroiiDeaths,lm_y(Dates)) = 6.158

ЛАЛЛЛЛАДЛЛ/

Рис. 3. Программа для построения линейной модели

Была использована функция «line», которая возвращает вектор [a b], содержащий коэффициенты для прямой вида a + bx, которая наилучшим образом аппроксимирует обучающие данные (векторы Dates и Deaths, что выступают в качестве X и Y соответственно)[2]. Изобразим полученную прямую на графике с данными (синяя линия на рис. 4)

Рис. 4. Линейная модель (синяя прямая)

Как видно из рисунка, смертность имела общую тенденцию к снижению, которая прекратилась в начале 2020 года. Ошибка для обучающей выборки у данной модели составила 6,158%.

Инновационные аспекты развития науки и техники Более сложные модели могут лучше описать эти данные. Используем полином третьей степени в качестве модели (рис. 5).

regress( Dates, Deaths, 3)

pol k := submatrix( S, 3, length( S) - 1,0,0)

2 3

pol_y(x) := pol_kQ + pol_kj-x + polk^x + pol k^x P°l_k =

rel eiT := RelEnoif Deaths,polv(Dates)) = 5.91 _n rn

ЛЛЛЛЛЛЛЛЛЛ/ * V V. \J

full rel en := RelEnoi<FullDeaths,pol v(FullDates)) = 9.837

ЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛ/ 4 r —J 4 ''

Рис. 5. Программа для построения полиномиальной модели

f 5 ^

1.83 х 10

-668.155

6.084

Была использована функция «regress», которая возвращает вектор, используемый функцией «interp» для нахождения полинома n-го порядка. Этот полином наилучшим образом соответствует значениям данных[2]. Для наглядности мы получили коэффициенты с помощью функции «submatrix», а затем построили нужный полином, а не использовали функцию «interp». Изобразим полученную кривую на графике с данными (рис. 6).

Рис. 6. Полиномиальная модель (полином третьей степени,

синяя кривая)

XII Международная научно-практическая конференция Общий тренд - это вновь снижение смертности. Что идёт в разрез с реальной ситуацией. Ошибка для обучающей выборки у данной модели составила 5,91%.

Теперь посмотрим на степенную модель (рис. 8). Подпрограмма изображена на рисунке 7.

Рис. 7. Программа для построения степенной модели

Была использована функция «ртйЬ), которая возвращает вектор [а Ь с], содержащий коэффициенты для степенной функции вида: ахЬ + с, которая наилучшим образом аппроксимирует данные. Начальное приближение коэффициентов задаётся вектором g. В нашем случае это [1 1 3]. Функция ртй1 использует метод Левенберга-Марквардта для минимизации [2].

Изобразим полученную кривую на графике с данными (синяя линия на рис. 8).

Рис. 8. Степенная модель (синяя кривая)

В этой модели ошибка составила 5,895%. И, как видно, снова общая тенденция - снижение количества смертей, что позволяет говорить о том, что с каждым годом смертность в России становилась всё меньше. Тем не менее, реальные данные за 2020 и 2021 годы показывают всплеск смертности.

Таким образом, на примерах моделей регрессионного анализа было показано, что 8ЛЯ8-Соу-2 сильно увеличил смертность. Он, безусловно унёс множество жизней. Возможно, даже больше, чем гласит оперштаб. Мы очень надеемся, что люди, наконец, поймут, в какой опасности находятся и начнут принимать рекомендуемые меры для предотвращения инфекции.

Библиографический список:

1. В1-система на официальном сайте Российской статистики [электронный ресурс] - Режим доступа: https://bi.gks.ru/ (дата обращения 25.07.2021)

XII Международная научно-практическая конференция 2. Официальная документация МаШсаё [электронный ресурс] -Режим доступа: https://help.ptc.com/ (дата обращения 25.07.2021)

i Надоели баннеры? Вы всегда можете отключить рекламу.