Научная статья на тему 'Прогноз развития эпидемии COVID-19 с помощью метода нелинейной регрессии'

Прогноз развития эпидемии COVID-19 с помощью метода нелинейной регрессии Текст научной статьи по специальности «Математика»

CC BY
174
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
StudNet
Область наук
Ключевые слова
НЕЛИНЕЙНАЯ РЕГРЕССИЯ / МОДЕЛЬ ЭКСПОНЕНЦИАЛЬНОГО РОСТА / SIS-МОДЕЛЬ / АППРОКСИМАЦИЯ / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / КОРОНАВИРУСНАЯ ИНФЕКЦИЯ / NONLINEAR REGRESSION / EXPONENTIAL GROWTH MODEL / SIS MODEL / APPROXIMATION / LEAST SQUARES METHOD / CORONAVIRUS INFECTION

Аннотация научной статьи по математике, автор научной работы — Макаров Д.А., Шибанова А.Д.

Основная ценность математики заключается в возможности применения ее методов для анализа реальных объектов и явлений. Для оценки развития эпидемий обычно применяются эпидемиологические математические модели, такие как: SIR, SIRS, SEIR, SIS, MSEIR. В данной статье будет произведена попытка произвести аппроксимацию реальных данных о количестве инфицированных людей с помощью модели экспоненциального роста (на начальных этапах) и SIS-модели, используя метод нелинейной регрессии. В качестве страны-примера будет рассматриваться Швейцария, однако приведенные ниже математические формулы позволят произвести подобную оценку для любой другой страны. В результате удастся оценить соответствие реальной эпидемиологической ситуации идеальной математической модели, а также сделать приблизительный прогноз о количестве дней до окончания эпидемии.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Макаров Д.А., Шибанова А.Д.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORECAST FOR THE DEVELOPMENT OF THE EPIDEMIC COVID-19 USING THE METHOD OF NONLINEAR REGRESSION

The main value of mathematics lies in the possibility of applying its methods to analyze real objects and phenomena. Epidemiological mathematical models such as SIR, SIRS, SEIR, SIS, MSEIR are commonly used to assess the development of epidemics. This article will attempt to approximate real data on the number of infected people using the exponential growth model (at the initial stages) and the SIS model using the nonlinear regression method. Switzerland will be considered as an example country, but the mathematical formulas below will allow a similar estimate to be made for any other country. As a result, it will be possible to assess the compliance of the real epidemiological situation with the ideal mathematical model, as well as to make an approximate forecast of the number of days before the end of the epidemic.

Текст научной работы на тему «Прогноз развития эпидемии COVID-19 с помощью метода нелинейной регрессии»

/Эк

ПРОГНОЗ РАЗВИТИЯ ЭПИДЕМИИ COVID-19 С ПОМОЩЬЮ МЕТОДА

НЕЛИНЕЙНОЙ РЕГРЕССИИ

FORECAST FOR THE DEVELOPMENT OF THE EPIDEMIC COVID-19 USING THE METHOD OF NONLINEAR REGRESSION

УДК 004.5

Макаров Д.А., студент, makdenis.1997@gmail.com

Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Системы

обработки информации и управления»

Шибанова А.Д., студент, alin.shibanova@yandex.ru

Россия, 105005, г. Москва, МГТУ им. Н.Э. Баумана, кафедра «Системы

автоматизированного проектирования»

Makarov D.A., student, makdenis. 1997@gmail.com

Russia, 105005, Moscow, MSTU N.E. Bauman, Department of Information

Processing and Management Systems

Shibanova A.D., student, alin.shibanova@yandex.ru

Russia, 105005, Moscow, MSTU N.E. Bauman, Department of Computer-Aided Design Systems

Аннотация

Основная ценность математики заключается в возможности применения ее методов для анализа реальных объектов и явлений. Для оценки развития эпидемий обычно применяются эпидемиологические математические модели, такие как: SIR, SIRS, SEIR, SIS, MSEIR. В данной статье будет произведена попытка произвести аппроксимацию реальных данных о количестве инфицированных людей с помощью модели экспоненциального роста (на начальных этапах) и SIS-модели, используя метод нелинейной регрессии. В

качестве страны-примера будет рассматриваться Швейцария, однако приведенные ниже математические формулы позволят произвести подобную оценку для любой другой страны. В результате удастся оценить соответствие реальной эпидемиологической ситуации идеальной математической модели, а также сделать приблизительный прогноз о количестве дней до окончания эпидемии.

Summary

The main value of mathematics lies in the possibility of applying its methods to analyze real objects and phenomena. Epidemiological mathematical models such as SIR, SIRS, SEIR, SIS, MSEIR are commonly used to assess the development of epidemics. This article will attempt to approximate real data on the number of infected people using the exponential growth model (at the initial stages) and the SIS model using the nonlinear regression method. Switzerland will be considered as an example country, but the mathematical formulas below will allow a similar estimate to be made for any other country. As a result, it will be possible to assess the compliance of the real epidemiological situation with the ideal mathematical model, as well as to make an approximate forecast of the number of days before the end of the epidemic.

Ключевые слова: нелинейная регрессия, модель экспоненциального роста, SIS-модель, аппроксимация, метод наименьших квадратов, коронавирусная инфекция.

Key words: nonlinear regression, exponential growth model, SIS model, approximation, least squares method, coronavirus infection.

С помощью метода нелинейной регрессии попробуем предсказать динамику развития коронавирусной инфекции в Швейцарии.

Рассмотрим модель экспоненциального роста:

dI

dt = (p-Y)I' (1)

где I - количество инфицированных людей, в - среднее число контактов, приходящихся на человека в единицу времени, у - среднее число выздоровевших, приходящихся на человека в единицу времени.

Рассмотрим также SIS-модель:

dl

di=(ß-r)i-N>2.

(2)

где N - число людей в популяции (например, число жителей страны).

Решение экспоненциальной модели будет иметь следующий вид (примем 1(0) = 0, х = (ß — y) и решим задачу Коши):

I(t) = Ioext, (3)

Решение SIS-модели будет иметь следующий вид (IOT обозначает

предельное значение I(t) при t —> то, т. е. = lim I(t)):

I

t—

I(t) =

1 + ^ — 1)eV

Io

(4)

Реальные данные о количестве инфицированных в зависимости от времени были получены с официального сайта, предоставляющего статистические сведения [1]. Файл с данными был загружен 21.04.2020, этот день и является последней учтенной в выборке датой. В итоге получилась выборка, содержащая данные за 54 дня. График зависимости количества случаев заражения от даты представлен на рисунке 1.

C1J

с]

е

с;

X 20000

-U

X

X

ГП

m

о

S =Г

В

I

10000

m

1-

u

Ol

т

т

с 5000

о

Выборка данн ых . • ' '

/ f

/

—• •

Количество дней

Рис. 1. График зависимости количества инфицированных людей от даты (54 дня)

Научно-образовательный журнал для студентов и преподавателей №10/2020

Проанализируем получившийся график: можно предположить, что наилучшая аппроксимация с помощью модели экспоненциального роста получится, если первым днем будем считать 9-й день из выборки, когда количество инфицированных равнялось 209 (10 = 209), данные за предыдущие дни учитываться в дальнейшем рассмотрении не будут (их можно считать начальными флуктуациями).

Экспоненциальная модель обычно используется для анализа распространения эпидемии в первые ее недели (когда скорость роста графика зависимости количества инфицированных от времени наиболее высока). Чтобы оценить количество дней, в течение которых оправдано использование модели экспоненциального роста, рассмотрим график зависимости количества инфицированных от времени для 30 первых дней (этот график представлен на рисунке 2). Визуальная оценка позволяет предположить, что для аппроксимации экспоненциальной моделью стоит использовать интервал с 1-го по 16-й день, т. к. именно в этот период наблюдается постоянное увеличение скорости роста графика.

1 Выборка данных

/

>

17500

Ч

е

с;

у. 15000

~Ъ X т

га 12500

Ш

0 о.

10000

■в-

1

2 7500 О ш ь и

Ф 5000 Ц

О

^ 2500

Количество дней

Рис. 2. График зависимости количества инфицированных людей от даты (30 дней)

Вернемся к рассмотрению графика, представленного на рисунке 1: можно заметить, что скорость роста графика замедляется ближе к последним числам

апреля. Вероятно, далее прирост графика по ординате будет становиться все меньше, а потом, скорее всего, график превратится в «плато» (не будет прироста по ординате вообще). Но если карантин будет прекращен преждевременно, то возможна вторая волна экспоненциального роста количества инфицированных.

Оценим значение X = (в — У) с помощью нелинейной регрессии и нормального уравнения, взяв в качестве аппроксимирующей функции решение экспоненциальной модели (3). Коэффициент х входит в решение экспоненциальной модели нелинейно, чтобы исправить это, возьмем логарифм от 1(0:

I

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1пг = Xt 10

I = 1п1 — 1п10 = хt (5)

В сформированной выборке содержатся данные о количестве инфицированных в зависимости от времени:

Y = {уа1 = 1...п, (6)

где п - количество дней, а Уi - количество инфицированных людей в 1-й день.

Выполним следующие преобразования:

У1 = 1пу — 1п 1о, 1 = 1 -п (7)

Соответственно:

У = {у1},1 = 1...п, (8)

В данном случае задачу минимизации (метод наименьших квадратов) можно сформулировать так:

п

2

р^^—ШО) (9)

тт

х i=1

Чтобы определить оптимальное значение х, требуется найти решение нормального уравнения:

X = (ХТХ)-1ХТУ, (10)

где матрица X =

V ¿2

£п

, транспонированная матрица = [^ £2

£п], ? =

У1 У2

. Запишем решение нормального уравнения:

* =

(11)

уп

¿-4=1 Ч

Теперь значение %, определенное по формуле (11), можно подставить в (3). В результате вычислений % получилось равным ~ 0.22. Графический результат представлен на рис. 3.

Рис. 3. Аппроксимация экспоненциальной моделью и исходные дискретные данные Разумеется, абсолютного совпадения графика, построенного по исходным данным о числе инфицированных, и графика аппроксимирующей функции не наблюдается. Но нельзя забывать, что в данном случае мы имеем дело с реальными данными, которые никогда не будут полностью соответствовать идеальной математической модели. К тому же, известные данные о числе заболевших (из которых состояла выборка) могут (иногда даже значительно)

Научно-образовательный журнал для студентов и преподавателей №10/2020

отличаться от действительных данных, т. к. не все заболевшие пойдут к врачу, не всегда тест на наличие коронавирусной инфекции покажет правильный результат и т. д. (факторов множество). Поэтому результат, представленный на рисунке 3, можно считать вполне удовлетворительным, а также можно утверждать, что данные за первые 16 дней рассматриваемого промежутка действительно описываются моделью экспоненциального роста.

Теперь определим значение /о с помощью нелинейной регрессии, взяв в качестве аппроксимирующей функции решение SIS-модели. Значение % было определено в предыдущем пункте. В данном случае будем рассматривать весь промежуток значений из выборки.

Коэффициент /о входит в уравнение (4) нелинейно, чтобы исправить это, выполним переход к обратной зависимости:

1 1 / = — = — + (-<-

7(0

1 ' т

I =

1

_= _1 + /"-/°е-*

/(О

(12)

Обозначим % = —, а2 = ——. Тогда можем записать (12) в следующем виде:

7 = % + а2е-*с (13)

1

Определим у = -. В данном случае задачу минимизации (метод наименьших квадратов) можно сформулировать так:

п

штУф-ГМ)2 (14)

а / '

¿=1

Запишем нормальное уравнение:

а = (ХтХ)-1Хту,

1

(15)

где X =

1 е-*^

1

1

■у =

■ 1 ■ ■ 1 ■

Уо ^М

1 , а = ^М-^О

_Уп_

В результате вычислений получилось равным 33650 (при этом /0 = 209). Графический результат представлен на рис. 4.

- ББ-модель - Исходные данны е . . • •.....

0 10 20 30 40

Количество дней

Рисунок 4. Аппроксимация SIS-моделью и исходные дискретные данные

Легко заметить, что аппроксимация получилась не очень точной. Но, тем не менее, результат предсказуемый: БИ^-модель не учитывает приобретение иммунитета [3], а в случае с коронавирусной инфекцией наличие/отсутствие иммунитета к заболеванию у выздоровевших пока не доказано. Также 81Б-модель, как и многие другие эпидемические модели, не учитывает дополнительные (замедляющие стремительный рост числа инфицированных) факторы: карантин, изоляция инфицированных людей, применение дополнительных способов защиты (ношение респираторных масок, например).

Стоит заметить, что в начале графики реальной зависимости и аппроксимации Б18-моделью довольно близки (первые 18 дней). Возможно, это связано с тем, что как раз в этот период коронавирусная инфекция распространялась в почти «естественных» условиях (не было карантина). Но далее, когда был введен режим самоизоляции, рост графика реальной зависимости замедлился. А график математической модели показывает, какой была бы ситуация, если бы государством не были приняты дополнительные меры борьбы с вирусом.

Попробуем улучшить аппроксимацию, определив значение с помощью метода оптимизации вс1ру.ор1:1т17е.т1тт17е. Графический результат представлен на рис. 5.

- Б15-модель

Исходные данные

0 10 20 30 40

О)

ч

2 ю" с; х л I I го ш о о.

0 I

о

СО 103

ь

и О) т

с; о

Количество дней

Рис. 5. Аппроксимация БК-моделью (после оптимизации /ю) и исходные данные Теперь аппроксимация получилась более точной. Значение после оптимизации стало равным 25355. Конечно, это значение меньше, чем должно быть: 21 апреля (последний день из выборки) было зафиксировано 27826 случаев заражения коронавирусной инфекцией. Но, как уже было сказано, график исходной зависимости близок к тому, чтобы превратиться в «плато». И оптимизированная аппроксимация БК-моделью это подтверждает. Так что, вероятно, итоговое количество инфицированных людей в Швейцарии будет равным примерно 29000 - 30000 (очень грубая оценка).

Определим погрешность аппроксимации в пространстве по формуле

[2]:

||/(0-ВД||те = шах 1/(0-ВД|, (16)

где /(£) - количество инфицированных людей в момент времени £ (данные из исходной выборки), ¿(£) - значение аппроксимирующей функции (решение 81Б-модели) в момент времени £, [£1; £2] - временной промежуток (46 дней).

Определим погрешность для двух случаев: для аппроксимации без оптимизации значения и для аппроксимации с оптимизацией значения

В первом случае погрешность error « 8367, во втором случае погрешность erroropt « 2571. Полученные значения соответствуют графическому результату: погрешность действительно должна была получиться значительной в обоих случаях, но оптимизированная аппроксимация должна была дать меньшую ошибку. Учитывая, что SIS-модель в принципе не может дать очень точного результата, если условия распространения эпидемии не являются «естественными» (т. е. присутствуют сдерживающее распространение инфекции факторы), полученные результаты можно считать удовлетворительными.

Для определения погрешности в пространстве L2 воспользуемся формулой

[4]:

i

(\ п V

|l/(t) - Вд||2 = (nZ(/(i) - ОД)2) (17)

Определим погрешность для двух случаев: для аппроксимации без оптимизации значения и для аппроксимации с оптимизацией значения

В первом случае погрешность error «5010, во втором случае погрешность erroropt « 1188. После оптимизации значение погрешности стало меньше. Поэтому для оценки количества дней до конца эпидемии будем использовать результаты, полученные с помощью оптимизированной аппроксимации.

Число инфицированных людей при t —> го уже было оценено - от 29000 до 30000. Конечно, это очень грубая оценка, к тому же, есть очень много факторов, которые могут повлиять на ее изменение (например, если карантин закончится раньше, чем следовало бы, то итоговое количество инфицированных в стране будет значительно больше).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Предположим, что эпидемия заканчивается тогда, когда прирост общего числа заболевших за один день становится меньше 1% от общего числа

заболевших за предыдущий день. Тогда:

1 + (^-1)е-"£

т

/п ' < 1.01

1 + (т^ -1)e-J(t+1)

- 1)(1 - 1.01e-*) < 0. V/o '

Значит, время можно оценить так:

0.01

/п

(^ - 1)(1 - 1.01е-*)

t >------ (18)

X

В результате расчета получаем, что окончание эпидемии в Швейцарии наступит через 44 дня (для определения t использовалось оптимизированное значение ).

Итак, прогнозируемая дата окончания эпидемии коронавирусной инфекции в Швейцарии - 4 июня 2020 года.

И модель экспоненциального роста, и SIS-модель показывают довольно точные результаты при анализе эпидемии, распространяющейся в естественных природных условиях. В современном мире, разумеется, появляется значительное количество факторов, сдерживающих развитие инфекции. Но, как удалось выяснить, применение математических эпидемических моделей все же оправдано: они позволяют сделать приблизительный прогноз относительно динамики распространения вируса и предсказать возможную дату окончания эпидемии.

Литература

1. Coronavirus Source Data [Электронный ресурс] URL: https://ourworldindata.org/coronavirus-source-data (Дата обращения: 26.04.2020)

2. Белоцерковский О.М., Холодов А.С. Компьютерные модели и прогресс медицины. М.: Наука, 2001. 300 с.

3. Леоненко В.Н. Математическая эпидемиология: учебно-методическое пособие по выполнению лабораторных работ. СПб.: Университет ИТМО, 2018. 38 с.

4. Численные методы [Электронный ресурс] URL: http: //orloff am.tpu.ru/chisl_metod_labs/Lab3/norma. htm (Дата обращения: 26.04.2020)

Literature

1. Coronavirus Source Data [Electronic resource]

URL: https://ourworldindata.org/coronavirus-source-data (Date of treatment: 04/26/2020)

2. Belotserkovsky O.M., Kholodov A.S. Computer models and medical progress. M .: Nauka, 2001.300 s.

3. Leonenko V.N. Mathematical epidemiology: a teaching aid for laboratory work. SPb .: ITMO University, 2018.38 s.

4. Numerical methods [Electronic resource]

URL: http://orloff.am.tpu.ru/chisl metod labs/Lab3/norma.htm (Date of appeal: 04/26/2020)

i Надоели баннеры? Вы всегда можете отключить рекламу.