УДК: 616.981.455 DOI: 10.12737/17087
АНАЛИЗ ВРЕМЕННЫХ РЯДОВ В ПРОГНОЗИРОВАНИИ ПРИРИРОДНО-ОЧАГОВЫХ ИНФЕКЦИЙ
В.А. ЕВСТЕГНЕЕВА, Т.В. ЧЕСТНОВА, О.Л. СМОЛЬЯНИНОВА
Медицинский институт, Тульский государственный университет, ул. Болдина, 128, Тула, Россия, 300012
Аннотация. Математические методы и модели, используемые в задачах прогнозирования, могут относиться к самым различным разделам: к регрессионному анализу, анализу временных рядов, формированию и оцениванию экспертных мнений, имитационному моделированию, системам одновременных уравнений, дискриминантному анализу, логит- и пробит- моделям, аппарату логических решающих функций, дисперсионному или ковариационному анализу, анализу ранговых корреляций и таблиц сопряженности и т.д.
При анализе явления за длительный временной период, например, многолетней динамики заболеваемости с прогнозом дальнейшего развития процесса, используется уровень временного ряда, который формируется под воздействием следующих факторов:
• формирующих тенденцию ряда (тренд, характеризующий совокупное долговременное воздействие множества факторов на динамику изучаемого явления - возрастание или убывание);
• формирующих циклические колебания ряда, связанные с сезонностью заболевания;
• случайные факторы.
В нашей работе мы провели исследование по выявлению цикличности во временных рядах много -летней динамики заболеваемости геморрагической лихорадки с почечным синдромом и осенней численности рыжей полевки. Данное исследование проводили с помощью коэффициента автокорреляции.
В результате проведенных исследований в динамических рядах показателей заболеваемости геморрагической лихорадки с почечным синдромом, показателей осенней численности рыжей полевки не выявлено цикличности и данные показатели являются случайными величинами, что подтверждается тремя тестами: о неповторяемости временного ряда, об оценке повышения и понижения временного ряда, анализе суммы квадратов. Это показывает, что показатели временного ряда могут иметь нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ, например с помощью регрессионного анализа.
Ключевые слова: природно-очаговые инфекции, рыжая полевка, геморрагическая лихорадка с почечным синдромом, анализ временных рядов, автокорреляция, показатель заболеваемости, численность, авторегрессионные модели, кореллограмма.
TIME SERIES ANALYSIS IN FORECASTING PRIRIRODNO FOCAL INFECTIONS
V.A. EVSTEGNEEVA, T.V. CHESTNOVA, O. L. SMOLYANINOVA
Medical Institute, Tula State University, str. Boldin, 128, Tula, Russia, 300012
Abstract. Mathematical methods and models used in forecasting problems may relate to a wide variety of topics: from the regression analysis, time series analysis, formulation and evaluation of expert opinions, simulation, systems of simultaneous equations, discriminant analysis, logit and probit models, logical unit decision functions, variance or covariance analysis, rank correlation and contingency tables, etc.
In the analysis of the phenomenon over a long timeperiod, for example, the incidence of long-term dynamics with a forecast of further development of the process, you should use the time series, which is influenced by the following factors:
• Emerging trends of the series (the trend in cumulative long-term effects of many factors on the dynamics of the phenomenon under study - ascending or descending);
• forming a series of cyclical fluctuations related to the seasonality of the disease;
• random factors.
In our study, we conducted a study to identify cyclical time series of long-term dynamics of morbidity of HFRS and autumn bank vole population. This study was performed using the autocorrelation coefficient.
As a result of time-series studies of incidence of HFRS, indicators autumn bank vole population revealed no recurrence, and these figures are random variables, which is confirmed by three tests: nonrepeatability of time series, the assessment increase and decrease time-series analysis of the sum of squares. This shows that a number
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
of indicators of the time series are random variables, contains a strong non-linear trend, to identify which need further analysis, for example by means of regression analysis.
Keywords: natural focal infections, voles, HFRS, time series analysis, autocorrelation, incidence, number, autoregressive model correlograms.
Математические методы и модели, используемые в задачах прогнозирования, могут относиться к самым различным разделам: к регрессионному анализу, анализу временных рядов, формированию и оцениванию экспертных мнений, имитационному моделированию, системам одновременных уравнений, дискриминантному анализу, логит- и пробит- моделям, аппарату логических решающих функций, дисперсионному или ковариационному анализу, анализу ранговых корреляций и таблиц сопряженности и т.д.[1-5]. Однако все они объединены тем, что представляют собой различные подходы к решению центральной проблемы многомерного статистического анализа и эконометрики - проблемы статистического исследования зависимостей, которая как раз и является базовой проблемой статистического анализа.
В нашей работе мы использовали анализ временных рядов. Временной ряд - это ряд значений показателей заболеваемости природно-очаговых инфекций за определенный период времени. Каждый уровень временного ряда формируется под воздействием факторов:
• формирующих тенденцию ряда (тренд, характеризующий совокупное долговременное воздействие множества факторов на динамику изучаемого явления - возрастание или убывание);
• формирующих циклические колебания ряда, связанные с сезонностью заболевания;
• случайные факторы.
В большинстве случаев фактический уровень временного ряда можно представить как сумму или произведение трендовой, циклической и случайной компонент. В случае суммы - модель аддитивная, в случае произведения - модель мультипликативная.
Пусть исследуется показатель Y (показатель заболеваемости). Его значение в текущий момент (период) времени t обозначают yt; значения Y в последующие моменты обозначаются yt+1, yt+2, ... , yt+k, ...; значения Y в предыдущие моменты обозначаются yt-1, yt-2, ... , yt-k, ... .
Если при анализе развития заболеваемости во времени используются в качестве объясняющих переменных не только текущие их значения, но и некоторые предыдущие по времени значения, а также само время T, то модель называется динамической.
Переменные, влияние которых характеризуется определенным запаздыванием - лаговые переменные. Лаг - временное запаздывание.
Динамические модели подразделяются на два класса:
Модели с распределенными лагами - содержат в качестве лаговых переменных лишь независимые (объясняющие) переменные. Примером является модель:
yt = я + ß 0 xt + ß 1 xt _1 + - + ß kxt _ k + e t
Авторегрессионные модели - это модели, уравнения которых в качестве лаговых объясняющих переменных включают зависимые переменные. Примером является модель:
yt =а + ßxt +yyt _ 1 +st .
При наличии во временном ряде показателей заболеваемости - тенденции и циклические колебания значения каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда.
Количественно ее можно измерить с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутыми на несколько шагов во времени. Два важных свойства коэффициента автокорреляции:
• он строится по аналогии с линейным коэффициентом корреляции и, таким образом, характеризует тесноту только линейной связи текущего и предыдущего уровней ряда (для некоторых временных рядов, имеющих сильную нелинейную тенденцию, коэффициент автокорреляции уровней исходного ряда может приближаться к нулю);
• по знаку коэффициента автокорреляции нельзя делать вывод о возрастающей или убывающей тенденции в уровнях ряда (большинство временных рядов экономических данных содержит положительную автокорреляцию уровней, однако при этом могут иметь убывающую тенденцию).
Последовательность коэффициентов автокорреляции уровней первого, второго и т.д. порядков называют автокорреляционной функцией временного ряда. График зависимости этой функции от величины лага (порядка коэффициента корреляции) называется коррелограммой. И сама автокорреляционная функция, и коррелограмма позволяют выявить структуру ряда (определить лаг, при котором автокорреляция наиболее высокая, а следовательно, и лаг, при котором связь между текущим и предыдущим уров-
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
нями ряда наиболее тесная).
Если наиболее высоким оказался коэффициент автокорреляции первого порядка, исследуемый ряд содержит только тенденцию (то есть трендовый компонент Т). Если наиболее высоким оказался коэффициент автокорреляции порядка т, ряд содержит циклические колебания (циклическую компоненту 5) с периодичностью в т моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, можно сделать одно из двух предположений относительно структуры ряда: либо ряд не содержит тенденции и циклических колебаний, либо ряд содержит сильную нелинейную тенденцию, для выявления которой нужно провести дополнительный анализ.
Число периодов, по которым рассчитывается коэффициент автокорреляции, называют лагом. С увеличением лага число пар значений, по которым рассчитывается коэффициент автокорреляции, уменьшается. Считается целесообразным для обеспечения статистической достоверности коэффициентов автокорреляции использовать правило - максимальный лаг должен быть не больше п/4.
В нашей работе мы провели исследование по выявлению цикличности во временных рядах многолетней динамики заболеваемости природно-очаговых инфекций (ПОИ), эпизоотий туляремии, численности основных носителей и переносчиков инфекций. Данное исследование проводили с помощью коэффициента автокорреляции.
Проанализируем динамический ряд показателей заболеваемости (ПЗ) геморрагической лихорадки с почечным синдромом (ГЛПС) и показателей осенней численности ее основного носителя - рыжей полевки с помощью автокорреляции.
Для прогнозирования заболеваемости ГЛПС в Тульской области нами был использован временной ряд показателей заболеваемости за период с 1991 по 2015 годы. Первым шагом при прогнозировании стало определение возможности повторяемости во времени или цикличности заболеваемости. С этой целью был построен график временной последовательности (рис.1).
Рис. 1. Горизонтальный график временной последовательности заболеваемости ГЛПС в Тульской области за период с 1991 по 2015 годы
Если предположить, что временной ряд имеет повторяемости, то тогда необходимо проанализировать характеристики ряда и определить параметры прогнозирующей модели.
Для определения является ли ПЗ ГЛПС случайной последовательностью чисел, были выполнены три теста с применением пакета математического анализа 51а1%гарЫе$. Мы воспользовались описательными методиками с определением основных статистик, автокорреляционной функции, кросс-корреляционной функции и т.д. Из рис. 2 видно, что данный процесс не имеет цикличности, т.е. является случайной последовательностью чисел, т.к. значения лагов значительно ниже 95% доверительной границы.
i
0,6
0,2
-0,2
-0,6
_Рис. 2. Анализ цикличности заболеваемости ГЛПС по временному ряду_
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
Значения коэффициентов автокорреляции, характеризующих наличие повторяемости составляющей, приведены в табл. 1.
Таблица 1
Результаты оценки значений коэффициентов корреляции временного ряда заболеваемости ГЛПС
Лаг Коэффициент автокорреляции Стандартная ошибка Нижний уровень 95% доверительной вероятности Верхний уровень 95% доверительной вероятности
1 -0,00931352 0,208514 -0,408682 0,408682
2 -0,186602 0,208533 -0,408717 0,408717
3 0,0422813 0,21567 -0,422707 0,422707
4 0,0380584 0,21603 -0,423412 0,423412
5 -0,235419 0,216322 -0,423983 0,423983
6 -0,298046 0,227188 -0,445281 0,445281
7 0,0579293 0,243596 -0,47744 0,47744
Проведение расчетов показателей наличия повторяемости составляющей проведены по трем тестам. Результаты тестового контроля приведены в табл. 2.
Таблица 2
Результаты тестирования временного ряда
Оцениваемый параметр Значение параметра
Тест 1. Неповторяемость временного ряда
Медиана 97
Количество значений выше или ниже медианы распределения 11
Контрольное значение 12
Большая выборка тестовая статистика = ъ - 0,218466
Р - значение 0, 827062
Тест 2. Оценка повышения и понижения временного ряда
Оценка повышения и понижения 14
Контрольное значение 15
Большая выборка тестовая статистика = ъ - 0, 257627
Р- значение 0,796691
Тест 3. Анализ суммы квадратов
Тест, основанный на первых 7 автокорреляций
Большая выборка тестовая статистика = ъ - 4, 27231
Р - значение 0, 747933
Примечание:
• 1 тест показывает, сколько раз в последовательности количество значений было выше или ниже медианы. Количество таких значений составляет 11, а ожидаемое число 12, при этом /»-значение составляет 0,8270. Это означает, что мы не можем отклонить гипотезу о том, что ПЗ ГЛПС является случайной
последовательностью чисел на 82,7%. • 2 тест на оценку повышения и понижения временного ряда при контрольном значении 15 оценивается величиной 14, а доверительная вероятность, что ПЗ ГЛПС является случайной величиной составляет 79,6%.
• 3 тест, основанный на анализе суммы квадратов последовательности чисел, показывает, что с 74,7%
доверительной вероятностью можно отвергнуть наличие повторяемости компоненты.
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
Приведенные данные в табл. 1,2 и на рис. 2 позволяют сделать выводы об отсутствии цикличности в формировании временного ряда показателей заболеваемости ГЛПС. В этом случае, имеющаяся выборка данных, относится к случайной величине.
Для прогнозирования осенней численности рыжей полевки нами был использован временной ряд показателей ее осенней численности за период с 1991 по 2015 годы. Первым шагом при прогнозировании стало определение возможности повторяемости во времени или цикличности заболеваемости. С этой целью был построен график временной последовательности (рис. 3).
Рис. 3. Горизонтальный график временной последовательности осенней численности рыжей полевки в
Тульской области за период с 1991 по 2015 годы
Estimated Autocorrelations for числ р. п.осень
Рис. 4. Анализ цикличности численности рыжей полевки по временному ряду.
Значения коэффициентов автокорреляции, характеризующих наличие повторяемости составляющей, приведены в табл. 3.
Таблица 3
Результаты оценки значений коэффициентов корреляции временного ряда осенней численности рыжей полевки
Лаг Коэффициент автокорреляции Стандартная ошибка Нижний уровень 95% доверительной вероятности Верхний уровень 95% доверительной вероятности
1 0,3591 0,2041 - 0,400 0,400
2 0,2469 0,2289 -0,448 0,448
3 - 0,011 0,2397 -0,469 0,469
4 - 0,092 0,2398 -0,470 0,470
5 - 0,1811 0,2412 -0,472 0,472
6 0,0401 0,2468 -0,483 0,483
7 - 0,1413 0,24571 - 0,484 0,484
8 - 0,1704 0,2505 - 0,491 0,491
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
Проведение расчетов показателей наличия повторяемости составляющей проведены по трем тестам. Результаты тестового контроля приведены в табл. 4.
Таблица 4
Результаты тестирования временного ряда
Оцениваемый параметр Значение параметра
Тест 1. Неповторяемость временного ряда
Медиана 18,65
Количество значений выше или ниже медианы распределения 11
Контрольное значение 13
Большая выборка тестовая статистика = ъ - 0,6261
Р - значение 0,5312
Тест 2. Оценка повышения и понижения временного ряда
Оценка повышения и понижения 12
Контрольное значение 15,667
Большая выборка тестовая статистика = ъ - 1,5944
Р- значение 0,1108
Тест 3. Анализ суммы квадратов
Тест, основанный на первые 8 автокорреляции
Большая выборка тестовая статистика = ъ 6,771
Р - значение 0,5615
Примечание:
• 1 тест на неповторяемость временного ряда показывает, что количество значений выше или ниже медианы распределения составляет 11 при контрольном значении 13, при этом р - значение составляет
0,53. Это означает, что мы не можем отклонить гипотезу о том, что показатель осенней численности рыжей полевки является случайной величиной на 53,1%.
• 2 тест на оценку повышения и понижения временного ряда при контрольном значении 12 оценивается
величиной 15,6, а доверительная вероятность неповторяемости ряда составляет 11%. • 3 тест, основанный на анализе суммы квадратов последовательности чисел, показывает, что с 56,2% доверительной вероятностью можно отвергнуть наличие повторяемости компоненты.
Приведенные данные в табл. 3, 4 и на рис. 4 позволяют сделать выводы об отсутствии повторяемости в формировании временного ряда осенней численности рыжей полевки. В этом случае имеющаяся выборка данных относится к случайной выборке.
Проведенный анализ временных рядов показателя заболеваемости ГЛПС и осенней численности рыжей полевки показывает об отсутствии цикличности в данных динамических рядах и показатели являются случайными величинами.
Причинами существования случайной составляющей несколько:
1. Не включение факторов (х), влияющих на (у). Часто встречаются факторы, которых следовало бы включить в регрессионное уравнение, но невозможно этого сделать в силу их количественной неизмеримости. Возможно, что существуют также и другие факторы, которые оказывают такое слабое влияние, что их в отдельности не целесообразно учитывать, а совокупное их влияние может быть уже существенным. Кроме того, могут быть факторы, которые являются существенными, но которые из-за отсутствия опыта таковыми не считаются.
2. Агрегирование переменных. Рассматриваемая зависимость - это попытка объединить вместе некоторое число соотношений. Так как отдельные соотношения, имеют разные параметры, попытка объединить их является аппроксимацией.
3. Выборочный характер исходных данных. Поскольку исследователи чаще всего имеет дело с выборочными данными при установлении связи между у и х , то возможны ошибки и в силу неоднородности данных в исходной статистической совокупности. Для получения хорошего результата обычно исключают из совокупности наблюдения с аномальными значениями исследуемых признаков. И в этом случае результаты регрессии представляют собой выборочные характеристики.
4. Неправильная функциональная спецификация. Функциональное соотношение между у и х математически может быть определено неправильно. Например, истинная зависимость может не являться
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087
линейной, а быть более сложной. Следует стремиться избегать возникновения этой проблемы, используя подходящую математическую формулу, но любая формула является лишь приближением истинной связи у и х и существующее расхождение вносит вклад в остаточный член.
5. Возможные ошибки измерения.
Таким образом, при исследовании временных рядов показателей заболеваемости ГЛПС и показателей осенней численности рыжих полевок анализ временных рядов, а именно метод автокорреляции, не выявил цикличность и данные показатели являются случайными величинами, что подтверждается тремя тестами: о неповторяемости временного ряда, об оценке повышения и понижения временного ряда, анализе суммы квадратов. Это показывает, что ряд может иметь нелинейную зависимость, для выявления которой нужно провести дополнительное исследование, например, регрессионный анализ.
Литература
1.Новохатка А.Д., Смольянинова О.Л., Честнова Т.В. Влияние инфицированности и численности мелких млекопитающих по ландшафтно-географическим зонам Тульской области на заболеваемость лептоспирозом серогруппы гриппотифоза // Вестник новых медицинских технологий. 2005. №1. С. 122124.
2.Честнова Т.В., Смольянинова О.Л., Логвинов С.И. К вопросу о выборе метода математического анализа с целью прогнозирования заболеваемости лептоспирозом // Вестник новых медицинских технологий. 2011. №4. С.18-21.
3.Честнова Т.В., Смольянинова О.Л, Смольянинова В.А. К вопросу прогнозирования численности иксодовых клещей I. ricinus в природных биотопах с помощью искусственных нейронных сетей // Вестник новых медицинских технологий. 2012. №1. С. 231-232.
4.Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. О нейросетевом моделировании и прогнозировании эпизоотий туляремии на территории Тульской области // Вестник новых медицинских технологий. Электронное издание. 2014. № 1. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2014-1/5022. (Дата обращения: 1.12.2014). DOI: 10.12737/7240
5. Евстегнеева В.А. К вопросу о математических методах прогнозирования заболеваемости при-родно - очаговыми инфекциями // Вестник новых медицинских технологий. Электронное издание. 2014. № 1. Публикация 1-10. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2014-1/5023. (Дата обращения: 1.12.2014). DOI: 10.12737/7241
References
1.Novokhatka AD, Smolyaninova OL, Chestnova TV. Vliyanie infitsirovannosti i chislennosti melkikh mlecopitayushchikh po landshaftno-geograficheskim zonam Tulskoy oblasti na zabolevaemost leptospirosom serogruppygrippotifoza. Vestnic novykh meditsinskikh tekhnologiy. 2005;1:122-4. Russian.
2.Chestnova TV, Smolyaninova OL, Logvinov SI. K voprosu o vybore metoda prognosirovaniya zabole-vaemosti leptospirosom [The question of choosing the method of mathematical analysis for solving the problem of medical forecasting leptospirosys morbidity]. Vestnic novykh meditsinskikh tekhnologiy. 2011;4:18-21. Russian.
3.Chestnova TV, Smolyaninova OL, Smolyaninova VA. K voprosu prognozirovaniya chislennosti ikso-dovykh kleshchey I. ricinus v prirodnykh biotopakh s pomoshchyu iskusstvennykh neyronnykh setey [Forecasting the number of ixododae ix ricinus in natural biotopes by means of artificial neural networks]. Vestnic novykh meditsinskikh tekhnologiy. 2012;1:231-2. Russian.
4.Evstegneeva VA, Chestnova TV, Smol'yaninova OL. O neyrosetevom modelirovanii i prognozi-rovanii epizootiy tulyaremii na territorii Tul'skoy oblasti. Vestnik novykh meditsinskikh tekhnolo-giy. Elektronnoe iz-danie [internet]. 2014[cited 2014 Dec 1];1[about 7 p.]. Russian. Available from: http://www.medtsu.tula.ru/ VNMT/Bulletin/E2014-1/5022. DOI: 10.12737/7240
5. Evstegneeva VA. K voprosu o matematicheskikh metodakh prognozirovaniya zabolevaemosti pri-rodno - ochagovymi infektsiyami. Vestnik novykh meditsinskikh tekhnologiy. Elektronnoe izdanie [internet]. 2014[cited 2014 Dec 1];1:[about 7 p.]. Russian. Available from: http://www.medtsu.tula.ru/VNMT/ Bulle-tin/E2014-1/5023. DOI: 10.12737/7241
Библиографическая ссылка:
Евстегнеева В.А., Честнова Т.В., Смольянинова О.Л. Анализ временных рядов в прогнозировании при-риродно-очаговых инфекций // Вестник новых медицинских технологий. Электронное издание. 2015. №4. Публикация 1-9. URL: http://www.medtsu.tula.ru/VNMT/Bulletin/E2015-4/5324.pdf (дата обращения: 30.11.2015). DOI: 10.12737/17087