Научная статья на тему 'Прогнозирование эпидемиологических показателей гриппа на основании запросов Yandex'

Прогнозирование эпидемиологических показателей гриппа на основании запросов Yandex Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
80
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ / FORECAST / СТАТИСТИКА ЗАПРОСОВ / QUERY STATISTICS / ГРИПП / FLU / ЭПИДЕМИЯ / EPIDEMIC

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соколов Алексей Дмитриевич

В статье анализируется возможность прогнозировать эпидемиологические показатели гриппа, опираясь на статистику поисковых запросов Yandex. Модели строятся в технике МГУА с помощью оболочки GMDH Shell.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Соколов Алексей Дмитриевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Прогнозирование эпидемиологических показателей гриппа на основании запросов Yandex»

Predicting influenza epidemiological indicators based on requests Yandex

Sokolov A. (Ukraine) Прогнозирование эпидемиологических показателей гриппа на основании

запросов Yandex Соколов А. Д. (Украина)

Соколов Алексей Дмитриевич /Sokolov Alexey — студент, кафедра биомедицинской кибернетики, факультет биомедицинской инженерии, Киевский политехнический институт, г. Киев, Украина

Аннотация: в статье анализируется возможность прогнозировать эпидемиологические показатели гриппа, опираясь на статистику поисковых запросов Yandex. Модели строятся в технике МГУА с помощью оболочки GMDH Shell.

Abstract: the article analyzes to predict influenza epidemiological indicators based on the statistics of search queries Yandex. Models are built in the technique of GMDH using GMDH Shell.

Ключевые слова: прогнозирование, статистика запросов, грипп, эпидемия. Keywords: forecast, query statistics, flu, epidemic.

Прогнозирование - процесс предсказания будущего состояния предмета или явления на основе анализа его прошлого и настоящего, систематически оцениваемая информация о качественных и количественных характеристиках развития выбранного предмета или явления в перспективе. Результатом прогнозирования является прогноз - знание о будущем и о вероятном развитии сегодняшних тенденций конкретного явления-объекта в дальнейшем существовании.

Актуальность проблемы состояния гриппо-вирусных заболеваний говорит сама за себя. Каждый год наблюдается эпидемия гриппа, и каждый год больницы не могут подготовиться к этому в полном объеме. Если бы больницы имели возможность знать предварительные прогнозы количества людей, которые обратятся в больницу, то медицинские учреждения могли бы подготовиться должным образом к определенному наплыву людей.

Яндекс Вордстат - это инструмент для подбора ключевых слов на основании запросов пользователей, который отражает статистику по частоте использования указанного слова, а также, по словам с похожей тематикой. С помощью этого сервиса мы можем видеть динамику интересующих нас запросов.

В данной работе будет использоваться статистика запросов «грипп», «ОРВИ», «таблетки от гриппа», так как динамика именно этих запросов очень схожа с динамикой количества обращений в больницу с жалобами на грипп. Модели строились в технике МГУА. Метод был предложен в 70 гг. Прошлого века акад. А. Г. Ивахненко, и в дальнейшем развит им и его учениками [1, 2].

Суть метода заключается в следующем: задается класс моделей, например, это может быть полиномиальная функция; выборка данных делится на две части: обучение и контроль; на каждом шагу алгоритма на обучающей выборке определяются параметры модели с помощью внутреннего критерия, при этом оценка качества модели выполняется на контрольной выборке с помощью внешнего критерия; модель шаг за шагом усложняется до момента достижения экстремума внешнего критерия. Таким образом, получается модель оптимальной сложности.

Для расчетов в технике МГУА использовалась оболочка GMDH Shell. В составе оболочки -комбинаторный и нейроподобные алгоритмы МГУА. Пакет предоставляет множество возможностей по перебору большого количества моделей с различными настройками, управляемыми пользователем.

Модели строились в режиме Demand Forecast с горизонтом прогноза 2 и количеством экзаменов 2 с помощью комбинаторного алгоритма МГУА. Наблюдения были перемешаны псевдослучайно, проверка модели - перекрестная.

Сначала была построена модель, которая использовала только фактическое количество людей, которые обращались в больницу каждый месяц, и строила прогноз, опираясь только на эти данные без использования статистики запросов. Были получены коэффициент детерминации R2 = 55% и значение ошибки MAPE = 53%.

Следующая модель учитывала и фактические данные по больнице, и статистику запросов. Были получены коэффициент детерминации R2 = 90% и значение ошибки MAPE = 23%.

Модель с учетом запросов показала гораздо лучший результат, чем модель, которая опиралась только на фактические данные: значение R2 = 90% и MAPE = 23% против R2 = 55% и MAPE = 53%.

Выводы. В настоящее время для оценки и прогноза состояния гриппо -вирусных заболеваний можно опираться на статистику запросов, сделанную в системе регистрации запросов Yandex Wordstat на основании этих данных мы можем оценить и спрогнозировать эпидемиологическое состояние населения на ближайшее время.

Литература

1. Ивахненко А., Степашко В. Помехоустойчивость моделирования. // Киев: Наук. Думка, 1985.

2. Степашко В. Индуктивное моделирование в исторической перспективе. // Труды 4-й межд. конф. по индуктивному моделированию (ICIM-2013), НАНУ, Чешский технический университет, Киев, 2013. С. 31 -37.

i Надоели баннеры? Вы всегда можете отключить рекламу.