Predicting influenza epidemiological indicators based on requests Yandex
Sokolov A. (Ukraine) Прогнозирование эпидемиологических показателей гриппа на основании
запросов Yandex Соколов А. Д. (Украина)
Соколов Алексей Дмитриевич /Sokolov Alexey — студент, кафедра биомедицинской кибернетики, факультет биомедицинской инженерии, Киевский политехнический институт, г. Киев, Украина
Аннотация: в статье анализируется возможность прогнозировать эпидемиологические показатели гриппа, опираясь на статистику поисковых запросов Yandex. Модели строятся в технике МГУА с помощью оболочки GMDH Shell.
Abstract: the article analyzes to predict influenza epidemiological indicators based on the statistics of search queries Yandex. Models are built in the technique of GMDH using GMDH Shell.
Ключевые слова: прогнозирование, статистика запросов, грипп, эпидемия. Keywords: forecast, query statistics, flu, epidemic.
Прогнозирование - процесс предсказания будущего состояния предмета или явления на основе анализа его прошлого и настоящего, систематически оцениваемая информация о качественных и количественных характеристиках развития выбранного предмета или явления в перспективе. Результатом прогнозирования является прогноз - знание о будущем и о вероятном развитии сегодняшних тенденций конкретного явления-объекта в дальнейшем существовании.
Актуальность проблемы состояния гриппо-вирусных заболеваний говорит сама за себя. Каждый год наблюдается эпидемия гриппа, и каждый год больницы не могут подготовиться к этому в полном объеме. Если бы больницы имели возможность знать предварительные прогнозы количества людей, которые обратятся в больницу, то медицинские учреждения могли бы подготовиться должным образом к определенному наплыву людей.
Яндекс Вордстат - это инструмент для подбора ключевых слов на основании запросов пользователей, который отражает статистику по частоте использования указанного слова, а также, по словам с похожей тематикой. С помощью этого сервиса мы можем видеть динамику интересующих нас запросов.
В данной работе будет использоваться статистика запросов «грипп», «ОРВИ», «таблетки от гриппа», так как динамика именно этих запросов очень схожа с динамикой количества обращений в больницу с жалобами на грипп. Модели строились в технике МГУА. Метод был предложен в 70 гг. Прошлого века акад. А. Г. Ивахненко, и в дальнейшем развит им и его учениками [1, 2].
Суть метода заключается в следующем: задается класс моделей, например, это может быть полиномиальная функция; выборка данных делится на две части: обучение и контроль; на каждом шагу алгоритма на обучающей выборке определяются параметры модели с помощью внутреннего критерия, при этом оценка качества модели выполняется на контрольной выборке с помощью внешнего критерия; модель шаг за шагом усложняется до момента достижения экстремума внешнего критерия. Таким образом, получается модель оптимальной сложности.
Для расчетов в технике МГУА использовалась оболочка GMDH Shell. В составе оболочки -комбинаторный и нейроподобные алгоритмы МГУА. Пакет предоставляет множество возможностей по перебору большого количества моделей с различными настройками, управляемыми пользователем.
Модели строились в режиме Demand Forecast с горизонтом прогноза 2 и количеством экзаменов 2 с помощью комбинаторного алгоритма МГУА. Наблюдения были перемешаны псевдослучайно, проверка модели - перекрестная.
Сначала была построена модель, которая использовала только фактическое количество людей, которые обращались в больницу каждый месяц, и строила прогноз, опираясь только на эти данные без использования статистики запросов. Были получены коэффициент детерминации R2 = 55% и значение ошибки MAPE = 53%.
Следующая модель учитывала и фактические данные по больнице, и статистику запросов. Были получены коэффициент детерминации R2 = 90% и значение ошибки MAPE = 23%.
Модель с учетом запросов показала гораздо лучший результат, чем модель, которая опиралась только на фактические данные: значение R2 = 90% и MAPE = 23% против R2 = 55% и MAPE = 53%.
Выводы. В настоящее время для оценки и прогноза состояния гриппо -вирусных заболеваний можно опираться на статистику запросов, сделанную в системе регистрации запросов Yandex Wordstat на основании этих данных мы можем оценить и спрогнозировать эпидемиологическое состояние населения на ближайшее время.
Литература
1. Ивахненко А., Степашко В. Помехоустойчивость моделирования. // Киев: Наук. Думка, 1985.
2. Степашко В. Индуктивное моделирование в исторической перспективе. // Труды 4-й межд. конф. по индуктивному моделированию (ICIM-2013), НАНУ, Чешский технический университет, Киев, 2013. С. 31 -37.