Научная статья на тему 'ПРИМЕНЕНИЕ ЗАКОНА БЕНФОРДА ДЛЯ АНАЛИЗА ДАННЫХ ПО ЗАБОЛЕВАЕМОСТИ КОРОНАВИРУСОМ В РОССИИ'

ПРИМЕНЕНИЕ ЗАКОНА БЕНФОРДА ДЛЯ АНАЛИЗА ДАННЫХ ПО ЗАБОЛЕВАЕМОСТИ КОРОНАВИРУСОМ В РОССИИ Текст научной статьи по специальности «Прочие медицинские науки»

420
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Закон Бенфорда / проверка гипотез / анализ данных / коронавирус / Benford's law / hypothesis testing / data analysis / coronavirus

Аннотация научной статьи по прочим медицинским наукам, автор научной работы — Титова Елизавета Михайловна

В работе рассмотрена задача анализа и проверки статистических данных о количестве зараженных людей на территории России с помощью закона Бенфорда.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по прочим медицинским наукам , автор научной работы — Титова Елизавета Михайловна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF BENFORD'S LAW TO ANALYZE DATA ON CORONAVIRUS INCIDENCE IN RUSSIA

The paper considers the problem of analyzing and checking statistical data on the number of infected people in Russia using Benford's law.

Текст научной работы на тему «ПРИМЕНЕНИЕ ЗАКОНА БЕНФОРДА ДЛЯ АНАЛИЗА ДАННЫХ ПО ЗАБОЛЕВАЕМОСТИ КОРОНАВИРУСОМ В РОССИИ»

Научные междисциплинарные исследования государственных нужд. Стандартные форматы описания предметов снабжения.

Правила разработки, ведения и применения» // http:// http://docs.cntd.ru/

[Электронный ресурс] - Режим доступа: http://docs.cntd.ru/ (Дата обращения:

08.04.2020).

6. Аминов Л.А., Степанов С.Б., Варюхин С.В. Анализ состояния структуры разделов каталога предметов снабжения ВС РФ, закрепленных за продовольственным и вещевым управлениями МО РФ // Научные проблемы материально-технического обеспечения ВО РФ: сборник научных трудов / Изд-во Политехнического университета. СПб., 2018. №4(10). С.54-62.

УДК 004

Титова Елизавета Михайловна Titova Elizaveta Michailovna

Студент Student

Ярославский государственный университет им П.Г. Демидова

P.G. Demidov Yaroslavl State University

ПРИМЕНЕНИЕ ЗАКОНА БЕНФОРДА ДЛЯ АНАЛИЗА ДАННЫХ ПО ЗАБОЛЕВАЕМОСТИ КОРОНАВИРУСОМ В РОССИИ

APPLICATION OF BENFORD'S LAW TO ANALYZE DATA ON CORONAVIRUS INCIDENCE IN RUSSIA

Аннотация. В работе рассмотрена задача анализа и проверки статистических данных о количестве зараженных людей на территории России с помощью закона Бенфорда.

Abstract: The paper considers the problem of analyzing and checking statistical data on the number of infected people in Russia using Benford's law.

Ключевые слова. Закон Бенфорда, проверка гипотез, анализ данных, коронавирус Key words: Benford's law, hypothesis testing, data analysis, coronavirus.

VIII Международная научно-практическая конференция

Введение

Первые случаи заражения коронавирусной инфекцией были выявлены в декабре 2019 года. С тех пор заболевание распространилось по всему миру, что привело к продолжающейся до сих пор пандемии коронавируса. Правительства разных стран с первых дней распространения заболевания собирают данные о случаях заражения, выздоровления и смертей, а также публикуют их в открытых источниках. Открытый подход к публикации данных позволяет исследователям разных стран строить аналитику и прогнозы, а также помогает принимать эффективные решения по предотвращению эпидемии. В этой статье рассматривается исследование опубликованных данных о заражениях СОУГО-19 в России и её регионах. Производится проверка данных на искаженность с применением закона Бенфорда.

Постановка задачи

Необходимо проверить соблюдение закона Бенфорда для данных о ежедневных случаях заражения коронавирусом в России и её регионах. Источником данных для исследования является сайт https://yandex.ru/covid19/stat. Он агрегирует статистику с ресурса стопкоронавирус.рф — официального интернет-ресурса для информирования населения по вопросам коронавируса (СОУГО-19).

Закон Бенфорда

Закон Бенфорда - это наблюдение о распределении частот первых цифр чисел во многих реальных наборах данных. Он гласит, что первые цифры «реальных» наборов распределены не равномерно, а следуют логарифмическому распределению. [1, с 551-572]

Р(а) = ^о(1 + ^,для а е(1,...,9)

Для десятичной системы счисления были вычислены значения вероятности возникновения первой цифры. Они представлены в таблице 1 (табл.1). [2, с. 40]

Таблица 1. Вероятности частот

d 1 2 3 4 5 6 7 8 9

P 30.1% 17.6% 12.5% 9.7% 7.9% 6.7% 5.8% 5.1% 4.6%

Области применения закона

Закон Бенфорда применяется для обнаружения мошенничества или недостатков в сборе данных. Использование закона Бенфорда для обнаружения мошенничества широко представлено в экономике и бухгалтерском учете [3, с. 218-223]. Распределение первых цифр Бенфорда возникает естественным образом для экспоненциальных процессов [4, c 16 - 24]. Распространение COVID-19 демонстрирует экспоненциальный рост [5], поэтому данные о заражаемости можно проверить на соответствие закону Бенфорда. Если данные не были искусственным образом искажены, то закон Бенфорда должен соблюдаться.

Метрика согласованности распределения

За метрики близости двух распределений взяты значения абсолютной и относительной ошибки.

п

АЕ = ^\Ок-Ек\

к=0

Где, Ок (observed value) - наблюдаемое значение. Ек(expected value) -ожидаемое значение.

АЕ

RE = * 100%

Lk=0

Где, AE (absolute error) - абсолютная ошибка. RE (relative error) -относительная ошибка.

Тест согласия хи-квадрат

Хи-квадрат - тест согласия, который является часто используемым методом для определения того, существенно ли отличается эмпирическое (наблюдаемое) распределение от теоретического (ожидаемого) распределения. В исследовании, для определения уровня значимости, будет использоваться уровень значимости а равный 0,05. Для проверки значимости закона Бенфорда

VIII Международная научно-практическая конференция требуется, чтобы наблюдаемое распределение соответствовало распределению Бенфорда. Нулевая гипотеза состоит в том, что наблюдаемое распределение следует теоретическому (Бенфордскому) распределению.

Результаты исследования Первыми были изучены данные по России за период с 1.03.2020 по 08.12.2020. Данные были предварительно обработаны. Удалены строчки (дни) с 0 количеством случаев заражения. Из оставшихся данных были извлечены первые цифры и посчитана частота и процент встречаемости каждой цифры. (табл.2)

Таблица 2. Фактическое распределение частот

Первая цифра Частота Процент

1 6716 30.3

2 3404 15.4

3 2513 11.3

4 2121 9.6

5 1884 8.5

6 1749 7.9

7 1472 6.6

8 1257 5.7

9 1058 4.8

Для большей наглядности, фактические и теоретические частоты были визуализированы. На графике ниже (рис.1) приведены результаты визуализации. Столбцы - наблюдаемые частоты, приведенные в проценты, черные точки -теоретические частоты по Бенфорду.

Вычисленная по формуле, абсолютная ошибка составила 1575 единиц. Относительная ошибка в процентах - 7.1 %.

Для проверки значимости отклонения, были сформулированы нулевая и альтернативная гипотезы.

Н0: Наблюдаемые частоты распределены согласно теоретическим по закону Бенфорда.

Н1: Наблюдаемые частоты не соответствуют теоретическим по закону Бенфорда.

Россия

Первая цифра

Рис. 1. Фактическое и теоретическое распределения частот первой цифры

Проверка показала, что с вероятностью 95% нулевая гипотеза отвергается. Наблюдаемые частоты не соответствуют теоретическим по закону Бенфорда. Тест согласия хи-квадрат является чувствительным к размеру выборки, так что даже такая небольшая относительная ошибка привела к отклонению нулевой гипотезы.

Следующими были изучены региональные данные за период с 1.03.2020 по 08.12.2020. Данные были обработаны аналогичным образом. Из 85 субъектов в 10 с вероятностью 95% была принята нулевая гипотеза, о соответствии наблюдаемых частот закону Бенфорда. Данные об абсолютных и относительных ошибках в этих регионах приведены в таблице 3 (табл.3).

Таблица 3. Абсолютные и относительные ошибки в регионах с

подтвержденной нулевой гипотезой.

Регион АЕ ЯЕ

Алтай 44.0 18.644068

Бурятия 39.0 15.116279

Вологодская обл. 17.0 6.692913

Калмыкия 37.0 14.566929

Карелия 50.0 20.242915

Кемеровская обл. 42.0 15.555556

Костромская обл. 28.0 10.937500

Крым 30.0 11.406844

Пермский край 52.0 19.188192

Томская обл. 46.0 17.293233

Удмуртия 30.0 11.450382

VIII Международная научно-практическая конференция В этих субъектах статистические данные не позволяют отвергнуть

нулевую гипотезу. Относительная ошибка варьируется от 6.69 до 20.24 %. Хотя

эти ошибки гораздо больше, чем получившиеся в целом по России, из-за не

такого большого числа заражений статистический тест был пройден.

В остальных 75 субъектах с вероятностью 95% была отвергнута нулевая

гипотеза о соответствии наблюдаемых частот закону Бенфорда. На графике ниже

(рис. 2) представлены в сравнении субъекты с самой высокой и самой низкой

относительной ошибкой.

Рис.2. Визуализация субъектов с самой высокой (справа) и самой низкой

(слева) относительной ошибкой

Научные междисциплинарные исследования Выводы:

В результате работы было выявлено, что в большинстве регионов России и в целом по России в период с 1.03.2020 по 08.12.2020 данные о заражении коронавирусом не подчиняются закону Бенфорда. Стоит отметить, что интерпретировать искажение данных можно различным образом, но сам факт искажения не является подтверждением манипуляции со статистикой. Введение масочного режима и других карантинных мер, уменьшение количества тестирования, несовершенство тестов - все эти события могли повлиять на кривую заражения и искусственным образом изменить цифры распределения. Закон Бенфорда может лишь выявить факт вмешательства, «неестественного» поведения цифр в данных, но не может определить причин этого поведения.

Библиографический список:

1. Benford, F., «The law of anomalous numbers», Proc. Am. Philos. Soc.78, 1938, с. 551-572

2. Newcomb S., «Note on the frequency of the use of digits in natural numbers», Amer. J. Math. 4, 1881, http://www.jstor.com/stable/2369148 , с. 39-40

3. Cho, W. K. T., and Gaines, B. J., «Breaking the (Benford) Law: Statistical Fraud Detection in Campaign Finance», The American Statistician, 61, 2007, с. 218223.

4. Kossovsky Alex Ely., «Exponential Growth Series and Benford's Law», https://arxiv.org/abs/1606.04425, PART 2: EXPONENTIAL GROWTH SERIES, с 16 - 24.

5. Remuzzi A., Remuzzi G., «COVID-19 and Italy: what next?», Lancet, 2020, https://www.thelancet.com/article/S0140-6736%2820%2930627-9/fulltext

i Надоели баннеры? Вы всегда можете отключить рекламу.