Научная статья на тему 'ОСНОВНЫЕ НАПРАВЛЕНИЯ СОВЕРШЕНСТВОВАНИЯ МЕТОДИКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ЦИФРОВОЙ ЭКОНОМИКИ'

ОСНОВНЫЕ НАПРАВЛЕНИЯ СОВЕРШЕНСТВОВАНИЯ МЕТОДИКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ЦИФРОВОЙ ЭКОНОМИКИ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
415
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ЭКОНОМИКА / ЦИФРОВИЗАЦИЯ / ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ / СТАТИСТИЧЕСКИЙ АНАЛИЗ / МАШИННОЕ ОБУЧЕНИЕ 50ECVN520 / DIGITAL ECONOMY / DIGITALIZATION / INFORMATION AND COMMUNICATION TECHNOLOGIES / STATISTICAL ANALYSIS / MACHINE LEARNING

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Прохорова Марина Михайловна

Нарастающие процессы цифровизации и датафикации в экономике России, увеличение объема передаваемой и хранимой информации, рост потребности государства в актуальной и достоверной аналитической информации для принятия управленческих решений накладывают новые требования на систему государственной статистики. Представление агрегированных таблиц и данных не отвечает потребность ключевых стейкхолдеров; необходим переход к предоставлению первичных деперсонифицированных данных в рамках цифровой аналитической платформы. В связи с этим автором рассматриваются ключевые недостатки текущей статистической методологии и основные направления ее совершенствования. К числу таких направлений автор относит развитие действующей статистической методики с использованием искусственного интеллекта с целью полного анализа больших данных, аккумулируемых в рамках перспективной статистической системы. Предлагается и рассматривается методика статистического анализа на базе методов машинного обучения. Приводятся их основные преимущества перед методами традиционной статистики, дается характеристика основным классам решаемых с их помощью задач. Акцентируется внимание на правильной постановке целей при решении задач с помощью методов машинного обучения. Дается характеристика основным этапам построения алгоритма машинного обучения: от отбора и масштабирования признаков до валидации модели на тестовых данных и последующем контроле за ее обучающей способностью. Предложенная автором схема анализа данных с помощью искусственного интеллекта может стать одним из направлений развития действующей статистической методологии, что позволит расширить аналитические возможности информационного обеспечения принимаемых решений на всех уровнях государственного управления.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MAIN DIRECTIONS FOR IMPROVING THE METHODOLOGY OF STATISTICAL ANALYSIS OF THE DIGITAL ECONOMY

The growing processes of digitalization and datafication in the Russian economy, the increase in the volume of transmitted and stored information, and the growing need of the state for up-to-date and reliable analytical information for making management decisions impose new requirements on the system of state statistics. The presentation of aggregated tables and data does not meet the needs of key stakeholders; it is necessary to switch to providing primary depersonalized data within a digital analytical platform. In this regard, the author considers the key shortcomings of the current statistical methodology and the main directions for its improvement. Among these areas, the author refers to the development of the current statistical methodology using artificial intelligence in order to fully analyze big data accumulated within the framework of a promising statistical system. A method of statistical analysis based on machine learning methods is proposed and considered. Their main advantages over traditional statistical methods are given, and the main classes of problems solved with their help are characterized. Attention is focused on the correct goal setting when solving problems using machine learning methods. The main stages of building a machine learning algorithm are described: from selecting and scaling features to validating the model on test data and then monitoring its learning ability. The scheme of data analysis using artificial intelligence proposed by the author can become one of the directions of development of the current statistical methodology, which will expand the analytical capabilities of information support for decisions made at all levels of government.

Текст научной работы на тему «ОСНОВНЫЕ НАПРАВЛЕНИЯ СОВЕРШЕНСТВОВАНИЯ МЕТОДИКИ СТАТИСТИЧЕСКОГО АНАЛИЗА ЦИФРОВОЙ ЭКОНОМИКИ»

Вестник Евразийской науки / The Eurasian Scientific Journal https://esi.today 2020, №5, Том 12 / 2020, No 5, Vol 12 https://esj.today/issue-5-2020.html URL статьи: https://esj.today/PDF/50ECVN520.pdf Ссылка для цитирования этой статьи:

Прохорова М.М. Основные направления совершенствования методики статистического анализа цифровой экономики // Вестник Евразийской науки, 2020 №5, https://esj.today/PDF/50ECVN520.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ.

For citation:

Prokhorova M.M. (2020). Main directions for improving the methodology of statistical analysis of the digital economy. The Eurasian Scientific Journal, [online] 5(12). Available at: https://esj.today/PDF/50ECVN520.pdf (in Russian)

УДК 311.312 ГРНТИ 06.35.33

Прохорова Марина Михайловна

ФГОБУ ВО «Финансовый университет при Правительстве Российской Федерации», Москва, Россия

Аспирант E-mail: Mar281@yandex.ru

Основные направления совершенствования методики статистического анализа цифровой экономики

Аннотация. Нарастающие процессы цифровизации и датафикации в экономике России, увеличение объема передаваемой и хранимой информации, рост потребности государства в актуальной и достоверной аналитической информации для принятия управленческих решений накладывают новые требования на систему государственной статистики. Представление агрегированных таблиц и данных не отвечает потребность ключевых стейкхолдеров; необходим переход к предоставлению первичных деперсонифицированных данных в рамках цифровой аналитической платформы. В связи с этим автором рассматриваются ключевые недостатки текущей статистической методологии и основные направления ее совершенствования. К числу таких направлений автор относит развитие действующей статистической методики с использованием искусственного интеллекта с целью полного анализа больших данных, аккумулируемых в рамках перспективной статистической системы. Предлагается и рассматривается методика статистического анализа на базе методов машинного обучения. Приводятся их основные преимущества перед методами традиционной статистики, дается характеристика основным классам решаемых с их помощью задач. Акцентируется внимание на правильной постановке целей при решении задач с помощью методов машинного обучения. Дается характеристика основным этапам построения алгоритма машинного обучения: от отбора и масштабирования признаков до валидации модели на тестовых данных и последующем контроле за ее обучающей способностью. Предложенная автором схема анализа данных с помощью искусственного интеллекта может стать одним из направлений развития действующей статистической методологии, что позволит расширить аналитические возможности информационного обеспечения принимаемых решений на всех уровнях государственного управления.

Ключевые слова: цифровая экономика; цифровизация; информационно-коммуникационные технологии; статистический анализ; машинное обучение

Введение

Устойчивое развитие государства сопряжено с принятием грамотных управленческих решений во всех областях государственного управления, которые, в свою очередь, невозможны без качественной и полной аналитической базы. Одним из источников формирования данной аналитики является статистическая информация, собираемая и публикуемая Росстатом на основе проводимых статистических обследований и агрегации информации из статистических форм. Однако количество информации, которая создается, передается и сохраняется, в единицу времени во всем мире неуклонно возрастает. Так, в докладе аналитической фирмы IDC «Эра данных 2025» отмечается, что к 2025 году объем данных во всем мире будет в 10 раз больше, чем в 2016 году, и составит 163 зеттабайта1.

Стремительный рост создаваемой, передаваемой и хранимой информации привел к формированию нового экономического уклада - цифровой экономики. На сегодняшний момент однозначное толкование данного понятия отсутствует. Наиболее широкое применение получил подход, сформулированный Р. Бухтом и Р. Хиксом, которые выделяют три уровня цифровой экономики: первый уровень включает в себя технологическую компоненту цифровой экономики (ИКТ сектор), второй уровень представляет собой платформенные решения и цифровые услуги, а третий уровень представляет собой бизнес и электронную торговлю [1]. Это определение положило начало выделению в цифровой экономике таких компонент как платформенная экономика и цифровизированная экономика.

По нашему мнению, цифровая экономика охватывает процессы цифровизации (то есть оцифровки существующих бизнес-моделей и видов деятельности) и датафикации (возникновении новых типов активностей, которые стали возможны благодаря новым способам передачи, хранения и обработки данных).

Сложность данного понятия, многообразие охватываемых им форм активности требует новых подходов к его анализу. Так, Салин В.Н., Мельник М.В. отмечают, что одной из предпосылок эффективного развития цифровой экономики является совершенствование информационного обеспечения управления процессами цифровизации [2]. Ключевая роль в данном процессе должна отводиться совершенствованию системы государственной статистики.

Таким образом, вступление Российской Федерации в новую экономическую парадигму требует качественно отличающихся от прежних подходов к формированию информационной базы для принятия управленческих решений.

Целью исследования является изучение основных проблем отечественной статистической системы, передового опыта по организацию работы статистических служб в других странах, а также формирование конкретного методического инструментария, способного расширить аналитические возможности российской государственной статистики.

Повсеместным мировым трендом становится возведение государственной статистики в ранг ключевых компонент государственного развития. В частности, в Великобритании система

1 Data age 2025 // Сайт компании «Seagate»: [сайт]. - URL: https ://www.seagate.com/files/www-content/our-story/trends/files/idc-seagate-dataage-whitepaper.pdf.

Страница 2 из 9

Основная часть

50ECVN520

статистических данных признана значимым общественным благом2, а в Дании формирование статистической системы, отвечающей нуждам стейкхолдеров, является ключевым направлением развития национальной статистической системы3.

Сайт Статистической службы Австралии содержит ссылки на микроданные по 40 тематическим областям, предоставляемые в форме конструктора таблиц, полностью деперсонифицированных микроданных, передаваемых пользователям, или деперсонифицированных микроданных, работа с которыми возможна только в специально защищенном месте.4

Однако статистика Росстата по большей части ограничивается только представлением агрегированных в целом по стране или по отдельным регионам показателям, которые впоследствии не анализируются статистическими органами на предмет наличия взаимозависимостей между ними или для построения прогнозов. Анализ деятельности Росстата на предмет отражения ключевых трендов развития информационно-коммуникационных технологий (далее - ИКТ) как базиса цифровой экономики позволил заключить, что набор анализируемых показателей и индикаторов является достаточно ограниченным и не позволяет в полной мере выявлять основные тенденции и закономерности развития ИКТ и цифровой экономики5. К числу системных проблем отечественной статистики, согласно исследованию НИУ ВШЭ, относятся ограниченность предоставления первичных данных для аналитических и управленческих целей, а также слабость собственной исследовательской базы Росстата [3].

Таким образом, перед российской статистикой стоят противоречивые задачи: это увеличение количества обрабатываемой информации без роста нагрузки на бизнес, предоставление более качественных аналитических отчетов [4]. Решить эту проблему могут современные цифровые технологии и методы статистического анализа.

Тренды цифровизации национальных статистических систем отмечаются и исследователями других государств. Так, председатель Национального статистического комитета Республики Беларусь И.В. Медведева отмечает в числе приоритетных направлений развития официальной статистики такие направления, как создание актуальной системы показателей для измерения цифровой экономики, использование современных интеллектуальных систем сбора информации, применение в государственной системе статистики больших данных [5].

Все описанные ранее обстоятельства привели к тому, что в 2019 году была принята Стратегия реформирования Росстата до 2024 года (далее - Стратегия). В данной Стратегии расширяется круг ключевых заинтересованных в актуальной статистической информации сторон, который будет включать в себя не только органы государственной власти, но и представителей бизнеса, образования, науки. Такой подход требует и внедрения новых способов сбора и представления данных для расширения числа представляемых показателей. В связи с этим в Стратегии закрепляется необходимость встраивании в официальную

2 NIC (2017) Data for the Public Good. Can data help make our crucial infrastructure even more resilient?: NIC report // NIC [сайт]. - URL: https://nic.org.uk/insights/can-data-help-make-our-crucial-infrastructure-even-more-resilient/.

3 Statistics Denmark (2016) Communication and dissemination strategy 2016-2020 // Statistics Denmark [сайт]. - URL: https://www.dst.dk/en/Statistik/Publikationer/VisPub?cid=31494.

4 Available Microdata // Australian Bureau of Statistics [сайт]. - URL: http://www.abs. gov.au/websitedbs/D3310114.nsf/home/Expected+and+available+Microdata.

5 Информационное общество: база данных // Официальный сайт Росстата[сайт]. - Текст: электронный. -DOI отсутствует. - URL: https ://www. gks.ru/folder/14478.

Страница 3 из 9

50ECVN520

статистическую методологию использования альтернативных источников информации и потенциала обработки больших данных.6

Несмотря на то, что большинство исследователей и государственных структур подчеркивают значимость использования в официальных проектах больших данных и машинного обучения, методики статистического анализа данных с помощью методов искусственного интеллекта практически отсутствуют. Так, проведенное в 2018 году немецкими учеными исследование показало, что большинство официальных структур как в Германии, так и по всему миру затрудняются с практической реализацией описанных алгоритмов [6].

Согласно результатам пилотных проектов официальной статистики, национальные статистические службы наиболее часто в качестве основных трудностей, возникающих при работе с большими данными, указывают на проблемы в области методологии [7]. Методологические проблемы сбора и анализа больших данных отмечаются также и иностранными исследователями [8].

Таким образом, по нашему мнению, одним из основных направлений совершенствования методики статистического анализа цифровой экономики является разработка методических подходов к анализу больших данных на основе методов машинного обучения, в частности, в отношении ключевых компонент формирования цифровой экономики - рынка телекоммуникационных услуг и рынка информационных технологий.

Машинное обучение представляет собой совокупность способов изучения данных и выявления закономерностей, основными преимуществами которых перед методами традиционной статистики является уменьшение числе изначальных допущений, меньшая консервативность к выбору подходов к решению задачи, использование эмпирических методов для оценки уровня обобщения. В основе машинного обучения лежит индуктивный подход: на основе части данных делается вывод об общем состоянии системы или процесса.

Внедрение методических подходов к анализу больших данных на государственном уровне предполагает наличие цифровой аналитической платформы, где будут публиковаться первичные деперсонифицированные данные, полученные от операторов больших данных, в том числе, от операторов связи. Кроме того, публикуемые показатели и индикаторы должны обладать свойством сопоставимости.

Методика статистического анализа в целом представляет собой совокупность методов, направленных на выявление структуры, взаимосвязей, факторов посредством количественного описания объекта исследования в неразрывной связи с его качественной стороной. Таким образом, на первом этапе проводимого исследования необходимо выделить объект и предмет исследования, обозначить их особенности, провести теоретические изыскания и описать объект исследования с точки зрения его качественных характеристик.

Далее необходимо сформулировать цель и задачи исследования. При постановке целей необходимо использовать S.M.A.R.T. подход (по первым буквам слов specific, measurable, achievable, relevant, time-bound), получивший широкое распространение в зарубежной практике аналитики [9]. Данный подход предполагает, что цель анализа должна отвечать запросам ключевых заинтересованных сторон, а также должна соответствовать теме исследования, быть измеримой, достижимой, согласованной и ограниченной по достижению во времени.

Определившись с целью и задачами исследования, необходимо выделить те показатели и индикаторы, которые будут использоваться для описания явления, при необходимости доработав их на основе экспертного мнения о ситуации или бизнес-процессе. На данном этапе

6 Стратегия развития Росстата и системы государственной статистики Российской Федерации до 2024 года. - URL: https://www.gks.ru/storage/mediabank/Strategy.pdf (дата обращения 05.10.2020).

также важно оценить, достаточно ли данных для достижения поставленной цели и консистентные ли они.

Кроме того, посредством дескриптивного статистического анализа можно на раннем этапе подтвердить или опровергнуть выдвинутые гипотезы и скорректировать цель и задачи исследования.

Проведенная работа позволяет перейти непосредственно к решению задачи машинного обучения: на основе полученных знаний об объекте необходимо выбрать, задачу какого класса машинного обучения необходимо решить.

На рисунке 1 представлены принципиальные подходы к машинному обучению как области искусственного интеллекта.

Рисунок 1. Классификация методов машинного обучения (составлено автором)

Из представленных на рисунке групп и способов решения задачи наибольшую популярность приобрел подход машинного обучения с учителем, суть которого заключается в том, что вся совокупность данных делится на две выборки (обучающую и тестовую), а алгоритм на основе размеченных данных из обучающей выборки выявляет закономерности, обобщающая способность которых оценивается на данных тестовой выборки. Обучение с учителем направлено на решение задач классификации и регрессии.

Обучение без учителя происходит на неразмеченных данных и его суть сводится к решению задач кластеризации и понижения размерности признакового пространства.

Для каждой группы характерны свои методы обучения. Рассмотрим более подробно каждую группу и относящиеся к ней методы в таблице 1.

Таблица 1

Группы методов машинного обучения по видам и задачам

Задачи Методы

ОБУЧЕНИЕ С УЧИТЕЛЕМ

Классификация Метод к ближайших соседей Наивный байесовский классификатор Метод опорных векторов Логистическая регрессия Дерево решений

Регрессия Линейная регрессия Полиномиальная регрессия Регрессия на основе дерева решений и случайного леса

Обучение Без учителя

Кластеризация Метод к-средних Смеси Гауссовых распределений

Снижение размерности Метод главных компонент

Составлено автором по материалам [10]

Первую подгруппу методов обучения с учителем представляет собой задачи классификации. Эта группа методов получила широкое распространение на практике ввиду того, что среди хозяйствующих субъектов довольно часто возникает задача отнесения объекта к той или иной группе и прогнозирование попадания объекта в какой-либо класс на основе известной информации о других объектах. К числу примеров такой задачи следует отнести задачу бинарной классификации деления абонентов оператора связи на лояльных и нелояльных. Таким образом, если при анализе объекта исследования выявлено, что есть некая результирующая переменная, которую необходимо описать, и она является категориальной, то необходимо выбрать один из методов решения задачи классификации.

Задачи регрессии представляют сходную с предыдущей подгруппы, однако в данном случае объект исследования описывается номинальной переменной. Например, средняя доходность одного абонента компании-оператора связи может быть предсказана на основе методов из данной подгруппы.

Задача кластеризации связана с группировкой различных объектов на основе ряда признаков в кластеры, где наиболее близкие объекты объединяются в одну группу. Если необходимо решить задачу разделения совокупности на качественно однородные группы необходимо обратиться к данной группе методов.

Задача понижения размерности решается для объединения тесно коррелирующих признаков в один. Это задача может быть как самостоятельной, так и сопутствующей решению других задач (например, регрессии).

После того, как было выявлено, какую именно задачу планируется решить, необходимо прейти непосредственно к самой настройке и проверке алгоритма. Схематично данный процесс может быть представлен на рисунке 2.

Отбор признаков в модель может происходить как на основе экспертного мнения, так и посредством использования различных статистических методов (матрица корреляций), а также методов машинного обучения (например, метод случайного леса). Для обеспечения сопоставимости значений признаков ввиду разности их шкал прибегают к нормализации. Для объединения тесно коррелирующих признаков в один фактор пользуются методами понижения размерности (например, метод главных компонент).

Выбрав несколько методов машинного обучения и обучив их на данных обучающей выборки без дополнительных настроек, можно сравнить их обобщающую способность на основе метрик качества модели - accuracy, precision, recall, f-мера. Все указанные метрики

должны рассматриваться в совокупности, так как по отдельности могут исказить предсказательную точность модели. Так, например, метрика accuracy имеет тенденцию к завышению данного показателя в случае численного превосходства одного из классов в задачи классификации.

Рисунок 2. Основные этапы настройки алгоритма машинного обучения (составлено автором)

Алгоритмы с наибольшей обобщающей способностью подлежат дальнейшей «тонкой настройке» - настройке гиперпараметров, таких как число ветвлений в деревьях решений, число объектов в каждой группе, коэффициенты регуляризации и так далее. Обучение модели, расчет метрик качества и сопоставление результатов позволят выбрать наиболее точный алгоритм.

Оценка модели на данных тестовой выборки позволит сделать вывод о наличии или об отсутствии переобучения в модели (когда модель очень хорошо предсказывает на данных обучающей выборки и очень плохо - на тестовых данных).

В случае получения качественной модели машинного обучения с высокой обобщающей способностью можно запускать ее в работу для анализа реальных (новых) данных. Следует отметить, что данный алгоритм не является статичным и должен постоянно корректироваться.

Заключение

Таким образом, новая цифровая реальность накладывает новые требования на систему официальной статистики. Переход от агрегированных таблиц к деперсонифицированным первичным данным позволит ориентировать государственную статистику на нужды более широкого круга заинтересованных сторон, а также повысить качество аналитической информации и принимаемых на ее основе решений. Текущая статистическая методология должна быть доработана и в ее состав должна войти методика статистического анализа на основе машинного обучения. Методы машинного обучения обладают рядом свойств, позволяющих им быть более гибкими, чем традиционные статистические методы. Рассмотренная нами методика статистического анализа данных на базе методов машинного обучения может лечь в основу новой статистической методологии, необходимость разработки которой закреплена Стратегией развития Росстата.

ЛИТЕРАТУРА

1. Бухт, Р. Определение, концепция и измерение цифровой экономики / Р., Бухт Р. Хикс // Вестник международных организаций. - 2018. - № 2. - С. 143-172.

2. Мельник, М.В. Предпосылки эффективного развития цифровой экономики / М.В. Мельник, В.Н. Салин // Учет. Анализ. Аудит. - 2018. - № 6. - С. 6-16.

3. Гохберг, Л.М. Перспективная модель государственной статистики в цифровую эпоху. Докл. к XIX Апр. междунар. науч. конф. по проблемам развития экономики и общества, Москва, 10-13 апр. 2018 г. / науч. ред. Л.М. Гохберг; Нац. исслед. ун-т «Высшая школа экономики». - М.: Изд. дом Высшей школы экономики, 2018. - 35 с.

4. Заварина Е.С. Российская статистика на новом этапе (дискуссия на пленарном заседании XX Апрельской международной научной конференции в Высшей школе экономики) // Вопросы статистики, 2019; 26(5): стр. 61-63.

5. Медведева И.В. Цифровизация экономики: вызовы для статистики // Вопросы статистики. 2019; 26(5): стр. 19-22.

6. Martin, Beck. Machine learning in official statistics / Beck Martin, Florian Dumpert, Jorg Feuerhake // ArXiv. - 2018. - №1. - C. 1-22.

7. Плеханов, Д.А. Большие данные и официальна статистика: обзор международной практики внедрения новых источников данных // Вопросы статистики. 2017; 1(12): 49-60.

8. Peter Struijs. Official statistics and Big Data / Peter Struijs, Barteld Braaksma // Big Data&Society. - 2014. - №1. - С. 1-6.

9. Les MacLeod. Making smart goals smarter/ Les MacLeod // Physician executive. -2013. - №38(2). - C. 68-72.

10. Соловьев В.И. Прикладные задачи машинного обучения в экономике и финансах: Практический курс с применением технологий Microsoft Azure ML и соревнованиями на платформе Kaggle // В.И. Соловьев. - М.: КНОРУС, 2018. -324 с.

Prokhorova Marina Mikhailovna

Financial university under the government of Russian Federation, Moscow, Russia

E-mail: Mar281@yandex.ru

Main directions for improving the methodology of statistical analysis of the digital economy

Abstract. The growing processes of digitalization and datafication in the Russian economy, the increase in the volume of transmitted and stored information, and the growing need of the state for up-to-date and reliable analytical information for making management decisions impose new requirements on the system of state statistics. The presentation of aggregated tables and data does not meet the needs of key stakeholders; it is necessary to switch to providing primary depersonalized data within a digital analytical platform. In this regard, the author considers the key shortcomings of the current statistical methodology and the main directions for its improvement. Among these areas, the author refers to the development of the current statistical methodology using artificial intelligence in order to fully analyze big data accumulated within the framework of a promising statistical system. A method of statistical analysis based on machine learning methods is proposed and considered. Their main advantages over traditional statistical methods are given, and the main classes of problems solved with their help are characterized. Attention is focused on the correct goal setting when solving problems using machine learning methods. The main stages of building a machine learning algorithm are described: from selecting and scaling features to validating the model on test data and then monitoring its learning ability. The scheme of data analysis using artificial intelligence proposed by the author can become one of the directions of development of the current statistical methodology, which will expand the analytical capabilities of information support for decisions made at all levels of government.

Keywords: digital economy; digitalization; information and communication technologies; statistical analysis; machine learning

i Надоели баннеры? Вы всегда можете отключить рекламу.