Научная статья на тему 'Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам'

Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам Текст научной статьи по специальности «Математика»

CC BY
170
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТРУКТУРНО-КЛАССИФИКАЦИОННЫЙ АНАЛИЗ / НЕРЕПРЕЗЕНТАТИВНЫЕ ВЫБОРКИ / МОНИТОРИНГ ДИНАМИЧЕСКИХ ОБЪЕКТОВ / STRUCTURAL-CLASSIFICATION DATA ANALYSIS / NON-REPRESENTATIVE SAMPLE / DYNAMIC OBJECTS MONITORING

Аннотация научной статьи по математике, автор научной работы — Дорофеюк Александр Александрович, Дорофеюк Юлия Александровна, Чернявский Александр Леонидович

Ключевым инструментом анализа и моделирования экономического развития является мониторинг социально-экономических показателей в разрезе субъектов РФ. Главная проблема, с которой сталкиваются статистики развитых стран, это проблема коррекции статистических данных для малых (нерепрезентативных) выборок, которые обычно возникают из-за недостаточного финансирования выборочных обследований. В настоящей работе предложен новый метод анализа малых выборок, позволяющий получать достаточно точные оценки без уменьшения оперативности мониторинга. Он основан на современной методологии интеллектуального анализа данных, в том числе на алгоритмах структурно-классификационного анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Дорофеюк Александр Александрович, Дорофеюк Юлия Александровна, Чернявский Александр Леонидович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Objects grouping structural method for enhancing quality of estimates in monitoring under small size samples

Key instrument of analysis and economic development modeling is the monitoring of socio-economic indicators in the context of the subjects of the Russian Federation. The main problem faced by the statistics in developed countries, is the problem of correctness of statistical data in small (non-representative) sample, which usually arises because of insufficient financing of sample surveys. New method of statistical processing of unrepresentative samples is proposed, which allows to receive more correct estimates without reducing monitoring efficiency. It is based on the data mining methodology, including structural-classification data analysis methods.

Текст научной работы на тему «Метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам»

УДК 004.67

метод структурной группировки объектов в задаче повышения достоверности оценок показателей мониторинга по малым выборкам1

а.а. дорофеюк, ю.а. дорофеюк, а.л. Чернявский

Институт проблем управления РАН, г. Москва daa2@mail.ru

Ключевым инструментом анализа и моделирования экономического развития является мониторинг социальноэкономических показателей в разрезе субъектов РФ. Главная проблема, с которой сталкиваются статистики развитых стран, - это проблема коррекции статистических данных для малых (нерепрезентативных) выборок, которые обычно возникают из-за недостаточного финансирования выборочных обследований. В настоящей работе предложен новый метод анализа малых выборок, позволяющий получать достаточно точные оценки без уменьшения оперативности мониторинга. Он основан на современной методологии интеллектуального анализа данных, в том числе на алгоритмах структурно-классификационного анализа.

Ключевые слова: структурно-классификационный анализ, нерепрезентативные выборки, мониторинг динамических объектов.

1 Работа выполнена при частичной поддержке РФФИ, проекты 11-07-00178-а, 11-07-00735-а, 13-07-00992.

МЕТОД СТРУКТУРНОЙ ГРУППИРОВКИ ОБЪЕКТОВ В ЗАДАЧЕ 75

ПОВЫШЕНИЯ ДОСТОВЕРНОСТИ ОЦЕНОК ПОКАЗАТЕЛЕЙ МОНИТОРИНГА ПО МАЛЫМ ВЫБОРКАМ

Проблема недостаточной представительности результатов выборочных статистических обследований (мониторинга) в случае малых, нерепрезентативных выборок особенно остро проявляется при формировании статистических данных в разных структурных разрезах (например, в региональном разрезе, по видам экономической деятельности, по формам собственности, видам продукции, половозрастным группам и т.д.).

Разработаны и широко применяются различные модели и процедуры сглаживания временных рядов, основанные на агрегации данных за несколько временных интервалов [1,2]. В частности, такие процедуры, как X\2-ARШA (разработчик Бюро Цензов США), TRAMO-SEATS (разработчик - Банк Испании), рекомендованы ОЭСР и Евростатом в качестве стандартных методов сезонного сглаживания и применяются на практике многими национальными статистическими органами. Они реализованы в виде специального программного обеспечения DEMETRA [3]. Модели типа ARIMA [1] хорошо решают задачу сглаживания временного ряда, но приемлемое качество сглаживания достигается в них лишь в том случае, если для анализа используется достаточно большой отрезок этого ряда. Данные модели весьма инерционны, они не реагируют на резкие изменения показателей, которые происходят, например, во время кризисных ситуаций. Уловить такие изменения способны только самые простые (с точки зрения теории временных рядов) методы с малой памятью, типа метода скользящего среднего [1]. Но эти методы, во-первых, еще более чувствительны к размеру выборки, а во-вторых, являются недостаточно оперативными, так как для получения несмещённых оценок за текущий период времени требуются данные как за предыдущие, так и за будущие периоды.

В работе предложен новый метод повышения достоверности статистических показателей для малых (нерепрезентативных) выборок, позволяющий получать достаточно точные оценки без уменьшения оперативности мониторинга. Он основан на современной методологии интеллектуального анализа сложноорганизованных данных, в том числе на использовании методов структурно-классификационного анализа [4].

1. содержательная постановка задачи

Постановка задачи и описание метода даются на примере задачи ежемесячного мониторинга некоторого показателя функционирования социально-экономических объектов. При этом по некоторым причинам (в основном связанным с недостаточностью финансирования) имеющийся объём выборки обеспечивает представительные данные только по системе в целом (обычно это - Российская Федерация) и по некоторым крупным объектам (регионам). Для большинства же объектов достоверно оценить

значения исследуемого показателя непосредственно по выборочным данным не удаётся. В качестве примера на рис. 1 приведены данные мониторинга уровня безработицы в Вологодской области (в рамках ежемесячного мониторинга населения РФ по вопросам экономической активности, занятости и безработицы). Очевидно, что уровень безработицы не может за один месяц снизиться с 11,8 % до 6 % (как в августе - сентябре 2009 г.) или подняться с 7,7 % до 10,8 % (как в январе - феврале 2010 г.) и тут же упасть до 7 % (как в феврале - марте 2010 г.). Таким образом, приведенные данные свидетельствуют о статистической недостоверности полученных оценок, т.е. эти выборки не являются репрезентативными. Рис. 1 наглядно это демонстрирует.

Как уже говорилось ранее, простейшим методом сглаживания является метод скользящего среднего [1]. Он заключается в том, что данные выборочных обследований за несколько последовательных месяцев (в простейшем случае - за три месяца) объединяются в одну выборку, по этой укрупнённой выборке рассчитывается среднее значение показателя, и оно условно относится к среднему месяцу. Для большинства задач социальноэкономического мониторинга выборка, построенная путём объединения выборок трёх последовательных месяцев, достаточно представительна, и построенный этим методом временной ряд оказывается достаточно гладким. Однако метод скользящего среднего имеет существенный недостаток - чтобы рассчитать значение скользящего среднего за текущий месяц, необходимы данные выборочного обследования за следующий месяц. В работе предлагается метод сглаживания, который свободен от этого недостатка.

Вологодская область

11.00

Ю 9.00

I

£ 800 Л

I 700

Я

£ 6.00

\ А

\ /\ *

и л

V . I/4 V V

V </

■Скользящее среднее, %

-Уровень безработицы, %

Рис. 1. Уровень безработицы в Вологодской области

метод структурной группировки объектов в задаче 77

повышения достоверности оценок показателей мониторинга по малым выборкам

2. метод структурной группировки объектов

Основная идея предлагаемого метода структурной группировки объектов (МСГО) состоит в том, что для повышения надёжности оценки исследуемого показателя производится усреднение не по времени, а по ансамблю объектов мониторинга. Это является ключевым отличием предлагаемого метода от других методов сглаживания временных рядов (например, от метода скользящего среднего, когда в одну группу объединяются выборки наблюдений за разные месяцы для одного и того же объекта). При использовании же метода МСГО в одну группу для дальнейшего расчёта оценки искомого показателя анализируемого /-го объекта объединяются выборки, полученные в одном и том же месяце для нескольких объектов, близких в определённом смысле по динамике исследуемого показателя к /-му объекту

Ниже МСГО описан как метод оценки исследуемого показателя у для /-го объекта в к-м месяце текущего года. Далее этот объект называется /-эталонным, а к-й месяц - расчётным. Метод включает 3 этапа:

Этап 1. Производится сглаживание помесячных данных мониторинга /-эталонного объекта, для чего используется процедура трёхточечного скользящего среднего.

Этап 2. На этом этапе используется разработанный авторами статьи алгоритм /-эталонной классификации [5] (подробное описание см. раздел 2.2). С помощью этого алгоритма формируется класс объектов, близких (в определённом смысле) к /-эталонному объекту по динамике исследуемого показателя. Выборки вошедших в этот класс объектов для каждого момента времени из рассматриваемого диапазона мониторинга объединяются, то есть эти объекты рассматриваются как один виртуальный объект, ассоциируемый с /-эталонным объектом.

Этап 3. На базе объединённых выборок для виртуального объекта с помощью процедуры масштабирования находится искомая оценка исследуемого показателя для /-эталонного региона по состоянию на расчётный месяц.

2. 1. формирование виртуального объекта для /-эталонного объекта

Для формирования виртуального объекта используются выборочные данные за каждый из 13 месяцев (расчётный месяц и за 12 месяцев, предшествующих расчётному). Выбор временного ряда такой длины диктуется следующим. Для того чтобы определить, являются ли два объекта близкими по динамике исследуемого показателя у, необходимо сопоставить его значе-

ния в двух объектах за период не меньше года (так как сезонные изменения у могут проявляться в течение всего года). Поскольку при формировании виртуального объекта используются не только исходные данные, но и их сглаженные значения (полученные с помощью процедуры скользящего среднего), то необходимы данные за дополнительный месяц в начале временного ряда. В качестве оценки скользящего среднего для расчётного месяца берется полусумма значений показателя за расчётный и предыдущий месяцы.

Формирование виртуального объекта производится с помощью предлагаемого в работе итерационного алгоритма /-эталонной классификации динамических объектов (траекторий) [5].

2.2. АЛГОРИТМ /-ЭТАЛОННОЙ КЛАССИФИКАЦИИ ДИНАМИЧЕСКИХ ОБЪЕКТОВ

Дадим вначале формальную постановку задачи /-эталонной классификации на примере задачи помесячного мониторинга исследуемого показателя у для N объектов. Пусть в процессе мониторинга для каждого /-го объекта получены n выборочных значений показателя у как за расчётный месяц, так и за каждый из 12 месяцев, предшествующих расчётному. Задача /-эталонной классификации состоит в разбиении по этим данным N объектов на такие 2 класса (/-эталонный и фоновый классы), чтобы выбранный критерий качества классификации Jm принимал максимальное значение. В работе в качестве критерия Jm используется значение коэффициента корреляции r. между двумя временными рядами (векторами) - рядом оценок показателя у, полученных по объединённой выборке для объектов, отнесённых к /-эталонному классу (виртуальному объекту)Увирт,к, как за расчётный месяц, так и за каждый из 11 месяцев, предшествующих расчётному; и рядом скользящих средних помесячных данных за тот же период времени

• г этап

мониторинга /-эталонного объекта угг , то есть величина

Jэт ~ ~ вирт, к > Усс )‘ (1)

В формуле (1) величина k - это номер набора регионов, составляющих /-эталонный класс, однозначно определяющий номера регионов, входящих в этот набор. Тогда к /-эталонному классу относится такой набор объектов под номером т, который доставляет максимум критерию (1), то есть

т = arg max (к) = arg max г(у к, уэ™ш ). Все остальные

к к

объекты относятся к фоновому классу. Отметим, что критерий качества классификации Jm (1) отличается от всех остальных тем, что в явном виде не зависит от объектов, отнесённых к фоновому классу. Очевидно, что для получения глобально оптимальной в смысле (1) /-эталонной классифика-

метод структурной группировки объектов в задаче 79

повышения достоверности оценок показателей мониторинга по малым выборкам

ции необходимо произвести полный перебор всех возможных поднаборов объектов из исходного набора N объектов.

В работе предложен эвристический алгоритм максимизации (1), с точки зрения основной идеи похожий на алгоритм пошаговой регрессии. Он представляет собой итерационную процедуру, на каждом шаге которой к /-эталонному классу при определённых условиях присоединяется наиболее близкий к нему объект из тех, которые к этому шагу не вошли в /-эталонный класс.

Для удобства описания алгоритма объектам присваиваются номера в том порядке, в котором они относятся к /-эталонному классу: /-эталонному объекту присваивается номер 1, следующему объекту, отнесённому к /-эталонному классу, - номер 2 и т.д.

Рассмотрим (/+1)-й шаг алгоритма. К началу (/+1)-го шага /-эталонный класс (виртуальный объект) включает ] объектов, отнесённых к нему на предыдущих шагах, и представлен следующей информацией:

1. Временной ряд значений скользящего среднего оценок показателя у для /-эталонного объекта за 12 месяцев, предшествующих расчётному месяцу, а также оценка скользящего среднего для расчётного месяца, равная полусумме исходных значений оценок показателя расчётного и предыдущего месяца для этого объекта (далее этот временной ряд будем называть /-эталоном):

/ = у* = (у/<2>,.. .,У(12),г>/(13)). т

У этап У сс уу сс ’ ✓ сс /• уА)

2. Временной ряд (вектор) значений оценок показателя у, полученных по объединённой выборке для объектов, отнесённых к (/+1)-му шагу алгоритма к /'-эталонному классу (виртуальному объекту)у3вирт, как за расчётный месяц, так и за каждый из 11 месяцев, предшествующих расчётному:

уЗ = (у-'*-2) ,...у^13-*). (3)

у вирт вирт ’ у вирт ; )

3. Коэффициент корреляции между временными рядами (2) и (3):

О — У(Увирт’Уэтал ) • (4)

На (/+1)-м шаге алгоритма из всех объектов, ещё не вошедших в /-эталонный класс (виртуальный объект), выбирается такой 5-й объект, добавление которого к /-эталонному классу доставляет максимум коэффициенту корреляции г+1:

,0) = тах (г/+1(/)). (5)

Если г/+1 ^ г (коэффициент корреляции после включения 5-го объекта в /-эталонный класс (виртуальный объект) не уменьшился), то этот объект добавляется к /-эталонному классу, ему присваивается номер (/+1) и алгоритм переходит к следующему шагу.

Если же Г/+1 < Г/ (коэффициент корреляции уменьшился), то работа алгоритма заканчивается.

На рис. 2 в качестве примера приведена иллюстрация работы алгоритма /-эталонной классификации динамических объектов на примере Вологодской области. Как видно из рисунка, в виртуальный регион, ассоциированный с Вологодской областью, вошло 13 регионов (включая саму Вологодскую область). В процессе добавления новых регионов в группу коэффициент корреляции возрастал в пределах от 0,2 до 0,97. На рис. 2 объекты расположены по оси абсцисс в порядке их включения в виртуальный регион.

2.3. ПРОЦЕДУРА МАСШТАБИРОВАНИЯ

Несмотря на то, что временные ряды (2) и (3) по форме могут почти не отличаться друг от друга (в прикладных задачах коэффициент корреляции между соответствующими временными рядами, как правило, больше 0,9), их средние значения и масштаб могут заметно отличаться. Такое смещение и изменение масштаба объясняется тем, что в качестве меры близости временных рядов при формировании виртуального объекта используется значение коэффициента корреляции. А смещение на константу и изменение масштаба не меняют этого значения.

Вологодская область

Регионы, последовательно добавляемые в группу

Рис. 2. Регионы, вошедшие в виртуальную группу для Вологодской области

МЕТОД СТРУКТУРНОЙ ГРУППИРОВКИ ОБЪЕКТОВ В ЗАДАЧЕ 81

ПОВЫШЕНИЯ ДОСТОВЕРНОСТИ ОЦЕНОК ПОКАЗАТЕЛЕЙ МОНИТОРИНГА ПО МАЛЫМ ВЫБОРКАМ

Для демонстрации такого смещения на рис. 3 показан временной ряд уровня безработицы в виртуальном регионе, сформированном для Вологодской области, и для сравнения - временной ряд скользящего среднего этого показателя для Вологодской области. На этом примере (который является типичным) видно, что кривая уровня безработицы в виртуальном регионе достаточно гладкая. Как правило, она оказывается даже более гладкой, чем скользящее среднее для исходного временного ряда расчётного региона, потому что объём выборки по виртуальному региону обычно больше, чем объём выборки по расчётному региону за три месяца.

Таким образом, к /-эталонному классу могут относиться объекты, близкие к расчётному по характеру сезонных изменений значений оценок показателя у, но заметно отличающиеся по абсолютной величине этих оценок и с большей или меньшей амплитудой их колебаний (масштаба этой величины). Для того чтобы устранить полученное в результате этого смещение и изменение масштаба, производится линейное преобразование временного ряда (3), которое далее будет называться процедурой масштабирования.

Цель процедуры масштабирования - с помощью линейного преобразования временного ряда (3) (т.е. смещением на константу и изменением масштаба) так «совместить» его с временным рядом (2), чтобы сумма квадратов разностей между этими рядами по всем месяцам была минимальной.

Формально эта задача формулируется следующим образом: требуется

найти такие константы Ъп и Ъл линейной регрессии ylmnn на yJeupm , чтобы

Ау = £ [уссП ■ (¿>1 yiupm + *0 )] 2 - min - (6)

1=2

где величины ylJ1^ и yiupm определены в (2) и (3) соответственно. Задача Вологодская область

Скользящее среднее Ж Уровень безработицы в виртуальном регионе

Рис. 3. Уровень безработицы в виртуальном регионе и скользящее среднее уровня безработицы в Вологодской области

нахождения оптимальных коэффициентов линейной регрессии (6) решается с помощью стандартной процедуры метода наименьших квадратов.

Результат решения этой задачи для рассматриваемого примера Вологодской области представлен на рис. 4.

Как видно из представленного рисунка, в результате применения процедуры масштабирования временной ряд уровня безработицы в виртуальном регионе для Вологодской области и временной ряд скользящего среднего этого показателя оказались практически совмещены. Это показывает высокую точность разработанного метода.

3. результаты применения метода структурной группировки объектов в практических задачах

В рамках применения на практике предлагаемого в статье метода МСГО была рассмотрена задача корректировки (сглаживания) оценок показателей экономической активности населения по субъектам РФ в условиях малых выборок. В настоящее время по вопросам экономической активности, занятости и безработицы ежемесячно опрашивается около 69 тыс. человек в возрасте 15-72 года (около 33 тыс. домашних хозяйств), или 0,06 % населения данного возраста. Объём месячной выборки обеспечивает представительные данные только в целом по РФ и некоторым крупным (по численности населения) субъектам РФ. Для двух третей субъектов РФ объемы месячной выборки являются недостаточными для получения представительных данных по показателям безработицы. Однако для эффективного мониторинга

Вологодская область

10.00

9.50

6.00

5.50

5.00

0)0)05050000000000 ООООт-т-ч-т-ч-т-ч-ч-ч-т-050т-СЧ|т-СМСО'^-ЮС01ч-00 05 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

От-ч-ч-ОООООООООч-

Скользящее среднее

Уровень безработицы в виртуальном регионе после масштабирования (Ь0=-9.268, Ы =1.623)

Рис. 4. Результат масштабирования

МЕТОД СТРУКТУРНОЙ ГРУППИРОВКИ ОБЪЕКТОВ В ЗАДАЧЕ 83

ПОВЫШЕНИЯ ДОСТОВЕРНОСТИ ОЦЕНОК ПОКАЗАТЕЛЕЙ МОНИТОРИНГА ПО МАЛЫМ ВЫБОРКАМ

требуются оценки для каждого конкретного месяца по каждому субъекту РФ, при этом в оценках должны быть учтены колебания, вызванные фактором сезонности, эффектом размещения выборки. Разработанный метод МСГО был успешно использован в Федеральной службе государственной статистики (Росстате) при решении задачи разработки системы алгоритмов и программных средств для автоматизации процедуры достоверного оценивания показателей мониторинга экономической активности населения, занятости и безработицы по субъектам РФ, формируемых по итогам месячных обследований населения по проблемам занятости [6]. В результате применения этого метода для каждого из 83 регионов РФ в период с сентября 2010 г. по октябрь 2011 г. были проведены расчёты ежемесячных оценок значений следующих показателей: численности экономически активного населения, уровня экономической активности, численности безработного населения, уровня безработного населения, численности занятого населения, уровня занятости населения. На базе предлагаемого в статье метода МСГО была разработана программа автоматического расчета оценок искомого показателя мониторинга как встраиваемый модуль для работы в программе Microsoft Excel. На рис. 5 представлена таблица, получаемая при расчете оценок численности безработного населения для всех регионов РФ за расчетный месяц. В программе также автоматически рассчитываются значения сезонной составляющей и тренда оценки показателя, как и сравнение оценок, полученных методами скользящего среднего и МСГО. При необходимости программа выводит на экран графики изменения динамики

Рис. 5. Скриншот окна программы для расчета оценок показателя мониторинга

оценок расчётного показателя по месяцам как для каждого отдельного региона (объекта), так и для РФ в целом.

Ввиду того, что в Росстате до введения в эксплуатацию метода МСГО для расчёта оценок показателей использовался метод скользящего среднего (МСС), для проверки эффективности МСГО было проведено сравнение оценок, полученных этими двумя методами. Результаты этих расчётов позволяют сделать следующие выводы. Оценки соответствующих показателей, полученные МСС и МСГО, очень близки (около 2 % от величины оцениваемого параметра для самых «проблемных» регионов). Ошибки МСС - это ошибки интерполяции. Ошибки МСГО связаны с неоднородностью выборки. При разных источниках ошибок результаты получаются достаточно близкими, это говорит об эффективности использования МСГО для достоверной оценки уровня соответствующего параметра. Однако МСГО имеет решающее преимущество: позволяет получать оценки уровня анализируемого параметра сразу после получения данных выборочного обследования.

ЛИТЕРАТУРА

1. Бокс Дж., Дженкинс Г. Анализ временных рядов // Прогноз и управление. Вып. 1, 2. - М.: Мир, 1974.

2. Judge G. G., Griffits W. E., Hill R. C., Lutkepohl H., Lee Tsoung-Chao. The Theory and Practice of Econometrics. Second edition. NY: John Willey and Sons, 1985.

3. Introduction to Seasonal Adjustment, DEMETRA+. - URL: http://circa. europa.eu/irc/dsis/eurosam/info/data/ demetra.htm

4. Бауман Е.В., Дорофеюк А.А., Дорофеюк Ю.А. Методы динамического структурного анализа многомерных объектов // Сборник трудов 4-й международной конференции по проблемам управления (МКПУ-IV). - М.: ИПУ РАН, 2009. - С. 338-343.

5. Дорофеюк Ю.А., Дорофеюк А.А., Лайкам К.Э., Чернявский А.Л. Алгоритмы эталонной кластеризации в задаче повышения достоверности статистических показателей в условиях нерепрезентативных выборок // Управление развитием крупномасштабных систем (MLSD’2011): Труды Пятой международной конференции. - М.: ИПУ РАН, 2011. -Т. I. - С. 268-275.

6. Лайкам К.Э., Дорофеюк А.А., Дорофеюк Ю.А., Чернявский А.Л. Классификационные методы коррекции результатов мониторинга социальноэкономических показателей в условиях нерепрезентативных выборок // Вопросы статистики. - 2011. - №5. - С. 13-18.

i Надоели баннеры? Вы всегда можете отключить рекламу.