В.С. Жаромский, АМ. Рудберг, В ВВ . СопцоВ, СЛ. Тер-АкопоВ
О задаче ьалиброВьи и ВзВешиВанир
данных Выборочный обследований большого объема
С проблемой калибровки и взвешивания данных выборочных обследований встречается практически каждый исследователь, который хочет перенести результаты, полученные с использованием выборочных данных, на генеральную совокупность, которая может представлять город, регион или страну в целом. Конкретно перед нами эта проблема возникла в связи необходимостью создания инструментария для оценки качества вариантов мероприятий в области политики доходов населения, направленных на снижение масштабов неравенства и бедности в России, а также для оценки социально-экономических последствий этих мероприятий. Предполагалось оценивать сценарии, включающие такие мероприятия как - повышение минимального размера заработной платы, повышение минимальных размеров различного вида пенсий, повышение заработной платы в бюджетном секторе экономики, повышение выплат по беременности и родам и других видов детских пособий, изменение налоговых шкал
на заработную плату и душевой доход. Все перечисленные мероприятия оказывают определенное воздействие на изменение масштабов абсолютной и относительной бедности, на уровень неравенства, выраженного принятыми в мировой практике характеристиками (коэффициент фондов и индекс Джини). Кроме того, ставилась задача для разных сценариев дать оценки изменения среднедушевого денежного дохода населения (для РФ, регионов и по децильным группам), платежеспособного спроса населения на основные группы товаров и услуг, а также определить уровень затрат бюджета на реализацию вариантов мероприятий в области политики доходов населения.
Перечисленные задачи изначально предполагали использование самых больших выборочных обследований, проводимых в нашей стране — это квартальные выборочные обследования ФСГС РФ по доходам и расходам населения. В настоящее время эти данные доступны на сайте ФСГС РФ. И, казалось бы, не было нужды в дополнительном перевзвешивании
выборочных данных, т.к. исходная выборка содержит весовые коэффициенты, учитывающие уровень представительности отдельных наблюдений по территориям. И этого действительно достаточно, если производится оценка наиболее общих характеристик населения для представительных социальных или территориальных групп. Однако, при рассмотрении таких категорий населения как: семьи с одним, двумя, тремя и более детьми, семьи с детьми и пенсионером и т.д., возникают проблемы структурной представительности. Здесь имеется ввиду, наличие определенных видов семей, представительность которых, в генеральной совокупности достаточно заметна, а в выборке нет. Возникают и обратные ситуации, когда другие типы домохозяйств имеют значительно большую представительность в выборке, чем в генеральной совокупности. Это касается, например доли домохозяйств, все работники которых трудятся в государственном секторе экономики («бюджетники»). Так как средняя заработная плата и средние денежные доходы работников негосударственного сектора выше чем у бюджетников, то взвешенное значение среднего душевого денежного дохода будет иметь смещение в сторону уменьшения. И это действительно наблюдается. Чтобы исправить такое структурное несоответствие, приходится корректировать веса «бюджетников» в сторону понижения, а веса «небюджетников» в сторону увеличения. Еще большие структурные отличия наблюдаются при рассмотрении различных социально-демографических групп населения (семьи разного типа и размера, с детьми и без детей и т.д.). А именно такого рода группы населения являются референтными
при анализе результатов воздействия вышеуказанных мероприятий в сфере семейной политики и политики доходов. Таким образом, проблема взвешивания возникает постоянно вне зависимости от объема выборки, как только исследователь хочет решать задачи, непредусмотренные при разработке дизайна выборки и ее параметров.
Методы калибровки и взвешивания данных выборочных обследований. В настоящее время известно некоторое количество подходов коррекции исходных весовых коэффициентов для нивелирования структурных отклонений выборочной и генеральной совокупностей. В экономической науке это в большей степени связано с корректировкой показателей доходов населения из-за различия оценок, получаемых из данных государственной статистики и выборочных данных. Это как раз является следствием того, что при разработке выборки в слабой степени учитывается распределение доходов по разным социально-демографическим и социально-экономическим типам домохозяйств.
В математической постановке общую задачу калибровки можно сформулировать в виде следующей оптимизационной задачи:
n
S G (d., W.) - min (1)
n
S w^x.. = t. (j = 1,... ,m) (2X
i-1
где G( ) — положительная функция, измеряющая различие между исходными весами di и корректированными весами wi; t — это генеральное итоговое значение для признака i,
а x — значение j-го признака для i-го элемента выборки. Другими словами, выражения (1) и (2) говорят нам о том, что требуется найти такие положительные веса wi, которые минимально (в смысле выражения (1)) отличаются от исходных весов di, так чтобы выполнялись балансовые равенства (2) для всех признаков, учитываемых при калибровке. Не надо думать, что решение задачи (1)-(2) закроет все проблемы коррекции. Довольно часто, когда для балансирования выбирается несколько признаков, а структуры выборки и генеральной совокупности значительно различаются, достичь одновременного выполнения условий (2) для всех признаков оказывается невозможным. В качестве «игрушечного примера» рассмотрим следующую ситуацию. Пусть мы хотим скорректировать начальные веса так, чтобы выполнялись балансы (2) для первого и второго признаков, для которых в генеральной совокупности между итогами выполняется неравенство tj > t2, а для всех выборочных наблюдений выполняется обратное неравенство xn < x . Понятно, что какие бы положительные веса мы не брали, взвешенная сумма значений первого признака всегда будет меньше соответствующей суммы второго признака. Т.е. одновременное выполнение условий (2) для обоих признаков оказывается невозможным. Более того, из этого примера видно, что результат не зависит от выбора метода корректировки. Однако при правильном алгоритме коррекции несоответствие (2) можно уменьшить до некоторого предела, возможно в разной степени для разных балансируемых признаков.
Ниже будут более подробно рассмотрены используемые в настоящее время методы калибровки и взвешивания данных выборочных обследований и даны оценки их возможностей и ограничений.
1. Процедура калибровки и взвешивания типа CALMAR (см.: [1, 2, 3])
В первую очередь необходимо упомянуть метод CALMAR, который достаточно широко используется а Европе (например, в Бельгии) и позволяет провести согласование структурных характеристик генеральной совокупности с характеристиками выборочной совокупности по некоторому набору показателей или по одному показателю (денежному душевому доходу). В качестве таких характеристик могут выступать социально-демографические показатели: доли женщин, мужчин, инвалидов, пенсионеров, детей, работающих и т.д., а также экономические: средние размеры пособий, заработной платы, других денежных доходов для первичных единиц наблюдения (домашних хозяйств).
Для формального описания метода введем необходимые обозначения. Пусть:
n — число ДХ (домохозяйств) в выборочной совокупности; m — число доступных генеральных данных для калибруемых переменных, полученных из различных источников информации;
xi. — значение j — ой калибруемой переменной в i-том ДХ (j = 1, ... ,m; k= 1, ... ,n);
tj — генеральные данные для j — ой калибруемой переменной (j = 1, ... ,m);
di — исходный (до калибровки) вес i — го ДХ в выборочной совокупности;
wi — откалиброванный вес i — го ДХ;
wi = gi di, где gi - коэффициент калибровки исходного веса i — го ДХ.
Проблема калибровки формулируется как нелинейная оптимизационная задача:
Z dG (7^min (3)
i-1 i
n
Z w. xx.. = t. (j = 1,... ,m) (4)
i-1
Функция G оценивает отклонения калибровочных коэффициентов gi= wi/di от 1. В качестве функции расстояния G часто используется квадратичная функция:
1
G (x) = - (x - 1)-
При использовании этой функции расстояния метод калибровки называется линейным, так как решение задачи сводится к определению весов из линейной системы уравнений.
Пусть F(.) — калибровочная функция, которая является обратной к функции различия:
F(.) = G'-1 (.)
В векторной форме условие (4) запишется как:
XT W = t ,
а функция Лагранжа для системы (3)-(4) имеет вид:
i-1
L (w, X) = £ d.G( Wj- ) + XT X T w = t
Система dL/dw = 0, dL/dX = 0 трансформируется в систему размерности (mxm) по X:
n
Ф(Х) = Z d.F (xTX)x-1 = XT w(X ) -7 = 0 (5),
i-1
где w(X ) — n-мерный вектор калиброванных весов, а X = (Xj,...., Xm)T — m-мерный вектор множителей Ланранжа. Если G(x) = 0.5 * (x-1)2, то G'(x) = x -1 и F(u) = 1 + u поэтому система (5) становится линейной относительно X:
n
Z d. (1 +xT.X) x - t = XT d + (XT DX) X - t = 0, где D = diag(d).
i-1
или - (X1 DX) = X1 d-1 и X* = - (X1 DX)-1 (X1 d -1)
Таким образом, если матрица X имеет полный ранг т ( т.е. строки и столбцы матрицы линейно независимы), то решение X* существует и единственно:
ж= d.(1 + х т X*) (6).
IIх I '
В общем случае, когда функция расстояния не столь простая, алгоритм калибровки весов существенно усложняется, особенно, если выборка состоит из нескольких десятков тысяч наблюдений, что характерно для выборок ФСГС РФ. Более важно другое, выполнение условия линейной независимости не гарантирует положительности весов wi. Из выражения (6) видно, что корректирующий множитель gi может оказаться отрицательным, и потому координаты вектора могут иметь разные значения и знаки. В этих случаях к условиям (3) и (4) добавляется новое условие,
0 < Lmin < gi < Lmax (7),
не позволяющее корректирующему множителю быть слишком большим или слишком маленьким (тем более отрицательным). Понятно, что такие дополнительные условия могут помешать найти точное решение задачи, да и сам метод в этом случае сложен в реализации. Поэтому использование процедуры типа CALMAR для «генерализации» данных выборочных обследований бюджетов домашних хозяйств имеет смысл при небольших структурных отклонениях выборки и генеральной совокупности.
2. Метод Айвазяна-Коленикова (см.: [4]).
Интересен подход, предложенный в методе Айвазяна-Коленикова. Суть этой методики состоит в дополнении выборки виртуальными домохозяйствами, т.е. домохозяйствами, отказавшимися от обследования. При этом вероятность восстановления задается моделью отказов от участия в обследовании, параметры которой определяются на основе статистики отказавшихся от обследования до-мохозяйств. На втором этапе дополнительно генерируются виртуальные домохозяйства с высокими доходами в ненаблюдаемом диапазоне («хвосте») распределения населения по денежному душевому доходу. Сюда входят ДХ, у которых среднедушевой доход превышает порог X0 (максимальный среднедушевой доход для наблюдаемого диапазона) Авторы метода полагают, что это распределение хорошо приближается Парето-распределением с параметрами, определенными по выборке. Дальнейшие расчеты проводятся по модифицированной выборке.
Процедура взвешивания и калибровки данных Айвазяна-Коленикова включает в себя:
- взвешивание наблюдений выборки, «испорченной» отказами ДХ от участия в обследовании, путем использования функции отказов и бутстреп-процедуры.
- генерирование наблюдений из ненаблюдаемого диапазона (добавление новых ДХ);
Функция отказов задает вероятность отказов ДХ от участия в обследовании в зависимости от их экономического и социально-демографического типа. Конкретно берется логистическая функция:
1,
P(z) = Р [Ц = 0 \ z] = 1 + e pTz ,
í 0, если ;-тое ДХ отказалось где ц = {
i 1 - в противном случае,
а PT и Z — вектор-столбец и вектор-строка, соответственно.
PT Z = IV PA + PA + P3Z3+PA + P5Z5+PA + PA + PA ,
где Zj — логарифм душевого дохода
и категориальные переменные, т.е. принимающие только два значения 1 и 0, которые характеризуют: тип поселения (город/ село), размер города, уровень образования членов домохозяйства.
Коэффициенты P Pj,P2, ,..., P8 рассчитываются методом максимального правдоподобия на основании данных статистики отказавшихся от участия в обследовании ДХ. Оценка параметров функции, как указывают авторы, может быть произведена, например, средствами пакета программ SPSS (программа Logistic Regression).
Генерирование дополнительных наблюдений из ненаблюдаемого диапазона базируется на гипотезе о возможности представления «хвоста» функции плотности распределения в виде Парето-распределения, для той части населения, среднедушевой доход которой превышает X0 (максимальный среднедушевой доход наблюдаемого диапазона):
h(x.0)= — (Л9"1 (8),
x„ W
где х0 — максимальный среднедушевой доход ДХ в наблюдаемом диапазоне. Доля населения в ненаблюдаемом диапазоне д и параметр 9 рассчитываются при помощи системы из двух уравнений, получающихся из условий: 1. Условие балансировки среднедушевого дохода
(1 - q) Е w,x, + q ^x0 = x (^
i-1
где x — среднедушевой доход генеральной совокупности;
wi - доля i-го ДХ в общем числе членов домашних хозяйств исходной совокупности ДХ;
xi - среднедушевой доход i-го ДХ; n - количество ДХ;
9* x0 / (9 -1) — среднедушевой доход ДХ, распределенных в Парето-«хвосте»;
2. Условие непрерывности склейки плотностей логнормального и Парето распределений в точке X0:
f(xo) - h(xo) -f (xf -f ('0),
00
где f(x0) - плотность распределения ДХ из наблюдаемого диапазона по среднедушевому доходу в точке X0;
h(x0) — плотность распределения ДХ из ненаблюдаемого диапазона по среднедушевому доходу в точке X0 (левая граница, где начинается действие распределения Парето).
Генерирование ДХ в ненаблюдаемом диапазоне среднедушевых доходов (>X0) осуществляется при помощи бутстреп-процедуры, при этом объектами ге-
нерации являются случайно выбранные ДХ из последней, самой высокодоходной группы наблюдаемого диапазона. Процесс генерации заканчивается, когда доля населения в хвосте достигает расчетного значения. Таким образом, в этом методе увеличивается количество наблюдений, а именно ДХ с высоким душевым доходом.
3. Метод Шевякова—Кируты (см.: [5, 6]).
Методика Кируты—Шевякова демонстрирует еще один вариант учета отказов от участия в обследовании. Авторы методики предполагают, что вероятность отказа обратно пропорциональна денежному душевому доходу домохозяйства и потому распределение населения по действительным («правильным») дециль-ным группам должно быть неравномерным, т.е. чем выше номер дециля генеральной совокупности, тем меньше его представительность в выборке («след»). Предлагается подход для определения «следов» и расчета на этой основе весов для всех децилей. В силу того, что представители групп населения с разными уровнями доходов на душу попадают в выборку бюджетных обследований с разной вероятностью, неправильно оценивать значение к-й децили д (к) в виде:
я(к) = у{[к*п/10] + 1}; (к=1, ... ,9) (11),
где у{1} — значение денежного душевого дохода 1-го наблюдения,
п — размер выборки.
Предполагается, что все наблюдения предварительно сортированы в порядке возрастания душевого дохода. Неправильность оценок (11) заключается в равной представительности наблюдений в каждом дециле (десятая часть выборки). Авторы метода предложили следующую схему исправления оценок. Пусть р (к) — различные вероятности попадания наблюдений из генеральной совокупности в выборку, причем предполагается также, что р(1) > р(2) > ... > р(10), тогда «след» истиной к-й децили генеральной совокупности может быть оценен как д(к) = у{[8(к) * п] + 1},
где 8(к) = Екр(|) / 210р0) (к=1, ... ,9) (12) .
Тогда величина Б(к) — доля выборки, которую составляют респонденты с доходами не выше к-й децили для распределения доходов в генеральной совокупности. Формула (12) полезна, только в том случае, если известны величины рО). Авторы метода предложили оригинальную конструкцию, позволяющую оценить вероятности рО) и, соответственно, доли выборки Б(к). Для этого предлагается приписать каждому наблюдению у(1) вес ш(1) таким образом, чтобы выполнялись следующие условия:
■ Веса должны быть распределены по возможности равномерно, т.е. близки к 1/п.
■ Сумма весов равна 1.
■ Взвешенная выборочная оценка среднедушевых доходов
М(у,ш) = 2п ш(1) * у(1) (13) должна быть как можно ближе к макроэкономической оценке (генеральной оценке).
После такого перевзвешивания величины Б(к) определяются как Б(к)=п(к) /п, где п(к) — число наблюдений в выборке, определяемое из уравнения
2п(к) = к/10.
При этом наборы наблюдений {1 ... п(1)}, {п(1)+1 ... п(2)}, ... , {п(9)+1 ... п} будут иметь, вообще говоря, разные размеры и представлять собой «следы» генеральных децильных интервалов в рассматриваемой выборке. Из описания метода видно: если выборочный средний душевой доход меньше генерального М, то из требований баланса (13) следует, что наблюдения с более высоким доходом должны иметь относительно большие веса, чем наблюдения с низким доходом. Остался открытым вопрос о способе оценки весов ш(1). Для решения этой задачи авторы метода предложили использовать веса, которые являются решением следующей оптимизационной задачи, реализующей вышеуказанные требования:
где параметры a и b определяются из условий (15) и (16). В предположениях задачи b > 0, и потому веса w(i) возрастают с ростом y(i), что подтверждает вышеуказанное замечание. Достоинством предложенного метода калибровки является его независимость от типа распределения населения по доходам. Однако, если известно, что распределение является логарифмически нормальным, то можно предложить другую схему нахождения «следов» децилей в выборочной совокупности. Для оценки параметров логнормального распределения денежных душевых доходов населения мы используем две величины: генеральный средний душевой доход и долю населения, проживающего ниже уровня прожиточного минимума. Зная эти величины, легко найти среднее и дисперсию логнормаль-ного распределения и рассчитать границы децильных интервалов. После этого легко подсчитать, сколько значений выборочной совокупности попадают в те или иные интервалы, и получить оценки вероятностей р.. Эту методику мы используем уже более 5 лет.
Как можно видеть, методы Айвазяна—Коленикова и Шевякова—Кируты имеют особый признак, которым является средний душевой денежный доход, и без него вся схема не имеет смысла. Метод CALMAR свободен от этого недостатка, хотя и используется для решения аналогичной задачи.
Из содержания поставленных перед нами задач вытекала необходимость сначала поправить именно социально-демографические структурные невязки, и только потом переходить к оценке экономических показателей. При этом было желательно иметь простой для реализации алгоритм, с возможностью использования в доступной многим специалистам вычислительной среде, совместимой с форматом хранения данных в ФСГС РФ. Хотелось также, чтобы процедура корректировки весов носила итерационный характер, чтобы было видно по промежуточному результату вычислений, что процесс идет в правильном направлении для разных групп калибрующих признаков.
4. Метод балансовых итераций
В середине прошлого века для решения задач построения дифференцированного баланса (ДБ) доходов и потребления [7, 8, 9] использовалась итерационная процедура коррекции структуры матрицы ДБ, полученной на основе выбороч-
2n w(i) * log(1/w(i)) - max 2n w(i) - 1, 2n w(i) * y(i) - M
(14)
(15)
(16)
Аналитическое решение задачи (14)—(16) имеет вид: w(i) — a*exp(b*y(i)),
ных данных, которая обеспечивала выполнение балансов с генеральными итогами по строкам и столбцам матрицы. Сами итоги оценивались или рассчитывались на основе торговой статистики и макроэкономических данных. Верхние итоги таблицы ДБ представляли собой суммарные доходы населения из разных децильных групп, а итоги по строкам составляли суммарные расходы, потраченные населением на различные группы товаров, услуг и средств, отложенных в сбережения. Суть простейшей из подобных процедур (метод IPFP) была проста. Сначала производилась нормировка элементов всех строк для выполнения балансовых равенств по товарным группам, и на измененных таким образом данных делалось нормирование столбцов под суммарные доходы децильных групп. Если многократное применение такой процедуры выходило на режим малых изменений или незначительных ошибок отклонения, то процесс завершался и внутренняя структура матрицы ДБ считалась достигнутой. Понятно, что для сходимости метода требовалось равенство суммы всех доходов и суммы всех расходов, т.е. равенство сумм итогов по стокам и столбцам.
В работах [7, 8] были предложены более надежные и содержательные методы восстановления структуры ДБ, однако они хорошо работали для относительно небольших размеров матриц и опирались на довольно сложный алгоритм расчетов. Кроме того, для оценки параметров модели ДБ требовались итоговые данные за несколько последовательных лет, именно на их основе рассчитывались необходимые перекрестные коэффициенты эластичности. К сожалению, метод IPFP и другие, более продвинутые методы, перевзвешивают не только строки матрицы, но и столбцы, и таким образом получается две системы весов: отдельно для строк и отдельно для столбцов. Коррекция элемента таблицы происходит за счет умножения его на 2 веса: вертикальный и горизонтальный. Для модели ДБ обе системы весов имеют содержательный смысл и служат для выполнения балансов всех итоговых окаймляющих величин.
В нашем же случае мы пытаемся скорректировать только веса по строкам, т.е. веса отдельных домохозяйств, но при этом мы не исправляем «представительность» отдельных признаков. По этим причинам возникла необходимость разработать методику дооценки весов домохозяйств, при которой бы выполнялись структурные балансовые соотношения для всех включаемых балансирующих признаков (столбцы матрицы данных), но без жесткого задания итоговых значений по строкам, которые нам не известны. Понятно, что каждое изменение исходных весов приводит к изменению сумм по строкам. Наиболее интересным и полезным для нас свойством итерационного метода IPFP являлось то обстоятельство, что при всех преобразованиях данных промежуточные значения весов не выходили в отрицательную область. Действительно, все нормировки используют только операции сложения, умножения и деления на положительные числа, т.е. последовательные приближения к решению задачи происходят в области положительных значений.
Трудности в построении алгоритма аналогичного IPFP для переменных границ были разрешены после понимания несимметричности необходимых преобразований в итерационном цикле. После нескольких попыток итерационная процедура коррекции весов была разработана. Она не требует изначальной агрегации данных и уменьшения размерности. Внешне она похожа на процедуру
IPFP, но по сути это другой алгоритм с переменными правыми итогами, которые динамически формируются и изменяются на каждом шаге итерации. В тоже время она сохранила полезное свойство «положительного» движения к решению, как и IPFP. Можно показать, что метод IPFP дает такое же решение, как и решение, получаемое при минимизации некоторого энтропийного критерием качества, измеряющего отклонение исходной и калиброванной матрицы ДБ. К сожалению, для предлагаемого метода мы не можем указать конкретный вид критерия качества, который бы приводил к тому же решению. Поэтому предлагаемый алгоритм будет описан подробно по шагам.
Введем несколько обозначений для описания исходных условий. Как и раньше, обозначим элементы матрицы данных через {хУ 1=1...п, )=1...т},
где 1 — номер домохозяйства, а ) — номер признака в ДХ; т-число признаков, а п — количество наблюдений (домохозяйств). Обозначим итоговые значения по столбцам {д, )=1...т}, а искомые веса через {ш1 , 1=1,...,п}. В табличной форме задачу можно представить следующим образом: е1 ... а ... Ет ш1 х11 ... хЦ ... х1т г1
(17)
шп хп1 ... хп) ... хпт гп Яп
V!... у] ... vm
П ... д ... Гт,
где
У] = х1] + х2) + ... + хц] )=1 ... т, (18)
Г = Э / у] ]=1 . т, (19)
г1 = х11 + х12 + ... + х1т 1=1 ... п, (20)
Я1 = 51* х11 + Г2*х12 + ... + Гт*х1т 1=1 ... п, (21)
ш = Я1 / г1 1=1 ... п. (22)
Как видно из определения величин у. , они равны сумме значений )-го столбца, а Г показывает, на сколько нужно помножить у . , чтобы выйти на итоговое значение е . Значения г 1 являются текущими итогами по строкам, а величины Я указывают, какими должны быть суммы по строкам, если полностью выполняются все балансы по столбцам (значения х1) учитываются в сумме Я1 с корректирующими весами Г ). Центральная идея этого метода состоит в выборе весов так, чтобы сумма элементов строки, скорректированная на вес ш1, принимала тоже значение Я как рассчитанное после балансировки столбцов. Т.е. балансировка по строкам производится только при выполнении балансов по столбцам. В этом и состоит принципиальное различие с методом IPFP, в котором итоги по строкам всегда постоянные. Если предположить, что начальные значения весов равны 1, то выражения (17)—(22) дают описание одной итерации предлагаемого алгоритма расчета весов. Ниже будет показано, что после каждой итерации сумма скорректированных значений по каждому столбцу приближается к итоговому значению.
Опишем более подробно по шагам все действия реализованного алгоритма, проводимые в рамках одной итерации.
Шаг 1. Вычисляем значения взвешенных сумм у. по всем столбцам:
Zn. Wj * X.j = Vj
Zn| wj * хд = v2 (23)
2ni Wi * Xi,m = Vm
Шаг 2. Оцениваем уровни расхождения между генеральными итогами gj и рассчитанными на предыдущем шаге v. , а именно:
f. = g j /V j = 1,-, m j (24).
Какие-то f будут больше 1, а другие меньше 1, но все они положительные числа.
Шаг 3. Производим корректировку весов w. для каждого наблюдения (строка i) так, чтобы сумма по строке с модифицированными весами w'. была равна сумме, учитывающей коэффициенты расхождения f.:
j w'. * xy = j w. * xj fj
или
w'. = w. * Sm x.* f / 2m X. i=1, ... , n (25).
i i j и j ' j ij ' ' v '
Выражение (25) показывает, что w'. является средним взвешенным значением из невязок fj , где весами выступают доли вида: x / X x . Поэтому для w'. и fj выполняется неравенство:
Min fj < w'. < Max fj i=1, ... , n. (26).
На этом текущая итерация завершается, так как мы вернулись в состояние, которое было перед шагом 1.
Конкретные вычисления показали, что после каждой итерации алгоритма происходит постепенное уменьшение величин fj , которые были больше 1, и соответственно увеличение тех fj, которые были меньше 1. Отметим, что алгоритм делает улучшения только в области положительных решений. Кроме этого, его легко модифицировать так, чтобы учитывать заранее заданные ограничения на величину отклонения весов w'. от w.. Это можно сделать на шаге 3 пересчета w'.. Если полученное значение веса w'. оказывается больше или меньше граничных значений, то w'. приравнивается граничному значению и далее делается переход к следующему шагу алгоритма.
Точного доказательства сходимости алгоритма, в той форме как он описан по шагам, авторам пока получить не удалось, однако множество конкретных расчетов и сравнений с другими методами показали высокую скорость и эффективность данной процедуры. Более того, в тех случаях, когда структурные несоответствия или жесткость условий на границы отклонений велики, алгоритм достигает минимума возможного отклонения и процесс стабилизируется. Это является сигналом для изменения условий жесткости отклонений или даже указанием на существенное различие структуры генеральных и выборочных данных. Верность последнего замечания подтверждается «игрушечным» примером, который легко модифицировать в сторону реальности и который показывает, что существуют выборки, не имеющие точного решения проблемы калибровки. И это не зависит от вида алгоритма. С другой стороны, предлагаемый алгоритм позволяет несколько улучшить ситуацию даже в критических случаях.
Устойчивость метода достаточно высокая. Она была проверена методом «складного ножа», т.е. делались оценки весов при произвольном выбросе не-
большого количества наблюдений, а также сравнивались оценки при небольших изменениях граничных значений. При всех указанных изменениях веса мало менялись. Правда, остается нерешенной проблема отношения метода к агрегации и дизагрегации. Мы здесь говорим о проблеме несовпадения решения, полученного на всей выборке, и решения, построенного в виде суммы решений, полученных на отдельных частях, составляющих целое, например: решение для России в целом и решения, составленного из решений по отдельным федеральным округам. Однако эта проблема не решается ни одним из перечисленных методов. Важным случаем этой проблемы является невыполнение итоговых балансов для отдельных федеральных округов, на весах калиброванных по России в целом. Понятно, достичь минимального изменения начальных значений весов легче на полной выборке, чем при построении решения как суммы решений частей. Как мы отмечали выше, в первом случае перераспределение структурной невязки возможно не только внутри составляющих частей, но и между ними.
Несмотря на все разнообразные вычислительные эксперименты, показывающие эффективность метода и, прежде всего подтверждающие его сходимость, хотелось бы получить теоретическое подтверждение сходимости предлагаемого алгоритма. С этой целью мы рассмотрим и приведем доказательство сходимости модифицированного алгоритма корректировки, который редуцирует задачу к более простому случаю, точнее, к ситуации, когда наша таблица сводится к матрице размера 2 х 2. Смысл редукции состоит в следующем: выделим те столбцы, для которых рассчитанные на шаге 2 значения ^ > 1, и просуммируем их, а также просуммируем генеральные (итоговые) значения для этих же столбцов. Аналогичную процедуру сделаем со столбцами, для которых ^ < 1. В результате мы получим два новых столбца Хи и Х.2 с итоговыми значениями С1 и С2. Так как, все у < ^ из первой группы столбцов и у > для второй группы, то суммарное V < 61 и У2 > С2 (для редуцированной матрицы мы будем использовать прописные буквы). Далее строки матрицы разобьем на два класса, в первый отнесем те строки, для которых выполняется неравенство г. < Я., а во второй класс — те строки, где г. > Я Просуммируем значения первого и второго класса для каждого из двух ранее полученных столбцов. В результате получим таблицу, подобную (17), содержащую матрицу {Х.} размера 2 х 2, для которой определены все необходимые суммы и по строкам Я. и по столбцам ,
62 6 6
Х11 Х12 И, Л,
Х21 Х22 И2 -И2
V,
т.е. выполняются балансы:
^ + С2 = С Х„ + Х12 = Я1 Х„ + Х21 = V,
Я1 + Я2 = С Х21 + Х22 = Я Х12 + Х22 = V
Как и в исходных данных, все эти числа положительные. Определим балансирующие величины F1 и F2 так, чтобы
О1 = V1 * F1 и О2 = V2 * F2 и вычислим взвешенные суммы по строкам
Хп * ^ + ^2 * ^ = R1, ^1* F1 + Х22 * F2 = И2. Далее найдем такие веса W1 и W2, чтобы выполнялись равенства
ХП * F1 + Х12 * F2 = W1 * (Х11 + ХП) Х21 * ^ + Х22 * ^ = W2 * (Х21 + ^2)
или это можно записать так:
R2 = W2 * R1, W2 = R2 / R2 (27)
R2 = W2 * R2, W2 = R2 / R2 (28).
Так как F1 и F2 не равны 1, то ясно, что одно из Fi больше 1, а другое меньше. По построению матрицы мы имеем F1 > 1 и F2 < 1, поэтому нам достаточно доказать, что
Хц * ^ + Х2! * W2 > Хп + Х2! = V! (29)
Х12 * W1 + Х22 * < Х12 + Х22 = V2 (30).
Докажем сначала следующую лемму.
Лемма 1. При заданных условиях задачи ^ > 1, F2 < 1, R1 > г1 и И2 < г2 ) для выполнения неравенства (29) необходимо, чтобы определитель матрицы был больше нуля, т.е.
Х11* Х22 - Х12* Х21 > 0 (31) Доказательство. Возьмем выражения для весов Wi из (27, 28) и подставим
в неравенство (29)
ХИ * R1/R1 + Х21 * R2/R2 > Х11 + X21, приведем выражение к общему знаменателю и сделаем необходимые преобразования
Х11* 51* + Х21* R2* R1 > R1* ^^2* (Х11 + Х21) Х11 * ^2* (^ - > Х21 * * (Я, - Е,) (32). Величины (К1 - R1) и (И2 — И2) равны и положительны, что следует из условий задачи. Действительно, их равенство следует из того факта, что увеличение R1 до К1 совпадает по величине и противоположно по знаку уменьшению И2 до R2, так как R1 + R2 = R1 + И2 = О. Поэтому, сокращая выражение (32) на положительное значение ^ - R1), получаем:
Хп* И. > Х21* ^ или Хп * (Х21+ Х22) > Х21 * (Хп+ Х12). После перемножения и приведения подобных членов получим требуемое неравенство:
Х11 * Х21+ Х11 * Х22 > Х21 * Х11+ Х21 * Х^
Х11* Х22- Х12* Х21 > 0. Теперь осталось доказать, что положительность определителя также вытекает из условий нашей задачи.
Лемма 2. Пусть в таблице {Х } выполняются следующие условия:
О1 > V , О2 < Vv ^ > R1, ^ < ^ и
О1 + О2 = V1 + V2 = О. Тогда определитель матрицы |{Х$}| > 0. Доказательство.
Так как О1 > V1, то можно записать О1 = V1 + D и О2 = V1 — D, или
F1 = 1 + D/V1 > 1 и 0< F2 = 1 - D/V1 < 1. Если в выражения: Х11 * F1 + Х12 * F2 = R1 , Х21 * F1 + Х22 * F2 = К2 подставить полученные выражения для F1 и F2, то:
Хц/ Vl - Х12/ V2 = ^ - ^/О , Х22/ V2 - Х21/ Vl = (^ — ^/о.
Обозначая величину (^ — .К^/О = 2 * Т, можно записать наши выражения в виде:
Хц/ V — т = Х12/ V2 + т = к (33)
Х22/ V2 — Т = Х21/ Vl + Т = К (34),
где К1 и К — какие-то положительные величины. Из выражений (33, 34) легко получить новое «структурное» представление для элементов матрицы, а именно:
Х11 = (Т + К) * V , Х12 = (К1 - Т) * V2 , Х21 = (К - Т) * % , Х22 = (Т + Кз) *v2 Теперь легко рассчитать определитель нашей матрицы:
Хц* Х22 - Х12 * Х21 = (Т + К1) * V/ (Т + К.) * V2 - (К1 - Т) * V2* (К - Т) * Или после преобразований
|{Х1]}| = 2 * Т * Vl* V2 * ( К1+ К.) (35)
Складывая первый член равенства (33) и второй равенства (34), получаем К1+ К = 1, и потому
|{Ху}| = 2 * Т * V1 * V2 (36)
Выражение (36) положительно, так как положительны все величины, его составляющие. Наше доказательство почти закончено. Осталось сделать последний шаг. Полученные значения весов W1 и W2 мы используем для коррекции первой и второй группы строк таблицы (выборочных наблюдений) и, по доказанному, будет получено некоторое новое приближение, для которого взвешенные суммы по столбцам менее отличаются от генеральных значений О1 и О2. Из доказательства видно, что классы, на которые разбиваются столбцы и строки (отдельные наблюдения), могут меняться от итерации к итерации, и потому окончательное изменение весов не будет сведено только к двум значениям, полученным на последнем шаге алгоритма.
К сожалению, приведенное доказательство объясняет улучшение ситуации после каждой итерации для групп столбцов, т.е. в «среднем», а не для каждого столбца в отдельности. Так, если посмотреть, как формируется множество столбцов в группу по признаку vi < ё1 , то можно заметить, что факторы коррекции F1 и F2 для суммарных столбцов являются средневзвешенной суммой факторов Г столбцов составляющих, а именно из того, что
О = ё, + .•• + ё и V = V + ... + V
1 °1 °р 11 р
следует
V* £ + ... + V* Г = V* F, (37).
11 р р 1 1 ^ '
Если разделить выражение (37) на величину то будет видно, что F1 является средневзвешенной величиной факторов Г с весами V / V1, сумма которых равна 1. Аналогично можно представить значение F2 для второй группы признаков. Так как редуцированный алгоритм «улучшает» множители F1 и F2, т.е. приближает их к 1, то это и означает приближение в «среднем» для индивидуальных множителей столбцов. Формально, данный тип приближения можно описать как процесс, уменьшающий сумму модулей отклонений V от ё . Доказанный вариант алгоритма немного сложнее для реализации, однако он и нтересен тем, что при каждой итерации хорошо видно, как сокращается невязка между конфликтующими группами наблюдений.
В заключение хотелось отметить, что требования к процедуре корректировки формировались в процессе разработки нашего подхода и с учетом применения
других алгоритмов на больших массивах данных. При конкретных расчетах возникали сложные ситуации, когда в ряде случаев калибровка весов для отдельных регионов получалась неудовлетворительной, и в то же время в рамках более широких территориальных образований (федеральные округа) все проблемы снимались. Природа этого явления состоит в том, что в рамках отдельного региона, в силу определенных причин, оказывается недостаточной представительность референтных групп в выборке, и вполне достаточной — в рамках более широкого образования. При этом необходимо понимать, что это исправление происходит не за счет внутреннего перераспределения весов внутри отдельных регионов, но между регионами. Поэтому и оценки характеристик референтных групп в этом случае правильно рассматривать на уровне федеральных округов, а не отдельных регионов.
В процессе конкретных вычислений были выявлены дополнительные положительные свойства алгоритма, связанные с тем, что даже в случае неполной сходимости (несогласованные структуры выборочных и генеральных данных) результирующие факторы (по столбцам) практически равны 1, кроме тех факторов, для которых наблюдается наибольшее рассогласование. Это очень важно, так как на начальном этапе анализа данных не всегда ясно, где наблюдаются несоответствия в структуре генеральных и выборочных данных.
Литература
1. Sautory O. La macro SAS CALMAR: Redressement d'un Echantillon par Calage sur Marges, Document de travail de la Direction les Statistiques Demographiques et Sociales, no. F9310. 1993.
2. Vanderhoeft S. Generalised Calibration at Statistics Belgium SPSS Module g-Calib-S and Current Practices, Working Paper, Statistics Belgium, 2001.
3. Vanderhoeft Camille, Museux Jean-Marc, Waeytens Etienne. g-Disigne and g-Calib-S: SPSS modules for Generalised Calibration, Statistics Belgium, 2000, IASS / AISE.
4. Айвазян С.А., Калеников С.О. Качество жизни, уровень бедности и дифференциации по расходам населения России. Промежуточный отчет по гранту РПЭИ, декабрь 1999 г.
5. Кирута А.Я., Шевяков А.Ю. Совершенствование методологии распространения данных выборочных обследова-
ний на генеральную совокупность, М.: ЦСЭИ РАН и ГКС РФ, 1999.
6. Шевяков А.Ю., Кирута А.Я. Измерение экономического неравенства и бедности (теория индексов). М.: ЦСЭИ РАН и ГКС РФ, 1999.
7. Шевяков А.Ю., Кирута А.Я. Моделирование сбалансированности и согласования плановых решений в сфере народного благосостояния. М.: Наука, 1986.
8. Шевяков А.Ю., Кирута А.Я. Дифференцированный баланс доходов и потребления населения: новые аспекты теории и практических применений // Вопросы статистики. 1995. № 7.
9. Система экономико-математических моделей для анализа и прогноза уровня жизни / Под ред. акад. Н.П. Федоренко. и Н.М. Римашевской. Глава 4. М.: Наука, 1986.