ISSN 1814-1196 Научный вестник НГТУ том 80, № 4, 2020, с. 121-144
http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 80, No. 4, 2020, pp. 121-144
ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
INFORMATICS, COMPPUTER ENGINEERING AND CONTROL
УДК 330.564 + 519.234 DOI: 10.17212/1814-1196-2020-4-121-144
Теоретические и эмпирические функции Лоренца,
*
индексы Джини и их свойства
Д. А. СЕМЕНОВ1," В.Ю. ЩЕКОЛДИН24
1 630128, РФ, г. Новосибирск, ул. Кутателадзе, 4Г, Федеральная кадастровая палата по Новосибирской области 630073, РФ, г. Новосибирск, пр. К. Маркса, 20, Новосибирский государственный
технический университет
а miktor.semenov@gmail.com ь raix@mail.ru
Вопросы оценивания справедливости и эффективности распределения совокупного дохода общества между различными группами населения привлекали внимание ученых с давних времен. Наиболее актуальными они стали в конце XIX - начале XX века в связи с расслоением стран с разнообразным политическим и социальным устройством, вызванным интенсивным развитием экономики, науки и техники. Функция и кривая Лоренца, а также индекс Джини обычно используются для теоретических исследований и приложений в экономических и социальных науках. Первоначально эти инструменты были введены для описания и изучения неравенства распределения дохода и благосостояния среди определенной популяции населения. В последние годы они нашли широкое применение в таких отраслях знания как демография, страхование, здравоохранение, теории риска и надежности, а также и в других областях деятельности человека. В настоящей работе приводятся свойства функции Лоренца и различные представления индекса Джини, систематизируются аналитические результаты для равномерного, экспоненциального, степенного (типа I и II), логнормального распределений, а также распределения Парето (типа I и II). Дополнительно изучен вопрос об оценивании неравенства на основе индекса Пьетра и его связи с функцией Лоренца. Рассматриваются непараметрические оценки функции Лоренца и индекса Джини на основе выборки из соответствующего распределения. Показана строгая состоятельность и асимптотическая несмещенность этих оценок при определенных условиях на исходное распределение при увеличении объема выборки. На основе метода линеаризации оценок установлена асимптотическая нормальность эмпирической функции Лоренца и эмпирического индекса Джини.
Ключевые слова: оценка неравенства, функция Лоренца, кривая Лоренца, индекс Джини, индекс Пьетра, линеаризация оценок, строгая состоятельность, асимптотическая несмещенность, нормальность
Статья получена 06 мая 2020 г.
ВВЕДЕНИЕ
Вопросы распределения доходов и благосостояния и связанные с ними концепции экономического неравенства и социального благосостояния восходят к кодексу Хаммурапи, трудам Аристотеля, Фомы Аквинского, Жан-Жака Руссо и других философов прошлых веков.
С переходом к рыночной экономике во многих странах резко обострился процесс расслоения общества по уровню доходов. Неравенство распределения совокупного дохода общества между различными группами населения стало объектом изучения экономистов и статистиков в конце XIX - начале XX века. Основной проблемой изучения являлась оценка справедливости и эффективности распределения доходов и богатств.
Интенсивно происходящее социальное расслоение общества требовало активного вмешательства государства в процесс перераспределения доходов. Измерение степени неравенства доходов и оценивание уровня бедности стало необходимым для стран с самым разнообразным политическим и социальным устройством.
Для описания и изучения неравенства доходов были предложены различные модели распределения, такие как, например, логнормальное, Парето и другие, применение которых на практике требует соблюдения определенных условий. Для рассмотрения общих ситуаций необходимо наличие более широкого класса инструментов анализа неравенства, наиболее распространенным из которых является кривая Лоренца.
В 1905 г. американский экономист и статистик Макс Отто Лоренц [15] предложил метод анализа распределения доходов и благосостояния населения с помощью кривой на плоскости, получившей впоследствии его имя. Эмпирическая кривая Лоренца строится на основе совокупности п упорядоченных по возрастанию выборочных данных Хф < Х(2) <... <п)следующим образом:
i Т .„ч „ т i S,
(i >
V n
Sn
в опорных точках с абсциссами —, i = 0,..., n , полагается Ln (0) = 0, Ln
n
где Si = X(1) + x(2) +... + x(i).
Эмпирическая кривая Лоренца Ln (p) определяется для всех p е [0,1] линейной интерполяцией по опорным точкам, а ее сглаживание некоторой аналитической зависимостью представляет собой теоретическую функцию Лоренца L(p) , график которой называется кривой Лоренца (рис. 1).
Кривая Лоренца располагается в первом квадранте между началом координат (0,0) и точкой (1,1). При этом точка на кривой с координатами
(p, L(p)) означает, что доля p населения анализируемой территории обладает долей L(p) совокупного дохода. Диагональ единичного квадрата, т. е. прямая L(p) = p, называемая эгалитарной линией, определяет ситуацию абсолютного равенства распределения доходов. Отличие кривой Лоренца от эгалитарной линии определяет дифференциацию доходов: чем больше кривая Лоренца отклоняется от линии абсолютного равенства, тем больше неравенство в распределении доходов.
Одним из количественных показателей степени дифференциации общества по отношению к какому-либо признаку является индекс Джини О , предложенный в 1912 г. итальянским экономистом, статистиком и демографом Коррадо Джини [11]. В экономических расчетах в качестве изучаемого признака часто рассматривается величина годового дохода общества. Индекс Джини основывается на кривой Лоренца и определяется как отношение площади $л фигуры Л, ограниченной кривой Лоренца и эгалитарной линией (рис. 1),
„ („ 1 ^ к площади треугольника под эгалитарной линией
на рис. 1
2
т. е. О — . Эта величина принимает значения от нуля до единицы и показывает, насколько распределение доходов отличается от абсолютного равенства, при котором О — 0 . Чем больше значение индекса Джини отличается от нуля, тем в большей степени доходы сконцентрированы в руках отдельных (небольших) групп населения. Предельное значение О — 1 говорит об абсолютном неравенстве, при котором все доходы сосредоточены в руках одного индивида или одной группы населения.
Как кривая Лоренца, так и индекс Джини обычно используются в экономических и социальных науках. Однако они могут отражать неравенство в распределении самых различных величин. Поэтому методы, основанные на этих показателях, в последние годы нашли применение в таких областях знания, как демография, страхование, здравоохранение, теория надежности и др.
100
20 40 60 SO
Получатели доходов р, %
Рис. 1. Геометрическая интерпретация кривой Лоренца и индекса Джини
Fig. 1. Geometric interpretation of the Lorenz curve and the Gini index
1. ФУНКЦИЯ ЛОРЕНЦА И ЕЕ СВОЙСТВА
Пусть X - неотрицательная случайная величина (с.в.) с функцией распределения (ф.р.) Р(х) = Р{Х < х}, х е Я, и математическим ожиданием, или средним значением,
ю
ц = X) = | хйР( х). (1)
0
В дальнейшем всюду будем полагать, что 0<ц<ю. Первоначально определение функции Лоренца, соответствующей ф.р. Р(х) с плотностью распределения (п.р.) /(х), было сформулировано в параметрическом виде при помощи системы уравнений (см., например, [3, с. 75]):
р = Р (х) = Х\/(Х) йХ,
0 х (2) Ц( р) = Ц( Р (х)) =1 ]х/ (Х) йХ. Ц 0
Для унифицированного определения функции Лоренца, соответствующего произвольному распределению, в том числе и дискретному, в работе [9]
использовалось квантильное преобразование Р_1(р), 0 < р < 1, функции Р (х):
Р_1(р) = 8ир{х: Р(х) < р} = 1и£{х: Р(х) > р}, 0<р < 1,
Р_1(0) = 1и£{х: Р(х) > 0} есть левая граница носителя распределения Р(х).
Сделав в (1) и (2) замену переменной р = Р (х) и воспользовавшись теоремой о замене переменной под знаком интеграла, получим следующее выражение для функции Лоренца:
р -1
| Р (и) йи
Ц(р) = 11Р-1(и) йи = -0-, 0 < р < 1. (3)
^ 0 | Р—1 (и) йи
Если ц = 0 или ц, = +со, то функция Лоренца не определена. Заметим, что в математической статистике величину хр = Р—1(р) называют кван-тилью порядка р или р-квантилью, 0 < р < 1. Очевидно, что эта величина имеет смысл для любых Р(х) . Если ф.р. Р(х) непрерывна, то Р—1(р) есть минимальное решение уравнения Р(х) = р, причем решение будет един-
ственным, если Р (х) строго монотонна. Нетрудно также видеть, что при непрерывности Р( х) верно
Р(хр) = р, 0 < р < 1. (4)
Функция Лоренца обладает рядом полезных свойств. Рассмотрим некоторые из них.
1°. Функция Ц(р) непрерывна для всех р е [0,1], Ц(0) = 0 и Ц(1) = 1. Доказательство. Как ф.р. Р(х), так и обратная к ней Р_1(х) являются непрерывными слева. Функция Ц(р) как функция верхнего предела интегрирования р (см. (3)) в силу свойств интеграла непрерывна для всех р е[0,1]. Равенства Ц(0) = 0 и Ц(1) = 1 очевидны из определения. 2°. Если ф.п.р. У (Хр) > 0, то существует производная
Ц(р) = ^, 0 < р < 1. (5)
Ц
Доказательство. Дифференцируя равенство (4), получаем ёР (Хр) ёР (Хр) ёХр
1,
ёр ёХр ёр
откуда
ёХр 1
ёр У (Хр)
В силу (2) и (6) имеем
(6)
ёЦ р) 1
| х / (х) ёх
0
р 1 xvf(хр ) х1
ёр Ц ёр ц f (х„) ц
0 < р < 1.
р
х
Поскольку Ц(р) = -р->0, 0 < р < 1, то из геометрического смысла про-Ц
изводной очевидно, что имеет место следующее.
Следствие 1.1. Функция Лоренца Ц(р) возрастает при 0 < р < 1.
3°. Если ф.п.р. f (хр) > 0, то существует вторая производная
Ц(р) =-—, 0 < р < 1. (7)
ц У (хр)
Доказательство. Из формул (5) и (6) непосредственно вытекает, что
2Т,^ Л Г X ^
^Цр) _ а
ар2 ар
р
ц
1
ц /(хр)
0 < р < 1.
Так как Ь" (р) _-1-> 0, 0 < р < 1, то из геометрического смысла
Ц / (хр)
второй производной вытекает, что Следствие 1.2
Функция Лоренца выпукла вниз при 0 < р < 1.
Свойство функции Лоренца в п.1) означает, в свою очередь, что эгалитарная линия мажорирует функцию Лоренца на этом интервале, т. е.
0 < Ь(р) < р, 0 < р < 1.
4°. Функция Ь(р) инвариантна относительно положительного масштабирования: с.в. X и сХ , где с > 0 - произвольная константа, имеют одну и ту же функцию Лоренца.
Доказательство. Рассмотрим с.в. У _ сХ, с > 0. Ниже индексами X и У будем обозначать характеристики, относящиеся к с.в. X и У соответственно. Очевидно, что
ЦХ _ с Цу (8)
и
¥у (у) _ Р{сХ < у} _ Р{ X < у / с} _ ¥х (У / с). (9)
Для с.в. У ^-квантиль Ур есть решение уравнения Ру (Ур) _ р, или, в силу (9), уравнения
Fx (Ур / с) _ р . (10)
Сравнение соотношений (4) и (10) показывает, что
Ур / с _ хр , или Ур _ схр . (11)
Тогда из (8) и (11) вытекает, что
1 р 1 Р
Ьу (р) _-| Уиёи _-| схиёы _ IX (р).
Цу 0 сЦX 0
Следствие 1.3. Любой ф.р. Р(х) с конечным средним Ц соответствует единственная функция Лоренца Ь(р).
Обратное утверждение в общем случае в силу свойства 4° неверно. Однако имеет место следующая
Теорема 1.1 ([17]). Пусть Ь(р) - непрерывная функция, определенная
на отрезке [0,1], со второй производной Ь"(р). Тогда функция Ь(р) есть функция Лоренца, соответствующая некоторому распределению Е( х), тогда и только тогда, когда Ь(0) = 0, Ь(1) = 1, Ь"(р) > 0, Ь"(р) > 0, 0 < р < 1.
5°. Максимальное расхождение по вертикали между кривой Лоренца Ь(р) и прямой абсолютного равенства Ь(р) = р достигается в точ-*
ке р = Е (ц), и эта величина, называемая индексом Пьетра [16], равна
Е (I х -ц|)
Р - Е(ц) - Ь(Е(ц)) = -У-Ч . (12)
2ц
Доказательство. Поскольку Ь( р) выпукла вниз, то функция 1(р) = р - Ь(р) выпукла вверх и I(0) = I(1) = 0 . Поэтому существует единственная точка р е [0,1] максимума функции 1(р), которая определяется из
уравнения I"(р*) = 0. Дифференцируя 1(р) и используя равенство (5), находим
I" (р*) = 1 - Ь" (р*) = 1 - Е-1( р*)/ц = 0, откуда р = Е (ц). Тогда индекс Пьетра равен
Р = тах I(р) = Е(ц) - Ь(Е(ц)).
0< р<1
Далее в силу уравнений (2) имеем
ц ц ц
ц Р = ц| йЕ(х) - | хйЕ(х) = | (ц- х) йЕ(х).
0 0 0
Но поскольку | (ц- х) йЕ (х) = 0, то
0
ц Р =1
2
ц ю
| (ц - х) йЕ (х) + | (х - ц) йЕ (х)
0 ц
1 ю 1
= -{ |х -ц| йЕ (х) = - Е (х -ц|)
2 0 2
откуда получаем (12).
Индекс Пьетра Р показывает, какая доля совокупного дохода (богатства) общества должна быть перераспределена в пользу беднейшего населения. На практике чаще используется другой показатель степени неравенства в распределении доходов - индекс Джини.
2. ИНДЕКС ДЖИНИ И ЕГО ПРЕДСТАВЛЕНИЯ
Мера неравенства распределения некоторого неотрицательного признака X (в том числе и дохода) - индекс Джини G - определяется на основе функции Лоренца L(p) формулой
1
G = 1 - 2{Ц(p)dp . (13)
0
Это определение согласуется с геометрическим, приведенным во введении. Действительно, из рис. 1 видно, что площадь фигуры А есть
1 1 1 1
8Л =| (Р - Ц(Р)) dp =— |Ц(р) dp = -G, 0 2 0 2
откуда G = 2Бл .
Из формулы (13) вытекают другие представления индекса Джини, основанные на ф.р. Р (х), ковариации и средней абсолютной разности.
1°. Исходя из определения (13) и используя интегрирование по частям, находим
1 111 G = 1 - 21Ц(p)dp = 1 - 2[pL(p)]|0 + 21pL'(p)dp = 2{pL'(p)dp -1.
0 0 0
В последнем выражении сделаем замену переменной p = Р(х) и воспользуемся формулой (5), что дает нам
2 го
G = -{ х¥ (х) dF (х) -1. (14)
^ 0
2°. Рассмотрим интеграл в (14):
I =| хР(х) dF(х) = | х(Р(х) -1) dF(х) + { хdF(х) = ц-{ х(1 - Р(х) dF(х). 0 0 0 0
Проинтегрируем по частям второй член в последнем выражении и воспользуемся тем фактом, что если с.в. X имеет конечное среднее
ц = E(X) = j (1 - F(х)) dx , то lim x(1 - F (x)) = 0 .
0 х^го
В дальнейшем мы воспользуемся этими соотношениями. Тогда
го го
I = ц- х(1 - F(х)F(х)£ + j F(х)d[х(1 - F(х))] = Ц+| F(х) (1 - F(x)dx -I
Из последнего равенства получаем
что вместе с (14) дает
и 1 ю
I = ^- + -[ Е(х)(1 - Е(х)йх, 2 20
1ю
О = _[ Е(х)(1 - Е(х)) йх . (15)
ц0
3°. Интеграл в (15) можно переписать как
ю ю ю
[ Е (х)(1 - Е (х)) йх = [ (Е (х) -1)(1 - Е (х)) йх + [ (1 - Е (х)) йх =
0 0 0
ю 2
= ц-[ (1 -Е (х))2 йх,
0
откуда
1ю
О = 1--[ (1 - Е(х))2 йх . (16)
ц0
4°. Напомним, что
ооу( X, Е (X)) = Е( ХЕ (X)) - Е( X) Е( Е (X)),
где Е(X) = ц, Е(Е(X)) =1. Действительно,
2
ю ю ю ю
Е(Е(X)) = [ Е(х) йЕ(х) = [ (Е(х) -1) йЕ(х) + [ йЕ(х) = 1 - [ (1 - Е(х)) йЕ(х).
0 0 0 0
Интегрирование по частям последнего выражения показывает, что
ю
Е(Е(X)) = 1 - (1 - Е(х)) Е(х)|ю - [ Е(х) йЕ(х) = 1 - Е(Е(X)) .
0
Это доказывает, что Е (Е (X)) =1.
2
Так как
юц
ооу (X, Е (X)) = [ хЕ (х) йЕ (х) ,
02
то последнее выражение вместе с (14) дает
2 2 ю
О = -ооу (X,Е(X)) = -_[ хЕ(х)йЕ(х) -1. (17)
ц ц 0
5°. Первоначально Джини [11] ввел индекс G с помощью коэффициента рассеяния
следующим образом:
Д = J J |x - y\dF(x)dF(y) 0 0
G = —. (18)
2ц
Средняя абсолютная разность А характеризует разброс значений случайного признака X друг относительно друга, однако прямое ее вычисление сопряжено с известными трудностями.
Определения (13) и (18) являются эквивалентными. Вывод формулы (18) из (13) приведен, например, в [3]. Получим определение (13) из (18).
Пусть X и Y - независимые с.в. с одной и той же ф.р. F(x), т. е. «копии» друг друга. Тогда
А = Е(|X - Y|) = E[X + Y -2min(X, Y)]. (19)
Очевидно, что
P{min (X, Y) < x} = 1 - P{min (X, Y) > x} = 1 - P{X > x, Y > x} =
= 1 - P{X > x}P {Y > x} = 1 - (1 - F(x))2. (20)
Тогда из (19), в силу (20), следует, что
го го
А = 2ц + 2 J xd(1 - F(x))2 = 2ц- 4 J x(1 - F(x)) dF(x) =
= 2ц - 4 J xdF (x) + 4 J xF (x) dF (x) = 4 J xF (x) dF (x) - 2 ц. (21)
0 0 0
Сделав в (21) замену переменной p = Р (х), получим
Д = 4{ pF-1 (p)dp - 2ц . (22)
0
Так как в силу равенства (5) Р_1 (p) = цЦ'(p), то из (22) следует, что
1 1 А = 4ц| pL' (p)dp - 2ц = 4ц{pdL(p) - 2ц. (23)
0 0
Вычисляя интеграл в (23) по частям, находим
А = 4ц
1 1
pL(p)|0 - JL(p) dp
1
2ц = 2ц - 4ц| L( p) dp = 2ц
1 - 2 J L( p) dp
или согласно определению (13) А /2ц = G, что завершает вывод (18).
В таблице приведены функции Лоренца и индексы Джини, соответствующие некоторым наиболее распространенным в эконометрическом анализе распределениям. Более подробные сведения можно найти, например, в [12].
3. ЭМПИРИЧЕСКАЯ ФУНКЦИЯ ЛОРЕНЦА,
ЭМПИРИЧЕСКИЙ ИНДЕКС ДЖИНИ И ИХ СВОЙСТВА
Пусть Х1, Х2,..., Хп - независимая выборка объема п из генеральной совокупности с ф.р. х) и пусть далее Хф <Х(2) <... <Х(п) - вариационный ряд, построенный по этой выборке. Заметим, что с.в. Х(1), Х(2),..., Х(п),
называемые порядковыми статистиками, уже не являются ни независимыми, ни одинаково распределенными.
Функции Лоренца и индексы Джини для ряда распределений
Lorenz functions and Gini indices for some distributions
№ п/п Распределение Функция распределения, Р (х) Функция Лоренца, Д( р) Индекс Джини, О
1 Равномерное на отрезке [а, Ь], 0 < а < Ь х" а [ Ь] -, х е [а, Ь] Ь - а 2 2ар + (Ь - а)р а + Ь Ь - а 3( а + Ь)
2 Экспоненциальное с параметром X > 0 1 - е-Хх, х > 0 р + (1 - р)1"(1 - р) 1 2
3 Степенное I с параметром а> 0 ха, х е [0,1] р1+1/а 1 2а+1
4 Степенное II с параметром р> 0 1 - (1 - х)Р, х е [0,1] 1 - (1 + Р)(1 - р) + + Р(1 -р)1+1/р Р 2Р + 1
5 Парето I с параметрами а > 0, с > 0 1 -(С Г , х > с 1 - (1 - р)1-1/а 1 2а-1
6 Парето II с параметрами а > 0, с > 0 1 -(с г V С + х ) х > с а(1 -р)1-1/а -а- р(1 -а) 2а 2 2 + а-- 2-а
7 Логнормальное с параметрами ц > 0, ст > 0 ф( '"; х > 0 Ф(Ф-1(р) -ст) ( ст А 2фШ-1 )
Примечание. Ф(х) - функция стандартного нормального распределения.
Пусть Рп 1(х) - функция, обратная к эмпирической ф.р. вида Рп (х) =1 £ 1{Х,- < х}, х е Я,
П ¿=1
где 1{А} - индикатор события А . В терминах порядковых статистик определение функции Рп_1(х), х е [0,1], выглядит так:
Рп1( х) = X (к ^ если х<
к -1 к
п п
, к = 1,...,п .
Это следует из того, что эмпирическая ф.р. (х) возрастает скачками
величины 1 в точках Х(к), к = 1,...,п . Следовательно, функция Рп_1(х) пол-п
ностью определяется порядковыми статистиками.
Выборочной квантилью порядка p называется величина
хp = Рп 1( p) = Х(к^
Г np, если щ - целое, где к = < и [.] - операция взятия целой части числа.
[[np] +1 иначе,
Теорема 3.1. Если с.в. X имеет строго монотонную ф.р. Р(х), то при
*
п ^ю выборочная квантиль Xp , 0 < p < 1, является:
a) строго состоятельной, т. е. сходится почти наверное (п. н.), или с ве-
* п.н.
роятностью единица: Xp ^ Xp ;
*
b) асимптотически несмещенной: Е(Xp) ^ Xp ;
c) если ф.п.р. /(х) и ее производная /'(х) непрерывны в некоторой
_1 * окрестности точки Xp = Р (p) и /(Xp) > 0, то выборочная квантиль Xp
является асимптотически нормальной с параметрами Xp и а2р / п, где
2 2
аp = p(1 - p)/ / (Xp), т. е. сходится слабо или по распределению к с.в., име-
I— * d
ющей стандартное нормальное распределение: у/п (Xp - Xp) / аp ^N(0,1).
Доказательство. а) Поскольку ф.р. Р (х) строго монотонна, то Xp = Р-1(p) - единственное решение уравнения Р(х) = p. Тогда Р(Xp - в) < p < Р(Xp + в) для произвольного в > 0 . Согласно теореме Гли-
п.н.
венко-Кантелли [1], Рп (х) ^ Р(х) при п ^ю, поэтому при п ^ю
п.н.
Рп (Xp ±в) ^ Р(Xp ±в),
откуда
Р{Гт(хр -в) < р < Гт(хр + в),Ут > п} ^1. Очевидно, что для любой ф.р. Е (х) имеем
Е(х) > р тогда и только тогда, когда х > Е-1(р). (24)
Поэтому при п ^ ж
Р{хр - в< ЕМр) < хр + в, Ут >п} ^1,
откуда
Р \ ®ир | Ет 1(р) - хр | >в
т
т>п
Что завершает доказательство п. а) теоремы.
*
Ь) Для ф.р. с.в. хр в силу (24) имеем
Р{хр < х} = Р{Еп"1(р) < х} = Р{Еп (х) > р}. (25)
п.н.
Так как Гп (х) ^ Е(х) при п ^ж, то из (25) и (24) следует, что
Р{хр <х} ^ Р{Е(х) > р} = Р{х > Е-1(р)} = 1{х > хр } . (26)
Отсюда получаем, что при п ^ж
* 1 * 1 1 хр
Е(хр) = |(1 - Р{х* < х})^х ^ |(I -1{х > хр })dx = 11{х < хр }dx = | dx = хр .
0 0 0 0
с) В условиях теоремы 3.1 имеет место разложение Бахадура [6, 10]
для х р в виде
"р '"р Уп
Здесь
± X
пг=1
хр = х„ + Уп (р) + Ор (п 1/2). (27)
Уп (р) =1I (р " I{Х( < хр }) / /(хр), (28)
— 1/2
а символ Ор (п ) означает такую с.в. гп, что при п ^ж 1/2 )- Р
Гп /п = Vп Гп ^ 0 (сходится по вероятности). (29)
Индикатор события I{X; < хр } в (28) - это с.в., имеющая распределение Бернулли с параметрами
Е(I{X; < хр }) = Р[Х< < хр } = Р(Р"1(р)) = р (30)
и
Б(1 {X; < хр }) = Е(I{X; < хр }2) - (Е(I{X; < хр }))2 = р - р2 = р(1 - р) (31)
для всех ; = 1,...,п . Тогда из равенств (28)-(31) вытекает, что
2
Е(Уп (р)) = 0, Я(уп (р)) = р (2- р) = ^. (32)
п/ (хр) п
С.в. уп(р) представляет собой нормированную сумму независимых одинаково распределенных с.в. и согласно центральной предельной теореме асимптотически нормальна с параметрами, определяемыми формулами (32). В представлении (27) величина хр - не с.в., а при п верно, что
4пуп(р)/ар ==N(0,1) с остаточным членом порядка Ор(п-1/2). Следова-
*
тельно, в силу теоремы Слуцкого [4] получаем, что выборочная квантиль хр
2
асимптотически нормальна с параметрами х р и а р / п .
Замечание 3.1. Метод, использованный при доказательстве асимптотической нормальности выборочной квантили хр, называют линеаризацией
оценки. Этот подход мы будем применять также при изучении асимптотики эмпирических функции Лоренца и индекса Джини. Существуют и другие методы установления асимптотической нормальности оценок, основанные на принципе инвариантности, функции влияния, и-статистиках и др. С ними можно ознакомиться, например, в работах [1-5, 7, 8, 13, 14]; дополнительную литературу можно найти там же.
Поскольку на практике распределение исследуемого признака Х, как
правило, неизвестно, для оценки предельной дисперсии ар необходимо оценить неизвестную ф.п.р. /(х). Один из современных подходов к решению данной задачи основан на использовании ядерных оценок [1]. В этом случае в качестве статистического аналога теоретической ф.п.р. / (х) рассматривают случайную функцию
1п /п (х) =-1К
' х - X; ^
при соответствующем выборе функции ядра К(х) и последовательности чисел ап > 0 (диаметров ядра).
п а п i=1
Следствие 3.1. При использовании ядерной оценки ф.п.р. /(х) оценка
дисперсии а 2 в виде
(а* )2 р(1 - р) (а р ) =——р-
/п (хр )
будет состоятельной.
Обозначим й(р) - хр = Р-1(р) и йп (р) - хр = Р'Чр), 0 < р < 1. Естественной оценкой функции Лоренца Р(р) является эмпирическая функция Лоренца
1 к к 1 р " £ ^О £ ^О
К (р)=—I йп (О Я=-= Т-, (33)
цпо -I ^ £ ^
п ;=1 ;=1
1 и I пр, если пр - целое,
где цп = — £ X; - выборочное среднее, к = <!
п ;=1 [[пр] +1 иначе.
Далее нам понадобятся следующие леммы.
Лемма 3.1. Пусть {Xn,п > 1} - последовательность с.в. такая, что п.н.
Xn ^ X при п ^да, где X - некоторая с.в., а {Уп,п > 1} - другая последо-
п.н.
вательность с.в., такая, что Уп ^ С при п ^да, где С Ф 0 - некоторая посто-
п
п.н.
L п ' *п
янная. Тогда при п ^да верно Xn / 7п ^ X / С .
Доказательство см., например, в [4] с незначительными модификациями для сходимости почти наверное.
Лемма 3.2. Если выполнены условия пункта с теоремы 3.1, то
Ьп (р) = Ь( р) + 1п (р) + Ор (п-1/2), (34)
где
1п (р) = -1 I [Xi 1{X; < хр } - хр 1{X; < хр } - XiЬ(р) + рхр ]. (35) Ц п ;=1
Доказательство. Элементарные выкладки показывают, что
1 р -
Ьп (р) - Ь(р) = — | [йп (() - ^)]Я - р) . (36)
цп 0 цп
Из равенств (27), (28) и (6) вытекает, что
I[вп С) - )]dt =1 £ |V - I{Xi < хр}] / /(х,)dt + Ор (п-1/2) = 0 п 1=1 0
=1 £|^-I{Xi <хр}] dв(t) + Ор(п-1/2). (37)
п 1=10
Вычисляя последний интеграл в (37) по частям, находим
]^ - ЦХ, < х,}]dв(t) = [t - I{Xi < х,}] х,|р - | в^)d[t - ЦХ < х}] =
0 0
= [р - ЦХ, < хр}] хр - цЬ(р) + {в(t)dР{Х, < хг}]. (38)
0
Далее имеем
|в(t)d[I{Х, < х,}] = |Е-1(t)d[ЦХ, < Е-1(t)}] =
0 0
= | Е-1(t)d[^(Х,) < t}]. (39)
0
Заметим, что в (39) дифференциал d [ЦЕ(Х,) < - это дельта-функция, и в силу ее свойств можно записать
|Е-1(0d[ЦЕ(Х,) < t}] = Е-1(Е(Х,))ЦЕ(Х,) < р} = Х, ЦХ, < хр} (40)
0
для всех , = 1,...,п . Кроме того, очевидно, что
(Цп -ц)Др) =1 £ (Х, -ц Д(р)) . (41)
пг=1
Наконец, согласно усиленному закону больших чисел
п.н.
цп ^ ц, п ^ ж . (42)
Собирая теперь вместе соотношения (36)-(42) и используя лемму 3.1, получим требуемое представление эмпирической функции Лоренца Ьп (р) .
Теорема 3.2. Если с.в. Х имеет строго монотонную ф.р. Е(х), то эмпирическая функция Лоренца Ьп(р) при п — ж является:
a) строго состоятельной;
b) асимптотически несмещенной;
c) если дисперсия ст2 = 0(Х) с.в. Х конечна, то Ьп(р) асимптотически
нормальна с параметрами Ь(р) и ст2 , где ст2 определяется формулой (43).
Доказательство. а) Это утверждение есть непосредственное следствие представления (36), строгой состоятельности оценок цп (см. (42)) и вп(О (см. пункт а) теоремы 3.1 и леммы 3.1).
п.н.
b) Так как 0 < Ьп (р) < 1, п > 1, с вероятностью единица, Ьп (р) — Ь (р), то, в силу теоремы Лебега о мажорируемой сходимости Е(Ьп (р)) — Ь(р) при п —^ ж .
c) Поскольку
хр
Е(Х,1{Х < хр}) = | xdF(х) = цЬ(р),
0
Е(хр1{Х, < хр}) = хрР{Х, < хр} = рхр, Е(Х,Ь(р)) = цЬ(р), , = 1,...,п,
то из этих равенств и (35) вытекает, что Е(1п (р)) = 0. Слагаемые в (35) независимы и одинаково распределены, поэтому
Щп (р)) ^ ££ [{Х, < хр }) + х2рВ{1{Х{ < хр }) + Ь2(р)В{Х{)] =
ц п ,=1
^ £ [Е(Х21{Х, < хр }) - ц2Ь2 (р) + р(1 - р)х2р + ст2Ь2(р)] = стЬ / п,
ц п ,=1
где
стЬ =\[Е(Х21{Х < хр}) + Ь2(р)(ст2 - ц2) + р(1 -р)хр]. (43)
ц
С.в. 1п (р) представляет собой нормированную сумму независимых одинаково распределенных с.в. и согласно центральной предельной теореме асимптотически нормальна с параметрами 0 и сть / п . Следовательно, в силу теоремы Слуцкого [4] из разложения (34) вытекает требуемое утверждение.
Следствие 3.2. Для оценки дисперсии ст2 предельного распределения надо в выражении (43) заменить теоретические характеристики их состоятельными оценками, которые будем обозначать символом (*) :
М* = Мп =1 £Xi, (а*)2 =-1-£(X -X)2, х* = Е"1^) = Х{к), П I=1 П - 1 ¿=1
Е(р) = рп (р) =
к
£ Хо 1 п
¿=1 , Е*(X21{X < хр}) = -£Х?/{ХУ < X(к)},
£ xi
¿=1
п ¿=1
где, как и раньше, к =
пр, если пр - целое, [пр] +1 иначе.
Используя формулы (13), (14) и порядковые статистики для представления эмпирической ф.р. ЕП (х), получим следующую оценку индекса Джини:
1 1 ю 2 оп = 1 - 2{еп(р)йр = — | хй(еп(х))2 -1 =
0 Мп 0
1 п
=х IX (¿)
х ¿=1
(г_ Г
V п )
(I -1 >2
V п )
-1 = Ъ(¿)(г -|) -1,
п х г=1
(44)
_ 1 П
где х = цП = —£XI - выборочное арифметическое среднее. п ¿=1
С помощью формул (15)-(20) можно получить другие эквивалентные представления эмпирического индекса Джини Оп .
Лемма 3.3 ([8]). Если выполнены условия пункта с теоремы 3.1, то
оп = о + gп + ор (п-1/2),
(45)
где
2 1 п
gп = — £ М П ¿=1
—(Xi - м) + XiE(Xi) - т(Xi) - 21 + м М
(46)
I =| хЕ(х) йЕ(х), т(х) = | ГйЕ(Г).
0 0
(47)
Теорема 3.3. Если ф.р. Е(х) с.в. X строго монотонна, то эмпирический индекс Джини ОП при п ^да является:
a) строго состоятельным;
b) асимптотически несмещенным;
c) если дисперсия ) < да, то ОП асимптотически нормален с пара-
2 2
метрами О и ае / п , где ае определяется формулой (48).
Доказательство. Утверждения а и Ь непосредственно вытекают из первой части формулы (44) и аналогичных утверждений пунктов а и Ь теоремы 3.2. Для с имеем
ж
Е(Х^(Х1)) = | хЕ(х) dF(х) = I,
0
ж
(
Е(т(Х1)) = | т(х)dF(х) = 11 tdF(0 dF(х) = 11 | dF(х)
00
ж
V г
dF ^) =
= | t(1 - Е(t))dF^) = Е(Х(1 - Е(Х)) = ц -1,, = 1,...,п.
0
Вычисляя математическое ожидание от обеих частей равенства (46) и используя полученные выше соотношения, находим, что Е() = 0 .
Из формул (15) и (25) следует, что 21 / ц = в . Так как слагаемые в (46) независимы и одинаково распределены, то
Б( gn) ={-(в +1) Х, + 2[Х,Е (Х,) - т(Х,)]} = ц п 1=1
(ст2 (в +1)2 + 4 Д Ж (Х) - т(Х)]) =
п ц 2 х '
где
ств =\{ст2 (в +1)2 + 4Б[ХЕ(Х) - м(Х)]} . (48)
ц2
С.в. gn представляет собой нормированную сумму независимых одинаково распределенных с.в. и в силу центральной предельной теоремы асимптотически нормальна с параметрами 0 и ств / п . Поэтому из теоремы Слуцкого [4] и представления (45) следует требуемое утверждение.
Следствие 3.3. Для нахождения состоятельной оценки предельной дис-
2
персии ст в , как и в следствии 3.2, теоретические характеристики в (48) за-
2
меним их состоятельными оценками. Величины ц, ст и в оценены в следствии 3.2:
ц* =цп =1 £Х, (ст*)2 = — £(Х, -Х)2,
п г=1 п - 1 г=1
п (49)
в* =-*22 £ Х,) ((- 2)-1. ц п , =1
Для оценивания дисперсии О[ XF (X) - т^)] выпишем
Б^Е(X) - т(X)] = Е^(X) - т(X)]2 - (Е^Е(X) - т^)])2 = 11 -1| Имеем
11 = Е[ X 2 Е2 (X)] - 2 Е^ (X )т( X)] + Е[т 2 (X)] =
да .. да Г х | да Г х |
= { х2Е2(х)йЕ(х) - 21 хЕ(х) <|{ уйЕ(у) \ йЕ(х) + {! { уйЕ(у) йЕ(х) =
0 0 [0 \ 0 [0 \
1 да да Гх | да Гх | 2
= -1 х2йЕ3(х) - | х!1уйЕ(у) IйЕ2(х) + | ! |уйЕ(у) I йЕ(х). 3 0 0 [0 \ 0 [0 \
Аналогично
1 да 2 да I х I
12 = - { хйЕ2(х) - Н | уйЕ(у) I йЕ(х).
2 0 0 [0 \
Следовательно, состоятельная оценка для 11 будет
I*=3 £ X(2)
3 ¿=1
гО3 Г/-1^3
V п )
V п )
-£ (¿)|x (у) з=1 [¿=1 ]
г у ]3-Г—^
V П) V П )
xmЦ1 ¿и
Пк=1 [ п/=1 \[ п у =1 \ 3п /=1
V ¿X(2)(372 - 37 + 1) -
1 П I у I 1 л Г к II к
--3 £ ! £[x(у)(2у -1)+-3 £ ! £N £ x<у)
л у =1 [2 =1 \ л к=1 [¿=1 \ [у =1
(50)
Состоятельная оценка 12 задается посредством
* 1 П
12 =1 £X (¿) 2 ¿=1
гЛ2 Г/-О2
V л )
V л )
- -2 £ ^ (о П у=1 [/=1
1 л 1 л \ } I
1 £X(г)(2/ -1) --2 £<!£ X (¿) I.
П у =1 [/ =1 ]
2л2 /=1
Собирая теперь оценки (49)-(51) в формулу (48), получим состоятельную оценку (a q )2 предельной дисперсии а Q оценки Gn индекса Джини G .
Замечание. Состоятельность и асимптотическую несмещенность xp, Ln (p) и Gn можно установить непосредственно из асимптотической
нормальности этих оценок. Однако для этого необходимо усилить требования на распределение с. в. Х: вместо строгой монотонности ф.р. F (x) потребовать выполнение условия c теорем 3.1-3.3.
ЗАКЛЮЧЕНИЕ
На сегодняшний день задачи оценивания степени неравенства возникают в самых разнообразных областях научного знания, связанных с экономикой, информатикой, медициной, биологией и т. д. Наличие хорошо развитого аппарата анализа проблемы неравенства на основе кривых Лоренца дает исследователям эффективный инструмент, имеющий как качественное, так и количественное обоснование. В работе рассмотрены как традиционные, так и специфические характеристики кривых Лоренца, изучены свойства количественных показателей неравенства типа индексов Джини и Пьетра, сформулированы и доказаны полезные в статистическом смысле свойства асимптотической несмещенности, асимптотической нормальности и строгой состоятельности для соответствующих теоретическим эмпирических кривых Лоренца и индекса Джини. Большинство доказательств носят конструктивный характер, что позволяет использовать схожие подходы для исследования более широкого класса задач.
СПИСОК ЛИТЕРАТУРЫ
1. Боровков А.А. Математическая статистика. - Новосибирск: Наука: Изд-во Ин-та математики, 1997. - 772 с.
2. Дэйвид Г. Порядковые статистики. - М.: Наука, 1979. - 336 с.
3. КендаллМ., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 588 с.
4. Рао С.Р. Линейные статистические методы и их применения. - М.: Наука, 1968. -
548 с.
5. Уилкс С. Математическая статистика. - М.: Наука, 1967. - 632 с.
6. BahadurR.R. A note on quantiles in large samples // The Annals of Mathematical Statistics. -1966. - Vol. 37 (3). - P. 577-580.
7. Bhattacharya D. Inference on inequality from household survey data // Journal of Econometrics. - 2007. - Vol. 137 (2). - P. 674-707.
8. Davidson R. Reliable inference for the Gini index // Journal of Econometrics. - 2009. -Vol. 150 (1). - P. 30-40.
9. Gastworth J.L. A general definition of the Lorenz curve // Econometrica. - 1971. -Vol. 39 (6). - P. 1037-1039.
10. Ghost J.K. A new proof of the Bahadur representation of quantities and an application // The Annals of Mathematical Statistics. - 1971. - Vol. 42. - P. 1957-1961.
11. Gini C.W. Variabilita emutabilita. - Bologna: P. Cuppini, 1912.
12. Giorgi G.M., Nadarajah S. Bonferroni and Gini indicies for various parametric families of distributions // METRON. - 2010. - Vol. 68. - P. 23-46.
13. Goldie C.M. Convergence theorems for empirical Lorenz curves and their inverses // Advances in Applied Probability. - 1977. - Vol. 9. - P. 756-791.
14. Hoeffding W.A. A class of statistics with asymptotically normal distribution // Annals of Mathematical Statistics. - 1948. - Vol. 19. - P. 293-325.
15. LorenzM.O. Methods of measuring the concentration of wealth // Publications of the American Statistical Association. - 1905. - Vol. 9 (70). - P. 209-219.
16. Pietra G. Delle relazioni tra gli indici di variabilita // Atti del Regio Istituto veneto di scien-ze, lettere ed arti. - 1915. - Vol. 74. - P. 775-792.
17. Sarabia J.M. Parametric Lorenz curves: models and applications // Modeling income distributions and Lorenz Curves / ed. by D. Chotikapanich. - New York: Springer, 2008. - P. 167-190.
Семенов Дмитрий Александрович, информатик-экономист по специальности «Прикладная математика (в экономике)», ведущий специалист отдела развития Федеральной кадастровой палаты по Новосибирской области. Области научных интересов: финансовая и актуарная математика, информационные технологии, теория риска. Имеет одну научную публикацию. E-mail: miktor.semenov@gmail.com
Щеколдин Владислав Юрьевич, кандидат технических наук, доцент кафедры маркетинга и сервиса Новосибирского государственного технического университета. Основные направления научных исследований: экономико-математическое моделирование, статистика, планирование оптимальных экспериментов, логистика, эконометрика, маркетинговые исследования. Автор более 75 научных статей. E-mail: raix@mail.ru
Semenov Dmitry A., informatics-economist specializing in applied mathematics (in economics), leading specialist of the development department of the Federal Cadastral Chamber in the Novosibirsk region. His research interests include financial and actuarial mathematics, information technology, and risk theory. He has 1 scientific publication. E-mail: miktor.semenov@gmail.com
Shchekoldin Vladislav Yu., PhD (Eng.), associate professor, department of marketing and service, Novosibirsk State Technical University. The main areas of his research are economic and mathematical modeling, statistics, planning of optimal experiments, logistics, econometrics, and marketing research. He is the author of over 75 scientific articles. E-mail: raix@mail.ru
DOI: 10.17212/1814-1196-2020-4-121-144
Theoretical and empirical Lorenz functions, Gini indices, and their properties
D.A. SEMENOV1'", V.Y. SHCHEKOLDIN2'b
1 Federal Cadastral Chamber of the Novosibirsk Region, 4° Kutateladze Street, Novosibirsk, 630128, Russian Federation
Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Russian Federation
a miktor.semenov@gmail.com b raix@mail.ru Abstract
The issues of assessing the fairness and efficiency of the distribution of the total income of society between different groups of the population have attracted attention of scientists for a long time. They became most relevant at the end of the 19th - beginning of the 20th centuries in connection with the intensive stratification of countries with various political and social sys-
*
Received 06 May 2020.
tems caused by the intensive development of the economy, science and technology. The Lorenz function and the Lorenz curve, as well as the Gini index, are commonly used for theoretical research and applications in the economic and social sciences. These tools were originally introduced to describe and study the inequality in the incomes and wealth distribution among a given population. Nowadays they have found wide application in such fields as demography, insurance, healthcare, the risk and reliability theory, as well as in other areas of human activities. In this paper we present the properties of the Lorentz function and various representations of the Gini index, systematize the analytical results for uniform, exponential, power-law (types I and II) and lognormal distributions, as well as for the Pareto distribution (types I and II). Additionally, the issue of estimating inequality based on the Pietra index and its relationship with the Lorentz function was studied. Nonparametric estimates of the Lorentz function and the Gini index based on a sample from the corresponding distribution are considered. Strict consistency and asymptotic unbiasedness of these estimates are shown under certain conditions for the initial distribution with an increase in the sample size. On the basis of the method of linearization of estimates, the asymptotic normality of the empirical Lorentz function and the empirical Gini index is determined.
Keywords: inequality estimation, Lorentz function, Lorentz curve, Gini index, Pietra index, linearization of estimates, strict consistency, asymptotic unbiasedness, normality
REFERENCES
1. Borovkov A.A. Matematicheskaya statistika [Mathematical statistics]. Novosibirsk, Nauka Publ., 1997. 772 p.
2. David H.A. Order statistics. New York, Wiley and Sons, 1970. 272 p. (Russ. ed.: Deivid G. Poryadkovye statistiki. Moscow, Nauka Publ., 1979. 336 p.
3. Kendall M., Stuart A. Advanced theory of statistics. Vol. 1. Distribution theory. 2nd ed. London, Griffin, 1963. 433 p. (Russ. ed.: Kendall M., St'yuart A. Teoriya raspredelenii. Moscow, Nauka Publ., 1966. 588 p.).
4. Rao C.R. Linear statistical inference and its applications. 2nd ed. New York, Wiley and Sons, 1965. 522 p. (Russ. ed.: Rao S.R. Lineinye statisticheskie metody i ikh primeneniya. Moscow, Nauka Publ., 1968. 548 p.).
5. Wilks C.C. Mathematical statistics. New York, Wiley and Sons, 1962. 644 p. (Russ. ed.: Uilks S. Matematicheskaya statistika. Moscow, Nauka Publ., 1967. 632 p.).
6. Bahadur R.R. A note on quantities in large samples. The Annals of Mathematical Statistics, 1966, vol. 37 (3), pp. 577-580.
7. Bhattacharya D. Inference on inequality from household survey data. Journal of Econometrics, 2007, vol. 137 (2), pp. 674-707.
8. Davidson R. Reliable inference for the Gini index. Journal of Econometrics, 2009, vol. 150 (1), pp. 30-40.
9. Gastworth J.L. A general definition of the Lorenz curve. Econometrica, 1971, vol. 39 (6), pp. 1037-1039.
10. Ghost J.K. A new proof of the Bahadur representation of quantities and an application. The Annals of Mathematical Statistics, 1971, vol. 42, pp. 1957-1961.
11. Gini C.W. Variabilita emutabilita. Bologna, P. Cuppini, 1912.
12. Giorgi G.M., Nadarajah S. Bonferroni and Gini indicies for various parametric families of distributions. METRON, 2010, vol. 68, pp. 23-46.
13. Goldie C.M. Convergence theorems for empirical Lorenz curves and their inverses. Advances in Applied Probability, 1977, vol. 9, pp. 756-791.
14. Hoeffding W.A. A class of statistics with asymptotical normal distribution. Annals of Mathematical Statistics, 1948, vol. 19, pp. 293-325.
15. Lorenz M.O. Methods of measuring the concentration of wealth. Publications of the American Statistical Association, 1905, vol. 9 (70), pp. 209-219.
16. Pietra G. Delle relazioni tra gli indici di variabilita. Atti del Regio Istituto veneto di scienze, lettere ed arti, 1915, vol. 74, pp. 775-792.
17. Sarabia J.M. Parametric Lorenz curves: models and applications. Modeling income distribution and Lorenz Curves. Ed. by D. Chotikapanich. New York, Springer, 2008, pp. 167-190.
Для цитирования:
Семенов Д.А., Щеколдин В.Ю. Теоретические и эмпирические функции Лоренца, индексы Джини и их свойства // Научный вестник НГТУ. - 2020. - № 4 (80). - С. 121-144. - DOI: 10.17212/1814-1196-2020-4-121-144.
For citation:
Semenov D.A., Shchekoldin V.Yu. Teoreticheskie i empiricheskie funktsii Lorentsa, indeksy Dzhini i ikh svoistva [Theoretical and empirical Lorenz functions, Gini indices, and their properties]. Nauchnyi vestnik Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta = Science bulletin of the Novosibirsk state technical university, 2020, no. 4 (80), pp. 121-144. DOI: 10.17212/1814-11962020-4-121-144.
ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 80, No 4, 2020, pp. 121-144