Научная статья на тему 'Статистика Ципфа-Парето-Мандельброта и анализ Парето'

Статистика Ципфа-Парето-Мандельброта и анализ Парето Текст научной статьи по специальности «Математика»

CC BY
839
130
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Щеголева С.А.

В статье показано, что известный метод кумулянт Парето базируется на "патологических", негауссовских статистиках. В их основе лежат статистические ансамбли, в которых действуют механизмы конкуренции. Они подчиняются принципу неэквивалентного микрообмена в процессах перемешивания. В рамках теории принятия решений сформулирован вариационный принцип, приводящий к классу распределений Ципфа-Парето-Мандельброта.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Статистика Ципфа-Парето-Мандельброта и анализ Парето»

С.А. Щеголева,

кандидат физико-математических наук, доцент кафедры управления качеством, стандартизации и сертификации ДВГАЭУ

СТАТИСТИКА ЦИПФА-ПАРЕТО-МАНДЕЛЬБРОТА И АНАЛИЗ ПАРЕТО

В статье показано, что известный метод кумулянт Парето базируется на "патологических", негауссовских статистиках. В их основе лежат статистические ансамбли, в которых действуют механизмы конкуренции. Они подчиняются принципу неэквивалентного микрообмена в процессах перемешивания. В рамках теории принятия решений сформулирован вариационный принцип, приводящий к классу распределений Ципфа-Парето-Мандельброта.

В последние годы оформилась концепция Всеобщего управления качеством [2,9]. В ней значительную роль играет анализ кумулянт Парето, который ориентирован на поиск основных причин сбоев в производстве высокотехнологических изделий, модулей. В ряде учебных курсов [2,9], в том числе и основоположников статистического анализа Парето [9], весьма невнятно высказаны основополагающие принципы этой методики. Между тем вся концепция статистического анализа Парето базируется на совсем иных теоретико-вероятностных принципах, в отличие от тех, которые приняты в классических теориях [7,11,14].

Важно подчеркнуть, что методики оценки Парето не могут быть основаны на стандартном подходе, поскольку они базируются на совсем других "ненормальных" распределениях, которые известны как статистики Ципфа-Парето-Мандельброта (ЦПМ). Последние относятся к классу безгранично-делимых распределений [8,11], к которым относится и нормальное распределение. Но в отличие от последнего, для ЦПМ-ста-тистики не существует моментов. С этих позиций статистики ЦПМ можно было бы назвать "патологическими" распределениями. Нетрудно заметить, что применить в этом случае традиционные статистические методы просто невозможно. В теории вероятности и математической статистике главными являются понятия статистического коллектива, или статистического ансамбля. Эти ансамбли для случая ЦПМ и нормальных статистик различаются. Уместно отметить, что это кардинальное отличие имеет не только математическую основу. Принципиальные различия в статистических ансамблях ЦПМ и гауссовских статистиках имеют глубокие основания в физических моделях этих ансамблей-коллективов.

В теории Всеобщего управления качеством [2,9] физическая модель генерации сбойностей, неисправностей, любых форм браков играет основную роль. В частности, для "нормальных" коллективов обычно предполагается, что действует асимптотически большая совокупность

независимых причин, которые существуют в соответствующих технологических процессах. Причем считается, что данная совокупность независимых слагаемых, индивидуумов и прочее характеризуется сравнительно одинаковым вкладом в суммарную дефектность изделий, модулей. Это означает, что при таком понимании статистического коллектива нет главных причин сбойностей, отказов. Теперь должно быть понятным, что концепция анализа Парето не может работать на таких ансамблях. Более того, в "нормальных" совокупностях предполагается, что действует виртуальный механизм установления "равноправия" причин сбойностей, отказов. Такое равноправие устанавливается процессами перемешивания [5]. Эти процессы действуют и в экономических, и в социальных системах, но там они осложнены "неэквивалентным" обменом в процессе столкновений экономических и политических интересов, предпочтений, ожиданий. Процессы неэквивалентного перемешивания и составляют смысл понятия конкуренции в тех или иных формах. Именно в статистических коллективах с конкуренцией (неэквивалентный процесс перемешивания, столкновений) [6] и устанавливаются ЦПМ-статистики. Нетрудно догадаться, что рыночная система и многие социальные, "гуманистические" процессы как раз и подчиняются ЦПМ-статистике. Это хорошо известный в литературе закон концентрации - рассеяния информации, который был открыт в разное время экономистом Парето, специалистом по математической лингвистике Ципфом, а в области библиографии - Бредфордом. Таким образом, универсальность ЦПМ-статистики ничуть не меньшая, чем теория классического нормального распределения. Напрашивается вопрос: какое отношение имеют статистики ЦПМ к Всеобщему управлению качеством?

В теории вероятности [7,11,14] особое место занимают центральные предельные теоремы (ЦПТ). Обычно предполагается следующая вероятностная схема. Образуются частные суммы независимых случайных величин:

Т(хг-) = Х1 + Х2 + Х3 +... + хI; 1 ^ го.

Имея последовательность частных сумм, можно решить задачу по нахождению распределения Т(х^ при 1^<х> в асимтотике. Надо сразу отметить, что классические ЦПТ, по крайней мере, до 50-60-х гг., рассматривались для "нормальных" ансамблей, в которых особую роль играет гауссовская статистика. Приведем ЦПТ в форме Маркова-Хинчина: пусть дана последовательность частичных сумм Т(х^ независимых случайных величин, при любых одномодовых парциальных распределениях с ограниченными дисперсиями D(х1)<<x>.

D[T(x1)]<<x>, для любой частной суммы Т(х1); 1^<х>; тогда она будет стремиться в асимптотике к нормальному распределению:

11т F[T(xi)]

FNorm.

Несмотря на универсальность ЦПТ в форме Маркова-Хинчина, для ЦПМ-статистик эта теория "не работает", поскольку она не относится к одномодовым стандартным распределениям математической статистики. Рассмотрим, например, гравитационную, кулоновскую статистику и да-

дим оценку моментов. Пусть F (х) = —1— распределение Коши при

1 + х 2

х >1 F (x) = —!— . Тогда, действуя по определению, запишем:

x2

/ \ Г xkdx С <х > = ] ^= ]

м,: <х) = | ^Л = | хк -2ск = хк-1

x

2 ' к —1

= да; k Ф 1.

т.е. никакие к-моменты не существуют. В ЦПМ-статистике нет понятия моды, дисперсии. Для нее нельзя написать моменты типа асимметрии, эксцесса. В этом смысле ЦПМ-статистика является "патологической" из-за отсутствия моментов. И уже по этим обстоятельствам ЦПТ в традиционной форме не могут быть применены для такого класса статистик, распределений. При доказательстве центральных предельных теорем был "изобретен" математический аппарат характеристических, производящих функций, базирующийся на интегральных преобразованиях [3,8,11]. Любое интегральное преобразование задается своим ядром К(^х), где х -случайная величина, t - некоторый непрерывный или дискретный параметр, teT - область изменения. Определим образ как

+да

ф<Г )= | К <Г, x ^ <х),

—да

где интеграл понимается в смысле Лебега-Стильтьеса.

Конкретный вид ядра К(^х) как раз и определяет аналитические средства в теории вероятности. Например, если положить К(^х)=ех - ла-пласовское ядро, а К(^х)=е"х - ядро Фурье, то получаем следующие изо-

+да

бражения: в лапласовском случае ф^)= | etxdF(x), а в случае степен-

—да

ного, полиномиального ядра мы имеем дело с производящей функцией

+да

моментов. Для случая Фурье преобразования ф^)= _[ eltxdF(x), ф(t)

—да

является характеристической функцией для F(x) [5]. Очевидно, что характеристическая функция есть образ Фурье от функции распределения F(x). Тем самым случайную величину можно задавать совершенно эквивалентно характеристической функцией ф(^).

В формализме характеристических функций [8] можно вполне естественно определить особый класс безгранично-делимых распределений.

Введем важное понятие свертки распределения. Пусть даны две функции: Fl(x) и F2(x). Их сверткой называется интеграл:

+да

Б<у) = ^ Б1 <у — х)1Р2 <х) . Это выражение можно читать как интеграль-

— да

ное уравнение. Свертка двух функций распределения приведет также к функции распределения. Это так называемые сверточно-инвариантные уравнения. Они играют большую роль в теории марковских случайных

да

процессов [1,4], а также в теории броуновского движения. Достаточно вспомнить уравнение Маркова-Смолуховского или уравнение Чепмена-Смолуховского [1,4,5,11]. Линеаризация последних "в прошлое" и "в будущее" приводит к двум сопряженным уравнениям Колмогорова [1,4]. Переведем свертку распределений на язык характеристических функций. Нетрудно увидеть, что если для функции Fl(x) характеристическая функция - ф1^), а для F2(x) - ф2(1), то для распределения F(у) характеристическая функция - ф(^)=ф1(^)ф2(^), или в более общем случае -

ф(1 )=П ф 1 (1).

1=1

Вот эта мультипликативность на языке ф^) крайне важна для определения безгранично-делимого класса распределений. Особо следует подчеркнуть, что непростое сверточное интегральное уравнение в формализме характеристических функций переходит в обычную мультипликацию, факторизацию ф^). С этих позиций более естественно работать не с функциями распределения F(x) и Д(х), а с характеристическими функциями ф(1).

Распределение F(x), где хeRm(x(ю)), будет называться безгранично-делимым, если для любого п существует п-кратная инвариантная свертка. п

Пусть Тп (х) = ^ Х1 - сумма одинаково распределенных случайных 1=1

величин х;. Тогда

F[Tn (х )] = F(xl) *F(x2) *..^(хп),

где * - операция свертки.

На языке характеристических функций случайная величина Тп(х)

будет безгранично-делимой, если ф[Тп (1)] = ф п (1).

ЦПМ-статистики можно отнести к гиперболическому классу распределений, и уже поэтому они относятся к безгранично-делимым распределениям. Обычно рассматриваются гиперболические статистики

Д(х) = У = , а - характеристический показатель. Запи-

сывая их в логарифмических осях, можно добиться "выпрямления" зависимостей:

^ Дх)=^ А - у lg х. В линеаризованной версии легче реализовать регрессионный подход.

Последнее означает, что сумма логарифмов координат любой точки на гиперболической статистике подчиняется закону сохранения или принципу инвариантности, т.е. остается постоянной. Но справедливо и обратное.

Несколько слов из истории вопроса. Пожалуй, первый, кто занялся распределением людей по доходам (богатству), был итальянский экономист Вильфредо Парето. В более современном исполнении (Е. Мон-тролл) получено более общее распределение:

= ^ x0

íx л1 + а x0

x

V

, где х > х0, а > 0.

При конкретных значениях а ~1.5, х0 = хт1П получается распределение В.Парето.

Распределение Уиллиса - Юла появилось в 1922-1924 гг. при решении задачи о распределении родов по видам. Снова видим гиперболическое распределение с а~0.5. В 1926 г. американский математик Альфред Лотка решал задачу продуктивности ученых - числа ученых, написавших 1, 2, 3... 100 статей. Опять получается гиперболическая статистика с а~1. В библиографии это закон Бредфорда (1930-1931 гг.) - распределение статей по журналам. Обычно гиперболические статистики изучаются как в частотном, так и в ранговом представлениях.

Особенно примечательные результаты получил в 1944 г. Ципф, исследуя вероятность (частоту) появления слов различного ранга. Фактически, это ранговая статистика. Ранжировке может подлежать длина слов (число букв в них) - короткие, длинные слова. Оказалось, что наиболее часто встречаются короткие слова, и реже - длинные. Статистика Ципфа

п^)= —; у ~ 1, г - ранг. г у

Остановимся на ЦПМ-статистике в привязке к продуктивности ученых или распределению людей по богатству. Гиперболические статистики указывают, что большинство ученых бедны как по доходам, так и по статейной продуктивности. Почти 70-80% ученых написали небольшое число работ. Но важно другое - эффект затянутости хвоста ЦПМ. В определенной мере, это "дальнодействие" [12]. Менее 3-5% ученых выделяются по продуктивности. Таково следствие "патологической неравноправности". В этом и состоит смысл концентрации и рассеяния информации, продуктивности, доходов.

Усилим наше обсуждение и среди класса безгранично-делимых распределений, выделим класс устойчивых [3,8,11]. F(x) устойчива, если для любых Ьь Ь2 > 0 и действительных с^ с2 существуют Ь>0 и действительные с>0 такие, что:

„ \

F

x — С

Ь1 У

* F

x — С

2

Ь2 У

= ^ — С

ь У

Это инвариантная свертка F(x) или сверточно-замкнутое уравне-

ние:

Устойчивое распределение всегда безгранично-делимое. В терминах характеристических функций устойчивость определяется как

Ф<b1t )•ф<b2t) = ф<Ы )е'у',

где у=с-с1-с2. Как видно, это не простая мультипликативность, которая обобщена до фазового множителя и масштабного преобразования [8].

В аналитической форме устойчивых распределений только три не-гауссовских. Первое - нормальное распределение. Если а=1, то мы име-

ем дело с распределением Коши, а в асимптотике - с гравитационной, кулоновской дальнодействующей статистикой (закон Лотка).

Если а=0.5, то

1 -3/ - К

f (х) =_х /2е /2х;

л/2л

11т f (х) = —!— откуда у = 1 + а = 1 + 0,5 х л/2л х/2

- распределение Уиллиса - Юла и ЦПМ.

И, наконец, при а=1.5 имеем распределение звезд на сфере (статистика Хольцмарка). Таким образом, ЦПТ для "патологических" распределений приводят к гиперболическому классу статистик в качестве предельных устойчивых безгранично-делимых законов.

Большинство исследователей склонно считать, что ЦПМ-стати-стики устанавливаются за счет компромисса между двумя противоречивыми тенденциями. Еще Ципф утверждал справедливость гиперболических статистик, которые устанавливаются в результате борьбы между говорящим и слушающим. Первый стремится экономить свои усилия, говоря короткими фразами, а второй, дабы удалось понять смысл, требует разъяснений, т.е. внесений более высокой избыточности.

В физической кинетике процесс прихода в равновесие устанавливается в результате процесса столкновений атомов, молекул, кластеров. Между частицами, субъектами происходит эквивалентный обмен (принцип детального баланса) [5]. Особого предпочтения, индивидуального обогащения не происходит. Энергетические потери-приобретения (дисперсии) сопоставимы и сравнительно одинаковы. В результате свободного стохастического обмена не появляется много активных частиц, богатых индивидуумов. Процесс столкновений в больших ансамблях можно обобщить до понятия перемешивания [5,6,13]. Вспомним любые игры (карты, домино, рулетка, лото и т.д.), там всегда присутствует элемент перемешивания как стохастического процесса типа броуновского движения [1,4,5]. В социальных ансамблях, экономических системах перемешивание выразилось бы в столкновении индивидуальных интересов, предпочтений, причем был бы справедлив принцип "неупругих столкновений".

В теории вероятностей рассматриваются именно суммы, объединения независимых случайных величин (частиц, людей, информационных источников), которые по энергиям (дисперсиям) вносят равновеликие вклады в общую энергию, капитал, мировые информационные ресурсы. Такой коллектив можно было бы назвать "серым", в котором торжествует принцип "детального" равноправия (сопоставимые дисперсии). В нем запрещено появляться выбросам, патологиям любого знака. Именно в таких ансамблях, коллективах процессы перемешивания (столкновений) и приводят в ЦПТ к предельным равновесным распределениям гауссов-ского типа.

Обратимся к теории случайных процессов [1,4], ставя задачу найти минимально сложный процесс, который бы в асимптотике приводил к стационарным гиперболическим статистикам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Решение задачи можно конкретизировать в духе подходов Бред-форда, Лотка, Парето. В любой био-, эко-, соцсистеме всегда присутствуют процессы рождения и гибели [4]. Пусть рассматривается некоторый порождающий источник с производительностью

P(x; t + At) ~ XxAt,

где X - некоторая постоянная с [А,]=(бит-с)"\ Это хорошо известный линейный источник, его можно обобщить до степенного. Вероятность появиться некоторой информации пропорциональна имеющейся x-инфор-мации. Тогда вероятность появления k-особей, статей и прочее к t-мо-менту запишется:

Pk (t) = e -Xt (l - e -Xt )k -, k = 1,2...

Это распределение Юла - Фарри. Его логика проста. P0=e-Xt - вероятность не написать статью, тогда 1-P0 - дополнительная вероятность, а дальше стоит операция умножения. Pk(t) - вероятность получить к t-мо-менту (к-1)-квантов продукции, если перед этим ее не было.

Теперь предположим, что наши независимые генераторы (их сеан-сирование) подчинены показательному распределению:

P,(t )=це

Это и есть рандомизация времени функционирования. Тогда вероятность общей k-продукции за отрезок времени (0, t):

P(k) = J P^k j-P(t)dt = J e-Xt (l - e-Xt )k-1Me-^tdt=H B^ k; ^ + 1^ = aB(k; a +1), r(k )r(a +1)

где B(k; a + 1) = —-г- - бета-функция Эйлера.

r(k + a +1)

Используя формулу Стирлинга r(k) = (k - 1)!, получаем:

л r(k)r(a + 1) Да +1) A lim B(k; a + 1) = lim ; 7 v-{ = —--, тогда P(k) =

r- v ^ ' 1t v 1 '/ ii\ 7 1 +a

11111 J-/1/V, VA I 1/ - 11111 / ч --, IV^lXlti. J. у /V I --,

к v 7 k ^да r(k + a +1) k1+a K1+a

т.е. ЦПМ.

Сам Ципф верил, что его принцип наименьших усилий фактически равносилен некоторому вариационному принципу. Последний широко распространен в теории поля, термодинамике необратимых процессов. Мы сформулируем нашу точку зрения с позиции теории принятия решений или используя информодинамику [10].

Пусть задан некий x-ресурс, а для него в неявной форме существует мера v(x); распределение либо вероятностное p(x), либо ранговое r(x). Постулируем затраты в логарифмической форме. Средний логарифм потерь, затрат

E ~ J log x • v(x)dx = J log xdF(x) = (log x).

Возможности сложной системы разумно задать энтропийным функционалом, который выбран в шенноновской форме:

H[v(x)]= Jv(x)log v(x)dx .

Полагая, что v(x )= ^^^^^,(x) - производная в смысле Радона-Никодима, получаем

DivH

v(x)/ "

=j ч жн).

Сформулируем информационное действие:

S[v(x );x] = H[v(x)] + E(x; v(x )) =

J v(x)log v(x)dx + J log x • v(x)dx.

А теперь введем вариационный принцип: 5S[v(x);x]= 0 ^v (x) - стационарная мера; вариации берутся по v(x); 5v(x). Для v(x) может существовать нормировка: Jv(x )dx = 1.

Варьировать можно по методу неопределенных множителей Ла-гранжа. Никаких дополнительных энергетических условий, кроме, возможно, условия нормировки, привлекать нет необходимости. Вариация действия по v(x) дает

5S[v(x); x ] = J [Р log x + log v(x) + a]5v(x )dx = 0.

Тогда получаем стационарное распределение гиперболического класса v (x):

v * ) =

Что здесь важно и нетипично для классических вариационных принципов?

Формально можно образовать лагранжиан случайного события: L[v(x );x ]= + log v(x ) + Р logx,

в котором, во-первых, переменные v(x) и x разделены и, во-вторых, взяты в единой логарифмической форме. Это своеобразный принцип соответствия, согласования форм энтропийного функционала и функционала затрат, потерь. Действие тогда выступает как усредненный лагранжиан:

S[v(x); x ]=J L[v(x); x ]v(x )dx = (log v(x)) + p( log x).

Тем самым ЦПМ-статистики возникают в таких сложных системах, где удается достигнуть компромисса между мерой возможностей - энтропией сложных систем и логарифмическими затратами. Компромисс устанавливается как стационарное состояние, достигаемое механизмами конкуренции (неэквивалентное перемешивание, столкновения).

Литература

1. Гихман И.И., Скороход А.В. Введение в теорию случайных процессов. М.: Наука, 1977. 568 с.

2. Глудкин О.П. и др. Всеобщее управление качеством. М.: Радио и связь, 1999. 600 с.

3. Золотарев В.М. Современная теория суммирования независимых случайных величин. М.: Наука, 1986. 416 с.

4. Карлин С. Основы теории случайных процессов. М.: Наука, 1971. 536 с.

5. Климонтович Ю.Л. Статистическая физика М.: Наука, 1982. 608 с.

6. Николис Г., Пригожин И. Познание сложного. М.: Мир, 1990. 244 с.

7. Прохоров Ю.В., Розанов Ю.А. Теория вероятностей. М.: Наука, 1973. 496 с.

8. Рамачандран Б. Теория характеристических функций. М.: Наука, 1975.

9. Статистические методы повышения качества / Под ред. Хи-тоси Кумэ. М.: Финансы и статистика, 1990. 304 с.

10. Стратонович Р.Л. Теория информации. М.: Советское радио, 1975. 424 с.

11. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир, 1984. Т.2. 752 с.

12. Фракталы в физике / Под ред. Л. Пьетронеро, Э.Тозатти. М.: Мир, 1988. С. 561.

13. Хаотические системы // ТИИЭР. 1987. Т.75. №8. 174 с.

14. Ширяев А.Н. Вероятность. М.: Наука, 1980. 576 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.