МАТЕМАТИЧНЕ ТА КОМП'ЮТЕРНЕ МОДЕЛЮВАННЯ
МАТЕМАТИЧЕСКОЕ И КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ
MATHEMATICAL AND COMPUTER MODELLING
УДК 519.766.4
Трухан С. В.1, Бщюк П. I.2
Астрантка нституту прикладного системного аналiзу НТУУ «КП1», КиТв, УкраТна 2Д-р техн. наук, професор кафедри математичних методiв системного аналiзу НТУУ «<КП1», КиТв, УкраТна
МЕТОДИКА АНАЛ1ЗУ ЕКСТРЕМАЛЬНИХ ДАНИХ ТА 11 ВИКОРИСТАННЯ ПРИ ОЦ1НЮВАНН1 ПАРАМЕТР1В УЗАГАЛЬНЕНИХ _Л1Н1ЙНИХ МОДЕЛЕЙ_
Запропонована методика аналiзу екстремальних значень з метою и застосування при оцшюванш невщомих параметрiв узагальне-них лшшних моделей. В якостi математичного апарату використано теорто екстремальних значень, яка е одним iз роздшв математич-но! статистики та пов'язана з дослщженням вiдхилень екстремальних значень вщ медiани у ймовiрнiсних розподшах. Також розглянуто методи наближення експериментальних даних до класу узагальнених екстремальних розподшв, методи оцшювання невiдомих пара-метрiв та вибору оптимального порогу для екстремальних значень. На основi фактичних статистичних даних iз галузi страхування та запропонованого пiдходу побудовано моделi обробки екстремальних значень для подальшого застосування при оцiнюваннi прогноз-них моделей. Прийнятним для подальшого використання виявилась модель з наближенням даних за допомогою узагальненого розпод1лу Парето. Це пiдтверджуеться незначною похибкою та максимальним наближенням емшрично! криво! до теоретично! функци щiльностi розпод1лу. Порiвняння результатiв оцiнювання невiдомих параметрiв моделi за допомогою методу максимально! правдоподiбностi та байесiвського пiдходу показало, що байесiвськi методи оцiнювання е ефективним шдГрунтям для розв'язання задачi вибору кращо! моделi на основi множини отриманих альтернатив та значень апрюрних параметрiв. Можливiсть використання результата застосування моделей екстремальних значень при побудовi прогнозних узагальнених лшшних моделей е шдставою для подальшого дослщження.
Ключовi слова: теорiя екстремальних значень, узагальнеш лiнiйнi моделi, порш екстремального значення, метод максимально! правдоподiбностi, байесiвський пiдхiд.
НОМЕНКЛАТУРА
GEV - Generalized extreme value; GPD - Generalized Pareto distribution; ММП - метод максимально! правдоподiбностi; МКМЛ - метод Монте-Карло для марковських лан-цюпв;
ТЕЗ - теорiя екстремальних значень; УЛМ - узагальненi лшшш моделi; F - функцiя розподшу випадково! величини; u - пор^ випадково! величини;
Xi,...,Xn - послщовшсть незалежних випадкових величин;
М - параметр розподiлу;
- параметр форми розподшу; ст - параметр масштабованостг ВСТУП
У зв'язку з необхiднiстю розв'язання нових задач мо-делювання i прогнозування на основi великих обсягiв
© Трухан С. В., Бщюк П. I., 2016 DOI 10.15588/1607-3274-2016-1-3
вироджених вхщних даних, яю не можна розв'язати з ви-користанням iснуючих метседв, виникае потреба у роз-робщ нових iнтегрованих iнформацiйних систем, метседв та пiдходiв до обробки таких даних. Одним iз таких пiдходiв е ТЕЗ. Вона широко застосовуеться до розв'язання таких задач як регулювання структури портфелю активiв у стра-хуваннi, аналiз виникнення ризикових ситуацiй у сферi фшаншв та кредитування, прогнозуваннi трафiку в га-лузi телекомунiкацiй.
Задачею теорп екстремальних значень е цшеспрямо-ваний аналiз та оцiнювання ймовiрностi появи випадко-вих величин, пов' язаних з екстремальними, тобто р^юсними подiями. Екстремальнi значення не е фжсо-ваними величинами, це жда випадковi величини, яю за-лежать вiд типу вихщного розподiлу та об'емiв вибiрки. Наприклад, в област страхування будь-якого майна рщюсною, але ймовiрною подiею е настання страхового випадку, яке повинно супроводжуватись виплатами стра-хових премiй.
Саме тому для розв'язання задачi прогнозування стра-хових виплат пропонуеться ймовiрнiсна модель, яка бу-дуеться iз застосуванням теорп екстремальних значень. В свою чергу, одним iз ключових моментiв побудови адекватно! моделi дослiджуваного процесу е коректний вибiр методу ощнювання параметрiв математичних моделей за експериментальними (статистичними) даними. Для розв'язання задачi оцiнювання невiдомих параметрiв моделi часто застосовують метод максимально! правдоподабност та байесiвський пiдхiд. Останнiй дае можливють точнiше оцiнювати моделi в умовах невизначеностi, а саме, коли статистичш данi мають рiзнi типи розподЫв ймовiрнос-тей, а також вибрати кращу модель iз множини ощнених кандидатiв. Перевагою даного тдходу е можливiсть його застосування до обробки статистичних вибiрок вiдносно малих розмiрiв, а також за наявност пропускав даних [4, 5]. Популярним i вiдносно унiверсальним е на сьогодш МКМЛ, який застосовують для ощнювання параметрiв лiнiйних i нелшшних моделей [6-8].
1 ПОСТАНОВКА ЗАДАЧ1
У роботi ставиться за мету застосування теорп екстремальних значень для побудови комплексно! моделi обробки екстремальних даних з метою створення УЛМ та ощнювання !х параметрiв.
Для досягнення поставлено! мети необхщно розв'я-зати такi задачi:
1) дослщити властивостi розподiлiв екстремальних значень;
2) дослдати методи оцiнювання невщомих параметрiв моделей екстремальних значень, зокрема можливост використання байесiвського пiдходу, методу максимально! правдожедбност та ш.;
3) розробити комплексну модель обробки екстремаль-них значень;
4) навести приклади застосування комплексно! моделi для обробки вироджених статистичних даних у страхуваннi.
2 ОГЛЯД Л1ТЕРАТУРИ
На ранньому етат створення статистично! теорi! оц-iнювання найбiльша увага придiлялась розв'язанню задач наближення кривих розподшу до даних, а значно тзтше - розвитку теорi! побудови статистичного вис-новку. На сьогоднi теорiя екстремальних значень е скла-довою частиною багатьох напрямiв розвитку практич-них наук, таких як гiдрологiя, астрожмя, телекомунiкацi!, економiка та iн. Першi iсторичнi свiдчення стосовно юну-вання ммейства розподiлiв екстремальних значень по-в'язанi з роботою М. Бернуллi (1709 р.) стосовно визна-чення середньо! тривалостi життя. Першi спроби дослщ-ження теорi! екстремальних значень грунтувались на використаннi нормального розподшу. У 1925 р. Тшпет обчислив ймовiрностi найбiльших значень у нормально розподшенш вибiрцi iз врахуванням рiзних об'емiв вибь рки (до 1000 значень), а також ощнював середнш розмах нормально розподiлених вибiрок (вщ 2 до 1000 значень). Таблищ Тiппета - це фундаментальний шдхщ до практичного застосування найбшьших величин у вибiрцi з нормальним розподiлом. Саме те, що бшьш^ть дослщ-жень Грунтувалось на нормальному розподЫ, гальму-вало розвиток теорп екстремальних значень. Фреше ус-тшно дослiдив перший тип розподiлу екстремальних да-
них та отримав граничш розподши найбшьших величин виб1рки, запропонував постулат стшкость Використову-ючи даний постулат Фреше та Тшпет винайшли два шш1 розподши екстремальних значень та тдкреслили по-вшьну зб1жшсть ряду границ! розпод!л!в найб!льших величин ¿з нормально! виб!рки [1].
Проблема недостатшх об'ем!в ¿нформац!! часто зуст-р!чаеться при досл!дженн! процемв економ!чного, ф!зич-ного, природничого походження i стае причиною труд-нощ!в при розв'язаннi задач побудови моделей таких екстремальних даних. Тому виникае потреба у дослщженш шших джерел знань для пошуку оптимальних рiшень стосовно обробки даних та побудови моделей. Наприклад, економюту потрiбно знайти максимальне значення з де-яко! вибiрки з виродженими даними. Звичайно ^нуе кiлька можливих способiв, за якими експерт iз знаннями дослiджуваного процесу може надати шформащю, що мае вiдношення до екстремально! поведiнки i яка зале-жить вiд наявних даних. Але часто така шформащя суп-роводжуеться наближеними вимiрами, якi вiдрiзняють-ся вщ дiйсних значень та роблять хибними майбутнi про-гнози, що будуються на !х основi.
Тому, виходячи iз актуальностi задачi обробки екстремальних значень, роботу присвячено досл^женню та розробщ комплексно! моделi для опису екстремальних значень i оцiнюванню невiдомих параметрiв УЛМ. Таю моделi широко використовують для аналiзу страхових випадкiв, прогнозування продовження старих чи укла -дення нових страхових договорiв, розробцi тарифiв та андерайтингу, а також у щльовому маркетингу. 3 МАТЕР1АЛИ I МЕТОДИ
Математичну модель екстремальних даних можна представити у виглядi [1 ]:
Mn = max{X1,... Xn }, (1)
де X1,...,Xn - послiдовнiсть незалежних випадкових величин з функщею розподiлу F. У виразi (1) величина Mn позначае максимум досл^жуваного процесу на iнтервалi часу n i мае розподш [1]:
Pr {Mn < z
}= Pr{Xi < z,...,Xn < z
}= Pr{X1 < z}x x ... x Pr {Xn < z}= {F (z)}n. (2)
Функщя F невiдома, а тому розглядаеться наближе-на оцiнка для Fn. Якщо послiдовнiсть констант {an > 0} та {bn > 0} таких, що
Pr I Mn - bn < F (anx + bnx)n ^ G( z),
I an J
при n , то G - невироджена функщя розподшу, яка належить до одного з розподЫв екстремальних значень, наприклад, до узагальненого розподшу екстремальних значень (Generalized extreme value - GEV):
G(z) = exp<! -
1 + ^
z-ц
-1/¡n
(3)
де ц-параметр розподшу; ст-параметр масштабова-ностi; параметр форми розподiлу [2].
ст
Вiдповiдно до теореми про типи розподтв екстре-мальних значень видiляють три типи таких розподтв, а саме:
1) Розподш Гумбела:
G(z) = exp \ — exp I -
г — b
— да < z < да;
2) Розподш Фреше:
G( z) =
0, z < b;
(
exp
z — b
z > b;
3) Розподш Вейбулла:
G( z) =
exp
— —
z — b
z < b.
v /
1, z > b
Для вмх трьох випадюв a > 0, b — дшсне число. Для друго! та третьо! функцп параметр а > 0. Ц три класи розподiлiв називають розподшами екстремальних значень, вони зображеш на рис. 1.
З рис. 1 видно, що кожен з розподтв мае свою форму поведши хвоста. Наприклад, для розподшу Вейбула хвiст
М —ст . .
мае юнцеву точку zsup =—, а для розподiЛiв Фреше
та Гумбела zsup = да. Кр!м того, щ1льн1сть розпод1лу Гумбела експоненщально затухае, тод1 як щшьшсть розпод1лу Фреше затухае полiномiально. Розподш Гумбела е набли-женим до класу таких в1домих як нормальний, лог-нор-мальний та гамма - розподтв. Розподш Фреше мае тяж-
~ ■ г ^ 1 ,
кий хв1ст, який позначаеться як E(X ) = да для г > — (що
означае несюнченшсть дисперси при Е > 1/2).
В окремий клас видшяють узагальнений розподш Парето (Generalized Pareto Distribution - GPD), який
Рисунок 1 - Функци щшьносп розпод^лу для трьох тишв розпод1л1в
отримуемо за умови: X - це розпод1л, що умовно пере-вищуе деякий пор1г u:
Fu (У) =
F (u + y) — F (u)
(4)
1 — F (u)
де u ^ Wf = sup{x : F(x) < 1}, що найчастше зводиться до пошуку границi:
Fu (y) - G(y, CTu, Е), де G — узагальнений розподш Парето, екв!валентний ви-
разу [2]:
G (у, ст, О = 1 —11 +
-1/Е
1) якщо Е > 0, то маемо довгий хв1ст x 1/ Е , що екв!ва-лентно розпод1лу Парето;
2) якщо Е = 0 та спрямовуючи Е ^ 0, отримаемо
G(У, ст,0) = 1 — exp| — "СТу |, тобто
експоненщальний роз-
подш з середнiм ст ;
3) якщо Е < 0, то юнцева верхня точка знаходиться на ст
рiвнi — —.
Також одшею iз переваг О^К-розподтв е шварь антнiсть кожного з розподiлiв, яю належать до даного класу.
Розглянемо методику обробки екстремальних значень. Для обробки статистичного ряду з п -незалежних, однаково розподшених змшних Х^,...,Хп застосовуеть-ся така послщовшсть дiй.
1. Групування вибiрок даних з п спостережень. Таю вибiрки повиннi мiстити вiд 50 до 100 значень.
2. Визначаеться максимум для кожного блоку /'.
3. Наближення кожного блоку максимумiв до ОЕК-розпод^.
Зазвичай за довжину блоку беруть величину першо-го року, але для зручност часто використовують данi
рiчного максимуму I -го року.
Шсля апроксимавд ОЕУ-розподшом для кожного з рiчних максимумш розраховуеться функця квантилю [3, 4]:
7 _|ц-(ст /4 — (— 1оё(1 — р))Е* 0; Р ~ I
[ц — ст 1о§(— 1о§(1 — р)), Е_ 0.
Припустимо, що Ур _ — 1оё(1 — Р), тодi квантиль-фун-кщя матиме вигляд:
zp =■
-(ст/е) — (ур)—Е) Е*0;
м—стiog(yp), Е = 0;
Якщо зобразити zp в залежностi в1д log( Ур ) , то графж буде мати л1н1йний характер: при Е = 0.
a
а
a
+
а
a
Якщо Е < 0, отримаемо випуклу криву з асимптотич-ною границею (ц - ст) / Е при p ^ 0, а при Е > 0 отримаемо увiгнутий графiк без кiнцево! гранищ.
Такий графiк називаеться графiком повернення рiвня (return level plot), вш вважаеться iнструментом або способом представлення згладжено! моделi [3].
4. Виконуеться оцiнювання параметрiв моделi та роз-в' язуеться задача пошуку оптимально! довжини блоку.
Остання зводиться до пошуку ствв^ношення мiж величинами вiдхилення та дисперсп. Наприклад, коли довжина блоюв незначна, то наближення розподiлiв до границь е поганим i призводить до в^илень у ощню-ванш та екстраполяцi!. З iншого боку, велию блоки по-роджують значення з великими оцiнками дисперсi!.
Для ощнювання параметрiв моделей часто викорис-товуеться метод максимально! правдоподiбностi (ММП). Однак, умова регулярностi оцiнювання не задовольняеть-ся при застосуваннi ММП до GEV-розподЫв, тому що юнцева точка розподiлiв залежить вiд значення параметра. Це означае, що стандартш асимптотичт результати аналiзу за методом максимально! правдоподiбностi не-доречно застосовувати до GEV-розподтв. Цю проблему дослщив Смiт у 1985 рощ з такими результатами [3]:
- якщо Е > - 0,5, то ощнювання за ММП носить стан-дартний асимптотичний характер;
- якщо -1 < Е < 0,5, то ощнки ММП можуть бути отри-маш, але не iз заданими асимптотичними властивостями;
- якщо Е < -1, то ощнки ММП вважаються неправдо-подiбними.
Окремий випадок: якщо Е < -0,5, то це екшвалентно розподшу з дуже коротким обмеженим верхшм хвостом, який е рiдкiсним явищем для теорй екстремальних значень [5].
Логарифмiчна функщя правдоподiбностi для
GEV-розподЫв, коли Е ^ 0, мае вигляд:
l(ц, ст, Е) = -m log ст - (1 +1/Е)£ log) 1 + Е
i=1
: zi - Ц
-Ц1+ Е i=1
zi -ц
-1/Е
за умови, що И + Е —i—Ц|> 0 для i = 1,..., m. Як тшьки
I ст )
остання умова не виконуеться, то функщя правдожадб-ностi дорiвнюе нулю i логарифмiчна функцiя правдопо-дiбностi набувае значення несюнченностт
Для розподiлу Гумбела Е = 0 логарифмiчна функцiя правдожадбност мае вигляд:
l(ц,ст) = -mlogст-Х| —ц |-Х| -
i=1
i=1
zi -ц
(5)
Пiсля використання метсадв чисельно! оптимiзацi! та максимiзацi! виразу (5), отримуемо оцiнку максимально! правдожадбност вигляду (ц, ст, Е) [3, 5].
5. Графiчна перевiрка наближення GEV-моделей.
Для обгрунтування екстраполяцi! GEV-моделей мож-на скористатись способами графiчного аналiзу даних.
Графж щiльностi розподщ. В осжга даного графi-ка лежить порiвняння емшрично! та апроксимуючо! функцiй щiльностi розподшу. Абсциса точки на графiку щшьноста розподiлiв е емпiричною функцiею розподшу, у яку замiсть аргументу тдставляють данi з вибiрки, а ордината - це теоретична функщя розподшу, куди ана-логiчно замiсть аргументу тдставляють дат iз статис-тично! вибiрки. Функцiя емпiричного розподiлу ощ-нюеться в i-му упорядкованому блощ максимумiв Zi i мае вигляд:
G (Zi) = i /(m +1).
Апроксимуюча функцiя щiльностi розподiлу в тiй самiй точцi виглядае так:
G(Zi) = exp
f
1+ Е
f А-1/Е ' z(i) -ц^^
Для того, щоб отримати найкраще наближення моделi необхiдно задовольнити рiвнiсть G (Zt) = G(Zt). За допо-
могою цього графiка на практищ часто вдаеться запобiг-ти ефекту «виродженостi». Тобто, коли множина точок
G(Zi), G(Zi)} i = 1,..., m - лежить близько до першо!
дiагоналi в той час, коли обидвi функцп е обмеженими в оксш одиницi та значення абсциси z збiльшуються.
Графж квантилiв (Q-Q plot). Недолiком класично! методологi! оцiнювання фшансових ризикiв VaR е при-пущення про нормальнiсть розподiлу та наявшсть си-метрi! у розподiлi. На практищ бшьшють економiчних процесiв асиметричш, а фiнансовi ряди мають виродже-ний хвiст. Саме графiк квантктв дае можливiсть оцiнити ступiнь довiри для ряду параметричних моделей. Графж квантилiв визначаеться як множина точок [4]:
Xk,n, F
1 f n - k +1
k = 1,..., n
Якщо параметрична надае прийнятне згладжування, то графж мае лшшну форму. Тому графж дае можливють порiвняти оцiненi моделi та вибрати найкращу; оцiнити як обрана модель апроксимуе хвiст емпiричного розпо-д^. Тобто, якщо ряд апроксимуеться нормальним роз-подiлом i емтричш данi мають вироджений хвiст, то графж квантилiв буде характеризувати криву на вершит правого кшця або на дт лiвого кiнця розподшу. Крiм розглянутих вище видiв графiчного аналiзу iснують графiк рiвня процесу (return level plot) та середня функщя ексцесу (mean excess function) [3, 4].
6. Визначення порогу екстремального значення.
Для забезпечення ефектившшого результату наближення екстремальних даних до одного з GEV-розподЫв застосовують так зват пороговi моделт Нехай множина статистичних даних перевищуе деякий пор^ u, а X1,...,Xn - послiдовнiсть незалежних однаково розподi-
ст
ст
n
ст
лених змiнних з функщею розподiлу F. Тодi умовна ÜMOBipmcTb визначаеться так:
Fu(y) = P(X < u + y | X > u), або
/(a, E) = -k log a - (1 +1/ E)£ log(1 + E y,. / a),
Fu ( У) =
F (u + y) - F (u) 1 - F (u) .
Цей вираз дозволяе визначити стутнь наближення значень ймовiрностi для великих значень порогу и.
Задача вибору оптимального порога щентична задачi визначення розмiру блока. Обидвi задачi спрямованi на визначення балансу мiж вiдхиленням та диспераею. Низь-кий рiвень призводить до порушень асимптотично! апрок-симащ!, а високий рiвень забезпечуе велику дисперсiю.
Метод вибору порогу базуеться на основi середньо-го ОРБ розподiлу. Якщо у - випадкова змшна у ОРП-розподiлi з параметрами ст i Е, коли Е < 1, то математич-не сподавання Е(У) _ ст /(1 — Е). В iнших випадках середне е несюнченшстю.
Якщо модель е ютинною вiдносно порогу и0, то вона також ютинна для всiх iнших порогiв и бшьших за и0. Тобто для забезпечення високого рiвня адекватностi по-будовано! моделi достатньо знайти одне значення порогу, а вм iншi припустити промiжними при ощнюванш невiдомих параметрiв моделi. Середне для обох випадюв визначаеться так [5]:
Ф0) _ Е( X — и{)/ X > и{)) _ст и0 /(1 — Е),
е(и) _ Е( X — и / X > и) _ о и /(1 — Е) _ (о и0 + Е(и — и0))/(1 — Е) . (6)
Оскiльки е(и) _ Е(X — и /X > и) - це лшшна функщя вiд и, то враховуючи вираз (6), оцiнювання величини порогу можна виконати за такою шструкщею [3, 10]:
1) побудувати графiк криво! залишкiв, що вщобража-ють множину точок:
, Z( xi- u u)/i
i=1
u < xm
де nu - число дослщш, якi перевищують u; xmax - верхня межа досл^жуваного значення;
2) вибрати порогове значення, над яким графiк прий-мае наближено лшшний характер стосовно u. Застосу-вання довiрчих iнтервалiв допомагае визначити цю точку.
Також, для визначення порогу екстремального значення використовують метод умовно прийнятного вибору, який базуеться на такому правилг порiг встановлюеться у тому регют, де хвiст становить 5-10% вiд усiеï вибiрки. Головне припущення: вiн не повинен бути бшьшим нiж 10-15%. На практищ 10% межу часто використовували у своïх дослiдах Роко (2011), Макнейл i Фрей (2000) [10].
7. Ощнювання невiдомих параметрiв моделi.
Шсля кроку визначення порогу потрiбно виконати ощнку невiдомих параметрiв узагальненого розподшу Парето. Як вiдомо серед метседв оцiнювання невiдомих параметрiв моделi поширеним е метод максимальноï правдоподiбностi.
Нехай y1,...,yk - це значення k -залишкiв з порогу; тодi логарифмiчна функцiя правдоподiбностi при E ^ 0 :
i=1
коли (1 + E y. / a) > 0, а для будь-яких шших випадюв / (a, E) = -».
При E = 0 логарифмiчна функщя правдоподiбностi:
k
/(a) = -k(log a-a-1Z y.).
i=1
Другим поширеним методом оцiнювання невiдомих параметрiв е байесiвський тдхщ. Перевагою байемвсь-кого аналiзу при застосуванш до моделей обробки екстремальних значень е його незалежшсть вiд регулярностi припущень стосовно характеру початкового розподшу, як цього потребуе метод максимальжй правдоподiбностi. Практичне застосування байешвського пiдходу до ощ-нювання невiдомих параметрiв було проiлюстровано на прикладi узагальнених лiнiйних моделей [9, 10].
Крiм того, даний шдхщ надае обгрунтовану альтернативу для випадюв, коли припущення, необхщш для застосування методу максимально правдоподiбностi та ймо-вiрностi зважених моменлв не виконуються. 4ЕКСПЕРИМЕНТИ
Експериментальне дослщження ефективностi запропо-нованоï методики виконано за допомогою фактичних ста-тистичних даних. Об'ем статистичноï вибiрки складав 247 вимiрiв, якi включають таю змшш: назва страховоï ком-пани; грошовий еквiвалент страхових виплат; статистич-ний рiк; кiлькiсть договорiв, яю уклала конкретна страхова компанiя; страховi платежц кiлькiсть страхових випадюв на рж. Основна залежна змiнна - страховi виплати, яка вiдображае здшснення грошових переказiв при настаннi страхового випадку. Решта змiнних, яю включеш до вибiр-ки, е незалежними i беруться до уваги як фактори.
Для виконання попереднього аналiзу статистичних даних та реалiзацiï окремих крокiв алгоритму обробки екстремальних значень використовувались таю програмш продукта: Microsoft Excel 2010; шструментальне середо-вище програмування R2.9.2 для статистичноï обробки даних та роботи з графшою; економетричний пакет Eviews 8.0 для побудови моделей та попереднього ощнювання невщомих параметрiв. В пакета Eviews 8.0 вико-ристано таю модуш: розрахунок описових статистик, по-будова УЛМ, метод максимальноï правдоподiбностi для оцiнювання параметрiв моделi. В середовищi програмування R2.9.2 виконано штегращю модулiв Rcmdr, extRemes, evdbayes та mcmcPack.
5 РЕЗУЛЬТАТИ
На рис. 2 вщображено графiк залежностi страхових виплат в^ статистичного року. Рiзкi змiни величини «Cmpaxoei виплати» пояснюеться коливаннями величини «Кшьюсть страхових випадюв» для в^повщного перюду. На рис. 3 вщображено значення описових статистик. 1з рис. 3 помiтно, що коефщент асиметрiï (Skewness) коливаеться в межах 2,839 до 8,664. А це в свою чергу св^ить про наявшсть «правого хвосту» в розподЫ. Так, як параметр ексцессу (Kurtosis) мае значення бiльше трьох, то розподш е гостровершинним.
u
u
Рисунок 2 - Залежшсть страхових Також, попереднш аналiз початкових даних свiдчить про сильну виродженiсть вибiрки, яка проявляеться у виглядi шуму при побудовi моделi, на прикладi рис. 4. Саме тому прийнято ршення про доречшсть поперед-нього логарифмування даних.
Аналiз описово! статистики та вiзуальний аналiз лога-рифмованих даних (рис. 5) дають можливють припусти-ти про наближення даних до GEV- або GiC-розподшу.
Вщносно високий порiг вибираеться з метою того, щоб зменшити змiщення модел^ а з iншо! сторони - це буде означати, що лише декшька дослвдв використову-ються для ощнювання параметрiв розподiлу, тим самим гарантуючи збiльшення оцiнки дисперсi!. Мета вибору величини порогу полягае в тому, щоб уникнути змщен-ня моделi. Згiдно розглянутого вище методу визначення величини порогу для експерименту прийнято значення 6,65. Графiк Mean Residual Life Plot вщображае залежшсть порогу вщ середнього залишку для ощнено! моделi. Вiн слугуе важелем перевiрки вибраного порогу. З рис. 6 видно, що тсля значення порогу 6 з'являються помiтнi вдаилення вiд лiнiйностi.
[viewjproc]~Object j | Print: Name ■ Freeze j | Sample \ sheetjstatspjpee j
Q CASES Q ARRANG DAMAGES CHARGES
Mean 248.9717 42819.83 2779.190 47154.60
Median 65.00000 2431.000 780.0000 13017.40
Maximum 3S00.000 2241084. 49575.00 557884.0
Minimum 2.000000 6.000000 1.200000 469.8000
Std. Dev. 526.4061 181679.5 6121.650 81935.75
Skewness 4.241486 8.663552 4.644020 2.838897
Kurtosis 24.51794 94.69488 29.05691 12.32584
Jarque-Bera 5505.864 89621.68 7875.493 1226.855
Probability 0.000000 0.000000 0.000000 0.000000
Sum 61496.00 10576499 686459.9 11647185
Sum Sc|. Dev. 68167427 8.12E + 12 9.22E+09 1.65E + 12
Observations 247 247 247 247
Рисунок 3 - Описов1 статистики початкових даних
Рисунок 4
Результати ощнювання модел1 без попередньо! обробки
виплат в1д статистичного року
Щ^вняльна характеристика параметрiв розподшу представлена в табл. 1. Вона показуе, що оптимальним е набли-ження даних за допомогою GiC-розподшу 1з незначною похибкою та максимальним наближенням емпiрично! криво! до теоретично! функщ! щ1льност1 розподшу (рис. 7).
Параметри ощнювання побудовано! модел! за допомогою байемвського тдходу зображено на рис. 8. По-
Damagesjog
Рисунок 5 - Графж залежност1 логарифмованих страхових виплат вщ щшьносп розпсдалу
Mean Residual Life Plot: data2306 Dam.lt
Рисунок 6 - Залежшсть значення порогу в1д середнього залишку GPD-моделi
Таблиця 1 - Пор1вняльна характеристика параметр1в розподшв
Тип розподшу Sigma Xi Log-likelihood Excee-dance rate (per year) Number of exceedances of threshold
Maximum likelihood estimation Std. error Maximum likelihood estimation Std. error
GEV-розподiл 1,953 0,712 -0,650 0,095 487,812 - -
GPD-розподiл 0,777 0,346 -0,541 0,206 146,369 183,364 124
Return Level Plot
Density Plot
о
CM Ö
о Ö
4
N
XZB
10
!
11
Return period (years) Рисунок 7 - Граф1чне представлення оцшено!' ОРЭ-модел1
Рисунок 8 - Д1агностика наближення модел1 до одного з GEV-розподшв
р!внюючи графiки щшьносп розпод1лу для побудовано! моделi та актуально! виб!рки даних пом1тн1 значш покра-щення моделi у термшах належностi до одного з GEV-розпод1л1в. Числов1 значення оц1нок невщомих параметрiв моделi за допомогою байешвсько! методологi! наведенi на рис. 9. Сл1д зазначити, що на рис. 9 за параметр масш-табованост вiдповiдае змiнна scale, a shape - параметр форми. На рис. 10 вщображено результати обчислення параметр!в апостерюрно! ви61рки зг1дно методу Монте-Карло. За допомогою функцп «сг» було обчислено дов1рч1 iнтервали для в1дпов1дних параметрiв та р1вн1в повернення (рис. 11). Графiчне вiдображення апрюрних оц1нок параметрiв за методом Монте-Карло та «trace-графiкiв» наведено на рис. 12.
Пор!внюючи результати отриманих оц1нок сл1д зау-важити, що байемвський п1дх1д демонструе кращi результати шж метод максимально! правдопод!бност! та сприяе обгрунтованому вибору кращо! модел! 1з запропонова-них GEV-розподЫв, виходячи з1 значень апрiорних пара-метрiв, а також алгоритмiв вибору кращо! модели
Рисунок 10 - Результати обчислення параметров розпод^лу апрюрно! виб^рки
fevd (х = log D, data = final data, method = "Bayesian" \
Г1] "Estimation Method used: Eaye3ian"
Acceptance Rates: log.scale shape
0.2530506 0.1956591 fevd(x = log Df data
= final data, method = "Е;ауез1апГ| |
{!] rr3uantile3 of MCMC Sareple from Posterior Distribution"
2.5% Fo3terior Mean 97.5%
location 5.5950245 5.3697199 6.1433656
scale 1.7911603 1.9373764 2.2171234
shape -0. 3-251922 -0.5529339 -0.2779164
PucyHOK 9 - Pe3yjjbTara o^HKrnaHHa napaMeTpiB Mogeji 3a gonoMororo 6aHeciBCbKoI MeTogogorii > Ci(ft)
fevd(.x = loc_D, data = final_data, m.ettiod = "Eayesian"} [1] "Quantises cf MCMC Sample from Posterior Distribution" [1] "Posterior Mean 100-year level: 10.334" [1] "95% Confidence Interval: (10.0354, 10.3736)"
> ci(ftr type =TIparameter")
fevd(x = loc_D, data = final_data, method = "Bayesian")
[1] "Quantile3 cf MCMC Sample from Posterior Distribution"
2.5% Posterior Mean 97.5%
location 5.5960245 5.3697199 6.1433656
scale 1.7911603 1.9373764 2.2171234
shape -0.4251922 -0.3529339 -0.2779164
Рисунок 11 - Результати обчислення дов^рчих штервал^в для параметров форми та масштабованост вщповщно та квантиле статистики Монте-Карло для апрюрних розподшв
ЬсаИсп зса1е аИаре
Рисунок 12 - Графiчне вiдображення апрiорних оцiнок параметрiв за методом Монте-Карло та «Лгаое-графгав»
ОБГОВОРЕННЯ
В результат! використання запропоновано! комплексно! модел! обробки екстремальних статистичних даних вдалося устшно розв'язати проблему невиродженосл даних у стати-стичнш виб1рщ ¿з застосуванням теори екстремальних значень.
Для ощнювання неввдомих параметр1в побудованих моделей, яю належать до класу ОЕУ-розподЫв можна устшно використовувати байеавський тдхвд, оперуючи апрюрними та апостерюрними розподшами параметр1в, а також алгоритмами вибору кращо! модел!. Залучення новггтх комб1нованих метод1в до розв'язання задач! обробки екстремальних даних та ощнювання неввдомих параметр1в, вибору кращо! модел! на основ! алгоритм1в зменшення поропв викид1в в1дкривае нов! можливоста для доолдження особливостей метод!в мате-матичного моделювання.
ВИСНОВКИ
Виконано досл1дження щодо пошуку ефективно! методики обробки екстремальних значень у статистичнш виб1рщ. Запропоновано та експериментально доведено ефектившсть функщ-онування створеного багатокрокового тдходу 1з використан-ням математичного апарату теори екстремальних значень та метод1в ощнювання невщомих параметр1в моделей. Розгляну-
тий приклад св1дчить про те, що запропонований комплексний тдхщ стосовно обробки екстремальних значень е ефективним та зручним шструментом анал1зу вироджених масив1в даних та моделювання актуарних процеав. Для ощнювання неввдомих параметр1в екстремальних моделей зручно використовувати байеавський тдхщ, який надае можливгсть оперувати апрюр-ними та апостерюрними розподшами параметр1в [ алгоритмами вибору кращо! модели
Залучення новггтх комбшованих методав до обробки погано структурованих вироджених статистичних даних розкри-вае нов1 можливоста щодо дослвдження особливостей сучас-них методик та математичних методв. Надал1 необхщно досль дити можливють використання результапв застосування моделей екстремальних значень при побудов1 прогнозних УЛМ моделей. Застосування запропоновано! процедури обробки екстремальних значень гарантуе високу точтсть наближення даних до розподЫв та уникнення шуму. Пор1вняння результата ощнювання параметр1в модел1 за допомогою методу максимально! правдопод1бносп показало, що байес1всью методи ощнювання е кращим тдгрунтям для розв'язання задач вибору кращо! модел1 на основ1 множини отриманих альтернатив. Також можна зробити висновок, що сфера страхування, за умо-ви належного менеджменту 1з застосуванням сучасних матема-
тичних методав обробки даних, оцiнювання моделей та про-гнозгв може бути надшним джерелом стабшзаци економжи кра!-ни у цшому. ПОДЯКИ
Роботу виконано вдаовщно з тематичними планами науко-вих дослiджень Нацiонального технiчного унiверситету Ук-ра!ни «Кшвський полiтехнiчний шститут». Дослвдження виконано в рамках бюджетно! НДР, реестрацшний N° 0115U000356, тема № 2813-п НТУУ «КП1»: «Розробка методологii системного аналiзу, моделювання та оцшювання фiнансових ризиюв». Страховi данi отримано за сприяння Л^и страхових компанш.
СПИСОК Л1ТЕРАТУРИ
1. Coles S. An Introduction to Statistical Modeling of Extreme Values / S. Coles. - London : Springer-Verlag, 2001. - P. 45-104.
2. Smith R. L. An overview of Extreme value theory / R. L. Smith. -Lausanne : Bernoulli Center, 2009.
3. Mallor F. An introduction to statistical modeling of extreme
values / F. Mallor, E. Nualart, E. Omey // Hub research paper. -2009. - No. 36. - P. 5-31.
Shumway R. H. Time series analysis and its applications / R. H. Shumway, D. S. Stoffer. - New York : Springer, 2006. - 598 p. Romano A. Dynamic learning methods / A. Romano, G. Secundo -New York: Springer, 2009. - 190 p.
McCullagh P. Generalized Linear Models / P. McCullagh, J. Nelder.- New York : Chapman & Hall, 1989. - 526 p. Tsay R. S. Analysis of financial time series / R. S. Tsay. - New Jersey : John Wiley & Sons, Inc., 2010. - 715 p. Besag J. Markov Chain Monte Carlo for Statistical Inference / J. Besag. - Center for Statistics and the Social Sciences. - 2001. -No. 9. - 25 p.
9. EigroK n. I. O^HKiBaHHa y3arajjhHeHHX mmÖHHX Mogejeö 3a 6afieciBChKHM nigxogoM b aKTyapHOMy MogejKrnaHHi / n. I. EigroK, C. B. TpyxaH // HayKOBi Bicri HTYY «Km». - 2014. - № 6. -C.49-55.
10. Beirlant J. Statistics of extremes: Theory and application / J. Beirlant. - New York : John Wiley & Sons, Inc., 2004. - 505 p.
CTarra Haginmjja go pegaKuii 21.10.2015.
nicjja gopoÖKH 28.10.2015.
5.
7
8
Трухан С. В.1, Бидюк П. И.2 'Аспирантка института прикладного системного анализа НТУУ «КПИ», Киев, Украина
2Д-р техн. наук, профессор кафедры математических методов системного анализа НТУУ «КПИ», Киев, Украина МЕТОДИКА АНАЛИЗА ЭКСТРЕМАЛЬНЫХ ДАННЫХ И ЕЕ ИСПОЛЬЗОВАНИЕ ПРИ ОЦЕНИВАНИИ ПАРАМЕТРОВ ОБОЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ
Предложена методика анализа экстремальных значений с целью ее использования при оценивании неизвестных параметров обобщенных линейных моделей. В качестве математического аппарата использована теория экстремальных значений, которая является одним разделов математической статистики и связана с исследованием отклонений экстремальных значений от медианы в вероятностных распределениях. Также рассмотрены методы приближения экстремальных данных к классу обобщенных экстремальных распределений, методы оценивания неизвестных параметров и выбора оптимального порога для экстремальных значений. На основе реальных статистических данных и исследуемого подхода построены модели обработки экстремальных значений для дальнейшего использования при оценивании прогнозных моделей. Допустимой для дальнейшего применения оказалась модель приближения данных с помощью обобщенного распределения Парето. Это обосновывается минимальной величиной погрешности, а также максимальным приближением эмпирической кривой к теоретической функции плотности распределения. Сравнение результатов оценивания неизвестных параметров модели с помощью метода максимального правдоподобия и байесовского подхода показало, что байесовские методы оценивания являются эффективным основанием для решения задачи выбора лучшей модели исходя из множества полученных альтернатив и значений априорных параметров. Для дальнейшего исследования целесообразно рассмотреть задачу применения моделей экстремальных значений при построении прогнозных обобщенных линейных моделей.
Ключевые слова: теория экстремальных значений, обобщенные линейные модели, порог экстремального значения, метод максимального правдоподобия, байесовский подход.
Trukhan S.1, Bidyuk P.2
'Post-graduate student of Institute for Applied System Analysis, NTUU «KPI», Kyiv, Ukraine 2Dr. Sc., Professor at the Department of Mathematical methods for System Analysis, NTUU «KPI», Kyiv, Ukraine METHODOLOGY OF EXTREME VALUES ANALYSIS AND ITS APPLICATION FOR PARAMETER ESTIMATION OF GENERALIZED LINEAR MODELS
The article deals with methodology of extreme values treatment for building and estimating unknown parameters of generalized linear models. As a mathematical tool for carrying out the research the extreme value theory was used that creates one of the directions in mathematical statistics, and is related to investigating the extreme deviations from the median values in probability distributions. Also, the methods of approximation statistical data to generalized extreme value distribution, the methods of estimating unknown parameters and selecting an optimal threshold for extreme value models are discussed. The models of treatment extreme values are constructed which are based on actual statistical data and approach is proposed for their future application for estimating predictive models. The model with generalized Pareto distribution turned out to be acceptable for further use, because it has minimum value of observation error and the best approximation of observed curve to theoretical density function. The comparison of evaluation unknown models' parameters using method of maximum likelihood and Bayesian approach leads to next conclusion. The Bayesian methods are efficient way to solve the problem of selection the best model, based on the received alternatives set and prior parameters values. In future studies it will be reasonable to consider the application of extreme value analysis to predicted generalized linear models.
Keywords: extreme value theory, generalized linear models, extreme value threshold, maximum likelihood method, Bayesian approach.
REFERENCES
Coles S. An Introduction to Statistical Modeling of Extreme Values. London, Springer-Verlag, 2001, pp. 45-104. Smith R. L. An overview of Extreme value theory. Lausanne, Bernoulli Center, 2009.
Mallor F., Omey E. An introduction to statistical modeling of extreme values. Hub research paper, 2009, No. 36, pp. 5-31. Shumway R. H., Stoffer D. S. Time series analysis and its applications. New York, Springer, 2006, 598 p. Romano A., Secundo G. Dynamic learning methods. New York, Springer, 2009, 190 p.
6
McCullagh P., Nelder J. Generalized Linear Models. New York, Chapman & Hall, 1989, 526 p.
Tsay R. S. Analysis of financial time series. New Jersey, John Wiley & Sons, Inc., 2010, 715 p.
Besag J. Markov Chain Monte Carlo for Statistical Inference, Center for Statistics and the Social Sciences, 2001, No. 9, 25 p. Bidyuk, P., Trukhan, S. Estimation of generalized linear models using Bayesian approach in actuarial modeling, Naukovi Visti NTUU «KPI», 2014, No. 6, pp. 49-55. 10. Beirlant J. Statistics of extremes: Theory and application. New York, John Wiley & Sons, Inc., 2004, 505 p.
9.
2
3