Научная статья на тему 'Интервальные доверительные оценки для показателей качества бинарных классификаторов - ROC-кривых, AUC для случая малых выборок'

Интервальные доверительные оценки для показателей качества бинарных классификаторов - ROC-кривых, AUC для случая малых выборок Текст научной статьи по специальности «Математика»

CC BY
540
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ / ЭМПИРИЧЕСКИЕ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ / ПОЛИНОМИАЛЬНОЕ РАСПРЕДЕЛЕНИЕ / ПУАССОНОВСКОЕ РАСПРЕДЕЛЕНИЕ / ROC-КРИВАЯ / БИНАРНЫЙ КЛАССИФИКАТОР

Аннотация научной статьи по математике, автор научной работы — Гуськов Сергей Юрьевич, Лёвин Владимир Владимирович

На основе представления полиномиального распределения как условного совместного распределения независимых пуассоновских случайных величин получены доверительные интервалы для эмпирических функций распределения, построенных по группированным данным. Оценки доверительных границ далее применяются при построении доверительных интервалов для ROC-кривых. Указанные оценки могут быть использованы в автоматизированных процедурах контроля качества продукции при обнаружении и идентификации несплошностей, аномалий в структуре конструкционных материалов и их элементов, для повышения надежности и эффективности этих процедур при малых объемах выборок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Confidence interval estimation for quality factors of binary classifiers - ROC curves, AUC for small samples

Polynomial distribution being presented as conditional joint distribution of independent Poisson random variables we build confidence intervals for sum polygons based on grouped data. We then use these estimates to build confidence intervals for ROC curves. These estimations then could be used in automatic defect detection and quality control procedures to find and to identify inhomogeneities and anomalies in structure of constructional materials and their elements for the end to improve robustness and efficiency of these procedures for small samples.

Текст научной работы на тему «Интервальные доверительные оценки для показателей качества бинарных классификаторов - ROC-кривых, AUC для случая малых выборок»

УДК 519.233.24

Интервальные доверительные оценки для показателей качества бинарных классификаторов — ЯОС-кривых, АиС для случая малых выборок

© С.Ю. Гуськов, В.В. Лёвин АО «Банк ЗЕНИТ», Москва, 127566, Россия

На основе представления полиномиального распределения как условного совместного распределения независимых пуассоновских случайных величин получены доверительные интервалы для эмпирических функций распределения, построенных по группированным данным. Оценки доверительных границ далее применяются при построении доверительных интервалов для ЯОС-кривых. Указанные оценки могут быть использованы в автоматизированных процедурах контроля качества продукции при обнаружении и идентификации несплошностей, аномалий в структуре конструкционных материалов и их элементов, для повышения надежности и эффективности этих процедур при малых объемах выборок.

Ключевые слова: доверительные интервалы, эмпирические функции распределения, полиномиальное распределение, пуассоновское распределение, ЯОС-кривая, бинарный классификатор.

Введение. В работе представлен подход к построению доверительных границ для показателей качества бинарных классификаторов — ЯОС-кривых и связанных с ними характеристик (ЛИС, ЛЯ, САР [1, 2]) для случая малых выборок. Предложены оценки доверительных границ для эмпирических функций распределения на основе группированных данных с использованием точных доверительных интервалов для пуассоновского распределения [3-6]. На основе этих оценок построены доверительные границы для ЯОС-кривых и связанных с ними характеристик [7-9].

Оценки показателей качества классификации могут быть использованы в автоматизированных процедурах выявления дефектов, основанных на обработке визуальной информации, которая поступает в ходе неразрушающего контроля (например, в автомобильной промышленности — снимки структуры отливок металла для выпуска автодеталей, полученные с применением компьютерной томографии, и т. п. [10-13]). Основой автоматизированных процедур контроля качества являются алгоритмы, реализующие бинарные классификаторы. По этим алгоритмам определяют наличие или отсутствие дефектов на основе анализа снимков структуры образцов продукции. Использование предлагаемых в статье доверительных оценок для показателей качества (ЯОС-кривых и связанных с ними характери-

стик) позволяет повысить эффективность работы автоматизированных процедур при малых объемах выборок.

ROC-кривая (рис. 1) представляет собой графическую характеристику качества бинарного классификатора — зависимость доли верных положительных классификаций от доли ложных положительных классификаций при варьировании уровня отсечения решающего правила.

Множество классов Y = {-1, +1}. Классификацию «+1» получают объекты, которые по своим характеристикам могут быть отнесены к положительным, а классификацию «-1» — объекты с противоположными характеристиками. В зависимости от содержательной интерпретации задачи к положительным относят объекты, выявление которых необходимо обеспечить в первую очередь. При этом в качестве ошибки I рода рассматривается неверная классификация положительных объектов.

Положительные объекты в медицинской диагностике — это пациенты с симптомами заболевания, которых необходимо выявить на ранней стадии болезни с использованием диагностического теста; в машиностроении при приемочном контроле качества продукции — это дефектные изделия, которые должны быть отсеяны с помощью процедур приемки качества; в банковском деле — клиенты, у которых высок риск невозврата долга и предоставление кредита которым нежелательно.

Далее для определенности положительные объекты будем обозначать как «плохие» (Bad), а отрицательные — как «хорошие» (Good).

0,2 0,4 0,6 0,8

Доля ложных положительных классификаций

1,0

Рис. 1. Примеры различных ЯОС-кривых при наличии (кривая 1) и отсутствии (кривая 2) различающей способности у классификатора

Правило классификации задается в виде функции

а(x) = sign(f (x, w) - wo),

где x — классифицируемый объект; f (x, w) — дискриминантная функция; w — вектор параметров, определяемый по обучающей выборке; w0 — уровень отсечения, 0 < w0 < 1.

Для оценки качества классификаторов рассматривают следующие абсолютные и относительные показатели [1].

Абсолютные показатели качества различения (определяются для заданного уровня отсечения w0):

• TP (True Positives)— верно классифицированные положительные объекты (так называемые истинно положительные случаи);

• TN (True Negatives) — верно классифицированные отрицательные объекты (истинно отрицательные случаи);

• FN (False Negatives) — положительные объекты, классифицированные как отрицательные (ошибка I рода). Это «ложный пропуск» — событие ошибочно не обнаруживается (ложно отрицательные случаи);

• FP (False Positives) — отрицательные объекты, классифицированные как положительные (ошибка II рода). Это «ложное обнаружение», так как при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи).

В таблице приведено разбиение результатов классификации в зависимости от качества объекта (положительный или отрицательный объект) и от принимаемого решения (положительная или отрицательная классификация).

Таблица сопряженности (ошибок)

Модель Фактически

Положительно Отрицательно

Положительно TP FP

Отрицательно FN TN

Относительные показатели качества различения (определяются для заданного уровня отсечения w0):

• TPR (True Positives Rate) — доля истинно положительных случаев,

TP

TPR = ■

TP + FN

• FPR (False Positives Rate) — доля ложно положительных случаев,

FP

FPR =-.

TN + FP

В ряде приложений (медицинская диагностика, различение сигналов в радиотехнике) используют следующие относительные показатели:

• Se (Sensitivity) — чувствительность — доля истинно положительных случаев,

TP

Se = ■ ,

TP + FN

• Sp (Specificity) — специфичность — доля истинно отрицательных случаев, которые были правильно идентифицированы моделью,

TN

Sp = ■

т + FP

Между показателями TPR, FPR и Se, Sp существует следующая связь:

FPR = 1 - Sp; Se = TPR.

Все возможные ЯОС-кривые могут располагаться между ЯОС-кривой, соответствующей отсутствию различающей способности у классификатора (кривая совпадает с графиком функции Y = Х), и ЯОС-кривой, соответствующей идеальному классификатору, безошибочно отличающему «плохих» от «хороших» (совпадает с графиком зависимости Y = 1) (рис. 2).

0,2 0,4 0,6 0,8

Рис. 2. Взаимное расположение ROC-кривых

Количественной характеристикой классификатора является показатель AUC (Area Under Curve), равный площади под ROC-кривой. Возможные значения AUC (в %) варьируются в интервале [0; 100]. Приемлемыми считаются классификаторы с AUC > 70 %.

Обозначим через FB(z) и FG(z) функции распределения соответственно «плохих» (Bad ) и «хороших» (Good ) объектов, непрерывные для 0 < z < 1. Тогда для ROC-кривой справедливо представление

ROC(z) = Fb (z)).

Соответственно для показателя AUC справедливо представление

1

AUC = j TPR (FPR )d (FPR).

0

Поскольку ROC-кривая и показатель AUC определяются по результатам наблюдений, для практического использования получаемых показателей необходимо иметь интервальные доверительные оценки для ROC-кривой и AUC, особенно для случая малых выборок (число наблюдений результатов классификации n = 50...100), когда асимптотические оценки имеют большую погрешность.

Интервальные оценки. Для построения интервальных доверительных оценок функций распределения FG, FB используется группировка наблюдений.

Интервал значений [0; 1] разбивается на N подынтервалов

•1-1 N

J - К J

ajn =

J = 1,2,..., N, У Ajn = A = [0; 1].

J=1

N N _

Функции Fg(в)n (z) (оценки Fb , Fg по группированным данным)

определяются как

FG (в) N

0, z < 0:

1 [Nz ]+1

- 2 jB}, 0 < z < 1,

n J =1

1, z > 1,

где Fg(B)N — функции распределения для «хороших» (Good ) и

«плохих» (Bad ) наблюдений соответственно, построенные по группированным данным; n — количество наблюдаемых данных; N — количество интервалов разбиения отрезка [0; 1].

Здесь vN = (^в), ..., vNN ^) — случайный вектор частот попаданий «хороших» («плохих») наблюдений в соответствующие интервалы. Он имеет полиномиальное распределение M(n; piN,..., pNN):

= кЪ VNN - км) = <

пI

N

11 1 I ^1-М "" Рмм, Е к] - п, к1!'" %! 7=1

0,

N

Е к7ф п

]-1

Известно, что полиномиальное распределение является совместным распределением независимых пуассоновских случайных величин при условии, что их сумма фиксирована. Таким образом, если £ш, ..., £NN — независимые пуассоновские случайные величины, т.

е. р(7-к)- , j = 1, 2, ..., N то

к I

P(V1N -11,...,VмN - kN) - Р

£Ш - k1, ..., £NV -1

N

N

Е£jN -

7-1

п

(1)

где X 7 — параметр пуассоновского распределения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для среднего значения npjM отдельной пуассоновской случайной величины £jN можно указать точный доверительный интервал с уровнем доверия у -1- £, где £ — заданный уровень значимости. Если к — наблюдавшееся значение случайной величины £ jN, имеющей пуассоновское распределение П (npjN), то для среднего значения прр точный доверительный интервал имеет вид

Р \ - X2 £ — пр т —1X2 £ \ -У-1 -£.

'2 2к7 ,2 7 2 2 к] + 2,1-2

Здесь хт,£ — квантиль распределения хи-квадрат с т степенями свободы и уровнем значимости 8.

Таким образом, для неизвестного параметра рN имеем доверительный интервал:

1

1

Р х2 £< рр <—X2 е \-1 -£.

[ 2п 2к, | 2п 2к, +2,1-2 ]

Для независимых £ш, £2N, • £ж, где £р ~ П(пр^), 7 = 1, 2, ..., N, получаем доверительный параллелепипед

Бы(Рш. Рыы)

{Рш. •••.рыы)

Г 1 1 ^

1 2 ^ ^ 1 2

—X2 е< Ры <—X2 е 2п 2к,.2 ^ 2п 2к,+гл-2;

] = 1.2. •••.N

с уровнем доверия уы, равным

Р ^ 2П х2^.| <■ < 2пх2^+2.1-2. ■ =1.2-.ы!

= 11^1РЖ * 2ГХ*. 21 е Ь (1- е)ы• (2)

м 12п 2к, .2

2п 2к, +2.1-2

Здесь к1з k2,•••, кы — наблюдавшиеся значения случайных величин

. • • £>Ж •

Используя связь между полиномиальным и пуассоновским распределением. получаем следующее утверждение^

Утверждение 1. Для полиномиального случайного вектора

= (ы. •••.VNN)~М(п;Р1ы. •••. Рыы). распределение которого является совместным распределением независимых пуассоновских случайных величин при условии. что их сумма фиксирована. с неизвестными Ры. •••. Рыы. множество Бы(Ры. Р2N. •••. Рыы) является точным доверительным множеством с уровнем доверия У1 = 1 - £1 = (1 - е)ы-1 п-пп !еп. где 81 — уровень значимости для множества Бы(ры.Р2N. •••. Рым)•

Доказательство. В силу соотношений (1) и (2)

В = р]2-х2 е< Ры < 2- X 2 21е . ■ = 1. 2. •••. N1

I 2п 2уN.2 2п 2уN +2. 1 --

Р{2-х' е< Ры < :^пх2. е . ■ = 1.2. •••. ы- 1. £ ■ = п 2п 21„.2 2п +2.1-2

N

Р ^ N =

= В*

п:

N

р а % N=п:=

ппе-п

п!

N

так как сумма X независимых пуассоновских случайных вели-

]=1

чин £ N ~ П (пр^) также имеет распределение Пуассона с парамет-

N

ром X прN = п.

]=1

В то же время

/1 NN-1

о* I1 -£] (л NN-1 -п I п

В =—±--^ = (1 -е) п п\е =уь

I N IV/

Р£jN = п !

что и требовалось доказать.

П р и м е ч а н и е 1. Необходимо отметить, что случайный вектор

VN

, ..., , представляет собой гистограмму, построенную по п у п п )

группированным наблюдениям. Таким образом, множество DN (рт, р2 N,..., рж) есть точное доверительное множество для гистограммы, которая является оценкой плотности распределения.

П р и м е ч а н и е 2. Пусть п — число наблюдений, а N — число интервалов группировки. При заданных п, 8, 81 подходящее N можно выбрать по формуле

N ■

1п (1 - е1) + п 1п п - п - 1п (п \)

+ 1.

1п (1 - е)

П р и м е ч а н и е 3. В формуле (2) для каждого р^ можно задать свой уровень значимости е]- и получить соответствующий доверительный интервал для р^ с уровнем доверия у j = 1 - е j,

j = 1, 2, ..., N.

Утверждение 2. Оценки Р^ (г), Рш (г) при N ^^ и п

0<с1 <^<с2 < при некоторых константах с1, с2 являются асимптотически несмещенными и асимптотически состоятельными оценками соответственно для РО ( г), РВ (г).

Доказательство. Математическое ожидание оценок

[№]+1 _ 1 [№]+1 _ ([+1 ^

1 [пг ]+1 1 [пг ]+1

ЕРо (В)N (г) = - £ ) = 1 X прОУ) = Ро (В) п j=l п j=l

и в силу непрерывности функций РО (г) и РВ (г)

N

)

Ро

О (В)

[ N ] +1

Л

N

Р(В)(2) ^

Обозначим Д0NВ ^ = I V ^. тогда

■=1

УагДО/В) = IпР0В)(1-Р^В>)-2 X "РО^РО^,

■=1 1<л</2<

[ыф1 Р0(В)(1- Р0(В)) Уаг Ро(В)ы (2) = I & (1 )

■=1

п

-2 I

1<л <j2 <[ы2]+1

Р0(В) Р0(В)

п

где р0ыВ) = Ро(в) [-М- Ро

0 (в )1ы у го (в) ^ ^

,0( В)

Для оценки Р°ы используют полиномы Бернштейна:

М

Вм ( Ро (В); 2) = I РО(В) ^ СМ^^ (1-2)М"к. 2 е[0; 1].

где М — произвольное натуральное число; СМ — число сочетаний из М по к

Известно. что при М ^^ полиномы ВМ (Ро(В); г) равномерно сходятся по 2 к Ро (В)(г). т е^ справедлива теорема Вейерштрасса о равномерном приближении непрерывной функции полиномами Выберем М = М(Щ так. чтобы

тах |ро(В)(2)- ВМ (РО(В); 2^ <

2е[0; 1] N

Поскольку Вм (Ро(в); 2) — полином. он имеет ограниченную производную по 2 е[0; 1] • Следовательно. оценка

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

■ В) = р0 (В) ( N)- р0 (В) ( ] <

<

ро (в) i n i- вм i ро (в); ■] + вм i р0 (в); n i-

~Вм | РО ( В ); ■ I + ВМ ( РО ( В ); ■ I - Ро ( В ) ( ■

N

N

N

<

<

Fg(5) I N J"Bm (Fg(В); N

+

bm f fg (b);-jj - bm f fg (b );~n~

+

Fg(B) (N J-Bm [Fg(B); N

< c

~N'

n -

+

где с = const.

Отсюда следует оценка

V F ( ) < Pgnb < c [NX 1 c [Nz] +1 VarFg(B)n (z) < x —— < - X N = N—N—

j=i n n j=i N N N

что и требовалось доказать.

Определим верхнюю Fj(b)n (z) и нижнюю FG(b)n (z) граничные функции:

'0, z < 0,

FG(в )N (z) -

1 [Nz] +1

— X x2 e, 0 < z < 1,

2n j-1 2v jNG (B) + 2, 1- |

1, z > 1;

FG(в )N (z) -

1 [Nz ]+1

^ X x2

2n j-1 '"2VjNG (В ),2'

z < 0, 0 < z < 1, z > 1.

Утверждение 3. Функции рО( в ^ (г), Ро( в ^ (г) являются точными доверительными границами для Ро ( в ) n (г) с уровнем доверия у ь Доказательство. Для заданных к1,к2,...,kN случайное событие = к1, = кг,..., = kN} эквивалентно событию {£ш = кь + £2N = = к1 + к2,..., £ш +... + £ да = к1 +... + kN} и, следовательно, их вероятности совпадают, что и требовалось доказать.

П р и м е ч а н и е 4. Функции РОцВз^ составляют доверительную полосу для всей функции РО(В)N (г) с заданным уровнем доверия у 1. При этом, как следует из утверждения 2 об асимптотической состоятельности (при NРО(В)N(г) для оценки истинной функции

распределения РО (В)( г), максимальное расхождение между РО (В) N (г)

0

1

и Fg(b)(z) имеет порядок 1/V. Поэтому для оценки FG(b)(z) доверительным интервалом с уровнем доверия у i является

(FG(B )V (z ) + ± FGL{B )N (z )-V) •

С помощью Fg ( b ) v ( z ) строится оценка

ROCn(z) = Fbn ((¿(z)), а с помощью FqBn — верхняя и нижняя доверительные оценки

ROCn(z) = FGLN ((FBLN)-1(z)); ROCVN(z) = FGVN ((FBVN)-1(z)),

которые составляют доверительную полосу для функции ROC (z ) с заданным уровнем доверия у 1.

Аналогично по оценке ROCN(z) определяется оценка AUCV,

а по ROCVV, ROCN строятся AUCVV, AUCV — верхняя и нижняя границы доверительного интервала для AUC:

1

AUCV(z) = jfGLn ((fBLn)-1(z))dz; 0 1

AUCV (z) = j fGn (( fBn )-1( z) ))•

0

Заключение. В работе для случая малых выборок построены доверительные интервалы для ROC-кривых и показателя AUC с использованием связи полиномиального распределения с условным распределением независимых пуассоновских случайных величин. Указанные доверительные интервалы могут применяться для доверительного оценивания характеристик бинарных классификаторов в автоматизированных процедурах контроля качества продукции в случае малого числа наблюдений, когда асимптотические доверительные интервалы имеют большую погрешность.

Автоматизированные процедуры выявления дефектов и контроля качества продукции повышают уровень качества выпускаемой продукции в связи с сокращением времени обработки, снижением трудозатрат при анализе образцов и уменьшением количества субъективных ошибок по сравнению с «ручным» контролем качества операторами. Предлагаемые в статье доверительные интервальные оценки для показателей качества бинарных классификаторов (ROC, AUC и др.) позволяют повысить надежность и эффективность этих автоматизированных процедур.

ЛИТЕРАТУРА

[1] Engelmann B., Hayden E., Tasche D. Testing rating accuracy. RISK, 2003, vol. 16, pp. 82-86.

[2] Stein R.M. Benchmarking default prediction models pitfalls and remedies in model validation. J. of Risk Model Validation, 2007, vol. 1, no. 1, pp. 77-113.

[3] Большев Л.Н. Сравнение интенсивностей простейших потоков. Теория вероятностей и ее применение, 1962, т. 7, с. 353-355.

[4] Большев Л.Н. О построении доверительных пределов. Теория вероятностей и ее применение, 1965, т. 7, c. 356-358.

[5] Garwood F. Fiducial limits for Poisson distribution. Biometrica, 1936, vol. 28, pp. 437-442.

[6] Stevens W.L. Fiducial limits of the parameter of discontinuous distribution. Biometrica, 1950, vol. 37, pp. 117-129.

[7] Sofus A. Macskassy and Foster Provost, Confidence Bands for ROC Curves: Methods and an Empirical Study. CeDER Working Paper 02-04. Stern School of Business, New York University, Jan. 2004, 15 p.

[8] Jokiel-Rokita A., Pulit M. Nonparametric estimation of the ROC curve based on smoothed empirical distribution functions. Statistical Computing, 2013, vol. 23, pp. 703-712.

[9] Baklizi A. A Simple Method for Finding Emperical Liklihood Type Intervals for the ROC Curve. J. of Modern Applied Statistical Methods, 2007, vol. 6, no. 2, pp. 589-595.

[10] Le Meur Y., Vignolle J.-M., Chanussot J. Practical use of receiver operating characteristic analysis to assess the performances of defect detection algorithms. J.of Electronic Imaging, Society of Photo-optical Instrumentation Engineers (SPIE), 2008, vol. 17, no. 3, p. 10.1117.

[11] Dobrzanski L.A., Krupinski M., Sokolowski J.H. Methodology of automatic quality control of aluminium castings. J. of Achievements in Materials and Manufacturing Engineering, 2007, vol. 20, no. 1-2, pp. 69-78.

[12] Щеголев С.С., Мотков А.В. Комплексный автоматизированный метод выявления дефектов колец подшипников. Интернет-журнал «НАУКОВЕДЕНИЕ», 2014, вып. 4 (23). URL: http://naukovedenie.ru/PDF/ 110TVN414.pdf (дата обращения 25.11.2014).

[13] Иванов В.И., Коновалов Н.Н., Дергачев А.Н. Использование вероятностных методов для оценки эффективности неразрушающего контроля. Технологии техносферной безопасности, 2014, вып. 6 (58). URL: http://agps-2006.narod.ru/ttb/2014-6/15-06-14.ttb.pdf (дата обращения 25.11.2014).

Ссылку на эту статью просим оформлять следующим образом: Гуськов С.Ю., Лёвин В.В. Интервальные доверительные оценки для показателей качества бинарных классификаторов — ROC-кривых, AUC для случая малых выборок. Инженерный журнал: наука и инновации, 2015, вып. 3. URL: http://engjournal.ru/catalog/mesc/idme/1376.html

Статья поступила в редакцию 10.12.2014

Гуськов Сергей Юрьевич родился в 1992 г., окончил НИУ ВШЭ в 2014 г. Экономист АО «Банк ЗЕНИТ». Область научных интересов: применение математических методов в решении экономических задач. e-mail: ser0432@yandex.ru

Лёвин Владимир Владимирович родился в 1951 г., окончил МИЭМ в 1969 г. Канд. физ.-мат. наук, доцент, начальник отдела скоринга АО «Банк ЗЕНИТ». Автор более 50 публикаций. Область научных интересов: предельные теоремы теории вероятностей и их применение в построении оптимальных статистических процедур. e-mail: vladimir.levin.51@mail.ru

CM. rycbKOB, B.B. HeBUH

Confidence interval estimation for quality factors of binary classifiers - ROC curves, AUC for small samples

© S.Yu. Gus'kov, V.V. Lyovin

JSC "Bank ZENITH", Moscow, 127566, Russia

Polynomial distribution being presented as conditional joint distribution of independent Poisson random variables we build confidence intervals for sum polygons based on grouped data. We then use these estimates to build confidence intervals for ROC curves. These estimations then could be used in automatic defect detection and quality control procedures to find and to identify inhomogeneities and anomalies in structure of constructional materials and their elements for the end to improve robustness and efficiency of these procedures for small samples.

Keywords: confidence intervals, sum polygons, connection between polynomial distribution and Poisson distribution, ROC curves, binary classifiers.

REFERENCES

[1] Engelmann B., Hayden E., Tasche D. Testing rating accuracy. RISK, 2003, vol. 16, pp. 82-86.

[2] Stein R.M. Benchmarking default prediction models pitfalls and remedies in model validation. J. of Risk Model Validation, 2007, vol.1, no. 1, pp. 77-113.

[3] Bol'shev L.N. Teoriya veroyatnostey i ee primenenie — Theory of Probability and its Applications, 1962, vol. 7, pp. 353-355.

[4] Bol'shev L.N. Teoriya veroyatnostey i ee primenenie — Theory of Probability and its Applications, 1965, vol. 7, pp. 356-358.

[5] Garwood F. Fiducial limits for Poisson distribution. Biometrica, 1936, vol. 28, pp. 437-442.

[6] Stevens W.L. Fiducial limits of the parameter of discontinuous distribution. Biometrica, 1950, vol. 37, pp. 117-129.

[7] Sofus A. Macskassy and Foster Provost, Confidence Bands for ROC Curves: Methods and an Empirical Study. CeDER Working Paper 02-04. Stern School of Business, New York University, Jan. 2004, 15 p.

[8] Jokiel-Rokita A., Pulit M. Nonparametric estimation of the ROC curve based on smoothed empirical distribution functions. Statistical Computing, 2013, vol. 23, pp. 703-712.

[9] Baklizi A. A Simple Method for Finding Emperical Liklihood Type Intervals for the ROC Curve. J. of Modern Applied Statistical Methods, 2007, vol. 6, no. 2, pp. 589-595.

[10] Le Meur Y., Vignolle J.-M., Chanussot J. Practical use of receiver operating characteristic analysis to assess the performances of defect detection algorithms. J. of Electronic Imaging, Society of Photo-optical Instrumentation Engineers (SPIE), 2008, vol. 17, no. 3, pp.10.1117.

[11] Dobrzanski L.A., Krupinski M., Sokolowski J.H. Methodology of automatic quality control of aluminium castings. J. of Achievements in Materials and Manufacturing Engineering, 2007, vol. 20, no. 1-2, pp. 69-78.

[12] Shchegolev S.S., Motkov A.V. The complex automated method of detection of defects of rings of bearings. On-line journal "Naukovedenie", July-August 2014, issue 4 (23). Available at: http://naukovedenie.ru/PDF/110TVN414.pdf (accessed 25 November 2014).

[13] Ivanov V.I., Konovalov N.N., Dergachev A.N. Tekhnologii tekhnosfernoi bezopasnosti — Technospheric safety technology, 2014, issue 6 (58). Available at: http://agps-2006.narod.ru/ttb/2014-6/15-06-14.ttb.pdf (accessed 25 November 2014).

Gus'kov S.Yu. (b. 1992), economist at JSC "Bank ZENITH". Scientific interests: applying mathematical methods for solving economic problems. e-mail: ser0432@yandex.ru

Lyovin V.V. (b. 1951), Ph.D. (Phys. & Math.), associate professor, head of the Scoring Department of JSC "Bank ZENITH". Scientific interests: limiting theorems of probability theory and application of these for developing optimal statistical procedures. e-mail: vladimir.levin.51@mail.ru; v.levin@zenit.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.