ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2017
Управление, вычислительная техника и информатика
№ 40
УДК 519.237:519.233 DOI: 10.17223/19988605/40/6
А.Н. Тырсин, К.К. Костин ОЦЕНИВАНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ КАК ЭКСТРЕМАЛЬНАЯ ЗАДАЧА
Работа выполнена при финансовой поддержке РФФИ № 16-06-00048.
Рассматриваются особенности оценивания логистической регрессии как экстремальной задачи, реализующей критерий максимального правдоподобия. Показано, что эта задача имеет существенные отличия по сравнению с поиском локального экстремума. Описан устойчивый алгоритм вычисления коэффициентов разделяющего уравнения логистической регрессии. Приведены результаты статистического моделирования сравнительного анализа оценок логистической регрессии предложенного алгоритма с известными алгоритмами. Ключевые слова: логистическая регрессия; метод максимального правдоподобия; алгоритм спуска; случайный поиск; модель; целевая функция.
Логистическая регрессия является одним из распространенных методов классификации данных в разных областях [1. С. 181-242; 2. С. 283-369; 3. С. 152-214; 4. С. 321-329].
Основная цель логистической регрессии состоит в разделении множества исходных значений линейной границей (разделяющей прямой, плоскостью или гиперплоскостью) на две соответствующих двум заданным классам области. Логистическая регрессия прогнозирует вероятность некоторого события, находящуюся в пределах от 0 до 1 [4. С. 322-324]. Следует указать, что число классов L может быть больше двух, в этом случае они имеют мультиномиальную регрессию, которую можно построить с помощью L — 1 независимых логистических регрессий. Поэтому будем рассматривать задачу классификации с двумя классами.
В настоящее время построение логистической регрессии обычно осуществляют в виде оптимизационной задачи, реализующей критерий максимального правдоподобия [5. С. 124]. Ряд авторов [6. С. 31-32; 7] предлагают оценивать коэффициенты разделяющего уравнения методом Ньютона-Рафсона. Однако исследования на модельных данных этого и других алгоритмов оценивания логистической регрессии, реализованных в статистических пакетах STATISTICA и SPSS, показали неустойчивость оценок. Этот недостаток отмечается также в [7].
Цель статьи - исследование особенностей процедуры оценивания логистической регрессии как экстремальной задачи, а также разработка устойчивого алгоритма вычисления коэффициентов разделяющего уравнения.
1. Построение логистической регрессии по критерию максимального правдоподобия
Пусть имется выборка прецедентов (обучающая выборка):
(x i, y), i = 1,2,..., n ,
f *л Л
i1
где xi =
x, f 1 Л
V Xim J
V Xim J
- вектор значений i-го объекта, Vi xi1 = 1; X =
x1
T
x 2 =
T
, X n
M2
1 x2
V 1 xn2
1m
(1)
Л
у7 е {— 1; 1} - бинарная переменная, указывающая на принадлежность 7-го объекта соответствующему классу, например, для определенности первому классу при у7 = — 1 и второму - при у7 = 1; М = т — 1 -число признаков у каждого объекта; п - количество наблюдений.
x
x
x
i 2
i 2
x
nm
Классификацию осуществляют с помощью функции h(x) =-1—-—, принимающей значе-
1 + exp{-b1 x}
ния в интервале (0; 1). Пороговым значением является h(x) = 0,5 . В [6. С. 29-32] показано, что максимизация логарифма правдоподобия эквивалентна минимизации функционала
Q(b) = Y ln(l + е-ybXi ) ^ min , (2)
где b T = (b1 b2 ... bm) - искомый вектор коэффициентов разделяющей линейной границы, описываемой в общем случае уравнением гиперплоскости
m
bi +Y bjXj =
j=2
Аналитически задача минимизации (2) не решается. Поэтому для оценивания вектора коэффициентов b используют итерационные алгоритмы спуска для решения экстремальных задач. В [6. С. 32-34] описан итерационный алгоритм Ньютона-Рафсона решения задачи (2). Он состоит в следующем.
В качестве нулевого приближения можно взять решение задачи классификации методом многомерной линейной регрессии
b(0) = (X1 X)-1(XT Y). (3)
Затем начинается итерационный процесс, на k-м шаге которого уточняется вектор коэффициентов b(k):
b(k) = b(k-1) -hk(Q"(b(k-1)))-1 Q'(b(k-1)), где Q'(b(k)) - вектор первых производных (градиент) функционала Q(b) в точке b(k); Q''(b(k)) - матрица вторых производных (гессиан) функционала Q(b) в точке b(k); hk - величина шага, который можно положить равным 1, но его подбор на каждом шаге способен увеличить скорость сходимости. Метод Ньютона-Рафсона описан в ряде учебников по методам оптимизации, например в [8. С. 223-226].
Статистическое моделирование методом Монте-Карло [9] показало неустойчивость в некоторых случаях работы этого алгоритма, а также других алгоритмов, реализованных в статистических пакетах. Отметим основные причины этого.
В итерационных алгоритмах поиска минимума требуется задать начальное приближение вектора b(0). Плохое начальное приближение, значительно отличающееся от точки локального минимума, может значительно ухудшить условия сходимости итерационного алгоритма. В результате статистического моделирования выяснилось, что использование в качестве начального приближения b(0) решения задачи классификации в виде линейной регрессии часто дает неудовлетворительный результат. Покажем это на примере.
fx ^
Пример 1. Сгенерируем выборку прецедентов (x i, yi), x i =
i1
V xi3 J
f 1 ^
V xi3 J
i = 1, 2,..., n, следую-
щим образом. Объем выборки п = 100, число признаков М = 2, первая половина выборки (1 = 1,2, ... ,50) относится к первому классу (у{ =-1), а вторая - ко второму классу (у{ = 1). Пусть в каждом классе признаки являются взаимно независимыми гауссовскими случайными величинами. Это означает, что первый и второй классы представляют собой случайные выборки из двумерных гауссов-
ских случайных векторов X(1) = (X2(1), X3(1)) и X(2) = (X22), X3(2)) соответственно. Зададим у всех компонент одно и то же среднее квадратическое отклонение сX = 1,5 и математические ожидания:
М[X21}] = 10, М[X3(1)] = 16 , М[X22)] = 4 , М[X3(2)] = 4 . На рисунке 1 приведен результат классификации с помощью метода наименьших квадратов на основе (3). Разделяющая прямая не только не классифицирует выборку прецедентов на два класса, но и значительно удалена от всех объектов. Хотя классы в этом примере легкоразделимы. Такое неудачное начальное приближение значительно затрудняет работу итерационных алгоритмов решения задачи (2).
Xi 2
Xi 2
Вторая причина неустойчивости решений задачи (2) состоит в том, что итерационные алгоритмы спуска рассчитаны на поиск локального минимума. А задача (2) при корректной классификации всех прецедентов имеет нижнюю грань на бесконечности, равную нулю. Причем качество построения разделяющей границы при формальном спуске уже не будет связано со значением целевой функции 2(Ь). Поэтому требуется корректировка стратегии спуска.
Третья причина состоит в том, что при достаточно малых значениях целевой функции Q(b) некоторые величины - у 7 Ьт х 7 могут принимать очень большие значения, что приводит к неустранимым вычислительным погрешностям и даже к останову работы алгоритма из-за переполнения памяти.
А"з 20
ю
ю
-20
-30
-40
50
-60
-70
-80
•• * • * и. X* *
V* * *
10
12
14 х2
Рис. 1. Пример построения разделяющей границы с помощью линейной регрессии
Таким образом, приведенные недостатки непосредственного использования итерационных алгоритмов спуска требуют исследования особенностей задачи (2).
2. Исследование целевой функции задачи оценивания коэффициентов разделяющей границы по критерию максимального правдоподобия
Исследуем свойства целевой функции Q(b). Рассмотрим вначале произвольное 7-е слагаемое целевой функции Q(b), т.е. функцию
(Ь) = 1п(1 + е-уЬ х ) = 1п
1 + ехр]- у 7 £ Ьк
к=1
Найдем ее частные производные:
дz¡
У 7 Х7к е
дЬк
1 + е-
к = 1, 2, ..., т .
уЬТ х
& .
Так как все частные производные непрерывно дифференцируемы и —- Ф 0 , то функция 21 (Ь) не имеет
дЪх
стационарных точек, а значит, у нее нет экстремумов.
а2 2
Далее найдем вторые производные
Ъ дЪ}
. Они равны
д 2 2. дЪкдЪ]
■ = У ] ХгкХг,иг (Ь) , к, - = I 2 - • , т ,
где и. (Ь) = -
(1 + е~УЬ х )2
Поскольку все вторые производные всюду непрерывны, то
■> 0.
д 2 2.
д 2 2.
дЪк дЪ- дЪ- дЪк
. Исследуем функцию
2.(Ь) на выпуклость. Ее гессиан равен
Н (2.) = (^ (Ь)), (Ь) =
д 2 2. дЪкдЪ]
= УIХгкХуиг (Ь), к, ] = 1,2, - , т .
Воспользуемся критерием Сильвестра [10. С. 507]. Определим главные миноры А1, А2,..., Ат гессиана Н(2г). Поскольку хг1 = 1, у2 = 1, то А1 = уг2хЦиг (Ь) = иг (Ь) > 0. Можно показать, что все остальные главные миноры
Ак =(и г (Ь))к
1
= 0 , к = 2, 3,
т.
Получили, что квадратичная форма относительно переменных Нх, Н2,..., Нт
тт
Ф(НХ, Н2, - , Нт ) = (Ь)^к^у
к=1 ] =1
является неотрицательно определенной. Это означает выпуклость функции 2 г (Ь) на Ят .
Перейдем теперь к рассмотрению функции 2(Ь). Она является суммой п собственных выпуклых функций 2. (Ь), следовательно, Q(Ь) также выпукла [11. С. 49]. Найдем частные производные функции 0(Ь):
дQ ^ У гХгке ~У ^"
дЪ,
•, к = 1, 2, ., т .
=1 1 + е-
Все частные производные всюду на Ят непрерывно дифференцируемы, поэтому экстремумы функции Q(Ь) могут быть только в стационарных точках, в которых градиент равен нулю, т.е.
I
УгХгке
= 0, к = 1,2,..., т .
(4)
=1 1 + е~
Система нелинейных уравнений (4) имеет достаточно сложный вид, установить ее несовместность или найти решения аналитически не представляется возможным. Однако удалось подобрать примеры, когда система (4) имеет решения. Это означает, что целевая функция Q(b) может иметь стационарные точки, а значит, ввиду ее выпуклости может иметь локальные минимумы, не являющиеся глобальным минимумом.
д ^
Найдем вторые производные
дЪк дЪ-
. С учетом того, что V. уг- = 1, они равны
у.Ь X/
е
Х 1Х 2
Х 1Х к
Х 2Х 1
Х
Х 2Х к
2
Х кХ 1 Х кХ 2
Х
у. ЬТ X
уЬ х
а2 г
8Ьк дЪ] г =1
Так как все вторые производные всюду непрерывны, то
= Ё Х гкХ уи г (Ь) , к, - = I 2 • • • , т •
а 2в = а2 в
аък аъ; аъ; аък
• Гессиан функции в(Ь) равен
н (в) = (в- (Ь)), в- (Ь) =
а2 г.
аЪк аЪ1 г=1
= Ё ХгкХг-иг (Ь) , к, - = 1, 2, • • • , т •
Опять воспользуемся критерием Сильвестра и определим главные миноры А1, А2, •.., Ат гессиа-
п п
на Н(в). Поскольку хг1 = 1, то А1 = Ё Хг2иг (Ь) = ЁР (Ь) > 0 как сумма строго положительных чисел.
=1 =1
Остальные главные миноры с учетом выпуклости в(Ь) равны
Ёи (Ь) ЁХцУ > (Ь) • ЁХгРг (Ь)
Ак =
г=1
г=1
г=1
Ё Хг2 и г (Ь) Ё Х ¿Р (Ь)
г=1
г=1
Ё ХгР г (Ь) Ё ХгкХгР г (Ь)
Ё Хг2Хгкиг (Ь)
г=1
ЁЁХ2кРг (Ь)
> 0, к = 2, 3,
т •
Рассмотрим частные случаи.
Пусть т = 2, п = 2 . После преобразований получим А2 = (Х12 - Х22)2 и1 (Ь)и2 (Ь) > 0 .
п-1 п
Пусть т = 2, п = 3 . После преобразований получим А2 = Ё Ё (Хц - Х-2 )2 и г (Ь)и; (Ь) > 0.
г=1 -=г+1
Таким образом, квадратичная форма в случае нескольких наблюдений может быть положительно определенной или неотрицательно определенной. Это означает, что функция в(Ь):
" т» т
- является выпуклой на К и не имеет максимумов;
- может иметь стационарные точки, в которых могут быть локальные минимумы.
Поскольку равенство нулю главных миноров будет только в некоторых точках, например в вырожденных случаях равенства всех измерений, то функция в(Ь) может оказаться в окрестности стационарной точки строго выпуклой. Это означает, что в такой стационарной точке у функции в(Ь) будет локальный минимум. Из этого можно сделать выводы.
Использование численных методов спуска первого или второго порядков при наличии у целевой функции стационарных точек может привести к неправильному построению логистической регрессии по двум причинам. Во-первых, можно в качестве решения получить локальный минимум, который будет грубой оценкой коэффициентов уравнения логистической регрессии. Во-вторых, спуск может стремиться к нижней грани целевой функции, а вектор коэффициентов логистической регрессии будет оставаться грубым решением.
3. Устойчивый алгоритм вычисления коэффициентов разделяющего уравнения логистической регрессии
Имеем выборку прецедентов (1), в которой первые N объектов относятся к первому классу (у г = -1), а остальные - ко второму классу (у г = 1).
С учетом вышеизложенного приведем описание алгоритма. Он состоит в следующем.
1. Найдем середину х(0) отрезка, соединяющего центры тяжести первого и второго классов
-(1) _
1
= —Ё Хг ,
N г=1г
хг , х(2) =-
1
Ё х
п - N г= N +1
2. Осуществляем параллельный сдвиг начала координат в точку х(0).
г=1
г=1
г=1
3. Через точку x(0) строим гиперплоскость S : s1 + s2x2 +... + smxm = 0, ортогональную вектору
'22
= X (2) _ X (j)
6 = Х^ - Х^ .
4. Получаем начальную оценку Ь(0) вектора разделяющей гиперплоскости как Ь(0) = 8 /| 8|, где 8 -вектор коэффициентов гиперплоскости 5". При этом длина Ь(0) = 1. Зададим параметр р 0 = 1.
5. С помощью итерационного алгоритма ищем с заданной точностью в решение задачи (2). На любом к-м шаге алгоритма, многократно генерируя случайный вектор р®, решаем задачу
^(Ь(к,г)) ^ т 1П ,
h(i >CR m
b(kJ ) = a(b(kl _j) + hk p(l ))
(k ,i )
= P k _j, b(k ,j) = b
k
(k ,1) = b (k _1)
Если требуемая точность решения будет достигнута (Q(b(k,l)) <в), то в качестве решения задачи
используем последнюю оценку b(k,l). В противном случае фиксируем последнюю оценку b(k) = b(k,l), увеличиваем длину векторов оценок, т.е. Pk = у-Pk_1, где у > 1 - коэффициент растяжения и возвращаемся к п. 5 (k := k +1).
Следует отметить, что слишком малое значение параметра точности s может привести к большим длинам оценок векторов b(k,l) и, как указано выше, к потере точности алгоритма.
4. Вычислительные эксперименты
Проведем с помощью метода статистических испытаний Монте-Карло несколько экспериментов для исследования эффективности предложенного алгоритма по сравнению с алгоритмом «QuasiNewton», реализованным в статистическом пакете STATISTICA. Он показал наилучшие результаты оценивания среди алгоритмов логистической регрессии в STATISTICA.
Число опытов L = 200 . Выборка прецедентов имеет тот же вид, что и в примере 1, различия заключаются в объемах выборок первого N1 и второго N2 классов ( N1 + N2 = n ) и математических ожиданиях M[X21) ], M[X3(1) ], M[X22) ], M[X3(2) ]. Поскольку с точностью до постоянного множителя векторов коэффициентов b может быть бесконечное множество, то для удобства сравнения результаты оценивания будем задавать в нормированном виде с единичной длиной.
Пример 2. Рассмотрим случай одинаковых объемов выборок в классах. Зададим N1 = N2 = 20. Результаты оценивания коэффициентов логистической регрессии по предложенному алгоритму и алгоритму «Quasi-Newton» в пакете STATISTICA приведены в табл. 1.
Т а б л и ц а 1
Результаты оценивания логистической регрессии по предложенному алгоритму и алгоритму «Quasi-Newton»
в пакете STATISTICA для случая Ni = N2 = 20
Матожидания признаков Параметр Предложенный алгоритм Алгоритм «Quasi-Newton»
b1 b2 b3 b1 b2 b3
M[ X f] = 6, M[ X 3(1)] = 3, M[ x 22)] = _6, M[ X 3(2)] = _3 Pj 0,00000 -0,89443 -0,44721 0,00000 -0,89443 -0,44721
bj -0,00925 -0,88467 -0,46612 -0,13761 -0,78647 -0,28092
s(bj) 0,26070 0,10410 0,13367 0,47889 0,21434 0,29080
Abj -0,00925 0,00975 -0,01891 -0,13761 0,10795 0,16629
M[ X f] = 16, M[ X 3(1)] = 13, M[ X 22)] = 4, M[ X 3(2)] = 7 Pj 0,99723 -0,06648 -0,03324 0,99723 -0,06648 -0,03324
bj 0,99721 -0,06691 -0,03297 0,99701 -0,04299 -0,05718
s(bj) 0,00047 0,00958 0,00923 0,00063 0,03115 0,03347
Abj -0,00002 -0,00042 0,00027 -0,00023 0,02350 -0,02394
Матожидания Параметр Предложенный алгоритм Алгоритм «Quasi-Newton»
признаков b1 b2 b3 b1 b2 b3
M[ X f] = 26, Pj 0,99931 -0,03331 -0,01666 0,99931 -0,03331 -0,01666
M[Xf] = 23 , bj 0,99930 -0,03345 -0,01648 0,99917 -0,03187 -0,01801
M[ X 22)] = 14, s(bj) 0,00009 0,00428 0,00429 0,00060 0,01393 0,01250
M[ X 3(2)] = 17 Abj 0,00000 -0,00014 0,00018 -0,00014 0,00144 -0,00135
Пример 3. Рассмотрим случай разных объемов выборок в классах. Зададим N1 = 20, N2 = 40 . Результаты оценивания коэффициентов логистической регрессии по предложенному алгоритму и алгоритму «Quasi-Newton» в пакете STATISTICA приведены в табл. 2.
Т а б л и ц а 2
Результаты оценивания логистической регрессии по предложенному алгоритму и алгоритму «Quasi-Newton»
в пакете STATISTICA для случая N = 20, N2 = 40
Матожидания признаков Параметр Предложенный алгоритм Алгоритм «Quasi-Newton»
b1 b2 b3 b1 b2 b3
M[ X f] = 6, M[ X f] = 3, M[ x 22)] = -6, M[ X 3(2)] = -3 Pj 0,00000 -0,89443 -0,44721 0,00000 -0,89443 -0,44721
bj 0,09740 -0,89644 -0,43234 -0,10119 -0,73443 -0,18157
s(bj) 0,25587 0,08658 0,14076 0,55009 0,27014 0,41928
Abj 0,09740 -0,00201 0,01488 -0,10119 0,15999 0,26565
M[ X f] = 16, M[ X 3(1)] = 13, M[ X 22)] = 4, M[ X 3(2)] = 7 Pj 0,99723 -0,06648 -0,03324 0,99723 -0,06648 -0,03324
bj 0,99724 -0,06699 -0,03194 0,99702 -0,03436 -0,06328
s(bj) 0,00035 0,00852 0,00881 0,00068 0,03844 0,03698
Abj 0,00001 -0,00051 0,00130 -0,00022 0,03213 -0,03004
M[ X f] = 26, M[Xf] = 23 , M[ X 22)] = 14, M[ X 3(2)] = 17 Pj 0,99931 -0,03331 -0,01666 0,99931 -0,03331 -0,01666
bj 0,99931 -0,03303 -0,01676 0,99894 -0,02170 -0,02813
s(bj) 0,00010 0,00499 0,00493 0,00090 0,02441 0,02436
Abj 0,00001 0,00028 -0,00011 -0,00037 0,01161 -0,01148
В таблицах 1 и 2 приняты следующие обозначения: - теоретические значения коэффициентов логистической регрессии; Ь■ - средние значения оценок коэффициентов логистической регрессии;
5(Ь;) - средние квадратические значения ошибок оценок коэффициентов логистической регрессии; АЬ;- -средние значения ошибок оценок коэффициентов логистической регрессии.
Анализ таблиц показывает, что предложенный алгоритм значительно выигрывает по сравнению с известным.
Заключение
Исследования показали вычислительную неустойчивость алгоритмов оценивания логистической регрессии, реализующих критерий максимального правдоподобия. С целью повышения точности оценок предложен новый итерационный алгоритм. Он включает последовательность задач минимизации нулевого порядка на основе случайного поиска. На каждом к-м шаге длина вектора коэффициентов Ь(к) является фиксированной. Ее постепенно увеличивают до достижения целевой функцией требуемого значения. Результаты статистического моделирования показали более высокую точность оценок логистической регрессии предложенного алгоритма по сравнению с известными.
ЛИТЕРАТУРА
1. Azen R., Walker C.M. Categorical Data Analysis for the Behavioral and Social Sciences. Routledge, 2011. 283 p.
2. Lachin J.M. Biostatistical Methods: the Assessment of Relative Risks. 2nd edition. Wiley, 2011. 644 p.
3. Shoukri M.M., Pause C.A. Statistical Methods for Health Sciences. 2nd edition. CRC Press, 1999. 390 p.
4. Магнус Я.Р., Катышев П.К., Пересецкий А. А. Эконометрика. Начальный курс. 6-е изд., перераб. и доп. М. : Дело, 2004. 576 с.
5. Мятлев В. Д., Панченко Л.А., Ризниченко Г.Ю., Терехин А.Т. Теория вероятностей и математическая статистика. Математи-
ческие модели. М. : Академия, 2009. 320 с.
6. Воронцов К.В. Лекции по алгоритмам восстановления регрессии. 2007. 37 с. URL: http://www.ccas.ru/voron/ down-
load/Regression.pdf (дата обращения: 15.03.2016).
7. Васильев Н.П., Егоров А. А. Опыт расчета параметров логистической регрессии методом Ньютона-Рафсона для оценки зи-
мостойкости растений // Математическая биология и биоинформатика. 2011. Т. 6, № 2. С. 190-199. URL: http://www.matbio.org/article_pdf.php?id=82 (дата обращения: 15.03.2016)
8. Пантелеев А.В., Летова Т.А. Методы оптимизации в примерах и задачах. 2-е изд., испр. М. : Высшая школа, 2005. 544 с.
9. Бусленко Н.П., Шрейдер Ю.А. Метод статистических испытаний (Монте-Карло) и его реализация на цифровых вычисли-
тельных машинах. М. : ФИЗМАТЛИТ, 1961. 226 с.
10. Ильин В.А., Садовничий В.А., Сендов Бл.Х. Математический анализ. Начальный курс. 2-е изд., перераб. М. : Изд-во МГУ, 1985. 662 с.
11. Рокафеллар Р. Выпуклый анализ : пер. с англ. М. : Мир, 1973. 472 с. Тырсин Александр Николаевич, д-р техн. наук. E-mail: [email protected]
Уральский федеральный университет имени первого Президента России Б.Н. Ельцина (г. Екатеринбург) Костин Кирилл Константинович. E-mail: [email protected]
Южно-Уральский государственный университет (национальный исследовательский университет) (г. Челябинск)
Поступила в редакцию 13 марта 2017 г.
Tyrsin Alexander N., Kostin Kirill K. (Ural Federal University named after the first President of Russia B.N. Yeltsin, South Ural State
University (National Research University), Russian Federation).
Consideration of estimation of logistic regression as an optimization problem.
Keywords: logistic regression; the maximum likelihood method; the algorithm of descent; random search; model; objective function. DOI: 10.17223/19988605/40/6
The logistic regression is one of the common methods of data classification in various spheres. The main goal of logistic regression is a separation of multiple input values with a linear boundary (a dividing line, plane or hyperplane) on two classes corresponding to two given region. Logistic regression predicts the probability of some events that are in the range from 0 to 1. Should indicate that the L classes can be more than two, in this case we have a multinomial regression. It can be built using L — 1 independent logistic regressions.
The research of an estimation algorithm logistic regression on model data implemented in statistical packages, showed instability of the estimates.
The goal of this article is research of the features of the procedure of estimation of logistic regression as an extreme problem, as well as the development of a stable algorithm of computing the coefficients of the separating equation.
n I T \
Nowadays the logistic regression is usually built as an optimization problem 2(b) = V ln 11 + e—y,b x I —» min that implements the
V ' beR"
criterion of maximum likelihood. In this article the features of estimation of logistic regression are considered as an optimization problem. There is shown that this problem has significant differences compared to the search of a local extremum.
There are investigated causes of the instability of estimates of the logistic regression. It is shown that using b(0) as initial approximation for the solve of the classification task as a linear regression often yields unsatisfactory results. The second reason for the instability of estimates of maximum likelihood is that the iterative descent algorithms are designed to find a local minimum. The target function with the correct classification of all precedents has zero as the lower bound at infinity. Moreover the quality of the building of the dividing line in the formal descent wouldn't be associated with the value of the objective function Q(b). So adjust of the strategy of the descent is needed. The third reason is that the some values, for example, y bT хг- can be very large when the value of objective function
Q(b) is small. It leads to fatal errors for computing and even can stop the operation of the algorithm due to memory overflow.
The stable algorithm for calculating the coefficients of the separating equation of the logistic regression is described. As initial approximation a hyperplane is used. The hyperplane is orthogonal to the segment connecting the centers of gravity of classes, and is passed through the middle of this segment. The iterative algorithm involves a sequence of problems of minimizing zero-order based on a random search. At each k -th step the length of the vector of coefficients b(k) is fixed. It is gradually increased until the objective function achieves the required value.
The results of statistical modeling of comparative analysis of estimation of logistic regression with the existing algorithm are given.
REFERENCES
I. Azen, R. & Walker, C.M. (2011) Categorical Data Analysis for the Behavioral and Social Sciences. Routledge. 2 Lachin, J.M. (2011) Biostatistical Methods: The Assessment of Relative Risks. 2nd ed. Wiley.
3. Shoukri, M.M. & Pause, C.A. (1999) Statistical Methods for Health Sciences. 2nd ed. CRC Press.
4. Magnus, Ja.R., Katyshev, P.K. & Pereseckij, A.A. (2004) Ekonometrika. Nachal'nyy kurs [Econometrics. The Starting Course]. 6th ed.
Moscow: Delo. (In Russian).
5. Myatlev, V.D., Panchenko, L.A., Riznichenko, G.Yu. & Terekhin, A.T. (2009) Teoriya veroyatnostey i matematicheskaya statistika.
Matemati-cheskie modeli [Probability theory and mathematical statistics. Mathematical models]. Moscow: Akademiya.
6. Vorontsov, K.V. (2007) Lektsii po algoritmam vosstanovleniya regressii [Lectures about the recovery algorithms regression].
[Online] Available from: http://www.ccas.ru/voron/download/Regression.pdf.
7. Vasiliev, N.P. & Egorov A.A. (2011) Experience of logistic regression parameters calculation by Newton-Rafson method to estima-
tion resistance to cold of plants. Matematicheskaya biologiya i bioinformatika - Mathematical Biology and Bioinformatics. 6(2). pp. 190-199. (In Russian).
8. Panteleev, A.V. & Letova, T.A. (2005) Metody optimizatsii v primerakh i zadachakh [Optimization methods in examples and prob-
lems]. 2nd ed. Moscow: Vysshaya shkola.
9. Buslenko, N.P. & Shreider Yu.A. (1961) Metod statisticheskikh ispytaniy (Monte-Karlo) i ego realizatsiya na tsifrovykh vychislit-
el'nykh mashinakh [The method of statistical trials (Monte-Carlo) and its implementation on digital computers]. Moscow: FIZ-MATLIT.
10. Ilyin, V.A., Sadovnichiy, V.A. & Sendov, Bl.H. (1985) Matematicheskiy analiz. Nachal'nyy kurs [Mathematical analysis. The starting Course]. 2nd ed. Moscow: Moscow State University.
II. Rockafellar, R.T. (1970) Vypuklyy analiz [Convex Analysis]. Translated from English by A. Ioffe, V. Tikhomirov. Princeton: Princeton University Press.