2016
октябрь-декабрь
№ 4 (33)
ТЕХНИЧЕСКИЕ НАУКИ
УДК 519.237.5
МАКСИМАЛЬНО ПРАВДОПОДОБНОЕ ОЦЕНИВАНИЕ НЕЛИНЕЙНЫХ РЕГРЕССИОННЫХ МОДЕЛЕЙ С ОШИБКОЙ БЕРКСОНА
А.Ю. Тимофеева
Новосибирский государственный технический университет
В экспериментах, направленных на выявление и оценку зависимости между переменными, неизбежны ошибки измерения. Ошибки Берксона искажают значения объясняющей переменной уже после ее измерения в процессе ее воздействия на отклик. В случае нелинейной зависимости наличие таких ошибок приводит к смещению классических оценок регрессии. В работе рассмотрены известные методы, направленные на устранение смещения: итерационный взвешенный метод наименьших квадратов, разработанный специально для оценки полиномиальных зависимостей, и метод минимального расстояния. Автором предложен собственный метод, основанный на максимально правдоподобном оценивании с использованием аппроксимации радиальными сплайнами заданной нелинейной функции, описывающей зависимость. Сравнение этого метода с известными подходами в ходе вычислительных экспериментов показало, что он в разы превосходит по точности оценивания метод минимального расстояния. При этом он сопоставим по точности с итерационным взвешенным методом наименьших квадратов, однако обладает тем преимуществом, что применим для оценивания не только полиномов, а любых нелинейных регрессий. Предложенный метод использован в задаче анализа показателей деятельности вузов. Для иллюстрации выбрана зависимость между уровнем безработицы населения и долей трудоустроенных выпускников вузов. Наличие ошибки Берксона объясняется тем, что информация об объясняющей переменной представлена только в среднем по региону, в то время как при воздействии на выпускников вуза имеют место индивидуальные отклонения. Оценка полиномиальной регрессии показала, что при высоком уровне безработицы в регионе пороговое значение показателя трудоустройства недостижимо и должно быть скорректировано.
Ключевые слова: модель с ошибками в переменных, ошибка Берксона, нелинейная регрессия, максимально правдоподобное оценивание, итерационный взвешенный метод наименьших квадратов, метод минимального расстояния, показатель деятельности вузов.
Б01: 10.17212/1727-2769-2016-4-88-98
Введение и постановка проблемы
Часто в научных исследованиях возникает задача восстановления некоторой, в общем случае нелинейной, зависимости между изучаемыми переменными по наблюдаемым данным. Предполагается, что в точности функциональную зависимость наблюдать мы не можем в силу погрешностей измерения выходной переменной . Поэтому дело приходится иметь со следующей моделью:
где g (Х{; 6) - некоторая функция входной переменной Х{, определенная с точностью до вектора неизвестных параметров 6 , / = 1,...,п , п - число наблюдений. В классической регрессионной постановке значения входной переменной являются, как правило, управляемыми и точно измеренными без погрешностей.
Исследование выполнено при финансовой поддержке Совета по грантам Президента РФ для государственной поддержки молодых российских ученых, проект МК-5385.2016.6.
ъ = g (X; 6) + 8г,
(1)
© 2016 А.Ю. Тимофеева
В отличие от этого модели с ошибками в переменных предполагают наличие некоторых погрешностей в измерении не только отклика, но и входных факторов. В зависимости от того, какого рода эти погрешности, разделяют модели с классической ошибкой и с ошибкой Берксона [1].
Случай с ошибкой Берксона [2] предполагает, что исследователь в активном эксперименте может устанавливать величину входной переменной Z,, но при воздействии на отклик эта величина искажается из-за случайной погрешности 5i, следовательно, истинные значения входной переменной определяются как
X = Z +5г . (2)
Переменная Z, часто называется суррогатной переменной (или прокси). Здесь будем считать Z, детерминированной величиной.
Такие модели находят широкое применение в эпидемиологии [3], где чаще всего встречаются схемы активно-пассивного эксперимента. При выявлении характера зависимости тяжести некоторого заболевания (например, легких) Yi среди жителей города от степени загрязнения (например, воздуха) фактическое содержание вредных веществ не может быть измерено точно для каждого объекта (индивида), но известно их среднее содержание в некотором регионе (области). Это и будет суррогатная переменная. При этом истинное содержание X, вредных веществ отклоняется от величины Z, на некоторую погрешность.
Задача состоит в оценивании вектора неизвестных параметров 6 по имеющимся значениям суррогатной переменной Z, и наблюдаемым в ходе эксперимента реализациям у, случайных величин Yi, i = 1,...,n , в предположении, что имеет место модель (1)-(2).
В модели дополнительно предполагаются нулевые математические ожидания ошибок (погрешности компенсируются), тогда средние значения суррогатной и истинной переменной совпадают. Кроме того допускается отсутствие корреляции между ei и 5i, т. е. погрешности приборов, измеряющих входные и выходные факторы, не взаимосвязаны. Испытания предполагаются независимыми, в силу чего независимы и ошибки в разных экспериментах. Кроме того предполагается конечная дисперсия ошибок. Обобщим предположения относительно ошибок:
E(6,) = E(5,) = 0, D^) = cts2, D^.) = ст§, Vi,
(3)
соу(8,- , 6 j) = соу(5,- , 5 j) = 0 , Vi Ф j , cov(ei, 5 j) = 0 , Vi, j .
И еще одно предположение о нормальности распределения ошибок вводится для упрощения процедуры оценивания параметров и статистических выводов.
Известно, что в линейном случае оценивание модели (1)-(3) можно проводить методом наименьших квадратов (МНК), что не приводит к смещению оценок. В нелинейном случае при использовании МНК возникает систематическое смещение, поэтому предложены специальные методы оценивания.
1. Обзор методов оценивания нелинейной модели с ошибкой Берксона
Методы оценивания нелинейной модели с ошибкой Берксона получили развитие относительно недавно. Обзор подходов можно найти в монографии [3], где предложен аппроксимационный метод, названный калибровкой регрессии (regression calibration). Суть метода заключается в замене ненаблюдаемой переменной Xi ее математическим ожиданием при заданном Zi . Вычисление такого
математического ожидания требует построения регрессии, что в силу латентно-сти Xj возможно только при наличии дополнительной информации. В качестве такой дополнительной информации может быть использована инструментальная переменная. Непараметрический подход к оцениванию моделей с ошибкой Берк-сона на основе инструментальных переменных предложен в [4]. Однако инструментальные переменные не всегда доступны и порой их очень сложно подобрать, а сбор дополнительной информации в виде повторных наблюдений приводит к увеличению затрат на исследование. Поэтому здесь сосредоточимся на методах, не требующих привлечения какой-либо внешней информации.
В работе [5] специально для полиномиальных зависимостей предложен итерационный взвешенный метод наименьших квадратов (IRLS, iterative reweighted least squares), использующий два первых условных момента Yj при заданном Z^. Показано, что этот метод дает состоятельные оценки, а также доказана принципиальная возможность оценивания как вектора параметров 6, так и неизвестных
дисперсий ошибок ст|?, стд . Более общий подход, использующий те же идеи, но для любой формы зависимости, описан в [6]. Такой метод оценивания назван методом минимального расстояния (MDE, minimum distance estimator). Для оценивания моделей с ошибкой Берксона в общем случае при любом заданном распределении ошибок в [7] предлагается использовать имитационный подход для упрощения расчета интегралов. При нормальном распределении ошибок для моментов легко получить аналитические выражения.
К сожалению, в работах [6, 7] не приведены результаты вычислительных экспериментов, но с учетом того, что MDE использует информацию только о моментах, можно предположить, что, как и оценки метода моментов, MDE-оценки будут обладать большой дисперсией. В этой связи представляется более перспективным использование метода максимального правдоподобия (ММП), потенциально позволяющего получить оценки с меньшей дисперсией. На его основе автором разработан новый подход к оцениванию модели с ошибкой Берксона.
2. ММП-оценки на основе аппроксимации радиальными сплайнами
В рамках предлагаемого подхода будем исходить из нормальности распределения ошибок. Значения входного фактора в рассматриваемой постановке детерминированы, следовательно, логарифмическая функция правдоподобия будет зависеть только от распределения наблюдаемых значений отклика:
ln L = £ ln fYi (y),
г=1
где fy (yj) - значение функции плотности случайной величины Yi в точке .
Построение функции плотности распределения y для произвольной функции g является достаточно трудной задачей. Поэтому здесь предлагается осуществлять аппроксимацию функции g(х; 6) с помощью сплайна. Для этой цели выбраны сплайны с линейными радиальными базисными функциями [8]. С их помощью любую гладкую функцию можно задать как
к
g (х;6) И R (х; ß, qb Чк ) = ßo + ßlx + Z^+l||x " Чу||,
j=l
где R(x; ß, qb Ч2,--, Чк) - линейный радиальный сплайн, ß = (ßo, ßi,..., ßK+1) -вектор коэффициентов сплайна, qi < 42 < • < Чк - узловые точки, принимающие
значения из области значений х, К - число узлов, |-| - норма. Здесь в качестве нормы будет рассматриваться метрика , тем самым сплайн будет представлять собой кусочно-линейную аппроксимацию. Обозначим угловые коэффициенты линий на участках ц, < х < ц,+1 как к,, , = 0,..., К . В данном контексте д0 и
Як+1 доопределяются хт;п и хтах соответственно. Введенные угловые коэффициенты рассчитываются из условия стыковки аппроксимирующей кривой и исходной гладкой кривой в точках узлов:
ё (цу+1; 6) - я (я,; 6)
к, =-
Я,+1 - я,
На основе этого коэффициенты сплайна вычисляются следующим образом:
ё (яо;0) - ко Яо + ё (як;0) - кк як
Ро
2
Р = ко + кк Р = к, - к,-1
Следовательно, искомый вектор параметров 6 и узловые точки определяют вектор коэффициентов сплайна Р . С учетом аппроксимации сплайнами
г, ~ К(2, +8,;рql,q2,.,як)+£,,' = и-п,
распределение У, представляет собой свертку распределений ошибки отклика и нелинейной функции от ошибки регрессора.
Для удобства представим У, как сумму двух случайных величин У, = ю,- + е ,:
к
= р1(+ 8, ) + Е Р, +1 \2 / + 8, - я, I , г1 = ро + е/ . ,=1
Исходя из введенных ранее предположений, в1,..,вп - независимые одинаково распределенные случайные величины, имеющие нормальное распределение с вектором параметров у о = (Ро, сте).
Распределение ю,- будет зависеть от расположения (2, + 5,-) относительно узловых точек. Для того чтобы учесть этот факт, введем ряд гипотез, заключающихся в попадании 5,- в заданный интервал. Разобьем область значений 5,-на к +1 непересекающихся интервалов. Для удобства здесь доопределим узлы Цо = -да, Як+1 = +да. Тогда вероятность справедливости гипотезы Н , = {ц, - 2, < 8,- < ц,+1 - 2,} будет вычисляться следующим образом:
Р(Н,,) = Ф(ц,+1 - 2,; Стд) - Ф(ц, - 2,; а5), , = о,., к ,
где Ф(/; ст) - функция нормального распределения с нулевым параметром сдвига и параметром масштаба ст .
Искомая функция плотности выражается по формуле полной вероятности:
Д. (и) =^/т1\н11 (и) Р(Н ,,). (4)
,=о
Условная плотность /у.щ.. представляет собой плотность свертки условных распределений Д.|Яу. (и) = ((н */вгЩг] )(и).
Распределение случайной величины е, не зависит от введенных гипотез. Условная плотность распределения /т.щ. (и) = (и) будет определяться поведением случайной величины к,., которую можно представить как
к,. = Р1 ( + 5.)+£ (-1)1(/ <.) рг+1 ( - г. - 8.), /=1
где 5. = 5, | Н имеет усеченное нормальное распределение с нулевым параметром сдвига, параметром масштаба, равным ст5, и интервалом усечения д. - 2, < 5, < д.+1 - 2,, I (/ < .) - индикаторная функция, возвращающая единицу
при I < . и ноль - в противном случае, (-1)0 = 1. Следовательно, случайная величина к . имеет усеченное нормальное распределение с вектором параметров
ц)1. = (ц., ст., а., а.+1), вычисляемых следующим образом:
= Р2 + £ (-1)1 (/ <.) Р/+1 (4/ - 2,), . = 0,..., К , /=1
ст. =
р-£ (-1)1 (/< .) Р/+1
/=1
К
ст5, ^ =р1ду +£ р/+1д/-ду|,. = 0,., К+!. /=1
Если Р1 - £ (-1) ( <. Р/+1 < 0, то правая и левая границы меняются местами.
/=1
К
Сначала остановимся на самом простом случае, когда Р1 -£ (-1)1 (/<1) Р/+1 = 0
/=1
для какого-либо . . Очевидно, что тогда единственной стохастической характеристикой останется е,. После упрощения для таких интервалов условная плотность будет равна
( К Л К
/ун (и) = ф и-Р0-£(-1)1(/<.)Р/+14/;Сте , V/,. :Р1 -£(-1)1(/<.)Р/+1 = 0,
I /=1 ) /=1
где ф(/; ст) - функция плотности нормального распределения с нулевым параметром сдвига и параметром масштаба ст .
В остальных случаях распределение величины /у.щ . (и) представляет собой
свертку усеченного нормального распределения с вектором параметров ц1 и нормального распределения с параметрами ц = (Р0, сте). По формуле свертки условная плотность У , определяется как
/т,\и„ (и) = ф| и "ßö "h
11 i]
(«; у0, у^)
ф(+1 "h]; a ] "hi]; a - )
Vi, j : ßi "Е ("1)1 (l-]) ßi+i * Ö, l=1
где
Ф
1 (; у0, у)-) = Ф ( (a]+1" и+ßö )a2j + (aj+1" hj- )ac;a - a^2 +ac j -
2 2 /22 i ф| (aj "u + ßö)a- + (aj "hj)as; a-a^aj +as I.
После упрощения оказывается, что знаменатель последнего множителя в этом выражении совпадает с Р(И^), поэтому он сокращается при подстановке в (4).
Нужно, однако, учесть, что границы усечения aj и aj+1 меняются местами при
к
Р1 (-1/(/"]) Р/+1 < 0, поэтому возьмем числитель последнего множителя по
/=1
модулю. Тогда итоговое выражение для функции плотности примет вид
( к Л
fy,(u) = Е ф
j:ß1-! ("1)1 (l-])ßi+1=0
"ßö "Е ("1)1 (l - j) ßi+1?i; a
V l=1 I
P( и,]] +
l=1
]ft"Z ("1)1 (l-j)ßl+1^0 l=1
ф (u" ßo" hj ; Va) +ac j |ф1 (u; уö; у]))
Тем самым логарифмическая функция правдоподобия выражается через вектор коэффициентов сплайна ß, при заданных узловых точках однозначно соответствующий вектору неизвестных параметров 6 ; a5, as. Путем максимизации функции правдоподобия по неизвестным параметрам получаются ММП-оценки.
Предложенный метод оценивания (далее MLERS, maximum likelihood estimator based on radial splines) реализован в среде R [9]. Оптимизация осуществлялась методом Нелдера-Мида. В качестве начального приближения вектора 6 задава-
2 2 лись МНК-оценки. Начальное значение a5 = 0. Начальное приближение as
определялось как средний квадрат остатков модели, оцененной по МНК. Для сравнения в среде R реализованы описанные выше методы IRLS и MDE.
3. Результаты вычислительных экспериментов
Для исследования работы алгоритмов и сравнения различных методов оценивания проведены вычислительные эксперименты на основе модельного примера
2
из [5]. Предполагается, что Y, = 3 + 2X, + Xf +ег, X, = Z, + 5, .
Значения Z, фиксировались во всех экспериментах, Z, ~ N(0,1). Объем выборок задавался равным 1000. Ошибки e¿ и 5, моделировались как независимые
нормально распределенные случайные величины с дисперсиями ст^ = стд = 0,5. Значение дисперсии ошибки входного фактора выбрано высоким, поскольку и в практическом приложении приходится сталкиваться с большими погрешностями.
Результаты экспериментов усреднялись по 300 повторениям.
Рассматривалось два варианта расположения узловых точек:
- равновероятно: выбирались как квантили эмпирического распределения Z t
порядка —j—, j = 1,...,K;
K + 1
- через равные интервалы: узловые точки qj задавались соотношением
. max Zt - min Zt . minZj + j----, j = 1,.,K .
K +1
Число узлов K выбиралось равным 10 и 30. В таблице приведены средние значения оценок параметров (в скобках их стандартные отклонения), полученные с помощью метода минимального расстояния (MDE), итерационного взвешенного метода наименьших квадратов (IRLS) и предложенного подхода, основанного на методе максимального правдоподобия с аппроксимацией сплайнами (MLERS). Видно, что метод максимального правдоподобия в отличие от метода минимального расстояния обеспечивает в 2... 4 раза меньшее среднеквадратическое отклонение оценок. С помощью этого метода удается хорошо оценить дисперсию ошибок, в то время как MDE и IRLS дают больший разброс, особенно дисперсии ошибки отклика. В целом результаты IRLS сопоставимы по качеству с MLERS, но этот подход ограничен, так как предназначен только для оценивания полиномов.
Сравнение точности оценивания The comparison of estimation accuracy
Параметры / Parameters MDE IRLS MLErs
Равновероятные Равноотстоящие
K = 10 K = 30 K = 10 K = 30
00 = 3 3,04 (0,155) 3,001 (0,102) 3,000 (0,066) 3,024 (0,067) 2,928 (0,066) 2,990 (0,064)
6j = 2 1,987 (0,15) 1,994 (0,082) 2,018 (0,08) 1,993 (0,079) 2,001 (0,078) 2,002 (0,078)
02 = 1 0,99 (0,204) 1,002 (0,061) 0,912 (0,058) 0,959 (0,065) 1,007 (0,06) 1,006 (0,06)
ст52 = 0,5 0,509 (0,183) 0,497 (0,09) 0,49 (0,042) 0,493 (0,042) 0,496 (0,041) 0,496 (0,041)
сте2 = 0,5 0,789 (0,76) 0,602 (0,524) 0,454 (0,056) 0,496 (0,056) 0,502 (0,057) 0,502 (0,057)
MSE 0,12 (0,217) 0,024 (0,022) 0,04 (0,029) 0,023 (0,021) 0,022 (0,018) 0,018 (0,019)
MAE 0,19 (0,114) 0,108 (0,055) 0,125 (0,044) 0,092 (0,042) 0,105 (0,044) 0,083 (0,04)
Для характеристики точности восстановления регрессионной кривой использовались следующие показатели:
\2
MAE =
1 ¿я ; 9) - я (; 0) , Ы8Б =1 £ ( (; 6)-g (; 0)) п,=1 п,=Г '
где 99 - вектор оценок параметров, полученный разными методами.
В первую очередь из таблицы видно, что метод максимального правдоподобия дает наилучшие предсказания по сравнению с остальными методами. При этом наилучшая точность достигается при максимальном числе узлов и их расположении через равные интервалы.
Следовательно, исходя из результатов вычислительных экспериментов, можно рекомендовать использовать метод максимального правдоподобия с аппроксимацией радиальными сплайнами с достаточно большим числом узлов (примерно 30 наблюдений на узел), расположенных через равные интервалы.
4. Применение в задаче анализа показателей деятельности вузов
Как отмечено ранее, модель с ошибкой Берксона имеет место, если исследователь располагает только усредненными значениями входного фактора, в то время как в реальности истинные значения случайно от них отклоняются на индивидуальном уровне. Такой постановке соответствует модель, описывающая зависимость показателей эффективности деятельности вузов от характеристик региона. Рассмотрим ее на примере показателя трудоустройства. Во многом его критика связана с тем, что этот показатель больше связан с ситуацией на региональном рынке труда, чем определяется эффективностью работы вуза.
В этой связи возникает задача восстановления зависимости между долей трудоустроенных выпускников и уровнем безработицы на региональном рынке труда. Наличие ошибки Берксона объясняется тем, что уровень безработицы как обусловливающий фактор для выпускников конкретного вуза определяется и их специализацией. Например, в регионе может быть переизбыток одних специалистов и недостаток других, в то время как в распоряжении имеется информация только о среднем уровне безработицы.
В качестве информационной базы использовались данные мониторинга эффективности деятельности образовательных организаций высшего образования за 2015 г., полученные для каждого отдельного вуза [10]. Кроме того взяты официальные данные Росстата [11] об уровне безработицы населения по субъектам РФ в среднем за 2014 г. Из рассмотрения исключены аномальные наблюдения: регионы с уровнем безработицы больше 15 % и вузы с показателем трудоустройства меньше 20 %. Всего в выборке 564 вуза, филиалы вузов не включены в анализ. Следует отметить, что вузы отличаются по широте специализации. Так из 28 направлений по ОКСО в 11 % вузов представлено только два (узкоспециализированные), в 34 % реализуется не более пяти направлений, в 65 % - не более десяти направлений. Поэтому ошибку Берксона не удается нивелировать благодаря многопрофильности вузов.
На основе предварительного анализа зависимости с помощью МНК в качестве g выбран полином второй степени, поскольку квадратичный эффект значим на 10-12 уровне и обеспечивает двукратный рост F-статистики по сравнению с линейной моделью. С целью построения интервальных оценок применялось размножение выборки. Для этого на первом шаге из исходной выборки случайно и независимо извлекалась подвыборка объемом 500. На втором шаге производилось оценивание модели (1)-(3) с помощью МНК, IRLS и MLERS. При использовании MLErs выбрано 15 равноотстоящих узлов. В результате сохранялся вектор оценок параметров полинома и дисперсий ошибок, полученный каждым методом. Шаги 1-2 повторялись 500 раз, и получена выборка оценок параметров. Что касается дисперсии ошибки входного фактора, то методом IRLS получено среднее значение оценки 4,76 со стандартным отклонением 5,27, а методом MLERS - в среднем оценка равна 7,32 с отклонением 3,6. При сравнении с дисперсией входной переменной 5,14 становится понятно, что размер погрешности очень велик.
Для каждого выборочного вектора оценок параметров построены прогнозные значения показателя трудоустройства. Далее найдены квантили порядка 2,5 и 97,5 % их эмпирического распределения, они изображены на рисунке.
Зависимость показателя трудоустройства выпускников от уровня безработицы
Dependence of the indicator of graduate employment from the unemployment rate
Видно, что МНК-оценка значительно отличается от других оценок, поскольку дисперсия ошибки Берксона велика. При этом IRLS дает очень широкий доверительный интервал. Тем самым предложенный автором метод MLERS обеспечивает наиболее пригодный для интерпретации результат. Пороговое значение по показателю трудоустройства для большинства федеральных округов установлено в 75 %. В соответствии с прогнозом МНК и IRLS оно не достигается в регионах с уровнем безработицы, превышающим 6,8 %, однако метод MLERS дает более высокое значение в 7,7 %. Графически это представлено на рисунке пунктирными линиями. Тем самым методы дают разные результаты с точки зрения их применения на практике, например, в качестве обоснования снижения пороговых значений для определенных регионов. В дальнейшем анализе предполагается учесть специализацию вузов как важный фактор трудоустройства их выпускников.
Заключение
Таким образом, в работе предложен новый метод оценивания нелинейных моделей с ошибкой Берксона, заключающийся в максимизации функции правдоподобия, построенной путем аппроксимации нелинейной функции радиальными сплайнами. Метод основан на предположении о нормальности распределения ошибок. В ходе вычислительных экспериментов произведено сравнение предложенного метода с известными подходами и показано, что он имеет преимущества как в точности оценивания параметров, так и в точности восстановления значений отклика. Хотя итерационный взвешенный метод наименьших квадратов лишь немного хуже, но он ограничивается только оцениванием полиномиальных моделей. Рассмотренные методы применены для решения практической задачи анализа взаимосвязи между долей трудоустроенных выпускников вуза и региональным уровнем безработицы.
ЛИТЕРАТУРА
1. Fuller W.A. Measurement error models. - New York: John Wiley and Sons, 1987.
2. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973. - 899 с.
3. Measurement error in nonlinear models: a modern perspective / R.J. Carroll, D. Ruppert, L.A. Stefanski, C.M. Crainiceanu. - 2nd ed. - New York: Chapman & Hall, 2006.
4. Schennach S.M. Regressions with Berkson errors in covariates - a nonparametric approach // The Annals of Statistics. - 2013. - Vol. 41, N 3. - P. 1642-1668.
5. Huwang L., Huang Y.H.S. On errors-in-variables in polynomial regression-Berkson case // Statistica Sinica. - 2000. - Vol. 10, N 3. - P. 923-936.
6. Wang L. Estimation of nonlinear Berkson-type measurement error models // Statistica Sinica. - 2003. - Vol. 13, N 4. - P. 1201-1210.
7. Wang L. Estimation of nonlinear models with Berkson measurement errors // The Annals of Statistics. - 2004. - Vol. 32, N 6. - P. 2559-2579.
8. Mai-Duy N., Tran-Cong T. Approximation of function and its derivatives using radial basis function networks // Applied Mathematical Modelling. - 2003. - Vol. 27, N 3. - P. 197-220.
9. The R Project for Statistical Computing [Electronic resource]. - URL: http://www.R-project.org/ (accessed: 29.11.2016).
10. Информационно-аналитические материалы по результатам проведения мониторинга эффективности образовательных организаций высшего образования [Электронный ресурс]. - URL: http://indicators.miccedu.ru/monitoring/2015/ (дата обращения: 24.11.2016).
11. Безработица в России по регионам [Электронный ресурс]. - URL: https://person-agency.ru/statistic-regions.html (дата обращения: 24.11.2016).
MAXIMUM LIKELIHOOD ESTIMATION OF NONLINEAR REGRESSION MODELS WITH BERKSON MEASUREMENT ERRORS
Timofeeva A.Yu.
Novosibisk State Technical University, Novosibirsk, Russia
In experiments designed to identify and estimate the relationship between some variables, measurement errors are unavoidable. Berkson errors distort the values of the explanatory variable after its measurement in the process of its effect on the response. In the case of the nonlinear dependence the presence of these errors leads to a bias in the classical regression estimates. The paper describes the known methods aimed at the bias elimination, namely the iterative reweighted least squares method developed specifically for the estimating of polynomial relationship and the minimum distance estimator. The author suggests her own method based on maximum likelihood estimation using the radial basis function approximation of the given nonlinear function describing the relationship. The comparison of this method with the known approaches in numerical experiments showed that it exceeds several times the estimation accuracy of the minimum distance estimator. Thus it is comparable in accuracy to the iterative weighted least squares method, but it has the advantage that it is applicable to estimate not only polynomials, but any nonlinear regression. The proposed method is applied to the problem of indicator analysis for evaluating the activity of universities. As an illustration a relationship between the unemployment rate and the share of employed graduates is selected. There are Berkson errors because information about the explanatory variable is represented only by a regional average, while individual variations occur in the case of high school graduates. The estimation of the polynomial regression has shown that under a high regional unemployment rate the threshold value of the indicator is unachievable and should be adjusted.
Keywords: Errors-in-variables model; Berkson-type measurement error; nonlinear regression; maximum likelihood estimation; iterative weighted least squares; minimum distance estimato; indicator for evaluating the activity of universities.
DOI: 10.17212/1727-2769-2016-4-88-98
REFERENCES
[1] Fuller W. A. Measurement error models, New York, John Wiley and Sons, 1987.
[2] Kendall M., Stuart A. The Advanced Theory of Statistics: Inference and relationship. London, Charles Griffin and Co., Ltd., 1961, 676 p. (Russ. ed.: Kendall M., St'iuart A. Statis-ticheskie vyvody i sviazi. Moscow, Nauka Publ., 1973. 899 p.).
[3] Carroll R. J., Ruppert D., Stefanski L. A., Crainiceanu C.M. Measurement error in nonlinear models: a modern perspective, New York, Chapman & Hall, 2006.
[4] Schennach S. M. Regressions with Berkson errors in covariates - A nonparametric approach. The Annals of Statistics, 2013, no. 3, pp. 1642-1668.
[5] Huwang L., Huang Y. H. S. On errors-in-variables in polynomial regression-Berkson case. Statistica Sinica, 2000, no. 3, pp. 923-936.
[6] Wang L. Estimation of nonlinear Berkson-type measurement error models. Statistica Sinica, 2003, no. 4, pp. 1201-1210.
[7] Wang L. Estimation of nonlinear models with Berkson measurement errors. Annals of Statistics, 2004, no. 6, pp. 2559-2579.
[8] Mai-Duy N., Tran-Cong T. Approximation of function and its derivatives using radial basis function networks. Applied Mathematical Modelling, 2003, no. 3, pp. 197-220.
[9] R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, 2013. http://www.R-project.org/.
[10] Informatsionno-analiticheskie materialy po rezul'tatam provedeniia monito-ringa effek-tivnosti obrazovatel'nykh organizatsii vysshego obrazovaniia (The information-analytical materials on the results of monitoring the effectiveness of the educational institutions of higher education) Available at: http://indicators.miccedu.ru/monitoring/2015/ (accessed 7 September 2016)
[11] Bezrabotitsa v Rossii po regionam (Unemployment in Russia by region) Available at: https://person-agency.ru/statistic-regions.html (accessed 7 September 2016)
СВЕДЕНИЯ ОБ АВТОРАХ
Тимофеева Анастасия Юрьевна - родилась в 1984 году, канд. экон. наук, доцент, кафедра экономической информатики, НГТУ. Область научных интересов: развитие методов статистического анализа объектов стохастической природы, в том числе социально-экономических явлений. Опубликовано 50 научных работ. (Адрес: 630073, Россия, г. Новосибирск, пр. Карла Маркса, д. 20. E-mail: [email protected]).
Timofeeva Anastasiia Yurievna (b. 1984) - Candidate of Sciences (Econ.), associate professor, Department of Computer Science in Economics, Novosibirsk State Technical University. Her research interests are currently focused on the development of methods for the statistical analysis of stochastic objects including socioeconomic phenomena. She is the author of 50 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. E-mail: [email protected]).
Статья поступила 09 сентября 2016 г.
Received September 9, 2016
To Reference:
Timofeeva A.Yu. Maksimal'no pravdopodobnoe otsenivanie nelineinykh regressionnykh modelei s oshibkoi berksona [Maximum-likelihood estimation of nonlinear regression models with berk-son measurement errors]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii - Proceedings of the Russian higher school Academy of sciences, 2016, no. 4 (33), pp. 88-98. doi: 10.17212/1727-2769-2016-4-88-98