_ДОКЛАДЫ АН ВШ РФ_
2014_январь-март_№ 1 (22)
ТЕХНИЧЕСКИЕ НАУКИ
УДК 519.237.5
ЛОКАЛЬНО ВЗВЕШЕННОЕ ВОССТАНОВЛЕНИЕ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ В ЗАДАЧЕ АНАЛИЗА УСПЕВАЕМОСТИ
А.Ю. Тимофеева, О.Е. Аврунев
Новосибирский государственный технический университет
Рассмотрена задача построения локально взвешенной регрессии в условиях, когда один из входных факторов наблюдается со случайными ошибками, а другие являются детерминированными. Наличие погрешностей в объясняющей переменной приводит к ухудшению качества оценивания на основе взвешенного метода наименьших квадратов, поэтому предлагается восстанавливать ортогональную регрессию. Получено аналитическое решение, учитывающее наличие детерминированных факторов в модели. Однако возникает проблема с тем, что веса, задающие локальную область, зависят от параметров регрессии. В этой связи наряду с известным адаптивным алгоритмом разработана итерационная процедура оценивания. Для определения оптимального числа ближайших соседей предложено использовать корень из среднего квадрата остатков модели. В ходе вычислительного эксперимента подтверждена правомерность использования такого критерия при малом и среднем уровне зашумления данных. Большая степень засорения выборки приводит к проблемам со сходимостью итерационного алгоритма и со стабильностью результатов оценивания адаптивным алгоритмом. Это влечет за собой искажение оценок отклика, и тем самым гладкость восстанавливаемой кривой обеспечивается только при значительном числе ближайших соседей. Дальнейшее развитие алгоритмов связывается с повышением их устойчивости к сильному засорению данных. Разработанный итерационный алгоритм применен для исследования успеваемости студентов. Произведено сглаживание средних результатов первой сессии в зависимости от суммарного балла единого государственного экзамена (ЕГЭ), направленности блока изучаемых дисциплин и вида факультета технического вуза. Это позволило сделать качественные выводы об особенностях процесса освоения образовательных программ в вузе и об истинном уровне знаний студентов.
Ключевые слова: локально взвешенная регрессия, ближайший сосед, ортогональная регрессия, метод общих наименьших квадратов, детерминированный фактор, качественный признак, вычислительный эксперимент, оценка успеваемости.
1. Постановка проблемы
Наиболее гибким средством анализа неизвестных зависимостей между признаками можно считать непараметрическое сглаживание [1]. Суть его состоит в локальной аппроксимации зависимости в заданной окрестности каждой точки (или некоторых узловых точек), координаты которой определяются значениями входных признаков. Корректность результатов такого подхода обеспечивается только при ограничении на схему проведения эксперимента: значения объясняющих переменных должны фиксироваться без погрешностей [2, с. 189-192]. В противном случае полученные результаты не всегда позволяют верно оценить влияние факторов, поскольку его требуется отделять от воздействия случайных погрешностей, с которыми наблюдаются признаки. В то же время наряду с переменными, содержащими погрешности измерения, набор входных признаков может включать факторы, значения которых носят детерминированный характер. Именно проблеме непараметрического оценивания значений отклика в таких условиях и посвящена эта работа. Перейдем к формальной постановке задачи.
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14-07-31171 мол а.
© 2014 А.Ю. Тимофеева, О.Е. Аврунев
Предполагается, что на выходной признак У оказывают влияние некоторая переменная Р, наблюдаемая с ошибкой, и ряд детерминированных факторов Х1,Я},...,хт, которые могут носить и качественный характер. Функциональная форма зависимости априорно не постулируется, и необходимо получить некоторую аппроксимацию неизвестной функции У = g (Р, хь Х},..., хт).
Пусть по результатам наблюдений получена выборка значений введенных переменных объемом N. При этом истинные значения у и р остаются ненаблюдаемыми ввиду наличия погрешностей, следовательно, фиксируются значения у, = У + в, , р, = р + 8,, I = 1, N, где в, , 8, - случайные ошибки, относительно которых предполагается
Задача состоит в оценивании значений отклика. Используемый при такой постановке задачи непараметрический подход в настоящее время активно развивается [4, 5]. Это развитие направлено на его интеграцию с известными методами решения задачи восстановления структурных зависимостей. Особенность этой задачи, как уже подчеркивалось, состоит в наличии погрешностей в объясняющих переменных, что не позволяет использовать стандартные процедуры статистического анализа (в частности, регрессионного и дисперсионного). Сейчас преимущественно разрабатываются подходы, предполагающие привлечение обширной дополнительной информации (инструментальных переменных, повторных наблюдений [6]), что влечет за собой затраты по сбору таких данных. В этой работе предлагается ориентироваться на метод общих наименьших квадратов [7], в линейном случае приводящий к ортогональной регрессии [8]. Он требует лишь фиксации значения соотношения дисперсий ошибок входной переменной и отклика, которое может быть задано исходя из априорных представлений исследователя. Авторами ранее этот подход комбинировался со штрафными регрессионными сплайнами [9]. Здесь в качестве непараметрического метода оценивания выбрана локально взвешенная регрессия.
2. Локально взвешенная регрессия
Наиболее популярный алгоритм оценивания локально взвешенной регрессии предложен в [10]. Здесь остановимся на кратком его изложении.
Основная идея состоит в построении оценок отклика в выбранных точках пространства входных признаков 2у = (ру,Ху1,.••,Хут) путем восстановления линейной регрессии по к ближайшим к 2у точкам, 1 < к < N . Исходя из расстояния Ну от у -й точки до ее к -го ближайшего соседа рассчитываются веса всех точек выборки, определяющие локальную область 2 :
Е(в,) = Е(8,) = 0, Б(в,) = стЕ2, Б(8,) = ст§, V,',
cov(вг■, в ■) = cov(8г■, 8 ■) = 0 , VI Ф у, cov(вг■, 8 ■) = 0, VI, у.
Искомую зависимость согласно [3, с. 503] называют структурной:
У, = g ( р, "8,, Хъ x,2,., х,т ) + в, .
где р2.2. - евклидово расстояние от до I -й выборочной точки
= (
Ху1 ,..., X,-,
1>лй
,). Обычно [10, 11] в качестве Ж (х) используется функция
Ж (х) = (1 - х3)3 Н (1 - х)
где Н (•) - функция Хэвисайда. При вычислении расстояний разница в масштабе измерения входных признаков должна быть компенсирована за счет стандартизации их значений [11, с. 597]. Построенные таким образом веса используются для оценки линейной регрессии в каждой точке 2. с помощью взвешенного метода
наименьших квадратов (ВМНК) [12, с. 99-101]. 3. Ортогональная регрессия
Применение при сглаживании ВМНК и определение весов на основе исходных значений входных факторов предполагает отсутствие ошибки при фиксации их значений. При отклонении от этого предположения предлагается в заданных точках пространства входных факторов восстанавливать ортогональную регрессию [13, с. 309-310]. При ее построении должно быть задано соотношение дисперсий 2 2
ошибок у = стд / стЕ. Обычно исходят из того, что у = 1 и переменные имеют одинаковый масштаб. Здесь будем основываться на более общей постановке [8]: у может принимать любые положительные значения в соответствии с представлениями исследователя относительно уровня дисперсий ошибок переменных.
Пока будем пренебрегать наличием детерминированных входных факторов и рассмотрим уравнение парной зависимости у. = g (р. -5. ) + ег-. Пусть необходимо восстановить локально взвешенную регрессию в каждой из п заданных точек 2. = р.. Задача построения взвешенной ортогональной регрессии в . -й точке
сводится к поиску минимума выражения:
N
о, = Ё (р /)
1=1
■у(р. -Р.)2 +(-а.-РР)2
по ненаблюдаемым значениям Р. и неизвестным параметрам а. и Р.. Известно [8], что рассмотренная функция приводится к виду
1 N .. ч2
о =■
■Ё (р. ) (У. -а. -Р]Рг )
(2)
1 + УРл=1
и при фиксированных значениях wi (р.) существует аналитическое решение, которое можно представить как
Р, =
2 12 ^ •--^ •
У у р]
2 12 V--ч
У] у р.
' 4 2
+— ч ■
у Ур]
2ч
(3)
ур.
а, = У, -р,р
.г. ■■
Р. =
р. +ур. (У. -а.)
1+УР2
2 2
где Syj , Spj - выборочные оценки дисперсий отклика и входной переменной для точки ру соответственно, - выборочная оценка ковариации между ними, у у, ру - выборочные оценки среднего объясняемой переменной и входного фактора для точки ру соответственно. Все эти выборочные оценки строятся с учетом весов wi (ру).
Заметим, однако, что веса wi (ру), определяемые на основе расстояния до
ближайших соседей, не могут быть непосредственно вычислены из (1), поскольку значения р, наблюдаются с ошибкой. Поэтому в качестве р, при расчете расстояний необходимо использовать оценки истинных значений Ру, вследствие чего
возникает проблема зависимости весов от параметров регрессии.
Задача построения локально взвешенной ортогональной регрессии для парной зависимости рассмотрена в [14], где для решения отмеченной выше проблемы разработан алгоритм адаптивного оценивания. При этом предполагается, что оценки параметров для ближайших точек пространства входных факторов существенно не отличаются и могут быть использованы для расчета оценок объясняющих переменных и весов. Однако при сильном засорении данных такое предположение нарушается и алгоритм адаптивного оценивания может давать нестабильные результаты. Поэтому предлагается итерационная процедура, включающая следующую последовательность шагов.
Шаг 1. Определяется начальное приближение оценок ау и ру с весами, вычисленными по (1).
Шаг 2. На основе найденных оценок параметров рассчитываются значения Ру, которые подставляются в качестве р, в соотношение (1), и определяются веса.
Шаг 3. По текущим значениям весов рассчитываются оценки а у и р у .
Шаги 2 и 3 повторяются, пока норма отклонений прогнозных значений отклика на соседних итерациях А превышает заданную малую величину.
Далее на модельном примере исследована работа предложенного алгоритма.
Кроме того, остается открытым вопрос выбора оптимального числа ближайших соседей для локально взвешенной ортогональной регрессии. Известно [1], что параметр к определяет степень сглаживания, и для аналогичных целей в непараметрических методах также используются ширина окна и параметр сглаживания. Выбор их значений может быть осуществлен по критерию кросс-валидации [1, с. 44]. Далее остановимся подробнее на этой проблеме.
4. Выбор числа ближайших соседей
При малом числе ближайших соседей восстановленная кривая сильно подвержена случайным колебаниям. В то же время при слишком большом числе к будет обнаруживаться эффект «пересглаживания» [15, с. 54]. При решении конкретных задач результаты определяются вариабельностью истинной функции регрессии и уровнем шума. Поэтому значение к должно подбираться в зависимости от результатов оценивания.
Ранее установлено [9], что применение суммы взвешенных расстояний О у от
точек корреляционного поля до линии ортогональной регрессии в качестве критерия выбора параметра сглаживания чревато рядом проблем. Так в случае, если корреляция между входным фактором и откликом близка к нулю, то линия обыч-
ной регрессии почти горизонтальна, тогда как коэффициент ортогональной регрессии в силу деления на ноль в (3) будет стремиться к бесконечности. Следовательно, при использовании линейных штрафных сплайнов получается ряд практически вертикальных участков [9]. При этом функция (2) имеет минимальное значение, а линия регрессии резко отклоняется от точек корреляционного поля, что противоречит поставленной задаче подгонки кривой.
Таким образом, с помощью сглаживания должны компенсироваться имеющиеся отрицательные эффекты использования целевой функции (2). Однако привлечение критерия кросс-валидации для выбора оптимального размера локальной области сглаживания при оценивании ортогональной регрессии представляется весьма трудоемкой задачей ввиду нелинейности по у оценок параметров. Поэтому можно предложить более простой критерий минимума показателя
ЯМБЕу =
^ ¿(у( * у) - у( * у) )2 , (4)
где у( * у), у( * у) - наблюдаемое и прогнозное значение отклика в точке * у . Этот
показатель должен препятствовать сильному отклонению регрессионной кривой от точек корреляционного поля. Далее на модельном примере исследована пригодность показателя (4) для выбора оптимального числа ближайших соседей.
5. Модель с детерминированными факторами
Далее рассмотрим, как повлияет на процедуру оценивания наличие в модели детерминированных факторов. В этом случае функция О у будет иметь вид
N
С} = £ ^ (Г у ) ,=1
- Ру )2 + (( - 0 у X-Р Р )2
где 0у =((о, 0 уь--, 6 ут) - вектор дополнительных параметров, подлежащих
оцениванию; X, = (х,о,хц,...,х,т) - вектор значений детерминированных факторов в I -й точке наблюдений. Параметр 6 уо соответствует а у (х,о = 1).
Дифференцируя эту функцию по Ру и приравнивая результат к нулю, получаем выражение для истинных значений входного признака:
Р р, +тРу (. у-»., X)
" - 1+ТР2 •
Подставляя это выражение в исходную функцию, получим 1 N 2
О у =-2 Е ^ (2 у) (у, - 0 у X, -Р уР,) . (5)
1 + Ур2 ,=1 У '
Решение задачи минимизации функции (5) относительно неизвестных параметров 6 у о,..., 6 ут приводит к следующей системе линейных уравнений:
т _
Е 6А = ^ухгу - ^рхгу Ру , г = т , I=0
где , , ЧрХг. - выборочные оценки ковариации между признаками xr и Xl, у и хг, р и хг соответственно. В качестве весов при их расчете выступают значения и>; (2.).
Полученная система уравнений позволяет найти вектор неизвестных параметров 6. следующим образом:
0. = 0Ух. -0рх.Р. , (6)
где 0х , 0рх. - векторы оценок параметров уравнений, описывающих влияние детерминированных признаков на У и р соответственно, построенные с учетом весов и; (2.). При подстановке (6) в (5) получаем оптимизационную задачу относительно Р. с целевой функцией:
1 N 2
о. =-2Ёи-(2.)(у;-Р.р;.) ,
1+УР22 ;=1
где у; = у; - 0у.Х;, р. = р; - 0р. Х;. В результате задача сведена к построению
ортогональной регрессии, решение которой подробно описано выше.
Отметим, что если детерминированные факторы качественные и включаются в регрессию с помощью фиктивных переменных, в локальную область могут попадать объекты, ни один из которых не соответствует каким-либо из уровней фактора. Тогда возникает проблема с вырожденностью ковариационной матрицы детерминированных факторов. В таком случае имеет смысл провести редукцию [16, с. 229] и обнулить параметр, соответствующий отсутствующему уровню фактора.
6. Задача оценки успеваемости
Предложенный подход к оцениванию локально взвешенной регрессии со стохастическими и детерминированными входными факторами применен для анализа успеваемости студентов технического вуза в первую сессию. Ранее в ходе исследования процесса обучения специалистов [17] подтверждена гипотеза о том, что более высокий уровень подготовки абитуриентов определяет их возможность раннего и углубленного приобретения профессиональных знаний и навыков.
Процесс освоения образовательной программы и оценки знаний студента может быть представлен в самом простом виде как некая функция /, аргументами которой являются знания, полученные на предыдущем этапе, и факторы, характеризующие условия обучения на текущем этапе (семестре). Таким образом, запишем выражение для уровня знаний и(е) в семестре t:
и ^) = / (и ^-1),к с)),
где V() - факторы, характеризующие условия обучения в семестре t.
Результаты сессии у(^ в семестре t можно рассматривать как действительный уровень знаний студента, наблюдаемый с ошибкой е^):
У С) = f (и ^^) ) + ^).
Знания, которыми обладает студент на момент поступления, частично наблюдаемы посредством результатов ЕГЭ, на основании которых он поступил в вуз:
р(0) = р(0) +5(0),
где р(0) - наблюдаемые результаты ЕГЭ; Р(0) - истинный уровень знаний по
предметам, включенным в ЕГЭ; 5(0) - случайная ошибка. Случайные величины
е^) и 5(0) можно считать некоррелированными, так как субъективные факторы, вносящие погрешности в измерения уровня знаний, не взаимосвязаны: аттестации по ЕГЭ и результатам сессии достаточно разнесены по времени и отличаются условиями проведения, а также контролирующими материалами.
При этом общий уровень знаний студента включает также В(0) - знания по
предметам, не оцениваемым в рамках ЕГЭ, т. е.
и (0)= Р(0)+ в(0).
Таким образом, при решении задачи анализа успеваемости наблюдаемыми будут результаты ЕГЭ и факторы V^), характеризующие учебный процесс в семестре t, которые могут быть как количественными, так и качественными переменными. В то же время уровень знаний студентов В(0), не оцениваемый с помощью ЕГЭ, ненаблюдаем в первую сессию, поэтому далее мы им будем пренебрегать.
7. Результаты экспериментальных исследований
Для моделирования зависимости истинного уровня знаний У в первую сессию от входного уровня знаний Р студентов по предметам, включенным в ЕГЭ, использовалась степенная функция:
у = ра1, I = 0~2,
где значения Р заданы по равномерной сетке из интервала [0,1], коэффициенты а1 отражали воздействие качественного фактора в ходе обучения. Рассмотрено три уровня фактора: отсутствие изменений в истинном уровне знаний при а0 =1 ; более низкий по сравнению со входным текущий уровень знаний по специальным предметам, не включенным в ЕГЭ, при > 1; наконец, приращение уровня знаний при а2 = 1/ а1. Задаваемые величины представлены в таблице. При каждом аI генерировалось по 300 наблюдений, N = 900. Истинные значения зашум-лены независимыми нормально распределенными случайными ошибками с уровнем шума ф (см. таблицу). Понятие уровня шума введено в [18, с. 97; 19, с. 13]. Величина у определялась как отношение дисперсии Р к дисперсии У .
Оценивание производилось с помощью адаптивного и итерационного алгоритмов в отдельных точках выборки, т = 150, по 50 на каждый уровень фактора. Число ближайших соседей варьировалось от 10 до 90 % от объема выборки с шагом 10. В ряде случаев итерационный алгоритм не сходился, поскольку наблюдалось чередование двух локальных оптимумов. Вследствие этого дополнительно учтена сходимость по модулю разности Д на соседних итерациях. Кроме того, остановка работы алгоритма производилась при достижении максимального числа итераций ушах = 10, которого при среднем засорении выборки было достаточ-
но для сходимости. Результаты усреднения по 100 выборкам представлены в таблице. В качестве среднего использовалась медиана. Величина показателя (4) с истинными значениями отклика вместо наблюдаемых ЕМБЕу умножалась на 100. В скобках приведена величина межквартильного размаха [13, с. 181].
Результаты вычислительных экспериментов
Схема Алгоритм
Адаптивный Итерационный
Ф КМ8Е*Т КМ8ЕТ й * й КМ8Е*Т КМ8ЕТ й * й * V V
2 1 1,4 (0,20 1,4 (0,3) 0,2 0,2 0,8 (0,2) 0,8 (0,2) 0,1 0,1 3 3
5 2,3 (0,8) 2,8 (1,0) 0,3 0,5 2,1 (0,9) 2,5 (1,2) 0,2 0,2 5 5
10 3,5 (1,3) 4,2 (1,2) 0,5 0,6 3,3 (1,2) 3,9 (1,6) 0,2 0,5 8 4
4 1 2,8 (0,5) 3,1 (0,4) 0,3 0,4 1,1 (0,4) 1,1 (0,4) 0,1 0,1 4 4
5 3,7 (0,9) 4,1 (1,2) 0,4 0,5 2,9 (1,3) 3,3 (2,3) 0,2 0,2 6 6
10 5,6 (1,6) 6,6 (2,1) 0,5 0,6 4,7 (2,1) 6,8 (3,0) 0,2 0,6 9 6
8 1 2,6 (1,1) 2,9 (1,2) 0,3 0,3 1,5 (0,8) 1,6 (1,0) 0,1 0,1 5 5
5 5,2 (2,8) 6,2 (3,8) 0,4 0,5 3,9 (2,3) 6,3 (5,9) 0,2 0,2 7 6
10 8,9 (6,4) 11 (7,9) 0,5 0,6 6,5 (5,3) 11,4 (7,9) 0,2 0,7 10 5
В таблице представлены показатели, рассчитанные при числе соседей, соответствующем оптимальному по критерию (4) с у(¿у) и с У(т, у) вместо у(¿у)
(отмечены *). Медианы оптимальных значений доли числа ближайших соседей в
*
объеме выборки й и й по двум критериям при малом и среднем уровне шума практически совпадают. Следовательно, использование предложенного критерия для выбора числа ближайших соседей в этом случае вполне оправдано.
При сильно зашумленных данных возникают проблемы в работе обоих алгоритмов: итерационный алгоритм медленно сходится (требуется большое число итераций V), адаптивный - дает нестабильные оценки. В таких условиях лучшие результаты достигаются при увеличении локальной области сглаживания.
Предложенный итерационный алгоритм применен для анализа зависимости успеваемости студентов очной формы обучения в первую сессию от суммарного балла ЕГЭ. Фактические данные получены из информационной системы НГТУ [20], где накапливается информация как обо всех результатах обучения студентов, так и о факторах, способных влиять на успешность освоения ими образовательной программы: результаты ЕГЭ, на основании которых студенты были зачислены в вуз, а также информация об учебных планах и организации учебного процесса.
В качестве детерминированных входных факторов рассматривались:
- вид факультета - ФБ и ФМА;
- направленность учебных дисциплин - профессиональные (ПР), естественно-научные (ЕН), гуманитарные и социально-экономические (ГСЭ) дисциплины.
Объем выборки составил 513 студентов. Успеваемость в осеннюю сессию 2012 года определялась по среднему баллу по всем дисциплинам соответствующего блока в 100-балльной шкале. Исходные данные изображены на рисунке светлыми маркерами по экономическому факультету, темными - по техническому.
При оценивании предполагалось, что соотношение дисперсий ошибок пропорционально дисперсиям наблюдаемых переменных. Для получения наилучшего результата в силу сильной зашумленности данных выбрано большое число ближайших соседей (97,5 % от объема выборки). Прогнозные значения отклика изображены линиями на рисунке. Видно, что прогнозные значения результативности освоения одних и тех же групп дисциплин близки для разных факультетов.
Наиболее существенные отличия проявляются в освоении различных блоков дисциплин. Так, при одном и том же входном уровне знаний результаты освоения студентами гуманитарных и социально-экономических дисциплин оцениваются более высоко, чем естественно-научных и профессиональных.
Зависимость успеваемости в первую сессию от суммарного балла ЕГЭ
(ФБ и ФМА)
Таким образом, предложенный подход для задачи оценки успеваемости позволяет выявить группы дисциплин, где влияние входного уровня знаний студентов проявляется особенно сильно, что может помочь в корректировке методик обучения для снижения вероятности отчисления на начальных семестрах. В целом подход может стать хорошей альтернативой полупараметрическим методам [21], поскольку позволяет более гибко описывать влияние детерминированных (качественных) признаков. Дальнейшее развитие локально взвешенного сглаживания структурных зависимостей связывается с повышением устойчивости к сильному засорению данных на основе идей робастного оценивания [22], а также с исследованием возможности глобальной оптимизации целевой функции по неизвестным параметрам, не требующей применения адаптивных и итерационных процедур.
ЛИТЕРАТУРА
[1] Анатольев С. Непараметрическая регрессия // Квантиль. - 2009. - №7. - С. 37-52.
[2] Катковник В.Я. Непараметрическая идентификация и сглаживание данных: метод локальной аппроксимации. - М.: Наука, 1985. - 336 с.
[3] Кендалл М. Статистические выводы и связи/ М. Кендалл, А. Стьюарт. - М.: Наука, 1973. - 899 с.
[4] Blundell R. Semi-nonparametric IV estimation of shape-invariant engel curves / R. Blundell, X. Chen, D. Kristensen // Econometrica. - 2007. - Vol. 75. - № 6. - Pp. 1613-1669.
[5] Khan S. Weighted And Two-Stage Least Squares Estimation Of Semiparametric Truncated Regression Models / S. Khan, A. Lewbel // Econometric Theory. - 2007. - Vol. 23. - № 2. -Pp. 309-347.
[6] Schennach S.M. Estimation of nonlinear models with measurement error // Econometrica. -2004. - Vol. 72. - № 1. - Рр. 33-75.
[7] Van Huffel S., Vandewalle J. The Total Least Squares Problem: Computational Aspects and Analysis // SIAM. - 1991. - 288 p.
[8] Тимофеев В. С. Идентификация зависимостей признаков стохастической природы на основе регрессии Деминга / В.С. Тимофеев, В.Ю. Щеколдин, А.Ю. Тимофеева // Информатика и ее применения. - 2013. - Т. 7. - Вып. 2. - С. 60-68.
[9] Тимофеева А.Ю. Полупараметрическое оценивание зависимостей между стохастическими переменными / А.Ю. Тимофеева, О.И. Бузмакова // Научный вестник НГТУ. -2012. - № 4 (49). - С. 29-37.
[10] Cleveland W.S. Robust Locally Weighted Regression and Smoothing Scatterplots // Journal of the American Statistical Association. - 1979. - Vol. 74. - № 368. - Рр. 829-836.
[11] Cleveland W.S. Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting / W.S. Cleveland, S.J. Devlin // Journal of the American Statistical Association. - 1988. - Vol. 83. - № 403. - Рр. 596-610.
[12] Вучков И. Прикладной линейный регрессионный анализ / И. Вучков, Л. Бояджиева, Е. Солаков. - М.: Финансы и статистика, 1987. - 239 с.
[13] Cramer H. Mathematical Methods of Statistics. - Bombay: Asia Publishing House, 1962. -575 p.
[14] Pinson P. Local Linear Regression with Adaptive Orthogonal Fitting for the Wind Power Application / P. Pinson, H.A. Nielsen, H. Madsen, T.S. Nielsen // Statistics and Computing. -2008. - Vol. 18. - № 1. - Рр. 59-71.
[15] Hardle W. Applied Nonparametric Regression. - New York: Cambridge University Press, 1992. - 352 p.
[16] Тимофеев В. С. Эконометрика / В.С. Тимофеев, А.В. Фаддеенков, В.Ю. Щеколдин. -М.: Юрайт, 2013. - 328 с.
[17] Борисова А. А. Готовность будущих специалистов состояться в профессии (индикаторы мониторинга) / А.А. Борисова, В.С. Тимофеев, А.Ю. Тимофеева // Труд и социальные отношения. - 2013. - № 2. - C. 62-80.
[18] Ивахненко А.Г. Помехоустойчивость моделирования / А.Г. Ивахненко, В.С. Сте-пашко. - Киев: Наукова думка, 1985. - 216 с.
[19] Денисов В. И. Устойчивые распределения и оценивание параметров регрессионных зависимостей / В. И. Денисов, В. С. Тимофеев // Известия Томского политехнического университета. - 2011. - Т. 318. - № 2. - С. 10-15.
[20] Стасышин М.В. Информационная система университета: опыт создания и текущее состояние / В. М. Стасышин, О. Е. Аврунев, Е. В. Афонина, К. Н. Лях // Открытое и дистанционное образование. - 2012. - № 2(46). - С. 9-15.
[21] Yatchev A. Semiparametric Regression for the Applied Econometrician. - Cambridge University Press, 2003. - 213 p.
[22] Денисов В.И. Устойчивое оценивание нелинейных структурных зависимостей / В.И. Денисов, А.Ю. Тимофеева, Е.А. Хайленко, О.И. Бузмакова // Сибирский журнал индустриальной математики. - 2013. - № 4. - С. 47-60.
LOCALLY WEIGHTED SMOOTHING OF STRUCTURAL RELATIONSHIPS FOR THE STUDENT PROGRESS ANALYSIS
Timofeeva A.Yu., Avrunev O.E.
Novosibirsk State Technical University, Novosibirsk, Russia
The problem of estimating locally weighted regression is considered in conditions when one of the input factors is observed with random errors, while others are deterministic. The presence of errors in the input variable leads to a degradation in the estimation quality based on the weighted least squares method. For this purpose it is proposed to estimate the orthogonal regression. An analytical solution has been found. It takes into account the presence of deterministic factors in the model. However, the problem is that the weights specifying the local area depend on regression parameters. Therefore, an iterative estimation procedure has been developed along with the known adaptive algorithm. To determine an optimal number of nearest neighbors it is proposed to use a root mean square error. In the computing experiments the validity of this criterion has been proved for small and medium noise levels in the data. Heavy contamination of the
sample leads to problems with the convergence of the iterative algorithm and with the stability of estimation results of the adaptive algorithm. This entails a distortion of response estimates, and thus the curve smoothness is provided only if the number of nearest neighbors is great. Further development of the algorithms is related to an increase in their resistance to erroneous data. The developed iterative algorithm has been used to assess the progress of students. Average results of the first examination session were smoothed depending on the total score of the unified state exam, the subjects studied and the university department. This allowed making qualitative assessments of the efficiency of the process of learning at the University and of the actual level of student knowledge.
Keywords: locally weighted regression; nearest neighbor; orthogonal regression; total least squares; deterministic factor; qualitative attribute; computing experiment; progress evaluation.
REFERENCES
[1] Anatol'ev S. Neparametricheskaia regressiia [Nonparametric regression]. Kvantil', 2009, no. 7, pp. 37-52.
[2] Katkovnik V.Ia. Neparametricheskaia identifikatsiia i sglazhivanie dannykh: metod loka-I'noi approksimatsii [Nonparametric identification and data smoothing: local approximation method]. Moscow, Nauka Publ., 1985. 336 p.
[3] Kendall M., St'iuart A. The Advanced Theory of Statistics: Inference and relationship. London, Charles Griffin and Co., Ltd., 1961, 676 p. (Russ. ed.: M. Kendall, A. St'iuart Statisticheskie vyvody i sviazi. Moscow, Nauka Publ., 1973. 899 p.).
[4] Blundell R., Chen X., Kristensen D. Semi-nonparametric IV estimation of shape-invariant engel curves. Econometrica, 2007, no. 6, pp. 1613-1669. doi: 10.1111/j. 1468-0262.2007.00808.x.
[5] Khan S., Lewbel A. Weighted And Two-Stage Least Squares Estimation Of Semiparamet-ric Truncated Regression Models. Econometric Theory, 2007, no. 2, pp. 309-347. doi: 10.1017/S0266466607070132.
[6] Schennach S.M. Estimation of nonlinear models with measurement error. Econometrica, 2004, no. 1, pp. 33-75. doi:10.1111/j.1468-0262.2004.00477.x.
[7] Van Huffel S., Vandewalle J. The Total Least Squares Problem: Computational Aspects and Analysis. Philadelphia, SIAM, 1991, 288 p.
[8] Timofeev V.S., Shchekoldin V.Iu., Timofeeva A.Iu. Identifikatsiia zavisimostei priznakov stokhasticheskoi prirody na osnove regressii Deminga [The error-in-variables model identification on the basis of Deming's approach]. Informatika i ee primenenija, 2013, no. 2, pp. 60-68.
[9] Timofeeva A.Iu., Buzmakova O.I. Poluparametricheskoe otsenivanie zavisimostei mezhdu stokhasticheskimi peremennymi [Semiparametric estimation of regression with stochastic variables]. Nauchnyi vestnikNGTU, 2012, no. 4, pp. 29-37.
[10] Cleveland W.S. Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of the American Statistical Association, 1979, no. 368, pp. 829-836. doi: 10.1080/ 01621459.1979.10481038
[11] Cleveland W.S., Devlin S.J. Locally Weighted Regression: An Approach to Regression Analysis by Local Fitting. Journal of the American Statistical Association, 1988, no. 403, pp. 596-610. doi: 10.1080/01621459.1988.10478639
[12] Vuchkov I., Boiadzhieva L., Solakov E. Prikladnoi lineinyi regressionnyi analiz [Applied Linear Regression Analysis]. Moscow, Finansy i statistika Publ., 1987, 239 p.
[13] Cramer H. Mathematical Methods of Statistics. Bombay, Asia Publishing House, 1962, 575 p.
[14] Pinson P., Nielsen H.A., Madsen H., Nielsen T.S. Local Linear Regression with Adaptive Orthogonal Fitting for the Wind Power Application. Statistics and Computing, 2008, no. 1, pp. 59-71. doi: 10.1007/s11222-007-9038-7.
[15] Hardle W. Applied Nonparametric Regression. New York, Cambridge University Press, 1992, 352 p.
[16] Timofeev V.S., Faddeenkov A.V., Shchekoldin V.Iu. Ekonometrika [Econometrics]. Moscow, Iurait Publ., 2013. 328 p.
[17] Borisova A.A., Timofeev V.S., Timofeeva A.Iu. Gotovnost' budushchikh spetsialistov sostoiat'sia v professii (indikatory monitoringa) [Future specialists' commitment to become
competent professionals (monitoring indicators)]. Trud i sotsial'nye otnosheniia, 2013, no. 2, pp. 62-80.
[18] Ivakhnenko A.G., Stepashko V.S. Pomekhoustoichivost' modelirovanija [Noise stability of modeling]. Kiev, Naukova dumka Publ., 1985. 216 p.
[19] Denisov V.I., Timofeev V.S. Ustoichivye raspredeleniia i otsenivanie parametrov regres-sionnykh zavisimostei [Stable distributions and estimating parameters of regression dependences]. Izvestiia Tomskogopolitekhnicheskogo universiteta, 2011, no. 2, pp. 10-15.
[20] Stasyshin V.M., Avrunev O.E., Afonina E.V., Liakh K.N. Informatsionnaia sistema uni-versiteta: opyt sozdaniia i tekushchee sostoianie [University information system: experience of creating and current state]. Otkrytoe i distantsionnoe obrazovanie, 2012, no. 2, pp. 9-15.
[21] Yatchev A. Semiparametric Regression for the Applied Econometrician. Cambridge, University Press, 2003, 213 p.
[22] Denisov V.I., Timofeeva A.Yu., Khailenko E.A., Buzmakova O.I. Robust estimation of nonlinear structural models. Journal of Applied and Industrial Mathematics, 2014, no. 1, pp. 28-39. doi: 10.1134/S1990478914010049.
СВЕДЕНИЯ ОБ АВТОРАХ
Тимофеева Анастасия Юрьевна - родилась в 1984 году, канд. экон. наук, старший преподаватель кафедры экономической информатики Новосибирского государственного технического университета. Область научных интересов: развитие методов статистического анализа объектов стохастической природы, в том числе социально-экономических явлений. Опубликовано 25 научных работ. (Адрес: 630073, Россия, Новосибирск, пр. Карла Маркса, 20. Email: [email protected])
Timofeeva Anastasia Yur'evna (b. 1984) - PhD (Econ.), Senior Lecturer of Computer Science in Economics Department of the Novosibirsk State Technical University. Her research interests are currently focused on the methods development for the statistical analysis of stochastic objects nature, including socioeconomic phenomena. She is author of 25 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. Email: [email protected])
Аврунев Олег Евгеньевич - родился в 1981 году, окончил Новосибирский государственный технический университет (НГТУ), с 2013 года аспирант кафедры программных систем и баз данных НГТУ, директор Центра информатизации университета НГТУ. Область научных интересов: статистическое моделирование учебного процесса, разработка информационных систем. (Адрес: 630073, Россия, Новосибирск, пр. Карла Маркса, 20. Email: [email protected])
Avrunev Oleg Evgen'evich (b. 1981) - graduated from the Novosibirsk State Technical University (NSTU), Post-graduated Student of Software Systems and Databases Department of the NSTU, Deputy Manager of Information Technologies Center in NSTU. His research interests are currently focused on statistical simulation of the educational process, information systems development. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. Email: [email protected])
Статья поступила 17 февраля 2014 г.
Received 17 Feb. 2014
To Reference:
Timofeeva A.Yu., Avrunev O.E. Lokal'no vzveshennoe vosstanovlenie strukturnykh zavisimostei v zadache analiza uspevaemosti [Locally weighted smoothing of structural relationships for the student progress analysis]. Doklady Akademii Nauk Vysshei Shkoly Rossiiskoi Federatsii [Reports of Russian Higher Education Academy of Sciences], 2014, no. 1(22), pp. 135-146. (in Russ.).