Научная статья на тему 'УСТОЙЧИВОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ В ЗАДАЧЕ АНАЛИЗА УСПЕВАЕМОСТИ'

УСТОЙЧИВОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ В ЗАДАЧЕ АНАЛИЗА УСПЕВАЕМОСТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
40
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТРУКТУРНАЯ ЗАВИСИМОСТЬ / МЕТОД НАИМЕНЬШИХ УРАВНОВЕШЕННЫХ КВАДРАТОВ / МЕТОД СКОРРЕКТИРОВАННЫХ КВАДРАТОВ / РАССТОЯНИЕ КУКА / РАССТОЯНИЕ МАХАЛАНОБИСА / РОБАСТНОЕ РАССТОЯНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тимофеева Анастасия Юрьевна, Хайленко Екатерина Алексеевна

Рассмотрена задача оценивания параметров полиномиальных структурных зависимостей. Разработаны модификации метода наименьших уравновешенных квадратов (LTS) на основе расстояний Кука, Велша-Куха, Махаланобиса и робастного расстояния для устойчивого оценивания такого рода зависимостей, с помощью вычислительных экспериментов показана работоспособность предложенных модификаций. Проведено исследование этих методов при различных условиях вычислительных экспериментов. Приведены результаты сравнения точности оценивания параметров структурного уравнения, полученных данными модификациями метода LTS, с результатами, полученными скорректированным методом наименьших квадратов (ALS) и разработанным авторами ранее методом LTS на основе метода ALS. Получено, что при появлении в выборке только горизонтальных либо только вертикальных выбросов для получения устойчивых оценок параметров полиномиальных структурных зависимостей целесообразно использовать метод LTS на основе метода ALS; при появлении в выборке как горизонтальных, так и вертикальных выбросов рекомендуемыми методами оценивания являются модификации метода LTS на основе расстояний Махаланобиса и робастного. Все модификации метода LTS применены для анализа успеваемости студентов Новосибирского государственного технического университета на примере факультета механизации и автоматизации и дисциплины «Информатика».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тимофеева Анастасия Юрьевна, Хайленко Екатерина Алексеевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ROBUST ESTIMATION OF STRUCTURAL MODEL PARAMETERS IN APPLICATION TO STUDENTS’ PROGRESS ANALYSIS

The problem of estimation of structural model parameters is considered. Modifications of Least Trimmed Squares (LTS) method using Mahalanobis, robust, Cook and Welsch-Kuh distances have been proposed. The efficiency of the proposed modifications was showed using computing experiment. Results of these methods investigation in different conditions of computing experiments were conducted. Results of compare accuracy between these modifications of LTS method, the Adjusted Least Squares method (ALS) and modification of LTS method using ALS method, which was proposed by authors previously, were discussed. Recommendations to application proposed method are following: in case there are only vertical or only horizontal outliers in sample of data better to use modification of LTS method based on ALS method for estimating structural model parameters; when there are both types of outliers in sample - modification of LTS method based on Mahalanobis and robust distances. These modifications of LTS method were applied to problem of students’ progress analysis.

Текст научной работы на тему «УСТОЙЧИВОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ В ЗАДАЧЕ АНАЛИЗА УСПЕВАЕМОСТИ»

_ДОКЛАДЫ АН ВШ РФ_

2015_апрель-июнь_2(27)

- ТЕХНИЧЕСКИЕ НАУКИ -

УДК 519.242.5

УСТОЙЧИВОЕ ОЦЕНИВАНИЕ ПАРАМЕТРОВ СТРУКТУРНЫХ ЗАВИСИМОСТЕЙ В ЗАДАЧЕ АНАЛИЗА УСПЕВАЕМОСТИ

А.Ю. Тимофеева, Е.А. Хайленко

Новосибирский государственный технический университет

Рассмотрена задача оценивания параметров полиномиальных структурных зависимостей. Разработаны модификации метода наименьших уравновешенных квадратов (LTS) на основе расстояний Кука, Велша-Куха, Махаланобиса и робастного расстояния для устойчивого оценивания такого рода зависимостей, с помощью вычислительных экспериментов показана работоспособность предложенных модификаций. Проведено исследование этих методов при различных условиях вычислительных экспериментов. Приведены результаты сравнения точности оценивания параметров структурного уравнения, полученных данными модификациями метода LTS, с результатами, полученными скорректированным методом наименьших квадратов (ALS) и разработанным авторами ранее методом LTS на основе метода ALS. Получено, что при появлении в выборке только горизонтальных либо только вертикальных выбросов для получения устойчивых оценок параметров полиномиальных структурных зависимостей целесообразно использовать метод LTS на основе метода ALS; при появлении в выборке как горизонтальных, так и вертикальных выбросов рекомендуемыми методами оценивания являются модификации метода LTS на основе расстояний Махаланобиса и робастного. Все модификации метода LTS применены для анализа успеваемости студентов Новосибирского государственного технического университета на примере факультета механизации и автоматизации и дисциплины «Информатика».

Ключевые слова: структурная зависимость, метод наименьших уравновешенных квадратов, метод скорректированных квадратов, расстояние Кука, расстояние Велша-Куха, расстояние Махаланобиса, робастное расстояние.

DOI: 10.17212/1727-2769-2015-2-117-127

Введение

В последнее время особое внимание начинает уделяться проблемам оценки качества образовательных услуг. Наряду с формальными показателями работы высших учебных заведений ключевой характеристикой здесь должна являться удовлетворенность основных потребителей - студентов. Одним из индикаторов, тесно связанным с удовлетворенностью, можно считать степень востребованности выпускников [1]. Однако такой индикатор отражает только конечный результат обучения и не позволяет судить об отношении к самому образовательному процессу, хотя именно это было бы наиболее ценной информацией для принятия управленческих решений руководством вуза о корректировке учебных планов, рабочих программ и других аспектов образовательной деятельности.

Некоторая обратная связь в ходе обучения все же присутствует, она выражается в основном эпизодическими жалобами неуспевающих студентов. Иногда проводятся анкетирования студентов на предмет их удовлетворенности обучением конкретным дисциплинам. Однако вся эта информация носит субъективный характер, и на ее основе сложно сделать какие-то выводы и рекомендации для

Работа выполнена при финансовой поддержке РФФИ в рамках научного проекта № 14-07-31171 мол а.

© 2015 А.Ю. Тимофеева, Е.А. Хайленко

управления образовательным процессом. В целом, есть потребность в более объективном инструменте оценки и сопоставления преподаваемых дисциплин с точки зрения их сложности для студентов.

1. Методы статистического анализа успеваемости

Согласно классической теории тестирования [2], фактически наблюдаемая успешность х/ выполнения заданий /-м студентом складывается из некоторого истинного ненаблюдаемого уровня успеваемости Х/ и случайной погрешности измерения 81-. Относительно случайной ошибки предполагается равенство нулю математического ожидания, конечность дисперсии. Стандартным также является предположение об отсутствии корреляции ошибки 81- с истинным значением Х/.

Однако многие исследователи [3] не признают его обоснованность в силу того, что, например, успеваемость более сильных студентов может быть измерена более точно, если тест достаточно сложный. В то же время, в соответствии с учебной практикой, слабые студенты тоже достаточно четко выявляются, они обычно не успевают по многим дисциплинам. Следовательно, далее будет предполагаться существование зависимости между истинным уровнем успеваемости Х/ и дисперсией ошибки ст„ его измерения. При этом описывающая такую зависимость 2

гладкая функция ст„ (Х/) должна убывать в направлении как низких, так и высоких значений Х/, т. е. иметь максимум при среднем уровне успеваемости.

Успешность освоения отдельной дисциплины /-м студентом в общем случае является некоторой нелинейной функцией от его истинного уровня успеваемости. Степень нелинейности этой функции зависит от используемой преподавателем шкалы для перевода знаний и навыков студентов в оценки. Для иллюстрации и удобства интерпретации такую функцию берут обычно степенной [4]:

У/ = Х° , / = М , (1)

где X/ е [0,1], а > 0, п - число студентов. При а = 1 получаем линейную зависимость, и оценка прямо пропорциональна успеваемости студентов. В случае если а < 1, зависимости называются сублинейными, и дифференцирующая способность используемой преподавателем шкалы выше для слабых студентов. При а > 1 зависимости от Х/ будут надлинейными, они повышают дифференцирующую способность шкалы для сильных студентов.

По результатам сессии истинный уровень успешности освоения У/ отдельной дисциплины измеряется с некоторой погрешностью ег-:

У/ = ¥1 + ег , ' = 1, п .

Предположения относительно данной погрешности аналогичны введенным выше предположениям о случайной ошибке измерения уровня успеваемости.

Для представления нелинейной модели (1) предлагается использовать полиномиальную аппроксимацию:

У/ = 01 +02 ( -8г) + 03 ( -8г )2 +... +ет ( -8г )-1 +8г, / = \П. (2)

В силу наличия ошибок в объясняющей переменной зависимость (2) носит название структурной [5]. Задача состоит в оценивании вектора неизвестных параметров 8 .

В качестве у, предлагается рассматривать оценки по отдельным сессиям. Всеобщее внедрение 100-балльной шкалы оценок и балльно-рейтинговой системы позволяет более четко дифференцировать уровень освоения предметов по сравнению со стандартными оценками от «неудовлетворительно» до «отлично». Однако возникает проблема определения индикатора xi истинного уровня успеваемости

студентов для сопоставления его с результатами сессии по каждой дисциплине. В качестве такого индикатора предлагается использовать суммарный (средний) балл за сессию.

Согласно рассмотренной постановке использование такого индикатора в моделях вида (2) сопряжено с проблемой наличия погрешностей в уровне успеваемости. Для анализа такого рода структурных зависимостей применяют специальные методы и алгоритмы, активно развиваемые авторами [6]. В данной работе предлагается ряд модификаций методов, направленных на повышение устойчивости результатов к наличию грубых ошибок измерения.

2. Модификации метода LTS для оценивания структурных зависимостей

Для поиска оценок параметров полиномиальных зависимостей вида (2) в [7] предлагается скорректированный метод наименьших квадратов (ALS) [7], который основан на использовании момента r -порядка величины X. В i-й точке

наблюдений его значение t[ можно представить в виде

tr= E(x -Si )r.

Суть данного метода состоит в следующем:

• вычисляются оценки tr исходя из рекуррентного соотношения

tr+1 ^ ?r „_2?r-1 г-1 г0 , . ti = x, t, — ras ti , ti = ti = 1,

• оценивается вектор

R j =Ъ/у,, j = 1m, i=1

• находится оценка матрицы

PrS=£?+s, r, s=1m, i=1

• вычисляется вектор неизвестных параметров

8 ALS = P—1R.

Как известно [6, 7], данный метод не является устойчивым к появлению грубых ошибок наблюдений (выбросов), поэтому в данной работе предлагается использовать робастный метод LTS, который основан на многократном построении

, , n + m +1 оценочных подмножеств размерности h , h <

-; n

^ , 1 и получении оценок методом наименьших квадратов параметров регрессионных моделей по наблюде

ниям из этих подмножеств [8]. В [9] разработаны и исследованы алгоритмы модификаций метода на основе расстояний Кука, Велша-Куха, Махаланобиса и ро-бастного расстояния [10,11] для оценивания параметров регрессионных моделей. Использование этих расстояний при формировании оценочных подмножеств позволяет учитывать точность и разброс наблюдений, что дает возможность повысить качество оценивания в ряде случаев.

Однако метод LTS и его модификации не учитывают погрешности во входных факторах, поэтому в данной работе предлагается расширить рассмотренные методы для применения их в оценивании параметров полиномиальных структурных зависимостей. Для этого на каждой итерации метода LTS и его модификаций используется метод ALS для нахождения начального приближения и оценивания параметров по оценочным подмножествам.

3. Модельный пример

Для проверки работоспособности предложенных модификаций метода LTS для устойчивого оценивания был проведен ряд вычислительных экспериментов. В качестве исследуемой использовалась следующая модель:

П = Ч2 + 25 , (3)

где 5 подчиняется стандартному бета-распределению с параметрами а^ = 3,

ß5 = 3 . Таким образом, моделировалась сублинейная зависимость результатов

освоения дисциплины от уровня успеваемости, позволяющая в большей мере дифференцировать более слабых студентов.

Наблюдаемые значения объясняющей переменной моделировались как независимые случайные величины x,, i = 1,500, подчиненные бета-распределению с параметрами, определяемыми реализациями Xi случайной величины 5 , и заданным уровнем дисперсии ст2 .

xi

ст2 = 0,055,,

xi ' 1'

где 5i принимает значения 1, 5 с вероятностями (1 -цx) и цx (цx - доля выбросов в объясняющих переменных),

( \

1 - X,

иц ■

а x = Xi

\

СТ2Г -1

x

ß Xi = "—'~ах 1 Xi

Параметры подобраны так, чтобы Е (х,) = X,, В (х,) = 0,05 • X, (1 - X,) 8, . Следовательно, наибольший уровень погрешности достигается при X, = 0,5, а наименьший при крайних значениях истинного уровня успеваемости.

Наблюдаемые значения отклика моделировались как независимые случайные величины у,, 1 = 1,500, подчиненные бета-распределению с параметрами, определяемыми реализациями у случайной величины ^, и заданным уровнем дисперсии сту..

ст2 = 0,05е,,

у, ' 1 '

где е, принимает значения 1, 5 с вероятностями (1 -цу) и цу (Цу - доля выбросов в отклике),

а у = Yi

--1

CT

V Уг

ß У =■

1 - Yi

Уг

Уг ■

Параметры подобраны так, чтобы E(y) = Y , D(yt) = 0,05Y (1 - Y).

В качестве показателя точности оценивания параметров структурных зависимостей был взят показатель MAD (Mean Absolute Derivation - среднее абсолютное отклонение), который вычисляется по формуле [12]:

1 п

MAD = - XI Уг - У

" г=1

где n - количество наблюдений, в данном случае n = 500 ; y - оцененный вектор отклика.

Проводилось по 100 вычислительных экспериментов, каждый из которых заключался в моделировании выборки исходных данных, а также ошибок в объясняющих наблюдениях и в отклике, с последующим оцениванием параметров модели (3) с использованием модификаций метода LTS для оценивания структурных зависимостей. В качестве итоговых показателей точности оценивания MAD использовалось усредненное значение.

4. Результаты вычислительных экспериментов

Для удобства представления результатов вычислительных экспериментов введем обозначения используемых модификаций метода LTS для оценки структурных зависимостей: LTS с использованием метода ALS - ALTS; на основе расстояния Кука - ALTS_CD; на основе расстояния Велша-Куха - ALTS_WKD, на основе расстояния Махаланобиса - ALTS_ MD, на основе робастного расстояния -ALTS_RD.

Рассмотрим случай появления в выборке только вертикальных выбросов, т. е. доля выбросов в объясняющих переменных цx = 0, доля выбросов в отклике Цу

варьировалась от 0 до 0,2. На рис. 1 представлены результаты вычислительных экспериментов.

Из рис. 1 видно, что наименее точные результаты оценивания показал метод ALS, что объясняется неустойчивостью метода к появлению в выборке грубых ошибок наблюдений. Также недостаточно точные результаты дал метод LTS для оценивания параметров структурных зависимостей на основе расстояния Кука. Причиной этого может являться способ вычисления расстояния Кука [11], поскольку при появлении ошибок в объясняющих переменных наблюдения, отстоящие от основной массы, но не являющиеся выбросом, могут не учитываться в процессе формирования оценочного подмножества. Наиболее точные результаты показали методы ALTS и модификации метода LTS на основе расстояний Махаланобиса и робастного. Такое поведение этих модификаций объясняется особенностью алгоритма формирования оценочного подмножества, где в него добавляются наблюдения с учетом их удаленности от основной массы и величины остатков.

Рис. 1 - Зависимость точности оценивания от доли выбросов цy

Fig. 1 - Relation between estimation accuracy and proportion of outliers цу

Теперь рассмотрим случай появления только горизонтальных выбросов, т. е. цу = 0, а доля выбросов в объясняющих переменных варьировалась от 0

до 0,1. В табл. 1 представлены результаты оценивания.

Таблица 1 / Table 1

Точность оценивания параметров структурных зависимостей при наличии горизонтальных выбросов The estimation accuracy of structural model parameters, when horizontal outliers exist

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

л Метод

ц X a т е м а a а С ALS ALTS ALTS_CD ALTS_WKD ALTS_MD ALTS_RD

01 0,903 -0,077 0,379 -0,044 -0,035 0,039

0,00 02 0,055 2,406 1,126 2,478 2,229 1,992

03 -1,04 -1,375 -0,853 -1,740 -1,225 -1,047

MAD 0,355 0,124 0,219 0,141 0,122 0,125

01 0,825 -0,011 0,719 0,081 -0,029 0,028

0,05 02 0,301 2,183 0,061 1,975 2,278 2,051

03 -1,24 -1,182 -0,263 -1,246 -1,340 -1,129

MAD 0,343 0,129 0,289 0,149 0,133 0,127

01 0,713 -0,022 0,718 0,079 0,048 0,037

0,10 02 0,668 2,275 0,122 1,968 1,988 2,075

03 -1,57 -1,334 -0,365 -1,199 -1,071 -1,195

MAD 0,340 0,130 0,292 0,162 0,139 0,135

Из табл. 1 видно, что при появлении горизонтальных выбросов методы ALS и LTS на основе расстояния Кука так же, как и в предыдущем случае, показали наименее точные результаты по сравнению с другими рассматриваемыми разновидностями метода LTS. Наиболее точные результаты оценивания показали методы LTS на основе расстояний Махаланобиса и робастного, а также метод ALTS.

Поскольку при появлении как только горизонтальных, так и только вертикальных выбросов методы ALS и модификация метода LTS для оценки структурных зависимостей на основе расстояния Кука показали наименее точные результаты оценивания, то в дальнейших исследованиях будем рассматривать только методы ALTS и модификации метода LTS на основе расстояний Велша-Куха, Махала-нобиса и робастного.

Рассмотрим случай появления в выборке и горизонтальных, и вертикальных выбросов. На рис. 2, а, б представлены результаты оценивания, по которым видно, что при доле выбросов 5 % (цx = 0,05 ) методы ALTS и LTS на основе расстояний Махаланобиса и робастного показали близкие результаты оценивания, однако первый немного превосходит по точности. При увеличении доли горизонтальных выбросов до 10 % (цx = 0.1) оценки, получаемые модификациями метода LTS на основе расстояний Махаланобиса и робастного, являются более точными.

Рис. 2 - Зависимость точности оценивания от доли выбросов ц

a - цx = 0,05; б - цх = 0,1 Fig. 2 - Relation between estimation accuracy and proportion of outliers ц : a - цx = 0,05; b - цх = 0,1

По результатам проведенных исследований можно дать следующие рекомендации: при наличии в выборке только горизонтальных либо только вертикальных выбросов для устойчивого оценивания параметров структурных зависимостей лучше использовать метод ALTS; при наличии в выборке как вертикальных, так и горизонтальных выбросов - модификации метода LTS на основе расстояний Ма-халанобиса и робастного.

5. Практическое приложение

Для демонстрации применимости предложенных методов для практического анализа образовательного процесса проведено исследование успеваемости студентов Новосибирского государственного технического университета.

В качества примера взят один из факультетов (механизации и автоматизации) и дисциплина «Информатика». Объясняющей переменной выступал средний балл студента в первую сессию. Рассматривались студенты 2011, 2012 и 2013 годов поступления. Масштаб переменных приведен к отрезку [0,1]. Результаты оценивания квадратичной зависимости представлены в табл. 2.

Таблица 2 / Table 2

Результаты оценивания квадратичной модели студенческой успеваемости The estimation results of the quadratic model of student achievement

Год поступления Метод 01 02 03 MAD

ALTS -0,026 1,372 -0,308 0,119

ALTS CD -0,325 2,531 -1,343 0,126

2011 ALTS WKD -0,506 2,377 -0,819 0,133

ALTS MD -0,025 1,369 -0,306 0,119

ALTS RD -0,140 1,727 -0,570 0,119

ALTS -0,953 3,790 -1,853 0,114

ALTS CD -0,987 3,910 -2,017 0,112

2012 ALTS WKD -0,823 3,232 -1,378 0,114

ALTS MD -0,931 3,645 -1,716 0,114

ALTS RD -0,805 3,396 -1,599 0,112

ALTS -0,808 3,156 -1,238 0,109

ALTS CD -1,650 5,327 -2,695 0,112

2013 ALTS WKD -2,163 7,042 -4,034 0,118

ALTS MD -0,661 3,069 -1,420 0,100

ALTS RD -1,528 5,268 -2,813 0,105

Для удобства интерпретации различий в освоении дисциплины по годам графически представлены расчетные кривые, полученные с помощью модификации на основе расстояний Махаланобиса (рис. 3).

Средний балл за первую сессию

Рис. 3. Расчетные значения успешности освоения информатики в зависимости от средней успеваемости

Fig. 3 - The calculated values of the successful development of computer science depending on the average of students progress

Из рис. 3 видно, что поток студентов, поступивших в 2011 году, в целом более существенно отличается от других рассмотренных потоков. Зависимость успешности освоения дисциплины от средней успеваемости очень близка к линейной. Это свидетельствует о том, что в ходе аттестации установлена шкала оценок, прямо пропорциональная истинному уровню успеваемости студентов. Иначе обстоит дело со студентами более поздних лет поступления. Зависимости здесь носят явный сублинейный характер, поэтому по итогам сессии по дисциплине «Информатика» удается больше дифференцировать более слабых студентов, чем более сильных. Возможно, это связано с падением общего уровня знаний поступающих в вузы в последние годы. В результате преподаватели вынуждены пересматривать систему оценивания с тем, чтобы дифференцировать слабых студентов в ущерб более сильным.

Заключение

В статье рассмотрена задача оценивания параметров полиномиалных структурных зависимостей. Предложены и исследованы устойчивые модификации метода LTS для оценки такого рода зависимостей на основе расстояний Кука, Велша-Куха, Махаланобиса и робастного расстояния. С помощью вычислительных экспериментов подтверждена работоспособность предложенных методов. На основе полученных результатов исследований даны рекомендации о применении модификаций метода LTS. Проведено исследование успеваемости студентов Новосибирского государственного технического университета на примере факультета механизации и автоматизации и дисциплины «Информатика».

ЛИТЕРАТУРА

1. Борисова А. А., Тимофеева А.Ю. Выпускники вузов на рынке труда: индикаторы мониторинга и ограничители профильной занятости // Университетское управление: практика и анализ. - 2014. - № 1 (89). - С. 71-80.

2. Crocker L., Algina J. Introduction to classical and modern test theory. - New York: Harcourt Brace Jovanovich College Publishers, 1986. - 527 p.

3. Hambleton R.K., Jones R.W. An NCME instructional module on comparison of classical test theory and item response theory and their applications to test development // Educational Measurement: Issues and Practice. - 1993. - Vol. 12, iss. 3. - P. 38-47. - doi: 10.1111/j.1745-3992.1993.tb00543.x.

4. Ким В. С. Тестирование учебных достижений: монография. - Уссурийск: Изд-во УГПИ, 2007. - 214 с.

5. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. - М.: Финансы и статистика, 1985. - 488 с.

6. Устойчивое оценивание нелинейных структурных зависимостей / В.И. Денисов, А.Ю. Тимофеева, Е.А. Хайленко, О.И. Бузмакова // Сибирский журнал индустриальной математики. - 2013. - Т. 16, № 4 (56). - С. 47-60.

7. Cheng C.-L., Schneeweiss H. Polynomial regression with errors in the variables // Journal of the Royal Statistical Society: Series B. - 1998. - Vol. 60, iss. 1. - P. 189-199. -doi: 10.1111/1467-9868.00118.

8. Rousseeuw P.J., Driessen K. van. Computing LTS Regression for large data sets. Mimeo / University of Antwerpen, Department of Mathematics and Computer Science. - Antwerpen, Belgium, 1999. - 21 p.

9. Хайленко Е.А. Модификации метода LTS для устойчивого оценивания параметров регрессионных моделей // Сборник научных трудов НГТУ. - 2011. - N 1 (63). - С. 75-82.

10. Chatterjee S., Hadi A.S. Influential observations, high leverage points, and outliers in linear regression // Statistical Science. - 1986. - Vol. 1, N 3. - P. 379-416. -doi: 10.1214/ss/1177013627.

11. Radhakrishna R.C., Toutenburg H. Linear models: least squares and alternatives. -2nd ed. - New York: Springer-Verlag, 1999. - 428 p.

12. Робастность в статистике: подход на основе функций влияния / Ф. Хампель, Э. Рон-четти, П. Рауссеу, В. Штаэль. - М.: Мир, 1989. - 512 с.

ROBUST ESTIMATION OF STRUCTURAL MODEL PARAMETERS IN APPLICATION TO STUDENTS' PROGRESS ANALYSIS

Timofeeva A.Yu., Khailenko E.A.

Novosibisk state technical university, Novosibirsk, Russian Federation

The problem of estimation of structural model parameters is considered. Modifications of Least Trimmed Squares (LTS) method using Mahalanobis, robust, Cook and Welsch-Kuh distances have been proposed. The efficiency of the proposed modifications was showed using computing experiment. Results of these methods investigation in different conditions of computing experiments were conducted. Results of compare accuracy between these modifications of LTS method, the Adjusted Least Squares method (ALS) and modification of LTS method using ALS method, which was proposed by authors previously, were discussed. Recommendations to application proposed method are following: in case there are only vertical or only horizontal outliers in sample of data better to use modification of LTS method based on ALS method for estimating structural model parameters; when there are both types of outliers in sample - modification of LTS method based on Mahalanobis and robust distances. These modifications of LTS method were applied to problem of students' progress analysis.

Keywords: structural relation, the least trimmed squares method, the adjusted least squares method, Mahalanobis distance, robust distance, Cook distance, Welsch-Kuh distance.

DOI: 10.17212/1727-2769-2015-2-117-127

REFERENCES

1. Borisova A.A., Timofeeva A.Iu. Vypuskniki vuzov na rynke truda: indikatory monitoringa i ogranichiteli profil'noi zanyatosti [Graduates in the labor market: monitoring indicators and limiters of profiled employment]. Universitetskoe upravlenie: praktika i analiz - Journal University Management: Practice and Analysis, 2014, no. 1 (89), pp. 71-80.

2. Crocker L., Algina J. Introduction to classical and modern test theory. New York, Harcourt Brace Jovanovich College Publishers, 1986. 527 p.

3. Hambleton R.K., Jones R.W. An NCME instructional module on comparison of classical test theory and item response theory and their applications to test development. Educational Measurement: Issues and Practice, 1993, vol. 12, iss. 3, pp. 38-47. doi: 10.1111/j. 1745-3992.1993.tb00543.x

4. Kim V.S. Testirovanie uchebnykh dostizhenii. [Testing of educational achievements]. Us-suriisk, UGPI Publ., 2007. 214 p.

5. Aivazyan S.A., Yenyukov I.S., Meshalkin L.D. Prikladnaya statistika. Issledovanie zavisi-mostei [Applied statistics: study of relationships]. Moscow, Finansy i statistika Publ., 1985. 488 p.

6. Denisov V.I., Timofeeva A.Yu., Khailenko E.A., Buzmakova O.I. Ustoichivoe otsenivanie nelineinykh strukturnykh zavisimostei [Robust estimation of nonlinear structural models]. Sibirskii zhurnal industrial'noi matematiki - Journal of Applied and Industrial Mathematics, 2014, vol. 8, iss. 1, pp. 28-39. doi: 10.1134/S1990478914010049. Translated from Sibirskii zhurnal industrial'noi matematiki, 2013, vol. 16, no. 4 (56), pp. 47-60.

7. Cheng C.-L., Schneeweiss H. Polynomial regression with errors in the variables. Journal of the Royal Statistical Society: Series B, 1998, vol. 60, iss. 1, pp. 189-199. doi: 10.1111/14679868.00118

8. Rousseeuw P.J., Driessen K. van. Computing LTS regression for large data sets. Mimeo. Antwerpen, Belgium, University of Antwerpen, Department of Mathematics and Computer Science, 1999. 21 p.

9. Hailenko E.A. Modifikatsii metoda LTS dlya ustoichivogo otsenivaniya parametrov regres-sionnykh modelei [Modifications of method LTS for robust estimation parameters of regression models]. Sbornik nauchnyh trudov Novosibirskogo gosudarstvennogo tekhnicheskogo universiteta - Transaction of scientific papers of the Novosibirsk state technical university, 2011, no. 1 (63), pp. 75-82.

10. Chatterjee S., Hadi A.S. Influential observations, high leverage points, and outliers in linear regression. Statistical Science, 1986, vol. 1, no. 3, pp. 379-416. doi: 10.1214/ss/1177013627

11. Radhakrishna R.C., Toutenburg H. Linear models: least squares and alternatives. 2nd ed. New York, Springer-Verlag, 1999. 428 p.

12. Hampel F.R., Ronchetti E.M., Rousseeuw P.J., Stahel W.A. Robust statistics. Approach based on the influence function. New York, John Wiley and Sons, 1986. XXI. 502 p. (Russ. ed.: Khampel' F., Ronchetti E., Rausseu P., Shtael' V. Robastnost' v statistike: podkhod na osnove funktsii vliyaniya. Moscow, Mir Publ., 1989. 512 p.).

СВЕДЕНИЯ ОБ АВТОРАХ

Тимофеева Анастасия Юрьевна - родилась в 1984 году, канд. экон. наук, доцент, кафедра экономической информатики, НГТУ. Область научных интересов: развитие методов статистического анализа объектов стохастической природы, в том числе социально-экономических явлений. Опубликовано 35 научных работ. (Адрес: 630073, Россия, г. Новосибирск, пр. Карла Маркса, д. 20. Email: [email protected]).

Timofeeva Anastasia Yurievna (b. 1984) - Candidate of Science (PhD) in Economics, associate professor of Computer Science in Economics Department of the Novosibirsk State Technical University. Her research interests are currently focused on the development of methods for the statistical analysis of stochastic objects, including socioeconomic phenomena. She is author of 35 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. Email: [email protected]).

Хайленко Екатерина Алексеевна - родилась в 1985 году, канд. техн. наук, научный сотрудник, кафедра теоретической и прикладной информатики, НГТУ. Область научных интересов: разработка и исследование алгоритмов устойчивого и адаптивного оценивания параметров регрессионных зависимостей и планирование эксперимента. Опубликовано 18 научных работ. (Адрес: 630073, Россия, Новосибирск, проспект Карла Маркса, 20. Email: [email protected]).

Khailenko Ekaterina Alekseevna (b. 1985) - Candidate of Technical Sciences, research associate, Department of Theoretical and Applied Informatics, NSTU. Her research interests are currently focused on developing and investigating algorithms of robust and adaptive estimation parameters of regression models and design of experiment. He is author of 18 scientific papers. (Address: 20, Karl Marx Av., Novosibirsk, 630073, Russia. Email: [email protected]).

Статья поступила 5 марта 2015 г.

Received March 5, 2015

To Reference:

Timofeeva A.Yu., Khailenko E.A. Ustoichivoe otsenivanie parametrov strukturnykh zavisimostei v zadache analiza uspevaemosti [Robust estimation of structural model parameters in application to students' progress analysis]. Doklady Akademii nauk vysshei shkoly Rossiiskoi Federatsii -Proceedings of the Russian higher school Academy of sciences, 2015, no. 2 (27), pp. 117-127. doi: 10.17212/1727-2769-2015-2-117-127

i Надоели баннеры? Вы всегда можете отключить рекламу.