Научная статья на тему 'Построение многофакторной модели успеваемости студента'

Построение многофакторной модели успеваемости студента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
184
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКОНОМЕТРИЧЕСКИЕ МОДЕЛИ / ФИКТИВНЫЕ ПЕРЕМЕННЫЕ / ПОДБОР ОБЬЯСНЯЮЩИХ ПЕРЕМЕННЫХ / ECONOMETRIC MODELS / SIMULATED VARIABLES / SELECTION OF EXPLANATORY VARIABLES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Галимова Н.С., Загитова Л.Р.

Целью исследования является оценка результатов ЕГЭ как показателя уровня знаний абитуриентов, а также выявление факторов, проецирующих успеваемость первокурсников вуза. В исследовании были использованы методы подбора обьясняющих переменных: исключение квазинеизменных переменных,метод анализа матрицы коэффициентов корреляции, процедура исключения a posteriori; тест Чоу для ввода фиктивных переменных. Основным информационным источником для проведения исследования стали данные внутривузовской информационной системы «ИСУ АГНИ». Основными результатами исследования являются следующие: - выявлен тип связи успеваемости студентов с факторами; - определено оптимальное множество объясняющих переменных для прогнозирования успеваемости студентов; - с помощью теста Чоу было выяснено, что качество частных моделей регрессии превосходит качество общей модели регрессии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CONSTRUCTION OF A MULTI-FACTOR MODEL OF THE STUDENTS’ ACADEMIC PERFORMANCE

The aim of the study is to evaluate the results of the national college entrance exam as an indicator of the level of knowledge of applicants, as well as to identify factors that project the performance of freshmen at universities. The study used the methods of selection of explanatory variables: the exclusion of quasi-constant variables, the method of analysis of the matrix of correlation coefficients, the procedure for eliminating a posteriori, Chow test for entering simulation variables. The main information source for the study was the data of the intra-university Information System of Almetyevsk State Oil Institute. The main results of the study are as follows: - The type of relationship between student performance and factors is identified; - The best set of explanatory variables for predicting student performance is determined; - With the help of the Chow test, it was found that the quality of private regression models exceeds the quality of the general regression model.

Текст научной работы на тему «Построение многофакторной модели успеваемости студента»

DOI: https://doi.org/10.23670/IRJ.2020.96.6.080

ПОСТРОЕНИЕ МНОГОФАКТОРНОЙ МОДЕЛИ УСПЕВАЕМОСТИ СТУДЕНТА

Научная статья

Галимова Н. С.1' *, Загитова Л. Р.2

1 2 Альметьевский государственный нефтяной институт, г. Альметьевск, Россия

* Корреспондирующий автор (kastiel_O[at]mail.ru)

Аннотация

Целью исследования является оценка результатов ЕГЭ как показателя уровня знаний абитуриентов, а также выявление факторов, проецирующих успеваемость первокурсников вуза. В исследовании были использованы методы подбора обьясняющих переменных: исключение квазинеизменных переменных,метод анализа матрицы коэффициентов корреляции, процедура исключения a posteriori; тест Чоу для ввода фиктивных переменных. Основным информационным источником для проведения исследования стали данные внутривузовской информационной системы «ИСУ АГНИ».

Основными результатами исследования являются следующие:

- выявлен тип связи успеваемости студентов с факторами;

- определено оптимальное множество объясняющих переменных для прогнозирования успеваемости студентов;

с помощью теста Чоу было выяснено, что качество частных моделей регрессии превосходит качество общей модели регрессии.

Ключевые слова: эконометрические модели, фиктивные переменные, подбор обьясняющих переменных

CONSTRUCTION OF A MULTI-FACTOR MODEL OF THE STUDENTS' ACADEMIC PERFORMANCE

Research article

Galimova N. S.1' *, Zagitova L. R.2

1 2 Almetyevsk State Oil Institute, Almetyevsk, Russia

* Corresponding author (kastiel_O[at]mail.ru)

Abstract

The aim of the study is to evaluate the results of the national college entrance exam as an indicator of the level of knowledge of applicants, as well as to identify factors that project the performance of freshmen at universities. The study used the methods of selection of explanatory variables: the exclusion of quasi-constant variables, the method of analysis of the matrix of correlation coefficients, the procedure for eliminating a posteriori, Chow test for entering simulation variables. The main information source for the study was the data of the intra-university Information System of Almetyevsk State Oil Institute.

The main results of the study are as follows:

- The type of relationship between student performance and factors is identified;

- The best set of explanatory variables for predicting student performance is determined;

- With the help of the Chow test, it was found that the quality of private regression models exceeds the quality of the general regression model.

Keywords: econometric models, simulated variables, selection of explanatory variables.

Введение

Ни для кого не секрет, что в российские вузы школьники поступают по результатам единого государственного экзамена. Однако, не все ребята с высокими «стартовыми» баллами ЕГЭ держат данную планку по успеваемости в вузе. Данная практика определила актуальность исследования. Накопленный опыт позволяет использовать статистические данные для проверки наличия связи результатов ЕГЭ и последующей успеваемостью в вузе [7]. Также выделены дополнительные факторы, которые могут потенциально оказать влияние на успеваемость студентов помимо результатов ЕГЭ, а именно: средний балл по аттестату, сразу ли после окончания суза абитуриент поступает в вуз, живет ли студент в общежитии, приезжий ли студент или местный.

Регрессионный анализ

Для исследования связи между результатами ЕГЭ и успеваемостью студентов первого курса был использован массив данных, включающий обезличенную информацию о студентах, обучавшихся на очном отделении за период зимней сессии 2018-2019 уч.г. по 3 факультетам: Нефтегазовый (НГФ), Энергомеханический (ЭМФ), Экономический (экономика)

Согласно рисунку 1 [6, c.192], на котором представлено распределение успеваемости, студенты, поступившие с баллами более 200, были отчислены в конце первого семестра наравне с теми, кто имел балл 160 и ниже. Также же не трудно заметить широкий разброс баллов успеваемости при равных результатах ЕГЭ, к примеру, при 180: от 400 до 600! Однако, высокобальники (с баллами более 210) показывают однозначно высокие показатели успеваемости.

160 200 Результаты ЕГЭ

Рис.1 - Распределение успеваемости студентов 1-го курса

Рассчитаем разные модели, по каждой из двух х-переменных: «Баллы по ЕГЭ» и «Средний балл аттестата», чтобы понять, какая числовая переменная лучше описывает изменение у-переменной «Успеваемость» [8]. Расчеты проведены с помощью MS Exsel [3, с. 85].

Таблица 1 - Результаты вычислений параметров линейной функции

Параметр по переменной «Баллы по ЕГЭ» по переменной «Средний балл аттестата»

Линейная модель

Значение коэффициента а 2,237056 0,149332

Значение коэффициента Ь 0,009617 0,865286

Коэффициент детерминации R2 0,312048 0,382615

Экспоненциальная кривая

Значение коэффициента 1п(а) - -0,03032

Значение коэффициента Ь - 0,945854

Коэффициент детерминации R2 - 0,379052

Гиперболическая кривая

Значение коэффициента а - 7,7389723

Значение коэффициента Ь - -16,50151

Коэффициент детерминации R2 - 0,369173

По результатам расчета линейной модели, переменная «Средний балл аттестата» имеет больший вклад в целевую переменную (Ь~0,87), чем переменная «Баллы ЕГЭ» (Ь ~ 0,09617). Поэтому следующие расчеты по остальным видам моделей проведены только по переменной «Средний балл аттестата». В каждой из моделей ошибка не превышает 20%, следовательно, стоит выбрать ту модель, у которой коэффициент детерминации наибольший: г2~0,38 при линейной модели.

Однако, принимать решение о том, является ли переменная «Баллы ЕГЭ» постоянной и нужно ли ее оставлять в качестве фактора в модели, стоит после применения методов подбора оптимального количества обьясняющих переменных. И так как значение коэффициента детерминации должно быть близко к 1, чтобы модель считалась хорошей, значит, нужно улучшить обьясняемость целевой переменной [9.с.54].

Подбор обьясняющих переменных

Объясняющие переменные подбираются с помощью статистических методов.

Первый метод - исключение квазинеизменных переменных. Чтобы считать переменную обьясняемой, необходимо, чтобы она была вариабельна. Измерить размах переменной позволяет коэффициент вариации. И далее при заданном критическом значении коэффициента вариации у*, например у*=0,1, переменные удовлетворяющие условию: уКу*

признаются квазинеизменными и исключаются из множества потенциальных объясняющих переменных. Эти переменные не несут значимой информации.

Рассчитаем среднее значение, стандартное отклонение для коэффициента вариации по нашим данным [4,с.108].

Таблица 2- Расчёт коэффициента вариации по потенциальным переменным

Показатель Среднее значение стандартное отклонение Коэффициент вариации

1 2 3 4

Формула в MS Exsel СРЗНАЧ() СТАНДОТКЛОН() п.3/п.4

По переменной «Баллы ЕГЭ» 192,948 30,08 0,155925

По переменной «Средний балл аттестата» 4,3 0,37 0,081246

При заданном критическом значении коэффициента вариации V*, например, v*=0,1, переменная, удовлетворяющая условию - «Средний балл аттестата» признается квазинеизменной и исключается из множества потенциальных объясняющих переменных.

Второй метод - метод анализа матрицы коэффициентов корреляции [5].

После проведенных расчетов коэффициенты корреляции между переменной У и переменными Х1 и Х2 равны:

79.71

л/180.28*92.12

- 0.618559

5849.49

■ = 0.558612

л/180.28* 608247.17

Таким образом, мы получили вектор коэффициентов корреляции между объясняемой переменной и потенциальными объясняющими переменными в виде:

R

0.618559" 0.558612

Коэффициент корреляции пар переменных Xi и Х2 равен:

r

r

4277,3327

, = 0.571404938

•^92,1251* 608247.17

Матрица коэффициентов корреляции между потенциальными объясняющими переменными представляется в следующем виде (с учетом свойства симметричности коэффициентов):

r

R

1 0,5714

0,5714 1 I

(1.647)2

(1.647)2 + 673 - 2

1/2

= 0.063

В

м Третий метод - процедура исключения a posteriori.

н Процедура исключения a posteriori состоит из следующих этапов:

о 1. Строится модель, содержащая все объясняющие переменные.

ж 2. Для каждой потенциальной объясняющей переменной рассчитывается значение статистики: е

с т в

е

п о т

I = ■

a,.

S (a,)

(i = 1, 2,...., m)

3. Наименьшее из значений 1ъ т.е. 1ь=тт {I,} сравнивается с критическим значением I*, выбранным из таблиц Ь

33

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

r

теста Стьюдента для принятого уровня значимости у и для (n-m-1) степеней свободы. Если Ih<I*, то следует исключить из модели потенциальную объясняющую переменную Ih, повторно оценить модель со всеми оставшимися потенциальными объясняющими переменными и вернуться к этапу 2. Если же Ih>I*, то необходимо принять модель со всеми присутствующими в ней объясняющими переменными [2, с.154]. Рассчитаем по нашим данным: Ii=0.622/0.049=12.676 I2=0.0052/0.000604=8.687 I*=(673-4-1;0,95)=1,9635

Ih=min {li} =8.687 > I*, следовательно, принимаем модель со всеми присутствующими переменными.

Таким образом, проведя подбор объясняющих переменных: - методом исключения квазинеизменных; -методом анализа матрицы коэффициентов корреляции; -процедурой исключения a posteriori

пришли к результату, что модель успеваемости студентов принимается с двумя обьясняющими переменными: «Баллы ЕГЭ» и «Средний балл аттестата».

Построим линейную модель с помощью функции MS Excel ЛИНЕЙН.

Таблица 3 - Результаты линейной модели успеваемости студентов

Параметр Значение

Значение а 0,247

Значение Ь1 0,62179

Значение Ь2 0,0052

Коэффициент детерминации R2 0,445

Коэффициент аппроксимации 7,59

Итак, уравнение имеет вид: у=0.247+0,6218Х1+0,0052Х2 , где Х1 - Средний балл аттестата, Х2- Баллы ЕГЭ. Ошибка аппроксимации в пределах нормы, коэффициент детерминации вырос при добавлении второй переменной, однако, объяснимость успеваемости студентов стоит попробовать еще повысить, попытаясь ввести фиктивные переменные и проверить их целесообразность с помощью теста Чоу.

Если до сих пор мы использовали непрерывные переменные, которые могут принимать любые значения, то вводимые переменные -фиктивные или искусственные - дискретны. Необходимость ввода таких переменных определяется с помощью теста Чоу [1, с.2б3].

Для улучшения модели успеваемости студентов планируется ввести следующие фиктивные переменные [10]:

- форма финансирования обучения

Г1 - бюджетная Хэ = <

[0 - внебюджетная

- окончание среднего профессионального учреждения

Г1 - техникум

<0 - иное учреждение

- поступление в вуз в год окончания ссуза

Г1 - да Х5 =<л

[0 - нет

- территориальное происхождение студента

Г1 - местный Хб = <

[0 - иногородний

- пол студента

Г1 - мужской

<0 - женский

- направление, на котором учится студент

Г1 - техническая специальность

Х8 = <

[0 - экономическая специальность

Рассчитаем суммы квадратов остатков для общей модели регрессии: для этого применим функцию ЛИНЕЙНО, по У - успеваемость студента, по Х - Средний балл аттестата и Баллы ЕГЭ. Для данной модели ESS(UN)=100.0321. Теперь рассчитаем суммы квадратов остатков для частных выборок (табл.4).

Таблица 4 - Данные для расчета 34

№ п/п Переменная сумма квадратов остатков ESS(PR1)+ ESS(PR2)< ESS(UN) -Рнабл

ESS(PR1) ESS(PR2)

1 форма финансирования обучения 27,31 71,07 98,38<100,0321 3,74

2 окончание среднего профессионального учреждения 98,67 0,54 99,21<100,0321 1,84

3 поступление в вуз в год окончания ссуза 9,25 89,18 98,43<100,0321 3,599

4 территориальное происхождение студента 82,69 15,32 98,01<100,0321 4,57

5 пол студента 46,17 45,11 91,28<100,0321 21,296

6 направление, на котором учится студент 49,04 48,396 97,44<100,0321 5,909

Рассчитаем FKpm при уровне значимости а=0,1 и двух степеней свободы свободы k1=m+1=674 и k2=n-k-1=667 по таблице распределения Фишера-Снедекора: FKprn~L26. Сравним данное значение с наблюдаемым, вычисленное по выборочным данным. Все значения FH3& больше Fupm-. Следовательно, основная гипотеза отвергается, и качество частных моделей регрессии превосходит качество общей модели регрессии.

Таким образом, модель успеваемости студента имеет вид:

У=1,029 + 0,51018*Средний балл аттестата + 0,00291*Баллы ЕГЭ + 0,249*Форма финансирования + 0,063*0кончание СПУ + 0,132*Год окончания ссуза + 0,075*Терр.происхождение студента - 0,263*Пол студента-0,035*Направление обучения студента

R-квадрат, называемая также мерой определенности, составляет 0,53, т.е. модель улучшилась после добавления фиктивных переменных. В нашем случае ошибка прогноза составила 7,1%.

Заключение

На примере Альметьевского государственного нефтяного института миссия единого государственного экзамена в области ранжирования абитуриентов является успешной для выявления талантов и отличников.

Конфликт интересов Conflict of Interest

Не указан. None declared.

Список литературы / References

1. Айвазян С.А. Методы эконометрика: учебник /С.А. Айвазян.- М.: Магистр:ИНФРА-М,2010. - 512с.

2. Новак Эдвард Введение в методы эконометрики. Сборник задач:Пер. с польск./Под ред. И.И. Елисеевой.-М.:Финансы и статистика,2004. - 248с.

3. Абдуллин Р.З. Эконометрика в MS Excel [Электронный ресурс] : практикум/ Р.З. Абдуллин, В.Р. Абдуллин. -Иркутск : Изд-во БГУ, 2016. - 135 с.

4. Воскобойников Ю.Е. Теория вероятностей и математическая статистика (с примерами в Excel) [Электронный ресурс] : учебное пособие / Ю.Е. Воскобойников, Т.Т. Баланчук. — Электрон. текстовые данные. — Новосибирск: Новосибирский государственный архитектурно-строительный университет (Сибстрин), ЭБС АСВ, 2013. — 201 c.

5. Кремер Н.Ш., Путко Б.А. Эконометрика. -2007. с 175-251.

6. Наглядная статистика. Используем R! / А.Б. Шипунов, Е.М. Балдин, П.А. Волкова, А.И. Коробейников, С.А. Назарова, С.В. Петров, В.Г. Суфиянов. Издательство: ДМК-Пресс, 2017. - 293c.

7. Сосницкий В.Н., Потанин Н.И. Вероятностный подход к анализу успеваемости студентов // Фундаментальные исследования. - 2014. - № 8-3. - С. 734-738

8. Хавенсон Т. Е., Соловьева А. А. Связь результатов Единого государственного экзамена и успеваемости в вузе // Вопросы образования. - № 1. - 2014. - С. 176-199.

9. Бородачёв, С.М. Многомерные статистические методы: учебное пособие / С.М. Бородачёв. Екатеринбург: УГТУ -УПИ, 2009. - 85c.

10. Герасименко П.В. Анализ степени влияния основных факторов на результаты обучения высшей математике в современных условиях / П.В. Герасименко // Математика в вузе. Современные интеллектуальные технологии: Материалы международной научно-методической конференции 21 - 25 июня 2000 г. / НовГУим. ЯрославаМудрого. ВеликийНовгород, 2000. - С. 7-9

Список литературы на английском языке / References in English

1. Ayvazyan S.A. Metody ekonometrika: uchebnik [Methods of Econometrics: Textbook] / S.A. Ayvazyan. - M.: Master: INFRA-M, 2010. - 512p. [In Russian]

2. Novak Edvard Vvedenie v metody ekonometriki. Sbornik zadach: Per. s polsk. [Introduction to Econometric Methods. Collection of Tasks: Transl. from Polish] / Ed. by I.I. Eliseeva. - M.: Finance and Statistics, 2004. - 248p. [In Russian]

3. Abdullin R.Z. Ekonometrika v MS Excel [Econometrics in MS Excel] [Electronic resource]: Workshop / R.Z. Abdullin, V.R. Abdullin. - Irkutsk: BSU Publishing House, 2016. - 135 p. [In Russian]

4. Voskoboinikov Yu.E. Teoriya veroyatnostey i matematicheskaya statistika (s primerami v Excel) [Probability Theory and Mathematical Statistics (with examples in Excel)] [Electronic resource]: textbook / Yu.E. Voskoboinikov, T.T. Balanchuk. -Electron. Text Data. - Novosibirsk: Novosibirsk State University of Architecture and Civil Engineering (Sibstrin), EBS DIA, 2013. - 201 p. [In Russian]

5. Kremer N.Sh., Putko B.A. Ekonometrika [Econometrics]. - 2007. p 175-251. [In Russian]

6. Naglyadnaya statistika. Ispolzuem R! [Visual Statistics. We Use R!] / A.B. Shipunov, E.M. Baldin, P.A. Volkova, A.I. Korobeinikov, S.A. Nazarova, S.V. Petrov, V.G. Sufiyanov. Publisher: DMK-Press, 2017. - 293p. [In Russian]

7. Sosnitskiy V.N., Potanin N.I. Veroyatnostnyi podkhod k analizu uspevaemosti studentov [Probabilistic Approach to Student Performance Analysis] // Bazovoye issledovaniye [Basic Research]. - 2014. - No. 8-3. - P. 734-738 [In Russian]

8. Khavenson T. E., Solovyeva A. A. Svyaz rezultatov Yedinogo gosudarstvennogo ekzamena i uspevaemosti v vuze [Connection between the Results of the Unified State Exam and Academic Performance] // Voprosy obrazovaniya [Education Issues]. - No.1. - 2014. - P. 176-199. [In Russian]

9. Borodachyov, S.M. Mnogomernye statisticheskie metody: uchebnoe posobie [Multidimensional Statistical Methods: Training Manual] / S.M. Borodachev. Yekaterinburg: USTU - UPI, 2009. - 85 p. [In Russian]

Gerasimenko P.V. Analiz stepeni vliyaniya osnovnykh faktorov na rezultaty obuchenya vysshei matematike v sovremennykh usloviyakh [Analysis of the Degree of Influence of the Main Factors on the Results of Teaching Further Mathematics under Modern Conditions] / P.V. Gerasimenko // Mathematics at the University. Modern Intellectual Technologies: Materials of the International Scientific and Methodical Conference June 21 - 25, 2000 / NovSU named after Yaroslav the Wise. Veliky Novgorod, 2000. - P. 7-9 [In Russian]

i Надоели баннеры? Вы всегда можете отключить рекламу.