Выявление зависимости между переменными, характеризующими студента и показателем успешности обучения в вузе
Бурдуковская Анна Валерьевна,
к.ф.- м.н., доцент, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет»
E-mail: buran_baikal@mail.ru Новгородцева Татьяна Юрьевна,
к.т.н., доцент, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет» E-mail: nfyz-31@mail.ru
Иванова Елена Николаевна,
к.пед.н, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет» E-mail: iimoi@mail.ru
Пегасова Наталья Арнольдовна,
к.пед.н, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет»
E-mail: pegasova2003@mail.ru Никифорова Ирина Аркадьевна,
к.ф.- м.н., доцент, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет»
E-mail: ia-nikiforova@mail.ru
В статье решается задача выявления причинно-следственных связей между переменными, характеризующими абитуриента и показателем успешности освоения образовательной программы бакалавра. Научно-практическая значимость работы заключается в том, что проведен визуальный анализ изменения значении факторов, включенных в исследование, в частности, сумма баллов по ЕГЭ, направление подготовки, категория набора, форма обучения, пол, возраст на момент зачисления, место постоянного проживания, вид образовательного учреждения до поступления в ВУЗ, построена многофакторная регрессионная модель, описывающая зависимость успешности обучения в ВУЗе от входных характеристик абитуриента и результатов его учебы (средний балл за период обучения) в высшей школе. Цель исследования: выявить факторы, оказывающие наибольшее влияние на достижение положительного результата - освоение образовательной программы и получение диплома бакалавра. В качестве объекта исследования выбраны студенты Географического факультета Иркутского государственного университета. В процессе проведения исследования использовался методы визуализации данных и корреляционно-регрессионного анализа. В процессе проведения исследования была построена модель множественной регрессии, включающая наиболее статистически значимые характеристики абитуриента и показатели его учебы, обуславливающие успешность получения высшего образования. Рассмотренный подход может быть применен и в других учебных заведениях.
Ключевые слова: интеллектуальный анализ данных, визуализация данных, корреляционно-регрессионный анализ, мно-о гофакторная регрессионная модель, коэффициент детермина-о ции, характеристики абитуриента.
сч о см
В развитии человеческого общества огромную роль занимают проблемы качества образования [5]. Среди методов, широко используемых в процессе анализа образовательной системы с целью принятия управленческих решений, хорошо зарекомендовали себя методы многомерный анализ данных [1]. В частности, при решении следующих задач: повышение качества подготовки, академическая успешность [6]; построение системы оценки результатов обучения [3]; анализ противоречий интересов субъектов системы высшего образования [2].
Проблемы качества образования напрямую связана с задачей диагностики контингента обучающихся. Под диагностикой контингента будем понимать информацию об наблюдаемых и изучаемых объектах, в данном случае, совокупности студентов. Анализ задачи диагностики контингента позволил сделать вывод, что ее можно рассматривать как задачу интеллектуального анализа данных, следовательно, применить для ее решения соответствующие методы [4].
Методы классификации объектов (обучающихся). Сущность классификации заключается в отнесении объекта к одному из заранее известных классов. Причем, каждый объектов должен попасть только в одно подмножество. Таким образом, определяется места в системе любого объекта и устанавливается между объектами одного подмножества некоторой связи. Например, выделение групп студентов по полу и месту жительства, полезно при принятии решения о выделении мест в общежитии.
Методы кластеризация объектов (обучающихся). Под кластеризацией понимается разделение множества объектов на группы (кластеры) по степени «похожести». Причем, перечень групп четко не задан и определяется в процессе работы алгоритма. Результатом кластеризации является разбиение объектов на группы. Так, выделение кластеров позволит описать модель успешного студента.
Методы ассоциации объектов (обучающихся). Под ассоциацией понимается поиск повторяющихся наборов образцов, другими словами, поиск повторяющихся наборов характеристик, описывающих объекты. Поиск устойчивых связей между характеристиками обучающихся и результатами обучения, позволит провести анализ и установить, есть ли зависимость.
Методы прогнозирования. В данном случае, в рамках задачи прогнозирования предполагается анализ тенденций переменных, характеризующих
объекты (студентов). Построение траектории изменения уровня среднего балла за период обучения поможет внести корректировку в организацию учебного процесса.
Методы анализа отклонений. Под анализом отклонений понимается процесс определения величины отклонений и выявление причин их образования. Например, оценка отклонения показателя среднего балла за период обучения по выделенным группам от среднего балла за период обучения по всей анализируемой совокупности, позволит сделать вывод об успеваемости в целом и о размахе этой важной характеристики.
Методы визуализации. Визуализация позволяет представить числовую информацию в виде, удобном для зрительного наблюдения и анализа. В результате применения методов визуализации удается получить графические образы анализируемых данных, демонстрирующие существование закономерностей в данных.
Среди методов сбора данных, предшествующих использованию методов интеллектуального анализа данных, в отечественной практике наибольшее практическое использование получили следующие методы: опросные методы (анкетирование и интервьюирование), специальные социально-психологические методы (социометрия, рейтинг и др.), личностные тесты, качественные методы (глубинные интервью, фокус-группы и т.п.), наблюдения, изучение документов.
В данной работе в качестве методов сбора данных применен метод изучения документов - данные о контингенте, хранящиеся в информационной системе образовательного учреждения.
Задача выявления причинно-следственных связей между переменными является одной из самых важных в любом исследовании. Данная задача, естественным, может быть отнесена к задачам диагностики и при ее решении целесообразно использовать методы интеллектуального анализа данных.
С целью грамотного и обоснованного выбора методов обработки данных необходимо предварительное проведение их качественного анализа. А именно, четкое понимание, какой тип данных используется в исследовании. Форма и содержание исходных данных зависят от целей исследования и используемых методов сбора данных. При формировании массива исходных данных учитывались следующие требования: используемые данные должны отражать анализируемые стороны исследуемой системы; данные должны полно и адекватно представлять исследуемый объект.
Формально, данные, характеризующие объекты в определенный момент (или период) времени, представляют собой пространственную выборку:
х; ¡=1,2,..., п; ¡=1,2,.., р;
где х - значение у-ой переменной, измеренной у ¡-го наблюдения (объекта);
п - общее число наблюдений (число студентов), ¡=1,2, ...п;
р - общее число переменных (число характеристик), ¡=1,2, ...р.
В данной статье используется пространственная выборка. Выборка сформирована по данным Географического факультета Иркутского государственного университета за период с 2011 по 2015 гг. размерности 383 наблюдения (количество студентов) по 10 факторам. Факторы, включенные в исследование:
х0 - «Результаты обучения»; принимаемые значения: 0 - не закончил (отчислен по различным причинам); 1 - закончил обучение и получил диплом бакалавра по выбранному направлению при поступлении;
х1 - «Пол»; принимаемые значения: 1 - женский; 0 - мужской;
х2 - «Форма обучения»; принимаемые значения: 1 - очное обучение; 2 - заочное обучение;
х3 - «Сумма баллов по ЕГЭ»; принимаемые значения: 1 - до 100 баллов; 2 - от 100 до 200 баллов; 3 - выше 200 баллов;
х4 - «Направление подготовки»; принимаемые значения: 1-05.03.02 География, 2-05.03.04 Гидрометеорология, 3-05.03.06 Экология и природопользование;
х5 - «Категория набора»; принимаемые значения: 1 - бюджетный набор, 2 - коммерческий набор;
х6 - «Средний балл за период обучения»; принимаемые значения: 1 - меньше 3 баллов; 2 - от 3 до 4 баллов; 3 - от 4 до 5 баллов; 4-5 баллов;
х7 - «Возраст на момент зачисления»; принимаемые значения: 1 - до 20 лет; 2 - от 20 до 30 лет; 3 - старше 30 лет;
х8 - «Место постоянного проживания»; принимаемые значения: 1- Иркутск; 2 - Иркутская область; 3 - другие регионы;
х9 - «Вид образовательного учреждения до поступления в ВУЗ»; принимаемые значения: 1 -школа; 2 - лицей; 3 - гимназия; 4 - училище; 5 -техникум; 6 - ВУЗ;
Предварительный анализ исходных данных показал следующее.
Все переменные, включенные в исследование, количественно измерены.
Число наблюдений достаточно. Контроль за соблюдением данного условия проведен с использованием эмпирической формулы, устанавливающей соотношение между количеством переменных и числом наблюдений: п-р-1>30, где п - число наблюдений, р - число факторов, включенных в исследование.
Данные представляют собой качественно-однородную совокупность. Однородность данных подтверждена использованием: «правило трех сигм»:
х — 3ах < {х } < х + 3ах,
где х - ряд наблюдений за соответствующей переменной (характеристикой);
х- среднее значение данного ряда наблюдений;
ох - среднее квадратическое отклонение данного ряда
наблюдений.
сз о со "О
1=1 А
—I
о
сз
о т О от
З
и о со
Исходные данные считаются однородными, так как в этот интервал попадает 97% наблюдений.
На этапе визуализации исходных данных построены и проанализированы диаграммы по каждому из факторов (рис. 1). Сделаны следующие выводы. Во-первых, однозначно выделить факторы, определяющие успешность студента в процессе обучения, невозможно. Во-вторых, несмотря на достаточно высокие баллы ЕГЭ, наблюдается контингент
не справившихся с учебным планом специальности (рис. 1, а), б). В-третьих, предварительный анализ позволил выдвинуть гипотезу о влиянии показателя «Пол» на показатель «Результат обучения» (рис. 1, в), г). В-четвертых, преобладает доля студентов, поступающих в ВУЗ непосредственно после окончания школы (рис. 1, д). В-пятых, зависимости между тенденциями в изменениях уровней показателей не выявлено (рис. 1, е).
Зависимость между
факторами
-------
£
4 I
Размах значений фактора
Э Г ♦ м а ♦ 1 * _
Е о п в о л 1 ж 1 ж % и Я?
ба а 5 * Л 1 1
-м и
■и . - - -.
Сумма баллов по ЕГЭ а)
Год зачисления
б)
Распределение студентов при зачислении
Распределение студентов, успешно окончивших обучение
в)
:
Возрастной состав студентов
Измение показателей (%)
ж
м
г)
■Комерческий набор
- Получили диплом
,о 20 лет От 20 до 30 лет Старше 30 лет-
д)
■ Призжие из других регионов
е)
Рис. 1. Визуализация исходных данных
На основе эмпирических данных (количество наблюдений 383) об успешности обучения в ВУЗе и характеристик студентов была построена линейная модель множественной регрессии:
Х0=а0+а1Х1+а2 Х2+азХ3+а4Х+а5Х5+абХ+а1Х7+а8Х8+ +а9Х9+а10Х10+f,
где х1 _ пол, х2 - средний балл за период обучения, Х3 -сумма баллов по ЕГЭ, Х4 - направление подготовки, Х5 -категория набора, Х6 - форма обучения, х7 - возраст
на момент зачисления, Х8 - место постоянного проживания, Х9 - вид образовательного учреждения до поступления в ВУЗ, £ - случайная ошибка, чье присутствие обусловлено необходимостью учесть влияние на зависимую переменную ряда факторов не вошедших в модель (реальный период обучения по годам, срок обучения и т.д.).
На основе эмпирических данных (количество наблюдений 383) об успешности обучения в ВУЗе
и характеристик студентов была построена линейная модель множественной регрессии:
Х0=а0+а1Х1+а2 Х2+азХ3+а4Х4+а5Х5+а6Х6+а7Х7+0Г8Х8+ +а9Х9+ОГ10Х10+£'
где х1 _ пол, х2 - форма обучения, х3 - сумма баллов по ЕГЭ, х4 - направление подготовки, х5 - категория набора, х6 - средний балл за период обучения, х7 - возраст на момент зачисления, х8 - место постоянного проживания, х9 - вид образовательного учреждения до поступления в ВУЗ, £ - случайная ошибка, чье присутствие обусловлено необходимостью учесть влияние на зависимую переменную ряда факторов не вошедших в модель (реальный период обучения по годам, срок обучения и т.д.).
С помощью метода исключения факторов последовательно по одной были исключены пере-
менные, коэффициенты при которых статистически не значимы и имеют наименьшее значение Ьстатистики. На первом шаге - место постоянного проживания, на втором - направление подготовки, на третьем - сумма баллов по ЕГЭ, на четвертом - возраст на момент зачисления, на пятом -категория набора, на шестом - форма обучения, на седьмом - вид образовательного учреждения до поступления в ВУЗ.
В рамках корреляционно-регрессионного анализа построена многофакторная модель, оценки которой рассчитаны с помощью пакета Statistica (рис. 2).
Рабочая книга"!* - Итоги регрессии для зависимой переменной: Окончил/Не окончил (Таблиц; данных"!]
Lj1 Рабочая кнпга11 - Множественная Регрес Ё-ф Результаты множес Итоговые статис Итоги регресси N=383 Итоги регрессии для зависимой переменной: Окончил/Не окончил (Таблица данных"!} Н= ,63915772 И2= 40852259 Скоррект К2= 40540955 Р(2,380)=131,23 р<0 0000 Станд ошибка оценки: .38494
БЕТА Ст.Ош БЕТА В Ст.Ош В t[380) р-энач
Се.член -0,280382 0.049935 -5;61494 0.000000
Пол 0,103512 0.040676 0.103257 0.040576 2,54477 0.011330
Средний балл 0,606025 0.040676 0,217451 0.014595 14.89867 0.000000
Рис. 2. Расчеты оценок неизвестных параметров модели
Модель имеет вид:
х = - 0,28+0,1х+0,22 хк,
0 7 7 1 7 67
где х0 - эндогенная переменная «Успешность обучения в ВУЗе»,
х1 - экзогенная переменная «Пол»,
х6 - экзогенная переменная «Средний балл за период
обучения».
Таким образом, из 9 факторов, включенных в исследование, статистически значимыми оказались лишь два, причем оба оказывают положительное влияние на исследуемый показатель. Девушки на 10% успешнее юношей, а повышение среднего балла за период обучения на единицу повышает успешность обучения на 22%.
Оценка тесноты связи, проведенная с помощью коэффициента корреляции, составила г01=0,25, г06=0,63. Множественный коэффициент корреляции R = 0,64, что свидетельствует о тесной связи между факторами. Модель статистически значима (расчетное значение критерия Фишера составило 131,23, что больше табличного 3,10 при уровне значимости 0,05 и числе степеней свободы 2 и 380). Коэффициент детерминации равен 0,41, что показывает, что около 41% вариации объясняемой переменной («Результат обучения») учтено в модели и обусловлено влиянием включенных факторов.
Анализ коэффициентов эластичности показывает, что по абсолютному приросту наибольшее влияние на зависимую переменную оказывает средний балл за период обучения: его повышение на 1% приводит к росту успешности обучения на 0,25%.
Построенная модель подтвердила выдвинутую ранее гипотезу: фактор «Сумма баллов по ЕГЭ»
не является статистически значимым, определяющее влияние на успешность обучения в ВУЗе оказывает фактор «Средний балл за период обучения». Ранжирование факторов по степени влияния показало, что доля влияния переменной x6 составила 91%.
Литература
1. Айвазян С. А., Мхитарян B.C. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2 т. 2-е изд., испр. - Т. 1: Теория вероятностей и прикладная статистика. - М: ЮНИ-ТИ-ДАНА, 2001. - 656 с.
2. Землянухина С.Г. Противоречия интересов субъектов системы высшего образования (в аспекте влияния на оценку качества образования) // Саратовский государственный технический университет имени Гагарина Ю.А. Саратов., 2019. С. 11-17.
3. Курзаева Л.В. Управление качеством образования и современные средства оценивания результатов обучения [Электронный ресурс]: учеб. пособие / Л.В. Курзаева, И.Г. Овчинникова. - М.: ФЛИНТА, 2015-100 с.
4. Москвитин А.А. Особенности современных методов интеллектуального анализа / А.А. Москвитин, Т.М. Созиев // Современные методы интеллектуального анализа данных в экономических, гуманитарных и естественнонаучных исследованиях материалы науч. конф. Пятигорск, 24-26 ноября 2016 г. - Пятигорск. -2016. - С. 11-18
5. Новые технологии оценки качества образования: сборник материалов XV Форума экспер-
сэ о со -а
I=i А
—I
о
сз т; о m О от
З
ы о со
тов в сфере профессионального образования / под общей редакцией д.п.н. Г.Н. Мотовой. - М.: Гильдия экспертов в сфере профессионального образования, 2019. - 162 с. 6. Фомина Т.П., Карлова М.Ю. Исследование факторов, влияющих на выбор профессии и успешность обучения студентов по направлению подготовки «Педагогическое образование», средствами статистического анализа. // Педагогика. Вопросы теории и практики. Тамбов: Грамота. 2018. № 2. С 59-63.
REVEALING THE RELATIONSHIP BETWEEN THE VARIABLES CHARACTERIZING THE STUDENT AND THE INDICATOR OF SUCCESS IN STUDYING AT THE UNIVERSITY
Burdukovskaya A.V., Novgorodtseva T. Yu., Ivanova E.N., Pegasova N.A., Nikiforova I.A.
Irkutsk State University
The article solves the problem of identifying causal relationships between the variables that characterize the applicant and the indicator of the success of mastering the educational program of the bak-laurel. The scientific and practical significance of the work lies in the fact that a visual analysis of the change in the value of the factors included in the study was carried out, in particular, the sum of points on the exam, the direction of training, the category of recruitment, the form of study, gender, age at the time of enrollment, place of permanent residence, type educational institution before entering the university, a multifactorial regression model has been built that describes the dependence of the success of education at the university on the input characteristics of the applicant and the results of his studies in higher education. Purpose of the study: to identify the factors that have the greatest impact on the achievement of a positive result - mastering the educational program and obtaining a bachelor's degree. Students of the Faculty of Geography of Irkutsk State University were selected as the object of research. In the course of the study, the methods of data visualization and
correlation-regression analysis were used. In the course of the research, a multiple regression model was built, which includes the most statistically significant characteristics of the student and the indicators of his studies, which determine the success of obtaining higher education. The considered approach can be applied in other educational institutions.
Keywords: data mining, data visualization, correlation-regression analysis, multivariate regression model, coefficient of determination, characteristics of the applicant.
References
1. Ayvazyan S. A., Mkhitaryan B.C. Applied statistics. Fundamentals of econo-metrics: Textbook for universities: In 2 volumes, 2nd ed., Rev. - T. 1: Probability theory and applied statistics. -M: UNITY-DANA, 2001. - 656 p.
2. Zemlyanukhina S.G. Contradictions of interests of subjects of the system of higher education (in the aspect of influence on the assessment of the quality of education) // Saratov State Technical University named after Gagarin Yu.A. Saratov., 2019.S. 11-17.
3. Kurzaeva L.V. Quality management of education and modern means of assessing learning outcomes [Electronic resource]: textbook. allowance / L.V. Kurzaeva, I.G. Ovchinnikov. - M.: FLINT, 2015-100 p.
4. Moskvitin A.A. Features of modern methods of intellectual analysis / A.A. Moskvitin, T.M. Soziev // Modern methods of data mining in economic, humanitarian and natural science research materials scientific. conf. Pyatigorsk, November 24-26, 2016 -Pyatigorsk. - 2016. - C. 11-18.
5. New technologies for assessing the quality of education: a collection of materials of the XV Forum of experts in the field of vocational education / under the general editorship of Ph.D. G.N. Motova. - M.: Guild of Experts in the Field of Professional Education, 2019. - 162 p.
6. Fomina T.P., Karlova M. Yu. Investigation of the factors influencing the choice of profession and the success of students' training in the direction of training "Pedagogical education" by means of statistical analysis. // Pedagogy. Questions of theory and practice. Tambov: Diploma. 2018. No. 2. 59-63.
о с
u