Абруков В.С.1, Кожин А.Ю.2, Троешестова Д.А.3, Петрова М.В.4,
Ануфриева Д.А.5
1 Чувашский государственный университет, зав. кафедры прикладной физики и нанотехнологий, профессор, докт. физ.-мат. наук, [email protected] 2 Чувашский государственный университет, зам. начальника управления
информатизации
3 Чувашский государственный университет, каф. дискретной математики и информатики,
доцент, канд. физ.-мат. наук
4 Чувашский государственный университет, магистрант кафедры прикладной физики и
нанотехнологий
5 Чувашский государственный университет, магистрант кафедры прикладной физики и
нанотехнологий
Возможности методов интеллектуального анализа данных при моделировании образовательного процесса в вузе и разработке систем поддержки принятия решений
КЛЮЧЕВЫЕ СЛОВА:
Интеллектуальный анализ, моделирование, образовательный процесс, система принятия решений.
АННОТАЦИЯ:
Исследованы возможности методов интеллектуального анализа данных (Data Mining) при моделировании образовательного процесса в вузе. С помощью искусственных нейронных сетей получены вычислительные модели связи баллов, полученных абитуриентами на ЕГЭ, и успеваемостью студентов на первом курсе, а также связи между успеваемостью студентов на первых четырех сессиях.
Введение
В декабре 2012 года Правительством РФ утвержден план мероприятий ("дорожная карта") "Изменения в отраслях социальной сферы, направленные на повышение эффективности образования и науки" (далее План).
По отношению к системе высшего образования План предусматривает изменения, направленные на повышение эффективности и качества услуг в сфере образования, совершенствование структуры и сети государственных образовательных организаций, совершенствование структуры образовательных программ и включает в себя, в частности, следующее:
• проведение ежегодного мониторинга эффективности образовательных организаций высшего образования;
• модернизацию системы лицензирования и аккредитации образовательных программ в системе высшего образования;
• введение прикладного бакалавриата в высшем образовании;
• обеспечение высокого качества программ магистратуры;
• создание новой модели аспирантуры на базе образовательных организаций высшего образования, активно участвующих в научно-исследовательской работе;
• поддержку программ развития сети национальных исследовательских университетов
• реализацию программ стратегического развития образовательных организаций высшего образования;
• создание системы оценки качества подготовки бакалавров;
• разработку и внедрение механизмов эффективного контракта с научно-педагогическими работниками образовательных организаций высшего образования;
• информационное и мониторинговое сопровождение введения эффективного контракта с вузом.
В данной работе была поставлена задача исследования возможностей методов интеллектуального анализа данных - МИАД (Data Mining и, в частности, искусственных нейронных сетей) для анализа выполнения некоторых мероприятий Плана, в частности, анализа состояния системы образования в вузе и прогнозирования ее развития [1].
Поиск в электронной библиотеке России elibrary.ru показал, что в России примеров применения МИАД при решении подобных задач нет. За рубежом такие примеры есть [2-4].
Методология исследований
Главным условием применения МИАД, реализующих «информационный подход» к задачам анализа и прогнозирования, является сбор данных об анализируемой системе. Источниками данных могут быть базы данных учетных систем вуза; данные, которые непосредственно или косвенно касаются участников образовательного процесса вуза, но которые отсутствуют в учетных системах и которые можно получить с помощью развернутых анкет-интервью участников образовательного процесса; внешние по отношению к вузу данные (макроэкономические показатели региона вуза, конкурентная среда, демографические и иные статистические данные).
Общие задачи, которые могут решать МИАД - следующие [5-8]:
• классификация - отнесение объектов (наблюдений, событий) к одному из заранее известных классов;
• регрессия, в том числе задачи прогнозирования - установление зависимости выходных параметров (целевых функций) от входных переменных (факторов);
• кластеризация - группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов.
Проблемы анализа и моделирования образовательного процесса в вузе формулируются похожим образом, и решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации.
Результаты анализа и моделирования образовательного процесса в
вузе
На сайте http://mfi.chuvsu.ru/opros/ размещены анкеты - интервью, заполняемые в режиме он-лайн и содержащие около 100 вопросов по процессу образования в целом и качеству образовательного процесса. Заполнение анкеты занимает примерно 10 минут, несмотря на то, что в ней около 100 вопросов.
К настоящему времени собрано около 500 анкет (около 50000 ответов) студентов факультета прикладной математики, физики и информационных технологий Чувашского государственного университета.
Схема работы с анкетами следующая. Данные ответов на вопросы анкет представляются в виде таблицы, затем проводится их обработка, анализ и моделирование с помощью МИАД.
В таблице 1 приведены результаты оценки корреляции между результатами ЕГЭ и результатами первой сессии студентов.
В левом столбце «Входные поля» указаны факторы (баллы ЕГЭ по трем дисциплинам), в столбце «Корреляция с выходными полями» в первой строчке - название целевых функций - количество оценок «Отлично», «Хорошо», «Удовлетворительно», ниже - показатели корреляции (цифры в виде десятичной дроби со знаком + или -).
Таблица 1 Корреляция между результатами ЕГЭ и результатами первой сессии
студентов
Входные поля Корреляция с выходными полями
№ Поле Кол-во пятерок 1 семестре Кол-во четверок 1 семестре Кол-во троек 1 семестре
1 Баллы ЕГЭ по математике 0,419 -0,322 -0,459
2 Баллы ЕГЭ по физике 0,247 -0,243 -0,410
3 Баллы ЕГЭ по русскому языку 0,327 0,279 -0,342
Результаты показывают, что непосредственной линейной связи между баллами ЕГЭ и оценками первой сессии студентов нет и что связь эта существенно нелинейная.
Для выявления этой связи были использованы искусственные нейронные сети (ИНС), с помощью которых были построены вычислительные модели, позволяющие по баллам ЕГЭ прогнозировать успеваемость студентов в первую сессию.
На рис. 1 представлена структура ИНС.
Deductor Studio Lite (6:\Дедуктор-вуз\вуз-29-мая-2013-ЕГЭ-стип-оценки-1-й-семестр,с1есО - [Нейросеть [4x6x3]] Файл Правка Вид Сервис Окно ?
□ & - у НИМ ы в © % н ш Щ
Граф нейросети х| Что-если X Диаграмма рассеяния X Таблица X Гистограмма X
Ш Cue... ? ▼ X
Й? Щ | т ^
И Сценарии ¿[»JMS Excel sse Koppe El QUI Выявг
Баллы ЕГЭ по математике
Баллы ЕГЭ по Физике
Баллы ЕГЭ по русскому языку!
Была ли стипендия 1 семестр? (
□
Кол-во пятерок 1 семестре
Кол-во четверок. 1 семестре
Кол-во троек 1 семестре
Ш
Рис. 1. Структура искусственной нейронной сети, использованная для моделирования зависимости количества различных оценок в первую сессию от результатов ЕГЭ и
наличия стипендии
Результаты моделирования представлены на рис. 2-=.
Decfuctor Studio Lite (6:\Дедустор-вуз\вуз-29-мая-2013-ЕГЭ-стип-оценкм-1-й-семестр^ес1) - [Нейросеть [4хбхЗ]] Файл Правка Вид Сервис Окно ?
Ш® [Ж]
□ с* - Н « itt % Ш Я ® |0 П Щ
13 Cue.. ? - х
Й" Ш п Ш
Граф нейросети X Что-если X Диаграмма рассеяния X Таблица X Гистограмма X В Щ » .. Гт и3 311 ^ ^ ► -I а ^ _
н Ш Сценарии B jgMS Excel ES? Koppe Ё IB Выяв/
Поле
У (^р] Входные
9.0 Баллы ЕГЭ по... 50 9.0 Баллы ЕГЭ по Фи... 50 9.0 Баллы ЕГЭ по ру... 50 аЬ Была ли стипенд. .
0
Jt <1 L, О - Is! - ~ % ~ 1
а
I Коп-во пятерок 1 семестре I Коп-во четверок 1 семестре I Коп-во троек 1 семестре
Баллы ЕГЭ по математике
Рис. 2. Зависимость количества различных оценок в первую сессию (обозначения оценок приведены справа от графиков) от результатов ЕГЭ по математике в случае, когда студент не получал стипендию (см. таблицу над графиком)
В целом можно сделать вывод о том, что средние баллы ЕГЭ не могут служить основанием для определения «эффективности» вуза с точки зрения «качества образования» понимаемого как успеваемость студентов.
[7] Оейийог БШйго (6:\Дедусгор-вуз\вуз-29-мэя-2013-ЕГЭ-стип-оценки-1-й-семестр.<1есЧ - [Нейросеть [4x6x3]] Файл Правка Вид Сервис Окно ?
п^-в а|н», ш а @ * д ш щ
es
g&g Сце .. ? -Г X
es4 т I ш ш
Граф нейросети X Что-если X | Диаграмма рассеяния X | Таблица X | Гистограмма X | 1 из 91 м \[ш Г»_
ИД Сценарии S [Iff MS Excel SSS Koppe B-OD) Быяв;
По.
Входные
9.0 Баллы ЕГЭ по... 9.0 Баллы ЕГЭ по фи... 9.0 Баллы ЕГЭ по ру... аЬ Была ли стипенд...
0
JILII'Ü' Ы - % - -
I Кшт-во пятерок 1 семестре I Кол-во четверок 1 семестре I Кол-во троек 1 семестре
□
Баллы ЕГЭ гто
т
*
Рис. 3. Зависимость количества различных оценок в первую сессию от результатов ЕГЭ по математике в случае, когда студент получал стипендию
Были исследованы закономерности «траектории» качества учебной работы студентов в виде связей между оценками, полученными студентами на экзаменационных сессиях разных семестров (с 1-го по 4-й).
На рис.3 представлен график, который отражает зависимость количества различных оценок во 2-ом семестре от количества «троек» в 1-ом семестре. Он показывает, что большое количество «троек» («печальный опыт» 1-й экзаменационной сессии) приводит к тому, что во втором семестре студент учится практически на одни «пятерки» (это справедливо для студентов, которые получили в первом семестре 0 «пятерок», две «четверки» и две «тройки» - см. табличку над графиком).
| уУ| Deductor Studio Lite (6:\Дедуктор-вуз\вуз-29-мая-2013-ЕГЭ-стип-оценки-1-й-семестр^ес1} - [Нейросеть [4x6 хЗ]] Файл Правка Вид Сервис Окно
□ & - ы т о».|и ■ @> % s ш 5)
II -'КЧ
Щ Сце... ? ^ X
tf? W Ш
Граф нейросети X Что-если х| Диаграмма рассеяния х| Таблица х| Гистограмма х|
т \щ | и * | 1 из91 ^ и1' + м |_
Ш Сценарии ÖЩ MS Екс-ei
Е'.Е'-Е Koppe
EM
По.
ы Входные
9.0 Баллы ЕГЭ пома... 50 9.0 Баллы ЕГЭ по... 50 9.0 Баллы ЕГЭ по ру... 50 аЬ Была ли стипенд... да
0
ЗТ Ь, EU - III - Ы - % - ЕЧВ - И ■
I Кол-во пятерок 1 семестре
0 Кол-во четверок 1 семестре
1 Кол-во троек 1 семестре
I'D -I 35 40 45 50 55 60 65 70 75 SO 85 90 95 Баллы ЕГЭ по физике
КШ I и ш в у ви D
Рис. 4. Зависимость количества различных оценок в первую сессию от результатов ЕГЭ по физике в случае, когда студент получал стипендию
И Оеск|с!ог ЬЫсНо Ьг!е [6:\Дедуктор-вуз\вуз-29-мая-201^-ЕГЭ-стип-оценки-1-й-семестр^есЦ - [Нейросеть [5x5x3]] Фай
ПраЕ
Вид Сервис Окно
_ИНН
^ - Ы » ** И I
ш ^
|£1 Сце...
19 Ш
Граф нейросети X Что-если X | Диаграмма рассеяния X
В Щ " - |_|_И1Б7] 'й * - <2 [Й1 К
Сценарии Ц МЭ Ексе1 Ц МБ Ехсе1 зэе Корре. Нейро
аЬ Была ли стипендия 1 семестр? нет -
аЬ Была ли стипендия 2 семестр? нет —1
9.0 Кол-во пятерок 1 семестре
9.0 Кол-во четверок 1 семестре 2 и
9.0 Коя-во троек 1 семестре 2
О- 6(> Выходные -
М 3! йаа И " Ш " - 1 03 ^ £ 5 т и -
О 0,2 0,4 0.6 О,
н
| ^^^И Ксл-во пятерок 2 семестре I I Кол-ве четверок 2 семестре ^^^И Кол-во троек 2 семестре |
Рис. 5. Зависимость количества «пятерок», «четверок» и «троек» во 2-ом семестре от количества «троек» в 1-ом семестре в случае, когда студент не получал стипендию в
обоих семестрах
Исследовались и другие различные комбинации связей между оценками полученными на экзаменационных сессиях разных семестров. Но четкой связи выявлено не было. Можно отметить только, что связи между оценками, полученными на экзаменационных сессиях 3 и 1 семестров, 4 и 1, 4 и 2 семестров практически нет.
Решение задачи прогнозирования «траектории» качества учебной работы студентов по семестрам (в виде «траектории» качества оценок полученных студентами на экзаменационных сессиях) требует дополнительного сбора данных. Заключение
Работа в настоящее время продолжается. В дополнение к данным анкет-интервью планируется собрать данные по финансовому обеспечению образовательного процесса, экспертным оценкам итоговых аттестаций, российскому рейтингу вуза, уровню конкурсного отбора абитуриентов и т.д.
Предполагается решение комплекса задач, например:
• прогнозирование «траектории» учебной и научной работы студентов различных специальностей и направлений подготовки и определение мер способствующих повышению качества учебной и научной работы студентов.
• кластеризация - группировка специальностей и направлений подготовки по качеству приема абитуриентов, качеству учебной и научной работы студентов, районам проживания абитуриентов и студентов с хорошим качеством учебной и научной работы, уровню востребованности выпускников различных специальностей и направлений подготовки.
• решение задач регрессии (получения многофакторных вычислительных моделей) устанавливающих зависимости таких целевых функций, как: качество учебы по курсам и качество выпускных квалификационных работ, востребованность выпускников и уровень их заработной платы после трудоустройства, степень удовлетворенности участников процесса образования (студенты, аспиранты, преподаватели, учебно-вспомогательный персонал, административно-хозяйственный аппарат, потребители -работодатели, родители студентов), и другие от таких факторов, как: потребность (федеральная, региональная) в специалистах; личностная потребность в высшем образовании, ресурсы вуза; бюджетное и внебюджетное финансирование; степень внедрения информационно-телекоммуникационных технологий; уровень требований при конкурсном отборе абитуриентов, степень участия преподавателей в НИР; уровень кадрового обеспечения образовательного процесса в целом; заработная плата преподавателей и учебно-вспомогательного персонала; и т.п.
• решение обратных задач, например, какой должен быть абитуриент чтобы получить 5 по всем дисциплинам на первой сессии, учится на 4 и 5 в первые четыре семестра, устроится на работу с зарплатой более 30000 рублей в течение 1 года после выпуска, стать кандидатом наук, получить грант РФФИ на 3 году после защиты диссертации, какой должна быть зарплата доцента, чтобы 50% выпускников работали по специальности и т.п.
Мы приглашаем студентов, аспирантов и преподавателей вузов России к совместной работе.
Литература
1. Абруков В.С., Ефремов Л.Г., Кощеев И.Г. Новые подходы к разработке моделей системы поддержки принятия решений и управления вузом // Вестник Чувашского университета. 2013. № 1. С. 224 - 229.
2. Goyal M. Applications of Data Mining in Higher Education // International journal of computer science. 2012. 9 (2). P. 113.
3. Kovacic Z.J. Predicting student success by mining enrolment data // Journal of research in higher education. 2012. 15. P. 54.
4. Ranjan J. Effective educational process: a data-mining approach // Journal of information and knowledge management systems. 2007. 37 (4). P. 502.
5. Абруков В.С., Николаева Я.Г. Количественные и качественные методы: соединяем и властвуем! // СОЦИС. Москва. 2010. N 1. С. 142-145.
6. Абруков В.С., Николаева Я.Г., Макаров Д.Н., Сергеев А.А., Карлович Е.В. Применение средств интеллектуального анализа данных (Data Mining) для исследования неполно определенных систем // Вестник Чувашского университета. № 2. 2008. С. 233-241.
7. Анализ бизнес информации - основные принципы. [Электронный ресурс] // [сайт]. [1995-2013].URL: http://www.basegroup.ru/library/ methodology/analysisbusinessdata (дата обращения: 15.04.2013).
8. Славутская Е.В., Абруков В.С., Славутский Л.А. Интеллектуальный анализ данных психодиагностикишкольников предподрoсткового возраста // Вестник Чувашского университета. 2012. № 3. С. 226 - 231.