Melshina Evgenia Mikhailovna, student, [email protected], Russia, St. Petersburg, St. Petersburg State Technological Institute
УДК 303.732.4, 378.1, 311.2
DOI: 10.24412/2071-6168-2024-3-147-148
АЛГОРИТМ ОБРАБОТКИ ДАННЫХ В ПОРЯДКОВЫХ ШКАЛАХ ДЛЯ СИСТЕМ АНАЛИЗА ОЦЕНКИ ДИСЦИПЛИН
А.А. Даничев, А.И. Карнаухов, С.А. Войнаш, С.И. Затенко
Каждый семестр студенты вузов в ходе опроса ставят бальные оценки по различным аспектам образовательного процесса. Различие в наборах изучаемых дисциплин приводит к большому числу пропусков в исходных данных. В данной работе рассмотрена возможность повышения релевантности итогового рейтинга дисциплин с помощью методов анализа данных в порядковых шкалах.
Ключевые слова: образовательный процесс, показатель, рейтинг дисциплин, анализ данных, порядковая
шкала.
Сервис анкетирования студентов института космических и информационных технологий, являющийся частью личного кабинета, позволяет получать обратную связь в структурированном и текстовом видах по различным аспектам образовательного процесса [1,2]. Одним из способов анализа отзывов студентов является составление рейтинга дисциплин на основе среднеарифметических баллов анкетирования.
Проблемой является большое количество пропусков при наличии недостоверных данных и малого числа градаций. Большинство студентов оценивает лишь часть изучаемых дисциплин. Многие студенты ставят в анкете всем дисциплинам только 5 или такую же оценку, как получили на экзамене. Студент проходит анкетирование в рамках одного семестра и может ставить баллы не абсолютные, а в сравнении с другими дисциплинами этого семестра.
Так как основная цель составления рейтинга - выделение проблемных дисциплин и дисциплин, которые нравятся студентам, то уместно воспользоваться методами анализа данных в порядковых шкалах. Переход от бальных оценок к матрицам парных сравнений огрубляет результат, но при этом сглаживает указанные проблемы. В случае неопределенности дисциплины стремятся принять равные ранги, что позволяет доверять назначенным первым и последним местам в рейтинге.
В качестве выборки были взяты данные 9 бакалаврских групп, связанных между собой общими направлениями и изучаемыми предметами, за полный цикл обучения (8 семестров). Итоговый рейтинг строится для 125 дисциплин.
Основная часть. В ходе обзора исходных данных было выявлено, что основной проблемой для их качественного анализа является неполнота данных анкетирования, представленных лишь на четверть от максимального количества оценок. Среди дисциплин средний процент количества ответов составляет приблизительно 30%. Около 80 % дисциплин имеют небольшое количество оценок (менее 100). Такое количество пропусков в данных затрудняет качественную оценку полученных результатов.
Отсутствие определенного статистического распределения (рис.1), корреляций между исследуемыми переменными не позволяют на основе имеющихся данных строить приемлемые доверительные интервалы для показателей или заполнять пропуски с высокой точностью [3-5].
25
I20
0
Рис. 1. Частотная гистограмма ключевых показателей
Для составления достоверного итогового рейтинга перейдем от бальных оценок к математическому аппарату порядковых шкал [7, 8].
Множество ранжирований каждого студента можно представить в виде матрицы отношений. Строки и столбцы матрицы ||%|| соответствуют m дисциплинам, оцениваемым студентами.
(1, если эксперт предпочитает объект а; объекту а,-0, если эксперт считает объекты а; и а у равноценными -1, если эксперт предпочитает объект а,- объекту а; 147
Оценка по предмету Средний балл Оценка студента (опрос)
L ¡iLuL
3.0 3.5 40
Оценка
Использование суммарных матриц в алгоритмах поиска результирующего ранжирования позволяет избежать многократно повторяющихся расчетов.
Суммарная матрица отношений N = , где Му равно числу случаев, когда дисциплина а; пред-
почтительней дисциплины а.]:
Мц = £1=1, 1.
Для ряда методов поиска результирующего ранжирования важна информация о равноценных объектах:
№ц = X
к=1,
Так же используются матрицы N =
и М' =
1 ^"тхт
Щ = % +
К- ), Ы- = -ЫЦ,
Для случая исходных данных, представленных не полными парными сравнениями, подчитывается число сравнений объектов
= 1 = N>1 + N° + , Щ = М+
Ч
Противоречивые сравнения объектов или большое число пропусков делает применение методов анализа данных в порядковых шкалах невозможным. Необходимо учитывать коэффициенты согласованности и разреженности данных [9]:
- К определяет, насколько одинаково эксперты сравнивают пары объектов;
- К определяет число случаев не транзитивности оценок;
- К отвечает за оценку пропусков, обусловленных тем, что дисциплины сравнивались не всеми студентами;
- К) отвечает за оценку пропусков, обусловленных тем, что пары дисциплин ни разу не сравнивались. Из-за наличия пропусков в исходных данных согласованность мнения экспертов оценивается по величине
коэффициента конкордации (К8) :
, I ы-|
= 1Х К! , = х
Л я = -¿1 К] -ТГГ, ь = х К]
Алгоритм оценки числа случаев нетранзитивности в матрице N :
1) Кл = 0 _
2) Выполнить для £ ,] = 1.. т, I ф ]: 2.1) Если N > N ] 1 то:
2.1.1) Для к = 1..т, к ф £, к ф ]: если И'1к < И'к1 и Л^- < , то увеличить Кз1 на 1;
3) Кя =
, можно принять МахКз1 =
т(т 2-1)
МахК5±
Чем сильнее отличается коэффициент Кл от нуля, тем более противоречивы исходные данные. При Кл, близком к единице, следует провести повторную экспертизу иначе, скорее всего, придется признать все объекты равноценными.
Коэффициенты для оценки разреженности матриц парных сравнений К2 и К20:
К, =
2Х о ¡Щ
п„ т(т -1)'
К?0 = ■
т(т-1)
4 1>}
При низких значениях коэффициентов применяется метод зависимостей [9], или исключаются из рассмотрения объекты с малым числом сравнений.
Исходя из полученных результатов (см. табл. 1), разреженность матриц отношений исходных данных высока и их согласованность близка к минимальному порогу, поэтому следует использовать метод выделения наборов объектов с высокой согласованностью, исключая объекты с малым числом сравнений [9]. В результате удалось выделить 25 дисциплин с приемлемыми показателями.
Коэффициенты разреженности и согласованности данных
Таблица 1
Коэффициенты Все дисциплины Согласованный набор Минимальные (рекомендуемые) значения
К8 0.2 0.3 0.2 (>0.6)
Ка 0.001 0 Кя^О
Кг 0.001 0.4 0.4 (>0.5)
Кя 0.02 0.6 0.86 (>0.92)
Далее, восстановим пропуски для согласованного набора дисциплин. Неполнота исходных данных может быть устранена различными существующими методами восстановления пропусков. Для порядковых шкал выбран обобщенный метод строчных сумм [10]. Для тестирования популярных и мощных инструментов для восполнения недостающих данных выбрана библиотека fancyimpute [11]. Наилучшие результаты на баллах показал метод к-ближайших соседей [12].
Для оценки корректности заполнения пропусков зададим случайные пропуски в имеющихся данных, восстановим их и рассчитаем ошибку
д = ± -х0)2,
где п0 - количество сгенерированных пропусков, х1 - восстановленные данные, х° - изначальные.
В итоге, применяемый в ходе исследования обобщенный метод строчных сумм показал более точные результаты, нежели метод к-ближайших соседей (см. табл.2).
Таблица 2
Ошибка восстановления известных пропусков_
Метод Ошибка
K-ближайших соседей 0.26
Строчных сумм 0.18
Сравнение обычного рейтинга дисциплин с пропусками рейтинга после заполнения пропусков показывает, что большое количество дисциплин изменили позицию, занимаемую в итоговом рейтинге. По табл.3 видно, что дисциплины № 4 и 80 увеличили средний бал и перешли из категории «плохих» дисциплин в категорию приемлемых с оценкой больше 4. У 8 дисциплин несмотря на только отличные баллы рейтинг был понижен. Это обуславливается тем, что некоторые иные дисциплины были оценены на 5 одновременно с ними у одних групп студентов, и на более низкие баллы в других группах.
Таблица 3
Средний балл дисциплин до и после обработки_
Код дисциплины С пропусками Без пропусков
Средний балл Рейтинг Рейтинг Средний балл
24,53 5 1 5
11,25,58,68,107, 43,91,114 1 2
9, 47,88,102, 105, 45,55,40,77 [4.5; 5,0) 2, 3, 4, 5 2, 3, 4, 5 [4.5; 5,0)
18, 34, 95,104 [4,0; 4.5) 6, 7 5
4,80 [3.6; 4.0) 8, 9 6, 7 [4,0; 4.5)
Выводы. В данной работе показана принципиальная возможность применения методов анализа данных в порядковых шкалах для улучшения анализа данных с малым числом градаций и большим количеством пропусков. Продемонстрированный подход позволил построить релевантный итоговый рейтинг только для 20% дисциплин. Продолжение исследований предполагают применение транзитивных замыканий для дисциплин, не вошедших в итоговый рейтинг и моделирование ответов студентов (для оценки погрешности алгоритма).
Список литературы
1. Погребников А.К., Шестаков В.Н., Якунин Ю.Ю. Классификация дисциплин с низким уровнем освоения студентами // Информатизация образования и методика электронного обучения: цифровые технологии в образовании / Труды IV Международной научной конференции. Красноярск: Сибирский федеральный университет, 2020.
C.119-123.
2. Якунин Ю.Ю., Погребников А.К. Анализ обратной связи в персональной образовательной среде // Информатика и образование. 2018;(10). С.36-41.
3.Зангиева И.К. Решение проблемы неполноты данных массовых опросов. М.: Издательский дом ГУ-ВШЭ, 2008. Вып. 3. С. 84-95.
4. Фомина Е.Е. Подготовка и анализ результатов анкетирования с применением математических методов статистики // Социосфера. 2018. №2. С. 194-198.
5. Фомина Е.Е., Жиганов Н.К. Методика обработки результатов анкетирования с использованием методов многомерной и параметрической статистики // Вестник Пермского национального исследовательского политехнического университета. Социально-экономические науки. 2017. № 1. С. 106-115.
6. Якунин Ю.Ю., Медведев А.В., Ярещенко Д.И. О математическом моделировании образовательного процесса в университете // Высшее образование сегодня. М: Издательская группа «ЛОГОС», 2016. Вып. 11. С. 45-51.
7. Литвак Б. Г. Экспертная информация: Методы получения и анализа. М.: Радио и связь, 1982.
8. Даничев А.А., Гехман А.В., Якунин Ю.Ю. Обработка результатов экспертиз в реестре научно-технических разработок // Вестник сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнёва. Красноярск: СибГАУ, 2010. Вып. 6(32). С. 30-34.
9. Даничев A.A. Методы и алгоритмы обработки данных в порядковых шкалах для систем поддержки принятия решений: Автореферат дисс. на соискание уч. ст. канд. техн. наук: 05.13.01. Красноярск, 2005.20 с.
10. Чеботарев П.Ю. Обобщение метода строчных сумм для неполных парных сравнений // Автоматика и телемеханика. 1989. №8. С. 125-137.
11. A variety of matrix completion and imputation algorithms implemented in Python 3.6 [Электронный ресурс] URL: https://github.com/iskandr/ fancyimpute (дата обращения: 20.01.2024).
12. Ali N. Evaluation of k-nearest neighbour classifier performance for heterogeneous data sets / Ali N., Neagu
D. & Trundle P. // SN Applied Sciences. 2019. № 1. С. 1559.
Даничев Алексей Александрович, канд. техн. наук, доцент, [email protected], Россия, Красноярск, Сибирский федеральный университет,
Карнаухов Андрей Иванович, канд. техн. наук, доцент, karnaukhov.ai@mail. ru, Россия, Красноярск, Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева,
Войнаш Сергей Александрович, младший научный сотрудник, sergey [email protected], Россия, Рубцовск, Рубцовский индустриальный институт (филиал) Алтайский государственный технический университет им. И.И. Ползунова,
Затенко Светлана Ивановна, канд. техн. наук, доцент, s [email protected], Россия, Санкт-Петербург, Санкт-Петербургский государственный лесотехнический университет имени С.М. Кирова
149
ALGORITHM OF DATA PROCESSING IN SEQUENTIAL SCALES FOR SYSTEMS OF ANALYSIS OF EVALUATION OF DISCIPLINES
A.A. Danichev, A.I. Karnaukhov, S.A. Voinash, S.I. Zatenko
Every semester, university students, during a survey, give points on various aspects of the educational process. The difference in the sets of subjects studied leads to a large number of omissions in the source data. In this paper, we consider the possibility of increasing the relevance of the final rating of disciplines using data analysis methods in ordinal scales.
Key words: educational process, indicator, discipline rating, data analysis, ordinal scale.
Danichev Alexey Aleksandrovich, candidate of technical sciences, docent, adanichev@sfu-kras. ru, Russia, Krasnoyarsk, Siberian Federal University,
Karnaukhov Andrey Ivanovich, candidate of technical sciences, docent, [email protected], Russia, Krasnoyarsk, Reshetnev Siberian State University of Science and Technology,
Voinash Sergey Alexandrovich, junior researcher, [email protected], Russia, Rubtsovsk, Rubtsovsk Industrial Institute (branch) of Polzunov Altai State Technical University,
Zatenko Svetlana Ivanovna, candidate of technical sciences, docent, s [email protected], Russia, St. Petersburg, St. Petersburg State Forest Technical University named after S.M. Kirov
УДК 621
DOI: 10.24412/2071-6168-2024-3-150-151
БИОМЕХАНИЧЕСКИЕ ОСНОВЫ ВОЛЕЙБОЛА И ВОЗМОЖНОСТИ ПРИМЕНЕНИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПОВЫШЕНИЯ КАЧЕСТВА ДВИЖЕНИЙ
ВОЛЕЙБОЛИСТОВ
С.Л. Горобченко, Д.А. Ковалев, С.А. Войнаш, Т.Н. Бахтина, О.Ю. Воронов
Рассмотрены основные положения биомеханики движений волейболистов. Проведен биомеханический анализ техники приема подачи в волейболе с целью выработки алгоритма, позволяющего проводить машинный анализ движений и выработки практических рекомендаций по их коррекции или совершенствованию. Продемонстрированы основные биомеханические модели движения волейболистов. Показаны возможности применения интеллектуального анализа данных для повышения качества движений волейболистов. Разработана структурная схема анализа биомеханических движений волейболистов. Указанные разработки позволяют проводить анализ биомеханических движений волейболистов и вырабатывать оптимальные варианты для игры и коррекции биомеханических движений игроков различной физической конституции.
Ключевые слова: волейбол, биомеханика движений на подаче и приеме, интеллектуальных анализ данных, повышение качества движений.
Искусственный интеллект предоставляет большие возможности в анализе данных и способен значительно облегчить подготовку спортсменов к выполнению технических приемов. Интеллектуальный анализ данных использует методы машинного обучения для извлечения нетривиальной и потенциально полезной информации из огромной выборки данных.
Использование более сложных инструментов, таких как методы обработки больших данных (Data mining) позволяет работать непосредственно с большими данными. Методы обработки больших данных указывают тенденции в данных, которые выходят за рамки простого статистического анализа. Современные методы искусственного интеллекта, такие как ассоциативные правила, деревья решений, модель гауссовых смесей, алгоритмы регрессии, нейронные сети, векторные машины поддержки, байесовские сети ит.д., используются во многих областях для решения проблем ассоциации, классификации, сегментации, диагностики и прогнозирования.
Зачастую вопросы применения методов искусственного интеллекта к задачам биомеханической оценки качества движения волейболистов остаются без внимания. Об этом свидетельствуют многочисленные потери на подачах, особенно силовой подаче в прыжке, недостатки приема сильных ударов и другие проблемы в технике работы волейболистов. В большой степени они связаны с недостатками или белыми пятнами в понимании волейболистами своих собственных движений.
В статье ставится задача рассмотреть возможные методы применения методик интеллектуального анализа данных к биомеханическим основам движений волейболистов для повышения качества движений.
Литературный обзор. Несмотря на то, что волейбол занимает третье место в стране по массовости и популярности, многие вопросы систематизируются и освещаются недостаточно. Тем не менее, появилось несколько монографий, создающих основы для дальнейшей информатизации интеллектуализации задач совершенствования биомеханики движений волейболистов [1-3].