Научная статья на тему 'ЭЛЕМЕНТЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В УЧЕБНО-ИССЛЕДОВАТЕЛЬСКИХ ПРОЕКТАХ БУДУЩИХ УЧИТЕЛЕЙ ФИЗИКИ'

ЭЛЕМЕНТЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В УЧЕБНО-ИССЛЕДОВАТЕЛЬСКИХ ПРОЕКТАХ БУДУЩИХ УЧИТЕЛЕЙ ФИЗИКИ Текст научной статьи по специальности «Науки об образовании»

CC BY
100
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОДГОТОВКА УЧИТЕЛЯ ФИЗИКИ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / МАШИННОЕ ОБУЧЕНИЕ / АСТРОФИЗИКА / ФИЗИКА ЭЛЕМЕНТАРНЫХ ЧАСТИЦ

Аннотация научной статьи по наукам об образовании, автор научной работы — Кирюхина Наталия Владимировна, Новикова Дарья Вадимовна

В статье представлены примеры заданий для учебно-исследовательских проектов бакалавров педагогического образования с предметным профилем «Физика». Особенностью проектов является использование методик интеллектуального анализа данных: разведочный анализ и визуализация, добавление новых признаков, решение задач регрессии и классификации. Показаны возможности использования наборов данных, размещенных в открытом доступе, для ознакомления студентов с примерами решения фундаментальных проблем современной физики и астрофизики с помощью алгоритмов машинного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам об образовании , автор научной работы — Кирюхина Наталия Владимировна, Новикова Дарья Вадимовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MINING ELEMENTS IN EDUCATIONAL AND RESEARCH PROJECTS OF FUTURE PHYSICS TEACHERS

The article presents examples of tasks for educational and research projects of bachelors of pedagogical education with a subject profile "Physics". A feature of the projects is the use of data mining techniques: exploratory analysis and visualization, adding new features, solving regression and classification problems. The possibilities of using publicly available data sets to familiarize students with examples of solving fundamental problems of modern physics and astrophysics using machine learning algorithms are shown.

Текст научной работы на тему «ЭЛЕМЕНТЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В УЧЕБНО-ИССЛЕДОВАТЕЛЬСКИХ ПРОЕКТАХ БУДУЩИХ УЧИТЕЛЕЙ ФИЗИКИ»

Педагогика

УДК 378.147.88

кандидат педагогических наук, доцент Кирюхина Наталия Владимировна

Федеральное государственное бюджетное образовательное учреждение высшего образования «Калужский государственный университет имени К.Э. Циолковского» (г. Калуга); студент Новикова Дарья Вадимовна

Федеральное государственное бюджетное образовательное учреждение высшего образования «Калужский государственный университет имени К.Э. Циолковского» (г. Калуга)

ЭЛЕМЕНТЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В УЧЕБНО-ИССЛЕДОВАТЕЛЬСКИХ ПРОЕКТАХ БУДУЩИХ УЧИТЕЛЕЙ ФИЗИКИ

Аннотация. В статье представлены примеры заданий для учебно-исследовательских проектов бакалавров педагогического образования с предметным профилем «Физика». Особенностью проектов является использование методик интеллектуального анализа данных: разведочный анализ и визуализация, добавление новых признаков, решение задач регрессии и классификации. Показаны возможности использования наборов данных, размещенных в открытом доступе, для ознакомления студентов с примерами решения фундаментальных проблем современной физики и астрофизики с помощью алгоритмов машинного обучения.

Ключевые слова: подготовка учителя физики, интеллектуальный анализ данных, машинное обучение, астрофизика, физика элементарных частиц.

Annotation. The article presents examples of tasks for educational and research projects of bachelors of pedagogical education with a subject profile "Physics". A feature of the projects is the use of data mining techniques: exploratory analysis and visualization, adding new features, solving regression and classification problems. The possibilities of using publicly available data sets to familiarize students with examples of solving fundamental problems of modern physics and astrophysics using machine learning algorithms are shown.

Keywords: physics teacher training, data mining, machine learning, astrophysics, elementary particle physics.

Постановка проблемы. Термин «Big data» («большие данные») был использован в 2003 году редактором «Nature», одного из старейших и наиболее авторитетных журналов в области естественных наук, для обозначения качественного скачка объемов и многообразия научных данных [10]. За последнее десятилетие, в связи с появлением эффективных технологических инструментов сбора, хранения и анализа информации, «большие данные» превратились в социально-экономический феномен и фактор повседневной жизни. Современный человек сталкивается с ним ежедневно, в большинстве случаев даже не осознавая этого.

Для обозначения поиска неочевидных, но объективных и практически значимых закономерностей в исходных «сырых данных» в зарубежной литературе используются термин «data mining» [7], который дословно означает «добыча данных», то есть процесс получения нового знания сравнивается с извлечением полезных ископаемых из недр. На русский язык в научном контексте этот термин как переводят как интеллектуальный анализ данных [1]. В настоящее время это мультидисциплинарная область исследований, использующая методы прикладной статистики и искусственного интеллекта, в том числе машинное обучение (МО).

Алгоритмы искусственного интеллекта как инструмент работы с большими данными приобретают все большее значение в физическом эксперименте, особенно в астрофизике и в физике элементарных частиц [11]. Именно в этих областях сконцентрирован мировоззренческий и методологический потенциал физики как учебного предмета, с ними связаны прорывные достижения и долгожданные открытия последних лет (бозон Хиггса, гравитационные волны, поиск экзопланет). В последние годы внимание к методологической составляющей содержания школьных предметов значительно усилилось. Для будущих учителей очень важно понимать особенности современного физического исследования, разбираться в сущности и понимать значение фундаментальных открытий. Эксперименты, подобные вышеупомянутым, длятся десятилетиями и требуют огромных затрат, непосильных даже отдельным государствам, это результаты широкого международного сотрудничества. О воспроизведении их в рамках учебного исследования речи не идет, но его объектом могут стать уже собранные данные, если применить к ним технологии интеллектуального анализа («data mining»).

Тот качественный скачок, который произошел в эпоху «Big data» в технологиях получения, обработки и анализа экспериментальной информации, не нашел пока отражения в содержании предметной подготовки будущих учителей. В связи с этим, на наш взгляд, возникла потребность ознакомить студентов, обучающихся по программам бакалавриата по направлению «Педагогическое образование» с профилем «Физика», с инструментарием интеллектуального анализа данных (data mining) на примерах из тех областей, где буквально на наших глазах делаются фундаментальные открытия. Сделать это возможно в рамках учебно-исследовательских проектов, включенных в программу дисциплин предметной специализации, курсовых и выпускных квалификационных работ.

Цель исследования состоит в разработке и практической апробации системы заданий для учебно-исследовательских проектов по дисциплинам предметной подготовки будущего учителя физики, предполагающих применение элементов интеллектуального анализа при работе с наборами данных, содержащими эмпирическую информацию из области физики элементарных частиц и астрофизики.

Изложение основного материала статьи. В качестве объектов учебного исследования выступают наборы данных («датасеты», datasets), размещенные в открытом доступе, в частности, на платформе Kaggle (площадка для соревнований по машинному обучению). Там же имеется среда для написания кода (Kaggle Kernels, ядра Kaggle), не требующая установки автономных приложений, дополнительных библиотек, сохранения исследуемых данных на локальном компьютере - работа ведется с помощью облачных серверов. Это выгодно отличает Kaggle от других репозиториев. Из всего многообразия представленных там наборов отбираются соответствующие тематике исследовательских проектов студентов. Работа с данными включает разведочный анализ с использованием различных способов визуализации, разбор примеров постановки и решения задач, решаемых с помощью алгоритмов машинного обучения для данного набора. Как правило, это задачи регрессии (прогнозирование значения некоторой величины) и классификации.

На платформе Kaggle можно найти довольно много «датасетов», связанных с важнейшими проектами, достижениями и открытиями в физике и астрономии. Но далеко не все из них подойдут для начинающих. Основное требование к набору данных, который может быть использован для постановки проектных заданий: он должен содержать небольшое число признаков (в пределах десяти) с понятным для обучающихся физическим смыслом. Желательно также, чтобы предметное знание, отраженное в данных, было им знакомо из ранее освоенных образовательных программ. Этим критериям

удовлетворяют наборы «Star dataset to predict star types» [17] и «Star Dataset: Stellar Classification [Beginner]» [16] астрофизической тематики.

Набор [17] основан на данных, предметное знание о которых должно быть знакомо достаточно широкому кругу обучающихся: эти сведения входят даже в программу школьных курсов физики и астрономии. Цель создания набора, как она сформулирована его автором, состоит в том, чтобы продемонстрировать, что звезды следуют определенному графику в небесном пространстве, называемому диаграммой Герцшпрунга - Рассела, на основе которого можно классифицировать звезды по типу. Для создания набора использовались несколько соотношений: закон Стефана-Больцмана (для определения светимости звезды), закон смещения Вина (для определения температуры поверхности звезды с использованием длины волны), связь абсолютной звездной величины со светимостью, радиус звезды через температуру и светимость. Данные о 240 звездах, собраны на основе открытых источников, размещенных в сети Интернет, недостающие данные добавлены в набор вручную с использованием перечисленных выше соотношений. Набор содержит всего семь признаков: абсолютная температура звезды (К), относительная светимость (по отношению к Солнцу), относительный радиус (по отношению к Солнцу), абсолютная звездная величина, цвет, спектральный класс и тип звезды (красный карлик, коричневый карлик, белый карлик, звезда главной последовательности, супергигант, гипергигант) как целевая переменная для классификации. Учебные задания для этого набора группируются вокруг разведочного анализа и визуализации его результатов и могут иметь следующие формулировки:

1. Построить гистограммы для температуры, относительной светимости, радиуса и других признаков для всех типов и для каждого типа в отдельности.

2. Построить диаграммы рассеяния.

3. Сделать выводы.

В наборе [16] абсолютная звездная величина и показатель цвета B-V могут быть использованы для бинарной классификации «карлик-гигант». Он может использоваться для изучения и сравнительного анализа алгоритмов классификации.

Для более подготовленных студентов, имеющих навыки работы с конкретными алгоритмами, можно составить задания на классификацию на примере распознавания объектов на снимках звездного неба, в том числе идентификации экзопланет на основе кривых блеска. Одним из наиболее значимых событий, демонстрирующих возможности искусственного интеллекта в астрофизике, стало открытие двух новых экзопланет на основе данных, полученных с космического телескопа «Кеплер» в 2017 году. Эта тематика отражена в датасете «Kepler Exoplanet Search Results» [9].

Проект Sloan Digital Sky Survey (SDSS), «Слоуновский цифровой небесный обзор» [14], действующий еще с 2000 года, позволил составить трехмерную карту Вселенной с глубокими многодиапазонными изображениями и спектрами более чем 3000 объектов. С данными SDSS связан один из старейших проектов «гражданской науки» («citizen science» - участие общественности в научных исследованиях, привлечение широкого круга волонтеров для сбора и обработки научной информации) - «Galaxy Zoo» [3]. В нем пользователям предлагается классифицировать объекты по их изображениям. Зарегистрировавшись на официальном сайте, студенты могут стать участниками проекта, «гражданскими учеными». Результатом работы становятся размеченные данные, на которых в дальнейшем обучается алгоритм. Набор проекта «Galaxy Zoo» [4] позволяет рассмотреть задачу классификацию галактик по снимкам. Данные SDSS представлены также в наборе «Sloan Digital Sky Survey DR14. Classification of Stars, Galaxies and Quasars» [15].

Без использования машинного обучения сегодня невозможно представить исследования на ускорителях в области физики высоких энергий. В экспериментах CMS и ATLAS на Большом адронном коллайдере алгоритмы МО применялись для сбора статистики событий, связанных с обнаружением бозона Хиггса, показав высокую эффективность [11]. В перечень задач входили группировка сигналов, в соответствии с тем, какая частица их создала; определение типов и свойств частиц по информации о связанных с ними событиях; определение процессов, в результате которых возникли эти частицы.

Пример относительно простого по структуре «датасета», который можно предложить для анализа студентам в рамках учебно-исследовательского проекта по физике элементарных частиц - «Particle Identification from Detector Responses» [13]. Это задача распознавания четырех видов частиц (позитрон, пион, каон, протон) по данным шести детекторов. Набор представляет собой искусственно генерированные данные, полученные путем компьютерного моделирования с помощью пакета Geant4, имитирующие параметры электронно-протонного неупругого рассеяния, измеренные системой детекторов частиц. Этот процесс, используется для исследования внутренней структуры адронов, в данном случае протонов. Падающая частица (электрон) сталкивается с протоном-мишенью. Во время неупругого рассеяния протон может распадаться на составляющие его кварки, которые затем образуют адронную струю. Углы отклонения дают информацию о характере процесса. Набор содержит значения геометрических, кинематических и динамических характеристик частиц, которые могут быть использованы для идентификации: импульс, угловые координаты, число электронов, энергию на входе и на выходе.

Задания для работы с данными:

- выполнить разведочный анализ данных (построить гистограммы для признаков, корреляционную матрицу, диаграммы рассеяния);

- добавить еще одну переменную на основе имеющихся признаков (например, длину волны де Бройля электрона);

- сравнить результаты работы различных алгоритмов классификации по адекватным метрикам качества.

Особой разновидностью классификационной задачи стало «обучение обнаружению», реализованное в соревновании «Higgs Boson Machine Learning Challenge», организованном ЦЕРНом в 2014 году на платформе Kaggle [8]. Своеобразие заключалось в том, что требовалось найти в пространстве признаков области значительного превышения сигнальных событий по сравнению с фоном и определить значимость превышения. Если вероятность того, что событие обусловлено фоновыми процессами, падает ниже предела то новая частица считалась обнаруженной. Результат конкурса стал свидетельством значения краудсорсинговых проектов с привлечением широкого круга пользователей, не являющимися специалистами в предметной области (более 2000 участников, высокие результаты победителей [12]). Целевая функция, представляющая значимость открытия новой частицы, в работах победителей составила 3.80о, в то время как альтернативные модели давали не более 3.50 о. Вдохновленные этим успехом, ученые ЦЕРНа организовали еще одно соревнование - «Flavours of Physics: Finding т ^ ддд. Identify a rare decay phenomenon» с аналогичной задачей [5, 6]. Для начинающих сложной является как сама постановка, так и предметное содержание, а также структура данных, поэтому в рамках учебного исследования можно только изучить готовые решения и проанализировать их результаты.

Цикл учебных исследований с элементами интеллектуального анализа данных был проведен студентами в рамках курсового проектирования в 2020-2021 учебном году и представлен на ежегодной студенческой научной конференции в апреле 2021 года. Задания выполнялись при написании курсовых работ по дисциплинам «Физика атомного ядра и элементарных частиц», «Проектирование в профессиональной деятельности». В 2021-22 годах практические работы на основе данных включены в программу практикума по дисциплине «Вычислительная физика».

Выводы:

1. Для конструирования заданий для учебно-исследовательских проектов, предназначенных студентам бакалавриата «Педагогическое образование» с профилем «Физика», можно использовать техники интеллектуального анализа данных, в частности, алгоритмы машинного обучения.

2. Объектами исследования в этих проектах могут служить наборы данных, размещенные в открытом доступе, в частности, на площадке для соревнований по машинному обучению Kaggle. Основными критериями отбора данных для анализа являются соответствие содержанию дисциплин профильной подготовки, небольшое число признаков в наборе, понятный обучающимся физический смысл.

3. Наиболее подходящие виды учебно-исследовательских задач для работы с данными, советующие уровню подготовки студентов: разведочный анализ с использованием различных способов визуализации, добавление новых признаков на основе физических закономерностей, сравнение различных алгоритмов решения задач классификации и регрессии из доступных библиотек по метрикам качества.

Литература:

1. Дюк В.А., Флегонтов А.В., Фомина И.К. Применение технологий интеллектуального анализа данных в естественнонаучных, технических и гуманитарных областях // Известия РГПУ им. А.И. Герцена, 2011. - № 138.

2. Dark Energy Survey completes six-year mission // Symmetry magazine. [Electronic resource]. - URL: https://www.symmetrymagazine.org/article/dark-energy-survey-completes-six-year-mission / (дата обращения: 7.11.2021)

3. Galaxy Zoo [Electronic resource]. - URL: http://zoo1.galaxyzoo.org (дата обращения: 20.11.2021)

4. Galaxy Zoo 2: Images. Shape Galaxy Clustering [Electronic resource]. - URL: https://www.kaggle.com/jaimetrickz/galaxy-zoo-2-images (дата обращения: 20.11.2021)

5. Flavours - of - physics [Electronic resource]. - URL: https://www.kaggle.com/duncandean/flavours-of-physics-baseline дата обращения: 20.11.2021)

6. Flavours of Physics: the machine learning challenge for the search of т - ^ д -д -д + decays at LHCb [Electronic resource].

- URL: https://storage.googleapis.com/kaggle-competitions/kaggle/4488/media/lhcb_description_official.pdf дата обращения: 20.11.2021)

7. Frawley W., Piatetsky-Shapiro G., Matheus C. Knowledge Discovery in Databases: An Overview. AI Magazine, 1992. -Р. 213-228. - URL: https://www.semanticscholar.org/paper/Knowledge-Discovery-in-Databases%3A-An-Overview-Frawley-Piatetsky-Shapiro/b66563fbfa9e02095156b8ec15aa517359b0cbec (дата обращения: 20.11.2021)

8. Higgs Boson Machine Learning Challenge [Electronic resource]. - URL: https://www.kaggle.com/c/higgs-boson (дата обращения: 20.11.2021)

9. Kepler Exoplanet Search Results [Electronic resource]. - URL: https://www.kaggle.com/nasa/kepler-exoplanet-search-results (дата обращения: 20.11.2021)

10. Lynch C. Big data: how do your data grow? // Nature. - 2008. - Vol. 455. - № 7209. - P. 28-29. - URL: https://www.nature.com/articles/455028a (дата обращения: 20.11.2021)

11. Machine learning at the energy and intensity frontiers of particle physics // Nature [Electronic resource]. - URL: https://www.nature.com/articles/s41586-018-0361-2 (дата обращения: 20.11.2021)

12. ML2014: Higgs Boson Machine Learning Challenge. University of California. -URL:https://www.math.uci.edu/icamp/summer/research/student_research/ml_hb_2014. pdf (дата обращения: 20.11.2021)

13. Particle Identification from Detector Responses [Electronic resource]. - URL: https://www.kaggle.com/naharrison/particle-identification-from-detector-responses/version/2 (дата обращения: 20.11.2021)

14. Sloan Digital Sky Survey [Electronic resource]. - URL: https://www.sdss.org/surveys

15. Sloan Digital Sky Survey DR14. Classification of Stars, Galaxies and Quasars [Electronic resource] - URL: https://www.kaggle.com/lucidlenn/sloan-digital-sky-survey (дата обращения: 20.11.2021)

16. Star Dataset: Stellar Classification [Beginner]. Identify Giants and Dwarfs through Machine Learning [Electronic resource].

- URL: https://www.kaggle.com/vinesmsuic/star-categorization-giants-and-dwarfs дата обращения: 20.11.2021)

17. Star dataset to predict star types. A six class star dataset for star classification with Deep Learned approaches [Electronic resource]. - URL: https://www.kaggle.com/deepu1109/star-dataset дата обращения: 20.11.2021)

Педагогика

УДК 37.01

кандидат педагогических наук, доцент Колокольникова Зульфия Ульфатовна

Лесосибирский педагогический институт - филиал федерального государственного автономного образовательного учреждения высшего образования «Сибирский федеральный университет» (г. Лесосибирск); студент Блинцова Ирина Михайловна

Лесосибирский педагогический институт - филиал федерального государственного автономного образовательного учреждения высшего образования «Сибирский федеральный университет» (г. Лесосибирск); студент Староверова Мария Владимировна

Лесосибирский педагогический институт - филиал федерального государственного автономного образовательного учреждения высшего образования «Сибирский федеральный университет» (г. Лесосибирск)

ВОСПИТАТЕЛЬНАЯ РАБОТА В ШКОЛАХ КРАСНОЯРСКОГО КРАЯ В ГОДЫ ВОВ

Аннотация. В статье показано развитие школы Красноярского края в годы Великой Отечественной войны (1941-45 гг.). Рассматривается организация учебно-воспитательной работы, особенности организации военно-патриотического воспитания, рассмотрена важность воспитательной работы в годы Великой Отечественной войны в Красноярском крае. Описаны формы внеклассной и внешкольной деятельностей, которые применялись в 1941-1945 годах. На основе архивных материалов характеризуется различные аспекты учебно-воспитательной работы со школьниками в Красноярском крае в годы Великой Отечественной войны.

Ключевые слова: Великая Отечественная война, воспитательная работа, внешкольная работа, внеклассная работа, агитпоход, политинформация, беседа.

Annotation. The article shows the development of the school of the Krasnoyarsk Territory during the Great Patriotic War (1941-45). The organization of educational work, the features of the organization of military-patriotic education, the importance of educational work during the Great Patriotic War in the Krasnoyarsk Territory is considered. The forms of extracurricular and

i Надоели баннеры? Вы всегда можете отключить рекламу.