Научная статья на тему 'Применение кластерного анализа при построении моделей образовательного процесса'

Применение кластерного анализа при построении моделей образовательного процесса Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
40
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / КЛАСТЕРНЫЙ АНАЛИЗ / МЕТРИКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Каменев А.В., Болтунов Г.И., Лямин А.В.

Точность прогнозов в системах поддержки принятия решения в значительной степени зависит от качества моделей, описывающих анализируемый процесс. При этом, помимо полноты и выразительности самой модели, необходимо принимать во внимание затраты, связанные с ее созданием и последующим использованием. В стать рассмотрен подход к сокращению затрат на построение модели абитуриента ВУЗ с использованием кластерного анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение кластерного анализа при построении моделей образовательного процесса»

Кроме того есть приложения, которые могут помочь преподавателю в учебном процессе. Одним из таких приложений является «Kanji Renshuu». Данное приложение направленно на изучение иероглифов. В приложении есть 3007 иероглифических карточек, в которых иероглифы рассмотрены с разных аспектов: значения, чтения, примеров использования и написания. Аспект почёрточного написания является отличительной чертой и главным плюсом данного приложения. Поэтому преподаватель при объяснении нового учебного материала может основываться на данное приложение и ссылаться на него при более детальном изучении каждого иероглифа.

Есть большое число приложений на смартфоны для подготовки к JLPT. Есть как приложения, направленные на определенный уровень JLPT и даже на определённый контент уровня JLPT, так и приложения комплексной подготовки к определённому уровню или всем уровням JLPT. В данной статье было рассмотрено только 7 приложений. Как говорилось выше, есть приложения с определённой направленностью, такие как «Kotoba-chan», «Easy Kanji», «Japanese Grammar» и «Japanese Verbs». Также рассмотрены приложения комплексной подготовки, такие как «Japanese Test», «JLPT Master» и «JLPT Practice N1-N5». Данные программы являются практическими тестами, соответствующие тестированию на уровень JLPT. Они не содержат в себе теоретический материал, а тесты являются в основном заданиями на выбор правильного ответа из 4 предложенных вариантов.

ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА ПРИ ПОСТРОЕНИИ МОДЕЛЕЙ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА

© Каменев А.В.*, Болтунов Г.И.*, Лямин А.В.*

Национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург

Точность прогнозов в системах поддержки принятия решения в значительной степени зависит от качества моделей, описывающих анализируемый процесс. При этом, помимо полноты и выразительности самой модели, необходимо принимать во внимание затраты, связанные с ее созданием и последующим использованием. В стать рассмотрен подход к сокращению затрат на построение модели абитуриента ВУЗ с использованием кластерного анализа.

Ключевые слова: математическое моделирование, кластерный анализ, метрика.

* Аспирант кафедры «Компьютерных образовательных технологий».

* Доцент кафедры «Систем управления и информатики», кандидат технических наук.

" Доцент кафедры «Компьютерных образовательных технологий», кандидат технических наук.

Среди измеряемых и контролируемых характеристик качества подготовки студентов существенное положение занимают показатели их успеваемости. С целью управления образовательным процессом и выявления факторов, на него влияющих, используются математические модели, в основе которых лежит аппарат классического регрессионного анализа. Опираясь на эти модели, строятся прогнозы успеваемости студентов, которые, кроме явной стимулирующей роли в деле улучшения прогнозных оценок, играют существенную роль в улучшении качества образовательного процесса в целом.

При разработке модели, помимо полноты и выразительности самой модели, необходимо принимать во внимание затраты, связанные с ее созданием и последующим использованием. При этом основными проблемами являются объем статистических данных для обработки и количество параметров будущей модели. Подходы к решению данных проблем рассматриваются в рамках многомерного статистического анализа.

В многомерном статистическом анализе можно выделить разделы, дополняющие друг друга и использующие схожие подходы и методы. Это кластерный анализ, метод главных компонент, факторный анализ. Наиболее ярко отражают черты многомерного анализа в классификации объектов кластерный анализ, а в исследовании связей - факторный анализ.

Кластерный анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов). Данный метод исследования получил развитие в последние годы в связи с возможностью компьютерной обработки больших баз данных. Кластерный анализ предполагает выделение компактных, удаленных друг от друга групп объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов. Он используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами либо в виде точек в многомерном пространстве.

Наиболее распространены данные второго вида, для которых кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

Можно выделить следующие основные этапы кластерного анализа.

1. Формирование системы переменных. Часто исследователь не может однозначно сказать, какие параметры будущей модели действительно важны для анализа, поэтому стремится включить как можно больше потенциально информативных факторов. Нередко требуется предварительно выбрать из исходного множества переменных наиболее эффективную подсистему. Кроме того, в некоторых задачах целесообразно трансформировать исходные переменные так, чтобы образовать новые, более информативные показатели («feature extraction»). Чтобы избежать «доминирования» пере-

менных с большим масштабом измерения, проводят предварительную нормировку исходных переменных[1].

2. Определение способа вычисления расстояния между объектами и группами объектов. Этот способ должен отражать специфику решаемой прикладной задачи. Для каждой пары объектов а' и а обозначим расстояние (метрику) между ними как й^а', а) где ' Ф ]. Например, в случае непрерывных переменных может быть задано евклидово расстояние.

где N - количество параметров (размерность) рассматриваемой модели.

Для качественных характеристик может использоваться расстояние Хэмминга.

Помимо выбора метрики для определения расстояния между отдельными объектами рассматриваемого пространства, необходимо выбрать подход к определению расстояния между кластерами: «дальнего соседа», «ближнего соседа», «центройдный метод», «попарное среднее» и др. [2].

3. Группировка объектов. На этом шаге проводится создание групп объектов. Разбиение на группы может быть «жестким» (формируется разбиение исходного множества объектов), а может быть и «нечетким» (вычисляется степень принадлежности каждого объекта к группам). В данной работе будем рассматривать группировку первого типа.

Существует большое многообразие алгоритмов группировки. Наиболее известные из них рассмотрены в работе [3].

4. Представление результатов. Требуется получить простое и информативное описание полученных кластеров. Часто для такого описания выбирается «типичный объект» или определяется набор усредненных по группе показателей. Используется также описание в виде набора таксонов. Под таксоном будем понимать подобласть пространства переменных минимального объема, имеющую некоторую заданную форму и содержащую точки соответствующей группы.

5. Определение качества полученной группировки. Специалисту прикладной области необходимо удостовериться в том, что сформированные группы действительно отражают внутренние закономерности, характерные для решаемой задачи, способствуют достижению целей анализа, помогают открыть новые свойства изучаемых объектов. Существуют также более формальные способы проверки качества, связанные с нахождением вероятности

N

к=1

случайного образования групп, которую можно вычислить в рамках той или иной модели распределения; с вычислением различных показателей качества (внутригруппового разброса, индекса Гудмана-Крускаля; Ранда; С-индек-са и т.д.) [4].

В качестве примера рассмотрим кластеризацию на основе данных приемной комиссии Санкт-Петербургского Национального Исследовательского Университета Информационных Технологи, Механики и Оптики за 2011 -ый год. Анализ проводился в рамках разработки модели построения рекомендаций для абитуриентов НИУ ИТМО при выборе направления подготовки. Для проведения анализа были выбраны результаты участия абитуриентов во Всероссийских предметных олимпиадах школьников по профильным дисциплинам НИУ ИТМО. К профильным дисциплинам НИУ ИТМО относятся математика, информатика и физика.

Без Олим. —♦—Математика -В-Информатика Физика

оооооооооооооооооооооо^но оооооооооооооооооооооооо

ооотооооот-нт-ноо^ноо^н^нотноошиэ

ГЧГЧГЧ ГЧГЧ Т-|Т-1ГЧГЧГЧГЧГ^Г^ гчгч

Рис. 1. Доля кластеров по специальностям

Для вычисления метрики абитуриентов в получившемся трехмерном пространстве использовалось расстояние Хэмминга, поскольку анализируемые параметры являются качественными. Для вычисления расстояния между кластерами использовался метод «дальнего соседа». В результате на множестве из 1400 элементов было выделено 19 кластеров, что значительно сокращает затраты по выработке рекомендаций для абитуриентов имеющих дипломы предметных олимпиад любой степени. На рис. 1 демонстрируется процентная доля представителей «олимпийцев» по различным дисциплинам среди абитуриентов, зачисленных на ту или иную специальность. Сле-

дует отметить что доля абитуриентов, не имеющих дипломов олимпиад довольна велика (~70 %) а значит имеет смысл проведение кластеризации по дополнительным параметра, например результатам ЕГЭ, которые должны есть у каждого абитуриента ВУЗ.

Список литературы:

1. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. - Новосибирск: Изд. Института математики, 1999. - 270 с.

2. Дуда Р., Харт П. Распознавание образов и анализ сцен. - М.: Мир, 1976. - 559 с.

3. Fern X.Z., Brodley, C.E. Clustering ensembles for high dimensional data clustering // In Proc. International Conference on Machine Learning. - 2003. -P. 186-193.

4. Rand W. Objective criteria for the evaluation of clustering methods // Journal of American Statistical Association. - 1971. - V 66. - P. 846-850.

АНАЛИЗ И ОБЗОР ПРОГРАММНЫХ ПРОДУКТОВ, КАК ДОПОЛНИТЕЛЬНОГО СПОСОБА, НАПРАВЛЕННОГО НА ИЗУЧЕНИЕ И ЗАКРЕПЛЕНИЕ ЗНАНИЙ АНГЛИЙСКОГО ЯЗЫКА

© Саломахина Н.В.*

ГБОУ школа № 109, г. Москва

Современное общество базируется не только на классических базовых знаниях, получаемых в ходе обучения, но и на современных дополнительных средствах обучения. Такими средствами обучения являются вспомогательные программные продукты, которые призваны обеспечить более эффективное изучение материала. Сегодня на рынке представляется широкий спектр программных продуктов, направленных на изучение и закрепление английского языка, что в свою очередь, является одним из важных составляющих в процессе изучения иностранного языка.

Ключевые слова: программный продукт, английский язык, информатизация, грамматика, практические задания, транскрипция.

В современных условиях информатизация общеобразовательного пространства стала неотъемлемой частью процесса обучения школьников. Наряду с общешкольной программой, рекомендуемой Министерством образования и науки РФ, от преподавателя требуется использования в ходе препо-

* Учитель иностранного языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.