Научная статья на тему 'Кластеризация учебного контента и построение сетевой модели изучаемой предметной области'

Кластеризация учебного контента и построение сетевой модели изучаемой предметной области Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
107
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕЗАУРУС / КОНТЕНТ / ИНДЕКСИРОВАНИЕ / БАЗИС / МЕРА БЛИЗОСТИ / КЛАСТЕРИЗАЦИЯ / КАРТЫ КОХОНЕНА / СЕТЬ ЗНАНИЙ / ТРАЕКТОРИЯ ОБУЧЕНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Егоров Юрий Сергеевич, Алипова Наталья Андреевна

В статье рассматривается подход к проектированию информационно-обучающих систем, а так же к представлению учебно-справочных материалов в таких системах. Предложена процедура автоматической индексации фрагментов учебного контента с последующей их кластеризацией, а так же процедура формирования сети знаний на основе построенных индексов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Егоров Юрий Сергеевич, Алипова Наталья Андреевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Кластеризация учебного контента и построение сетевой модели изучаемой предметной области»

Егоров Ю.С.1, Алипова Н.А.2

1 Нижегородский государственный технический университет им Р.Е. Алексеева, асситстент кафедры «Электроника и сети ЭВМ», ckar@list.ru 2 Нижегородский государственный технический университет им Р.Е. Алексеева, ассистент кафедры «Электроника и сети ЭВМ», alipovana@mail.ru

Кластеризация учебного контента и построение сетевой модели изучаемой предметной области

КЛЮЧЕВЫЕ СЛОВА:

Тезаурус, контент, индексирование, базис, мера близости, кластеризация, карты Кохонена, сеть знаний, траектория обучения.

АННОТАЦИЯ:

В статье рассматривается подход к проектированию информационно-обучающих систем, а так же к представлению учебно-справочных материалов в таких системах. Предложена процедура автоматической индексации фрагментов учебного контента с последующей их кластеризацией, а так же процедура формирования сети знаний на основе построенных индексов. Ценность информации, определяемая в рамках прагматического подхода, напрямую зависит от преследуемой цели. Чем в большей мере информация помогает достижению цели, тем более ценной она считается [1]. В отличие от шенноновского определения количества информации, передаваемой по каналам связи, ценность проявляется в результате рецепции и, следовательно, непосредственно с ней связана. Другими словами, ценность информации зависит так же и от уровня подготовки, предшествующего запаса информации - тезауруса. Эта зависимость наглядно проиллюстрирована в [2] на примере ценности учебника высшей математики. Его ценность не велика как для дошкольника, так и для профессора математики, т.к. дошкольник не обладает необходимыми базовыми знаниями (тезаурусом), для восприятия предложенной информации, а профессор не обнаружит для себя в данном материале ничего нового. Максимальной ценностью эта информация обладает для студентов того курса ВУЗа, для которых она предназначена.

Если перед обучающимся ставится задача освоения того или иного нового материала, то бывает затруднительно самостоятельно определить какими базовыми знаниями, например, терминологическим запасом, нужно обладать, чтобы успешно воспринять новую информацию. Кроме того, часто возникает задача выбора какими именно материалами из предложенных воспользоваться и в каком порядке их изучать. Отдельно стоит вопрос на какую «глубину» нужно ознакомиться с материалом -

получить самые общие сведения по заданной тематике, или же подробно разобраться в определенном круге вопросов. Подобные задачи возникают у студентов при изучении нового для них материала в рамках самостоятельной работы или дистанционного образования, особенно, если для этого используется электронный учебный контент, представленный на том или ином образовательном ресурсе. Ту же задачу решают преподаватели ВУЗа, формирующие тематические планы дисциплин, которые могут представляться как тематические карты.

С развитием компьютерных и web- технологий все более широкое применение находит электронный (удаленный) режим обучения. Однако, в большинстве случаев, реализация такого режима обучения основана на обеспечении обучающегося большим объемом статических электронных ресурсов без учета способностей обучающегося и без поддержки активного учебного процесса.

В работе [4] делается предположение, что обучающийся, активно заинтересованный в учебном процессе, с большей вероятностью достигнет успеха. Авторами вводится термин «Конструктивистское обучение» (от англ. constructivist learning), как подход, направленный на активный и исследовательский процесс обучения, ориентированный на обучающегося, учитывающий цель обучения, а так же личностные особенности обучающегося. Для эффективной реализации конструктивистского обучения предлагается подход к проектированию информационно-обучающей системы, базирующийся на Web и агентных технологиях.

Для управления учебными ресурсами может применяться семантическая модель сети знаний, основанная на онтологиях и тематических картах (рис. 1).

Модель сети знаний включает в себя следующие элементы [4].

1. Темы представляют элементы знаний. Каждая тема имеет дополнительные атрибуты, такие как принадлежность к категории и т.д.

2. Связи определяют отношения между темами, включая генерализацию, агрегацию и ссылки, например, причинно-следственные связи, аналогии и т.д.

3. Учебные материалы. Каждая тема может быть связана с одним или более учебными материалами и описывается фреймом, состоящим из (J+1) элементов: Oi =(URIi, Рц, j=1..J), где URIi - адрес элемента Oi, Рц - значение j-того атрибута Oi. Атрибутами могут быть ключевые слова, тип элемента, педагогическое назначение, уровень сложности и т.д.

В рамках информационно-обучающих систем адаптивные учебные курсы (индивидуальные траектории обучения) могут быть сгенерированы на основе онтологии, связей между темами и профиля обучающегося. В ответ на запрос, сформированный обучающимся и отражающим цель обучения, информационно-обучающей системой генерируется индивидуальная траектория, направляющая обучение в соответствии с его целью. Для этого выбираются темы, соответствующие цели обучения.

Возможно расширение списка выбранных тем исходя из связей между ними, содержащимися в сети знаний. Затем, на основе профиля обучающегося, осуществляется выбор элементов знаний (материалов), в недостаточной мере изученных обучающимся, и формируется последовательность изучения материалов с гибкой структурой навигации. В результате планируется формировать структуру учебного контента, представляющую собой индивидуальную траекторию обучения, формирующую индивидуальное образовательное пространство обучающегося.

Частичная автоматизация перечисленных задач достигается за счет применения различных систем анализа текстов, осуществляющих извлечение индекса текста, автоматическое формирование рубрик, кластеризацию множества текстов, отнесение текста к рубрике (классификация), сравнение текстов и т.д. Основной из этих функций является индексация, которая может быть реализована в рамках статистического или семантического подходов. Статистический подход позволяет сформировать индекс фрагмента контента на основе анализа частоты встречаемости слов в тексте. Семантический подход основан на использовании заранее сформированного представления предметной области в виде семантической сети. В этом случае проекция исходного фрагмента контента на эту сеть и формирует индекс текста [3].

Задача индексации заключается в построении индексов учебных материалов, являющихся фрагментами разнородного контента и

соотнесении этих фрагментов контента с темами.

Решение задачи индексации непосредственно зависит от базиса. Таким базисом может служить вектор терминов, релевантных тезаурусу запроса. Тогда запрос, вводимый обучающимся, должен содержать перечень тем (или терминов), которые планируется освоить. Предложена процедура, позволяющая автоматически формировать тезаурус на основе указания одной наиболее общей (родительской) темы. Так же, необходимо предусмотреть возможность расширения автоматически сформированного тезауруса нужными темами, представленными соответствующими терминами.

По полученному базису выполняется индексация фрагментов контента. Индексом является вектор-строка, отражающая наличие компонентов базиса (терминов) в выбранном фрагменте. Такой вектор может быть построен различными способами:

1) отражать наличие термина во фрагменте - бинарный индекс;

2) отражать количество вхождений компонента базиса в выбранный фрагмент;

3) отражать относительную встречаемость компонентов базиса -частотный индекс.

Для примера выберем фрагменты электронного учебного контента технического ВУЗа по нескольким темам и обозначим их Cn, n = 1N (в выбранном примере N = 8): «Системы управления базами данных» (Ci -СУБД), «Базы данных» (C2 - БД), «Модель данных» (C3 - МД), «Предметная область» (C4 - ПО), «Экспертные системы» (C5 - ЭС), «Корпоративные информационные системы» (C6 - КИС), «Информационные системы» (C7 -ИС), «Информационные технологии» (Cb - ИТ).

Автоматически формируемый тезаурус, содержит термины, соответствующие названиям одноименных статей и расширяется двумя дополнительными терминами: «Реляционная модель» и «MySQL». Таким образом, формируется базис B, содержащий элементы Bm, m = 1,м, являющийся основой для определения индексов фрагментов учебного контента.

Таблица 1. Матрица I бинарных индексов фрагментов контента

I Bi B2 B3 B4 Bs Be B7 Ba B9 B10

Cl 1 1 1 0 0 0 1 1 1 1

C2 1 1 1 1 0 0 0 0 1 1

C3 1 1 1 0 0 0 1 0 1 1

C4 0 0 0 1 0 0 0 0 0 0

C5 0 1 0 1 1 0 1 0 0 0

C6 0 1 1 0 0 1 0 1 0 0

C7 1 1 0 0 0 1 1 1 0 0

Ca 0 0 0 0 0 0 1 1 0 0

Для индексации строится матрица I (Index), строки которой являются

индексами фрагментов контента, т.е. в столбцах содержатся элементы базиса В, а в строках отражается вхождение элементов базиса в выбранные фрагменты контента Cn. (Таблица 1).

Для решения задачи иерархической кластеризации необходимо задать способ определения близости фрагментов контента. В работе [5] приведены различные методы оценки семантической близости текстов.

Воспользуемся бинарным индексом для визуализации расположения фрагментов контента на плоскости использованием карт Кохонена.

С

С

мд _ —Сз

С1

С7

а)

Рис. 2. Кластеризация с применением бинарного индекса

Эффективность освоения учебных материалов, особенно справочного характера, существенно зависит от последовательности их изучения. Имея доступ к большому объему неструктурированных (либо только разделенных по темам) учебно-справочных материалов, для успешного их самостоятельного освоения обучающийся должен сначала определить порядок изучения. При этом полученных ранее знаний должно быть достаточно для изучения каждого следующего фрагмента контента. Для формирования оптимальной траектории обучения необходимы априорные знания о предметной области. Предлагается процедура формирования траектории освоения учебных материалов в информационно-обучающих системах с учетом тематической близости фрагментов контента, основанная на семантической сети фрагментов учебного контента.

Воспользуемся коэффициентом сходства Жаккара [5]:

п( А ^ В)

к =-^---(1)

п(В) + п(В) - п(А ^ В) ( ^

где

п(А) - количество элементов множества А, п(В) - количество элементов множества В,

п(А ^В) - количество элементов множества, образованного пересечением А и В.

Строки матрицы I представляют собой булевы вектора. Наличие элемента базиса в индексе отражается значением 1, отсутствие - 0. Для таких векторов коэффициент Жаккара рассчитывается по формуле

Танимото [5], при этом п(Ск) - количество ненулевых элементов в к-той строке матрицы I (таблица 1), а п(С„ ^ Ck) - количество общих элементов в к-той и п-той строках матрицы I.

Для рассмотренного примера с использованием матрицы I получена квадратная матрица близости S (с элементами Кп,к), симметричная относительно главной диагонали (Таблица 2).

Таблица 2. Матрица близости фрагментов контента Сп

S Cl C2 C3 C4 C5 Ce C7 C8

Cl 1.00 0.63 0.86 0 0.22 0.38 0.50 0.29

C2 0.63 1.00 0.71 0.17 0.25 0.25 0.22 0

C3 0.86 0.71 1.00 0 0.25 0.25 0.38 0.14

C4 0 0.17 0 1.00 0.25 0 0 0

C5 0.22 0.25 0.25 0.25 1.00 0.14 0.29 0.20

Ce 0.38 0.25 0.25 0 0.14 1.00 0.50 0.20

C7 0.50 0.22 0.38 0 0.29 0.50 1.00 0.40

C8 0.29 0 0.14 0 0.20 0.20 0.40 1.00

Наибольшие значения в матрице соответствуют наиболее тематически близким фрагментам, наименьшие значения - наиболее отдаленным.

На основе индексов фрагментов учебного контента строится граф, являющийся однородной семантической сетью с фрагментами контента в узлах (рис. 3). Отношения в этой сети характеризуются значениям близости фрагментов контента, то есть значениями Кп,к матрица близости 5

____О.ЛТ-

Рис. 3 Семантическая сеть, сформированная на основе индексов фрагментов учебного

контента

Для формирования направленных связей между фрагментами контента могут быть применены несимметричные коэффициенты Жаккара (2)

K ( A; B) =-- к (£. a) =_niA^B)_

V 7 2n(A) - n(A о B) . ' 2n(B) - n(A о B) (2)

В этом случае матрица близости Sa (asymmetrical) (с элементами K(Cn,Ck)) будет несимметричной (таблица 3).

Sa Cl С2 Сз С4 С5 Сб Су С8

Cl 1 0.556 0.75 0 0.167 0.273 0.4 0.167

C2 0.714 1 0.714 0.091 0.2 0.2 0.2 0

Сз 1 0.714 1 0 0.2 0.2 0.333 0.091

C4 0 1 0 1 1 0 0 0

С5 0.333 0.333 0.333 0.143 1 0.143 0.333 0.143

Сб 0.6 0.333 0.333 0 0.143 1 0.6 0.143

Су 0.667 0.25 0.429 0 0.25 0.429 1 0.25

С8 1 0 0.333 0 0.333 0.333 1 1

На основе матрицы несимметричных мер включения и семантической сети фрагментов контента может быть построен ориентированный граф, или сеть знаний, представленная на рис. 4.

V---1

0.167_—■

Рис. 4. Сеть знаний

В результате полученная сетевая модель изучаемой предметной области, а так же разбиение её на кластеры, позволят повысить эффективность процесса обучения и, в дальнейшем, станут основой для разрабатываемой процедуры формирования индивидуальных траекторий обучения с учетом запросов пользователя.

Литература

1. Мелик-Гайказян И.В. Информационные процессы и реальность,-М.: Наука. Физматлит, 1998.-192 с.

2. Шрейдер Ю.А. Тезаурусы в информатике и теоретической семантике. // НТИ. Сер. 2, 1971, N3.

3. Харламов А.А. Нейросетевая технология представления и обработки информации (естественное представление знаний). Кн. 4. Монография / Под ред. А.И. Галушкина. М.: Радиотехника, 2006.-88с.: ил. (Научная серия «Нейрокомпьютеры и их применение», редактор А.И. Галушкин).

4. Hai Zhuge, Yanyan Li. An Open Framework for Constructivist Learning (http://wwwconference.org/www2003/cdrom/papers/poster/p263/p263-zhuge/p263-zhuge.htm)

5. Нгуен Ба Нгок, А.Ф. Тузовский. Классификация текстов на основе оценки семантической близости терминов // Известия Томского политехнического университета. - 2012.- Т. 320, № 5 - С. 43-48.

i Надоели баннеры? Вы всегда можете отключить рекламу.