РАЗРАБОТКА УЧЕБНО-МЕТОДИЧЕСКОГО ВЗАИМОДЕИСТВИЯ УЧЕБНО-МЕТОДИЧЕСКОГО КОМПЛЕКСА С INTERNET
Ю.Е. Котельникова Научный руководитель - к. т.н., доцент Б.С. Падун
Работа ведется в рамках инновационной образовательной программы «Инновационная система подготовки специалистов нового поколения в области информационных и оптических технологий» при создании образовательного модуля «Поиск научных и технических решений». Статья посвящена схеме автоматизированного взаимодействия учебно-методического комплекса с Internet в целях обеспечения адаптивности и эволюционности.
Введение
Образовательный модуль - часть образовательной программы подготовки специалистов по соответствующему направлению подготовки высшего профессионального образования, имеющая определенную логическую завершенность и целостность содержания, технологии обучения, организации и оценивания по отношению к установленным целям и результатам образования модуля. Учебно-методический комплекс образовательного модуля регламентирует цели, ожидаемые результаты, содержание, обеспечивает учебно-методическое сопровождение подготовки обучающихся по модулю.
Предварительная обработка документов
Комплекты контрольных заданий и тестов
Электронный глоссарий
Презентационный материал
Анимированные демонстрации
Виртуальная лаборатория и/или интерактивное моделирование
Рис. 1. Взаимосвязь учебно-методического комплекса с Internet
Учебно-методический комплекс должен обладать свойствами адаптивности и эволюционности, значит, необходимо обеспечить возможность его постоянного обновления. Один из вариантов решения проблемы - контакт учебно-методического комплекса с Internet, откуда можно будет принимать новую информацию. На данном этапе большая роль в этом процессе отводится человеку, ручной работе. Однако это может нарушить целостность работы электронной составляющей учебно-методического комплекса, поэтому требуется автоматизация. В данной работе предложена схема взаимодействия учебно-методического комплекса с Internet и проанализированы методы автоматического анализа текстовых данных (рис. 1).
Проблема обработки текстовых данных
Процесс автоматизации должен коснуться как отправки запросов в Internet, так и обработки полученной информации. Точкой взаимодействия учебно-методического комплекса нам видится электронный глоссарий - электронное издание, содержащее информацию по терминам, базовым понятиям, положениям и т.п., которые связаны с содержанием изучаемого модуля, учебно-методическим пособием и необходимы для его освоения. Из глоссария в Internet посылается поисковый запрос, ответом на который является блок информации, т.е. неструктурированный текст.
Проблема состоит в том, что текстовые документы невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. Поэтому такие документы хранятся в базе данных без преобразования, как текстовые поля (BLOB-поля). Дальнейшей автоматизированной обработке данные поля не подлежат, что возвращает нас к проблеме целостности электронной составляющей учебно-методического комплекта и наводит на мысль о поиске методов анализа неструктурированного текста.
Схема обработки неструктурированного текста
Методы анализа в неструктурированных текстах лежат на стыке нескольких областей: DataMining, обработка естественных языков, поиск информации, извлечение информации и управление данными. В целом процесс работы с неструктурированным текстом, полученным в результате запроса из глоссария, можно представить в виде схемы (рис. 2).
Глоссарий
Поисковый запрос Необходимая информация
| I
I Методы анализа
Интернет \
^ Извлечени^информации
Блок информации -► Предварительная обработка документов
Рис. 2. Схема обработки неструктурированного текста Методы предварительной обработки документов
Информация, получаемая в виде неструктурированного текста, требует предварительной обработки с целью придания тексту большей строгости. Для этого существуют следующие методы:
1. удаление стоп-слов (слова, которые являются вспомогательными и несут мало информации о содержании документа);
2. стэмминг - морфологический поиск, который заключается в преобразовании каждого слова к его нормальной форме;
3. К-граммы - альтернатива морфологическому разбору и удалению стоп-слов. К-грамма - это часть строки, состоящей из N символов. К-граммы не требуют лингвистического представления слов, что делает данный прием более независимым от языка;
4. приведение регистра.
Методы выделения ключевых понятий
В предварительно обработанном тексте необходимо выделить ключевые понятия, которые могут идентифицировать текст и над которыми в дальнейшем будет выполняться анализ. Для этого используют:
1. определение частых наборов слов и объединение их в ключевые понятия;
2. идентификация фактов в текстах и извлечение их характеристик. Фактами являются некоторые события или отношения;
3. локальный анализ с помощью шаблонов (проходит в 2 стадии) - из текстовых документов извлекаются отдельные факты с помощью лексического анализа; анализ понятий - интеграция извлеченных фактов и/или вывод новых фактов.
Методы Тех1М1ш^
Дальнейшая работа строится на использовании методов Тех1Мтт§, среди которых, на наш взгляд, главную роль должны сыграть классификация и кластеризация.
1. Классификация - стандартная задача из области Ба1аМтт§. Определение для каждого документа одной или нескольких заранее заданных категорий. Частным случаем задачи классификации является задача определения тематики документа.
2. Кластеризация - автоматическое выявление групп семантически похожих документов среди заранее фиксированного множества. Группы формируются только на основе попарной схожести описаний документов.
Большинство методов классификации текстов, так или иначе, основаны на предположении, что документы, относящиеся к одной категории, содержат одинаковые признаки (слова или словосочетания), и наличие или отсутствие таких признаков в документе говорит о его принадлежности или непринадлежности к той или иной теме. Таким образом, для каждой категории должно быть множество признаков. Такое множество признаков часто называют словарем, так как оно состоит из лексем, которые включают слова и/или словосочетания, характеризующие категорию.
Задача методов классификации состоит в том, чтобы наилучшим образом выбрать такие признаки и сформулировать правила, на основе которых будет приниматься решение об отнесении документов к рубрике. Существует 2 противоположных подхода к формированию множества признаков и построению правил:
1. машинное обучение - предполагается наличие обучающей выборки документов, по которому строится множество признаков;
2. экспертный метод - предполагает, что выделение признаков и составление правил производится экспертами.
Возможна и комбинация описанных подходов, когда выделение признаков и составление правил выполняется автоматически на основе обучающей выборки, и в то же время правило строится в таком виде, чтобы эксперту была понятна логика автоматической рубрикации и у него была возможность вручную корректировать эти правила.
Большинство алгоритмов кластеризации требуют, чтобы данные были представлены в виде модели векторного пространства. Это наиболее широко используемая модель для информационного поиска. В этой модели каждый документ представляется в многомерном пространстве, в котором каждое измерение соответствует слову в наборе документов.
Все алгоритмы кластеризации основываются на изменениях похожести по различным критериям. Выделяют 3 основных типа методов кластеризации документов.
1) Иерархический - создает дерево со всеми документами в корневом узле и одним документом в узле-листе. Промежуточные узлы содержат различные документы, которые становятся более и более специализированными по мере приближения к листьям дерева. Этот метод полезен, когда исследуют новую коллекцию документов и хотят получить общее представление о ней.
2) Агломеративные - кластеризация выполняется, начиная с индивидуальных элементов, группируя их в кластеры (снизу вверх): односвязный метод группирует ближайших членов; полносвязный - дальних членов; среднесвязный - ближайших к середине членов. Результат - дентограмма.
3) Дивизимные - кластеризация выполняется, начиная с одного кластера и разбивая его на несколько (сверху вниз):
- алгоритм дивизимного разделения по главному направлению строит бинарное дерево, в котором каждый узел содержит документы, далее рекурсивно делит каждый лист на 2 дочерних узла, пока сохраняется критерий деления;
- бинарный алгоритм обеспечивает группировку и просмотр документальных кластеров по ссылкам подобия. В один кластер помещаются самые близкие по своим свойствам документы. В процессе кластеризации строится базис ссылок от документа к документу, основанный на весах и совместном употреблении определяемых ключевых слов;
- интерактивная кластеризация обычно создает кластеры, оптимизируя целевую функцию, описанную локально (среди документов одного и того же кластера) или глобально (через все документы). Типичным представителем интерактивных алгоритмов является алгоритм k-средних. Он интерактивно выполняет деление данных на k-кластеров, минимизируя расстояние между элементами кластеров и их центрами;
- нечеткий алгоритм включает каждый документ во все кластеры, но при этом связывает с ним весовую функцию, определяющую степень принадлежности данного документа определенному кластеру.
Многие исследователи все еще придерживаются мнения, что более эффективна обработка текста вручную, а не автоматизированная.
Итак, теперь мы можем определить, насколько найденный текст соответствует изначальному запросу. Обработанная таким образом информация должна быть интерпретирована на естественном языке и занесена в глоссарий.
Заключение
Учебно-методический комплекс должен обладать свойствами адаптивности и эво-люционности, значит, необходимо обеспечить возможность его постоянного обновления. Как вариант, надо организовать взаимодействие учебно-методического комплекса с Internet, откуда можно будет принимать новую информацию. На данном этапе большая роль в этом процессе отводится человеку, ручной работе. Однако это может нарушить целостность работы электронной составляющей учебно-методического комплекса, поэтому требуется автоматизация. В данной работе предложена схема взаимодействия учебно-методического комплекса с Internet и проанализированы методы автоматического анализа текстовых данных.
Литература
1. Баргесян А.А. Технологии анализа данных: DataMining, VisualMining, TextMining, OLAP / А.А. Баргесян, М.С. Куприянова, В.В. Степаненко, И.И. Холод. - 2-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2008. - 384 с.
2. Зайнутдинова Л.Х. Создание и применение электронных учебников (на примере общетехнических дисциплин): Монография. - Астрахань: Изд-во «ЦНТЭП», 1999.