УДК 004.6:004.9
Е. Г. Малькова, Ю. Е. Усачёв, Е. Н. Яшина
АВТОМАТИЗАЦИЯ ПРОЦЕССА РЕЦЕНЗИРОВАНИЯ УЧЕБНО-МЕТОДИЧЕСКИХ ИЗДАНИЙ НА ОСНОВЕ СЕМАНТИЧЕСКОГО АНАЛИЗА ТЕКСТА
E. G. Maikova, Yu. E. Usachyov, E. N. Yashina
AUTOMATIZATION OF THE REVIEWING PROCESS OF TEACHING MATERIALS ON THE BASIS OF SEMANTIC TEXT ANALYSIS
Рассматривается автоматизация процесса рецензирования учебно-методических изданий. Используется подход, основанный на создании в автоматическом режиме иерархической структурной модели текста документа с помощью комплексного смыслового анализатора текста -программы Text Analyst. Приводится методика определения степени соответствия учебного пособия федеральным государственным стандартам высшего профессионального образования. Описана реализация системы рецензирования и приводятся результаты ее апробации.
Ключевые слова: модель текста, семантическая сеть, рецензирование, дидактическая единица.
The automatization of the reviewing process of teaching materials is considered in the paper.
The approach based on creation of a hierarchical structural model of the document text in an automatic mode by means of the complex semantic analyzer of the text -Text Analyst programs, is used. The technique of determination of the correspondence level of the manual to the federal state educational standard of the higher vocational training is shown. The implementation of the reviewing system is described, and the results of its approbation are given.
Key words: text model, semantic network, reviewing, didactic unit.
Введение
Одним из основных компонентов методического обеспечения учебного процесса является учебно-методическое издание по дисциплине. Его контент и качество - значимый фактор, влияющий на уровень подготовки специалистов. Содержание учебно-методических изданий в первую очередь должно соответствовать федеральному государственному образовательному стандарту высшего профессионального образования (ФГОС ВПО). Актуальной является проблема создания автоматизированной системы, способной выполнять часть функций экспертов при анализе смыслового содержания учебного пособия путем определения наличия в нем дидактических единиц, содержащихся в рабочей программе.
В статье описывается автоматизация процесса рецензирования учебно-методических изданий, позволяющего качественно и эффективно проводить анализ смыслового содержания учебных пособий на предмет соответствия его требованиям ФГОС ВПО. Это позволит сократить трудоёмкость выполнения и повысить качество экспертной оценки учебных пособий.
Постановка задачи
Имеется ФГОС ВПО специальности, содержащий описание дисциплины, в котором приведены основные дидактические единицы. По этому описанию разработана рабочая программа дисциплины.
Необходимо разработать систему автоматизированного рецензирования учебных пособий, которая должна выделять основные понятия, содержащиеся в тексте учебного пособия. Для выделенных понятий система определяет семантические отношения между ними и оформляет модель взаимосвязи понятий в форме семантической сети. Система должна выполнять анализ семантической сети понятий с целью определения наличия в учебном пособии дидактических единиц, указанных в рабочей программе дисциплины.
Подход к решению
Рассматриваемый нами подход основан на автоматическом извлечении знаний из текста учебного пособия с помощью смыслового анализатора текста. Система генерирует семантический (смысловой) «портрет» документа в виде семантической сети, содержащей основные понятия и описывающей отношения между ними. Семантическая сеть отображает суть учебного по-
собия. Она включает только значимые для данного текста понятия. Для определения наличия некоторой дидактической единицы в тексте учебного пособия необходимо найти соответствующие ей понятия в сгенерированной семантической сети с сохранением их следования в дидактической единице.
В настоящее время для реализации данного подхода существует достаточно много инструментов текстомайнинга, таких как WordStat, Aerotext , Businessobjects Text Analysis, Attensity Text Analytics suite и др. [1].
Сравнение этих программ показало, что в качестве инструментального средства анализа текста учебного пособия следует выбрать комплексный смысловой анализатор текста Text Analyst [2], т. к. он позволяет решить поставленные задачи, настраиваясь на конкретную предметную область с помощью пользовательских словарей, и является наиболее доступным. Кроме того, задавая различные веса понятиям и смысловым связям, можно анализировать документы с различным уровнем детализации.
Формальная модель текста документа
В простейшем случае структуру S совокупности знаний можно определить следующим образом:
S = {M, F} ,
где M - множество всех понятий данной совокупности знаний; F - отношение «смысловая связь».
Бинарное отношение F на множестве всех понятий данной совокупности знаний M является антирефлексивным, симметричным и антитранзитивным.
Определение 1. Понятие a е A находится в отношении «смысловая связь» с каждым из понятий множества Ba с A, которое сочетается по смыслу в тексте (часто используются в сочетании) с понятием a .
Каждому понятию множества a е A во взаимно однозначное соответствие поставлено множество Ba , удовлетворяющее следующим условиям:
"a е A$Ba | Ba с M л ("b е Ba, aFb).
Базовое множество понятий M определяется по формуле
m
M = A U|J Bi, m =| A |.
i=1
В качестве формальной модели структуры знаний можно использовать семантическую сеть, определяемую в виде ориентированного графа
G = (E, V), (1)
где E - множество вершин, поставленное во взаимно однозначное соответствие с множеством понятий; V - множество ориентированных дуг; v = (x, y) е V; x е E л y е E - дуга выходит из вершины, соответствующей основному понятию a , и входит в вершину, соответствующую понятию, которое сочетается по смыслу в тексте (часто используются в сочетании) с понятием a .
Формальная постановка задачи
Имеется основной документ, рабочая программа, составленная согласно ФГОС специальности. Существует множество A = {ai,a2,... an} основных понятий этого документа. В рабочей программе существует множество дидактических единиц D = {di,d2,..., dn}, каждая из которых включает несколько основных понятий документа.
Определение 2. Дидактическая единица di е D находится в отношении «Дидактическая единица» с каждым из понятий множества Bi с M , которые входят в ее состав. На множестве Bi задано отношение следования.
Каждой дидактической единице di е D можно поставить в соответствие модель в виде графа
=( Е, V), (2)
где Ed - множество вершин, поставленное во взаимно однозначное соответствие с множеством
понятий дидактической единице; - множество ориентированных дуг; V = (х, у) еV^ ;
х е Е^ л у е Е^ - дуга выходит из вершины х, соответствующей основному понятию а е В1,
и входит в вершину у, соответствующую понятию Ь е В1, которое следует за понятием а в дидактической единице.
Для учебного пособия разработана формальная модель в виде семантической сети, представленной в виде ориентированного графа (1).
Необходимо в графе (1) найти подграфы, изоморфные графам (2) каждой дидактической единицы. Если для всех дидактических единиц найдены такие подграфы, то можно сделать вывод, что документ (учебное пособие) соответствует федеральному государственному образовательному стандарту высшего профессионального образования. Если найдутся не все подграфы, то необходимо оценить степень соответствия учебного пособия ФГОС ВПО. Очевидно, это будет соотношение найденных дидактических единиц к общему количеству дидактических единиц.
Метод оценки степени соответствия
При нахождении подграфа, изоморфного данной дидактической единице, возможно частичное совпадение. Степень совпадения определяется по формуле
2 = Тп/Т0 ,
где 2^ - степень совпадения дидактической единицы с текстом документа; Тп - количество найденных понятий дидактической единицы ; Т0 - общее количество понятий в составе дидактической единицы .
Степень соответствия документа (учебного пособия) S определяется по формуле
п
Б = X 2й1!\В\. (3)
г=1
Пример. Имеется фрагмент семантической сети (рис. 1, табл.) и следующие дидактические единицы:
1) интеллектуальные информационные системы;
2) нейронные сети;
3) реализация экспертных систем;
4) базы знаний.
Фрагмент семантической сети
Родитель П одчиненный
ах - интеллектуальных
а2 - информационных
аз - интерфейс
а4 - нейронные
а5 - реализация
аб - принципы
а2 - информационных
ап - методы
а8 - системы
ар - интеллектуальных информационных
а2 - информационных
а1 - интеллектуальны х
а4 - нейронные
аю - сети
ац - функции
а12 - человеческого
а1з - мозга
а14 - искусственного
а1 - интеллектуальны х
а
Рис. 1. Фрагмент семантической сети
В результате поиска во фрагменте семантической сети были выделены подграфы, представленные на рис. 2-4.
Рис. 3. Дидактическая единица «Нейронные сети»
Был обнаружен также подграф, частично изоморфный дидактической единице «Реализация экспертных систем».
Реализация автоматизированной системы рецензирования учебно-методических изданий
Разработанная нами автоматизированная система рецензирования учебно-методических изданий (АСРУМИ) состоит из комплексного смыслового анализатора текстов ТехіЛпаіу8І;, модуля подготовки словаря TANew и модуля рецензирования.
Схема анализа текстов документов с применением АСРУМИ приведена на рис. 5.
Рис. 2. Дидактическая единица «Интеллектуальные информационные системы»
Рис. 4. Дидактическая единица «Реализация экспертных систем»
Подграф, изоморфный дидактической единице «Базы знаний», найден не был.
Для каждой дидактической единицы подсчитали степень их совпадения в документе:
По формуле (3) найдена степень соответствия учебного пособия рабочей программе:
5 = (1 +1 + 0,67 + 0)/4 = 0,6675.
Построение
списка
дидактических
единиц
ТАЫе\д/
Основные
терминь
Рис. 5. Схема анализа текстов документов
Для апробации системы было проведено сравнение рабочей программы и учебного пособия по дисциплине «Интеллектуальные информационные системы». В качестве основного документа использовалась рабочая программа дисциплины. При рецензировании была использована методика, описанная в [3] .
На первом этапе средствами АСРУМИ из рабочей программы были выделены дидактические единицы и сформирован файл DE.txt, их содержащий.
На втором этапе средствами модуля TANew были подготовлены дополнения к словарю «normal_ms.dic» системы TextAnalyst. Понятия, входящие в состав дидактических единиц, являются словами-предпочтениями, и при анализе отождествляются все слова, имеющие ту же корневую основу, что и основная форма. Из файла, сформированного на предыдущем этапе, были загружены дидактические единицы, после чего автоматически произошло их разбиение на понятия. Далее из полученного списка с помощью соответствующих команд меню были удалены все повторения и произведена сортировка «по имени». Слова-предпочтения были сохранены в файле для последующей работы.
Далее в редакторе словарей VocEdit к основному словарю были присоединены сформированные дополнения и результат объединения был установлен в TextAnalyst для анализа текстов.
На третьем этапе для получения корректных результатов была произведена настройка системы:
— для построения семантической сети понятий и тематической структуры выбраны термины и связи с весом не менее 75 и 1 соответственно;
— для формирования реферата выбраны предложения с весом не менее 90;
— для формирования результатов поиска выбраны термины с весом не менее 1.
Выполнено автоматическое построение семантической сети понятий учебного пособия
с использованием комплексного смыслового анализатора текстов TextAnalyst. Результатом построения является семантическая сеть и тематическая структура текста учебного издания. Количество строк семантической сети составило 3 186.
На четвёртом этапе средствами АСРУМИ было проведено сопоставление рабочей программы и учебного издания. В результате проведения сопоставления из 77 дидактических единиц, содержащихся в рабочей программе, по семантической сети было построено 58. По формуле (3) была рассчитана степень соответствия учебного пособия образовательным стандартам, которая составила 0,75.
Результаты проведенного сопоставления формируются средствами разработанной прикладной программы (рис. 6).
Ре центрованії* учебных пособий
Выберите рабочую программу’ для проведения р ецешир ов ания:
/ Программа дисциплины
Выберите файл, содержащий семантическую сеть понятий, построенную TextAnalyst:
Сеть понятий TextAnalyst
О :\01 РЬОМХАБР Р А_и 1\ЯаЬ Рго§гатша\Сист_интел_дн ПГ
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ ПЕНЗЕНСКАЯ ГОСУДАРСТВЕННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ
Факультет «Институт образовательных технологий»
Утверждаю Декан факультета
«Институт образовательных технологии» Люсев В Н
ПЮГРАММА ДИСЦИПЛИНЫ
О \01 РЬОМ\А8РРА_и 1\Ехро11Ва5е\Ехрог1Ва$е 1 ЬЛ
Родитель, Частота, Вес, Подчиненный аргументов,23,30,*» аргументов,2,20,заоточается аргументов,5,49, предикаты аргументов,2,20,вывод аргументов,2,20, отр ажает аргументов.8,64,типы аргументов,3,33,типы аргумента аргументов,2,20,аргумент_ типы аргументов,3,33, функции аргументов,2,20,предикатом аргументов.2,20 логиче ский аргументов,2,20, истинно стиых аргументов^,20, ско бках аргументов,2,20,факты аргументов,3,33,перечисленными аргументов.2,20, стандартные домены аргументов.2,20.в ажно сти
Найденные д|здактические едишщы (ДЕ):
Параметризация решаемых задач Концептуализация проблемной области Структурная модель Функциональная модель Поведенческая модель Реализация экспертной системы
Развитие прототипа до промышленной экспертной системы Оценка системы Сопровождение системы
Особенности экспертных систем экономического анализа
Рейпесовый метод
Метод классификации ситуации
Общее количество ДЕ, выделенных из рабочей программы: 77 Количество ДЕ, найденных в учебном издании: 58 Количество ДЕ, не найденных в учебном издании: 198
Ненайденные дидактические едишщы (ДЕ):
Основные секции программы Секция domarts Секция pcedeaJes Секция clauses Секция goal Отсечение Рекурсия
Этапы проектирования экспертной системы иаенти<|**сация, концептуализация, форм Участники процесса проектировав: эксперты, инженеры по знаниям, конечные пол Т вотирование
Внешний и внутренний экономический анализ предприятия Метод последовательной декомпозиции
Рис. б. Результат проведения сопоставления
В результате анализа были выявлены дидактические единицы, требующие доработки и более детального представления в учебном издании.
Заключение
В настоящее время задача рецензирования учебных пособий решается исключительно специалистами высокой квалификации, требует больших временных затрат и всегда содержит субъективный фактор. Разработанная система даст возможность в автоматическом режиме осуществлять рецензирование содержания печатных и электронных учебных пособий дисциплин с целью определения их соответствия требованиям ФГОС ВПО, учебных программ и руководящих документов, что позволит повысить качество рецензирования и уменьшить его трудоемкость.
СПИСОК ЛИТЕРАТУРЫ
1. Беленький А. Текстомайнинг. Извлечение информации из неструктурированных текстов // КомпьютерПресс. - 2008. - № 10. - С. 174-179.
2. Харламов А. А. Автоматический структурный анализ текстов // Открытые системы. - 2002. - № 10. - С. 16-22.
3. Автоматизированный анализ соответствия образовательных стандартов и профессиональных требований / Е. В. Жаркова, В. В. Пикулин, Ю. Е. Усачёв, Е. Н. Яшина // Проблемы информатики в образовании, управлении, экономике и технике: сб. ст. X Междунар. науч.-техн. конф. - Пенза: Приволжский Дом знаний,2010. - С. 125-127.
Статья поступила в редакцию 10.11.2011
ИНФОРМАЦИЯ ОБ АВТОРАХ
Малькова Екатерина Георгиевна - Пензенская государственная технологическая академия; студентка, специальность «Прикладная информатика в экономике»; [email protected].
Malkova Ekaterina Georgievna - Penza State Technological Academy; Student, Speciality "Applied Informatics (in Economics)"; [email protected].
Усачёв Юрий Евгеньевич - Пензенская государственная технологическая академия; канд. техн. наук, доцент; кафедра «Прикладная информатика»; [email protected].
(Jsachyov Yuriy Evgenievich - Penza State Technological Academy; Candidate of Technical Science, Assistant Professor, Department "Applied Informatics"; [email protected].
Яшина Елена Николаевна - Пензенская государственная технологическая академия; студентка, специальность «Прикладная информатика в экономике»; [email protected].
Yashina Elena Nickolaevna - Penza State Technological Academy; Student, Speciality "Applied Informatics (in Economics)"; [email protected].