Научная статья на тему 'Количественные Метрики для оценки качества квантования учебной информации'

Количественные Метрики для оценки качества квантования учебной информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
164
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КВАНТОВАНИЕ УЧЕБНЫХ ТЕКСТОВ / УЧЕБНЫЙ КОНТЕНТ / СТЕПЕНЬ СЖАТИЯ / СЛОЖНОСТЬ КВАНТОВАННОГО ТЕКСТА / РЕЛЕВАНТНОСТЬ КВАНТОВАННОГО ТЕКСТА / АВТОМАТИЗАЦИЯ КВАНТОВАНИЯ / КВАЗИРЕФЕРАТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рыбанов Александр

В статье рассматриваются вопросы количественной оценки квантованного представления учебной информации на основе ряда метрик: сложность квантованного текста относительно исходного текста, коэффициент степени сжатия квантованного текста, релевантность квантованного текста исходному тексту. Процесс получения значений количественных метрик для квантованного представления учебной информации ориентирован на использование инструментальных средств: сжатия данных, автоматического реферирования, семантического анализа текста. Сравнительный анализ квантованных текстов предлагается проводить с использованием методов равномерной оптимизации и справедливого компромисса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Количественные Метрики для оценки качества квантования учебной информации»



Методология

КОЛИЧЕСТВЕННЫЕ МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА КВАНТОВАНИЯ УЧЕБНОЙ ИНФОРМАЦИИ

Александр Рыбанов,

Волжский политехнический интитут (филиал) ФБГОУ ВПО «Волгоградский

государственный технический университет»

В статье рассматриваются вопросы количественной оценки квантованного представления учебной информации на основе ряда метрик: cложность квантованного текста относительно исходного текста, коэффициент степени сжатия квантованного текста, релевантность квантованного текста исходному тексту. Процесс получения значений количественных метрик для квантованного представления учебной информации ориентирован на использование инструментальных средств: сжатия данных, автоматического реферирования, семантического анализа текста.

Сравнительный анализ квантованных текстов предлагается проводить с использованием методов равномерной оптимизации и справедливого компромисса.

Ключевые слова: квантование учебных текстов, учебный контент, степень сжатия, сложность квантованного текста, релевантность квантованного текста, автоматизация квантования, квазиреферат

Pn

измерения

-е-

—i—

Рыбанов АА. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6.

С. 172-174.

Рыбанов А.А.

Степень соответствия между тезаурусом учащегося и тезаурусом учебного контента как метрика процесса усвоения дистанционного учебного курса // Педагогические измерения. 2013. № 3. C. 77-91.

Введение

Инструментальные средства разработки учебного контента отстают в развитии от систем дистанционного обучения (СДО). В свою очередь, успешность применения СДО зависит от качества и эффективной организации учебного контента.

Существующие в настоящее время СДО Moodle, Ilias, Claroline, A-tutor и др. не предоставляют разработчикам дистанционных учебных курсов возможность оценки качества учебного контента. Между тем, оценка учебного контента направлена на выявление достоинств и недостатков учебной информации и на принятие решения о необходимости и оптимальных условиях его использования в процессе дистанционного обучения.

Постановка задачи

Качество и эффективная организация учебного контента непосредственно влияют на следующие показатели1 СДО:

1) Коэффициент усвоения учебного контента (К) — представляет собой отношение учебного контента, усвоенного пользователями СДО в течение определённой единицы времени, к контенту, сообщённому пользователям в течение этой единицы времени:

к=,

¡а

где 1д — усвоенный контент; 1а — сообщённый контент.

Если один и тот же контент усваивался пользователями в течение различных единиц времени, то коэффициент К следует разделить на время Ь. Для измерения 1а и 1д можно использовать сравнительный анализ тезауруса пользователя СДО и тезауруса учебного контента2.

2) Скорость усвоения учебного контента или соотношение коэффициента усвоения со временем усвоения:

К, =

г Ь

ср

где К, — коэффициент относительного учебного времени; Ц — время, затрачиваемое г-м пользователем СДО на усвоение определённого учебного контента; Ьср — среднее время усвоения определённого учебного контента группой пользователей СДО.

3) Прочность усвоения учебного контента — показывает уровень знаний, умений и навыков пользователя СДО по истечении некоторого времени после прохождения дистанционного курса:

где 1а — сообщённый контент; Im — оставшийся в памяти и

-е-

m

а =

а

эффективно используемый пользователем по истечении некоторого времени t учебный контент.

Разработка учебного контента СДО включает в себя развитие технологий проектирования контента, таких как квантование3 учебной информации. Коэффициенты K, К и ап зависят, в том числе, и от качества квантования учебной информации4.

Актуальной задачей является формирование системы количественных критериев для оценки качества квантования учебной информации.

Понятие процесса квантования

Квантование — это разделение учебной информации на элементарные фрагменты (учебные единицы, шаги, кадры) различного назначения (информационные, тренирующие, контролирующие, управляющие). Объём текстовой информации в этих фрагментах должен быть ограничен.

Процесс квантования — это преобразование

и ' = I (и),

где и = (щ 11 = 1, п) — учебная информация, предназначенная для квантования, щ — логически законченный фраг-

мент учебной информации и; и' = Щ11 = 1, п) — квантованное представление учебной информации, где щ — квант учебной информации.

Принцип системного квантования учебной информации предполагает учёт следующих закономерностей:

• учебная информация большого объёма запоминается с трудом;

• учебная информация, представленная компактно, в определённой системе, лучше воспринимается;

• выделение в учебной информации смысловых единиц способствует эффективному запоминанию.

Учитывая то, что квант щ учебной информации должен содержать наиболее информативную часть фрагмента и^ требования к кванту учебной информации можно формализовать следующим образом:

• квант щ учебной информации должен обладать более низкой избыточностью и большей энтропией, чем щ;

• квант щ учебной информации по объёму должен быть меньше соответствующего ему фрагмента щ учебной информации: | и' | < | щ |.

Неавтоматизированный процесс построения педагогом кванта для фрагмента щ учебной информации состоит из следующих этапов:

Аванесов В.С. Применение заданий в тестовой форме и квантованных учебных текстов в новых образовательных технологиях // Педагогические измерения. 2012. № 2. С. 75-91.

Рыбаков А.А. Алгоритмическое и математическое обеспечение автоматизированной системы оценки качества учебного процесса по контрольным картам // Вестник компьютерных и информационных технологий. 2009. № 2. С. 30-36.

Pn

измерения

-е-

Мишуков АА. Обзор систем автореферирования общего профиля //Информационное противодействие угрозам терроризма. 2005.

№ 4. С. 34-38.

Герте Н.А., Курушин Д.С., Нестерова Н.М. Свёртывание информации в процессе реферирования: методы и возможные пути формализации // Вестник Пермского национального исследовательского политехнического университета. Проблемы языкознания и педагогики.

2013. № 7 (49).

С. 188-196.

• подготовительный: чтение и осмысление фрагмента щ учебной информации;

• аналитический: выделение основных смысловых единиц (предложения, слова, словосочетания), построение структуры кванта и, для фрагмента щ учебной информации);

• непосредственное построение кванта щ для фрагмента щ учебной информации (выделенные ранее единицы располагаются в единый вторичный текст в соответствии со структурой кванта щг).

В качестве смысловых единиц кванта щг для фрагмента щг учебной информации могут быть:

• 71: полное (без изменений) ключевое предложение исходного текста ;

• 72: перефразированное ключевое предложение исходного текста щг;

• 73: предложение из ключевых слов и словосочетаний исходного текста щг;

• 74: предложение, обобщающее несколько предложений исходного текста щг .

Автоматизация процесса квантования учебной информации

Автоматизация процесса квантования учебной информации возможна на основе применения средств ав-

томатического реферирова-

ния5.

Автоматическое реферирование (automatic text summarization) — это составление коротких изложений материалов. Подходы к решению данной задачи можно разделить на две группы: квазиреферирование и краткое изложение содержания первичных документов.

Квазиреферирование основано на экстрагировании фрагментов документов — выделении наиболее информативных фраз и формировании из них квазирефератов.

Краткое изложение исходного материала6 основывается на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы.

Рассмотрим квазиреферирование, как один из возможных подходов для автоматизации процесса квантования учебной информации. Данному подходу свойственно выделение смысловых единиц ух и 73.

При квазиреферировании общий вес текстового блока определяется по формуле: Weight = Location +

+ KeyPhrase + StatTerm, где Location — коэффициент, который определяется расположением блока в исходном

-e-

тексте; КвуРктаБв— весовой коэффициент ключевой фразы, представляющей собой конструкции-маркеры, которые резюмируют, типа «в заключение», «в данной статье», «в результате анализа» и т.п.;

StatTerп — статистический вес текстового блока, вычисляемый как нормированная по длине блока сумма весов входящих в него строк (слов и словосочетаний).

В основе квазиреферирования лежат методы, использующие для выделения наиболее значимых предложений деревья решении1, скрытые марковские модели8, логлинейные модели9, нейронные сети10.

Метрики качества квантования учебной информации

Квантованные тексты и должны обладать меньшей избыточностью и большей энтропией по сравнению с исходными и. Поэтому в качестве метрик качества квантования учебной информации предлагается использовать:

• сложность квантованного текста и относительно текста и;

• коэффициент степени сжатия квантованного текста и;

• релевантность квантованного текста и исходному тексту и.

Информационное определение энтропии через сложность ввёл А.Н. Колмогоров11: Сложностью последовательности букв A является длина (в двоичном алфавите) минимальной программы, которая выводит A, а энтропия A — это её сложность, деленная на длину в битах. Сложность текста по Колмогорову можно вычислить, воспользовавшись программами сжатия данных, например компрессором 7-zip 9.20 (www.7-zip.org). Данный компрессор реализует алгоритм сжатия LZMA (Lempel-Ziv-Markov chain-Algorithm), который относится к словарным алгоритмам сжатия информации без потерь, базирующимся на алгоритме Лемпеля-Зива.

Относительную сложность текста U' относительно текста U определим следующим образом:

1) сожмём текст U и измерим длину получившегося архива C(U);

2) сожмём текст U + U', получившийся присоединением текста U к тексту U, и измерим длину C(U + U )получившегося архива;

3) относительную сложность текста U относительно текста U определим как С (U'|U ) = C (U + U') - C (U ).

Чем меньше величина С(U' | U), тем больше текст U' зависит от текста U.

Степень избыточности учебной информации можно

^^то^оллоггияя

Lin C.-Y.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Training a selection function for extraction // Proceedings of CIKM '99. 1999. C. 55-62.

Conroy J.M., O'leary DP.

Text summarization via hidden markov models // Proceedings of SIGIR '01. 2001. С. 406-407.

Osborne M.

Using maximum entropy for sentence extraction // Proceedings of the ACL'02 Workshop on Automatic

Summarization. C. 1-8.

Svore K, Vanderwende L, Burges C.

Enhancing single-document summarization by combining RankNet and third-party sources // Proceedings of the EMNLP-CoNLL. 2007. C. 448-457.

-11-

Колмогоров А.Н. Три подхода к определению понятия «количество информации» // Проблемы передачи информации. 1965. Т. 1. №1б. С. 3-11.

измерения

Веренчик И.И. Квантование текста и разработка заданий в тестовой форме. На примере произведения А.П. Чехова «Белолобый»// Педагогические измерения. №1, 2012.

С. 98-105.

оценить через степень сжатия файла (текста), которая характеризуется коэффициентом Кс, определяемым как отношение объёма сжатого файла Ус к объёму исходного файла У, выраженное в процентах:

К = ^-100%. с У

В качестве меры схожести двух текстов и и и воспользуемся релевантностью, рассчитываемой по формуле:

п

я(и' ,и) = £ - ш;,

1=1

где 1 — номер ключевого слова в исходном тексте и; — вес 1-го ключевого слова в тексте и; Ш1 — вес 1-го ключевого слова в квантованном тексте и .

Проведем анализ качества квантования учебной информации на примере статьи Ирины Веренчик12. В табл. 1 приведены статистические показатели для произведения А.П. Чехова «Белолобый».

Текст данного произведения был разделён на семь фрагментов.

Полученные фрагменты учебной информации и были подвергнуты неавтоматизированному процессу квантования, выполненному педагогом. Метрические характеристики для полученных квантов учебной информации и приведены в табл. 2.

Для автоматизированного процесса квантования был использован онлайн-сервис referat.keywordrush.com (рис. 1), предназначенный для построения квазиреферата. Метрические характеристики для полученных квантов учебной информации и' приведены в табл. 3.

Для расчёта значений релевантности Я(и',и) и Я(и",и) применялся онлайн-сервис для семантического анализа текста: seozor.ru/tools/analyzer.php. Данный сервис позволяет определить необходимое для расчёта релевантности множество

Таблица 1

Метрики для исходной учебной информации и

Фрагмент учебной информации Слов Символов Абзацев Предложений Предложений в абзаце Слов в предложении Символов в слове Ус, байт У, байт к, %

Старая волчиха 189 1115 3 8 2,6 23,6 4,7 729 1119 65,15

Зимовье Игната 207 1236 3 16 5,3 12,9 4,7 807 1240 65,08

Переполох в хлеву 139 872 4 9 2,2 15,4 5,0 598 878 68,11

Ненужная добыча 170 994 1 8 8,0 21,2 4,6 655 994 65,90

В волчьем логове 277 1673 6 13 2,1 21,3 4,8 1055 1683 62,69

Щенок и волчата 268 1609 7 18 2,5 14,8 4,7 993 1624 61,15

Возвращение домой 396 2427 13 36 2,7 11,0 4,8 1414 2451 57,69

8 4' 2013

Таблица 2

-е-

Метрики для квантованного представления и учебной информации и

Фрагмент учебной информации Метрики для квантованного представления учебной информации V' V V ' % С (и'|и ), байт

V' , байт с ' V' ,байт К ' , % с

Старая волчиха 284 362 78,45 32,35 18

Зимовье Игната 494 691 71,49 55,73 17

Переполох в хлеву 295 398 74,12 45,33 13

Ненужная добыча 334 451 74,06 45,37 13

В волчьем логове 468 635 73,70 37,73 31

Щенок и волчата 550 810 67,90 49,88 43

Возвращение домой 893 1443 61,88 58,87 40

Методология

Рис. 1. Онлайн-сервис автоматического реферирования (referat.keywordrush.com)

ключевых слов и их весов по заданному фрагменту текста. Пример расчёта релевантности для фрагмента текста Старая волчиха приведен в табл. 4.

Значения релевантности Я(и ,и) и В.(и",и) для квантованных текстов приведены в табл. 5.

измерения

Таблица 3

Метрики для квантованного представления и " учебной информации и

Метрики для квантованного У" С (и"|и ), байт

Фрагмент учебной информации представления учебной информации У" У ' %

У'' , байт с ' У' ' , байт К ', % с

Старая волчиха 337 456 73,90 40,75 17

Зимовье Игната 525 778 67,48 62,74 21

Переполох в хлеву 374 533 70,17 60,71 28

Ненужная добыча 486 711 68,35 71,53 16

В волчьем логове 512 754 67,90 44,80 38

Щенок и волчата 645 1043 61,84 64,22 34

Возвращение домой 1142 1892 60,36 77,19 44

Таблица 4

Расчёт меры схожести квантованных текстов для фрагмента Старая волчиха

3 Ключевое слово т. 1 т ' 1 т.' 1 тт ' 1 1 т т.' 1 1

1 ВОЛЧОНОК 1,8 0 0 0 0

2 ДЕРЕВО 1,8 0 0 0 0

3 ДОРОГА 1,8 0 4,26 0 7,67

4 ДРУГ 1,8 5 4,26 9 7,67

5 ВОЛЧИХА 1,8 5 0 9 0

6 СЛЕД 1,8 0 4,26 0 7,67

7 ЗДОРОВЬЕ 1,8 0 0 0 0

Мера схожести Я 18 23,01

Таблица 5

Меры схожести И(иг, и) и Я(и и)

Фрагмент учебной информации Я(и ,и) К(и" ,и)

Старая волчиха 23,01 18,00

Зимовье Игната 58,72 41,77

Переполох в хлеву 72,68 55,5

Ненужная добыча 62,38 33,90

В волчьем логове 37,05 31,05

Щенок и волчата 60,46 51,07

Возвращение домой 37,86 43,71

-e-

Сравнительный анализ результатов неавтоматизируемого и автоматизируемого процесса квантования

Критерии Кс, С и Я имеют различные масштабы и шкалы измерения, поэтому, прежде чем приступить к решению многокритериальной задачи, их необходимо привести к одной единице измерения. Предлагается следующий способ получения безразмерной формы критериев:

Интегральный критерий выбора по методу равномерной оптимизации вычисляется по формуле:

п

/ (А*) = та х{£ /Н (А )}.

! м

Интегральный критерий выбора по методу справедливого компромисса вычисляется по формуле:

/ (А*) = та х{П /Н (А )}.

1 1=1

Анализ значений интегральных критериев показывает, что и является луч—, шим, по сравнению с и, тах{/ (А1)} - т|п{/1 (А1)} квантованным представлением для учеб-

где j = \,n, mini/,(At)} Ф max{/j(At)}. ной информации U.

Так как критерий С минимизируется, то для того, чтобы все критерии стремились к максимуму, умножим безразмерные величины критерия С на (-1), и добавим к нему константу, например 1. Значения нормированных критериев Кс, С и Я приведены в табл. 6.

Сравнительную оценку качества квантованных представлений и и и учебной информации и выполним с применением методов многокритериального выбора. Интегральный критерий для равнозначных критериев Кс, С и Я рассчитаем по методу равномерной оптимизации и методу справедливого компромисса.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Проведённый анализ метрических характеристик квантованного представления и для учебной информации и позволяет сделать следующие выводы:

1) чем выше величина Я(и, и) , тем больше и соответствует и.

2) чем меньше величина С (и' | и), тем больше текст и' зависит от текста и.

3) чем выше степень сжатия КС для и, тем меньше избыточность текста и , следовательно для и сжатия всегда больше чем для и.

-Q-

измерения

Сравнительный и и

Таблица 6

анализ квантованных представлений У' ' учебной информации и

Фрагмент учебной информации Квантованное представление учебной информации /Дф Ж*) Метод равномерной оптимизации Метод справедливого компромисса

Старая волчиха и 1,00 0,84 0,09 1,93 0,076

и' 0,75 0,87 0,00 1,62 0

Зимовье Игната и 0,62 0,87 0,74 2,23 0,399

и' 0,39 0,74 0,43 1,56 0,124

Переполох в хлеву и 0,76 1 1,00 2,76 0,760

и' 0,54 0,52 0,69 1,75 0,194

Ненужная добыча и 0,76 1 0,81 2,57 0,616

и' 0,44 0,9 0,29 1,63 0,115

В волчьем логове и 0,74 0,42 0,35 1,51 0,109

и' 0,42 0,19 0,24 0,85 0,019

Щенок и волчата и 0,42 0,03 0,78 1,23 0,010

и' 0,08 0,32 0,60 1 0,015

Возвращение домой и 0,08 0,13 0,36 0,57 0,004

и' 0,00 0 0,47 0,47 0

-е-

Предложенные в статье процедура получения метрик Кс, С, Я и методика сравнительного анализа двух квантованных представлений для одного

и того же учебного текста могут быть использованы при проектировании учебного контента систем дистанционного обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.