Методология
АНАЛИЗ КАЧЕСТВА КВАНТОВАНИЯ УЧЕБНОГО ТЕКСТА
Александр Рыбанов,
Волжский политехнический институт (филиал) Волгоградского государственного технического университета
rybanoff@yandex.ru
В статье рассматриваются вопросы анализа качества квантованного представления учебной информации на основе квантитативных параметров текста: средних частотах частей речи, используемых в тексте; индексов формальной удобочитаемости текста; коэффициентов лексического и синтаксического разнообразия текста. Процесс получения значений квантитативных параметров ориентирован на использовании библиотеки морфологического анализа phpMorphy.
Ключевые слова: квантование учебных текстов, учебный контент, квантитативные характеристики, индекс формальной удобочитаемости
Введение
Инструментальные средства разработки учебного контента отстают в развитии от систем дистанционного обучения1 (СДО). В свою очередь, успешность применения СДО зависит от качества и эффективной организации учебного контента.
нп
измерения
1
Рыбанов АА. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6.
С. 172-174.
Кащеева А.В. Квантитативные и качественные методы исследования в прикладной лингвистике // Социально-экономические явления и процессы. 2013. № 3 (049). С. 155-162.
Журавлёв А.Ф. Опыт квантитативно-типологического исследования разновидностей устной речи // Разновидности городской устной речи. Сборник научных трудов. М.: Наука, 1988. С. 84-150.
Верхозин С.С. К вопросу о лингвотео-ретических основах методик авторизации текста // Ученые записки Забайкальского государственного университета. Серия: Филология, история, востоковедение. 2013. № 2 (49). С. 22-27.
Дудиков М.Ю. Квантитативные характеристики профессиональной коммуникации //
Существующие в настоящее время СДО Моо^е, ШаБ, С1агоНпе, А^ог и др. не предоставляют разработчикам дистанционных учебных курсов возможность оценки качества учебного контента. Между тем, оценка учебного контента направлена на выявление достоинств и недостатков учебной информации и на принятие решения о необходимости, а также оптимальных условиях его использования в процессе дистанционного обучения. Одним из направлений решения задачи оценки качества учебного контента систем дистанционного обучения является использование методов квантитативной лингвистики.
Постановка задачи
Квантитативная лингвистика (quantitative linguistics) — одно из направлений прикладной лингвистики, которое занимается изучением языка с помощью статистических методов2. Преимуществом квантитативных методов изучения текстов является их точность и однозначность результатов. Расчёт квантитативных характеристик текста необходим для решения следующих проблем: • определение стилевых и жанровых характеристик текстов, с целью последующей их классификации3;
изучение образцов текстов, c
целью установление авторства4; • обучение языку специальности
5,6
Разработка учебного контента СДО включает в себя развитие технологий проектирования контента, таких как квантование7 учебной информации. Квантование — это разделение учебной информации на элементарные фрагменты (учебные единицы, шаги, кадры) различного назначения: информационные, тренирующие, контролирующие, управляющие. Одной из проблем технологии проектирования контента является формирование системы количественных критериев для оценки качества квантования учебной инфор-мации8. Квантитативные характеристики текста могут составлять основу данной системы критериев. Wiio O.A.9 предлагает использовать квантитативные характеристики для оценки показателя сложности текста: чем больше прилагательных и наречий в тексте, тем сложнее текст. Глагол — самая живая часть речи. Частое применение глаголов в спрягаемых формах приводит к тому, что предложения легко запоминаются и понимаются. В таких предложениях связанные слова находятся близко друг к другу и их связи легко осознаются. Глаголы способствуют
пониманию текста
10
4
1 ' 20 14
Актуальной является задача автоматизированного подсчёта значений квантитативных характеристик текста, с целью их последующего использования для оценки качества квантования учебного контента. Программная реализация автоматизированного определения ряда квантитативных характеристик текста возможна на основе библиотеки морфологического анализа phpMorphy, реализованной на платформе PHP. Библиотека phpMorphy направлена на решение следующих задач11:
• лемматизация (получение нормальной формы слова);
• получение всех форм слова;
• получение полуграмматической информации для слова (часть речи, падеж, спряжение и т.д.);
• изменение формы слова в соответствии с заданными грамматическими характеристиками;
• изменение формы слова по заданному образцу.
Функции данной библиотеки могут быть эффективно использованы при автоматизации процесса анализа качества квантования учебного контента.
Квантитативные характеристики учебного контента
Среди существующих квантитативных характеристик текста рассмотрим следующие:
• квантитативные характеристики употребления частей речи;
• квантитативные характеристики удобочитаемости текста;
• квантитативные характеристики разнообразия текста.
Библиотека phpMorphy поддерживает обработку текста на следующих языках: русский, английский, немецкий. С помощью библиотеки phpMorphy могут быть определены следующие низкоуровневые квантитативные характеристики текста, рассчитываемые на основе сведений о средних частотах частей речи, используемых в тексте:
1) индекс аналитичности (analyticity index) — отношение числа служебных слов к общему числу слов в тексте;
2) индекс глагольности (verb index) — отношение числа глаголов к числу слов в тексте;
3) индекс субстантивности (substantive index) — отношение числа существительных к числу слов в тексте;
4) индекс адъективности (adjective index) — отношение числа прилагательных к числу слов в тексте;
5) индекс местоименности (pronoun index) — отношение числа местоименных слов к числу слов в тексте;
6) индекс автосемантично-сти (autosemanticity index) -отношение числа значащих слов;
^^то^оллоггияя
Вестник Челябинского государственного университета. 2009. № 35. С. 63-67.
-6-
Агеев В.В., Сергевнина В.М., Яковлева Е.И. Средства оптимизации лингводидактики для сокращенных форм обучения // Вестник Нижегородского университета им. Н.И. Лобачевского. 2011. № 3-1. С. 37-43.
-7-
Аванесов В.С. Применение заданий в тестовой форме и квантованных учебных текстов в новых образовательных технологиях // Педагогические измерения. 2012. № 2. С. 75-91.
-8-
Рыбанов А.А. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.
-9-
Wiio O.A.
Readability. Compression and Readership. Acta Universitatis Tamperensis, 1968, vol. 22 (A), p. 161.
-10-
Flesh R.
The Art of Plain Talk.-New York: Haper and
нп
измерения
Brothers Publisher, 1946.
210 p.
-11-
Библиотека phpMorphy. URL: http://phpmorphy.s ourceforge.net.
7) индекс незнаменательности (unmomentous words index) — отношение числа незнаменательных слов к числу слов в тексте;
8) индекс именной лексики (nominal lexicon index) — отношение суммы чисел существительных и прилагательных к числу слов в тексте.
Обозначения частей речи в библиотеке рЬрМогрЬу представлены в табл. 1.
Низкоуровневые квантитативные характеристики текста могут быть выражены через обозначения частей речи библиотеки рЬрМогрЬу следующим образом (COUNT_WORDS — количество слов в тексте):
1) индекс аналитичности:
Analyticity_index = (PMY_RP_PREP + PMY_RP_CONJ + + PMY_RP_PARTICLE) / COUNT_WORDS;
2) индекс глагольности:
Verb_index = (PMY_RP_INFINITIVE + PMY_RP_VERB + + PMY_RP_ADVERB_PARTICIPLE + PMY_RP_PARTICIPLE PMY_ RP_PARTICIPLE_SHORT) / COUNT_WORDS;
Таблица 1
Обозначения частей речи в библиотеке phpMorphy
Kонстанта Описание
PMY RP NOUN существительное
PMY RP ADJ FULL прилагательное
PMY RP ADJ SHORT краткое прилагательное
PMY RP INFINITIVE инфинитив
PMY RP VERB глагол в личной форме
PMY RP ADVERB PARTICIPLE деепричастие
PMY RP PARTICIPLE причастие
PMY RP PARTICIPLE SHORT краткое причастие
PMY RP NUMERAL числительное (количественное)
PMY RP NUMERAL P порядковое числительное
PMY RP PRONOUN местоимение-существительное
PMY RP PRONOUN PREDK местоимение-предикатив
PMY RP PRONOUN P местоименное прилагательное
PMY RP ADV наречие
PMY RP PREDK предикатив
PMY RP PREP предлог
PMY RP CONJ союз
PMY RP INTERJ междометие
PMY RP PARTICLE частица
PMY RP INP вводное слово
PMY RP PHRASE фразеологизм
3) индекс субстантивности:
Substantive_index = PMY_RP_NOUN / COUNT_WORDS;
4) индекс адъективности:
Афсйш^пскх=(PMY_RP_ADJ_FULL+PMY_RP_ADJ_SHORT)/ /COUNT_WORDS;
5) индекс местоименности:
Ргопоип^пЛех = (PMY_RP_PRONOUN + PMY_RP_PRONOUN_ PREDK + PMY_RP_PRONOUN_P) / COUNT_WORDS;
6) индекс автосемантичности:
Autosemanticity_index = 1 — Unmomentous_words_index;
7) индекс незнаменательности:
иптотПош_июгсЪ^т1ех = ((PMY_RP_PREP + PMY_RP_CONJ + + PMY_RP_PARTICLE ) + (PMY_RP_PRONOUN + PMY_RP_ PRONOUN_PREDK + PMY_RP_PRONOUN_P)) / COUNT_WORDS•,
8) индекс именной лексики:
Мотгпя1_Ысоп^пЛех=(PMY_RP_NOUN+PMY_RP_ADJ_FULL+ + PMY_RP_ADJ_SHORT) / COUNT_WORDS.
Среди квантитативных характеристик удобочитаемости текста можно выделить среднюю длину слова в слогах и среднюю длину предложения в словах.
Квантитативные характеристики разнообразия текста описываются коэффициентами лексического и синтаксического разнообразия. Поскольку коэффициент — величина не абсолютная, а относительная (в определённом промежутке величин), можно в известных границах пренебречь длиной сопоставляемых текстов. Теоретический интерес представляет и исследование внутренней «динамики» текста с точки зрения сопоставления коэффициентов на разных его участках и в их отношении к общему для всего текста коэффициенту.
Коэффициент лексического разнообразия формируется из отношения числа лексем к общему числу слов текста:
Л/с, (1)
где Клекс — коэффициент лексического разнообразия; С — число слов в тексте (единицы между пробелами). Чем выше значение Клекс, тем выше лексическое разнообразие текста.
Коэффициент синтаксического разнообразия вытекает из отношения числа предложений к числу слов данного текста:
Ксинт = 1 - П/С, (2)
где Ксинт- коэффициент синтаксического разнообразия; П — число предложений; С — число слов в тексте. Чем боль-
нп
измерения
ВеренчикИ. Квантование текста и разработка заданий в тестовой форме (на примере произведения А.П. Чехова) // Педагогические измерения. 2012. №1. С. 98-105.
ше значение П/С, тем многословнее в целом предложения данного текста, а следовательно, выше возможность разнообразия синтаксических отношений между словами в составе отдельного предложения.
Измерение квантитативных характеристик учебного контента
При автоматической обработке текста возможна ситуация, когда для словоформы функция определения части речи возвращает несколько значений. Например, в библиотеке phpMorphy функция getPartOfSpeech возвращает для слова 'PROGRAM' массив со значениями частей речи: var_dump($mcrphy->getPartOfSpeech ('PROGRAMM));// аггау('СУ-ЩЕСТВИТЕЛЬНОЕ', 'ПРИЛА-
ГАТЕЛЬНОЕ','ГЛАГОЛ')
Поэтому значение каждой квантитативной характеристики текста должно описываться величиной погрешности её расчёта.
Введем следующие обозначения для процесса автоматического определения количества слов в тексте T, относящихся к части речи k:
1) rik - количество однозначных определений части речи k;
2) ßk — количество неоднозначных определений части речи k.
3) вк - количество слов части речи к в тексте Т.
Распределение вероятностей частей речи в тексте Т неизвестно, поэтому, согласно принципу недостаточного основания Лапласа, при автоматическом распознавании частей речи нет причин считать их различными.
Основываясь на принципе недостаточного основания, полагаем, что
П + Дк ^в + -Д.
Исходя из этого примем,
что
= П +
ßk
тогда абсолютная погрешность Дк при автоматическом определении части речи к:
Ai =
ь.
2 '
а относительная погрешность §к при автоматическом определении части речи к:
ßk
-•100 %.
8к =-100 % = -к вк 2Лк
Проведем анализ качества квантования учебной информации на примере произведения А.П. Чехова «Белолобый»12. Введем следующие обозначения для представлений текста произведения А.П. Чехова «Белолобый»: Т — исходный текст, Т ' — квантованный текст.
Результаты определения частей речи в исходном и кван-
тованном текстах представлены в табл. 2 и 3.
Таблица 2
Результаты определения частей речи слов в исходном тексте Т
^^то^оллоггияя
Часть речи n ßk ek A k
PMY RP NOUN 429 138 498 69 13,855
PMY RP ADJ FULL 102 40 122 20 16,393
PMY RP ADJ SHORT 5 66 38 33 86,842
PMY RP INFINITIVE 36 5 38,5 2,5 6,494
PMY RP VERB 285 59 314,5 29,5 9,380
PMY RP ADVERB PARTICIPLE 37 4 39 2 5,128
PMY RP PARTICIPLE 15 4 17 2 11,765
PMY RP PARTICIPLE SHORT 3 2 4 1 25
PMY RP NUMERAL 9 9 13,5 4,5 33,333
PMY RP NUMERAL P 0 3 1,5 1,5 100
PMY RP PRONOUN 97 98 146 49 33,562
PMY RP PRONOUN PREDK 0 0 0 - -
PMY RP PRONOUN P 28 69 62,5 34,5 55,200
PMY RP ADV 44 219 153,5 109,5 71,336
PMY RP PREDK 0 32 16 16 100
PMY RP PREP 203 35 220,5 17,5 7,937
PMY RP CONJ 1 254 128 127 99,219
PMY RP INTERJ 0 170 85 85 100
PMY RP PARTICLE 28 120 88 60 68,182
PMY RP INP 0 4 2 2 100
PMY RP PHRASE 0 4 2 2 100
На основе значений Д^ и определим погрешности автоматического получения значения квантитативной характеристики в для текста Т: • абсолютная погрешность Др ,
1 V
ß 2-W-
где Р - множество частей речи, использующихся при определении квантитативной характеристики в-
Например, погрешности для индекса адъективности определяются как :
относительная погрешность Sß
S =_^p_
Öß 2+ '
Adjective_index ßPMY
RP_ADJ_FULL
2-W
+ ßPMY_RP_ADJ_SHORT
нп
измерения
S
ßPMY
Adjective_index
RP_ADJ_FULL
2 ' (nPMY_RP_ADJ_FULL + nPMY_RP_ADJ_SHORT ) +
+ßPMY_RP_ADJ_SHORT
+iUPMY_RP_ADJ_FULL + iUPMY_RP_ADJ_SHORT
Таблица 3
Результаты определения частей речи слов в квантованном тексте Т'
+
Часть речи nk ßk Ok A k Ъ
PMY RP NOUN 216 61 246,5 30,5 12,373
PMY RP ADJ FULL 46 16 54 8 14,815
PMY RP ADJ SHORT 3 33 19,5 16,5 84,615
PMY RP INFINITIVE 20 2 21 1 4,762
PMY RP VERB 140 32 156 16 10,256
PMY RP ADVERB PARTICIPLE 14 1 14,5 0,5 3,448
PMY RP PARTICIPLE 8 2 9 1 11,111
PMY RP PARTICIPLE SHORT 0 0 0 - --
PMY RP NUMERAL 5 4 7 2 28,571
PMY RP NUMERAL P 0 1 0,5 0,5 100
PMY RP PRONOUN 43 54 70 27 38,571
PMY RP PRONOUN PREDK 0 0 0 - -
PMY RP PRONOUN P 16 37 34,5 18,5 53,623
PMY RP ADV 29 102 80 51 63,750
PMY RP PREDK 0 14 7 7 100
PMY RP PREP 103 22 114 11 9,649
PMY RP CONJ 0 126 63 63 100
PMY RP INTERJ 0 83 41,5 41,5 100
PMY RP PARTICLE 15 64 47 32 68,085
PMY RP INP 0 2 1 1 100
PMY RP PHRASE 0 1 0,5 0,5 100
Погрешности вычисления квантитативных характеристик исходного и квантованного текстов представлены в табл. 4.
Погрешности Ар, А^, могут быть использованы для сравнительного анализа программ автоматической обработки текста по точности определения
частей речи слов и квантитативных характеристик.
Квантитативные характеристики удобочитаемости исходного и квантованного текстов приведены в табл. 5. Данные характеристики необходимы для определения индекса формальной удобочитаемости текста.
Таблица 4
Погрешности вычисления квантитативных характеристик употребления частей речи
^а^^ативная характеристика Исходный текст Т Kвантованный текст Т
Значение Ав Значение Ав
Индекс аналитичности 0,229 0,107 46,849 0,236 0,112 47,321
Индекс глагольности 0,216 0,019 8,959 0,211 0,019 9,227
Индекс субстантивности 0,261 0,036 13,855 0,259 0,032 12,373
Индекс адъективности 0,084 0,028 33,125 0,077 0,026 33,333
Индекс местоименности 0,109 0,044 40,048 0,11 0,048 43,541
Индекс автосемантичности 0,662 0,151 22,809 0,654 0,16 24,312
Индекс незнаменательности 0,338 0,151 44,651 0,346 0,159 46,119
Индекс именной лексики 0,345 0,064 18,541 0,377 0,058 17,188
Таблица 5
Квантитативные характеристики удобочитаемости исходного и квантованного текстов
^а^^ативная характеристика Исходный текст Т Kвантованный текст Т'
Средняя длина слова в слогах 2,052 2,023
Средняя длина предложения в словах 14,264 12,614
Кватитативные характери- и квантованного текстов при-стики разнообразия исходного ведены в табл. 6.
Таблица 6
Квантитативные характеристики разнообразия исходного и квантованного текстов
^а^^ативная характеристика Исходный текст Т Kвантованный текст Т '
Коэффициент лексического разнообразия 0,306 0,355
Коэффициент синтаксического разнообразия 0,944 0,94
Нп
измерения
-13-
Тулдава Ю.А. Об измерении трудности текста. //Ученые записки Тартуского государственного университета, 1975, вып. 345.
С. 102-119.
-14-
Rudolf Flesch. A new readability yardstick, Journal of Applied Psychology, 32, 1948. C. 221-233.
Лексическое разнообразие характеризует информационную насыщенность текста. Для квантованного текста, по сравнению с исходным, характерно уменьшение степени повторяемости словоформ. И, следовательно, коэффициент лексического разнообразия для квантованного текста несколько выше, чем для исходного (рис. 1).
Синтаксическое разнообразие проявляется в использовании разнообразных синтаксических средств — при квантовании коэффициент синтаксического разнообразия уменьшается. На рис. 2 для фрагментов квантованного текста №2 и №3 коэффициент синтаксического разнообразия квантованного текста больше, чем для исходного, что свидетельствует о необходимости повторной процедуры квантования для данных фрагментов.
Индекс формальной удобочитаемости учебного контента
Следует различать формальную удобочитаемость текста Rform(I), являющейся функцией только от параметров самого учебного контента I, и его индивидуальную удобочитаемость Rind(I,u), которая зависит как от характеристик учебного контента I, так и от свойств читателя и. Для количественной оценки формальной удобочитаемости можно использовать индекс Ю. Тулдава13 или Флеша14.
Индекс Ю. Тулдава рассчитывается по формуле:
R(i,j) = 1в 7, (3)
где R( i , 7 ) — индекс формальной удобочитаемости (рис. 3), i —_средняя длина слова в слогах, 7 — средняя длина предло-
Рис. 1. Сравнительный анализ коэффициента лексического разнообразия по фрагментам текстов
12
1' 2 0 14
0,8 Л-\-1-1-1-1-1-1
1 2 3 4 5 6 7
Фрагменты текста ♦ Исходный текст Квантованный текст
Рис. 2. Сравнительный анализ коэффициента синтаксического разнообразия по фрагментам текстов
Рис. 3. Вид функции
жений в словах. Формула (3) разработана на основе закономерности, наблюдаемой в разных языках. Поэтому формула Ю. Тулдава предназначена для анализа текста на разных языках.
Индекс Флеша рассчитывается по формуле:
¥т (7, j) = 206.835 - а, / - а21,(4)
где а1, «2 — коэффициенты, зависящие от языка (для английского языка — а = 1,015, а2 = 84,6 для русского языка — а1 = 1,3, а2 = 60,1). Соответствия между значениями индекса Флеша и лингивистическими переменными «уровень удобочитаемости» и «уровень образования» приведены в табл. 7.
нп
измерения
Таблица 7
Лингвистические переменные «уровень удобочитаемости» и «уровень образования» для индекса Флеша 1т( I, |)
Значение индекса Флеша р.г(г, 7 ) Уровень удобочитаемости Уровень образования
90-100 очень высокий 5 классов
80-90 высокий 6 классов
70-80 выше среднего 7 классов
60-70 средний 8-9 классов
50-60 ниже среднего 10-12 классов
30-50 низкий вуз
0-30 очень низкий выпускник вуза
Проанализируем, как изменилась формальная удобочитаемость квантованного текста по сравнению с исходным. В табл. 8 приведены значения индексов формальной удобочитаемости г ,) ) и Рт ( г , ) ) для соответствующих фрагментов исходного и квантованного текста.
Индекс формальной удобочитаемости для квантованного текста равен 2,227, а для исходного текста равен 2,368, что свидетельствует о лучшем пред-
ставлении квантованного текста. В то же время сравнительный анализ индексов Я(г ,7 ) для исходного и квантованного текстов по фрагментам (рис. 4) позволил определить, что фрагменты квантованного текста №3, №7 требуют дальнейшего преобразования.
Аналогичная ситуация наблюдается для индекса Флеша: для квантованного текста Рт(г,) ) равен 68,855, а для исходного текста Рт( г , , ) равен 64,966, что также свидетельствует о
Таблица 8
Индексы для фрагментов исходного и квантованного текстов
Фрагмент текста я( г,7) Рт (г,7 )
Исходный текст Квантованный текст Исходный текст Квантованный текст
Фрагмент №1 2,878 2,307 50,199 62,127
Фрагмент №2 2,392 2,360 66,516 69,305
Фрагмент №3 2,442 3,163 60,350 39,007
Фрагмент №4 2,717 2,318 56,182 70,342
Фрагмент №5 2,688 2,118 54,572 73,261
Фрагмент №6 2,462 2,176 62,777 76,150
Фрагмент №7 1,973 2,002 72,860 70,200
Рис. 4. Сравнительный анализ индекса удобочитаемости ЩУ) по фрагментам текстов
Рис. 5. Сравнительный анализ индекса удобочитаемости Fr(i,j) по фрагментам текстов
^^оддолоогиияя
лучшем представлении квантованного текста. В то же время, сравнительный анализ индексов сложности для исходного и квантованного текстов по фрагментам (рис. 5) позволил определить, что фрагменты квантованного текста №3, №7 тре-
буют дальнейшего преобразования.
Таким образом, коэффициент синтаксического разнообразия и индекс формальной удобочитаемости показывают, что фрагменты квантованного текста №3 и №7 требуют повторной процедуры квантования.
нп
измерения
Заключение
Предлагаемая система квантитативных характеристик (1-4) учебного контента применима к слабоструктурированным текстам. Данная система критериев неприменима к формулам, таблицам, графическим и
мультимедийным объектам. Учитывая, что данные объекты, как правило, не подлежат квантованию, система квантитативных характеристик (1-4) может успешно применяться в составе автоматизированных систем проектирования учебного контента.