Научная статья на тему 'Математическая модель оценки учебных текстов'

Математическая модель оценки учебных текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
100
20
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Математическая модель оценки учебных текстов»

И.В. Оборнева

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ОЦЕНКИ УЧЕБНЫХ ТЕКСТОВ

Оборнева Ирина Владнмнровна, учитель информатики гимназии №1507 г. Москвы e-mail: o_innawmail.ru

Качество школьного учебника напрямую зависит от его восприятия. На восприятие учебника, в первую очередь, влияет текст. Поэтому научное содержание предмета, учебнопознавательный материал и методический аппарат представлены в школьном учебнике в виде текста. Текст - это главное средство, которое создает учебник, и от качества текста, можно сказать, зависит качество учебника.

Усвоение учебного материала зависит от сложности текста, а понимание текста в первую очередь зависит от его компонентов: продолжительности предложений, и длины слов в слогах.

Ведётся работа над программой, позволяющей вычислять количественные характеристики восприятия текста, такие, как: средняя длина предложения в словах, среднее количество слогов в слове. В программе сообщаются статистические данные текста, расчётный и рекомендуемый коэффициенты трудности восприятия. С помощью программы можно показать (выделить подчёркиванием) фрагменты текста, не удовлетворяющие заданным критериям.

Это программное средство может быть рекомендовано различным категориям пользователей для создания учебных текстов с заданными параметрами для разных возрастных групп учащихся:

• авторам учебников, для проверки соответствия текста по трудности восприятия учащимися соответствующего класса;

• учителям, разрабатывающим учебно-методические пособия для учащихся определённой возрастной группы (класса средней школы)

• методистам и педагогическим работникам для оценки восприятия удобочитаемости учебного материала.

В качестве математической модели оценки трудности восприятия текста была взята формула Р. Флеша. Эта формула была предложена в 1943 г., а в 1948 г. агентство Ассошиэйтед Пресс проверяло на трудность выпускаемые ими материалы: К = 206,836-84,6\¥-1,0158, где К - оценка трудности текста, 8 - средняя длина предложений в словах, \¥ - число слогов на 100 слов текста.

Для определения трудности текста предлагалась следующая методика. Следует взять 100 слов из текста, определить среднюю длину предложений (8) и рассчитать среднее число слогов (УУ) в этих ста словах. При подсчете учитываются следующие моменты:

1. Сокращенные формы считаются за одно слово (например: педвуз, юннат).

2. Обозначения годов считаются за одно слово (например: 1861, 1999) .

3. Обозначения цен, аббревиатуры и сложные слова считаются за одно слово (например: 100т., РК, класс-комплект).

4. Количество слогов рассчитывается по правилам того языка, на котором написан учебник.

5. Предложение - это формулировка законченной мысли, которая оканчивается точкой, восклицательным или вопросительным знаком. К выражается в значениях от 100 (очень легкие тексты) до 0 (очень сложные тексты). Градация показателей простоты текста видна в следующих цифрах:

• К = 0-15 - очень трудные тексты;

• К = 20-40 - трудные тексты;

• К = 45-55 - достаточно трудные тексты;

• К = 60 - средние тексты;

• К = 70-75 - достаточно простые тексты;

• К = 80-85 - простые тексты;

• К = 90-100 - очень простые тексты.

Эта эмпирическая формула выведена для текстов на английском языке. Для русскоязычных текстов она даёт отрицательные значения при средней длине слова в слогах более 2,3. Для русских текстов характерна средняя длина слова более 2 слогов. Кроме того, большинство текстов по критериям, вычисленным по формуле Флеша можно отнести к категории трудных.

Зависимость коэффициента К от числа слогов и слов по формуле Флеша

св

-

О

5

ва

св

а

и

Число слов в предложении

6 7 8 9 10 11

57 5 5 5 5 5

,7 6 5 4 3 2

48 4 4 4 4 4

,8 7 6 5 4 3

40 3 3 3 3 3

,9 9 8 7 6 5

32 3 2 2 2 2

0 9 8 7 6

23 2 2 2 1 1

Д 2 1 0 9 8

,2 15 4 1 3 1 2 1 1 1 0 1

,3 6 5 4 3 2 1

,4 -2 -3 -4 -5 -6 -7

,5 -11 12 - 13 - 14 - 15 - 16 -

Градация показателей простоты текста в зависимости от длины предложения и длины слова в слогах по формуле Флеша

Число слов в предложении

и

ев

и

о

оа

ев

ОЭ

О

&

и

6 7 8 9 1 0 1 1

1, С С д д Д д

7 Р Р тр тр тр тр

1, д д д д Т Т

8 тр тр тр тр Р Р

1, Т Т т т Т т

9 Р Р р р Р р

■у т т т т т т

р р р р р р

2, т т т т О О

1 р р р р чТр чТр

2, О О О О О О

2 чТр чТр чТр чТр чТр чТр

2, О О О О О О

3 чТр чТр чТр чТр чТр чТр

2, О О О О О О

4 тр тр тр тр тр тр

2, О О О О О О

5 тр тр тр тр тр тр

Для того чтобы предложенную Флешем, формулу можно было использовать для текстов на русском языке, необходимо скорректировать эмпирические коэффициенты.

Была написана программа, которая не ограничивается отрывком в 100 слов, а анализирует текст в целом, вычисляя количественные характеристики текста:

• Количество предложений

• Количество слов

• Число слогов

• Среднее число слогов в слове

• Среднее число слов в предложении

• Среднее число согласных в слове

• Среднее число знаков препинания в предложении и некоторые другие характеристики.

Программа написана в виде Макроса в приложении Microsoft Office Word на языке Visual

Basic for Application. В качестве объектов была использована коллекция символов, слов, предложений. Программа оттестирована на множестве различных текстов, её результаты совпадают с ручным подсчётом вышеперечисленных характеристик текста. Кроме того, такие параметры, как количество слов, знаков, абзацев совпадают с данными статистики, вычисляемой текстовым редактором Word.

Выбор языка программирования и среды связан с тем, что текстовый редактор Word является наиболее распространённым программным продуктом для создания текстов. Различным категориям пользователей будет удобно работать с программой для анализа текстов в привычной программной среде.

Корректировка формулы Флеша на основе исследования словарей русского и английского языка.

Для уточнения коэффициентов в формуле Флеша необходимо сравнить среднюю длину слова английских слов и русских. Очевидно, что выборка должна быть достаточно представительной. Для сравнения были взяты

• словарь русского языка под редакцией Ожегова - 39217 слов

• словарь английского языка под редакцией Мюллера - 41975 слов

С помощью разработанной программы рассчитывались количественные характеристики слов. Слоги определялись в соответствии с правилами грамматики русского и английского языков. В частности, для английского языка учитывались дифтонги и непроизносимые гласные на конце слова. Для русского языка количество слогов определялось по гласным буквам. Результаты обработки словарей приведены в таблице:

Сравнительные характеристики слов по словарям русского и английского языка

Название Слов Слог соглас Слог/слов Согл/Слов Слог/Согл

Словарь под редакцией Мюллера 41975 116274 191413 2,77 4,56 0,61

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Словарь под редакцией Ожегова 39217 119598 217900 3,06 5,55 0,55

Таким образом, средняя длина слова на английском языке составляет 2,77 слога, а средняя длина слова на русском языке - 3,03. Следовательно, коэффициент, относящийся к средней длине слова, должен быть скорректирован в 0,91 раз. Формула Флеша принимает следующий вид: К = 206,836-77^-1,0158.

По скорректированной формуле с помощью программы был проанализирован ряд литературных текстов русских писателей, рекомендованных к изучению в курсе литературы в различных классах средней школы с 1 по 11. Полученные значения коэффициентов трудности восприятия текстов не позволяли провести чёткую градацию текстов по сложности в соответствии с приведёнными выше критериями относительно класса, в котором рекомендовано изучение того или иного произведения в курсе литературы (тексты выбирались по содержанию учебников литературы для 1-11 классов). Было обработано более 180 литературных текстов на русском языке, начиная, со сказок, басен, произведений детских писателей и завершая произведениями русских классиков. Были вычислены количественные характеристики восприятия текста для всех известных русских писателей, изучаемых в школьном курсе литературы. Среди них А. С. Пушкин, М. Ю. Лермонтов, И. А. Гончаров, А. Н. Островский, И. С. Тургенев, Н.Г. Чернышевский, Некрасов, Тютчев, Фет, Салтыков-Щедрин, Достоевский, Л.Н. Толстой, А.П. Чехов, А.И. Куприн, И.А. Бунин, А. Аверченко, Н. Гумилёв, М. Горький, А. Блок, С. Есенин, В. Маяковский, А. Фадеев, М. Зощенко, И. Шмелёв, В. Набоков, М. Булгаков, М. Шолохов, А. Солженицын, В. Распутин, Ю. Бондарев, В. Шукшин, В. Астафьев и другие. Электронные тексты литературных произведений были взяты с сайта библиотеки Машкова www.lib.ru. Следует отметить, что обработка таких массивов информации вручную была бы не возможна.

Для многих писателей было обработано по несколько произведений. Например, в таблице приведены количественные характеристики произведений Ф. М. Достоевского и Л. Н. Толстого.

Величины, определяющие среднюю длину предложения и среднюю длину слова в слогах, очевидно, могут служить авторскими характеристиками данного текста. Эти параметры различаются у разных авторов.

Сравнительные характеристики литературных текстов произведений Ф.М. Достоевского и Л.Н. Толстого

Название произведения Предл Слов Слог/слове Слов в предл

Достоевский. Бедные люди 3080 42525 1,98 13,81

Достоевский Преступление и наказание 14849 174800 2,03 11,77

Достоевский Братья Карамазовы. 38774 519361 2,01 13,39

Достоевский Идиот 15247 212063 2,05 13,91

Достоевский Бесы 15604 201833 2,09 12,93

Среднее значение 2,03 13,16

Л. Н. Толстой Севастопольские рассказы 2538 36374 2,14 14,33

Толстой Война и мир. 31897 484387 2,08 15,19

Толстой Анна Каренина 20447 273403 2,11 13,37

Толстой Воскресение 9345 138666 2,18 14,84

Среднее значение 2,13 14,43

Корректировка формулы Флеша на основе исследования идентичных текстов на русском и английском языках. Для дальнейшего исследования характеристик трудности восприятия текстов были взяты литературные тексты на английском языке - произведения Марка Твена, Джека Лондона, Ричарда Баха и соответствующие переводы на русский язык известных авторов, рекомендованных в курсе литературы для средней школы. Данные сравнительного анализа приведены в таблице. Тексты на английском языке содержат артикли, которые являются односложными словами, и следовательно уменьшают среднее количество слогов в слове и увеличивают среднее количество слов в предложении. Эти характеристики влияют на вычисление коэффициента оценки трудности восприятия текста. Сравнивая средние значения длины слов в слогах для английских и русских текстов можно отметить, что английские слова содержат слогов меньше чем русские в среднем в 0,77 раза. Разброс значений невелик от 0, 73 до 0,82, очевидно, это является характеристикой грамматических особенностей текстов на английском и русском языках. Количество слов в предложении отражает как синтаксические особенности языка, так и авторский стиль писателя и переводчика, поэтому этот коэффициент значительно изменяется от произведения к произведению. Хотя разброс составляет от 1,11 до 1,92, всё-таки, можно сделать вывод, что английские предложения длиннее русских примерно в 1,5 раза (табл. 1).

Проведённая обработка текстов позволяет скорректировать базовую формулу Флеша следующим образом: К = 206,836-65,14\¥-1,528, где К - оценка трудности текста, 8 - средняя длина предложений в словах, \¥ - число слогов на 100 слов текста.

В таблице приведены значения коэффициентов трудности текста, вычисленные по формуле Флеша и по скорректированной формуле Флеша. Анализируя коэффициенты, можно сделать вывод, что значения оценки уровня восприятия текстов достаточно близки для аналогичных текстов на английском и русским языке и попадают в одинаковые диапазоны трудности текста.

Таблица 1

Сравнительные характеристики идентичных текстов на русском и английском языках по произведениям М. Твена

Название произведения Ср. число слогов в слове Ср. кол. слов в предлож. К Флеша К псі і р ДЛЯ русск

М. Twain. The Adventures of Tom Sawyer ( 1876 ). 1,43 20,17 65

M Твен Приключения Тома Сойера 1,97 12,36 60

Отношение коэффициентов 0,73 1,63

Mark Twain. The Adventures of Huckleberry Finn 1,32 25,13 70

M твен приключения Гекльберри Финна 1,86 15,46 62

Отношение коэффициентов 0,71 1,63

Mark Twain. Tom Sawyer , Detective. 1,36 26,43 65

М. Твен. Том Сойер- сыщик пер с англ Грибанова 1,81 13,73 68

Отношение коэффициентов 0,75 1,92

London. Before Adam 1,50 16,09 64

Джек Лондон. До Адама Перевод: Н. Банников 1,83 14,53 66

Отношение коэффициентов 0,82 1,11

London . The Call of the Wild 1,49 19,83 61

Джек Лондон. Зов предков 1,83 14,94 65

Отношение коэффициентов 0,81 1,33

Richard Bach . Jonathan Livingston Seagull 1,43 15,88 70

P Бах . Чайка Джонатан пер А . Сидерский 1,84 11,49 69

Отношение коэффициентов 0,78 1,38

Средние значения по шести текстам 0,77 1,50

Экспертная оценка учебных текстов

Для проверки работы формулы были взяты тексты из учебников истории для средней школы, учебников Москвоведения и учебника «Окружающий мир» для 2-го класса. Было отсканировано по одному параграфу из каждого учебника и проведена автоматическая обработка текстов с целью оценки трудности восприятия с помощью разработанной программы по скорректированной формуле Флеша. Данные тексты также были предложены для анализа экспертам, которые оценили трудность восприятия текста и предложили рекомендации в каком классе может изучаться данный текст. В качестве экспертов выступали - учитель русского языка и литературы гимназии 1507, заслуженный учитель РФ Ильина И.Г. (педагогический стаж 50 лет) и учитель русского языка и литературы гимназии 1507, отличник образования Гришина B.C. (педагогический стаж 53 года). Тексты для экспертной оценки предлагались без указания названия учебника и класса, из которого они были взяты. Данные обработки приведены в таблице.

Сравнительные характеристики трудности восприятия текстов учебников, выполненные программой и экспертами

Учебник Название Слог/ слов Слов/ Предл К Флеша Эксперт Ильина Эксперт Гришина

8 кл § 25 Обновление государственного устройства 2,56 11,72 22 трудный 10-11 кл средний 9 кл

9 кл § 11 Фашизм в Германии 2,5 15,97 20 трудный 10 кл трудный 10-Пкл

7 кл §6. Франция в ХУ1-ХУ11 веках: торжество абсолютизма 2,48 12,79 26 Трудный 10-11 кл Средний 8-9 кл

Продолжение таблицы

Учебник Название Слог/ слов Слов/ Предл К Флеша Эксперт Ильина Эксперт Гришина

6 кл § 7 Расцвет древнерусского государства 2,34 13,14 34 средний 8-9 кл средний 8 кл

5 кл §2. Происхождение человека 2,47 10,7 30 дост простой 7-8 кл средний 6-7 кл

2 кл Окружающий мир. Береги органы чувств 2,08 7,43 60 простой 4-5 кл простой 4-5 кл

3 кл Москвоведение. Как жили москвичи. 2,23 12,78 42 дост простой 6-8 кл дост простой 5-6 кл

11 кл § 28 Внешняя политика СССР и начало « холодной войны » 2,49 14,16 23 дост трудный 10-11 кл дост трудный 10-11 кл

В оценках экспертов есть небольшие расхождения, но в целом они совпадают. Хорошо прослеживается связь коэффициента трудности восприятия текста и экспертных оценок.

Можно привести таблицу продолжительности предложений, рекомендованной для различных параллелей и сравнить эти данные со средней длиной предложения, рассчитанной программой по соответствующим текстам учебников.

Средняя длина предложений

1-4 классы 5-7 классы 8-9 классы 10-11 классы

2-5 слов 5-9 слов 9-14 слов 14-20 слов

Эти критерии могут быть заданы в программе, и после проведения анализа текста будут подчёркнуты предложения, в которых количество слов превышает рекомендованный уровень.

Автоматическая оценка трудности восприятия текстов сочинений учащихся различных возрастных групп

С целью проверки правильности работы программы оценки трудности восприятия текста была проведена обработка сочинений учащихся различных возрастных групп (классов) средней школы. Очевидно, что за некоторыми исключениями, дети должны писать сочинения, соответствующие по трудности своему возрасту. Данные обработки сочинений по различным темам учащихся гимназии 1507 приведены в таблице ниже.

Количественные характеристики оценки трудности восприятия текстов сочинений учащихся различных возрастных групп

Название Предл Слов Ср. число слогов в слове Ср. кол. слов в предлож. К Флеша русск.

Если бы я был птичкой... 5 класс 12 работ 112 1214 1,73 10,84 78

Сочинения о войне 6 кл. 4 работы 68 787 2,00 11,57 59

Семейные реликвии. 7 кл. 25 сочинений 463 6179 2,08 13,35 51

Сочинения о школе. 8 кл. 8 сочинений 129 2022 2,12 15,67 45

Михайловская Дарья 10 А 36 810 2,04 22,5 40

Шаматонов Антон 11 А. 42 852 2,26 20,29 29

Гусева Мария. 11 А класс 60 1362 2,39 22,7 17

В таблице чётко прослеживается зависимость среднего числа слогов в слове от возраста учащегося. Так же можно отметить, что ученики старших классов используют более сложные предложения, состоящие из большего количества слов. Коэффициент трудности восприятия текста, рассчитанный программой, также увеличивается от класса к классу и может служить показателем оценки трудности текста.

Программа показала хорошую эффективность обработки больших массивов информации текстов на русском и на английском языке. Программой можно пользоваться многократно, изменяя текст, и вычисляя новые характеристики трудности восприятия текста. Те фрагменты, которые не удовлетворяют заданным параметрам (уровню трудности), можно показать в тексте с помощью подчёркивания. Интерфейс программы «Анализ текстов» изображен на рис. 1

Предполагается дальнейшая работа над программой с целью улучшения и оптимизации интерфейса. Например, можно предусмотреть возможность ввода пользователем коэффициентов трудности восприятия текста для создания сложных научных текстов, адресованных студентам, а также для разработки очень простых текстов, предназначенных детям с дефектами развития.

і Сказки ,

Предложений: 153

Слов: 847

Слогов (Гласных): 1334

Согласных: 2290

Знаков препинания: 95

Абзацев: 111

Слогов в слове: ^57

Согласных в слове: 2,70

Согласных в слоге: ^8

Слов в предложении: 5^4

Знаков в предложении: 1 61

<1 1 ►

(* 1-4 класс - очень простой 5-6 класс - простой Г 7-9 класс - средней трудности 10-11 класс - трудный

^{-расчетный = 67.9745101203016 ^{-рекомендуемый = от 85 до 100

Рис. 1

По результатам исследования можно сделать следующие выводы. Формула Флеша, предназначенная для оценки трудности восприятия текста, не работает для текстов на русском языке. Эта Формула должна быть скорректирована на основе исследования словарей русского и английского языка, обработки идентичных текстов на английском и русском языках, экспертных оценок и анализа количественных характеристик уровня трудности восприятия текстов сочинений учащихся различных возрастных групп.

i Надоели баннеры? Вы всегда можете отключить рекламу.