Научная статья на тему 'Автоматический подсчет сложности математических текстов'

Автоматический подсчет сложности математических текстов Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
72
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
формулы удобочитаемости / текст / метрики / сложность / читабельность / удобочитаемость / образование / readability formulas / text / metrics / complexity / readability / education

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Прибытков Данил Александрович

При работе над образовательными материалами особое внимание следует уделить удобочитаемости представленной в этих материалах информации, в том числе текстовой. Удобочитаемость — это показатель легкости, с которой читатель может понять написанный текст. Эта оценка учитывает такие факторы, как длина предложения, выбор слов и структура текста. Существуют определенные формулы подсчета текстовых метрик, на основании которых оценивается удобочитаемость текста. В настоящем исследовании рассмотрены некоторые из них, разработанные примерно в 40–70-х годах 20 века, и предложены методы их модификации для улучшения результатов. Обновленные данные для анализа сложности некоторых слов получены не с помощью опросов реальных людей, а методом сравнения заранее выбранных текстов, что существенно сократило время исследования. Цель исследования — найти хороший способ подсчитать уровень сложности текста математической направленности, написанного на английском языке, используя одну из «классических» формул удобочитаемости — формулу Дейла — Челла. Современные методы оценки сложности текста с использованием технологий машинного обучения не рассматриваются в данной статье. Способность определять уровень удобочитаемости текста решает научную проблему точной оценки доступности и понятности написанного текста. Это помогает гарантировать, что письменное сообщение эффективно передает заложенный в него смысл целевой аудитории. Анализ читаемости обычно основан на эмпирических исследованиях и математических алгоритмах, которые учитывают различные лингвистические и когнитивные факторы для определения уровня сложности написанного текста. Решая проблему точной оценки удобочитаемости, становится возможным повысить эффективность письменного общения в самых разных областях, включая образование, журналистику и маркетинг. Использование анализа удобочитаемости также помогает повысить грамотность и обеспечить доступность письменных материалов для людей с широким спектром способностей к чтению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic calculation of complexity of mathematical texts

Developers of educational materials are expected to focus, inter alia, on the readability of information they include, including textual information. Readability is a measure of how easy a written text is to read. This indicator depends on several factors, such as sentence length, word choice, and text structure. Text metrics can be calculated with special formulas used to assess text readability. The reported study discusses some of the tools for calculating text complexity. It proposes methods of their modification and ways to improve the results. The study is based on the updated data for analyzing the complexity of certain words. Instead of traditional surveys, the data were obtained by comparing pre-selected texts. This significantly reduced the study time. The purpose of the reported study was to find a way to calculate the level of complexity of a mathematical text written in English using one of the “classic” readability formulas—the Dale–Chall formula. The article does not discuss modern methods of assessing text complexity with machine learning tools. The ability to determine the level of text readability solves the scientific issue of accurate assessment of accessibility and comprehensibility of a written text. This helps to ensure that written communication effectively reaches its target audience and conveys its intended message. Readability analysis is usually based on empirical research and mathematical algorithms that take into account various linguistic and cognitive factors to determine the level of complexity of a written text. Accurate assessment of readability makes it possible to improve the effectiveness of written communication in a variety of fields, including education, journalism, and marketing. The use of readability analysis also helps to promote literacy and ensure that written materials are accessible to individuals with different reading abilities.

Текст научной работы на тему «Автоматический подсчет сложности математических текстов»

Прикладная лингвистика

Я Check for updates

УДК 8Г32, 8Г33 https://doi.org/10.33910/2687-0215-2021-3-2-66-76

Автоматический подсчет сложности математических текстов

Д. А. Прибытков ш

1 Санкт-Петербургский государственный университет, 199034, Россия, г. Санкт-Петербург, Университетская наб., д. 7-9

Сведения об авторе

Прибытков Данил Александрович, e-mail: st090411@student.spbu.ru

Для цитирования: Прибытков, Д. А. (2021) Автоматический подсчет сложности математических текстов. Journal

of Applied Linguistics and Lexicography, т. 3, № 2, с. 66-76. https://doi.org/10.33910/2687-0215-2021-3-2-66-76

Получена 6 декабря 2020; прошла рецензирование 21 февраля 2021; принята 22 февраля 2021.

Права: © Д. А. Прибытков (2021). Опубликовано Российским государственным педагогическим университетом

им. А. И. Герцена. Открытый доступ на условиях лицензии CC BY-NC 4.0.

Аннотация. При работе над образовательными материалами особое внимание следует уделить удобочитаемости представленной в этих материалах информации, в том числе текстовой. Удобочитаемость — это показатель легкости, с которой читатель может понять написанный текст. Эта оценка учитывает такие факторы, как длина предложения, выбор слов и структура текста. Существуют определенные формулы подсчета текстовых метрик, на основании которых оценивается удобочитаемость текста. В настоящем исследовании рассмотрены некоторые из них, разработанные примерно в 40-70-х годах 20 века, и предложены методы их модификации для улучшения результатов. Обновленные данные для анализа сложности некоторых слов получены не с помощью опросов реальных людей, а методом сравнения заранее выбранных текстов, что существенно сократило время исследования. Цель исследования — найти хороший способ подсчитать уровень сложности текста математической направленности, написанного на английском языке, используя одну из «классических» формул удобочитаемости — формулу Дейла — Челла. Современные методы оценки сложности текста с использованием технологий машинного обучения не рассматриваются в данной статье. Способность определять уровень удобочитаемости текста решает научную проблему точной оценки доступности и понятности написанного текста. Это помогает гарантировать, что письменное сообщение эффективно передает заложенный в него смысл целевой аудитории. Анализ читаемости обычно основан на эмпирических исследованиях и математических алгоритмах, которые учитывают различные лингвистические и когнитивные факторы для определения уровня сложности написанного текста. Решая проблему точной оценки удобочитаемости, становится возможным повысить эффективность письменного общения в самых разных областях, включая образование, журналистику и маркетинг. Использование анализа удобочитаемости также помогает повысить грамотность и обеспечить доступность письменных материалов для людей с широким спектром способностей к чтению.

Ключевые слова: формулы удобочитаемости, текст, метрики, сложность, читабельность, удобочитаемость, образование

Automatic calculation of complexity of mathematical texts

D. A. Pribytkov ш

1 Saint Petersburg State University, 7-9 Universitetskaya Emb., Saint Petersburg 199034, Russia

Author

Daniel A. Pribytkov, e-mail: st090411@student.spbu.ru

For citation: Pribytkov, D. A. (2021) Automatic calculation of complexity of mathematical texts. Journal of Applied Linguistics and Lexicography, vol. 3, no. 2, pp. 66-76. https://doi.org/10.33910/2687-0215-2021-3-2-66-76

Received 6 December 2020; reviewed 21 February 2021; accepted 22 February 2021.

Copyright: © D. A. Pribytkov (2021). Published by Herzen State Pedagogical University of Russia. Open access under CC BY-NC License 4.0

Abstract. Developers of educational materials are expected to focus, inter alia, on the readability of information they include, including textual information. Readability is a measure of how easy a written text is to read. This indicator depends on several factors, such as sentence length, word choice, and text structure. Text metrics can be calculated with special formulas used to assess text readability. The reported study discusses some of the tools for calculating text complexity. It proposes methods of their modification and ways to improve the results. The study is based on the updated data for analyzing the complexity of certain words. Instead of traditional surveys, the data were obtained by comparing pre-selected texts. This significantly reduced the study time. The purpose of the reported study was to find a way to calculate the level of complexity of a mathematical text written in English using one of the "classic" readability formulas—the Dale-Chall formula. The article does not discuss modern methods of assessing text complexity with machine learning tools.

The ability to determine the level of text readability solves the scientific issue of accurate assessment of accessibility and comprehensibility of a written text. This helps to ensure that written communication effectively reaches its target audience and conveys its intended message. Readability analysis is usually based on empirical research and mathematical algorithms that take into account various linguistic and cognitive factors to determine the level of complexity of a written text. Accurate assessment of readability makes it possible to improve the effectiveness of written communication in a variety of fields, including education, journalism, and marketing. The use of readability analysis also helps to promote literacy and ensure that written materials are accessible to individuals with different reading abilities.

Keywords: readability formulas, text, metrics, complexity, readability, education

Введение: зачем нужны метрики удобочитаемости

Одним из ключевых уровней проверки качества текста является проверка его удобочитаемости. Оценить удобочитаемость текста можно определив числовое значение, основанное на некоторых лингвистических параметрах данного текста, таких как средняя длина предложения, средняя длина абзаца, количество абстрактных существительных, процент слов определенной длины и прочих (Невдах 2008). В результате по шкале <X, Y>, где X — уровень обученности, выраженный, например, в количестве законченных классов или возрасте обучающегося, а Y — найденное числовое значение, можно определить соответствие текста заданной сложности. Зная эти параметры, можно влиять на эффективность передачи содержащейся в тексте информации.

Обзор существующих метрик удобочитаемости

Формула FORCAST

Разработанная в Америке формула FORCAST (Sticht 1973):

F = 20 -kX 0,667 Xb

где F — искомый индекс сложности, суммарное количество слов в тексте k, количество односложных слов b.

FORCAST используется для оценки сложности специализированных материалов, написанных на английском, таких как военные учебные пособия и опросы. Специальная лексика в таких текстах зачастую сокращается до одного слога, поэтому почти все односложные слова здесь — непривычные для понимания термины (еще и неудобочитаемые, т. к. сокращены).

График Фрая

С помощью графика Фрая (Fry 1968) представляется возможным определить сложность текста по следующим параметрам: суммарное количество слов в тексте; общее количество предложений в тексте; количество слогов в тексте; средняя длина предложений; средняя длина слова, выраженная в количестве содержащихся в нем слогов.

Для определения индекса удобочитаемости по Фраю берется текст длиной не менее 100 слов. График Фрая представляет собой диаграмму зависимости количества слогов и предложений в данном тексте. Кривая диаграммы представляет собой показатели нормального текста. Чтобы получить значение индекса удобочитаемости по Фраю, необходимо найти точки, соответствующие значениям средней длины предложения и средней длины слов в слогах (рис. 1).

Fry Graph for estimating Reading Ages (grade level)

IOS 112 116 120 124 128 132 13й 140 14Л 14S 1S2 1S6 160 1ЛЕ 172

Average number of syllables per 100 words

Рис. 1. График Фрая (Источник: https://readabilityformulas.com/graphics/frygraph2lg.jpg) Fig. 1. The Fry Graph (URL: https://readabilityformulas.com/graphics/frygraph2lg.jpg)

Формула Микка

Формула понятности Я. А. Микка (Микк 1974) была выведена в 1970-х для текстов на эстонском языке и имела следующий вид:

F = 0,131 X XI + 9,34 X Х2 - 4,5

В качестве характеристик сложности использовались: X1 — средняя длина предложений, X2 — средняя абстрактность повторяющихся существительных.

Среднюю абстрактность имен существительных возможно рассчитать двумя способами: 1) проверять каждое отдельно взятое имя существительное на соответствие следующим критериям: воспринимается органами чувств, обозначает явления, либо не воспринимается органами чувств, обозначает мысли; 2) подсчитать слова с морфемами абстрактности.

Формула Мацковского

Формула М. С. Мацковского (Мацковский 1976) была разработана для русского языка и имела следующий вид:

F = 0,62 X XI + 0,123 X Х2 + 0,051

где X1 — средняя длина предложения, X2 — процент длинных слов (три слога и более).

Формула Дейла — Челла

Формула Дейла — Челла отличается от других формул подобного типа наличием «списка простых слов». Эти слова известны как минимум 80% учеников четвертого класса школы. Создавая этот список, исследователи протестировали около 10 000 слов. Те слова, значение которых было верно определено минимум 80% учеников, вошли в список простых слов (Dale, Chall 1948). В 1995 году этот список был расширен до 3,000 слов (Chall, Dale 1995).

Формула имеет следующий вид:

F1 = 0,1579 XXI + 0,0496 X Х2

Где X1 — процент «трудных» слов в тексте, X2 — средняя длина предложения, выраженная в словах. Если процент сложных слов в тексте больше 5%, итоговый уточненный балл F2 будет иметь следующий вид:

F2 = F1 + 3,6365

Почему ни одна формула не подходит для математики

РОКСАБТ была разработана для текстов определенной направленности, но основывается на сокращениях как на основном показателе сложности, что не всегда актуально для математических текстов.

График Фрая использует количественные характеристики, такие как длина предложения и количество слов/слогов в предложении, это также не является абсолютно надежным критерием. Учебный текст может содержать только короткие предложения и при этом, в силу своей специфики, будет сложным для восприятия, что не будет учитываться формулой Фрая.

Формулы Микка и Мацковского были созданы для эстонского и русского языка соответственно и не подходят для наших целей, однако наводят на рассуждения о сути двух понятий — сложности и удобочитаемости. Микк характеризовал удобочитаемость как «свойство текста содействовать пониманию» (Микк 1974), а сложность как «свойство текста препятствовать пониманию». Лингвистическими параметрами формулы Микка являются длина предложения и абстрактность существительных. Можно предполагать, что

X1 характеризует именно удобочитаемость, в то время как за сложность понимания отвечает X2. Даже если наше предположение неверно и ничего подобного ученым не подразумевалось, оно дает нам повод не ставить знак равенства между понятиями «сложность» и «удобочитаемость». Допустим, удобочитаемость можно рассчитать на основе средней длины слов и предложений (очевидно, что несколько маленьких предложений читать удобнее, чем одно громоздкое). Значит, основываясь на соотношении сложных и простых слов, можно вывести сложность текста. Если так, то нужно найти способ определить, простое или сложное слово представлено.

Ученые Дейл и Челл, создавая свою формулу, определяли легкость текста как сумму всех его элементов, влияющих на конкретного читателя и способствующих пониманию и быстрому чтению (Dale, Chall 1949). Логично будет принять субъективность такого понятия, как сложность. Говоря о сложности учебного текста по математике или по другой технической дисциплине, следует ориентироваться именно на конкретного читателя этого текста. Понять математический текст — проблема для человека, никогда математикой не интересовавшегося. В то же время это тривиальная задача, скажем, для студента старших курсов технического вуза.

Из всех вышеописанных формул наиболее подходящей кажется формула Дейла — Челла: она проста в технической реализации и примерно соответствует нашей задаче — определению сложности математического текста. Однако когда мы пытаемся применить формулу Дейла — Челла к учебным материалам технической области (в нашем случае — к текстам по математике), мы сталкиваемся с неточными результатами оценки — они завышены. Так происходит потому что список Дейла — Челла из 3000 простых слов не содержит некоторых общеизвестных слов и терминов технического характера, таких как digit, limit, formula и подобных. Для этой проблемы есть простое решение.

Описание эксперимента

Неточная оценка при использовании формулы Дейла — Челла имеет следующие последствия: текст средней сложности, который большинство учеников технической направленности посчитают скорее простым, оценивается формулой как неудобочитаемый. Более того, формула Дейла — Челла рассчитана на учеников школы, тогда как в нашем случае, ввиду специфики исследуемых текстов, целевой группой исследования станут скорее взрослые люди.

С похожей проблемой столкнулся Леонард П. Стокер — доцент образовательной школы Фордхэмского Университета. Им было замечено, что формула Дейла — Челла дает неточные оценки текстам, использующимся для обучения в католических школах. В своей работе (Stocker 1979) Стокер приходит к выводу, что завышенные оценки наблюдаются в текстах, содержащих особую «католическую лексику». В качестве решения Стокер предлагает расширить уже имеющийся список Дейла — Челла недостающей лексикой, в данном случае религиозного характера.

Для определения этой «дополнительной лексики» Стокер проводит эксперимент, сходный с тем, который проводили Эдгар Дейл и Жан Челл: было опрошено 6743 случайно выбранных учеников из 136 приходских школ по всей Америке. В ходе тестирования были выявлены ~ 200 слов, которыми следовало дополнить существующий список (Stocker 1967).

В настоящей работе мы применили предложенное Стокером решение модифицировать уже имеющуюся формулу. Существенным отличием данного исследования от проведенных ранее Дейлом, Челлом или Стокером стала его автоматизация. Дополненный список простых был получен путем анализа и сравнения математических текстов, но не с помощью

тестирований и опросов реальных людей, что существенно сократило время и средства, затраченные на проведение исследования. Основой для проведения эксперимента стали списки «сложных» слов, составленные на материалах, предоставленных обучающей платформой HyperSkills (https://hyperskill.org) и учебника Preparatory Course of Mathematics. Список 1 (HyperSkills) и Список 2 (Preparatory Course of Mathematics) содержат в себе все слова из HyperSkills и Preparatory Course of Mathematics соответственно. В качестве источников можно выбрать любые два текста похожей направленности.

Оба источника содержат термины из самых разных областей математики. По предположению, термины эти простые, так как приведенные источники составлялись иностранцами. Анализируя каждый элемент текста, можно найти пересечение лексики в этих источниках, т. е. слова, общие как для одного источника, так и для другого. Графически пересечение этих двух источников показано на рисунке 2.

SEPARATORY COURSE OF, Sv MATHEMATICS S

Рис. 2. Диаграмма Эйлера для описанного метода Fig. 2. The Euler diagram for the reported method

Список HyperSkills содержит лексику из ~ 100 тем, охватывающих различные разделы математики, список Preparatory Course of Mathematics — фундаментальную математику. По предположению, удалив из выборки все «обыкновенные» слова, мы найдем общую терминологию именно из математики, причем не из какого-то конкретного ее раздела. Чтобы удалить лишние элементы из выборки, проведем фильтрацию стоп-словарем. В качестве последнего мы используем список «3000 простых слов» (Dale — Chall 3,000 familiar word list).

Необходимые для проведения эксперимента списки создаются путем токенизации элементов каждого источника. Полученные таким образом файлы содержат, помимо токе-нов, различный «мусор» в виде строчек цифр и символов разной длины. Это остатки содержащихся в тексте формул и расчетов. Последовательности таких символов различны и уникальны и не являются проблемой, так как не отобразятся.

Проведем отображение элементов из Списка 1 (HyperSkills) в Списке 2 (Preparatory Course of Mathematics), основываясь на предположении, что в двух не связанных друг с другом ничем, кроме общей темы, источниках общей лексикой станет именно математическая терминология.

В получившемся в результате отображения списке находятся 424 слова в их словарном

виде.

Эти слова представлены ниже:

A: Absolute, accord, addition, additional, algebra, algebraic, alternative, although, analysis, analyze, angle, angular, application, apply, approach, approximately, arbitrary, arc, arctan, area, argument, array, ascend, associate, assume, assumption, asymptote, attempt, avoid, axis B: Basic, basis, behavior, binomial, bound, bracket

C: Calculate, calculation, calculus, cancel, cartesian, central, chapter, characteristic, circular, circumference, clockwise, coefficient, coincide, collect, collection, combination, combine, common, commonly, commutative, comparison, complementary, complete, complex, complicate, component, computation, concept, conclude, conclusion, condition, consecutive, consequently, consider, consist, consistent, constant, construct, contain, continuously, contradiction, convenient, conversely, conversion, convert, coordinate, correspond, correspondence, cos, cosine, cotangent, cube, cylinder

D: Data, decimal, decrease, default, define, definite, definition, degree, denominator, denote, department, dependence, derive, descend, description, design, desirable, determine, develop, diagonal, diagram, diameter, differ, difficult, dimensional, discrete, discriminant, discuss, distance, distinct, divisible, division, domain, drop

E: E.g, easily, element, elementary, enclose, endpoint, engineering, entire, equality, equally, equation, equilateral, equivalent, essential, etc, evaluate, exactly, example, excellent, exception, exclusive, exist, expand, expansion, experiment, exponent, exponential, express, expression, extend

F: Factor, finite, format, formula, formulate, fraction, fractional, frequently, function, fundamental

G: Generally, geometric, geometry, graph, graphically, grouping H: Hence, horizontal, hypotenuse, hypothesis

I: I.e, identity, illustrate, image, imagine, imply, impose, include, increase, individual, induction, inequality, infinite, infinity, information, initial, initially, instance, integer, integration, intercept, interior, intermediate, interpret, interpretation, intersect, intersection, interval, introduce, introduction, inverse, investigate, involve, irrational, item K: Knowledge

L: Label, later, latter, linear, literal, literature, logarithm, logarithmic

M: Main, manipulate, manipulation, mathematic, mathematical, mathematically, measurement, median, memorize, mention, method, midpoint, minor, minus, model, modern, monomial, multiplication, multiplicative, mutuallyn

N: Namely, natural, naturally, nature, navigation, necessary, negative, normal, notation, null, numerator, numerical, numerically

O: Object, observation, obtain, occur, omit, one, onto, operate, operation, opposite, ordinary, origin, original, outer

P: Parabola, parallel, parallelogram, parenthese, particular, pattern, per, perfectly, perform, perpendicular, phenomena, physics, plot, polynomial, portion, position, positive, practical, practice, precise, primary, prime, principle, prior, problem, procedure, proceed, process, produce, product, proof, property, proportion, provide, purpose, pythagorean Q: Quadrant, quadratic, quantity, quotient

R: Radian, radius, range, ratio, recall, rectangle, rectangular, reduce, refer, reference, reflection, regardless, regular, relate, relation, relationship, relative, replace, represent, representation, require, respect, respectively, restrict, result, rewrite, rotate, rotation

S: Sake, satisfy, scale, scheme, science, section, segment, selection, separately, sequence, sign, similar, similarly, simplest, simplify, simply, sine, singular, situation, slope, solid, solution, solve, special, specific, specify, sphere, split, statement, statistic, structure, student, subset, substitute, substitution, subtract, subtraction, suitable, summary, symbol, symbolically, symmetric, symmetry, system

T: Tangent, technique, tend, theorem, theoretical, theory, therefore, thus, topic, total, traditional, transform, transformation, translate, trapezoid, triangle, triangular, trigonometric, trigonometry, truncate, type, typical

U: Undefined, union, unique, unit, university, usual, usually

V: Variable, variety, venn, verify, versa, vertex, vertical, vice, visual, volume

W: Whatever, whereas, whether, within

X: X

Y: Y

Z: Zero, z

В получившемся списке математической терминологии содержится (по субъективной оценке) только ~ 43%. Остальную лексику можно условно поделить на четыре группы:

а) слова и сокращения, не относящиеся к математике напрямую, но широко использующиеся в научном дискурсе (analyzis, basis, data, example, latter, model, measurment, hypothesis, interpretation, i.e., etc. и т. д.);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

б) слова, относящиеся к математике только в соответствующем контексте, а также часто встречающиеся в формулировках математических задач (bracket, clockwise, coinside, domain, expression, endpoint, irrational, plot, sign, spole, solid и т. д.);

в) слова, скорее всего известные представителям выбранной возрастной группы (absolute, area, avoid, behavior, chapter, definition, exist, factor, generally, image, knowledge, label, modern, nature, object, portion, total, unit, volume, whatever, whereas, whether, within и т. д.);

г) слова, не относящиеся к математике вообще, но почему-то оказавшиеся в списке (literature).

Очевидно, что элементы в выделенных четырех группах будут пересекаться.

Анализируя оставшуюся часть списка, содержащего математическую терминологию, можно выделить следующие неточности:

а) отсутствует системность (есть irrational, но нет rational, есть minus, но нет plus);

б) субъективно оценивая, далеко не все слова из списка кажутся простыми (pythagorean, versa и др.).

Для оценки качества модифицированной формулы Дейла — Челла она была применена к нескольким текстам. Эти тексты — отрывки статей из Википедии на темы Matrix multiplication. Computational complexity (Computational complexity 2021), Linear algebra. Module Theory (Linear algebra 2021) и Analytic geometry (Analytic geometry 2021), а также отрывки из произведений английской литературы: «Уилисс» Дж. Джойса (Ulysses by James Joyce), «Соловей и роза» О. Уайльда (The Nightingale and the Rose by Oscar Wilde), «Над пропастью во ржи» Дж. Д. Сэлинджера (The catcher in the rye by Jerome David Salinger).

Полученный в результате числовой индекс соотносится с таблицей 1, отображающей минимальный уровень образования, необходимый для максимально легкого прочтения текста (Dale, Chall 1949).

Табл. 1. Минимальный уровень образования необходимый для легкого прочтения текста Table 1. The minimum level of education required to read texts easily

Итоговый балл Ступень образования

4,9 и ниже 4 класс и ниже

5,0-5,9 5-6 класс

6,0-6,9 7-8 класс

7,0-7,9 9-10 класс

8,0-8,9 11-12 класс

9,0-9,9 13-15 класс (студент)

10+ 16 класс + (выпускник университета)

Если применить оригинальную формулу Дейла — Челла к тексту 1, то при средней длине предложения Х2 = 25.1 и проценту сложных слов XI = 20:

Так как процент сложных слов в тексте >5%, необходимо применить формулу уточненного балла Р2 = Р1 + 3,6365:

Р2 = 4,5 4- 3,6365 = 3,1365

В результате сложность Р2 приведенного отрывка:

Р2 = 3,1365

Если мы применим модифицированную Р1* версию формулы, то процент сложных слов XI упадет до XI* = 15. В результате, сложность Р2* приведенного отрывка:

Р2* = 7,3961

В таблице 2 представлены результаты вычислений сложности остальных материалов до/после расширения словаря трудных слов. Как видим, в результате применения предложенного метода, скорректированный индекс сложности уменьшился примерно на единицу для выбранных математических текстов. Результаты оценки сложности выбранной английской литературы, имеющей мало отношения к математике, практически не изменились.

Табл. 2. Результаты оценки оригинальной и модифицированной формулы Дейла — Челла Table. 2 The results of assessment using the original and modified Dale — Chall formula

Анализируемый текст Балл после применения формулы F1 Балл после применения формулы F1*

Matrix multiplication. Computational complexity 9,19 8,93

Linear algebra. Module theory 8,22 7,95

Analytic geometry 8,59 8,16

Ulysses 7,35 7,31

Nightingale and the Rose 6,79 6,77

The Catcher in the rye 6,36 6,29

Заключение

Путем анализа и сравнения текстов, относящихся к различным разделам математики, был получен дополнительный список простых слов, включающий в себя лексику, широко использующуюся в работах по математике и вообще в научной области. Также были найдены слова, не относящиеся напрямую к математике и науке в принципе, но широко использующиеся в литературе (отсутствие таких слов в оригинальном списке объясняется возрастной группой испытуемых — дети четвертого класса школы). Среди этих слов, однако, обнаружились явно лишние, попавшие туда случайно: literature. Их наличие незначительно, но все же влияет на итоговый результат, что будет учтено в дальнейших исследованиях.

В результате применения усовершенствованной формулы к математическим текстам мы добились уменьшения индекса их сложности максимум на 0,41 балла. Применение этой же формулы к текстам английской художественной литературы, явно не связанным с математикой, не изменило значения их сложности либо показало незначительное (менее чем

на 0,1 балла) падение индекса сложности. Таким образом, модификация формулы прошла успешно — тексты по математике стали оцениваться как более простые, сложность текстов иной направленности практически не изменилась.

Изначальной целью исследования было уйти от субъективных оценок, доверившись алгоритмам поиска и сравнения текстовой информации, но уже в ходе эксперимента стало понятно, что результаты вычислений местами алогичны и нуждаются в дополнительном контроле со стороны человека.

Чтобы более объективно оценить, насколько точно новые результаты отражают реальность, можно также ориентироваться на различные статистические показатели тестируемых текстов — среднее время прочтения, процент завершаемости прочтения, средний показатель положительных и негативных оценок вроде лайков и дизлайков (если таковые приведены) и др. Подсчет корреляции этих показателей с обновленными значениями позволит с большей уверенностью говорить об адекватности данных метрик. Эти подсчеты, возможно, будут проведены в будущем.

Конфликт интересов

Автор заявляет об отсутствии потенциального или явного конфликта интересов.

Conflict of Interest

The author declares that there is no conflict of interest, either existing or potential.

Литература

Мацковский, М. С (1976) Проблема читабельности печатного материала. В кн.: Т. М. Дридзе, А. А. Леонтьев (ред.). Смысловое восприятие речевого сообщения (в условиях массовой коммуникации). М.: Наука, с. 126-141.

Микк, Я. А. (1974) Методика разработки формул читабельности. Советская педагогика и школа, № 9, с. 78-163.

Невдах, М. М. (2008) Разработка количественных методов оценки трудности восприятия учебного текста для высшей школы. Труды Белорусского государственного технологического университета. Серия 9. Издательское дело и полиграфия, № 9, c. 87-90. Chall, J. S., Dale, E. (1995) Readability revisited: The new Dale — Chall readability formula. Cambridge: Brookline Books Publ., 159 p.

Dale, E., Chall, J. S. (1948) A formula for predicting readability. Educational Research Bulletin, vol. 27, no. 2, pp. 11-28.

Dale, E., Chall, J. S. (1949) The concept of readability. Elementary English, vol. 26, no. 2, pp. 1-7.

Fry, E. (1968) A readability formula that saves time. Journal of Reading, vol. 11, no. 7, pp. 513-516, 575-578.

Sticht, T. G. (1973) Research towards the design, development and evaluation of a job-functional literacy

training program for the US Army. Literacy Discussion, no. 4, pp. 339-369. Stocker, L. P. (1967) A word list to be employed with the Dale — Chall readability formula for the appraisal

of readability levels of Catholic materials. New York: Fordham University Publ., 215 p. Stocker, L. P. (1979) Increasing the precision of the Dale — Chall readability formula. Reading Improvement, vol. 8, no. 3, pp. 87-89.

Souses

Analytic geometry. (2021) Wikipedia. [Online]. Available at: https://en.wikipedia.org/wiki/Analytic geometry

(accessed 10.01.2021). (In English) Computational complexity. (2021) Wikipedia. [Online]. Available at: https://en.wikipedia.org/wiki/

Computational complexity (accessed 10.01.2021). (In English) Joyce, J. (2010) Ulysses. Ware: Wordsworth Publ., 682 p. (In English)

Linear algebra. (2021) Wikipedia. [Online]. Available at: https://en.wikipedia.org/wiki/Linear algebra (accessed

10.01.2021). (In English) Salinger, J. D. (2010) Catcher in the Rye. London: Penguin Publ., 230 p. (In English) Wilde, O. (2014). The Nightingale and the Rose. London: Harper Perennial Classics Publ., 62 p. (In English)

References

Chall, J. S., Dale, E. (1995) Readability revisited: The new Dale — Chall readability formula. Cambridge: Brookline

Books Publ., 159 p. (In English) Dale, E., Chall, J. S. (1948) A formula for predicting readability. Educational Research Bulletin, vol. 27, no. 2, pp. 11-28. (In English)

Dale, E., Chall, J. S. (1949) The concept of readability. Elementary English, vol. 26, no. 2, pp. 1-7. (In English) Fry, E. (1968) A readability formula that saves time. Journal of Reading, vol. 11, no. 7, pp. 513-516, 575-578. (In English)

Matskovskij, M. S. (1976) Problema chitabel'nosti pechatnogo materiala. In.: T. M. Dridze, A. A. Leont'ev (eds.). Smyslovoe vospriyatie rechevogo soobshcheniya (v usloviyakh massovojkommunikatsii). Moscow: Nauka Publ., pp. 126-141. (In Russian) Mikk, Ya. A. (1974) Metodika razrabotki formul chitabel'nosti. Sovetskayapedagogika ishkola, no. 9, pp. 78-163. (In Russian)

Nevdakh, M. M. (2008) Razrabotka kollichestvennykh metodov otsenki trudnosti vospriyatiya uchebnogo teksta dlya vysshej shkoly. Trudy Belorusskogo gosudarstvennogo tekhnologicheskogo universiteta. Seriya 9. Izdatel'skoe delo ipoligrafiya, no. 9, pp. 87-90. (In Russian) Sticht, T. G. (1973) Research towards the design, development and evaluation of a job-functional literacy

training program for the US Army. Literacy Discussion, no. 4, pp. 339-369. (In English) Stocker, L. P. (1967) A word list to be employed with the Dale — Chall readability formula for the appraisal

of readability levels of Catholic materials. New York: Fordham University Publ., 215 p. (In English) Stocker, L. P. (1979) Increasing the precision of the Dale — Chall readability formula. Reading Improvement, vol. 8, no. 3, pp. 87-89. (In English)

i Надоели баннеры? Вы всегда можете отключить рекламу.