Использование метода корреляционных плеяд для изучения информационных характеристик учебных текстов

Невдах Марина Михайловна

ИСПОЛЬЗОВАНИЕ МЕТОДА КОРРЕЛЯЦИОННЫХ ПЛЕЯД ДЛЯ ИЗУЧЕНИЯ ИНФОРМАЦИОННЫХ ХАРАКТЕРИСТИК

УЧЕБНЫХ ТЕКСТОВ

М.М. Невдах (Белорусский государственный технологический университет) Научный руководитель - д.х.н., профессор М.А. Зильберглейт (Белорусский государственный технологический университет)

В статье проанализированы информационные характеристики учебных текстов с использованием эвристического метода корреляционных плеяд. В частности, изучена связь между 49 параметрами текстов по экономической теории для высшей школы на основе выделения корреляционных плеяд с помощью различных формальных приемов. В дальнейшем полученные результаты будут учитываться при построении решающего правила разбиения.

Введение

Проблемам, связанным с исследованием влияния информационных характеристик текста на его читабельность1, посвящен ряд работ [2-14], в которых основное внимание уделяется небольшому числу параметров текста, включающих обычно среднюю длину предложения в словах, среднюю длину слов в слогах, процент конкретных/абстрактных существительных, процент незнакомых слов, среднюю частоту повторения слова. Только в отдельных работах [15, 16] число исследуемых характеристик текста, влияющих на его читабельность, превышает 100 признаков. Систематических исследований, посвященных изучению влияния значительного числа параметров текста на его усвоение, до настоящего времени не проводилось.

В принципе, текст можно представить как объект, характеризующийся многомерным вектором, состоящим из различного рода переменных. В связи с этим он может быть исследован методами многомерного статистического анализа.

В данной работе методами кластерного анализа изучены характеристики 16-ти учебных текстов по экономической теории для высшей школы [17-20]. Объем выборки составил 1800-2000 печатных знаков. Выбор данной величины обусловлен тем, что в [21] показано, что, начиная с объема в 1800 печатных знаков, статистические характеристики текста становятся относительно постоянными.

В качестве переменных были выбраны 49 признаков текста. Очевидно, что использование такого большого числа характеристик для практических целей невозможно. В первую очередь это связано с тем, что данные параметры могут быть сильно коррелированны. С другой стороны, ничем не оправданное уменьшение числа переменных может привести к потере точности экспериментов.

В прикладной статистике рассматриваются различные методы сокращения размерности признакового пространства. В проведенных ранее исследованиях с использованием методов кластерного и факторного анализа все характеристики исследуемых текстов были разбиты на девять и восемь групп соответственно, в которые объединились близкие параметры. Сделать выводы о природе связей между явлениями позволяет и метод корреляционных плеяд, впервые предложенный П.В. Терентьевым [22, 23]. Таким образом, цель работы - использование данного метода для анализа информационных характеристик текста.

1 Под читабельностью понимают некоторую характеристику текста, зависящую от всех элементов внутри данного материала, которые влияют на успешность его усвоения определенной группой читателей. Мерой такого успешного усвоения является то, насколько средний читатель интересующей группы понимает исследуемый материал, в какой мере скорость, с которой он его читает, приближается к оптимальной, и какой интерес представляет данный материал для читателя [1].

Выделение корреляционных плеяд

Как известно, метод корреляционных плеяд предназначен для нахождения таких групп признаков (плеяд), в которых корреляционная связь между параметрами одной группы (внутриплеядная связь) велика, а связь между параметрами из разных групп (межплеядная связь) мала [24]. По определенному правилу по корреляционной матрице признаков образуют граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, и образуют плеяду.

Для вычисления корреляционной матрицы были использованы следующие параметры учебных текстов:

(1) длина текста в абзацах;

2) длина текста в словах;

3) длина текста в буквах;

4) средняя длина абзаца в фразах;

5) средняя длина абзаца в словах;

6) средняя длина абзаца в буквах;

7) средняя длина абзаца в печатных знаках;

8) средняя длина предложения в фразах;

9) средняя длина предложения в словах;

0 1 2

3

4

5

6

7

8 9

20 21 22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

средняя длина предложения в слогах;

средняя длина предложения в буквах;

средняя длина предложения в печатных знаках;

средняя длина самостоятельного предложения в фразах;

средняя длина самостоятельного предложения в словах;

средняя длина самостоятельного предложения в слогах;

средняя длина самостоятельного предложения в буквах;

средняя длина самостоятельного предложения в печатных знаках;

средняя длина фразы в словах;

средняя длина фразы в слогах;

средняя длина фразы в буквах;

средняя длина фразы в печатных знаках;

средняя длина слов в слогах;

средняя длина слов в буквах;

средняя длина слов в печатных знаках;

средняя длина слов по Деверу;

процент слов длиной в 5 букв и больше;

процент слов длиной в 6 букв и больше;

процент слов длиной в 7 букв и больше;

процент слов длиной в 8 букв и больше;

процент слов длиной в 9 букв и больше;

процент слов длиной в 10 букв и больше;

процент слов длиной в 11 букв и больше;

процент слов длиной в 12 букв и больше;

процент слов длиной в 13 букв и больше;

процент слов в 3 слога и больше;

процент слов в 4 слога и больше;

процент слов в 5 слогов и больше;

процент слов в 6 слогов и больше;

процент неповторяющихся слов;

средняя частота повторения слова;

процент неповторяющихся существительных;

(42) процент повторяющихся существительных;

(43) процент конкретных существительных;

(44) процент абстрактных существительных;

(45) процент прилагательных;

(46) процент глаголов;

(47) процент сложных предложений;

(48) процент простых предложений;

(49) процент придаточных предложений среди фраз.

Следует сделать несколько уточнений. Под термином «фраза» в данной статье понимается отрезок текста, в котором содержится одна предикативная связь. Таким образом, к фразе относятся простое предложение, части сложносочиненного предложения, главное и придаточное предложения в сложноподчиненном предложении. Самостоятельным предложением считаются простые предложения, части сложносочиненного предложения и сложноподчиненное в целом. Впервые такую единицу текста использовал Р. Флеш в [9]. Средняя длина слов по Деверу рассчитывалась делением общего количества знаков с пробелами на число знаков без пробелов.

Фрагмент корреляционной матрицы для исследуемых характеристик текста представлен в табл. 1.

№ п/п 1 2 3 4 5 6 7 8 9 49

1 1,000 -0,442 -0,476 -0,740 -0,901 -0,967 -0,967 -0,488 -0,613 -0,341

2 -0,442 1,000 0,504 0,638 0,661 0,496 0,502 0,700 0,654 0,412

3 -0,476 0,504 1,000 0,165 0,339 0,491 0,477 0,226 0,410 0,400

4 -0,740 0,638 0,165 1,000 0,859 0,738 0,753 0,766 0,569 0,157

5 -0,901 0,661 0,339 0,859 1,000 0,945 0,951 0,702 0,766 0,390

6 -0,967 0,496 0,491 0,738 0,945 1,000 0,999 0,555 0,707 0,394

7 -0,967 0,502 0,477 0,753 0,951 0,999 1,000 0,572 0,716 0,393

8 -0,488 0,700 0,226 0,766 0,702 0,555 0,572 1,000 0,870 0,391

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 -0,613 0,654 0,410 0,569 0,766 0,707 0,716 0,870 1,000 0,583

49 -0,341 0,412 0,400 0,157 0,390 0,394 0,393 0,391 0,583 1,000

Таблица 1. Корреляционная матрица исходных признаков

Выделение корреляционных плеяд осуществляется с помощью двух формальных методов. Суть первого метода заключается в том, что граф, представляющий собой изучаемые признаки, связанные ребрами с соответствующим значением коэффициента корреляции, разбивается таким образом, что при выбранном некотором пороговом значении коэффициента корреляции г0 из него исключаются ребра, которые соответствуют коэффициентам корреляции, по модулю меньшим г0.

В связи с этим существенным для техники выделения корреляционных плеяд является выбор г0. Используя прямое (г) и обратное (г-1) преобразования Фишера, можно

определить г0 для заданного объема выборки: | г0 | = | га, у |-1, где | га, у | = ^, „ / (Vп-3 ); V = п - 1; а < 0,01.

Для заданного объема выборки (п = 16) получили г0 = 0,5. При данном пороговом значении коэффициента корреляции все параметры сохранились, что не привело к снижению размерности признакового пространства. Очевидно, что в этом случае следует задать такие значения г1, г2, ... гп, при которых произойдет заметное сокращение информационных характеристик текста. Например, если задать шаг «расслоения» 0,1, то при г1 > 0,6 граф распадается на три подграфа с исключением признаков 45 и 46, при г2 > 0,7 - на четыре подграфа с исключением признаков 41, 45 и 46, при г3 > 0,8 - на

пять подграфов с исключением признаков 2, 3, 41, 43, 45, 46 и 49, при г4 > 0,9 - на восемь подграфов с исключением признаков 1-4, 8-10, 13, 14, 24, 33, 34, 38, 41-46 и 49. Из-за большого числа связей изображать плеяды для низких коэффициентов корреляции представляется нецелесообразным. Для наглядности выделим плеяды для значений г > 0,85 (рис. 1).

Рис. 1. Корреляционные плеяды при г > 0,85

Использование первого метода выделения корреляционных плеяд позволило обнаружить наиболее связанные признаки, которые образуют несколько групп.

Первая группа. Признаки 1, 4-7 - длина текста в абзацах, средняя длина абзаца во фразах, средняя длина абзаца в словах, средняя длина абзаца в буквах и средняя длина абзаца в печатных знаках.

Вторая группа. Признаки 9-12 - средняя длина предложения в словах, средняя длина предложения в слогах, средняя длина предложения в буквах и средняя длина предложения в печатных знаках.

Третья группа. Признаки 14, 16, 17 - средняя длина самостоятельного предложения в словах, средняя длина самостоятельного предложения в буквах и средняя длина самостоятельного предложения в печатных знаках.

Четвертая группа. Признаки 13, 15, 18-21, 42 - средняя длина самостоятельного предложения во фразах, средняя длина самостоятельного предложения в слогах, сред-

няя длина фразы в словах, средняя длина фразы в слогах, средняя длина фразы в буквах, средняя длина фразы в печатных знаках, процент повторяющихся существительных.

Пятая группа. Признаки 22-37 - средняя длина слов в слогах, средняя длина слов в буквах, средняя длина слов в печатных знаках, средняя длина слов по Деверу, процент слов длиной в 5 букв и больше, процент слов длиной в 6 букв и больше, процент слов длиной в 7 букв и больше, процент слов длиной в 8 букв и больше, процент слов длиной в 9 букв и больше, процент слов длиной в 10 букв и больше, процент слов длиной в 11 букв и больше, процент слов длиной в 12 букв и больше, процент слов длиной в 13 букв и больше, процент слов в 3 слога и больше, процент слов в 4 слога и больше, процент слов в 5 слогов и больше.

Шестая группа. Признаки 39 и 40 - процент неповторяющихся слов и средняя частота повторения слова.

Седьмая группа. Признаки 47 и 48 - процент сложных предложений и процент простых предложений.

Сравнение данных, полученных ранее с помощью методов кластерного и факторного анализа, показало, что наиболее устойчивыми являются первая, вторая, третья и четвертая группы. При этом следует отметить одну особенность: при использовании кластерного анализа очень часто признаки 11 и 12 (средняя длина предложения в буквах и средняя длина предложения в печатных знаках), 16 и 17 (средняя длина самостоятельного предложения в буквах и средняя длина самостоятельного предложения в печатных знаках), 20 и 21 (средняя длина фразы в буквах и средняя длина фразы в печатных знаках) выделяются отдельно. Признаки 10 (средняя длина предложения в слогах), 15 (средняя длина самостоятельного предложения в слогах) и 19 (средняя длина фразы в слогах) входят в другую группу. Но, с точки зрения здравого смысла, увеличение длины предложения предполагает одновременное увеличение в нем количества слогов, букв и печатных знаков, что и зафиксировано в методе корреляционных плеяд.

В другом варианте корреляционных плеяд признаки упорядочиваются и рассматриваются только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.

№ п/п 47 48 46 49 18 20 21 15 19 3

47 1,000 -1,000 0,578 0,540 0,048 -0,100 -0,114 0,011 0,020 0,184

48 -1,000 1,000 -0,578 -0,540 -0,048 0,100 0,114 -0,011 -0,020 -0,184

46 0,578 -0,578 1,000 0,080 -0,422 -0,451 -0,477 -0,251 -0,215 -0,120

49 0,540 -0,540 0,080 1,000 0,726 0,499 0,493 0,528 0,536 0,121

18 0,048 -0,048 -0,422 0,726 1,000 0,936 0,932 0,852 0,814 0,148

20 -0,100 0,100 -0,451 0,499 0,936 1,000 0,995 0,873 0,826 0,197

21 -0,114 0,114 -0,477 0,493 0,932 0,995 1,000 0,846 0,799 0,236

15 0,011 -0,011 -0,251 0,528 0,852 0,873 0,846 1,000 0,988 0,141

19 0,020 -0,020 -0,215 0,536 0,814 0,826 0,799 0,988 1,000 0,110

3 0,184 -0,184 -0,120 0,121 0,148 0,197 0,236 0,141 0,110 1,000

Таблица 2. Упорядоченная корреляционная матрица исходных признаков

Упорядочение производится на основании принципа максимального корреляционного пути: все р признаков связываются при помощи (р - 1) линий так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: выбираются два наиболее сопряженных признака, для чего в матрице коэф-

фициентов корреляции определяется максимальное значение тгу, г ^ у; признаки г и у образуют две первые вершины графа (в нашем случае признаки 47 и 48, т47, 48 = 1). Далее в строках г и у находится следующий наиболее сопряженный признак, образующий новую третью вершину, соединенную с вершиной у. Эта процедура повторяется до тех пор, пока не будут задействованы все признаки.

После проведения описанной процедуры для удобства построения графа была составлена упорядоченная корреляционная матрица, фрагмент которой представлен в табл. 2. На основании упорядоченной корреляционной матрицы был построен граф, представленный на рис. 2.

Рис. 2. Граф максимального корреляционного пути

Данный граф представляет собой кратчайший незамкнутый путь, в котором соединены все исследуемые параметры текстов. Если задать определенное пороговое значение коэффициента корреляции (т0), то полученный граф максимального корреляционного пути можно разбить на подграфы (плеяды), проводя разрыв между теми признаками со значением сопряженности, меньшим т0.

Исходя из поставленной цели и анализа корреляционной матрицы исследуемых характеристик текста, был задан пороговый коэффициент корреляции т > 0,85. Исходный граф распался на семь подграфов (рис. 3), что позволило выявить наиболее связанные друг с другом признаки.

VI VII

Рис. 3. Корреляционные плеяды при пороговом значении коэффициента корреляции г > 0,85

Сравнение корреляционных плеяд, выделенных на основе двух формальных методик, показало их идентичность.

Заключение

Не претендуя на содержательную интерпретацию полученных результатов, следует отметить, что в выделенных группах сумма модулей коэффициентов корреляции между параметрами достаточно велика, что с определенной долей уверенности дает нам право сделать следующий вывод: в последующую обработку достаточно включить лишь один признак из каждой группы. Например, можно использовать признак «длина текста в абзацах» — из первой группы; признак «средняя длина предложения в буквах» — из второй; признак «средняя длина самостоятельного предложения в буквах» — из третьей; признак «средняя длина фразы в буквах» — из четвертой; признак «средняя длина слов в слогах» — из пятой; признак «процент неповторяющихся слов» — из шестой и признак «процент сложных предложений» — из седьмой. Остальные признаки, не вошедшие в выделенные семь групп, требуют дальнейшего исследования.

Литература

1. Dale E. The concept of readability / E. Dale, J. S. Chall // Elementary English. - 1949. -№ 26. - P. 23.

2. Крсманович М. Методы исследования удобочитаемости учебных текстов / М. Крсманович // Проблемы школьного учебника». - М., 1974 - Вып. 2. - С. 108120.

3. Матеева А.Д. О задаче прогнозирования трудности понимания текста по объективным языковым характеристикам / А.Д. Матеева // Сборник научных трудов МГПИИЯ. - Вып. 124. - М., 1977. - С. 60-69.

4. Мацковский М.С. Проблемы читабельности печатного материала. / М.С. Мацков-ский // Смысловое восприятие речевого сообщения (в условиях массовой коммуникации). - М., 1976. - С. 126-142.

5. Микк Я.А. Применение формул читабельности к русскому тексту. / Я. А. Микк // Ученые записки Тартуского государственного университета. - Тарту, 1977. - Вып. 415. - С. 94-102.

6. Тулдава Ю. Об измерении трудности текстов / Ю. Тулдава // Ученые записки Тартуского университета. - 1975. - Вып. 345, IV. Труды по методике преподавания иностранных языков. - С. 102-120.

7. Bormuth J.R. Development of readability analysis / J.R. Bormuth. - Washington D.C.: U.S. Office of Education, Bureau of Research, U.S. Department of Health, Education, and Welfare, 1969.

8. Chall, J.S. Readability: an appraisal of research and application / J.S. Chall. - Columbus, OH: Ohio State University Press, 1958.

9. Flesch R. The art of readable writing / R. Flesch. - New York: Harper, 1949.

10. Fry, E.B. The readability graph validated at primary levels / E.B. Fry // The reading teacher. - 1969. № 22. - P. 534-538.

11. Klare, G.R. The measurement of readability / G.R. Klare. - Ames, Iowa: Iowa State University Press, 1963.

12. Paul, T. Guided Independent Reading / T. Paul. - Madison, WI: School Renaissance Institute, 2003.

13. Stenner, A.J., The objective measurement of reading comprehension in response to technical questions raised by the California department of education technical study group / A.J Stenner, D.S. Burdick. - Durham, NC: MetaMetrics, Inc., 1997.

14. Weaver, B.M. Leveling books K-8: Matching readers to text / B.M. Weaver. - Newark, DE: International Reading Association, 2000.

15. Микк Я.А. Методика разработки формул читабельности / Я.А. Микк // Советская педагогика и школа. - Тарту, 1974. - Вып. 9. - С. 78-163.

16. Gray, W.S. What makes a book readable / W.S. Gray, B. Leary. - Chicago: Chicago University Press, 1935.

17. Экономическая теория: учебное пособие / Л.Н. Давыденко, А.И. Базылева, А. А. Дичковский и др.; под общ. ред. Л.Н. Давыденко. - Мн.: Вышэйшая школа, 2002.

18. Экономическая теория: учебник / Н.И. Базылев, А.В. Бондарь, С.П. Гурко и др.; под общ. ред. Н.И. Базылева, С.П. Гурко. - Мн.: Экоперспектива, 1997.

19. Экономическая теория: учебник для студентов вузов / Под ред. В.Д. Камаева. - 6-е изд., перераб. и доп. - М.: ВЛАДОС, 2001.

20. Сажина М.А., Чибриков Г.Г. Основы экономической теории: учебное пособие для неэкономических специальностей вузов / Отв. ред. и руководитель авт. коллектива П.В. Савченко. - М.: Экономика, 1995.

21. Косова М.М. Описательная статистика учебных текстов по физике / М. М. Косо-ва, М.А. Зильберглейт // Труды БГТУ. Сер. VI. Издат. дело и полиграфия. - 2006. -Вып. XIV. - С. 167-170.

22. Терентьев П.В. Метод корреляционных плеяд / П.В. Терентьев // Вестник ЛГУ. -

1959. - № 9.

23. Терентьев П.В. Дальнейшее развитие метода корреляционных плеяд / П.В. Те-рентьев // Применение математических методов в биологии. - ЛГУ, Ленинград,

1960.

24. Айвазян С. А. Прикладная статистика и основы эконометрики: учебник для вузов / С.А. Айвазян, В С. Мхитарян. - М.: ЮНИТИ, 1998. - 572 с.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Невдах Марина Михайловна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Невдах Марина Михайловна

Текст научной работы на тему «Использование метода корреляционных плеяд для изучения информационных характеристик учебных текстов»