Нв4(18) 2008
М.М. Невдах
Исследование информационных характеристик учебного текста методами многомерного статистического анализа
Повышение качества учебной литературы для высшей школы остается одной из острых проблем книгоиздания, от решения которой будет зависеть совершенствование профессиональной подготовки специалистов. В настоящее время уровень учебного материала в основном зависит от мастерства автора и опыта редактора. В связи с этим создание надежных и общепринятых методов автоматизированной проверки сложности учебного текста является крайне актуальной задачей.
Развитие идей кибернетики, в частности научной дисциплины «Распознавание образов», позволяет поставить вопрос о внедрении в редакторскую подготовку изданий автоматизированных систем, выполняющих информационные, логические, аналитические и другие задачи, решение которых до сих пор связывают с деятельностью живого мозга. Полная или частичная замена человека (корректора, редактора) сложной специализированной системой позволяет добиться не только недостижимого для человека быстродействия, но и необходимого качества изданий благодаря объективной оценке трудности текста на основе его информационных характеристик.
Автоматизация ряда процессов предполагает конструирование автоматических устройств, способных реагировать на изменяющиеся характеристики различных объектов определенным количеством удовлетворительных для человека реакций. В нашем случае стоит задача определения понятности (читабельности) текста для будущих читателей. Для решения этой задачи можно выделить несколько этапов:
1) разработка и реализация методов для определения трудности понимания различных текстов группой лиц;
2) выбор формальных характеристик текста (и только тех, которые поддаются точному измерению);
3) создание автоматизированной системы, которая бы на основе ответов испытуемых, полученных экспериментальным путем, предсказывала понятность текста для будущих читателей.
На первом этапе были проведены эксперименты с использованием различных методик. В качестве экспериментального материала использовались учебные тексты по философии и экономической теории для высшей школы [1-8]. Из учебных изданий было выделено 32 отрывка. Объем одной выборки составил 1800-2000 печатных знаков. Эта величина обусловлена тем, что в [9] показано: начиная с объема 1800 печатных знаков статистические характеристики текста становятся относительно постоянными. В основном эксперименте приняли участие 75 студентов БГТУ.
В [10] проанализированы основные методы определения трудности понимания текста: постановка вопросов к тексту, сводка основного содержания текста, методика дополнения, экспертные оценки трудности текста испытуемыми, составление плана или схем текста, угадывание текста по буквам, интонирование, пересказ, скорость
117
Ив4(16)2008
е
0
1
е 1 I
!
I Е
II
12
о *
!
I й I I
I
II I
со
0
чтения текста. В исследовании были использованы наиболее надежные методы: методика дополнения, экспертные оценки трудности текста и метод парных сравнений. Кроме того, впервые для оценки трудности понимания учебного материала для вузов использовался метод парных сравнений.
Методика дополнения представляет собой заполнение пропусков в тексте, в котором слова через определенный интервал заменены точками. Достоинство данной методики состоит в том, что пропускается всегда только одно слово, и слова пропускаются не по усмотрению исследователя, а по строгому правилу. В текстах на основе результатов предварительного эксперимента пропускалось каждое 7-е слово.
Суть экспертных оценок трудности текста заключется в следующем: после прочтения отрывка испытуемому предлагалось оценить его трудность по семибалльной шкале:
1 — сверхлегкий текст;
2 — очень легкий текст;
3 — легкий текст;
4 — текст со средней трудностью;
5 — трудный текст;
6 — очень трудный текст;
7 — сверхтрудный текст.
Для того чтобы исключить поверхностное знакомство испытуемых с текстом и возможное искажение результатов при оценке его трудности, студентам перед вынесением суждения о трудности понимания текста по шкале предлагалось выписать несколько ключевых слов и выразить основное содержание отрывка одним предложением. При проведении методики дополнения и экспертных оценок фиксировалось также время работы с текстом.
Суть метода парных сравнений заключалась в том, что каждому испытуемому предлагался набор текстов, размещенных парами, и после прочтения студент должен был указать, какой из отрывков обладает заданным признаком (в нашем случае — какой
отрывок легче). Оценка каждого текста производилась путем сравнения с другим текстом того же набора. Так как в наборе имелось 16 отрывков по философии и столько же по экономике, следовательно, по одному предмету было составлено 120 пар. За один этап эксперимента студенту предъявлялось 8 пар текстов. Такое количество текстов не вызывало утомления у испытуемого.
В результате обработки и анализа оценок экспериментов была получена необходимая информация относительно трудности восприятия учебного материала для вузов по философии и экономической теории. На основе полученных данных определены 5 показателей трудности восприятия текста
- Y5), которые наряду с характеристиками текста послужат базой для решения задачи отнесения объектов к тому или иному классу (понятности текста).
Следующим этапом исследования является изучение информационных характеристик учебного текста. Текст можно представить как объект, который характеризуется многомерным вектором, состоящим из различных переменных. В связи с этим он может быть исследован с помощью методов многомерного статистического анализа.
В данной статье изучено 49 признаков учебных текстов: 1) длина текста в абзацах; 2) длина текста в словах; 3) длина текста в буквах; 4) средняя длина абзаца в фразах; 5) средняя длина абзаца в словах; 6) средняя длина абзаца в буквах; 7) средняя длина абзаца в печатных знаках; 8) средняя длина предложения во фразах; 9) средняя длина предложения в словах; 10) средняя длина предложения в слогах; 11) средняя длина предложения в буквах; 12) средняя длина предложения в печатных знаках; 13) средняя длина самостоятельного предложения во фразах; 14) средняя длина самостоятельного предложения в словах; 15) средняя длина самостоятельного предложения в слогах; 16) средняя длина самостоятельного предложения в буквах; 17) средняя длина самостоятельного предложения в печатных знаках; 18) средняя длина фразы в словах; 19) средняя длина фразы
118
№4(16) 2008
в слогах; 20) средняя длина фразы в буквах;
21) средняя длина фразы в печатных знаках;
22) средняя длина слов в слогах; 23) средняя длина слов в буквах; 24) средняя длина слов в печатных знаках; 25) средняя длина слов по Деверу; 26) процент слов длиной 5 букв и больше; 27) процент слов длиной 6 букв и больше;
28) процент слов длиной 7 букв и больше;
29) процент слов длиной 8 букв и больше;
30) процент слов длиной 9 букв и больше;
31) процент слов длиной 10 букв и больше;
32) процент слов длиной 11 букв и больше;
33) процент слов длиной 12 букв и больше;
34) процент слов длиной 13 букв и больше;
35) процент слов в 3 слога и больше; 36) процент слов в 4 слога и больше; 37) процент слов в 5 слогов и больше; 38) процент слов в 6 слогов и больше; 39) процент неповторяющихся слов; 40) средняя частота повторения слова; 41) процент неповторяющихся существительных; 42) процент повторяющихся существительных; 43) процент конкретных существительных; 44) процент абстрактных существительных; 45) процент прилагательных; 46) процент глаголов; 47) процент сложных предложений; 48) процент простых предложений; 49) процент придаточных предложений среди фраз.
Следует сделать несколько уточнений. Под термином «фраза» в данной статье понимается отрезок текста, в котором содержится одна предикативная связь. Исходя из этого к фразе относятся простое предложение, части сложносочиненного предложения, главное и придаточное предложения в сложноподчиненном. Самостоятельным предложением считаются простые предложения, части сложносочиненного предложения и сложноподчиненное в целом. Средняя длина слов по Деверу рассчитывалась путем деления общего количества знаков с пробелами на число знаков без пробелов.
Использование большого количества параметров текста, конечно, является неэффективным по следующим причинам [11, с. 516]:
а) сильная взаимосвязанность признаков, что приводит к дублированию информации;
б) неинформативность признаков, мало ме-
няющихся при переходе от одного объекта к другому; в) возможность агрегирования по некоторым признакам. В то же время ничем не оправданное уменьшение числа переменных может привести к снижению точности экспериментов. Таким образом, основной целью данного исследования являлось изучение информационных характеристик учебных текстов для высшей школы методами многомерного статистического анализа. Для уменьшения признакового пространства исследуемых текстов использовались следующие методы: кластерный и факторный анализы, методы корреляционных плеяд и вроцлавской таксономии, многомерное шкалирование.
Для оценки однородности отобранных учебных текстов был проведен однофак-торный дисперсионный анализ, суть которого заключается в сравнении средних значений каждой выборки друг с другом и вычислении общего уровня значимости различий. После разделения выборки случайным образом на две и четыре группы значимость для выделенных групп превысила 0,05, что свидетельствует о статистически недостоверных различиях, а следовательно, об однородности исследуемых отрывков.
Для изучения информационных характеристик учебных текстов значения признаков исследуемых текстов были сведены в таблицу (фрагмент ее представлен в табл. 1).
Так как характеристики текста измерялись в различных единицах, все данные были стандартизированы. Для этого использовалась нормализация, приводящая все переменные к стандартной z-шкале. Стандартизированные переменные исследуемых текстов были сведены в таблицу (табл. 2).
Для проведения анализа данных и статистического анализа был использован пакет SPSS. Кластерный анализ представляет собой «многомерную статистическую процедуру, выполняющую сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающую объекты в сравнительно однородные группы» [12, с. 178].
В большинстве алгоритмов многомерной классификации используется понятие
119
120
Нв4(18) 2008
«мера сходства», или «мера подобия» между объектами. Существуют следующие коэффициенты сходства [12, с. 182]: коэффициент корреляции; коэффициент меры расстояния; коэффициенты ассоциативности; вероятностные коэффициенты сходства.
Для анализа данных в качестве критерия для определения подобия групп использовались следующие меры сходства: а) расстояние Евклида; б) квадрат расстояния Евклида; в) косинус угла; г) коэффициент корреляции; д) неравенство Чебышева; е) расстояние Мин-ковского; ж) манхэттенское расстояние.
Для кластеризации приведенных характеристик текста применялись следующие основные алгоритмы метода кластерного анализа: межгрупповое связывание (between-groups linkage), внутригрупповое связывание (within-groups linkage), одиночное связывание (nearest neighbor), полное связывание (furthest neighbor), центроидная кластеризация (centroid clustering), центральное связывание (median clustering), метод Варда (Ward's method). Количество кластеров по каждому алгоритму варьировало от 3 до 10. После выбора всех соответствующих параметров была получена необходимая информация по формированию кластеров: порядок объединения кластеров, расстояние между ними, а также принадлежность характеристик текста к тому или иному кластеру.
Пример анализа формирования кластеров представлен в табл. 3.
Полученные результаты можно предста- <3 вить для наглядности и в виде дендрограм- Ц мы, которая позволяет не только перейти ^ к любому признаку на любом уровне кла- ^ стеризации, но и судить о том, каково расстояние между кластерами или признаками на каждом из уровней. Пример дендрограм-мы по центроидному методу на основе ман-хэттенского расстояния приведен на рис. 1.
В результате анализа данных об исследуемых характеристиках текста с использованием всех известных алгоритмов и мер сходства были получены 392 дендрограм-мы, которые отражают кластеризацию переменных в условные группы.
Известно, что на результаты кластерного анализа сильное влияние оказывает как используемая мера сходства, так и алгоритм кластеризации. Поэтому при использовании процедур кластерного анализа немаловажна устойчивость структуры кластеров, отражающая реальную объективность классификации. Одним из наиболее простых и эффективных способов проверки устойчивости результатов является метод сравнения результатов, полученных для различных алгоритмов кластеризации. Этот метод был использован в данном исследовании. Для наглядности все показатели были объединены в 7 сводных таблиц. В них четко прослеживаются особенности применения различных алгоритмов кластерного анализа, использующих разные меры сходства.
Таблица 3
Кластеризация на примере использования алгоритма «метод Варда», основанного на расстоянии Евклида
Признак 10 кластеров 9 кластеров 8 кластеров 7 кластеров 6 кластеров 5 кластеров 4 кластера 3 кластера
1 1 1 1 1 1 1 1 1
2 о 2 о 2 о 2 о 2 о 2 о 2 о 2 о 1 о
3 4 г 3 1 А 3 1 А 3 1 А 3 1 А 3 1 А 3 1 А 3 1 о 2 1 н
5 6 4 5 4 5 4 5 4 5 4 5 4 5 2 4 1 3
49 8 7 7 6 4 4 2 1
121
Nя4(16) 2008
и 1
I
¥ а
Е
СО
I
и
I §
Е <5
Л I
к
! I й
I
I 1
1 СО
I
Рис. 1. Дендрограмма по центроидному методу на основе манхэттенского расстояния для 5 кластеров
Результаты формирования кластеров согласуются практически по всем алгоритмам. Незначительно отличаются данные по методу Варда. Сравнение результатов, полученных с применением различных мер сходства, показало, что наблюдаются заметные различия лишь в данных, полученных методами измерения близости, основанных на корреляции Пирсона и векторов значений.
Исходя из проведенного анализа целесообразно выделить 8 условных групп: а) признаки 1, 4, 8, 13, 22-25, 34, 38, 40 и 43;
б) признак 2; в) признак 3; г) признаки 5, 20, 21, 26, 39 и 48; д) признаки 6 и 7; е) признаки 9, 14, 18, 31-33, 37, 41, 42, 45 и 46; ж) признаки 10, 15, 19, 27-30, 35, 36, 44, 47 и 49; з) признаки 11, 12, 16, 17.
Снижение размерности набора переменных в методах факторного анализа базируется в основном на взаимной коррели-рованности исходных признаков [11, с. 547]. В связи с этим первый этап исследования заключался в вычислении корреляционной матрицы (см. табл. 4).
Таблица 4
Корреляционная матрица исходных признаков
№ п/п 1 2 3 4 5 6 7 8 9 10 ■■■ 49
1 1,000 -0,311 0,049 -0,791 -0,865 -0,881 -0,831 -0,341 -0,468 -0,383 -0,515
2 -0,311 1,000 0,405 0,502 0,532 0,414 0,433 0,464 0,499 0,276 0,422
3 0,049 0,405 1,000 -0,143 0,016 0,158 0,276 -0,199 0,045 0,200 -0,103
4 -0,791 0,502 -0,143 1,000 0,904 0,818 0,760 0,678 0,507 0,311 0,402
5 -0,865 0,532 0,016 0,904 1,000 0,963 0,926 0,542 0,652 0,513 0,541
6 -0,881 0,414 0,158 0,818 0,963 1,000 0,984 0,385 0,568 0,513 0,475
49 -0,515 0,422 -0,103 0,402 0,541 0,475 0,404 0,375 0,602 0,443 1,000
122
Нв4(18) 2008
Таблица 5 <3
I
Объясненная дисперсия исследуемых параметров текста %
Метод Фактор Исходные собственные значения Собственные значения Процент дисперсии Кумулятивный процент
Метод главных 1 17,75060 36,22572 36,22572
факторов 2 9,81164 20,02376 56,24948
3 4,02424 8,21273 64,46222
4 3,06513 6,25537 70,71759
Центроидный 1 17,44565 35,60337 35,60337
метод 2 9,63674 19,66681 55,27019
3 4,23599 8,64487 63,91505
4 3,17027 6,46995 70,38500
Метод главных 1 17,92808 36,58793 36,58793
компонент 2 9,99074 20,38927 56,97720
3 4,29961 8,77471 65,75191
4 3,28236 6,69869 72,45060
При изучении экспериментальных данных было установлено, что первые три фактора объясняют около 64% разброса дисперсии (табл. 5).
Так как факторный анализ является методом сокращения числа переменных, то возникает вопрос: какие факторы следует оставить для дальнейшей обработки? Исследователи рекомендуют оставлять только те факторы, которые имеют понятную или логическую интерпретацию. Однако установить заранее назначение каждого фактора не всегда представляется возможным, поэтому для начала были использованы формальные критерии: критерий Кайзера [13] и критерий «каменистой осыпи» Р. Кэтелла [14].
На основании первого критерия, предложенного Кайзером в 1960 году, для дальнейшего анализа необходимо сохранить те факторы, собственные значения которых превышают единицу. В нашем случае следует оставить 8 факторов для всех методов факторного анализа. Определение критерия «каменистой осыпи» осуществляется графически. Для выделения факторов используется график их собственных значений (рис. 2).
По утверждению Р. Кэтелла, следует найти такое место на графике, где убывание собственных значений слева направо максимально замедляется. Анализ графиков для всех методов показал, что целесообразно оставить 3-4 фактора.
Следует отметить, что критерий Кайзера, как правило, сохраняет слишком много факторов, в то время как критерий Р. Кэ-телла — слишком мало, поэтому решение
8 10 12 14 16 18 20 Факторы
Рис. 2. График собственных значений для метода главных компонент
123
Не4(16)2008
Е
и
е
0
1
е 1 I
!
I Е
II
12
0 *
1
I й I I
I
II I
со
0
об оптимальном количестве факторов можно принять только после их вращения и интерпретации.
Целью вращения факторов является получение простой структуры, которой соответствует большое значение нагрузки каждой переменной только по одному фактору и малое — по всем остальным факторам. Нагрузка (значение находится в пределах от -1 до 1) отражает связь между переменной и фактором. Были использованы ортогональные методы вращения: варимакс, квартимакс и эквимакс. В результате получены матрицы нагрузок для переменных (см. табл. 6).
При изучении результатов с использованием всех методов факторного анализа и методов вращения было выявлено, как распределились признаки между тремя факторами (табл. 7).
Как видно из табл. 7, факторы по всем методам вращения практически идентичны. Для более ясного представления о распределении переменных использовались диаграммы рассеяния. Для трех факторов диаграммы изображены в трехмерном пространстве (рис. 3).
По результатам, полученным методом главных факторов, центроидным методом и методом главных компонент, можно выделить
Таблица 6
Факторные веса при анализе 49 информационных характеристик текста с использованием метода главных компонент и вращением эквимакс
Параметры текста Фактор 1 Фактор 2 Фактор 3
1. Длина текста в абзацах 0,16201 -0,58391 0,318794
2. Длина текста в словах -0,62186 0,41246 0,337997
3. Длина текста в буквах 0,36217 0,28747 0,372348
4. Средняя длина абзаца в фразах -0,53533 0,45706 -0,374788
5. Средняя длина абзаца в словах -0,35950 0,69265 -0,200807
6. Средняя длина абзаца в буквах -0,12685 0,71192 -0,226083
7. Средняя длина абзаца в печатных знаках -0,07227 0,69957 -0,141158
8. Средняя длина предложения в фразах -0,59543 0,51458 -0,277823
49. Процент придаточных предложений среди фраз -0,31478 0,58613 0,105082
Таблица 7
Распределение характеристик текста с использованием различных методов факторного анализа и методов вращения
Метод вращения
Метод факторного анализа Метод главных факторов Центроидный метод Метод главных компонент
фактор 1 фактор 2 фактор 3 фактор 1 фактор 2 фактор 3 фактор 1 фактор 2 фактор 3
варимакс 22, 23, 25-38 5, 6, 9-12, 14, 16 15, 18, 19, 21 22, 23, 25-38 4-7, 9-12, 14 15, 18-21 22, 23, 25-38 5-7, 9-12, 14, 16 15, 19
квартимакс 22, 23, 25-38 9-12, 14, 16 15, 19 22, 23, 25-38 5-7, 9-2, 14 15, 18-21 20, 22, 23, 25-38 6, 9-12, 14, 16, 17 19
эквимакс 22, 23, 25-38 9-12, 14, 16 15, 19 22, 23, 25-38 5-7, 9-12, 14 15, 18-21 20, 22, 23, 25-38 6, 9-12, 14, 16, 17 19
124
№4(16)2008
Рис. 3. Диаграмма рассеяния признаков для метода главных факторов
7 условных групп близких параметров текста: а) признаки 1, 4, 8, 13, 18, 22, 23, 25, 40, 43 и 46; б) признаки 2, 9, 14, 24, 41, 47 и 49; в) признаки 3, 26-38; г) признаки 5-7; д) признаки 10-12, 16 и 17; е) признаки 15,19-21; ж) признаки 39, 42, 44, 45 и 48.
Метод корреляционных плеяд предназначен для нахождения таких групп признаков, в которых корреляционная связь между параметрами одной группы (внутриплеяд-ная связь) велика, а связь между параметрами из разных групп (межплеядная связь) — мала [11]. По определенному правилу по корреляционной матрице признаков образуют граф, который затем с помощью различных приемов разбивают на подграфы. Элементы, соответствующие каждому из подграфов, и образуют плеяду.
Выделение корреляционных плеяд осуществляется следующим образом: призна-
ки упорядочиваются, и рассматриваются только те коэффициенты корреляции, которые соответствуют связям между элементами в упорядоченной системе.
Упорядочение производится на основании принципа максимального корреляционного пути: все р признаков связываются при помощи (р -1) линий так, чтобы сумма модулей коэффициентов корреляции была максимальной. Это достигается следующим образом: выбираются два наиболее сопряженных признака, для чего в матрице коэффициентов корреляции определяется максимальное значение гу, / ф у; признаки / и у образуют две первые вершины графа (в нашем случае — признаки 47 и 48, г47 48 = 1). Далее в строках / и у находится следующий наиболее сопряженный признак, образующий новую, третью вершину, соединенную с вершиной у. Эта процедура повторяется до тех
125
К
I ё
Нв4(16) 2008
5
0
1
5 1 I
!
I Е
II
5
о *
I! !
! й 1Е !
I
I I
со
0
пор, пока не будут задействованы все признаки.
На основании упорядочения всех признаков был построен граф (рис. 4), который представляет собой кратчайший незамкнутый путь. Если задать определенное пороговое значение коэффициента корреляции (г0), то полученный граф максимального корреляционного пути можно разбить на подграфы (плеяды), проводя разрыв между признаками со значением сопряженности, меньшим г0.
В связи с этим существенным для техники выделения корреляционных плеяд является выбор г0. Используя прямое (г) и обратное (г-) преобразования Фишера, можно определить г0 для заданного объема выборки:
I Г)1 =1гИЛ |-1,
где Iга,, I = Г(л/ п - 3); V = п -1; а < 0,01.
13
Для заданного объема выборки (п = 32) получили г0 = 0,86. Исходный граф распался на 7 подграфов (рис. 5), что позволило выявить наиболее связанные друг с другом признаки.
Остальные признаки, не вошедшие в выделенные 7 групп, требуют дальнейшего исследования.
При использовании метода вроцлавской таксономии (именуемого также методом дендритов) точки многомерного пространства проецируются на плоскость, этим достигается нелинейное упорядочение изучаемых элементов [15].
Как известно, дендрит представляет собой ломаную, которая «может разветвляться, но не может содержать замкнутых ломаных, и такая, что любые две точки множества 7 ею соединены» [16]. В оптимальном дендрите — с наименьшей суммой длин связей — смежные объекты в наименьшей
§Т |
Рис. 4. Граф максимального корреляционного пути
126
а> &
0,984 ЛЛ 0,881
О
40 """" 39
0,904
(35) (25
(34)—^^—(33)——(32)—^^—(31)—^^—(ЗО)——(29)—^^—(23
(26У^27^Ч28)
№4(16) 2008
(18) (15)
VI
(20Ь^21)
Рис. 5. Корреляционные плеяды при пороговом значении г > 0,86
степени отличаются друг от друга. Для построения такого дендрита была вычислена матрица расстояний (на основе расстояния Евклида) между изучаемыми характеристиками. Из составленной матрицы расстояний между признаками были выбраны единицы с близкими значениями.
В результате были получены следующие пары признаков с близкими значениями: 1—22, 2—12, 3—7, 4—23, 5—10, 6—7, 7—6, 8—13, 9—14, 10—28, 11—12, 12—11, 13—8, 14—9, 15—19, 16—17, 17—16, 18—14, 19—15, 20—21, 21—20, 22—8, 23—25, 24—23, 25— 23, 26—39, 27—35, 28—35, 29—36, 30—36, 31—37, 32—37, 33—45, 34—38, 35—27, 36— 30, 37—32, 38—34, 39—26, 40—13, 41—14, 42—46, 43—22, 44—36, 45—18, 46—25, 47— 10, 48—26, 49—9. Необходимо отметить, что некоторые пары повторяются дважды: например, 6—7 и 7—6. Так как при построении дендрита очередность установления связей не имеет значения, одно из повторяющихся сочетаний следует исключить. Далее были найдены пары с общим признаком, которые затем объединялись друг с другом. Например, пары 2—12 и 12—11 образовали цепочку 2—12—11. В результате было получено 13 отдельных конструкций, называемых скоплениями 1-го порядка:
2—12—11, 3—7—6, 15—19, 16—17, 20—21, 39—26—48, 31—37—32, 34—38, 1—22—8—13—40, 4—23—25—46—42, I I
43 24
5—10—28—35—27, I
47
41 44
I I
49—9—14—18—45—33, 29—36—30.
Полученные скопления не удовлетворяют основному условию дендрита, а именно они не связаны в единое целое. Для достижения этой цели было выбрано наименьшее расстояние между единицами, входящими в различные скопления 1-го порядка. Таким образом были получены скопления 2-го порядка. Объединение признаков в скопления 3-го, 4-го, п-го порядков происходило до тех пор, пока любые две точки исследуемого множества параметров не оказались связанными друг с другом (рис. 6).
Исходя из поставленной цели и анализа дендрита было определено максимальное расстояние между признаками, равное 0,0002. Исходный дендрит распался на 4 наиболее связанные друг с другом группы признаков: 1) признаки 1,4,8,9,13,14,18, 22-46; 2) признаки 15 и 19; 3)признаки 16 и 17; 4)признаки
127
Нв4(16) 2008
5
0
1
5
IS
I
! Si is
if e
о
It
6
t
& is
IE I
I f IE
s
0
20 и 21. Признаки, не вошедшие в выделенные группы, требуют дальнейшего исследования.
Основным преимуществом многомерного шкалирования является возможность наглядного сравнения объектов анализа. Данный метод имеет много общего с факторным анализом, так как в обоих случаях создается система координат пространства, в котором определяется расположение точек. Однако в отличие от факторного анализа для снижения размерности используются не коэффициенты корреляции, а меры различия между объектами (расстояние Евклида, квадрат расстояния Евклида, косинус угла, неравенство Чебышева, расстояние Минковского, манхэттенское расстояние).
Основная задача многомерного шкалирования заключается в преобразовании исходной матрицы 49х49 в более простую
0,020302 0,000705 ^^ 0,003432 Qj
39
12
48}
<26
0,000252 /ГХ\ 0,000156
(20)
21
0,000330
16
27
17
© ® @
. 0,000201 ,„„. 10) (28)
19
матрицу 49 х2 и визуальном представлении ее в виде диаграммы.
После расположения точек в заданном пространстве для всей модели в многомерном шкалировании вычисляются стресс (stress) и коэффициент R2. Стресс характеризует отклонение результата от идеального на различных итерациях применения модели. Коэффициент R2 определяет долю дисперсии в матрице различий, обусловленную данной моделью. Чем выше значение коэффициента R2, тем лучше модель. Величины стресса и R2 могут служить критериями при выборе наиболее подходящей модели. В данном случае наилучшей (stress = 0,174, R2 = 0,875) стала модель, полученная с использованием квадрата расстояния Евклида. На ее основе были получены следующие 10 групп признаков: а) признаки 1, 44, 48; б) признаки 2, 4-14, 47, 49; в) признаки 3, 15-18, 43; г) признаки 19-21; д) признаки 22, 23, 25-38,
47
0,000076 0,000143 /TS 0,000093 0,000047 0,000101
29 36..... 30 31
44
37 32
Рис. 6. Дендрит, построенный на единицах исследуемого множества
128
№14(16)2008
I
со
,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Рис. 7. Расположение точек на основе квадрата расстояния Евклида
45; е) признаки 39, 40; ж) признак 24; з) признак 41; и) признак 42; к) признак 46 (рис. 7).
Для дальнейшего изучения характеристик текста важнейшей задачей является выделение наиболее информативного признака из каждой полученной группы. В данном исследовании для оценки информативности признаков в качестве информационной использовалась мера «7(1,2) расхождения между статистическими распределениями 1 и 2, подробно изученная С. Кульбаком [17]. Для дискретных распределений эта мера вычисляется по формуле:
J( xi /Д, х М2) = X J( xi /Л, х М2) =
19 у [Р(Х/А) - Р ( «у /
где у — номер диапазона признака х; / — номер признака;
А1 и А2 — классы, которым может принадлежать рассматриваемый объект; Р(ху/А1) и Р(х/42) — вероятность попадания объекта, принадлежащего к А1 или к А2, в диапазон у признака х.
По формуле, приведенной выше, были вычислены информационные меры каждого из 49 признаков. Затем отобраны те из
них, которые обладают наибольшей информативностью среди признаков своей группы. В результате число признаков сократилось до возможного минимума. Однако этого еще недостаточно. В работах И. Лорджа [18] и Р. Флеша [19] доказывается, что корреляция между факторами, влияющими на трудность понимания текста, настолько велика, что только некоторые из них необходимы для использования в качестве достоверных факторов трудности текста. Наибольшей популярностью в США пользуется формула читабельности Р. Флеша, в которую входят всего два параметра: средняя длина предложения в словах и средняя длина слова в слогах.
Для дальнейшего исследования характеристик текста и их влияния на понятность учебного материала использовался дискри-минантный анализ, на основе некоторых признаков (в нашем случае — характеристик текста) он позволяет предсказать принадлежность объектов к двум или более непересекающимся группам. Ответы испытуемых, полученные на первом этапе, были разделены на две группы: трудный-легкий текст для восприятия. Основанием для разделения на две группы была средняя величина всех ответов испытуемых (например, по тексту 1 ), которая сравнивалась со значением
129
N94(16)2008
середины диапазона всех полученных ответов. Если среднее значение превышало середину диапазона, то разумно предположить, что текст легкий, и наоборот.
После проведения дискриминантного анализа по всем экспериментальным методикам были получены следующие функции (для Y2 — время работы с текстом с использованием методики дополнения):
>1 = -16,7837 + 0,7602а15 - 0,1002Х6 + + 1,4484X32 + 0,0283X34.
та
| >2 = -20,3376 + 0,4448X5 - 0,0419Х6 +
та + 1,0521Х32 + 0,6791Х34.
5
| Точность классификации при данном на-| боре дискриминантных переменных состав-<3 ляет 93,75% (30 из 32 правильных предска-¡5 заний в отношении известных объектов). о Таким образом, дискриминантный ана-§ лиз позволил определить следующие основные факторы трудности учебного тек-| ста: средняя длина абзаца в словах; сред-| няя длина абзаца в буквах; процент слов Ц длиной 11 букв и больше; процент слов дли-§ ной 13 букв и больше. В дальнейшем на ос-| нове полученных функций будет создано ¡3 программное обеспечение для автоматизированной оценки читабельности учебного <э материала для читателей.
о
Список литературы
1. Волчек Е.З. Философия: Учеб. пособие У с хрестоматийными извлечениями / Е.З. Волчек. ^ Мн.: Интерпресссервис, Экоперспектива, 2003.
2. СпиркинА.Г. Философия: Учебник для сту-^ дентов высших учебных заведений / А.Г. Спир-
3 кин. 2-е изд. М.: Гардарики, 2004.
| 3. Философия: Учебное пособие для студента тов высших учебных заведений / В. С. Степин [и др.]; ^ под общ. ред. Я. С. Яскевич. Мн.: РИВШ, 2006. 1с 4. Философия: учебное пособие для студен-«и тов высших учебных заведений / Ю.А. Харин | [и др.]; под общ. ред. Ю.А. Харина. Мн.: ТетраСи-
4 стемс, 2006.
§ 5. Сажина М.А. Основы экономической тео-
сл
* рии: учебное пособие для неэкономических специальностей вузов/М.А. Сажина, Г. Г. Чибриков;
130
отв. ред. и рук. авт. коллектива П.В. Савченко. М.: Экономика, 1995.
6. Экономическая теория: учебник/Н. И. Базы-лев, А. В. Бондарь, С. П. Гурко и др.; под общ. ред. Н.И. Базылева, С.П. Гурко. Мн.: Экоперспектива, 1997.
7. Экономическая теория: учебник для студентов вузов/Под ред. В.Д. Камаева. 6-е изд., пере-раб. и доп. М.: ВЛАДОС, 2001.
8. Экономическая теория: учебное пособие / Л.Н. Давыденко, А.И. Базылева, А.А. Дичковский и др.; под общ. ред. Л.Н. Давыденко. Мн.: Вы-шэйшая школа, 2002.
9. Косова М.М. Описательная статистика учебных текстов по физике / М. М. Косова, М.А. Зиль-бер-глейт//Труды БГТУ. Сер. VI. Физ.-мат. науки и информатика. 2006. Вып. XIV. С. 167-170.
10. НевдахМ.М. Новая классификация методов определения понимания текста / М. М. Невдах, Ю.Ф. Шпаковский //Труды БГТУ. Сер. IX. Издат. дело и полиграфия. 2007. Вып. XV. С. 100-103.
11. Айвазян С.А. Прикладная статистика и основы эконометрики: учебник для вузов / С. А. Айвазян, В.С. Мхитарян. М.: ЮНИТИ, 1998.
12. Дубнов П.Ю. Обработка статистической информации с помощью SPSS / П. Ю. Дубнов. М.: ООО «Издательство АСТ»: Изд-во «НТ Пресс», 2004.
13. Kaiser H.F. The application of electronic computers to factor analysis / H.F. Kaiser // Educational and Psychological Measurement. 1960. № 20. Р. 141-151.
14. Cattell R. B. The scree test for the number of factors / R. B. Cattell // Multivariate Behavioral Research. 1966. № 1. Р. 245-276.
15. Плюта В. Сравнительный многомерный анализ в экономических исследованиях: Методы таксономии и факторного анализа / В. Плюта. М.: Статистика, 1980.
16. Florek K. Taksonomia wroclawska / K. Flo-rek, J. Zukaszewicz, J. Perkal, H. Steinhaus, S. Zubr-zycki. Przegl^d Antropologiczny, 1951. t. XVII.
17. Кульбак С. Теория информации и статистика / С. Кульбак. М., 1967.
18. Lorge I. Predicting readability /1. Lorge//Teacher's College Record. 1944. № 45. P. 404-419.
19. Flesch R. Estimating the comprehension difficulty of magazine articles / R. Flesch // Journal of general psychology. 1943. № 28. P. 63-80.