УДК 81'23:004
Кишалова Лидия Викторовна
Уфимский государственный авиационный технический университет
ВЛИЯНИЕ ОБЪЁМА ВЫБОРКИ ТЕКСТА НА РЕЗУЛЬТАТ ВЫЧИСЛЕНИЯ ЕГО ОСНОВНОГО СЛОГО-АКЦЕНТНОГО ОБЕРРИТМА
В статье обсуждаются возможные направления, в рамках которых удаётся декодировать суггестивный потенциал языковой модели. Ритм художественного произведения рассматривается как инструмент анализа суггестивного потенциала текста. Исследуется иерархия ритмических единиц анализа в прозаическом тексте проводится экспериментальное определение минимального объёма текста, необходимого для анализа среднеквадратичного отклонения прозаического произведения. Слого-акцентный оберритм прозы создается путем чередования ударных и безударных слогов внутри ритмической группы. Используются два подхода к анализу отрывка - на уровне предложения и на уровне текста. Анализ прозаических отрывков на уровнях предложения и текста проводится при помощи компьютерной программы «ПУЛЬС». Отмечается важность учета среднеарифметического показателя всех безударных слогов при анализе ритмической структуры текста. Выявляется зависимость погрешности показателя среднеквадратичного отклонения от объёма выборки прозаического текста. По результатам расчетов при объёме прозаического текста около 70-80 предложений погрешность вычисления показателя Q при анализе отрывка на уровнях предложения и текста является незначительной и составляет около 1%. Результаты исследования послужат основой для дальнейшей работы по определению особенностей слого-акцентного оберритма текстов разных жанров, которые следует учитывать при создании прозаического текста для улучшения качества его восприятия и понимания.
Ключевые слова: слого-акцентный оберритм, анализ среднеквадратичного отклонения прозы, ритмическая структура прозы, единицы анализа, декодирование, суггестивный потенциал, автоматизированный анализ текстов, объём выборки текста.
Среди наиболее перспективных подходов к декодированию суггестивного потенциала вербальной модели отметим шесть направлений, выделенных Т.М. Рогожниковой и её учениками: изучение ритмической активности мозга при предъявлении вербальных стимулов, изучение ассоциативной цветности и потенциала звукоцвета, использование возможных аналогий с моделями квантовой физики, изучение языковых явлений в контексте разных модальностей восприятия, ранжирование эмоционально-оценочных признаков, а также анализ ритмической организации текста [6; 7]. Данная статья посвящена изучению последнего направления, которое наряду с исследованием целого ряда проблем включает в себя и определение оптимального объёма выборки при исследовании ритмической структуры прозаического текста.
Суггестивная роль ритма заключается в бессознательной запоминаемости образа текста, рецеп-торной и двигательной нацеленности реципиента на текст, желании его имитации [10]. С помощью методов лингвистической статистики современные лингвисты могут исследовать прозаический ритм с математической точностью. Лингвостатистика -раздел лингвистики, занимающийся изучением языка количественными методами [5, с. 49].
Современные методы исследования в лингвистике и психолингвистике сопоставимы по своей точности и объективности результатов с естественными науками. Точность описания прозаического ритма обеспечивается путём применения формул для математических вычислений. Одна из первых формул для анализа ритма текста была предложена К. Марбе в 1904 г., потом усовершенствована сна-
чала Г. Карагановым, а затем Г.Н. Ивановой-Лукьяновой [2]
q =
- Хср )2
(1)
где q - среднеквадратичное отклонение; х. - количество безударных слогов между соседними ударными; хср = хбезуд/ хсум - среднее арифметическое всех безударных слогов; (х. - хср )2 - отклонение выборочной частоты от средней; ^ (х. - хср )2 -сумма квадратов всех отклонений; п - число выборок, т. е. число межударных интервалов.
Данная формула применяется для вычисления слого-акцентной характеристики (основного «сло-го-акцентного оберритма») прозаического текста, создаваемой повторением ударных слогов и определяющей ритмическую группу - минимальную единицу ритма - с точки зрения словесных ударений, то есть равномерности распределения в ней ударных и безударных слогов [3, с. 142].
Приступая к анализу текста, перед исследователем возникает вопрос об объёме исследуемого отрывка, особенно в случаях, когда необходимо проанализировать объёмное прозаическое произведение - роман или повесть. Для характеристики ритма всего произведения необходимо обеспечить определённую величину выборки. Маленькое число выборок даёт большую погрешность при анализе, для обработки большого числа выборок требуются значительные временные ресурсы.
Проводя вычисления среднеквадратичного отклонения, можно использовать следующие подходы к анализу разных языковых единиц: на уровне слова, предложения и текста [3, с. 142]. Данное исследование посвящено экспериментальному вы-
© Кишалова Л.В., 2016
Вестник КГУ им. Н.А. Некрасова № 2, 2016
173
явлению минимального объёма текста, необходимого для анализа среднеквадратичного отклонения прозаического произведения, применяя два подхода к анализу отрывка - на уровне предложения и текста.
1. Минимальный объём отрывка текста при анализе среднеквадратичного отклонения на уровне предложения.
В монографии И.А. Афониной [1] представлен сопоставительный анализ отрывков оригинального французского текста из новеллы П. Мериме «Кармен» и трёх её переводов на русский язык: М. Лозинского, О. Моисеенко и Г. Рачинского с точки зрения адекватности передачи слого-акцентного оберритма в предложениях перевода [3, с. 143].
Ссылаясь на закон больших чисел, который гласит, что при увеличении числа отдельных выборок происходит взаимное погашение индивидуальных отклонений от некоторого уровня, характерного для всей совокупности в целом [9, с. 88], И.А. Афонина пришла к выводу, что при числе выборок, равном 100 наблюдениям, средние значения q изменяются незначительно. Поэтому для своего анализа она выбрала именно 100 предложений из разных частей исследуемого текста [3, с. 143]. Большинство отобранных для анализа предложений носят описательный характер и содержат монологическую речь. Отрывки с диалогической речью анализу не подвергались. Проведя расчеты по формуле (1), получаем результаты расчетов среднеквадратичного отклонения каждого из анализируемых предложений в отдельности, а затем высчитываем среднеарифметический показатель О , для всего от-
А т ^текста I
рывка, анализируя текст на уровне предложения с помощью следующей формулы:
Q*
X q
N
(2)
где N - количество предложений, q - среднеквадратичное отклонение предложения.
Для анализа отрывков текстов в данном исследовании использовалась компьютерная программа «ПУЛЬС», разработанная коллективом авторов (Т.М. Рогожникова, Л.В. Кишалова, А.Е. Киша-лов) [8] на базе Framework САМСТО [4].
Для выявления минимального объёма текста, необходимого для анализа на уровне предложения, проведены расчёты среднеквадратичного отклонения в трёх отрывках: одного из новеллы «Кармен» П. Мериме в переводе М. Лозинского (вслед за И.А. Афониной в объёме 100 предложений) - текст 1, и двух - из романа М. Булгакова «Мастер и Маргарита» из разных частей романа (150 предложений романа - текст 2 и 120 - текст 3). При анализе предложений из романа М. Булгакова производилась сплошная выборка предложений, то есть анализировались также диалоги. При таком подходе не нарушается целостность текста, поэтому и результаты исследования являются более объективными.
Методика анализа текста на уровне предложения выглядит следующим образом. Первый анализируемый объём выборки текста состоит из одного предложения - № 1, и его Q . совпадает с q первого
^текста I 1 1
предложения. Второй анализируемый объём выборки - это текст, состоящий из двух предложений, следующих в тексте одно за другим (№ 1 и № 2), и его 0текста j - это среднеарифметический показатель q первого и второго предложений. Последую-
0,600 -I-----
0 20 40 60 ВО 100 120 140 160.У
Рисунок 1. Сводный график изменение О , объёмов выборок текстов N,
* ^ г т ^текста! г '
анализируемых на уровне предложений
i=1
3„%
О 10 20 30 40 50 60 70 80 90 100Ж Рисунок 2. Сводный график относительного изменения бтексга , анализируемых на уровне предложения
щие анализируемые объёмы текста обрабатываются аналогичным образом. Следовательно, при увеличении объёма выборки текста на одно предложение и вычислении среднеарифметического показателя ^^текста, можно проследить, как меняется среднеквадратичное отклонение отрывка текста в зависимости от увеличения его объёма. Результаты изменений Q , проанализированных объёмов текстов на
^текста 1 1 1
уровне предложений в зависимости от увеличения объёма отрывка представлены на рисунке 1. На графике видны сильные скачки в показаниях Q
текста 1
в маленьких по объёму выборках анализируемых текстов и стабильность этих показаний в выборках текстов объёмом N порядка 70-80 предложений и больше. Что свидетельствует о достаточности объёма выборки (при добавлении последующих предложений Q , существенно не изменяется).
текста 1
Относительное изменение среднеарифметического отклонения д в процентном отношении рассчитывается по формуле
бе
а( N-1)
- бе
бе
-•100%,
(3)
-^текста( N-1)
где бтекста Д - значение среднеарифметического показателя для анализируемого объёма выборки текста Д, бтекста (Д_1) - значение среднеарифметического показателя для предыдущего анализируемого объёма выборки текста (Д - 1).
Из сводного графика (рис. 2) относительного изменения б видно, что изменение б при
текста 1 текста 1
расчётах велико при анализе отрывков текста, состоящих из наименьшего количества предложений, и практически равно нулю, когда объём отрывков достигает 40 предложений.
Проведённое исследование показало, что при анализе среднеквадратичного отклонения текста
на уровне составляющих его предложений минимальный объём отрывка текста должен составлять 70-80 предложений. Анализ более крупных отрывков текста не даст значительных изменений в результатах расчёта бтекста 1. При добавлении одного предложения после 80 б изменяется не более,
текста 1
чем на 0,2%.
2. Минимальный объём отрывка текста при использовании подхода к анализу среднеквадратичного отклонения на уровне текста.
Аналогичным образом проанализированы те же самые отрывки текста при изучении основного слого-акцентного оберритма на уровне текста. При анализе прозаического отрывка на уровне текста бтекста 11 не является среднеарифметическим показателем q предложений, его составляющих. Текст рассматривается как единый отрывок, состоящий из межударных интервалов, часть из которых находится на стыке соседних предложений. Формула расчёта бтекста 11 совпадает с формулой (1).
б „ первого объёма выборки так же, как
текста 11
и при анализе на уровне предложения, совпадает с q предложения № 1. Второй объём выборки - это текст, состоящий из двух последовательных предложений (№ 1 и № 2), которые анализируются по формуле (1) совместно. Последующие объёмы выборки текста анализируются аналогичным образом. При увеличении объёма выборки текста на одно предложение и вычислении среднеарифметического показателя бтекста 1Р можно проследить, как меняется среднеквадратичное отклонение отрывка текста в зависимости от увеличения его объёма.
Результаты изменения среднеквадратичного отклонения на уровне текста б , вычисленного
текста 11
для текстов с различным количеством предложений представлены на рисунке 3.
Рисунок 3. Сводный график изменения Qтекста п объёмов выборок текстов Ы, анализируемых на уровне всего текста
О 10 20 30 40 Рисунок 4. Сводный график относительного
Кривые сводного графика (см. рис. 3) практически выстраиваются в единую прямую на уровне показаний оси абсцисс 80. Следовательно, объём текста при данном подходе к анализу Qтекста п должен составлять не менее 80 предложений. График относительного изменения Q
А т ^текста II
(рис. 4) демонстрирует изменения менее 1% уже при объёме текста 60 предложений.
Расчеты при анализе Q ,, на уровне текста
А ^текста II *
показали, что минимальный объём текста должен составлять 60-80 предложений. Чем меньше объём текста, тем значительнее показания относительного изменения Qтекста „. При добавлении каждого
50 60 70 80 90 100 N изменения Q „ при анализе на уровне текста
^текста II А *
последующего предложения после 80 Qтекста п изменяется, как и при подходе к анализу на уровне предложения, не более чем на 0,2%.
Данные с результатами расчётов трёх анализируемых текстов на уровне предложения и текста занесены в сводную таблицу.
Выводы. На сегодняшний день вопрос изучения ритма прозаического текста является актуальным среди отечественных и зарубежных лингвистов. Но исследований, посвященных изучению минимального объёма текста для анализа слого-акцентного оберритма, практически нет. В данной статье приводятся результаты анализа трёх прозаи-
Таблица
Результаты анализа текста 2 в романе М. Булгакова «Мастер и Маргарита»
№ предложения < предложения Анализ на уровне предложения Анализ на уровне текста
8, % йтк^П 8- %
1 1,020 1,020 - 1,020 -
2 0,471 0,746 26,91 0,968 5,10
3 0,495 0,662 11,20 0,788 18,60
4 1,881 0,967 46,03 1,415 79,57
5 2,052 1,184 22,45 1,657 17,10
6 1,343 1,210 2,24 1,562 5,73
7 1,251 1,216 0,48 1,480 5,25
8 1,241 1,219 0,26 1,442 2,57
9 0,943 1,189 2,52 1,355 6,03
10 0,748 1,145 3,71 1,351 0,30
80 0,800 1,158 0,39 1,304 0,29
81 1,037 1,156 0,13 1,301 0,20
82 0,000 1,142 1,22 1,304 0,19
83 1,369 1,145 0,24 1,306 0,19
84 1,019 1,144 0,13 1,306 0,05
85 1,374 1,146 0,24 1,305 0,02
ческих отрывков двумя способами - на уровне предложения и на уровне текста - при помощи разработанной авторами компьютерной программы «ПУЛЬС». Результаты данного исследования показали, что для анализа среднеквадратичного отклонения на уровне предложения достаточно отрывка текста объёмом порядка 70-80 предложений, тогда процент погрешности вычислений будет менее 1%, хотя по данным И.А. Афониной минимальный отрывок текста для анализа должен составлять порядка 100 предложений.
Благодаря применению в исследовании автоматизированного анализа текста при помощи компьютерной программы «ПУЛЬС» вычисления проведены за короткий срок. Результаты среднеквадратичного отклонения для отдельных предложений отрывка из новеллы «Кармен» после компьютерной обработки полностью совпали с результатами И.А. Афониной.
Таким образом, расчёты среднеквадратичного отклонения можно проводить с помощью анализа отдельных предложений и всего текста. Оба подхода к анализу верны. Показатели среднеквадратичного отклонения при анализе текстов 1-3 на уровне предложения в среднем на 20% меньше, чем при анализе всего текста: на уровне предложения бтекста { лежит в диапазоне от 1,06 до 1,16; на уровне всего текста б ,, - от 1,27 до 1,31. Следователь-
^ текста И 7^7 ^
но, при выборе метода анализа текста необходимо ориентироваться на соответствующий диапазон.
Объём выборки текста для анализа слого-ак-центного оберритма может быть уточнён, если ориентироваться не на количество предложений, а на количество межударных интервалов (п), так как размер предложения не является фиксированной
величиной. Применение межударного интервала в качестве фиксированной единицы для анализа среднеквадратичного отклонения от слого-акцент-ного оберритма покажет более точные результаты минимального объёма выборки анализируемого текста, при котором погрешность при расчётах будет лежать в допустимых пределах.
При анализе текста и исследовании уровня его понимания необходимо ориентироваться не только на среднеквадратичное отклонение б, но и на сам ритм текста (среднеарифметическое всех безударных слогов предложения/текста).
Результаты данного исследования послужат основой для дальнейшей работы по выявлению особенностей слого-акцентного оберритма текстов разных жанров, которые необходимо учитывать при создании прозаического текста для улучшения качества его восприятия и понимания.
Библиографический список
1. Афонина И.А. Лингвопрагматические проблемы трансляции ритма при переводе художественной прозы: монография. - Тюмень: Изд-во Тюменского гос. ун-та, 2012. - 184 с.
2. Иванова-Лукъянова Г.Н. О ритме прозы // Просодическая структура текста. - М., 1984. -Вып. 230. - С. 128-147.
3. Кишалова Л.В. Анализ слого-акцентного оберритма текста // Теория и практика языковой коммуникации: Материалы VI Международной научно-методической конференции (25-26 июня 2014 г.). - Уфа: УГАТУ, 2014. - С. 141-147.
4. Кривошеев И.А. Система автоматизированного моделирования сложных технических объектов (САМСТО): свидетельство об официальной
регистрации № 2011611712 // И.А. Кривошеев, Д.А. Ахмедзянов, Д.Г. Кожинов. - М.: Роспатент, 2011.
5. Носенко И.А. Начала статистики для лингвистов. - М.: Высш. шк., 1981. - 155 с.
6. Рогожникова Т.М. Компьютерные технологии в языковой коммуникации: автоматизированный анализ слова и текста // Вестник УГАТУ - Уфа: Уфимск. гос. авиац. техн. ун-т, 2013. - Т. 17. -№ 2 (55). - С. 194-202.
7. Рогожникова Т.М. Слого-акцентный обер-ритм как инструмент анализа суггестивных ресурсов текста / Т.М. Рогожникова, Л.В. Кишалова //
Вестник Тверского государственного университета: сб. научн. тр. / под общ. ред. А.А. Залевской. -Тверь: Твер. гос. ун-т, 2015. - № 2. - С. 272-282.
8. Рогожникова Т.М. Компьютерная программа по обработке и анализу ритма текста «ПУЛЬС»: свидетельство о гос. регистрации программы для ЭВМ № 2015614549 / Т.М. Рогожникова, Л.В. Кишалова, А.Е. Кишалов. - М., 2015.
9. Рокицкий П.Ф. Биологическая статистика: учеб. пособие. - Минск: Вышэйшая школа, 1967. - 327 с.
10. Шелестюк Е.В. Речевое воздействие: онтология и методология исследования: дис. ... д-ра. филол. наук. - Челябинск, 2009. - 299 с.