Информационные технологии Вестник Нижегородского университета им. Н.И. Лобачевского, 201]., № 4 (1), с. 196-199
УДК 004.627
ЗОЛОТАЯ ПРОПОРЦИЯ КАК ИНВАРИАНТ СТРУКТУРЫ ТЕКСТА © 2011 г. Д.В. Ломакин, А.З. Панкратова, А.С. Суркова
Нижегородский государственный технический университет им. Р.Е. Алексеева
Поступила в редакцию 22.12.2011
Разработан метод построения модели структуры текста, основанный на использовании золотой пропорции в модифицированном ранговом законе распределения. Результаты статистической обработки художественных текстов совпали с теоретическими выводами.
Ключевые слова: текст, структура, инварианты, золотая пропорция, ранговый закон распределения,
распределение Ципфа.
В настоящее время в связи с необходимостью обработки больших объемов текстовой информации и растущими возможностями информационных технологий активно исследуются закономерности организации текста, в частности, его структура. Результаты таких исследований используются при разработке эффективных методов и алгоритмов обработки текстов, например, для его идентификации и классификации по тематическим категориям.
Основной операцией при идентификации и классификации текстов является операция их сравнения по некоторой совокупности признаков, выбор которых в настоящее время не регламентирован общепринятыми правилами. Существуют, например, работы в которых в каче-
Рис. 1. Иерархическая модель текста
стве признаков для сравнения текстов используются различные статистические характеристики: синтаксические связи, встречаемости грамматических классов и буквосочетания [1— 3]. Для разработки более эффективных методов сравнения представляется целесообразным использовать закономерности организации текста, в частности, его структуры, и закономерности установления связей между элементами и уровнями.
Поскольку текст, как любая система, имеет свою структуру, то построение модели текста следует начинать с определения состава текста и установления связей между его компонентами. Очевидной является иерархическая организация текста, причем на каждом уровне иерархии текст структурирован не только под влиянием законов этого уровня, но и законами вышележащих уровней (рис. 1). Самым нижним уровнем следует считать уровень букв и их сочетаний. Этот уровень структурируется словами, которые выполняют функцию ниши для букв и их сочетаний, а сами слова являются компонентами следующего уровня, который структурируется правилами построения предложений. Предложения являются компонентами следующего уровня, в результате структурирования которых формируется текст.
Таким образом, текст представляет собой некоторое интегративное образование со своими внутренними связями, причем в любом тексте присутствуют особенности, которые характерны для языка текста, его жанра, тематики, а также стилевые особенности автора. Предлагается следующая классификация структурных признаков текста, определяющих как его общеязыковые свойства, так и его оригинальность, которые принято называть инвариантами:
"щ,э" "ф"
"Ц".
"ъ,ьм "ш"
"г". С---- "х"
"я. 3 0 "н" "й"
"к' "гг : "П" "и д"
"с< /К , і" : "В" Р
"е) "а,и"
"а"
10 11 12 13
Рис. 2. Модифицированный ранговый закон распределения букв русского алфави-
- универсальные инварианты текста, которые проявляются в любом тексте на всех иерархических уровнях;
- локальные инварианты текста, которые определяют способ организации внутренней структуры каждого из уровней, например, грамматические и синтаксические правила языка, общепринятые нормы и т.д.;
- авторские инварианты текста, которые отражают специфические особенности автора.
Авторские инварианты могут проявляться в той или иной мере на всех иерархических уровнях текстовой структуры и, в первую очередь, на уровне предложений, когда автор составляет словосочетания и предложения из слов, и текст из предложений. Выявление авторских инвариантов является одной из основных проблем, возникающих на пути реализации эффективных методов идентификации текстов.
Широкое распространение получил статистический метод анализа структуры текста, который, в частности, сводится к оценке рангового распределения, свойства которого отражают закономерности текста. Ранговые распределения получаются, если все словарные единицы текста расположить в порядке убывания их вероятностей появления в тексте. Порядковый номер словарной единицы в полученной последовательности называется ее рангом, а зависимость вероятности от ранга - ранговым распределением. Первоначально была установлена гиперболическая зависимость в ранговых законах распределения различных систем, состоящая в том, что значения вероятностей появления элементов системы с возрастанием ранга убывают обратно пропорционально значению ранга. Такие законы называются Н-распределе-нииями. Однако в текстовых системах наблюдаются отклонения от гиперболического закона, которые учитываются благодаря наличию параметров в так называемом законе распределения Ципфа [4, 5]:
Рк =
С
Т7
где Pk - вероятность, соответствующая рангу k, а у и С - некоторые константы.
Оценка рангового закона распределения сводится к определению относительной частоты появления в тексте его элементов (букв, их сочетаний, слов и т.д.). Подбор параметров в формуле Ципфа в зависимости от рассматриваемого текста позволяет получить устойчивое ранговое распределение для элементов текста уровня слов, однако для элементов нижнего уровня (букв и слогов) закон распределения Ципфа не дает удовлетворительных результатов. Так, в работе [5] указывается на ограниченность статистических методов исследования текста на уровне букв. Также не привели к значительным успехам на пути к выделению структуры текста и попытки построения стохастического механизма, который обеспечивает заданный закон распределения [5].
В статье обсуждается обнаруженная в процессе исследования текста особенность его статистического формирования, позволяющая рассчитать распределение компонентов текста (словарных и буквенных единиц) в зависимости от их рангов. Предлагается формировать модель текста в виде системы, количественный состав компонентов которой вычисляется априорно на основании закона золотого деления [6], согласно которому целое так относится к большей части (х), как большая часть к меньшей (1-х):
1 х х 1 - х
Решение этого уравнения х « 0.618....
Такой подход позволяет выдвинуть гипотезу, что среди всех единиц текста существуют такие, вероятность появления которых в тексте равна некоторому основанию в степени k, где k
- некоторое целое число, свое для каждой сло-
6 -I-------------------------------------------------------------------------------
6 8 10 12 14 16 18 20 г22
Рис. 3. Модифицированный ранговый закон распределения слов из произведения А.С. Пушкина «Капитанская дочка»
варной единицы. На рис. 2 представлены результаты вычислительного эксперимента для букв русского алфавита с основанием, равным
значению золотого деления - 0.618___Значения
вероятностей, которые равны 0.618 в степени к, образуют базис, в котором определяются вероятности остальных словарных единиц как линейная форма. Если по оси ординат откладывать логарифм вероятности, а по оси абсцисс -ранг словарной единицы, т.е. ее порядковый номер в последовательности из словарных единиц, расположенных в порядке убывания их вероятностей, то базовые значения вероятностей располагаются на прямой (базовой), а остальные значения вероятностей - на прямых, параллельных базовой прямой, при этом предполагается, что равновероятные словарные единицы имеют одинаковые значения рангов и на графике представлены одной точкой. Отметим, что аналогичные распределения можно получить и при других значениях основания меньше единицы, при этом характерное распределение
- прямая - остается, что свидетельствует о возможности такого подхода для описания статистических особенностей текста.
Следует отметить, что с уменьшением значений вероятностей увеличивается количество единиц текста, имеющих одно и то же значение вероятности. Высокая точность совпадения статистических оценок вероятностей с их априорными значениями, вычисленными на основании золотой пропорции, подтверждает адекватность разработанной модели реальной структуре текста.
Аналогичные результаты были получены при обработке текста на уровне слов для произведения А.С. Пушкина «Капитанская дочка». Ранее исследование этого текста проводилось многими авторами, но при этом выяснилось, что аппроксимация рангового распределения законом Ципфа дает большую погрешность. Если структуру данного текста описать предлагаемой в настоящей работе моделью и вместо логарифма ранга, как это делалось ранее при
оценке закона распределения Ципфа, отложить по оси абсцисс значения рангов и логарифм вероятности по оси ординат, то фактические данные (отмеченные на рисунке точками) также с высокой точностью приближаются к теоретической прямой, обозначенной на рис. 3 сплошной линией.
Таким образом, предложен метод построения модифицированных ранговых распределений на основе золотой пропорции, позволяющий исследовать и характеризовать системные свойства текста. Разработанная модель структурирования текста опробована на реальных текстах и позволяет использовать ее для различных задач автоматической обработки текстов. Представляется целесообразным дальнейшее изучение описанной модели текста и ее модификаций в зависимости от различных параметров модели, в частности, для других оснований.
Список литературы
1. Кукушкина О.В., Поликарпов А.А., Хмелев Д.В. Определение авторства текста с использованием буквенной и грамматической информации. //Пробле-мы передачи информации. 2001. Т. 37. Вып. 2. С. 96-108.
2. Шевелев О.Г. Методы автоматической классификации текстов на естественном языке. Томск: тМл-Пресс, 2007. 144 с.
3. Ломакина Л.С., Суркова А.С. Идентификация автора и языка текста на основании использования его структурно-вероятностных закономерностей // Системы обработки информации и управления. Тр. НГТУ. Т. 57. Вып. 13. Н.Новгород, 2006. С. 97-101.
4. Шрейдер Ю.А. Ранговые распределения как системное свойство // Математическое описание ценозов и закономерности техники. Философия и становление техники. Ценологические исследования. 1996. Вып. 1-2. С. 33-42.
5. Орлов Ю.К. Обобщенный закон Ципфа-Мандельброта и частотные структуры информационных единиц различных уровней // Вычислительная лингвистика. М.: Наука, 197б. С. 22-26.
6. Стахов А.П. Коды золотой пропорции. М.: Радио и связь, 1984.
THE GOLDEN RATIO AS AN INVARIANT OF TEXT STRUCTURE
D. V. Lomakin, A.Z. Pankratova, A.S. Surkova
A method has been developed to construct a text structure model on the basis of the golden ratio in the modified rank distribution. The results of the statistical analysis of literary texts have coincided with the theoretical conclusions.
Keywords: text, structure, invariants, golden ratio, rank distribution, Zipf distribution.