Научная статья на тему 'Применение спаренных красно-черных деревьев для снижения пространственных характеристик алгоритмов частотного анализа информационных сообщений экспоненциального размера'

Применение спаренных красно-черных деревьев для снижения пространственных характеристик алгоритмов частотного анализа информационных сообщений экспоненциального размера Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
51
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧАСТОТНЫЙ АНАЛИЗ / FREQUENCY ANALYSIS / ЭНТРОПИЯ ИНФОРМАЦИИ / INFORMATION ENTROPY / КРАСНО-ЧЁРНЫЕ ДЕРЕВЬЯ / RED-BLACK TREES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кукарцев А.М.

При решении ряда теоретических и прикладных задач нужно производить расчёт частотных характеристик информационных сообщений. Для сообщений экспоненциального размера такой расчёт является сложнорешаемой инженерной задачей. Предлагается метод спаренных красно-чёрных деревьев для достижения оптимальных пространственно-временных характеристик алгоритма формирования частот. Описываются требования к разрабатываемому инженерно-техническому решению, реализующему предложенную методику.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кукарцев А.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING THE PAIRED RED-BLACK TREES TO REDUCE SPACE COMPLEXITY OF FREQUENCY ANALYSIS ALGORITHMS OF INFORMATIONAL MESSAGES OF EXPONENTIAL SIZE

The calculation of the frequency characteristics of information messages is needed for solving a number of theoretical and applied problems. This calculation is a complex engineering task for messages of exponential size. A description of the subject area and the main task are formulated. A method of paired red-black trees for optimal space and time characteristics of frequency generation algorithm is proposed. It is described how to prepare engineering solution for the frequency analysis of informational messages.

Текст научной работы на тему «Применение спаренных красно-черных деревьев для снижения пространственных характеристик алгоритмов частотного анализа информационных сообщений экспоненциального размера»

Для реализации предлагаемой идеи вводится параметр «Минимальная степень паттерна», позволяющий получать паттерны, степень которых не меньше значения данного параметра, задаваемого исследователем.

Проведем ряд экспериментов на задаче осложнения инфаркта миокарда - фибрилляция желудочков [1]. Для проведения испытаний использовалась выборка данных, состоящая из 70 пациентов с осложнением (положительные объекты) и 70 объектов без осложнения (отрицательные объекты). При проведении исследований 15 % выборки использовалось для проверки решающей модели и не участвовало при ее построении. Для нахождения правил использовалась оптимизационная модель (2)-(3), допускающая, чтобы правила покрывали некоторое ограниченное число объектов другого класса для «смягчения» возможных неточностей и ошибок в данных. Результаты испытаний приведены в таблице.

По результатам, приведенным в таблице, можно отметить, что при увеличении параметра «Минимальная степень паттерна» незначительно уменьшается среднее покрытие паттернов, что означает возможность построения паттернов, которые обладают высоким покрытием при увеличении заданной степени паттерна. Точность классификации изменяется несу-

щественно до определенного значения параметра «Минимальная степень паттерна» (5), а при дальнейшем его увеличении точность классификации снижается. Данное явление объясняется тем, что изначально при увеличении параметра мы не допускаем формирования паттернов с небольшой степенью (1)-(3), которые, как правило, захватывают объекты другого класса, а после определенного значения параметра (5) покрытие формируемых паттернов уменьшается, ослабляя их обобщающие способности, что сказывается на точности классификации.

Библиографическая ссылка

1. Горбань А. Н., Шульман В. А., Россиев Д. А. Осложнения инфаркта миокарда: база данных для апробации систем распознавания и прогноза. Препринт № 6. Красноярск : Вычислительный центр СО РАН, 1997.

Reference

1. Gorban A. N., Shulman V. A., Rossiev D. A. Complications of myocardial infarction: a database for testing systems of recognition and prediction. Krasnojarsk. Computing Center SB RAS: preprint № 6, 1997.

© Кузьмич Р. И., 2014

УДК 519.683.8

ПРИМЕНЕНИЕ СПАРЕННЫХ КРАСНО-ЧЕРНЫХ ДЕРЕВЬЕВ ДЛЯ СНИЖЕНИЯ ПРОСТРАНСТВЕННЫХ ХАРАКТЕРИСТИК АЛГОРИТМОВ ЧАСТОТНОГО АНАЛИЗА ИНФОРМАЦИОННЫХ СООБЩЕНИЙ ЭКСПОНЕНЦИАЛЬНОГО РАЗМЕРА

А. М. Кукарцев

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: amkukarcev@mail.ru

При решении ряда теоретических и прикладных задач нужно производить расчёт частотных характеристик информационных сообщений. Для сообщений экспоненциального размера такой расчёт является сложно-решаемой инженерной задачей. Предлагается метод спаренных красно-чёрных деревьев для достижения оптимальных пространственно-временных характеристик алгоритма формирования частот. Описываются требования к разрабатываемому инженерно-техническому решению, реализующему предложенную методику.

Ключевые слова: частотный анализ, энтропия информации, красно-чёрные деревья.

USING THE PAIRED RED-BLACK TREES TO REDUCE SPACE COMPLEXITY OF FREQUENCY ANALYSIS ALGORITHMS OF INFORMATIONAL MESSAGES OF EXPONENTIAL SIZE

A. M. Kukartsev

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: amkukarcev@mail.ru

The calculation of the frequency characteristics of information messages is needed for solving a number of theoretical and applied problems. This calculation is a complex engineering task for messages of exponential size. A description of the subject area and the main task are formulated. A method of paired red-black trees for optimal space

Математические методы моделирования, управления и анализа данных

and time characteristics of frequency generation algorithm is proposed. It is described how to prepare engineering solution for the frequency analysis of informational messages.

Keywords: frequency analysis, information entropy, red-black trees.

Под информационным сообщением (или сообщением) будем понимать последовательность из нулей и/или единиц некоторой длины. Сами значения ноль и один являются элементами двухсимвольного алфавита. Различные сообщения могут иметь неодинаковый количественный состав символов. Многие алгоритмы обработки и/или анализа информации используют такую статистику [1-3]. Сообщение можно рассматривать не только как комбинацию символов в двух-символьном алфавите. Так, если сообщение состоит из шестнадцати бит, например {0110111011010100},

то можно рассматривать символы как двойки, четвёрки, восьмёрки бит.

Без потери общности можно утверждать, что размер символа в битах есть натуральный делитель длины сообщения в битах. Задача подсчёта количества символов в сообщении сводится к простому обходу сообщения и подсчёту тех или иных символов. Подсчитанные символы нужно где-то хранить, например, в таблице. Тогда записей в такой таблице будет столько же, сколько символов в алфавите (максимум) или сколько символов в сообщении (минимум). Варьируя размер символа и размер сообщения, такие таблицы можно строить, но, начиная с определённой длины сообщения и/или длины символа, тривиальная математическая задача превращается в сложнорешае-мую инженерную задачу.

Покажем это на примере. Пусть сообщение имеет длину 256 Мбайт (231 бит). Такое сообщение сравнительно невелико для современных мультимедийных систем (несколько минут видеоинформации качества High Definition Television). Рассчитаем затраты на подсчёт количества символов размером 8 байт (26 бита). Полная таблица для таких символов должна хранить 264 записей. Даже без учёта размера записи это возможно только для суперкомпьютеров. Неполная таблица (только символы, встречаемые в сообщении) должна хранить 231-6 = 225 записей. Такая запись должна содержать либо символ, либо номер позиции (индекс), где он встречается в сообщении. Это минимум 4 байта, и количество таких символов - тоже 4 байта. Всего размер 225 • 8 байт или 256 Мбайт.

Поиск по такой таблице должен производиться алгоритмом логарифмической временной сложности, например, основанным на бинарных деревьях [4]. Отсюда запись из 8 байт увеличится не менее, чем в три раза. В результате вместе с исходным сообщением получится 1 Гбайт данных. Если речь идёт об аналитической исследовательской системе, то потребуется минимум два объекта (в качестве анализа хотя бы простое сравнение), откуда получим 2 Гбайта данных, или, без потери общности (включая минимальные накладные расходы на саму операционную систему), предел пространственных возможностей процессоров архитектуры IA-32 [5].

Использование процессоров других архитектур лишь косвенно решает проблему. Нужно, во-первых, аппаратное обеспечение (чипы оперативной памяти), во-вторых, накладные ресурсы по обслуживанию структур данных. Как следствие - потери во временных характеристиках описываемой системы, пропорциональные пространственным характеристикам. Сообщения, соответствующие некоторым математических объектам, например булевым функциям [1], имеют размер экспоненциально зависимый от некоторого неотрицательного целого числа n.

Целью работы является: разработать метод формирования частот символов информационных сообщений экспоненциального размера, оценить пространственные и временные характеристики его алгоритмов и разработать реализацию в виде законченного инженерно-технического решения.

В качестве инструмента решения предлагается использовать спаренные красно-чёрные деревья. Их применение позволит существенно снизить пространственные и, как следствие, временные характеристики основных алгоритмов. Используя разработанную методику, нужно спроектировать, разработать и отладить инженерно-техническое решение.

Требования, предъявляемые к такому решению: оно должно быть представлено в виде системы функций и распространяться под лицензией GNU LGPL (GNU Lesser General Public License). Максимальный размер входного сообщения 231 бит. Поддерживаемые индексы алфавитов 0 < i < 31. Внешнее распределение требуемой памяти. Должен быть предоставлен интерфейс доступа к отдельным элементам спектра частот. Библиотека должна быть написана на языке C + + в виде системы функций и макросов для архитектуры процессора IA-32. Должно быть кросс-платформенным и не использовать программный интерфейс Windows или POSIX подобных систем.

Библиографические ссылки

1. Логачёв О. А., Сальников А. А., Ященко В. В. Булевы функции в теории кодирования и криптоло-гии. М. : МЦНМО, 2004. 470 с.

2. Сэломон Д. Сжатие данных, изображений и звука. М. : Техносфера, 2004. 368 с.

3. Мурыгин А. В., Бочаров А. Н. Теория информации и кодирования : лаб. практ. / Сиб. гос. аэрокос-мич. ун-т. Красноярск, 2007. 27 с.

4. Бентли Дж. Жемчужины программирования. 2-е изд. СПб. : Питер, 2002. 272 с.

5. Музыченко Е. FAQ по процессорам семейства x86 [Электронный ресурс]. URL: http://www.ixbt.com/ cpu/faq/cpufaq.shtml (дата обращения: 01.09.2014).

References

1. Logachjov O. A., Sal'nikov A. A., Jashhenko V. V. Bulevy funkcii v teorii kodirovanija i kriptologii [Boolean

functions in coding theory and cryptology]. Moscow, MCNMO, 2004, 470 p. (In Russ.)

2. Salomon D. Szhatie dannyh, izobrazhenij i zvuka [A Guide to data compression methods]. Moscow, Tehnosfera, 2004, 368 p. (In Russ.)

3. Murygin A. V., Bocharov A. N. Teorija informacii i kodirovanija: lab. prakt. [Information and coding theory. Practice] Sib. gos. ajerokosmich. un-t. Krasnojarsk, 2007, 27 p. (In Russ.)

4. Bently J. Zhemchuzhiny programmirovanija. 2-e izd. [Programming pearls. Second edition]. St. Petersburg, Piter, 2002, 272 p. (In Russ.)

5. Muzychenko E. FAQ po processoram semejstva x86 [FAQ of CPU family]. Available at: http://www.ixbt.com/cpu/faq/cpufaq.shtml (accessed: 01.09.2014). (In Russ.)

© Кукарцев А. М., 2014

УДК 159.688

АЛГОРИТМ ГЕНЕТИЧЕСКОГО ПРОГРАММИРОВАНИЯ ДЛЯ АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ ДЕРЕВЬЕВ ПРИНЯТИЯ РЕШЕНИЯ

Т. В. Кушнарева, Л. В. Липинский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: rare-avis@mail.ru, LipinskiyL@mail.ru

Рассматривается применение алгоритма генетического программирования в задачах автоматизированного формирования деревьев принятия решения.

Ключевые слова: деревья принятия решений, генетическое программирование, генетический алгоритм.

ALGORITHM OF GENETIC PROGRAMMING FOR THE AUTOMATED FORMING DECISION TREES

T. V. Kushnareva, L. V. Lipinskiy

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: rare-avis@mail.ru, LipinskiyL@mail.ru

Applying the algorithm of Genetic Programming for the automated forming decision trees is considered.

Keywords: decision trees, Genetic Programming, genetic algorithm.

В настоящее время для решения многих типов задач, например, таких как классификация, оптимизация и прогнозирование, используются деревья принятия решения. Данный метод заключается в построении структуры дерева, узлами которого являются условные операции и результаты задачи, а ветвями - вероятности перехода к узлу или булевы переменные [1].

При формировании дерева принятия решений необходимо решить следующие задачи. Выбрать и сформировать узлы дерева, определить их иерархию и порядок следования. Конечные узлы, как правило, представляют собой альтернативные выводы, которые определяются предметной областью решаемой задачи. Корневой и остальные узлы, не являющиеся конечными, как правило, представляют собой условные операторы. От порядка их следования и выбранных границ зависит само принятие решения. Границы в условных операторах могут настраиваться как экспертами, так и оптимизационными процедурами.

Достоинством деревьев принятия решения является то, что по форме самого принятия решения данная процедура близка к рассуждениям эксперта. Результа-

том работы дерева может служить не только сам вывод, но и его обоснование. Однако при настройке дерева исследователь может столкнуться с проблемой «переобучения». С одной стороны, дерево становится слишком детализированным, так что сложно понять взаимное влияние условных операторов и обосновать принятое решение, с другой стороны, такое дерево может содержать противоречия и пустые узлы (узлы, не использующиеся ни при каких условиях).

Большинство алгоритмов формирования деревьев принятия решения основаны на рекурсивном разбиении объектов обучающей выборки на отдельные однородные классы. Отличаются такие алгоритмы выбором переменной разбиения и критерием останова.

Общую схему настройки дерева принятия решения можно сформулировать так:

Шаг 1. Выбор вершины дерева для декомпозиции.

Шаг 2. Выбор переменной разбиения и условия делящие все объекты, относящиеся к данной вершине, на два (или несколько) классов.

Шаг 3. Выполняется проверка критерия останова. Если значение критерия истинно, то процедура завершается, иначе возврат на шаг 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.