Исследование возможности автоматизации взаимного корреляционно-спектрального анализа
Иващенко А. В. [email protected]) Самарский государственный аэрокосмический университет
Решение задачи статистического анализа случайных процессов, позволяющее сделать вывод о характере исследуемых данных, возможно с применением большого числа алгоритмов с помощью распространенных сегодня автоматизированных систем. Оно сводится к определению некоторого числа различных характеристик, которое варьируется от задачи к задаче и определяется спецификой предметной области.
Функциональные характеристики взаимосвязи занимают особое место в статистическом анализе. Они, как правило, требуют серьезных материальных и вычислительных затрат, однако несут в себе существенную информацию об исследуемых процессах. Методы, используемые при анализе этих характеристик можно условно разделить на две группы: цифровые, связанные с численным получением решения и аналитические, основанные на построении зависимостей, формул или рядов [1]. Аналитические решения обладают рядом преимуществ, включающих возможность исследования влияния физических параметров, начальных и конечных условий на характер решения. Результаты аналитических решений способствуют разработке адекватных математических моделей, они более информативны, устойчивы, обладают возможностью вычисления значения в любой точке с заданной точностью, не прибегая к вычислениям в других точках. Недостатки подобных решений заключаются в том, что на практике обрабатываемые данные принимаются в виде рядов, особенно это касается случайных процессов, поэтому получение аналитических выражений для данных или их характеристик связано с вычислительными и материальными затратами. Численные решения универсальны, применяются тогда, когда аналитическое решение невозможно, а высокая производительность современных вычислительных комплексов нивелирует их низкое быстродействие. Однако появление различных неустойчивостей, сложность использования результатов расчета, накопление ошибок округления существенно снижает ценность численных выражений.
Комбинирование указанных методов является очевидным и результативным шагом при анализе больших информационных массивов, включая случайные процессы. Оно позволяет повысить оперативность и объединить достоинства обоих методов, ликвидировав часть недостатков. Существуют подходы [2], основанные на аналитическом описании цифровых массивов с их последующей обработкой. При этом на подобное решение накладываются следующие требования: обеспечение заданной точности описания более простым аналитическим выражением, адаптивность аналитического описания к особенностям каждого сигнала, унифицированность структуры описания независимо от природы и особенностей сигнала, возможность реализации метода в отсутствие априорной информации о сигнале. Однако более преимущественным представляется подход, основанный на численном анализе информационных массивов, случайных процессов, заключающемся в определении функциональных характеристик, например характеристик взаимосвязи, с их дальнейшей аналитической обработкой [3]. Таким образом, удается избежать существенных ошибок при выборе модели выражения, метода и алгоритма аппроксимации, получить априорную информацию об исследуемых процессах и в конечном итоге снять или уменьшить важность соблюдения указанных выше ограничений.
Итак, задача аппроксимативного анализа функциональных характеристик случайных процессов сводится к их численному определению и получению аналитического выражения характеристики. Отметим, что численное решение задачи важно при отсутствии информации об исследуемых процессах. В случае, когда известны какие-либо характеристики, например
характеристика взаимосвязи двух процессов - взаимная корреляционная функция, и точность аналитического выражения удовлетворяет исследователя, возможно построение других аналитических характеристик на базе имеющейся информации, например, определение спектральной плотности мощности с использованием преобразования Фурье. Подобные алгоритмы могут быть автоматизированы с помощью известных математических систем, или путем реализации собственной автоматизированной системы.
Достаточно большое значение при решении прикладных задач имеет возможность анализа не только равномерно дискретизированных случайных процессов, но и неэквидистантных временных рядов (НВР).
В настоящий момент существует большое число современных математических систем обработки статистической информации [1, 4, 5, 6], в составе которых имеются как стандартные функции численной обработки данных, так и средства получения аналитических выражений для функциональных характеристик. Для сравнения современных математических систем необходимо провести их классификацию и определить критерии выбора. При этом необходимо учитывать, что статистическая обработка данных обычно производится специалистом предметной области, не знакомым с ньюансами анализа случайных процессов, и не должна требовать программирования качественно новых алгоритмов.
Навигация в пространстве современных математических систем достаточно тяжела, если с такими системами, как Mathcad, MATLAB, Mathematica знакомы практически все, то специализированные статистические системы отечественного производства приобрести достаточно тяжело. Однако именно такие системы бывают наиболее удобными для решения узко специализированных задач; кроме этого, они разработаны для решения конкретных проблем, например из области прикладной физики, с учетом апробированных методик проведения всего цикла исследований, поэтому с потерей универсальности происходит улучшение качества обработки, в том числе и повышение ее быстродействия.
Статистические пакеты общего назначения отличаются отсутствием прямой ориентации на специфическую предметную область, широким диапазоном статистических методов, дружелюбным интерфейсом пользователей. Специализированные пакеты обычно реализуют методы, используемые в конкретной предметной области. Для анализа временных рядов используются Эвриста, МЕЗОЗАВР, ОЛИМП:СтатЭксперт, ForecastExpert. Такие пакеты содержат достаточно полный набор традиционных методов, а также оригинальные методы и алгоритмы, созданные разработчиками пакета. Их использование целесообразно, когда требуется систематическое решение задач узкой предметной области [1].
Наилучший выбор статистического пакета зависит от характера решаемых задач, объема и специфики обрабатываемых данных, квалификации пользователей и т.д. Пакет SAS (Superior software and services) обладает наилучшими возможностями для работы с большими объемами данных, SPSS (Statistical Package for the Social Sciences) удобен для работы с данными сложной структуры, собственную систему обработки данных можно построить с помощью библиотеки подпрограмм IMSL, содержащую программы на Фортране и Си, которые можно вставить в свою разработку. С помощью стандартных пакетов можно обработать данные небольших объемов стандартными статистическими методами. Ряд пакетов (STATISTICA, SPSS) обладают возможностью настройки на узкоспециализированную задачу, которая решается регулярно по мере обновления данных. Существуют пакеты, специализированные именно на обработке временных рядов. В некоторых из них производится автоматический подбор модели временного ряда из заданного класса моделей, однако может привести к излишне усложненным моделям или к ошибкам. Другие пакеты содержат алгоритмы подбора оптимальных моделей, причем имеется широкий набор инструментов предварительного и окончательного анализа данных и возможность их пошагового применения. При этом пользователь сам задает стратегию ряда. Пакет ЭВРИСТА является одним из лучших специализированных пакетов для анализа
временных рядов. Его функциональные возможности значительно шире стандартных процедур анализа временных рядов универсальных статистических пакетов.
Итак, наиболее распространенные (www.amazon.com) математические системы могут быть разделены на следующие группы:
• универсальные математические системы (Mathcad, MatLab, Mathematica);
• системы символьной математики (Derive, Mathematica, Maple, MuPAD);
• статистические системы (Statistica, SPSS, NC S S (Number Cruncher Statistical System) and PASS, Statgraphics, SYSTAT, SAS);
• специализированные инструментальные средства (Stadia, Эвриста).
Предлагаемый метод взаимного корреляционно-спектрального анализа случайных
процессов включает в себя следующие этапы [3]:
1. Определение вероятностных характеристик случайных процессов: моментных характеристик, коэффициентов асимметрии и эксцесса, автокорреляционной функции).
2. Определение взаимной корреляционной функции исследуемых процессов.
3. Определение взаимной спектральной плотности мощности.
4. Аппроксимация взаимной корреляционной функции и спектральной плотности мощности (параметрическими моделями - функциями заданного вида или ортогональными функциями Лагерра).
Необходимо выяснить, возможно ли выполнение этих операций с помощью распространенных математических автоматизированных систем. Результаты приведены в таблице 1. Знаком "+" отмечена операция, реализованная в системе, "+/-" операция, реализация которой возможно с помощью несложных операций, "-" операция, для реализации которой потребуются значительные усилия, или дополнительное программирование.
Таблица 1 - Взаимный корреляционно-спектральный анализ.
Математическая система
Этапы анализа случайных процессов Mathcad 2001 Maple 8.0 Mathematica 4.2 Derive MuPAD MatLab 6.5 Statistica 6.0 SPSS 11 NCSS and PASS 2000 STADIA ЭВРИСТА
Взаимно-корреляционный анализ + - - - - + - + + + +
Взаимный спектральный анализ + - + + + + - + + + +
Аппроксимация взаимных корреляционных функций и + + + + + + - + - - -
спектров
Ортогональные функции + - + + - + - - - - -
Алгоритмы аппроксимации ортогональными функциями
Моделирование процессов с
заданными +
корреляционными
характеристиками
Взаимно-корреляционный анализ НВР
Моделирование НВР - - - - - +/- - - - - -
Задача определения взаимной корреляционной функции и спектральной плотности мощности входит во все статистические системы. Практически во всех системах в том или ином виде поддерживается дискретное преобразование Фурье, причем в таких системах как Мя1ЬяЬ имеется достаточно мощный инструмент выполнения быстрого преобразования Фурье. Однако задача определения спектральной плотности мощности в общем случае решается в численном виде и, в связи с этим, вопрос быстродействия при обработке больших массивов данных остается актуальным.
Рисунок 1 - Взаимные корреляционные функции и спектры в системе MATLAB
гш
ит—
Cross iuncl .
■ А г. VI т, I
-.■w:-.' —-altX
CraSs correlator! TunCt r^^i-1
:
5
a
u.
В
t
£1 1* P.* m.J 1 Ц -U if -■ 0 1 14 21 3[
L .4 hlu ■■Lk
■4 -3D -L E 4.-4 dl 7 3-2
41 1 31 1 4 2 3 A3
l з j tamMi
Рисунок 2 - ВКФ и ее аппроксимация рядами Лежандра в системе SPSS
Все рассмотренные системы являются в разной степени мощными средствами статистического анализа, позволяют представлять результаты в численной форме и имеют эффективные средства аппроксимации функциональных характеристик. Однако все
рассмотренные системы могут рассматриваться лишь как инструмент для реализации дополнительных алгоритмов и методов, необходимость которых определяется новыми подходами аппроксимативного анализа вероятностных характеристик случайных процессов. В частности, во многих математических системах существуют библиотеки специальных функций, в том числе ортогональных. Однако следует отметить отсутствие разработанных алгоритмов аппроксимации функциональных характеристик ортогональными функциями.
Хп
I ^г .
\ V
\
р1чШиеЧ|.¥
Рисунок 3 - Спектральные плотности мощности для разных параметров окон и полученные в автоматизированной системе
Таким образом, различные подзадачи взаимного корреляционно-спектрального анализа случайных процессов могут быть решены с помощью универсальных и специализированных систем, однако в полном объеме подобную задачу решить нельзя. Необходимо либо дописывать подпрограммы для известной математической системы (такие пакеты, как Matlab или SPSS это позволяют), либо реализовать свою автоматизированную систему с помощью любого языка высокого уровня.
Исходя из этих соображений на кафедре автоматизированных систем и технологий СГАУ для разработки автоматизированной системы аппроксимативного корреляционного спектрального анализа выбран язык JAVA, позволяющий как реализовать собственный пользовательский интерфейс, так и обеспечить интеграцию с Matlab или Web-приложениями на уровне библиотек функций. В этой системе реализовано выполнение всех этапов, приведенных в таблице 1: реализовано определение взаимной корреляционной функции пары процессов, в том числе неэквидистантных временных рядов, аппроксимация ее ортогональными функциями Лагерра и параметрическими моделями - функциями заданного вида, определение взаимной спектральной плотности мощности по параметрам аппроксимирующих выражений. Аналогично, в случае, когда взаимная спектральная плотность мощности известна, возможна аппроксимация ее ортогональными функциями Лагерра и определение по полученным параметрам взаимной корреляционной функции. В систему включена подсистема моделирования, в которой посредством включения различных фильтров возможно генерирование пар процессов с различными взаимными корреляционными функциями.
В качестве примера приведены результаты определения взаимных корреляционной функции и спектра в пакетах MatLab (рис. 1) и SPSS (рис. 2, 3). На рис.2 также приведены результаты аппроксимации взаимной корреляционной функции полиномом Лежандра с помощью системы SPSS. Для сравнения приведены результаты полученные в системе автоматизированного корреляционно-спектрального анализа [3].
Литература
1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере / Под ред. В.Э. Фигурнова. - 3-е изд., перераб. и доп. - М.: ИНФРА-М, 2003. - 544 с., ил.
2. Обобщенный спектрально - аналитический метод обработки информационных массивов: Задачи анализа изобр. и распознавания образов / Ф. Ф. Дедус, С. А. Махортых, М. Н. Устинин, А. Ф. Дедус; Под общ. ред. Ф. Ф. Дедуса. - М.: Машиностроение, 1999 - 356с.: ил.
3. Прохоров С.А., Иващенко А.В., Графкин А.В.; Под ред. Прохорова С.А. Автоматизированная система корреляционно-спектрального анализа случайных процессов. - СНЦ РАН, 2003. - 286 с., ил.
4. Дьяконов В.П. Компьютерная математика. Теория и практика. М.: Нолидж. 1999 г.: «Нолидж», 2001. - 1296 с., ил.
5. Дьяконов В. MATLAB. Обработка сигналов и изображений. Специальный справочник. - СПб.: Питер, 2002. - 608 с.: ил.
6. Кулаичев А. П. Полное собрание сочинений в трех томах. Том 1. Методы и средства анализа данных в среде Windows. STADIA. Изд. 3-е, перераб и доп. - М.: Информатика и компьютеры, 1999. - 341 с., ил.