Научная статья на тему 'Нестандартный анализ данных с использованием самоорганизующихся технологий'

Нестандартный анализ данных с использованием самоорганизующихся технологий Текст научной статьи по специальности «Математика»

CC BY
87
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научное приборостроение
ВАК
RSCI
Область наук

Аннотация научной статьи по математике, автор научной работы — Нестеров М. М., Трифанов В. Н., Данилов В. Н.

Излагаются основы и общие принципы нестандартного анализа данных с использованием самоорганизующихся технологий анализа и проявления скрытой организованности и периодичности данных в иерархическом (ультраметрическом) режиме. Частично затронуты технологии лексикографического анализа данных, их конструктивного анализа и статистической фильтрации с целью применения в современном приборостроении.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Unconventional data analyses using self-organizing technologies

The paper outlines the basic concepts and general principles of unconventional data analysis using self-organizing analysis technologies and manifestations of hidden organization and periodicity in the hierarhical (ultrametric) mode. Lexographic and constructive data analysis technologies and statistical data filtration as applied to modern instrument engineering are also partially considered.

Текст научной работы на тему «Нестандартный анализ данных с использованием самоорганизующихся технологий»

ISSN G868-5886

НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2GGG, том 1G, № 1, с. 35-43

ОРИГИНАЛЬНЫЕ СТАТЬИ = =

УДК 621.391.14

© М. М. Нестеров, В. Н. Трифанов, В. Н. Данилов

НЕСТАНДАРТНЫЙ АНАЛИЗ ДАННЫХ С ИСПОЛЬЗОВАНИЕМ САМООРГАНИЗУЮЩИХСЯ ТЕХНОЛОГИЙ

Излагаются основы и общие принципы нестандартного анализа данных с использованием самоорганизующихся технологий анализа и проявления скрытой организованности и периодичности данных в иерархическом (ультраметрическом) режиме. Частично затронуты технологии лексикографического анализа данных, их конструктивного анализа и статистической фильтрации с целью применения в современном приборостроении.

ВВЕДЕНИЕ Два характеристических условия конструктив-

В период развития компьютерных технологий анализа данных в режиме реального времени актуальным становится не только качественный рост быстродействия и памяти компьютеров, но и быстрые, устойчивые и эффективные процедуры обработки, анализа и интерпретации данных. Традиционные стандартные технологии статического, динамического и статистического анализов данных в большинстве своем являются ресурсоемкими. Как правило, они эффективно работают на массивах малой мощности, описывающих сравнительно гладкие предсказуемые процессы с низким уровнем шума. Однако на практике требуется обрабатывать большие и сверхбольшие массивы данных со слабой предсказуемостью и высоким уровнем шума.

Для решения этих запросов практики в режиме реального времени в последнее время разрабатываются эффективные технологии анализа данных на базе нестандартных конструктивных, лексикографических и статистических процедур обработки, фильтрации, анализа и интерпретации данных. Достигается это за счет рекурсивных процедур самоорганизации и ультраметрической организации данных.

КРАТКИЕ ОСНОВЫ И ОБЩИЕ ПРИНЦИПЫ НЕСТАНДАРТНОГО АНАЛИЗА ДАННЫХ

Выбор конкретной технологии конструктивного анализа реальных сигналов определяется конкретным классом измеряемых процессов, способом их измерения, степенью разработки и реализуемости технологий обработки, отображения и интерпретации сигналов в соответствии с поставленными целями и требованиями к разрешающей способности обнаружения, идентификации и распознавания выделяемых информационных объектов, а также ко времени решения поставленных задач.

ного анализа: хорошая физическая интерпретируемость технологических анализа и эффективность их выполнения определяют открытый класс технологических решений, который постоянно пополняется новыми исследованиями.

Традиционные методы спектрального, дисперсионного и корреляционного анализов сигналов дают удовлетворительные результаты при обработке стационарных сигналов в условиях малого шума. Однако при обработке нестационарных сигналов с высоким уровнем шума они практически перестают работать [1]. Различные технологии время-частотной и динамической фильтраций часто наводят ложные сигналы (фантомы) и тем самым затрудняют обработку реального сигнала. Но главный недостаток всех этих методов — их большая трудоемкость.

Некоторые преимущества в эффективности обработки сигналов исследователи получили, перейдя от спектральных методов к локально связным методам типа методов конечных и ограниченных элементов и опытов [2, 3]. Однако и здесь в задачах большой размерности возникают проблемы трудоемкости и устойчивости, которые до сих пор не преодолены.

Хорошие результаты по повышению устойчивости решений дают методы интегральных соотношений, разрабатываемые школой Дородницина и Белоцерковского, однако и здесь проблема трудоемкости обработки остается неразрешимой [4].

Интуитивно становится ясным, что быстрые процедуры обработки сигналов могут быть реализованы только на выборках, если эти выборки не очень большие и информативно представительны. В этом смысле выборки, построенные на множестве экстремальных точек сигнала, являются практически минимальными, так как множество экстремумов является множеством меры нуль в полном множестве точек сигнала.

Технология нестандартного анализа, предлагаемая в данной работе, основана на выборках та-

кого рода. Эти технологии имеют примерно линейный рост трудоемкости от объема сигнала, тогда как традиционные методы, основанные на анализе разных квадратичных форм и парных сравнениях, имеют кубический и более высокий рост трудоемкости от размерности решаемой задачи.

Однако в условиях шума когерентная совокупность экстремальных точек становится неустойчивой. В этом случае требуется разработка дополнительных технологий фильтрации сигнала. Простейшие способы фильтрации — это анализ частичных сумм [5]. Технологии организации частичных сумм разнообразны. Они могут быть локально связны и несвязны, статистические, скользящие и динамические, взвешенные и невзвешенные, декларативные по протекции, самоорганизующиеся и смешанные, робастные и локусные и т.д. Этот классификационный перечень открыт, и он будет пополняться новыми и новыми технологиями.

В некотором смысле они являются прототипами метода интегральных соотношений Дородни-цина—Белоцерковского [4]. Этот метод обладает хорошей физической интерпретируемостью и эффективностью анализа [6]. В данной работе этот метод является одним из основных.

Главным для всех этих технологий является инвариантность представления сигнала в исходном пространстве и пространстве замещающих точек. Известно, что со всякой совокупностью инвариантов связаны симметрии и законы сохранения. Таким образом, метод замещающих точек связан с анализом проблемы симметрии—асимметрии и ее проявления в исследуемом сигнале.

Так как в методе замещающих точек исходный процесс представлен в компактифицированной форме с точностью до инвариантов, то здесь вскрываются большие резервы по компрессии и декомпрессии исследуемого сигнала. Как правило, трудоемкость обработки компактифицированного сигнала растет примерно линейно с ростом его объема.

В условиях зашумленного сигнала возникает проблема разделения его детерминированной и индетерминированной составляющих. Это одна из центральных проблем в технологиях фильтрации сигнала. Граница между этими составляющими неопределенна и проблематична. Здесь требуется некоторый прагматичный подход. Один из таких подходов разрабатывается нами в технологиях статистической фильтрации. Это одна из разновидностей технологий метода замещающих точек, в котором инвариантами выступают статистические моменты [5]. Реализуемые в режиме самоорганизации, они удовлетворяют критериям полноты, эффективности и устойчивости описания сигнала в пространстве замещающих точек. При этом технология описания такова, что детерминированная и индетерминированная составляющие сигна-

ла ортогональны. Следовательно, статистический фильтр, построенный таким образом, является помехоустойчивым [5, 7, 8].

Следующей отличительной особенностью совокупности выборочных точек является возможность их иерархической организации. В этой технологии множества, построенные по инвариантам первичного замещения, вновь замещаются по инвариантам вторичного, третичного и так далее замещения. Такую организацию физики называют ультраметрической. Именно она, эта технология, позволяет практически реализовать условия Колмогорова линейного роста трудоемкости обработки сложного сигнала с ростом его размерности.

Основное внимание в следующих разделах будет уделено высокоэффективным методам когерентного анализа данных. Когерентное суммирование обладает рядом уникальных свойств. Во-первых, при когерентном суммировании отношение сигнал/шум растет пропорционально числу когерентно суммируемых пакетов (кластеров). Из этого следует, что даже при слабом сигнале, когда отношение сигнал/шум для одного пакета очень мало и ниже порога разрешающей способности обнаружения сигнала имеющимися измерительными средствами, то при соответствующем числе суммируемых пакетов этот порог будет преодолен, сигнал обнаружен. Во-вторых, когерентное суммирование в связи с этим свойством является помехоустойчивым и селективным с точки зрения различения обнаруженных сигналов. В-третьих, сложность когерентного суммирования растет линейно, пропорционально числу суммируемых пакетов. Именно этим свойством достигается линейная простота алгоритма селекции в соответствии с теоремой Колмогорова.

КОНСТРУКТИВНЫЙ АНАЛИЗ ПЕРИОДИЧЕСКИХ ПРОЦЕССОВ

Конструктивный анализ, по определению, предполагает выполнение двух основных требований [9]:

1. Нестандартное построение фрагментов, элементов и процедур анализа, основанное на их физической интерпретируемости, инструментальной измеримости и технологической локализуемо-сти.

2. Разработка нестандартных процедур эффективного обнаружения, проявления, распознавания и классификации и анализа как проявленных, так и непроявленных объектов анализа, описываемых выборочными кластерами данных с измеримыми признаками их локализации.

Конструктивный анализ данных базируется на самих данных, организованных в последовательность или процесс по характерному для них параметру порядка. При этом даже не требуется вво-

дить базисные функции описания процесса, так как эти функции конструируются самими данными.

В технологиях нестандартного анализа данных и его разновидностях, в том числе и конструктивного анализа, на первый план выдвигаются проблемы объективной группировки данных в организованные локальные кластеры, их повторяемость и периодичность с выделением измеряемых признаков их обнаружения, локализации, организации и распознавания [10, 11]. Рассмотрим некоторые особенности конструктивного анализа случайных процессов при обнаружении их скрытых периодичностей и их взаимной организованности.

Пусть данные упорядочены параметром порядка / в некоторый статистический процесс x(t). В общем виде случайный процесс при наличии в нем скрытой периодичности можно представить выражением

хДО = хЛ0Аи + п^ДО), п = [1,N1] с2, (1)

где х(?), Т(0 — случайные величины, зависящие от параметра t, / — аппроксимирующая функция.

Под скрытой периодичностью понимается функция

х^) = Хх/^ + пхТ), (2)

где Х1 = М (х1 ()), т1 = М (т (t)), М — операция математического ожидания по параметру t.

В общем виде исходный процесс первого порядка х1 ^) и его аппроксимирующий процесс скрытой периодичности первого порядка х1 (^ отличаются друг от друга. Невязку такой аппроксимации можно рассматривать как случайный процесс второго порядка

Х2 () = Х1 (t) - Х1 (t) = Х2 ^)/2 (t + П2Т2 ^)), (3)

п2 = [1,N2] с 2 .

Этот процесс содержит в себе процесс скрытой периодичности второго порядка

Х2^) =Х2 /2 ( + П2Т2), (4)

где Х2 = М (Х2 (t)), Т2 = М (т2 (t)) .

Такую процедуру выявления скрытых периодичностей можно продолжить до требуемой разрешающей способности описания исходного процесса как по точности, так и по прогностической устойчивости описания. На шаге к такого описания имеем процесс порядка к

хк ^) = хк -1(0 - хк (5)

хк ^) = Хк ^)/к ^ + пктк(t)),

хк ^) = Хк/к ^ + пктк X (6)

где Хк = М(Хк ()), тк = М(тк ()).

Такой способ описания является спектральным, так как он аппроксимирует на всем множестве параметры порядка t е Jt. Спектральный способ описания изначально присущ стандартному классическому анализу, который ограничивается описанием первого порядка одной аппроксимирующей функцией или разложением в аппроксимирующие ряды базисных функций.

В конструктивном анализе скрытых периодичностей наблюдается иерархическая (ультраметри-ческая) рекурсия. Это одна из принципиальных особенностей нестандартного спектрального анализа. Качество конструктивного описания процесса на каждом шаге ультраметрической рекурсии зависит от выбора амплитуд Хк () и весовых периодических функций /к (/ + пкТк ()), а также от способа определения (хк, Тк) на множестве параметра порядка Jt.

В классическом анализе выбираются, как правило, базисные функции либо аппроксимирующие функции типа полиномов Лагранжа. В конструктивном анализе эти функции вообще могут быть не обозначены. Они могут быть «выращены» в процессе самоорганизующего обучения либо частично, либо полностью.

Полное описание возникает тогда, когда реальный процесс является чисто однопериодическим на каждом рекурсивном шаге. Это чрезвычайно редкое событие. Поэтому, как правило, в конструктивном анализе встречается частичное описание этих функций по некоторой выборке на периоде Т, по которой строятся (конструируются) распознающие признаки каждого периода пТ. Именно по сходству (повторяемости) этих признаков все множество параметра порядка Jt разбивается на совокупность периодов пТ, п е [1, N с 2. Характер представительных частичных выборок и конкретный вид отличительных признаков не предопределен и является эвристическим. Их множество определяет конкретную технологию конструктивного анализа.

В другом локальном способе конструктивного анализа все множество параметра порядка Jt разбивается на последовательную совокупность не-пересекающихся множеств Jnt, причем

J1 + J2 + ... + <1N = Jt , (7)

где Jn = [^, ^+1], Уп е 1, N. В пределах каждого локального интервала амплитуда и период сигнала считаются постоянными. При этих условиях полное описание процесса имеет вид:

IX

х(() = ^Хп/п +тп),

(8)

где tn — начало интервала Зп, тп = t — tn, t е Зп , t — внутренний параметр порядка интервала Зп ,

tn+1 - tn = Тп — период интервала З„.

Такое описание является локальным. Оно интенсивно разрабатывается в методах конечных элементов. Обычно в методах конечных элементов множество параметра порядка З{ равномерно разбивается на непересекающиеся множества Зп,

п = 1, N, за редким исключением. Это вызвано тем, что в ставших уже классическими методах конечных элементов до сих пор нет конструктивных методов их дифференциации.

В конструктивном анализе эта проблема решается естественным образом путем конструирования измеримых признаков, выборочных точек каждого периода. Тогда интервалы повторяемости этих признаков разбивают естественным образом все множество Зг на его подмножества Зп со своими амплитудами хп, периодами Тп и функциями

ф°рмы/п (^ + Тп).

Выше уже отмечалось, что отличительные признаки скрытых периодов в конструктивном анализе носят эвристический характер. Основное требование к ним сводится к их физической интерпретируемости и измеряемости. Наиболее естественная и простая технология конструктивного анализа сводится к обнаружению границ локальных интервалов Зп по некоторым признакам [12]

[х(^) —х^п+1)=o, 1х'(^) -x'(tn+l) =0;

[х(^) -X(tn+l) = ^х, U'(tn) -х'(tn+l) = 0; \х^п ) -X(tn+1) = ^ lх'(tn ) -Х'(tn+1) = '

[х(^) -Х(tn+l) = ^х, lх'(tn) =ю.

(9)

(10)

(11)

следующие интервалы tn

N Эта техно-

Признаки в этих условиях могут совпадать только с некоторой погрешностью с1' , с1'}, размер которой задается из прагматических целей, балансирующих точность и устойчивость их измерения. Технологии такого типа характеризуются признаками (10-11).

Скрытая периодичность на каждом шаге конструктивного анализа проявляется в результате осреднения амплитуд хп и периодов Тп по всему

множеству интервалов Зп е Зt или по его частичной выборке.

Первый случай пригоден при анализе сингулярных сигналов с постоянным периодом (Тп = Т) и с малым уровнем шума. В этом случае сигнал и форма скрытой периодичности будет иметь вид

Х^) = '(К + Тп ^

Тп = t - tn , t е Зп ,

Х=м (х), Т = М (Тп),

/ = М(/п), п = 1, N.

(12)

При наличии регулярного шума достаточно высокого уровня периоды Тп интервалов Зп могут отличаться значительно друг от друга. Тогда при наложении сигналов этих периодов друг на друга при совмещении их начал концы этих периодов не будут совпадать. Возникнет неопределенность осреднения по параметру порядка t.

Среди множества технологий разрешения этой неопределенности выделим две простейшие. В одной из них предлагается перейти от абсолютного интервального времени тп = t — ^ к относительному

----- t — tn

tn+1 — tn

— tn Тп

t е Зп.

(13)

Условие (9) строго фиксирует уровень и производную уровня в начале каждого интервала tn е Зп , а по их повторяемости определяются по-

логия конструктивного анализа пригодна для поиска скрытых периодичностей в сингулярных сигналах со слабым регулярным шумом.

При наличии регулярного шума достаточно высокого уровня ожидать точного сходства признаков начала интервалов разбиения множества Зг на его подмножества Зп, п = 1, N, не приходится.

В этом случае все локальные относительные интервалы времени принимают значение на отрезке

Т е [0,1].

Их начала и концы совпадают. Поэтому становится возможным осреднение по всему множеству интервалов Зп е З.

Во втором случае весь диапазон изменения интервалов

Тп е [тП Тп = Тт ,тахТп = Т ] Тп е [Тт ,Т5 ] ,

разбивается на ограниченное число классов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тп е 1к , если

Тп е

Тт +

т

Т — Т

к

• к, Тт +

(к + 1) 1. (14)

Тп =

Считается, что все периоды Тп е 1к, принадлежат одному классу 1к и характеризуются одной скрытой периодичностью. Осреднение для ее проявления производится по всему множеству периодов этого класса в относительном времени

(і) = !Хп/п (і)•

(20)

(15)

Начала и концы периодов осреднения в относительном времени совпадают. Поэтому осреднение будет выполнено корректно. Однако, вместо одного среднего периода возникает целый спектр периодов 1к, которым соответствует спектр скрытых периодичностей.

В стандартном регрессионном анализе для поиска скрытых периодичностей строят регрессионные суммы второго порядка

Аппроксимация выполняется либо в спектральном, либо в локальном исполнении. Одна аппроксимирующая функция является огибающей максимумов первого порядка, а другая — огибающей минимумов первого порядка. Такие огибающие, с одной стороны, выделяют интервалы периодичности (максимумов или минимумов), которые анализируются по вышеизложенным технологиям, а, с другой стороны, сами становятся предметами анализа на следующем рекурсивном шаге .

Таким образом строится вложенная иерархическая (ультраметрическая) совокупность огибающих, каждая из которых является разбиением на скрытые периодичности, технология обработки которых изложена выше.

Я(ґ„) = ^ х(ґ)у(і — і п), і є , п = 1, N. (16) ЛЕКСИКОГРАФИЧЕСКИЙ АНАЛИЗ Д АННЫХ

В этих суммах исходный сигнал умножается на себя со сдвигом на tn.

В рассмотренных выше технологиях конструктивного анализа составляются суммы первого порядка. Преимущества такого подхода очевидны.

Рассмотрим еще одну технологию нестандартного конструктивного анализа скрытых периодичностей, в котором признаками сходства интервалов разбиения являются признаки экстремумов, то есть признаки максимумов и минимумов. В каждой точке разбиения множества . возьмем еще два соседних отсчета сигнала слева и справа. В результате получим тройку:

Лексикографический анализ также относится к нестандартным процедурам обработки данных и является, в некотором смысле, дальнейшим развитием конструктивного анализа.

Впервые систематическую разработку этой технологии на примере анализа кардиограммы сердца выполнил Ю.И. Сенкевич в своей диссертации («Разработка математической модели и алгоритмов определения функционального состояния биологических объектов», 1998 г.). Особенность такой технологии была продиктована специфической структурой кардиоцикла [13, 14].

і . < і < і 2 •

1 2

В точке максимума соблюдаются признаки

В точке минимума имеем другие признаки

і < і ,; і < і 2

п п1 ’ п п2

(17)

(18)

(19)

Р, Є, Я, 5, Т, Р ;

іп , і п+1, і п+2 , іп+3 , і п+4 , і п+5 ;

ГТ1 ГТ1 ГТ1 ГТ1 ГТ1

Т п 1 , Т п2 ,Т п3 ,Т п4 ,Т п5 ,

(21)

Разбиение по максимумам дает одно разбиение множества .Л, а по минимумам другое. В первом случае период Т расположен между максимумами tn, tn+1, во втором случае — между минимумами tn, tn+1. Считается, что такие разбиения весьма эффективны, так как множество точек экстремума есть множество меры нуль по сравнению со всем множеством . то есть это достаточно крупные разбиения и в то же время весьма информативные.

В этих технологиях исходный процесс 1

*1 (0 = *1 ()/1 ^ + п 1Т ^)), п 1 е [1, N] с 2

аппроксимируется некоторой функцией, например функцией Лагранжа, проходящей через экстремальные точки (максимумов или минимумов)

где Р — максимум, Q — минимум, Я — второй максимум, S — второй минимум, Т — третий максимум. Обычно Я-максимум наиболее ярко выражен, поэтому в медицинской практике кардиоцикл измеряют Я-Я ритмами. В этой структуре периодический сигнал имеет сложную конструкцию с амплитудами в экстремальных точках

Даже в простейшем случае выделения синусоиды из шума, трудоемкость стандартного спектрального анализа растет быстрее, чем в кубической степени, поскольку и в этом случае требуется проводить Фурье-анализ всех спектральных компонент исследуемых сигналов для того, чтобы выделить искомую компоненту. В то же время трудоемкость построения огибающей (соответствующей искомой синусоиде) по экстремальным точкам, например методом триад, который изложен в конце следующего раздела, растет линейным образом, поскольку экстремальные точки составляют множество меры нуль во множестве точек исследуемого сигнала.

Тп =

т

п

х(ґ„), х(ґ„+1), х(ї

п+2 )’

х(ґп+3), х(ї

п+4 )

и с интервалами между ними

Т = ї — ї Т = ї — ї Т = ї — ї

1 п1 1п+1 1п ? 1 п2 1п+2 1 п+1 1 п3 1п+3 1 п+2 ?

Т = ї — ї Т = ї — ї

п4 п+4 п+3 з п5 п+5 п+4'

Эти десять характеристик (пять амплитуд и пять интервалов) являются признаковыми. В лексикографическом анализе кардиоциклов эти десять характеристик являются знаком (буквой), а вся кардиограмма — последовательностью букв.

Более содержательно: знак (букву) на цикле Тп = їп+5 — їп можно представить матрицей

А(їп) =

Х11 Т12 Т13 Т14 Т15

21 2 2 Т23 Т24 Т25

Х31 1 Х32 Х33 4 Т3 5 Т3

41 і Х42 3 4 4 4 5 Т4

Х51 2 5 3 5 4 5 5 5

(22)

где

Хц Р, Х22 0,? хзз Х44 ^5 Х55 Т ,

х = х — х Т = Т — Т

кт кк тт ’ кт т к '

В аналоговом представлении таких букв несчетное множество, но их можно сократить, если вместо сигнала ставить знак сигнала

кт

= ЭЩп(Хкт ); Ткт = ^п(Ткт ) •

(23)

Количество букв такого алфавита значительно меньше. Их количество зависит от типа процесса. Для неорганизованных хаотических процессов алфавит букв бесконечен. По мере роста организованности алфавит уменьшается до некоторого уровня насыщения, характеризуемого соответствующим уровнем организованности процесса, определяемого пропорциями между его сингулярной (детерминированной, предсказуемой) и регулярной (хаотической, шумовой, непредсказуемой) составляющими [15, 16].

Таким образом, полностью или частично организованные процессы имеют конечные алфавиты [17]. Каждая буква алфавита удовлетворяет двум требованиям: 1) она отличается от других букв (признак разнообразия); 2) она повторяется в языке данного процесса (признак стабильности).

Последовательности букв Ль Л2, ... , Ак составляют слова языка. Слова языка, так же как и буквы, удовлетворяют требованиям разнообразия и стабильности. Количество слов языка также зависит от организованности процесса. Для хаотического процесса их бесконечное множество. Для организованного процесса множество слов ограничено. Чем более стабилен процесс, тем меньше и слов, и букв.

Возможны вообще крайние ситуации: для предельно стабильного процесса (абсолютно ритмичного самоподобного) существует только одна буква и только одно слово. Коль скоро реальные процессы полистабильны, то количество букв и слов таких процессов более разнообразно. Хаос нарушает стабильность и увеличивает разнообразие букв и слов. Полистабильность увеличивает разнообразие букв и слов при сохранении уровня организованности процесса. Эти две, казалось бы, похожие по форме тенденции, но полярные по содержанию отличаются друг от друга характером последовательности слов, которые составляют фразы языка.

Для хаотических неорганизованных процессов количество фраз неограничено. Организованные процессы имеют ограниченный стабильный набор фраз. Каждая фраза характеризует режим процесса, соответствующий определенному стабильному состоянию. Переход от одной фразы к другой связан с переходом процесса из одного стабильного состояния в другое, от одного режима функционирования к другому [5, 15, 16]. По набору букв, слов и фраз, а также по их последовательности можно судить о микро-, макросостояниях процесса и его режимах. Все это используется для диагностики состояния и режима процесса в его статике, динамике и для статистики. Медленные, эволюционные изменения алфавита, словаря и фраз дают представление о возрастном изменении в состояниях и режимах процесса в его эволюционном развитии.

Теперь рассмотрим технологию сравнений букв на предмет выявления их различия и схожести. Изначально каждая буква характеризуется вектором амплитуд х = (Х1, Х2, Хз, Х4, Х5) и вектором интервалов между экстремальными амплитудами Т = (Т1, Т2, Т3, Т 4, Т5). Рассмотрим два слова с амплитудами х, у и с интервалами Тх и Ту и из их компонент составим матрицу

где Хкк =Хк,

А =

Ткк = ТХ,

Хтк 0

0 Т тк

Хтк = Х — Хк ,

Ттк = ТШ — Тк , Ш > к , Хтк = ук — ут ,

Ттк = ТУ — ТтУ, к > т , а А — матрица 10x10.

Если буквы х, у одинаковы, то, по построению, матрица А должна быть симметричной, а это значит, что исходная и транспонированная матрицы должны быть равны. Для полной корректности этого утверждения поставим в транспонированной матрице на диагональные элементы вместо компонент буквы (х, Тх) компоненты буквы (у, Ту). Тогда условие строгого равенства букв выражается тождеством

А = А',

где А' — транспонированная матрица А с заменой диагональных элементов буквы (х, Тх) на диагональные элементы буквы (у, Ту).

Степень сходства букв определяется разностью матриц (А, А'). Если буквы одинаковы, то эта разность равна нулевой матрице. Если буквы разные, то эта разница существенно отличается от нуля.

Ясно, что недиагональные элементы разности матриц при их знаковом представлении должны быть строго нулевыми, тогда как диагональные элементы разности матриц могут отличаться друг от друга в пределах установленного порога чувствительности ёЛкк для каждой компоненты. Только в этом случае можно считать буквы одинаковыми. В противном случае буквы считаются различными.

Таким образом, степень сходства и различия букв определяется условиями симметрии и асимметрии матриц и их представляющих. Любопытно также отметить аналогию между матричным представлением букв и матричным представлением операторов. Эта аналогия является конструктивной, так как позволяет формировать матрицы (операторы) слов. Для этого последовательность букв можно рассматривать как последовательное действие операторов, и результат этого действия равен некоторому произведению операторов, которые представляются соответствующим произведением матриц последовательности букв.

Результирующая матрица слова снова может быть представлена в знаковом выражении. В этом случае слово становится некоторой метабуквой. Метабуквы можно сравнивать между собой по принципу симметрии матриц сравнения. Рекурсивно эту технологию можно обобщить на фразы и представить их метасловами с последующей знаковой нормировкой их матриц. Матрицы фраз, сведенных к матрицам метаслов, снова можно сравнивать между собой по условию симметрии их матриц сравнения. В результате сравнения выявлять разнообразие фраз, характеризующих режимы процесса.

Продолжая эту процедуру, мы можем построить словарь метафраз, метаметафраз и т.д. Набор этих вложенных метаметрических (ультраметри-ческих) структур можно продолжать до тех пор, пока не будет исчерпан весь арсенал многообразия языка процесса. Ясно, что такая система является открытой и практически всегда неполной.

Рассмотрим теперь признаки экстремума:

Для максимума:

х(^„ ) — хСО и х(^„ ) — х(’п2).

Для минимума:

Х(^ ) ^Х^щ) и Х(^ ) ~ Х(/п2 ).

Здесь tn1 < tn < tn2 — последовательность моментов времени, рядом стоящих в точке экстремума tn.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для гладких сингулярных процессов этот признак хорошо работает и по нему можно быстро находить точки экстремумов. Однако при наличии высокочастотного шума количество экстремумов резко возрастает и конструктивная процедура для гладких функций становится в этом случае неэффективной. Разрешать возникшие противоречия между конструктивностью (технологичностью) и эффективностью помогают различные технологии фильтрации сигнала, отсекающие высокочастотные составляющие шума.

В настоящее время существует множество способов фильтрации сигнала. Простейшим из них является скользящее суммирование. Для этого случая рассмотрим одну оригинальную процедуру фильтрации. Пусть последовательно рассматриваются суммы 82, 83, одинаковой мощности 8. Эти суммы будем рассматривать как операторы, а их наложение друг на друга — как произведение операторов. В наиболее симметричном случае весь интервал, покрываемый оператором и принятый за единицу, выразится так:

35 — 2Б2 = 1. (24)

Возможны три характерных режима взаимодействия операторов.

1. Совместность

В этом случае

Б2 = 5, 35 — 25 = 1, 5 = 1. (25)

Это значит, что все три суммы наложены друг на друга (п1 = tn = tn2). Это по существу одна экстремальная точка, в которой сравнения вырождаются и конструктивная процедура не работает.

2. Несовместность

В этом случае [18]

Б2 = 0, 35 = 1, Б = 1/3. (26)

Здесь весь интервал сравнения разбивается на три последовательные непересекающиеся равные части. Минимальное количество точек, реализующих этот режим сравнения, равно трем. Именно три рядом стоящие точки берутся в конструктивной процедуре сравнения в поисках экстремума.

3. Независимость

В этом случае

Б2 = Б2, 35 — 2Б2 = 1, (25 — 1)(1 — 5) = 0. (27)

Новый и содержательный корень операторного уравнения в этом случае есть

Б = ‘Л, Б2 = %. (28)

Минимальное количество точек для реализации сравнения в этом случае равно четырем.

И наконец, чтобы отфильтровать высокочастотные вибрации, применим эти два содержательных случая независимо. Тогда минимальное количество точек для реализации такой процедуры равно их произведению

п = 3•4 = 12 . (29)

Итак, имея последовательных двенадцать точек интервала сравнения, разобьем их на три неравные части по четыре точки в каждой. Составим суммы сигналов по каждой четверке. Пусть это будут суммы Бь Б2, Б3. Тогда максимум определится по условию

Б2 — Б1 и Б2 — Б , (30)

а минимум по сравнению

Б2 < Б1 и Б2 < 53. (31)

Затем разобьем интервал сравнения на четыре части по три точки в каждой. Составим сумму сигналов по каждой тройке. Пусть это будут суммы Б1, Б2, Б4. Тогда максимум удовлетворит условию

5 3 — 51 и 5 2 — Б4, (32)

а в минимуме будет справедливо выражение

Б3 < 51 и Б2 < Б4. (33)

Решение принимается при одновременном выполнении условий (30, 32) для максимума и (31, 33) для минимума.

Как видим, такая технология сравнений работает на последовательной совокупности трех, четырех и двенадцати точек. Ясно, что значительная часть высокочастотных экстремумов в такой процедуре сравнения будет отфильтрована.

Эту процедуру рекурсивно можно продолжить в сторону укрупнения сумм. Так, если мощность оператора Б будет не шесть точек, как в предыдущем случае, а двенадцать (мощность интервала сравнения первой рекурсии), то интервал сравнения второй рекурсии будет содержать 24 точки, которые в первой процедуре сравнения разбиваются на три интервала по 8 точек в каждом, а во второй процедуре сравнения — на 4 интервала по 6 точек в каждом.

Нетрудно убедиться, что п-Б рекурсия будет иметь мощность интервала сравнения

Бп = 2п • 51 = 2п • 12 . (34)

Каждая рекурсия дает более редкое множество точек и более грубое оценивание состояния и режима процесса.

В такой технологии минимальная мощность сравнения равна 12 точкам, следовательно, минимальное число отсчетов в измерении равно 12 на высокочастотном периоде.

ЗАКЛЮЧЕНИЕ

В изложенной выше статье даются некоторые основополагающие результаты нового направления обработки, анализа и интерпретации данных. Четкого термина этого направления еще нет. Однако ряд работ под названием «нестандартный анализ», «конструктивный анализ», «лексикографический анализ», «статистическая фильтрация» явно отражают особенности этого нового направления. В данной работе затронуты основные особенности этих прогрессивных направлений обработки, анализа и интерпретации данных.

Уже первые результаты этих исследований подтвердили возлагаемые на них надежды. Рассмотренные процедуры анализа позволяют совместить, казалось бы, несовместимые требования, а именно вариабельности, стабильности, устойчивости, адаптивности, чувствительности, быстродействия и эффективности.

Многочисленные устройства, основанные на этих процедурах, хорошо зарекомендовали себя как в области распознавания и обработки радио- и акустических сигналов, так и в области медицины (кардиологии).

СПИСОК ЛИТЕРАТУРЫ

1. Николис Г., Пригожин И. Познание сложного. Введение. М.: Мир, 1990. 344 с.

2. Бреббинс К., Уокер С. Применение метода граничных элементов в технике. М.: Мир, 1982. 248 с.

3. Флетчер К. Численные методы на основе метода Галеркина. М.: Мир, 1988. 352 с.

4. Рациональное численное моделирование в нелинейной механике / Сборник под ред. академика О.М. Белоцерковского. М.: Наука, 1990. 224 с.

5. Трифанов В. Методические основы синтеза динамических сетей: алгебраическое равновесие и статистика. Л.: препринт ЛИИА, 1981. 31 с.

6. Стренг Г., Финкс Дж. Теория метода конечных элементов. М.: Мир, 1977. 349 с.

7. Хакен Г. Информация и самоорганизация. Макроскопический подход к сложным системам. М.: Мир, 1991. 161 с.

8. Жармунский А.В., Кузьмин В.И. Критические уровни в развитии природных систем. Л.: Наука, 1990. 223 с.

9. Nesterov M.M., Nesterov V.M., Tarasov N.A. Simulation of the thin-film growth dynamics and thin-film surface shape. SPb.: SPIIRAS preprint, 1994. 12 p.

10.Данилов В.Н., Нестеров М.М., Прошин А.П. К вопросу о построении самосогласованной информационной концепции измерения параметров физических полей // Материалы Первой Международной конференции по проблемам самоорганизации и управления в сложных коммуникационных пространствах, НООТЕХ, СПб., 1997. C.39-41.

11.Королев О.Ф., Марлей В.Е. Вычисления в распределенных алгоритмических сетях // Там же. C. 58-60.

12. Диментберг Ф.М. Винтовое исчисление и его приложения в механике. М.: Наука, 1965. 199 с.

13.Цветков В.Д. Сердце, золотое сечение и симметрия. Пущино: Пущинский научный центр РАН, 1997. 170 с.

14.Ахапкин Ю. Биотехника — новое направление компьютеризации. М.: Наука, 1990. 144 с.

15.Хакен Г. Синергетика. М.: Мир, 1980. 404 с.

16.Хакен Г. Синергетика. Иерархии неустойчивостей в самоорганизующихся системах и устройствах. М.: Мир, 1985. 419 с.

17.Холодный М. и др. Методы анализа нелинейных динамических моделей. М.: Мир, 1991. 365 с.

Санкт-Петербургский институт информатики и автоматизации РАН

Материал поступил в редакцию 23.11.99.

UNCONVENTIONAL DATA ANALYSES USING SELF-ORGANIZING TECHNOLOGIES

M. M. Nesterov, V. N. Trifanov, V. N. Danilov

Saint-Petersburg Institute for Informatics and Automation

The paper outlines the basic concepts and general principles of unconventional data analysis using selforganizing analysis technologies and manifestations of hidden organization and periodicity in the hierarhical (ultrametric) mode. Lexographic and constructive data analysis technologies and statistical data filtration as applied to modern instrument engineering are also partially considered.

i Надоели баннеры? Вы всегда можете отключить рекламу.