Научная статья на тему 'Принцип варьирования данных в прикладных задачах идентификации'

Принцип варьирования данных в прикладных задачах идентификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
100
18
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.Е. Архипов, С.А. Архипова

Рассмотрен подход к решению ряда проблемных вопросов структурно-параметрической идентификации в условиях минимума априорной информации о свойствах исходных данных путем генерации однородных с имеющимся набором псевдоданных. Получаемое на них множество псевдорешений позволяет радикально восполнить и использовать недостающую информацию для практического решения задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The approach to a solution of a series of problems is considered in structural parametrical identifications in conditions of a minimum of an a priori information about properties of input data by generation homogeneous with an available gang of pceudodata. The set, obtained them, of pceudosolutions allows radically to fill and to use a missing information for a practical solution of a task.

Текст научной работы на тему «Принцип варьирования данных в прикладных задачах идентификации»

УДК 681.5.015

ПРИНЦИП ВАРЬИРОВАНИЯ ДАННЫХ В ПРИКЛАДНЫХ ЗАДАЧАХ

ИДЕНТИФИКАЦИИ

А.Е. Архипов, С.А. Архипова

Рассмотрен подход к решению ряда проблемных вопросов структурно-параметрической идентификации в условиях минимума априорной информации о свойствах исходных данных путем генерации однородных с имеющимся набором псевдоданных. Получаемое на них множество псевдорешений позволяет радикально восполнить и использовать недостающую информацию для практического решения задачи.

Розглянуто тдх1д до розв'язку ряду проблемних питань структурно-параметричног гдентифгкацп в умовах мгтмуму апрюрноЧ iнформацИ про властивост1 вих1дних даних шляхом генерацп однорiдних iз наявним набором псевдоданих. Одер-жувана на них множина псевдорШень дозволяе радикально за-повнити i використати вiдсутню тформащю для практичного розв'язку задачi.

The approach to a solution of a series of problems is considered in structural - parametrical identifications in conditions of a minimum of an a priori information about properties of input data by generation homogeneous with an available gang of pceudodata. The set, obtained them, of pceudosolutions allows radically to fill and to use a missing information for a practical solution of a task.

ВВЕДЕНИЕ

В научно-исследовательской практике часто встречаются задачи, относящиеся к направлению, называемому анализом данным [1, 2].

Его содержание - приемы и методы обработки данных наблюдений многомерных систем на ранних стадиях их исследования, когда имеющаяся у обработчика информация исчерпывается только сведениями, зафиксированными в этих данных, без наличия каких-либо дополнительных знаний о механизме функционирования изучаемых систем и характеристиках данных. Последнее, в частности, статистическое описание погрешностей данных, резко сужает возможности применения традиционных математико-статистических методов обработки.

Например, пусть для отображения связей между признаками (информационными переменными), характеризующими состояние системы, применяется распространенная в практических приложениях аппроксимативная регрессионная модель общего вида [3]

Z = X, A) + E ,

(1)

где X = [Хр ..., Хр] - вектор входных переменных модели X, А) , 2 = У + Е - фактически наблюдаемая выходная координата, У - выход модели, Е - случайная составляющая с математическим ожиданием М {Е} = 0

и дисперсией П{Е} = оЕ. Модель ц(X, А) аппроксимирует неизвестное отображение ф :Х ^ У, реализуемое исследуемой системой, А = [ао, ..., ак]т - вектор параметров (коэффициентов) модели.

Для уточнения структуры модели применительно к конкретно решаемой задаче следует в соответствие с методами многомерного регрессионного анализа [3,4,8], используя информацию о виде распределения Ее , построить критериальные статистики, позволяющие судить о степени адекватности модели исходным данным и о значимости коэффициентов. Наиболее разработанный аппарат линейного регрессионного анализа, соответствующий модели вида

ц(Х, A) = а0 + ei + ••• + apxp---,

(2)

ориентирован на нормальность погрешности Е и связанные с ней статистики, имеющие распределение Фишера и Стьюдента [3, 8]. Очевидно, что отсутствие информации о распределении Ее исключает применение каких-либо методов оценивания структуры модели, опирающихся на знание закона Ее .

Уязвимыми в этом случае оказываются и основные процедуры оценивания параметров модели, построенные с применением принципа максимума правдоподобия, также использующего информацию о виде распределения Ее [6, 8].

ПОСТАНОВКА ЗАДАЧИ

Возможным выходом в сложившейся ситуации является применение так называемого "прагматического" подхода [9] к задаче параметрической идентификации (ПИ), суть которого в оценивании вектора А параметров модели на одном и том же наборе исходных данных

[^, XI, ..., Хр] , ¿=1, п несколькими разными методами Юр, Ю2, ... с последующим определением лучшего метода Ю+ путем анализа качества полученных оценок А (Юр) , А(Ю2), ... с использованием критериальных статистик, свободных от вида распределения Ее . Множество методов {Юр,Ю2, ...} = О составляется из апробированных

методов ПИ, эффективность которых доказана практикой.

Аналогичный подход применим и для селекции

лучшей структуры модели (X, А) из множества

моделей-претендентов {рX,Ар)} [9,11], с той лишь

разницей, что в этом случае выбор модели должен производиться по результатам интегральной оценки качества решения задачи структурно-параметрической идентификации (СПИ), учитывающий как точность модели, так и качество ПИ [9-12].

Таким образом, актуальной является разработка методик оценивания качества ПИ и СПИ, которые, с учетом изложенного выше подхода к решению задач ПИ и СПИ, условий минимума априорных сведений об объекте исследования и характеристиках исходных данных, должны быть:

а) свободны от вида закона распределения ГЕ ;

б) применимы для широкого класса модельных структур;

в) внешние по отношению к используемым методам ПИ, т.е. не должны зависеть от применяемого способа оценивания параметров модели;

г) практически реализуемы и эффективны на выборках исходных данных конечного объема.

ПРИНЦИП ВАРЬИРОВАНИЯ ДАННЫХ

Один из подходов к решению поставленной выше проблемы - применение принципа варьирования данных [9, 10] для получения возможно более полного набора статистических характеристик результатов решения конкретной задачи ПИ, СПИ, включая распределения оценок параметров Г(ао), Г(а1), ... , моменты соответствующих распределений, показатели точности и адекватности моделей исходным данным, т.п.

Суть принципа варьирования данных состоит в использовании полученных в ходе реального эксперимента исходных данных, заданных матрицей [г^ Хг] =

= [г1, Хц, ...Х1р] , г = 1, п , для имитации результатов

выполнения серии из Ь экспериментов, обработке "полученной" в каждом из них матрицы псевдоданных

[гг, х/\ I = 1, Ь каким либо одним выбранным методом ПИ и вычислении на найденном множестве векторных оценок {А(} = {аю, ..., ац,} , I = 1, Ь эмпирических функций распределения Гп(ао) , Гп(а1), ..., Гп(ак) , выборочных дисперсий Пп{аг} и ковариаций еоуп{ар, ад}, р Ф д ,

а также других статистик, характеризующих качество ПИ и СПИ.

Один из вариантов практической реализации варьирования данных состоит в том, что выборка исходных дан-

ных [г^ Хг 1, ...Хг^], г = 1, п рассматривается как генеральная совокупность, из которой путем равновероятного выбора строк с возращением формируется требуемое количество Ь матриц псевдоданных. Случайный выбор очередного номера строки осуществляется генератором псевдослучайных целых чисел, равномерно распределенных в интервале [ 1, п] . В соответствие с очередным выпавшим номером строка за строкой формируются матрицы псевдоданных.

Согласно обобщению на многомерный случай теоремы Гливенко-Кантелли [7] о сходимости эмпирической функции распределения к истинной и ряда следствий из этой теоремы, устанавливающих существование аналогичной сходимости широкого класса статистик (выборочных оценок) к своим "теоретическим" значениям, можно утверждать, что с ростом Ь происходит неограниченное

сближение эмпирических распределений Гп(а о),..., Гп( ак)

с теоретическим распределениями Гп( а о),..., Гп( ак) , полностью определяемыми многомерным распределением Гп(г, X) исходной выборки [г1, х1 р ...Хг^] , г = 1, п :

Р{шр\¥п(ар) - Гп(ар)| ^ 0} = 1 , р = 0, к . Отсюда следует сходимость выборочных дисперсий Пп{ар} и ковариаций еоуп{ар, ад} , р Ф д к теоретическим значениям Пп{ар} , соуп{ар, ад} . В реальных задачах теоретическое

'п1"р' "-д

распределение Гп(ар) и соответствующие теоретические

значения моментных характеристик обычно не поддаются определению (исключение составляет математические

ожидания для распределений Гп(ар), р = 0, к , равные

рассчитанным по исходным данным оценкам а0, а 1, ...,

а к ). Поэтому метод варьирования является единственным способом получения информации о статистических характеристиках оценок а0, а 1, ..., а к .

При п на основании той же теоремы Гливенко-Кантелли и упомянутых следствий существует сходимость распределений Гп(ар) к теоретическим распределениям Г(ар), полностью определяемым неизвестным

исходным распределением Г(г, X), а также сходимость соответствующих моментных характеристик и статистик, т.е. для этого случая рассчитанные по псевдоданным

статистические характеристики оценок а0, а 1, ..., а к являются состоятельными и асимптотически несмещенными оценками неизвестных распределений Г(ар), р = 0, к

и их моментов.

Не в асимптотике, при конечных значениях п , нельзя сказать что-либо определенное о надежности результа-

тов, получаемых с привлечением варьирования данных, если оставаться в рамках традиционной схемы исследований, в которой за опорные приняты результаты, соответствующие некоторой гипотетической совокупности, нахождение фактических значений которых не представляется возможным. С другой стороны, единственный реальный источник информации о свойствах данных - это только сама исходная выборка (по условиям решаемых задач, любая дополнительная информация отсутствует), и вопрос в том, как обеспечить извлечение этой информации в максимально полном объеме и в форме, удобной для последующего использования. С этих позиций метод варьирования данных можно рассматривать как выборочный вариант метода максимального правдоподобия, позволяющий оптимизировать процедуру СПИ (в частности, выбрать метод ПИ, обеспечивающий наименьшую дисперсию оценок параметров на варьированных данных) без домысливания характеристик исходных данных путем описания их с помощью пара-метризированных моделей, приводящих к искажению фактической информации.

Для конечных значений п > 10 исследование применимости метода варьирования данных на тестовых примерах, имитирующих решение задач ПИ и СПИ, показывает достаточно хорошие результаты, зависящие однако от используемых методов варьирования данных.

Кроме описанного выше метода случайного варьирования строк матрицы исходных данных (ВСМ), можно предложить и другие методы. Один из них - метод случайного варьирования значений шума (ВЗШ) в исходных данных, где последовательность невязок

[Ер, ...,£п], £1 = - ц(х, А), выступает в качестве генеральной совокупности, из которой генерируются псевдовыборки шума [ ер,., еп ](,..., [ ер,., еп ](Ь) а затем формируются псевдовыборки зависимой переменной [гг ](/) = [у + е ), ..., уп + еп°)] , где у = ц(хг, А), г = ~п ,

/ = р / и матрицы псевдоданных [Х;]( /) = [[г^](/), Хг] .

В методе генерации псевдошумов (ГПШ), в отличие от ВЗШ, генерация значений шума реализуется специальным генератором псевдослучайных чисел в соответствие с непараметрически заданным распределением Ее ,

оцененным по выборке [£р, ...,£п] .

Методы ВЗШ и ГПШ при варьировании данных сохраняют неизменными матрицы плана [Хг ] и обеспечивают намного более точное, по сравнению с ВСМ, оценивание распределений Е(ау), у = 0, к их моментных характеристик, однако при этом они весьма чувствительны к загрублению модели. Поэтому при выполнении подбора модели более надежным является применение ВСМ.

При задании исходных данных в виде временных

рядов варьирование данных осуществляется методом ГПШ путем разделения трендовой и случайной составляющих, генерации множества псевдореализаций последней с помощью специальных генераторов, в которые в непараметрической форме вводятся описания характеристик случайных составляющих (включая их автокорреляционные функции), и наложения псевдореализаций случайной составляющей на выделенный тренд П2].

ПРИМЕНЕНИЕ ВАРЬИРОВАНИЯ ДАННЫХ ДЛЯ ОПТИМИЗАЦИИ РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ

Полученные методом варьирования исходных данных статистические характеристики оценок А(Юр), А(Ю2), ..., найденных соответственно методами Юр (Ю2), ..., в частности, вектор дисперсий оценок параметров 1(юг) = = [о2{ао}, ...,о2{ак}] , позволяют реализовать селекцию лучшего метода Ю+ путем, например, введения обобщенного показателя эффективности методов ПИ. При работе с линейными моделями вида (2) для свертывания вектора 1(юг) в скаляр в [9,!2] предложен показатель

= к I ^,

(3)

у = о

где ог{ау} = ^—р 1(а/уг - ауг) оценка ауг рассчитана

/ = р

методом юг по исходной выборке, а оценки аруг, ..., а^уг - по псевдоданным.

Для моделей ц( X, А) более сложной структуры наряду с (3) возможно применение показателя вида

Ш(юг) = I у2{ау}/^ ,

у = о

(4)

где ту = (Эц( X, А)/Э ау)2

1А, X

^ = пТГТ 1(2г - 2)2,

г = р

черта сверху обозначает средние выборочные значения соответствующих переменных. Селекция лучшего метода

ю+ осуществляется по минимуму соответствующего показателя.

Для выбора лучшей модели на множестве моделей-претендентов }, Ь = р Т в общем случае можно

использовать эвристический показатель качества СПИ, комплексно учитывающий точность модели и степень устойчивости процедуры ПИ [9, !2]:

Ь

к

п

Qt = YInt/SZ + (1 - Y) r) - t = 1 T ,

(5)

где Int = у [zi - цt(Xi, At)]2/n , у - весовой коэффици-

i = 1

ент, определяющий приоритет требований к точности модели либо к устойчивости процедуры оценивания параметров. Исходя из рассчитанного для T моделей множества {Int} один из вариантов задания у можно описать

выражениями П2]: у = 1 - Inmin/Inmax - Inmin = min{Int},

Inmax = max{Int} , t = 1, T . При примерно одинаковой точности аппроксимации моделями исходных данных у ^ 0 и приоритет в выборе модели принадлежит показателю V2 . При существенном разбросе значений In основную роль в выборе модели играет показатель In .

Возможно построение итеративной процедуры селекции с поэтапным удалением наиболее неудачных вариантов модели.

Для линейных регрессионных моделей выбор лучшей можно реализовать более строго, используя для этой цели средний риск I = M{[zi - цt(x, A)]2} . В [10, 11]

показано, что при оценивании параметров модели по методу наименьших квадратов справедливо соотношение

I = M (In) + - M{(A - A )TxTxi(A - A)}.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(6)

Используя варьирование данных, на базе (6) строится показатель качества СПИ вида [10, 11]:

I = 1 у i(l) +-i-

L у n n( L - 1)

у (A( l) - A) T( xTxi)(l)(A(l) - A) .(7)

Обозначая второе слагаемое через А и принимая во внимание, что с ростом Ь первое слагаемое стремится к 1п, рассчитанному по реальным исходным данным, получаем:

1 = In + А .

(8)

Также как и Q, показатель I комплексно учитывает требования к точности модели (составляющая 1п ) и устойчивости процедуры ПИ (А), причем в А интегрировано три фактора, влияющие на качество ПИ:

а) сложность модели;

б) характер информационной матрицы х^х1 (степень коллинеарности исходных данных);

в) устойчивость используемых алгоритмов ПИ.

Поэтому показатель А целесообразно использовать и

самостоятельно при подборе метода ю+. В условиях обычной регрессионной задачи "эксплуатационных" свойства А гораздо выше, чем у V2 , однако при наличии таких особенностей данных, как случайные погрешности в результатах наблюдения входных переменных, результативность селекции по показателю А резко падает [11].

Кроме того, зашумление входных переменных может приводить к появлению смещения оценок параметров, отсутствующего при точном измерении значений X [12]. Применение варьирования данных позволяет построить достаточно простые, но эффективные процедуры выявления и коррекции смещения оценок параметров моделей [12, 13].

ВЫВОДЫ

Применение варьирования данных к решению прикладных задач идентификации в условиях минимума априорной информации о свойствах обрабатываемых данных позволяет получить объективные результаты при рассмотрении ряда ключевых проблем структурно-параметрической идентификации в ситуации, когда иные средства решения практически отсутствуют.

Принцип варьирования данных является внешним по отношению к методам и алгоритмам оценивания структуры и параметров модели, так как не ориентирован на какие-либо элементы применяемого для решения этих задач инструментария.

Использование исключительно непараметрических методов варьирования данных сводит к минимуму возможности субъективно влияния исследователя на полученные результаты, исключает искажения исходной информации вследствие формального задания параметризи-рованной модели случайной составляющей в реальных данных.

ПЕРЕЧЕНЬ ССЫЛОК

1. Статистический словарь/Гл. ред. М.А. Королев. - 2-е изд., перераб. и доп. - М.: Финансы и статистика. -1989. - 623с.

2. Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С.А.Айвазян, В.М.Бухштабер, И.С.Енюков, Л.Д.Мешалкин. - М.: Финансы и статистика, 1989. - 607 с.

3. Прикладная статистика: Основы моделирования и первичная обработка данных. Справочное изд. / С.А.Айвазян, И.С.Енюков, Л.А.Мешалкин. - М.: Финансы и статистика, 1983. - 471 с.

4. Аемиленко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1981. -302 с.

5. Демиденко Е.З. Оптимизация и регрессия. - М.: Наука, 1989. - 296 с.

6. Мудров В.И., Кушко В.Л. Методы обработки измерений. -М.: Сов. радио. 1976. -190 с.

7. Боровков А.А. Математическая статистика. - Учебник. - М.: Наука. Главная редакция физ.-мат. литературы, 1984. -472с.

8. Пугачев В. С. Теория вероятностей и математическая статистика. - М.: Наука, 1979. - 496 с.

9. Архипов А.Е., Архипова С.А. Анализ и оптимизация качества решения задачи идентификации.// Праш П'ято!' Укра-Тнсько!' конференцп з автоматичного управлшня "Автомати-ка-98": Ки'Тв, 13-16 травня 1998р. - ч. III, - Ки'Тв: видавниц-

n

L

L

l= 1 l= 1

тво НТУУ "Кшвський пол1техшчний ¡нститут", 1998, -с. 9-15.

10. Архипов А.Е., Архипова С.А. Идентификация аппроксимативных моделей методом варьирования данных.//Адап-тивш системи автоматичного управлшня. // Межв1дом. науково-техн. зб. - Днтропетровськ: Системы технологи, 1998. - Вип. 1 (21). с. 81-86.

11. Архипов А.Е., Архипова С.А. Селекция структуры линейной регрессии путем случайного варьирования исходных данных.// Системы технологи. Досл1дження динамти \ оптим1-зашя параметр1в технолопчних процеав: Зб1р. наук. праць. - Вип.2 - Днтропетровськ: "Системы технологи", 1998. - с. 3-9.

12. Архипов А.Е. Выбор, оценка качества и методы повышения точности аппроксимативных моделей в задачах идентификации. - К.: УМК ВО, 1992. - 56 с.

13. Архипов А.Е. Коррекция смещений коэффициентов регрессии, обусловленных ошибками в независимых переменных. Тези допов1дей 1-оТ УкрашськоТ конференци з автоматичного керування. АВТОМАТИКА-94 (КиТв,12-23 травня 1994 р.) - КиТв, 1994, с.123.

Надшшла 02.03.2000 П1сля доробки 10.03.2000

УДК 681.513.6

ПРОГНОЗИРУЮЩАЯ НЕЙРОННАЯ СЕТЬ И АЛГОРИТМЫ ЕЕ ОБУЧЕНИЯ

Е. В. Бодянский, С. В. Попов

Предлагается подход к решению задач прогнозирования и раннего обнаружения изменения свойств нестационарных стохастических последовательностей, описываемых нелинейными разностными уравнениями авторегрессии - скользящего среднего (NARMA-модели). Предполагается, что прогнозируемая последовательность является нестационарной в широком смысле, причем изменения структуры, свидетельствующие о возникшей разладке, происходят в заранее неизвестные моменты времени. Предлагается архитектура рекуррентной искусственной нейронной сети и новые алгоритмы ее обучения, позволяющие с высокой точностью и быстродействием получать прогнозы контролируемого сигнала и обнаруживать моменты изменения его свойств.

Пропонуеться тдх1д до вирШення задач1 прогнозування i раннього виявлення змiн властивостей нестащонарних стоха-стичних послiдовностей, що описуються нелiнiйними рiзнице-вими рiвняннями авторегресп - ковзного середнього (NARMA-моделi). Припускаеться, що прогнозована послiдовнiсть е не-стащонарною в широкому розумiннi, при чому змiни структу-ри, що свiдчать про виникаюче розладнання, вiдбуваються у заздалегiдь невiдомi моменти часу. Запропоновано архiтекту-ру штучно'1 нейронно'1 мережi i новi алгоритми 'i'i навчання, що дозволяють з високою точнiстю та швидкодieю отримувати прогнози контрольованого сигналу та виявляти моменти змiни його властивостей.

An approach to prediction and early properties changes detection problems solution for nonstationary stochastic sequences that are described by nonlinear difference autoregression - moving average equations (NARMA-models) is proposed. The forecasted sequence is assumed to be nonstationary in a wide sense, and structure changes pointing to emerging faults are assumed to occur in moments, unknown a priori. Architecture of an artificial neural network and its learning algorithms are proposed that enable obtaining high quality predictions of the monitored signal and detection of its properties changes moments.

ВВЕДЕНИЕ

Задача раннего обнаружения разладок достаточно часто встречается на практике и, прежде всего, в технической диагностике механизмов и машин и тесно связана с проблемой адаптивного прогнозирования нестационарных стохастических последовательностей. Для решения этой проблемы предложено множество подходов, свя-

занных в значительной мере с методами математической статистики, теории случайных процессов, адаптивной идентификации, однако жесткие предположения о стохастических свойствах рядов и их структуре, как правило, линейной, ограничивают возможности традиционного адаптивного подхода.

Последние годы характеризуются всплеском исследований в области теории и практики искусственных нейронных сетей, в том числе и для решения задач прогнозирования П-9]. Предложенные нейронные сети, обеспечивая высокое качество прогнозирования, тем не менее, не способны обнаруживать и сигнализировать об изменениях свойств контролируемого сигнала, что совершенно необходимо в задачах априорной диагностики в реальном времени.

В данной работе предложена архитектура прогнозирующей рекуррентной искусственной нейронной сети и алгоритмы ее обучения, позволяющие не только получать прогноз нелинейной стохастической последовательности, но и обнаруживать моменты изменения ее свойств по ходу процесса обучения и прогнозирования. Предлагаемая сеть обладает высокой скоростью обучения и обеспечивает оптимальную точность прогноза на принятом классе моделей.

1 АРХИТЕКТУРА ПРОГНОЗИРУЮЩЕЙ

НЕЙРОННОЙ СЕТИ

Архитектура предлагаемой прогнозирующей искусственной нейронной сети приведена на рис. р и представляет собой сеть элементарных нейронов, отличающихся видом функций активации и алгоритмами обучения, являющимися в общем случае рекуррентными процедурами безусловной или условной оптимизации.

Прогнозируемая стохастическая последовательность {г(к)}, к = !, 2, 3, ... предварительно обрабатывается входным нейроном С таким образом, что все ее значения (прошлые и будущие) принадлежат интервалу [-!, +!] .

i Надоели баннеры? Вы всегда можете отключить рекламу.