Научная статья на тему 'Особенности применения адаптивной обучаемой автоматной системы управления'

Особенности применения адаптивной обучаемой автоматной системы управления Текст научной статьи по специальности «Математика»

CC BY
147
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Особенности применения адаптивной обучаемой автоматной системы управления»

Если для выбранной величины М(х„)— $1 р<1, то независимо от начального распределения функции Ж0(х), распределение функции Ж(хп)

Н«

сходится к значению Ж (х).

X

При В(х) = 1-е в1 функция распределения времени задержки имеет вид

X

Ж(х) = 1- ре в1, а при постоянной длительности передач сообщений -

Ж(х) = 1- р + ^М , где в1

Гх> 0<х<Рг;

?(х) = 1л ^ а

{ 0, х > 0! ■

Таким образом, приведенные выше формулы целесообразно использовать в виде критериальных оценок для исследования времени задержки при передаче сообщений.

Время передачи сообщений определяется исходя из длины сообщения и скорости модуляции в канале связи.

На время задержки сообщений может влиять также и состояние канала связи, определяемое из показателей помехоустойчивого приема переданного сигнала и корректирующей способности кода, однако, это уже другие исследования.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. МартинДж. Системный анализ передачи данных. В 2-х т. - М.: Мир, 1975.

2. КлимовГ.П. Стохастические системы обслуживания. - М.: Наука, 1966. - 243 с. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. -

М. - Сов. радио, 1971.

3. Финаев В.И. Разработка методов исследования структурной организации систем и сетей передачи дискретной информации. Диссертация на соискание ученой степени кандидата технических наук. - Таганрог: Библиотека ТРТИ, 1979.

4. Климов Г.П. Стохастические системы обслуживания. - М.: Наука, 1966. - 243 с.

Мажди Наср Аллах, В.И.Финаев

ОСОБЕННОСТИ ПРИМЕНЕНИЯ АДАПТИВНОЙ ОБУЧАЕМОЙ АВТОМАТНОЙ СИСТЕМЫ УПРАВЛЕНИЯ

Для состояний и выходных параметров объектов энергетических систем характерно наличие периодов, как стационарности, так и нестационарности, выявление которых осуществляется либо аппаратным путем, либо по данным статистического анализа.

Для периодов стационарности процессы смены состояний и выходные процессы являются медленно меняющимися процессами, т.е. относятся к процессам вида тренда.

При управлении объектами, относящимися к классу трудноформализуемых объектов, но отличающихся тем, что процессы на выходе этих объектов, а также

изменение состояний, происходят сравнительно медленно, можно применить для решения задач управления методы, связанные с применением адаптивных, обучаемых автоматных систем управления (АОАСУ).

Одним из широко применяемых методов является метод, основанный на использовании адаптивных, обучаемых автоматных систем управления в виде вероятностных автоматов.

Применение АОАСУ, реализация которых возможна в виде микроконтроллерной системы, позволяет эффективно управлять медленно изменяющимися процессами, т.к. тактовая частота микропроцессора, определяющая частоту выработки управлений, значительно превышает граничную частоту спектра управляемого процесса. Изменение процесса показано на рис. 1.

Значения процесса изменяются около некоторого значения хср, которое может быть как постоянным, так и медленно, но случайно изменяющимся во времени. Например, необходимо поддерживать параметр процесса в заданном диапазоне от хтп до хтах или обеспечить изменение параметра хср как некоторую функциональную зависимость, также с возможными колебаниями в заданном диапазоне.

Известны симметрические вероятностные автоматы (ВА), обладающие целесообразным поведением при их применении в качестве АОАСУ [1]. Структура взаимодействия автоматной системы с внешней средой приведена на рис. 1.

XI Автомат Уі Среда

Рис. 1. Взаимодействие системы автомат - среда

Выходные сигналы уг адаптивной обучаемой автоматной системы управления (АОАСУ) подаются на вход внешней среды. В терминологии теории игр эти сигналы называются действиями. Входные сигналы хг для адаптивной обучаемой автоматной СУ называются реакциями среды. Весь класс реакций подразделяется на два подкласса: класс положительных реакций и класс отрицательных реакций.

Модель случайной среды задана в виде вектора С=(а1,а2,...,аг). Если АОАСУ совершит действиеу() (]=1,2,...,г) в такте времени г, то с вероятностью ^ она получит сигнал поощрения х1 либо с вероятностью Pj сигнал наказания Х2 в такте времени (г+1).

В качестве асимптотически оптимальных автоматов могут быть применены такие автоматы [2], как автомат с линейной тактикой (^^г-автомат), автомат

В.И. Кринского (О^-автомат), автомат В.Ю. Крылова (Кг-автомат), квазилинейный автомат, обозначаемый символом Qkr, а также другие модификации асимптотически оптимальных автоматов, ). Здесь к - глубина памяти изоморфного подавтомата, г - число действий (управлений) АОАСУ.

Общим отличием асимптотически оптимальных автоматов является то, что они состоят из т изоморфных автоматов памяти, первая ячейка которых является составляющей асимптотически оптимального автомата, число ячеек которого равно г.

Для реализации процесса обучаемости автоматной системы управления необходимо задать условия формирования сигнала поощрения и сигнала наказания в процессе функционирования АОАСУ.

Поступить можно следующим образом. Разобьем отрезок \хm^n,хmaX] на т одинаковых интервалов. Каждому из этих интервалов сопоставим значения вероятностей qj и вероятностей р^ так, что для каждого ] сумма ^ + р^ равна единице. Данные запишем в табл.1.

____________________________________________________________________Таблица 1

Номер интервала 1 2 3 m

вероятность qj ql Q2 qз qm

вероятность рj Р1 Р2 Р3 рш

Разработать аналитическую модель, позволяющую определить оптимальное задание вероятностей ^ ирj, невозможно, т.к. эта многопараметрическая задача не имеет однозначного решения. Рекомендации по выбору вероятностей ^ и вероятностей Pj могут быть получены на основе логических рассуждений с учетом предлагаемых эвристических моделей. Исходя из этих предпосылок необходимо разработать имитационные модели, выполнить исследования и на основе статистической обработки данных моделирования сформировать рекомендации по выбору вероятностей qJ и вероятностей Pj.

Рассмотрим эвристические модели для выбора вероятностей qj и вероятностей Pj.

Вариант. 1. Если АОАСУ реализована по принципу совокупности обучаемых автоматов вида модели Буша-Мостеллера, то при получении сигнала «поощрение» вероятностей ^ матрицы Ж, при условии выбора ранее /-го направления коммутации, пересчитываются по формулам [3]:

<,,« + !)- ()

1-(1-(^

а,(1)

Ч,(г + 1)= 3 ' ,3 фі

При получении сигнала «наказание» вероятностей рJ матрицы Ж, при условии выбора ранее /-го направления коммутации, пересчитываются по формулам:

где 3 - коэффициент, величина которого выбирается больше единицы, X -коэффициент, величина которого выбирается меньше единицы. Рекомендуется осуществлять выбор значений коэффициентов X и 3 так, что Х+ 3=1.

Легко убедиться, что сумма по всем i как вероятностей q, так и вероятностей р^ после пересчета их значений по вышеприведенным формулам равна единице.

Вариант 2. Если АОАСУ реализована с применением одного из видов асимптотически оптимальных автоматов (например, Lkr-автомат, Dkr-автомат, Kkr-автомат или квазилинейный автомат Qkr), то в этом случае достаточно ограничиться подбором вероятностей q и р^ (см. табл.1). Для поиска этих вероятностей необходимо разработать имитационную модель.

Модель взаимодействия автомат-среда должна предусматривать возможность исследования автоматов различных конструкций при априори неизвестных моделях среды. Поэтому имитационная модель реализуется по блочному принципу, а моделирование предлагается проводить по Лt способу. На рис. 2 приведен алгоритм имитационной модели.

В подпрограмме (1111) WWOD осуществляется задание вероятностей q и р^, модели АОАСУ, задаются начальные условия, вводятся параметры для получения

Рис. 2. Алгоритм имитационной модели

статистических данных. Идентификатор тактов моделирования Т имеет смысл дискретного времени. Моделирование происходит за заданное число тактов TZ, величина TZ задается в ПП WWOD.

IIII MOB реализует модель объекта. Выходным параметром ПП MOB является идентификатор М. При поощрении M=I и М=0 при наказании АОАСУ. ПП STAT1 предназначена для набора статистических данных о поведении объекта. ПП AWT реализует алгоритм модели АОАСУ. Выходными параметрами ПП AWT являются идентификаторы К и L. L определяет индекс выходного сигнала yi автомата, L=1,2,...,N, а К определяет номер состояния автомата в L-й ветви в такте Т, причем К=1,2,...,р. ПП STAT2 предназначена для набора статистических данных о поведении АОАСУ. По окончании процесса моделирования ПП WIW осуществляет вывод статистических данных.

Модель объекта может быть задана в виде матрицы Р, имеющей L строк и два столбца. Элемент P(L,1) матрицы есть вероятность поощрения (см. табл.1), а элемент P(L,2) - вероятность наказания АОАСУ за действие yi. Определим P(L,1) соответственно идентификатором PP(L). Тогда алгоритм ПП MOB будет основан на имитации события в схеме случайных событий, как показано на рис. 3.

Рассмотрим возможную реализацию ПП STAT1. Пусть необходимо в процессе моделирования набрать статистические данные значений частот S(+1) -появления сигналов Xi и S(-1) - появления сигналов Х2, а также частот событий появления сигналов Xi либо X2 при выходном сигнале yi. Введем идентификаторы: для частот S(+1) и S(-1) соответственно S(M); для частот появления сигналов X1(t+1) либо X2(t+1) при yi(t) соответственно SH(M,L). Тогда алгоритм ПП STAT1 будет иметь вид, приведенный на рис. 4.

Для автоматов, на основе которых реализована АОАСУ, разработаны имитационные алгоритмы. Например, для автомат с линейной тактикой алгоритм подпрограммы (ПП LРN) приведен на рис. 5. ПП SMENA реализует переход из граничного состояния при сигнале Х2.

Puc. 3. Алгоритм ПП MOB

Puc. 4. Алгоритм ПП STAT1

Рис. 5. Алгоритм работы подпрограммы с линейной тактикой Алгоритм подпрограммы STAT2 приведен на рис. 6. В подпрограмме STAT2 собираются статистические данные частот действий у (идентификатор П(Ь}), длительности непрерывного действияуі (идентификатор В1(К,3)).

Г 8 -------1------------

| B1(K,J)=B1(K,J)+1

0 9^ ^ г 10

Рис. 6. Алгоритм подпрограммы STAT2

Идентификатор Б1(К^) соответствует частоте события, состоящего в том, что время непрерывного действия Уь=к меньше либо равно величине 3=Л(К,3), где А(К^ - граница оценки действия уь=к.

БИБЛИОГРАФИЧЕСКИМ СПИСОК

1. Срагович В.Г. Теория адаптивных систем. М.: Наука, 1976.

2. Варшавский В.И. Коллективное поведение автоматов. М.: Наука, 1973.

i Надоели баннеры? Вы всегда можете отключить рекламу.