Научная статья на тему 'Использование алгоритма ожидания и максимизации правдоподобия в марковской модели непрерывного профиля для синхронизации сигналов манипулятора'

Использование алгоритма ожидания и максимизации правдоподобия в марковской модели непрерывного профиля для синхронизации сигналов манипулятора Текст научной статьи по специальности «Математика»

CC BY
50
14
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Пономарев Д. И., Кухаренко Б. Г.

Рассматривается задача синхронизации управляющих сигналов манипулятора, чувствительными элементами которого являются прецизионные акселерометры. Данные записываются с двух независимых датчиков ускорения, установленных в устройстве. Из-за неточной калибровки акселерометров, шумов электрической схемы манипулятора, а также из-за асинхронности тактовых сигналов записи датчиков имеют различия. Для выравнивания сигналов используется марковская модель непрерывного профиля, параметры которой оцениваются при помощи алгоритма ожидания и максимизации правдоподобия. В работе получены результаты синхронизации двух управляющих сигналов манипулятора.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Пономарев Д. И., Кухаренко Б. Г.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование алгоритма ожидания и максимизации правдоподобия в марковской модели непрерывного профиля для синхронизации сигналов манипулятора»

УДК 519.876

Д.И. Пономарев1,2, Б.Г. Кухаренко3,1 1 Московский физико-технический институт (государственный университет)

2 ООО «НетКрэкер»

3 Институт машиноведения им. А.А. Благонравова РАН

Использование алгоритма ожидания и максимизации правдоподобия в марковской модели непрерывного профиля для синхронизации сигналов

манипулятора

Рассматривается задача синхронизации управляющих сигналов манипулятора, чувствительными элементами которого являются прецизионные акселерометры. Данные записываются с двух независимых датчиков ускорения, установленных в устройстве.

Из-за неточной калибровки акселерометров, шумов электрической схемы манипулятора, а также из-за асинхронности тактовых сигналов записи датчиков имеют различия. Для выравнивания сигналов используется марковская модель непрерывного профиля, параметры которой оцениваются при помощи алгоритма ожидания и максимизации правдоподобия. В работе получены результаты синхронизации двух управляющих сигналов манипулятора.

Ключевые слова: дистанционный манипулятор, акселерометр, управляющий сигнал, алгоритм ожидания и максимизации правдоподобия, марковская модель непрерывного профиля, алгоритм Витерби, алгоритм прямой и обратной рекурсии.

I. Манипулятор на основе прецизионного акселерометра

В данной работе рассматривается задача восстановления управляющего сигнала манипулятора, чувствительным элементом которого является прецизионный акселерометр [1].

Внешний вид манипулятора показан на рис. 1.

Это устройство представляет собой манипулятор нового поколения. Он способен отслеживать вращательные движения руки оператора и использовать их для позиционирования курсора компьютерной мыши. Ключевым элементом устройства является прецизионный акселерометр типа MEMS (Micro-Electro-Mechanical System) (рис. 2).

Так как акселерометр обладает чувстви- Рис. 1 Внешний вид манипулятора

тельностью к земной гравитации, то изменение его положения относительно направления ускорения g силы тяжести приводит к изменению значений проекций этого ускорения на чувствительные оси акселерометра x, y, z. Значения этих проекций используются для формирования управляющего сигнала.

Акселерометр, как и вся электронная часть устройства, помещена в корпус, который крепится на руке оператора. Таким образом, посредством наклонных движений руки производится позиционирование курсора компьютерной мыши.

Блок-схема, демонстрирующая принцип работы устройства, изображена на рис. 3. Аналоговые значения проекций ускорения периодически выбираются и конвертируются при помощи АЦП в набор цифровых выборок ax (n), ay (n), az (n). Далее микроконтроллер производит цифровую обработку полученного сигнала и преобразует его в сигнал для позиционирования курсора компьютерной мыши.

Данные записываются с двух независимых акселерометров, установленных на печатной плате манипулятора. Так как в цепях питания акселерометров присутствуют электрические шумы, а также из-за неточной калибровки датчиков показания акселерометров могут отличаться друг от друга. Для восстановления управляющего сигнала манипулятора в данной работе используется марковская модель непрерывного профиля, параметры которой оцениваются при помощи алгоритма ожидания и максимизации правдоподобия.

Рис. 2. Три чувствительных оси МЕМБ-акселеро-метра и ускорение д силы тяжести

Рис. 3. Блок-схема управляющего контура дистанционного манипулятора

Компьютер

II. Марковская модель непрерывного профиля

Рассмотрим набор из К временных рядов хк = (х'к, , ..., к). При этом частота дискретиза-

ции не обязана быть одинаковой для различных временных рядов из данного набора. Более того, она может не быть постоянной в пределах одного временного ряда хк. Для удобства считаем, что Nk = N для всех к. Данное ограничение не является требованием данной модели. Ее можно распространить и на случай различных Nк. Модель непрерывного профиля задается следующим образом: предполагается, что существует скрытая последовательность, г = (г\, г2, .., гм), каноническое представление набора зашумленных входных данных [2]. Любой временной ряд из данного набора моделируется как неравномерно во времени формируемая версия скрытой последовательности, к которой применены локальные преобразования масштаба. В идеальном случае М должно быть бесконечно большим, чтобы точки любого временного ряда могли быть отображены в соответствующие точки скрытой последовательности. На практике используется М = (2 + e)N, где е < 0,2. В силу того, что длина скрытой последовательности больше, чем длина наблюдаемого временного ряда, наблюдаемое время может быть эффективно ускорено или замедлено. Локальное масштабирование, используемое при генерации каждого наблюдаемого временного ряда, задает-

ся последовательностью скрытых состояний. Обозначим последовательность скрытых состояний для к-го временного ряда как пк. Каждое состояние из последовательности скрытых состояний состоит из состояния времени и состояния масштаба: пк ^ {тк,^к}. Состояния времени могут принимать целые значения в диапазоне (1, ..., М), состояния масштаба принадлежат упорядоченному набору (^>1, ..., ^Q). В описываемом эксперименте используется Q = 7 равноудаленных состояний в логарифмическом масштабе. Распределение вероятности элемента хк при условии скрытого состояния пк задается выражением: Апк(хк|г) = р(хк|пк, г, а, ик) = N(хк; г к(ркик, а2),

г г

где N(х; л, а2) — плотность вероятности нормального распределения случайной величины х со средним значением л и дисперсией а2, ик — вещественные масштабные коэффициенты, каждый такой коэффициент является уникальным для временного ряда. Для того чтобы полностью определить данную модель, необходимо задать вероятности переходов из одного состояния в другое. Распределение вероятности переходов для состояний масштаба и состояний времени являются независимыми. Поэтому вероятность перехода из состояния п] в состояние п% задается выражением: Тк ,Пг = p(пi|пj) = p(^i|^j)рк(т^т]). На модель накладывается дополнительное ограничение, что из данного состояния времени нельзя перейти более чем на ■] состояний вперед. Подобное ограничение существует и для переходов между состояниями масштаба. Из данного состояния масштаба возможны переходы только в соседние состояния. Данные ограничения обеспечивают сокращение времени работы алгоритма. Каждый наблюдаемый временной ряд имеет свое распределение вероятностей переходов из одного состояния времени в другое состояние времени. Распределения вероятности переходов из одного состояния в другое для состояний времени и состояний масштаба являются полиномиальными:

¿к, если а — Ь = 1,

рк (Ті = а|Ті_1 = b) = <

dk, если а — b = 1,

р(рі = а|<£і_і = b) =

dJ, если а — b = J, 0, иначе;

so, если D(a,b) = 0, если D(a,b) = 1, Sb если D(a,b) = —1,

0, иначе

соответственно, где 0(а,Ь) = 1 означает, что а на одно состояние масштаба больше, чем Ь, 0(а,Ь) = —1 означает, что а на одно состояние масштаба меньше, чем Ь, и 0(а,Ь) = 0 означает, что а = Ь. Условия нормировки: 2в1 + Зо = 1 и ^¡=1 (1к = 1.

III. Обучение модели посредством алгоритма ожидания и максимизации

правдоподобия

и

Для оценки параметров модели используется алгоритм ожидания и максимизации правдоподобия (EM-алгоритм) [3, 4]. На E-шаге используется алгоритм прямой и обратной рекурсии [5]. Этот алгоритм позволяет вычислить следующие условные вероятности: Yk(i) = р(пі = s|X) и (s,t(i) = р(пі_і = s,ni = t|xk). На M-шаге оцениваются параметры модели. Логарифм правдоподобия K наблюдаемых временных рядов хк задается выражением: LP = L + P, где L — логарифм правдоподобия в скрытой марковской модели, и вычисляется посредством алгоритма прямой и обратной рекурсии, P — логарифм правдоподобия, отвечающий за априорные ограничения, наложенные на модель. Выражения для составляющих логарифма правдоподобия:

K / N N \

L = S l0g Р(П1) + S l0g Лжі(xk |Z) + S l0g Тк-1 ,ni) ,

k=1 \ і=1 і=2 J

t _1 K

P = -^ S(Zj+1 — zj)2 + S l0g D(dk }) + log D(sv ttv'v }).

j=1 k=1

Первая составляющая P соответствует ограничению, связанному со сглаживанием скрытой последовательности, параметр Л контролирует степень сглаживания скрытой последовательности. Второй и третий члены отвечают за ограничения, наложенные на вероятности переходов из состояния в состояние, соответственно для состояний времени и масштаба. Параметры пк и nV — параметры распределения Дирихле. Данное ограничение необходимо для того, чтобы отличные от нуля вероятности переходов оставались ненулевыми. Обозначим через S общее число возможных состояний, тогда ожидаемый полный логарифм правдоподобия:

<LP > п = P + £f=1 £f=1 Yksql) log+ £f=1 £f=1 Yks (i) log As(xk\z) + ... ...

... + EK=1 ES=1 ESU EN=2 (i) logTks, ( 1

где Tks = p(n1 = s), Yk(i) и (Sk s, (i) — условные вероятности, определенные посредством алгоритма прямой и обратной рекурсии. Оценки значений параметров модели получаются взятием производных по данным параметрам от математического ожидания логарифма правдоподобия (1) и приравниваем их к нулю. Для вычисления оценок значений для точек скрытой последовательности, получаем систему из M уравнений:

j/4 j (x ■ —ZjU ^o)

„ k _j______Z±L

{i)<psuh

^ — Л(4Zj - 2zj-1 - 2Zj+1) для j = 1, ..., M.

k=1 {s|rs=j}

Для случаев ] = 1 и М соответственно члены г]-1 и г]+1 равны нулю. Получаем систему из М уравнений с М неизвестными. При этом каждое уравнение содержит только три элемента скрытой последовательности. Решая линейную систему уравнений с трехдиагональной матрицей, получаем скрытую последовательность. Аналитические формулы для а2 и ик:

а2 = Е£=1 Ег=1 (г)(4 — ^ ик Уз)2

N ,

ик = Е=1 гт8 Уз Е^=1 1к3 (1)хк Е!^Уз)2 Е]=1 ^(г).

Выражения для оценок вероятностей переходов для состояний времени и состояний масштаба:

пк + в у^;=з £*,/'(г)

^к = ™ ^3=1 ^ {«'К'-т,=ъ}

Ej=1 Vj + Ej=1 Es=1 E{s'|rs,—ts =j} Ej=2 (i)

Vj + Efc=1 Es=1 E{s"eH(s,v)} Ei=2 (i)

sv =

Е]=0 + Е#г=1 Ез=1 Е{з''€Я(з,1),Я(3,0)} Ег=2 С^,/' (г)

Выражения для оценок параметров а2, ик, г связаны между собой. Поэтому необходимо задать последовательность, в которой будет происходить оценка этих параметров. В работе использован следующий порядок вычисления: а2, г, ик. Два других параметра ^, въ никак не связаны между собой. Следует также отметить, что не используется нормировка в выражениях для распределения Дирихле, а также в показателе степени отсутствует минус единица: 0(й/к|{п^}) = П^= 1(^ки)Пк, в(в» 1{пЪ}) = П 1=о(въ)п;. Макет программной реализации метода модели непрерывного профиля описан в [6].

IV. Синхронизация сигналов манипулятора

В данной работе проведен следующий эксперимент: произведена запись управляющих сигналов манипулятора одновременно с двух независимых датчиков ускорения при выполнении произвольного движения руки с данным манипулятором. При этом акселерометры имеют независимые

цепи питания и независимые сигналы тактовой частоты. Запись сигналов производится только для одной чувствительной оси акселерометров. Полученные сигналы не синхронизованы во времени, а также имеют различную величину (рис. 4).

X

500 1000 1500 2000 2500 3000

Рис. 4. Временные зависимости проекции ускорения х = х(і), полученные для двух независимых датчиков. Точками обозначен сигнал с первого акселерометра, а пунктиром — со второго

Рис. 5. Временные зависимости х' = х'(Ь)

Различия в величине сигналов вызвано несколькими факторами. Главные из них: неточная калибровка датчиков; шумы в цепях питания акселерометров; неточная установка датчиков, которая приводит к некоторому постоянному сдвигу в сигналах датчиков. В силу того что акселерометры используют независимые тактовые сигналы, которые не синхронизованы, в записях сигналов также наблюдается рассинхронизация.

Сигналы переведены в энергетический диапазон значений следующим образом:

х'(г) =

ь (™(!т + 1+к)х(іЬ+к)У

к—

где и> — оконная функция Ханна, Ь — размер окна Ханна [7,

8]. В данной работе используется значение Ь = 8. Чтобы длина синхронизованных сигналов совпадала с длиной исходных сигналов, используется линейная интерполяция. Полученные сигналы показаны на рис. 5.

Рис. 6. Зависимости скрытой последовательности от времени, г = г (і)

Рис. 7. Зависимость логарифма правдоподобия от числа итераций

Преобразованные сигналы х' = х'(Ь) прошли процедуру выравнивания при помощи марковской модели непрерывного профиля. Скрытая последовательность для данного набора из двух сигналов показана на рис. 6.

Обучение модели производилось при помощи алгоритма ожидания и максимизации правдоподобия. Этот алгоритм демонстрирует достаточно хорошую сходимость, что видно из графика зависимости логарифма правдоподобия (1) от номера итерации (рис. 7).

После обучения модели при помощи алгоритма ожидания и максимизации правдоподобия произведена синхронизация сигналов (рис. 5) при помощи алгоритма Витерби [9, 10]. Результат синхронизации сигналов изображен на рис. 8.

Литература

1. Kukharenko B.G., Ponomarev D.I. Bayesian filtering of control signal of telerobotic manipulator with precise accelerometer // Проблемы машиностроения и автоматизации. — 2011. — № 1. — С. 72-76.

2. Listgarten J., Neal R.M., Roweis S.T., Emili A. Multiple alignment of continuous time series / ed. by L.K. Saul, Y. Weiss, L. Bottou // Advances in Neural Information Processing Systems. Cambridge, MA: The MIT Press. — 2005. — V. 17. — P. 5-13.

3. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm // Proceedings of the Royal Statistical Society. — 1976. — P. 1-38.

4. Neal R., Hinton G. A view of the EM algorithm that justifies incremental, sparse, and other variants / ed. M.I. Jordan // Learning in Graphical Models. Kluwer Academic Press. — 1998. — P. 355-368.

5. Poritz A.B. Hidden Markov models: A guided tour // Proceedings of the IEEE Conference on Acoustics, Speech and Signal Processing (ICASSP). Morgan Kaufmann. — 1988. — P. 7-13.

6. Listgarten J. Analysis of Sibling Time Series Data: Alignment and Difference Detection. PhD Thesis. University of Toronto: Graduate Department of Computer Science. — 2007.

7. Oppenheim A.V., Schafer R.W. Discrete-Time Signal Processing. 2nd ed. Upper Saddle River, NJ: Prentice-Hall. 1999.

8. Dimitriadis D., Potamianos A., Maragos P. A comparison of the squared energy and Teager-Kaiser operators for short-term energy estimation in additive noise // IEEE Transactions on signal processing. — 2009. — V. 57, N 7. — P. 2569-2581.

9. Витерби А. Границы ошибок для сверточных кодов и асимптотически оптимальный алгоритм декодирования // Некоторые вопросы теории кодирования. — М.: Мир. — 1970. — С.142-165.

10. Viterbi A.J. Convolutional codes and their performance in communication systems // IEEE Transactions on Communication Technologies. — 1971. — V. COM-19. — P. 751-772.

Поступила в редакцию 17.03.2011.

i Надоели баннеры? Вы всегда можете отключить рекламу.