Об устойчивости метода восстановления распределений многомерных случайных функций по распределениям проекций

Шестаков О.В.

9. Захарова И.Г., Карамзин Ю.Н., Трофимов В.А., Веремеенко Т.В. Расчет процесса теплового самовоздействия двумерных световых пучков в прозрачной и облачной среде // Программное обеспечение ЭВМ. Библиотека прикладных программ БИМ-М. № 21. Минск: Ин-т ма-тем. АН БССР, 1990. С. 123-130.

10. Самарский А.А. Теория разностных схем. М.: Наука, 1989.

11. Самарский А.А., Николаев Е.С. Методы решения сеточных уравнений. М.: Наука, 1978.

12. Trofimov V. A., Matusevich О. V. Comparison of efficiency of various difference schemes for the problem of SHG in media with quadratic and cubic nonlinear response // Abstract of FDM'06. Rousse; Bulgaria, 2006. P. 24-25.

13. Ashihara S. et al. Soliton compression of femtosecond pulses in quadratic media // JOSA B. 2002. 19. N 10. P. 2505-2510.

14. www.intel.com

15. Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002.

16. www.openmp.org

Поступила в редакцию 22.11.06

УДК 519.2

0. В. Шестаков

ОБ УСТОЙЧИВОСТИ МЕТОДА ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ФУНКЦИЙ ПО РАСПРЕДЕЛЕНИЯМ ПРОЕКЦИЙ1

(кафедра математической статистики факультета ВМиК, e-mail: oshestakov@cs.msu.su)

1. Введение. Томографические методы находят широкое применение во многих областях науки. Эти методы основаны на обращении преобразования Радона и позволяют восстановить описывающую объект функцию нескольких переменных, если известны все ее проекции. В различных приложениях (см. [1, 2]) иногда приходится рассматривать случайные функции нескольких переменных. При этом основной особенностью является то обстоятельство, что разным реализациям проекций соответствуют разные реализации случайной функции. В результате восстановление даже одной реализации многомерной случайной функции обычными томографическими методами невозможно.

Задачи подобного рода привели к появлению нового направления теории томографии — стохастической томографии. Основной интерес в задачах стохастической томографии представляют собой вероятностные характеристики случайных функций.

В работах [3-5] предпринимается попытка ответить на вопрос: можно ли восстановить вероятностные характеристики случайной функции, зная вероятностные характеристики ее проекций? Приводится ряд контрпримеров. Показывается, что для определенного класса случайных функций такое восстановление возможно, и для этого класса разрабатывается основанный на моментах проекций метод восстановления распределений случайных функций по распределениями проекций. В [6] приводятся численные оценки погрешности этого метода.

В данной работе мы предлагаем модифицированную версию метода восстановления распределений случайных функций. Метод основан на интерполяции функций моментов многочленами Чебышева и позволяет значительно уменьшить погрешность восстановления по сравнению с методом, предложенным в [5]. Будет рассмотрено два случая: когда погрешность проекций не превосходит заданного уровня и когда проекции регистрируются с аддитивным шумом.

1 Работа выполнена при финансовой поддержке РФФИ (гранты № 05-01-00535, 04-01-00671).

2. Постановка задачи. Пусть имеется двумерная случайная функция £(х,у). Относительно этой случайной функции будем предполагать, что она интегрируема с вероятностью 1 и имеет компактный носитель. Без потери общности будем считать, что этим носителем является единичный круг с центром в начале координат: II = {(х,у) 6 И.2 : х2 + у2 ^ 1}. Функции, совпадающие всюду, за исключением множеств нулевой лебеговой меры, будем считать эквивалентными. Тогда проекции функции £(х,у) — это одномерные случайные функции вида

л/Г^Р"

= J сое <р — у вт (р, в вт <р + у сое <^б[0,7г), — 1 ^ 5 ^ 1.

Предполагается, что известны все совместные распределения (по в) проекций для каждого угла (р. Задача состоит в нахождении совместных распределений случайной функции £(х,у).

Оказывается, в общем случае нельзя однозначно определить совместные распределения У1), • • •, £(хт, Ут), если известны совместные распределения ^ (в!),..., С(«га) для всех т = = 1,2,... и всех (р 6 [0,7г) (см. [4]). Однако удается выделить довольно широкий класс случайных функций, достаточный для многих приложений, в котором вероятностные характеристики двумерной случайной функции могут быть полностью восстановлены, если известны вероятностные характеристики некоторого множества проекций.

3. Класс Т случайных функций и теорема единственности. Пусть Т — множество всех случайных функций £(х,у) вида

где /1 (ж, у), /г(ж, у),... — последовательность интегрируемых функций, определенных в единичном круге С/, а г/ — случайная величина, принимающая целые положительные значения. Далее класс Т рассматривается в качестве основной модели.

Случайные функции из класса Т есть не что иное, как дискретные случайные элементы в пространстве Ь1(и), и их вероятностная структура полностью определяется набором

(Л(ж, г/), /2(ж, г/),. ..;Р1,Р2, ■ ■ ■),

оо

где = у) = /¿(ж, у)), г = 1,2,..., ^ Рг = 1- Распределение у) будем обозначать Р^.

¿=1

Оказывается, что в рамках введенной модели (класс Т) распределение двумерной случайной функции полностью определяется распределениями проекций, а именно имеет место следующая теорема (см. [3]).

Теорема. Пусть £(х,у) Е Т, г](х,у) 6 Т и

— Рг/'Р

для всех <р 6 А С [0,7г), где Л бесконечно. Тогда

=

то. е. в классе Т распределение любой случайной функции однозначно определяется распределениями любого бесконечного множества проекций.

4. Группировка проекций. Итак, в классе Т случайных функций возможно восстановить распределение двумерной случайной функции, зная распределения бесконечного множества ее проекций. В работе [5] предложен алгоритм, позволяющий разделить множество зарегистрированных проекций на группы, соответствующие различным реализациям случайной функции. Однако погрешность этого метода достаточно велика, поскольку используемую в нем функцию момента приходится экстраполировать. Здесь мы предлагаем модифицированную версию этого метода, которая за счет увеличения числа операций позволяет значительно уменьшить погрешность восстановления. Предлагаемый здесь метод рассчитан на случай, когда Л = [0, тг).

Мы опишем алгоритм группировки проекций для случая, когда случайная функция может принимать только два состояния. Обобщение на любое конечное число состояний очевидно, а для случая

счетного числа состояний можно применить "усечение" распределений проекций, как это делается в [5].

Итак, пусть случайная функция £(х,у) принимает значения /1 (х,у) и /2 (х,у) с вероятностями р\ и р2- Предполагается, что известны распределения для р> 6 [0,7г), т.е. для каждого р 6 [0,7г)

известны функции /^(в), I = 1,2, являющиеся проекциями функций //(«), I = 1,2, и реализующиеся с вероятностями р\ и р2 соответственно. Причем, вообще говоря, заранее неизвестно, какая реализация проекции какой реализации функции соответствует, т.е. может быть так, что (я) является проекцией /2 (ж, у), а /2 (в) — проекцией /\(х, у). Необходимо распределить функции /^(в), I = 1, 2, для всех р £ [0,7г) по группам так, чтобы каждая группа реализаций проекций относилась к одной реализации случайной функции.

Если р\ ф р2, то такое разделение можно произвести по вероятностям реализаций проекций, т.е. для всех р £ [0,7г) то значение /¡'(в), которое реализуется с вероятностью р\, мы относим к первой группе, а значение /^(в), которое реализуется с вероятностью р2, — ко второй.

В случае, когда р\ = Р2 = метод группировки проекций основан на следствии из обобщенной проекционной теоремы, которое утверждает, что

т

Интеграл (р) называют то-м моментом проекции для данного угла <р, и равенство означает,

что то-й момент проекции представляется конечным рядом Фурье по переменной р>. Используя это свойство проекций, можно построить алгоритм группировки проекций.

Сначала возьмем интегралы от /^(в), г = 1,2, по в для некоторого р> 6 [0,7г) (т.е. посчитаем

(¥>))• Если интегралы отличны друг от друга, то, поскольку значения этих интегралов не зависят от угла р>, можно произвести группировку, основываясь на этих значениях. Чтобы это сделать, для каждого р> Е [0,7г), беря интегралы по 5 от (в), г = 1,2, будем относить /^(в) к той или иной группе в зависимости от того, чему равен интеграл. В результате в каждой группе окажутся функции /^(в), р> £ [0,7г), интегралы от которых по в равны одному и тому же значению.

Если интегралы от /^(в), г = 1,2, по в совпадают, будем рассматривать моменты проекций для т > 0. Заметим, что в силу компактности носителя функций если все моменты двух функций совпадают между собой, то эти две функции эквивалентны. Значит, если функции /¡'(в), I = 1,2,

различны, то найдется номер то, для которого моменты проекций (</?), I = 1,2, различаются.

Посчитаем моменты (р>п) в точках срп = ^ 1 ^ = 1, 2, га = 1,..., М, где М = 2то + 1. Всего

существует 2м способов распределить значения ,1\т\<рп), I = 1,2, по двум группам (на практике М, как правило, невелико). Обозначим через Р множество всех возможных распределений. Решим системы уравнений

т

Е 1т3егп^ = Ы, 1к= 1,2, к=1,...,М,

3=-т

для всех возможных распределений к из Р. В результате получим 2м функций (обозначим их (</?), к = 1,...,2М), претендующих на роль функций моментов ,1\т\<р), I = 1,2. Если предположить отсутствие погрешностей, то достаточно, перебирая (</?), проверять, равно ли значение (</?*) какому-либо из значений (V3*), / = 1, 2, в произвольно выбранной точке р)*, отличной от точек рп.

При том /г*, при котором равенство имеет место, совпадает с одной из ,1\т\<р), I = 1,2, для

всех р 6 [0,7г), поскольку многочлены степени М, совпадающие более чем в М точках, тождественно равны.

После того как найдены функции моментов, вычисляя для каждого р 6 [0, тг) моменты проекций, мы относим проекции к той или иной группе в зависимости от того, со значением какой из найденных функций в точке р совпадает это вычисленное значение момента. Затем можно восстановить каждую реализацию случайной функции, а значит, и ее распределение обычными томографическими методами.

5. Метод группировки проекций при наличии погрешностей в проекциях. На практике мы имеем дело с конечным набором проекций для углов <¿>1,... Причем, как правило, проекции задаются не точно, а с некоторой погрешностью. Погрешности возникают вследствие несовершенства оборудования, регистрирующего проекции, случайных помех при измерении, ошибок интерполяции и других причин.

Предположим, что проекции каждой реализации у) заданы с погрешностью, не превышающей какого-то заданного уровня е:

/Г («)-/,№

< £,

в 6 [-1,1], /=1,2, г = 1,...,ЛГ,

проекции, измеренные с ошибкой.

Тогда значения интегралов от проекций заданы с погрешностью

1 1 /(/Л«) -/,>))*« ^ /1/Г («)-/,№

¿в < 2е,

-1

а значения моментов проекций 1

-1

с погрешностью 1

Ив < I Е I ¿>т I <С

2е

т + 1

-1 -1 -1

Следовательно, можно считать, что интегралы от /^'(й), I = 1,2, г = 1,..., М, не совпадают, и производить группировку проекций на основании значений этих интегралов, если выполнено условие

1 1

-1 -1

> 2е

для некоторого 1 ^ ] ^ N. Если же это условие не выполнено, то можно считать, что они совпадают и разница между ними возникает за счет погрешностей.

Для оценки погрешности, с которой вычисляются функции моментов проекций, воспользуемся известной оценкой погрешности интерполяции многочленами Чебышева (см. [7]). В результате для функции претендующей на роль функции момента (</?), I = 1 или I = 2, должно

няться

гМ/^л _ И"1),

выпол-

или

(т)

/ 4

< - 8 + - 1п(2га + 1)

/ 4

^ - 8 + - 1п(2га + 1)

т + 1 V 7Г

для всех i = 1,..., Лг. Поэтому алгоритм поиска такой функции можно представить следую-

щим образом.

1. Выбираем распределение к из множества возможных распределений Р и находим функцию

2. Полагаем г = 1.

3. Проверяем, выполняется ли условие

или

Ъе ( 4

^ - 8 + - 1п(2га + 1)

т + 1 \ 7Г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ 4

^ - 8 + - 1п(2га + 1) .

т + 1 V 7Г '

4. Если условие не выполнено, то исключаем распределение к из множества возможных распределений Р и переходим к шагу 1. Если условие выполнено и I ф И, то полагаем г = г + 1 и переходим к шагу 3. Если же условие выполнено и I = И, то алгоритм завершает работу и мы полагаем

Поскольку мы рассматриваем случай, когда случайная функция может принимать два состояния, достаточно найти одну функцию момента и производить группировку проекций по ее значениям.

Описанный метод является более трудоемким, чем метод, предложенный в [5], где используется экстраполяция функции момента, но оценка его погрешности значительно лучше, чем оценка в [6], что позволяет надеяться на более точное восстановление состояний случайной функции.

6. Группировка проекций в модели с аддитивным шумом. Рассмотрим теперь следующую модель проекционных данных:

+ «е[-1,1], /=1,2, г=1,...,ЛГ,

где (в) — истинные проекции, а (в) — однородные случайные функции с нулевым математическим ожиданием и ковариационной функцией К8{81—^2), одинаковой для всех <рч и I. Мы предполагаем, что проекции для различных углов <рч и для различных I регистрируются независимо друг от друга. Тогда моменты проекций будут описываться следующей моделью (включая случай то = 0):

•С М = М +

где £1^ — независимые случайные величины с нулевым математическим ожиданием и дисперсией

1 1

2

°т = У У (5152)тК8(51 - 82)А8Хй82. -1 -1

Поиск различающихся моментов осуществляется проверкой гипотез против альтернатив

Я1: Ф 4т)Ы

для 1= 1,..., Лг. (Описание критериев одновременной проверки подобных гипотез можно найти, например, в [8, 9].)

При обнаружении различающихся моментов (то ^ 1) так же, как в пункте 4, для всех 2м распределений Р составим системы уравнений

т

Е = Ы, 1к= 1,2, к = 1,..., М.

3=-т

Решая эти системы методом наименьших квадратов [10], получим 2м функций ./„ш! р%) (Ь =

= 1,...,2М, г = 1,...,./У), претендующих на роль функций моментов Так как случайная

функция принимает два состояния, достаточно найти оценку одной функции момента. В качестве такой оценки «/^ш! /г* (^г) возьмем ту ./„ш! /г^г), которая минимизирует выражение

N

гМ _ И™) :

¿=1

на множестве всех распределений к из Р.

Затем для каждого г = 1,..., ./V относим к первой группе то , которое минимизирует по I

разность ./„ш! /г* (^г) — {^рг) , а оставшееся относим соответственно ко второй группе.

Если гипотезы Но отвергнуты при то = 0, т.е. отличаются интегралы от проекций, то системы решать не нужно. Группировка в этом случае производится по средним значениям интегралов проекций (средние значения уточняются на каждом шаге), поскольку I = 1,2, не зависят

от p>i.

СПИСОК ЛИТЕРАТУРЫ

1. Liu W., Frank J. Estimation of variance distribution in three-dimensional reconstruction. 1. Theory // J. Opt. Soc. Am. A. 1995. 12. P. 2615-2627.

2. RadermacherM. Three-dimensional reconstruction of single particles from random and nonrandom tilt series // J. Electron Microscopy Technique. 1988. 9. P. 359-394.

3. Ушаков В.Г., Ушаков Н.Г. Восстановление вероятностных характеристик многомерных случайных функций по проекциям // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2001. № 4. С. 32-39.

4. Шестаков О. В. О единственности восстановления вероятностных характеристик многомерных случайных функций по вероятностным характеристикам их проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2003. № 3. С. 37-41.

5. ShestakovO.V. An algorithm to reconstruct probabilistic distributions of multivariate random functions from the distributions of their projections //J. of Mathematical Sciences. 2002. 112. N 2. P. 41984204.

6. Шестаков О. В. Влияние погрешностей в проекционных данных на алгоритм восстановления распределения случайной функции из распределений ее проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2002. № 2. С. 35-40.

7. Гончаров В. JI. Теория интерполирования и приближения функций. М., 1933.

8. Benjamini Y., Wei L. False discovery rate control in multiple hypothesis testing using dependent statistics // J. Statist. Plan. Infer. 1999. 82. P. 163-170.

9. Abramovich F., Benjamini Y. Thresholding of wavelet coefficients as multiple hypotheses testing procedure // Wavelets and Statistics / Ed. by A. Antoniadis, G. Oppenheim. N.Y.: Springer-Verlag, 1995. P. 5-14.

10. Ивченко Г. И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1992.

Поступила в редакцию 03.10.2006

УДК 577.112.5

И. А. Федулова

РОБАСТНЫЙ АЛГОРИТМ ИДЕНТИФИКАЦИИ ПРОТЕИНОВ В БАЗЕ ДАННЫХ1

(кафедра автоматизации научных исследований факультета ВМиК, e-maib.fedulova@cs.msu.su)

1. Введение. Идентификация протеинов — одна из важных задач в протеомике. Протеин представляет собой последовательность молекул аминокислот, соединенных в линейную цепочку. Протеины всех живых организмов построены из 20 различных аминокислот. В настоящее время существует большое число баз данных, хранящих аминокислотные последовательности различных протеинов. Например, популярная база SwissProt [1] содержит последовательности около 200 000 протеинов. Аминокислотные последовательности обычно кодируются буквенными строками, где каждая буква кодирует определенную аминокислоту.

Идентификацей протеинов называется процесс, в котором по экспериментальному образцу протеина определяется его название или номер в базе данных.

При составлении баз данных аминокислотных последовательностей протеинов биологи использовали метод деградации Эдмана, который основывался на отщеплении одной аминокислоты с конца протеина и ее последующем определении с помощью химической реакции. Так, по одной аминокислоте

1 Работа выполнена при поддержке гранта РФФИ 05-07-90238.

Похожие темы научных работ по математике , автор научной работы — Шестаков О. В.

Текст научной работы на тему «Об устойчивости метода восстановления распределений многомерных случайных функций по распределениям проекций»