Научная статья на тему 'Об устойчивости метода восстановления распределений многомерных случайных функций по распределениям проекций'

Об устойчивости метода восстановления распределений многомерных случайных функций по распределениям проекций Текст научной статьи по специальности «Математика»

CC BY
42
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об устойчивости метода восстановления распределений многомерных случайных функций по распределениям проекций»

9. Захарова И.Г., Карамзин Ю.Н., Трофимов В.А., Веремеенко Т.В. Расчет процесса теплового самовоздействия двумерных световых пучков в прозрачной и облачной среде // Программное обеспечение ЭВМ. Библиотека прикладных программ БИМ-М. № 21. Минск: Ин-т ма-тем. АН БССР, 1990. С. 123-130.

10. Самарский А.А. Теория разностных схем. М.: Наука, 1989.

11. Самарский А.А., Николаев Е.С. Методы решения сеточных уравнений. М.: Наука, 1978.

12. Trofimov V. A., Matusevich О. V. Comparison of efficiency of various difference schemes for the problem of SHG in media with quadratic and cubic nonlinear response // Abstract of FDM'06. Rousse; Bulgaria, 2006. P. 24-25.

13. Ashihara S. et al. Soliton compression of femtosecond pulses in quadratic media // JOSA B. 2002. 19. N 10. P. 2505-2510.

14. www.intel.com

15. Воеводин В. В., Воеводин Вл. В. Параллельные вычисления. СПб.: БХВ-Петербург, 2002.

16. www.openmp.org

Поступила в редакцию 22.11.06

УДК 519.2

0. В. Шестаков

ОБ УСТОЙЧИВОСТИ МЕТОДА ВОССТАНОВЛЕНИЯ РАСПРЕДЕЛЕНИЙ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ФУНКЦИЙ ПО РАСПРЕДЕЛЕНИЯМ ПРОЕКЦИЙ1

(кафедра математической статистики факультета ВМиК, e-mail: oshestakov@cs.msu.su)

1. Введение. Томографические методы находят широкое применение во многих областях науки. Эти методы основаны на обращении преобразования Радона и позволяют восстановить описывающую объект функцию нескольких переменных, если известны все ее проекции. В различных приложениях (см. [1, 2]) иногда приходится рассматривать случайные функции нескольких переменных. При этом основной особенностью является то обстоятельство, что разным реализациям проекций соответствуют разные реализации случайной функции. В результате восстановление даже одной реализации многомерной случайной функции обычными томографическими методами невозможно.

Задачи подобного рода привели к появлению нового направления теории томографии — стохастической томографии. Основной интерес в задачах стохастической томографии представляют собой вероятностные характеристики случайных функций.

В работах [3-5] предпринимается попытка ответить на вопрос: можно ли восстановить вероятностные характеристики случайной функции, зная вероятностные характеристики ее проекций? Приводится ряд контрпримеров. Показывается, что для определенного класса случайных функций такое восстановление возможно, и для этого класса разрабатывается основанный на моментах проекций метод восстановления распределений случайных функций по распределениями проекций. В [6] приводятся численные оценки погрешности этого метода.

В данной работе мы предлагаем модифицированную версию метода восстановления распределений случайных функций. Метод основан на интерполяции функций моментов многочленами Чебышева и позволяет значительно уменьшить погрешность восстановления по сравнению с методом, предложенным в [5]. Будет рассмотрено два случая: когда погрешность проекций не превосходит заданного уровня и когда проекции регистрируются с аддитивным шумом.

1 Работа выполнена при финансовой поддержке РФФИ (гранты № 05-01-00535, 04-01-00671).

2. Постановка задачи. Пусть имеется двумерная случайная функция £(х,у). Относительно этой случайной функции будем предполагать, что она интегрируема с вероятностью 1 и имеет компактный носитель. Без потери общности будем считать, что этим носителем является единичный круг с центром в начале координат: II = {(х,у) 6 И.2 : х2 + у2 ^ 1}. Функции, совпадающие всюду, за исключением множеств нулевой лебеговой меры, будем считать эквивалентными. Тогда проекции функции £(х,у) — это одномерные случайные функции вида

л/Г^Р"

= J сое <р — у вт (р, в вт <р + у сое <^б[0,7г), — 1 ^ 5 ^ 1.

Предполагается, что известны все совместные распределения (по в) проекций для каждого угла (р. Задача состоит в нахождении совместных распределений случайной функции £(х,у).

Оказывается, в общем случае нельзя однозначно определить совместные распределения У1), • • •, £(хт, Ут), если известны совместные распределения ^ (в!),..., С(«га) для всех т = = 1,2,... и всех (р 6 [0,7г) (см. [4]). Однако удается выделить довольно широкий класс случайных функций, достаточный для многих приложений, в котором вероятностные характеристики двумерной случайной функции могут быть полностью восстановлены, если известны вероятностные характеристики некоторого множества проекций.

3. Класс Т случайных функций и теорема единственности. Пусть Т — множество всех случайных функций £(х,у) вида

где /1 (ж, у), /г(ж, у),... — последовательность интегрируемых функций, определенных в единичном круге С/, а г/ — случайная величина, принимающая целые положительные значения. Далее класс Т рассматривается в качестве основной модели.

Случайные функции из класса Т есть не что иное, как дискретные случайные элементы в пространстве Ь1(и), и их вероятностная структура полностью определяется набором

(Л(ж, г/), /2(ж, г/),. ..;Р1,Р2, ■ ■ ■),

оо

где = у) = /¿(ж, у)), г = 1,2,..., ^ Рг = 1- Распределение у) будем обозначать Р^.

¿=1

Оказывается, что в рамках введенной модели (класс Т) распределение двумерной случайной функции полностью определяется распределениями проекций, а именно имеет место следующая теорема (см. [3]).

Теорема. Пусть £(х,у) Е Т, г](х,у) 6 Т и

— Рг/'Р

для всех <р 6 А С [0,7г), где Л бесконечно. Тогда

=

то. е. в классе Т распределение любой случайной функции однозначно определяется распределениями любого бесконечного множества проекций.

4. Группировка проекций. Итак, в классе Т случайных функций возможно восстановить распределение двумерной случайной функции, зная распределения бесконечного множества ее проекций. В работе [5] предложен алгоритм, позволяющий разделить множество зарегистрированных проекций на группы, соответствующие различным реализациям случайной функции. Однако погрешность этого метода достаточно велика, поскольку используемую в нем функцию момента приходится экстраполировать. Здесь мы предлагаем модифицированную версию этого метода, которая за счет увеличения числа операций позволяет значительно уменьшить погрешность восстановления. Предлагаемый здесь метод рассчитан на случай, когда Л = [0, тг).

Мы опишем алгоритм группировки проекций для случая, когда случайная функция может принимать только два состояния. Обобщение на любое конечное число состояний очевидно, а для случая

счетного числа состояний можно применить "усечение" распределений проекций, как это делается в [5].

Итак, пусть случайная функция £(х,у) принимает значения /1 (х,у) и /2 (х,у) с вероятностями р\ и р2- Предполагается, что известны распределения для р> 6 [0,7г), т.е. для каждого р 6 [0,7г)

известны функции /^(в), I = 1,2, являющиеся проекциями функций //(«), I = 1,2, и реализующиеся с вероятностями р\ и р2 соответственно. Причем, вообще говоря, заранее неизвестно, какая реализация проекции какой реализации функции соответствует, т.е. может быть так, что (я) является проекцией /2 (ж, у), а /2 (в) — проекцией /\(х, у). Необходимо распределить функции /^(в), I = 1, 2, для всех р £ [0,7г) по группам так, чтобы каждая группа реализаций проекций относилась к одной реализации случайной функции.

Если р\ ф р2, то такое разделение можно произвести по вероятностям реализаций проекций, т.е. для всех р £ [0,7г) то значение /¡'(в), которое реализуется с вероятностью р\, мы относим к первой группе, а значение /^(в), которое реализуется с вероятностью р2, — ко второй.

В случае, когда р\ = Р2 = метод группировки проекций основан на следствии из обобщенной проекционной теоремы, которое утверждает, что

т

Интеграл (р) называют то-м моментом проекции для данного угла <р, и равенство означает,

что то-й момент проекции представляется конечным рядом Фурье по переменной р>. Используя это свойство проекций, можно построить алгоритм группировки проекций.

Сначала возьмем интегралы от /^(в), г = 1,2, по в для некоторого р> 6 [0,7г) (т.е. посчитаем

(¥>))• Если интегралы отличны друг от друга, то, поскольку значения этих интегралов не зависят от угла р>, можно произвести группировку, основываясь на этих значениях. Чтобы это сделать, для каждого р> Е [0,7г), беря интегралы по 5 от (в), г = 1,2, будем относить /^(в) к той или иной группе в зависимости от того, чему равен интеграл. В результате в каждой группе окажутся функции /^(в), р> £ [0,7г), интегралы от которых по в равны одному и тому же значению.

Если интегралы от /^(в), г = 1,2, по в совпадают, будем рассматривать моменты проекций для т > 0. Заметим, что в силу компактности носителя функций если все моменты двух функций совпадают между собой, то эти две функции эквивалентны. Значит, если функции /¡'(в), I = 1,2,

различны, то найдется номер то, для которого моменты проекций (</?), I = 1,2, различаются.

Посчитаем моменты (р>п) в точках срп = ^ 1 ^ = 1, 2, га = 1,..., М, где М = 2то + 1. Всего

существует 2м способов распределить значения ,1\т\<рп), I = 1,2, по двум группам (на практике М, как правило, невелико). Обозначим через Р множество всех возможных распределений. Решим системы уравнений

т

Е 1т3егп^ = Ы, 1к= 1,2, к=1,...,М,

3=-т

для всех возможных распределений к из Р. В результате получим 2м функций (обозначим их (</?), к = 1,...,2М), претендующих на роль функций моментов ,1\т\<р), I = 1,2. Если предположить отсутствие погрешностей, то достаточно, перебирая (</?), проверять, равно ли значение (</?*) какому-либо из значений (V3*), / = 1, 2, в произвольно выбранной точке р)*, отличной от точек рп.

При том /г*, при котором равенство имеет место, совпадает с одной из ,1\т\<р), I = 1,2, для

всех р 6 [0,7г), поскольку многочлены степени М, совпадающие более чем в М точках, тождественно равны.

После того как найдены функции моментов, вычисляя для каждого р 6 [0, тг) моменты проекций, мы относим проекции к той или иной группе в зависимости от того, со значением какой из найденных функций в точке р совпадает это вычисленное значение момента. Затем можно восстановить каждую реализацию случайной функции, а значит, и ее распределение обычными томографическими методами.

5. Метод группировки проекций при наличии погрешностей в проекциях. На практике мы имеем дело с конечным набором проекций для углов <¿>1,... Причем, как правило, проекции задаются не точно, а с некоторой погрешностью. Погрешности возникают вследствие несовершенства оборудования, регистрирующего проекции, случайных помех при измерении, ошибок интерполяции и других причин.

Предположим, что проекции каждой реализации у) заданы с погрешностью, не превышающей какого-то заданного уровня е:

/Г («)-/,№

< £,

в 6 [-1,1], /=1,2, г = 1,...,ЛГ,

проекции, измеренные с ошибкой.

Тогда значения интегралов от проекций заданы с погрешностью

1 1 /(/Л«) -/,>))*« ^ /1/Г («)-/,№

¿в < 2е,

-1

а значения моментов проекций 1

-1

с погрешностью 1

Ив < I Е I ¿>т I <С

т + 1

-1 -1 -1

Следовательно, можно считать, что интегралы от /^'(й), I = 1,2, г = 1,..., М, не совпадают, и производить группировку проекций на основании значений этих интегралов, если выполнено условие

1 1

-1 -1

> 2е

для некоторого 1 ^ ] ^ N. Если же это условие не выполнено, то можно считать, что они совпадают и разница между ними возникает за счет погрешностей.

Для оценки погрешности, с которой вычисляются функции моментов проекций, воспользуемся известной оценкой погрешности интерполяции многочленами Чебышева (см. [7]). В результате для функции претендующей на роль функции момента (</?), I = 1 или I = 2, должно

няться

гМ/^л _ И"1),

выпол-

или

(т)

/ 4

< - 8 + - 1п(2га + 1)

/ 4

^ - 8 + - 1п(2га + 1)

т + 1 V 7Г

для всех i = 1,..., Лг. Поэтому алгоритм поиска такой функции можно представить следую-

щим образом.

1. Выбираем распределение к из множества возможных распределений Р и находим функцию

2. Полагаем г = 1.

3. Проверяем, выполняется ли условие

или

Ъе ( 4

^ - 8 + - 1п(2га + 1)

т + 1 \ 7Г

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/ 4

^ - 8 + - 1п(2га + 1) .

т + 1 V 7Г '

4. Если условие не выполнено, то исключаем распределение к из множества возможных распределений Р и переходим к шагу 1. Если условие выполнено и I ф И, то полагаем г = г + 1 и переходим к шагу 3. Если же условие выполнено и I = И, то алгоритм завершает работу и мы полагаем

Поскольку мы рассматриваем случай, когда случайная функция может принимать два состояния, достаточно найти одну функцию момента и производить группировку проекций по ее значениям.

Описанный метод является более трудоемким, чем метод, предложенный в [5], где используется экстраполяция функции момента, но оценка его погрешности значительно лучше, чем оценка в [6], что позволяет надеяться на более точное восстановление состояний случайной функции.

6. Группировка проекций в модели с аддитивным шумом. Рассмотрим теперь следующую модель проекционных данных:

+ «е[-1,1], /=1,2, г=1,...,ЛГ,

где (в) — истинные проекции, а (в) — однородные случайные функции с нулевым математическим ожиданием и ковариационной функцией К8{81—^2), одинаковой для всех <рч и I. Мы предполагаем, что проекции для различных углов <рч и для различных I регистрируются независимо друг от друга. Тогда моменты проекций будут описываться следующей моделью (включая случай то = 0):

•С М = М +

где £1^ — независимые случайные величины с нулевым математическим ожиданием и дисперсией

1 1

2

°т = У У (5152)тК8(51 - 82)А8Хй82. -1 -1

Поиск различающихся моментов осуществляется проверкой гипотез против альтернатив

Я1: Ф 4т)Ы

для 1= 1,..., Лг. (Описание критериев одновременной проверки подобных гипотез можно найти, например, в [8, 9].)

При обнаружении различающихся моментов (то ^ 1) так же, как в пункте 4, для всех 2м распределений Р составим системы уравнений

т

Е = Ы, 1к= 1,2, к = 1,..., М.

3=-т

Решая эти системы методом наименьших квадратов [10], получим 2м функций ./„ш! р%) (Ь =

= 1,...,2М, г = 1,...,./У), претендующих на роль функций моментов Так как случайная

функция принимает два состояния, достаточно найти оценку одной функции момента. В качестве такой оценки «/^ш! /г* (^г) возьмем ту ./„ш! /г^г), которая минимизирует выражение

N

гМ _ И™) :

¿=1

на множестве всех распределений к из Р.

Затем для каждого г = 1,..., ./V относим к первой группе то , которое минимизирует по I

разность ./„ш! /г* (^г) — {^рг) , а оставшееся относим соответственно ко второй группе.

Если гипотезы Но отвергнуты при то = 0, т.е. отличаются интегралы от проекций, то системы решать не нужно. Группировка в этом случае производится по средним значениям интегралов проекций (средние значения уточняются на каждом шаге), поскольку I = 1,2, не зависят

от p>i.

СПИСОК ЛИТЕРАТУРЫ

1. Liu W., Frank J. Estimation of variance distribution in three-dimensional reconstruction. 1. Theory // J. Opt. Soc. Am. A. 1995. 12. P. 2615-2627.

2. RadermacherM. Three-dimensional reconstruction of single particles from random and nonrandom tilt series // J. Electron Microscopy Technique. 1988. 9. P. 359-394.

3. Ушаков В.Г., Ушаков Н.Г. Восстановление вероятностных характеристик многомерных случайных функций по проекциям // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2001. № 4. С. 32-39.

4. Шестаков О. В. О единственности восстановления вероятностных характеристик многомерных случайных функций по вероятностным характеристикам их проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2003. № 3. С. 37-41.

5. ShestakovO.V. An algorithm to reconstruct probabilistic distributions of multivariate random functions from the distributions of their projections //J. of Mathematical Sciences. 2002. 112. N 2. P. 41984204.

6. Шестаков О. В. Влияние погрешностей в проекционных данных на алгоритм восстановления распределения случайной функции из распределений ее проекций // Вестн. Моск. ун-та. Сер. 15. Вычисл. матем. и киберн. 2002. № 2. С. 35-40.

7. Гончаров В. JI. Теория интерполирования и приближения функций. М., 1933.

8. Benjamini Y., Wei L. False discovery rate control in multiple hypothesis testing using dependent statistics // J. Statist. Plan. Infer. 1999. 82. P. 163-170.

9. Abramovich F., Benjamini Y. Thresholding of wavelet coefficients as multiple hypotheses testing procedure // Wavelets and Statistics / Ed. by A. Antoniadis, G. Oppenheim. N.Y.: Springer-Verlag, 1995. P. 5-14.

10. Ивченко Г. И., Медведев Ю.И. Математическая статистика. М.: Высшая школа, 1992.

Поступила в редакцию 03.10.2006

УДК 577.112.5

И. А. Федулова

РОБАСТНЫЙ АЛГОРИТМ ИДЕНТИФИКАЦИИ ПРОТЕИНОВ В БАЗЕ ДАННЫХ1

(кафедра автоматизации научных исследований факультета ВМиК, e-maib.fedulova@cs.msu.su)

1. Введение. Идентификация протеинов — одна из важных задач в протеомике. Протеин представляет собой последовательность молекул аминокислот, соединенных в линейную цепочку. Протеины всех живых организмов построены из 20 различных аминокислот. В настоящее время существует большое число баз данных, хранящих аминокислотные последовательности различных протеинов. Например, популярная база SwissProt [1] содержит последовательности около 200 000 протеинов. Аминокислотные последовательности обычно кодируются буквенными строками, где каждая буква кодирует определенную аминокислоту.

Идентификацей протеинов называется процесс, в котором по экспериментальному образцу протеина определяется его название или номер в базе данных.

При составлении баз данных аминокислотных последовательностей протеинов биологи использовали метод деградации Эдмана, который основывался на отщеплении одной аминокислоты с конца протеина и ее последующем определении с помощью химической реакции. Так, по одной аминокислоте

1 Работа выполнена при поддержке гранта РФФИ 05-07-90238.

i Надоели баннеры? Вы всегда можете отключить рекламу.