2004 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА.
Сер. I.
Вып. 1
КРАТКИЕ НАУЧНЫЕ СООБЩЕНИЯ
УДК 535.41+681.883+620.179
У
А. А. Пастор, Ю. А. Толмачев, И. Г. Шарков
ОПОЗНАВАНИЕ ОБРАЗОВ КАК МЕТОД АНАЛИЗА ГОЛОГРАММ СЛОЖНЫХ МОЛЕКУЛ
Публикации последних лет показывают, что нейтронная голография - один из наиболее быстро развивающихся видов корпускулярной голографии, которая становится эффективным методом исследования пространственной структуры ближнего порядка различных кристаллов и жидкостей. Одним из наиболее интересных применений нейтронной голографии в перспективе может быть исследование строения органических молекул. Такие молекулы (белки, ДНК и им подобные) обладают весьма сложной пространственной структурой, будучи в то же время построены из относительно небольшого числа «элементарных» блоков. В настоящей работе предлагается применить для анализа пространственной структуры органических полимерных молекул метод распознавания образов, позволяющий локализовать положение в большой молекуле не отдельных атомов, а фиксировать линейные координаты и ориентацию элементарных блоков. Такой подход, с нашей точки зрения, может существенно упростить процесс расшифровки структуры биомолекул, находящихся в различных агрегатных состояниях вещества - в кристаллической фазе, жидкости, вплоть до единичных молекул. Метод может быть использован в голографии любых видов с применением как электромагнитного, так и корпускулярного излучения. В качеству примера рассмотрен возможный опыт с использованием потока тепловых нейтронов.
Широко известно, что функция и свойства того или иного белка в значительной мере зависят от его пространственной структуры, но часто исследователи сталкиваются с труднопреодолимым барьером, воздвигнутым самой природой. Этим барьером является сложность структуры биомолекул и их способность менять под воздействием изменения условий свою внешнюю конфигурацию, сохраняя основные элементы внутренней структуры. В настоящей работе данный вопрос не будет рассматриваться, мы лишь подчеркиваем вытекающие отсюда сложность и неоднозначность задачи определения структуры биомолекул.
Наибольшие успехи в изучении структуры больших биомолекул достигнуты путем комбинирования экспериментальных — химических, рентгеноструктурных и ЯМР-методов анализа, поддержанных компьютерным моделированием формы "молекулы: В последние два десятилетия интенсивно развиваются также корпускулярные методы экспериментального исследования больших молекул, особые надежды при этом возлагаются на используемые в настоящее время методы корпускулярной голографии, целью которых является независимое определение координат всех атомов, входящих в молекулу. Сведение решения этой громоздкой и малоэффективной задачи к установлению взаимного положения в пространстве тех относительно немногих элементарных блоков, из которых построена биомолекула, должно и ускорить, и повысить надежность изучения ее структуры.
В рамках простейшего подхода к исследованию биомолекул источником первичной информации является пространственное распределение рассеивателей точно известного по своей ' исходной пространственно-временной структуре излучения. Например, облучая молекулу мо-
© А. А. Пастор, Ю. А. Толмачев, И. Г. Шарков, 2004
80
/Ьс. /. /%ве основные схемы нейтронной фурьё-голографии.
а - схема с внутренним источником; б - схема с внутренним детектором. Черными стрелками показано опорное излучение, пунктирными - резонансно рассеянное, штрихпунктирными - качественно преобразованное корпускулярное, или электромагнитное излучение. Черные точки - рассеивающие атомы, квадратик - удаленная система регистрации.
нохроматическими нейтронами и регистрируя картину интерференции опорной нейтронной волны де Бройля с волнами, рассеянными ядрами входящих в молекулу атомов, мы решаем задачу определения координат ядер (игнорируя при этом особенности строения электронных оболочек). В качестве основного условия возможности записи интерференционной картины и последующего воспроизведения объектной волны выдвигается требование высокой временной когерентности, в том числе монохроматичности излучения (монокинетичности потока облучающих частиц в корпускулярной голографии). Однако возможно построение голографических схем и при более общей формулировке, а именно при выполнении требования точной воспроизводимости пространственно-временной структуры опорной волны.
При проведении подобного опьгта необходимо разрешить противоречие между относительно низкой пространственной разрешающей способностью систем регистрации частиц и малой длиной волны де Бройля в нейтронной голографии, что резко ограничивает выбор возможных схем постановки эксперимента [1], сводя их к вариантам голографии Фурье. Таковыми, например, являются схемы внутреннего источника и внутреннего детектора (рис. 1, а и 6 соответственно). Отметим, что с математической точки зрения эти схемы эквивалентны
друг другу-
В схеме, представленной на рис. 1,а, к которой будем обращаться чаще всего, источник опорной волны размещается на расстоянии от объекта (молекулы), сравнимомч с размером самой молекулы, и представляет собой вторичный рассеиватель корпускулярной волны, облучающей всю систему в целом. Детектор при этом помещается вне зоны облучения первичным потоком частиц. . ,
Выбор нейтронов как источника излучения не случаен. Отсутствие заряда, позволяющее частице проникнуть внутрь атома, не взаимодействуя практически с атомными электронами, изотропность рассеяния на ядрах тяжелых атомов - вот преимущества, которыми обладает нейтронное излучение по сравнению с рентгеновским или электронным. Как было показано в работах [1, 2], несмотря на малую абсолютную величину сечений взаимодействия, применение именно нейтронного излучения перспективно при исследовании сложных объектов атомного масштаба.
Обратимся в качестве примера к результату опыта по интерференции волн, полученному по схеме 1, б (рис. 2). Имеется нейтронная голограмма объекта, состоящего из 13 атомов, находящихся в показанной на рисунке конфигурации. Реальная голограмма содержит ошибки измерения интенсивности приемника (обусловленные в том числе пуассоновским характером регистрируемого случайного процесса). Тем не менее не представляет труда восстановить структуру этого объекта, решая обратную задачу рассеяния [1, 2].
Однако в данном случае речь идет всего о десятке атомов. Если же реальная голограмма содержит пуассоновский шум и соответствует, скажем, 1000 атомов, применение описанного прямого метода становится проблематичным, так как координаты частиц определяются с большими ошибками, появляются флуктуации «амплитуды» , для одинаковых частиц, в результате чего некоторые из них могут быть вообще «потеряны» при восстановлении. Причиной указанного роста ошибок измерения является избыточный объем информации, которую мы хотим получить в результате опыта. Тем более естественным становится в данном случае переход от поиска отдельных атомов к их группам. Исследуемый объект - это почти хао-
А-
Рис. 2. Пример результатов реального эксперимента. .
Исследуемый объект показан справа, слева - его нейтронная голограмма.
тическое распределение ядер атомов в пространстве (с внешней точки зрения, особенно для большой биомолекулы, например, свернутой в глобулу молекулы белка). Тем не менее в таком хаосе существует ближний порядок - стабильные по конфигурации аминокислоты, бензольные кольца и т. п. Естественно прибегнуть к операции опознавания этих априорно известных стабильных комплексов частиц, т.е. к методу распознавания образов.
Воспользуемся самым простым из них. Предположим, что в среднем частицы в большой молекуле расположены в пространстве практически случайным образом, сами искомые группы атомов (блоки) также ориентированы по случайному закону, а координаты их (положение, например, центров, масс и ориентация в пространстве) неизвестны. Считаем также, что ошибки измерения амплитуд в голограмме имеют чисто пуассоновский характер, причем статистика отсчетов достаточно велика, чтобы форму распределения можно было описать функцией Гаусса. Тогда задачу определения координат блока можно рассматривать приближенно как задачу обнаружения известного по форме сигнала при наличии аддитивных гаус-совских шумов. Как известно, в этом случае оптимальной процедурой выделения сигнала из шума является вычисление функции взаимной корреляции сигнала молекулы с имеющимся образцом.
Фурье-голограмма представляет собой, с точностью до известного масштабного преобразования, пространственный спектр молекулы. Для решения задачи опознавания в рассматриваемом приближении достаточно вычислить произведение этого пространственного спектра и пространственного спектра искомого блока-фрагмента молекулы, т.е. осуществить согласованию фильтрацию голограммы. Мерой надежности определения координат может служить отношение значения функции взаимной корреляции в найденном экстремуме к среднеквадратичной ошибке ее измерения, сами координаты тогда устанавливаются по положению экстремума. Потенциальные преимущества использования подобного подхода может иллюстрировать следующий простой пример. Пусть искомый фрагмент - блок - состоит из 10 атомов. При «прямом» решении задачи необходимо определить 30 значений координат ядер, поскольку имеющиеся в природе связи между атомами не учитываются. Если же рассматривается устойчивый фрагмент, то он полностью характеризуется всего шестью координатами (3 линейными и 3 угловыми).
Как же может работать предлагаемый метод в случае опыта нейтронной голографии с внутренним источником опорной волны? Потенциал рассеяния нейтрона на- ядре V(r) с достаточно высокой степенью точности можно описать дельта-функцией, тогда для плоской падающей волны ip(r) = ехр(гкг) волновую функцию рассеянной волны можно представить в виде
gikr
■ Ф(г ) = (/?'+А-,
Г '
где г - расстояние от «внутреннего источника» до точки наблюдения.
Для рассматриваемой схемы, когда детектор расположен вне прямого пучка и не регистрирует падающую волну, итоговый сигнал определяется суммой амплитуд рассеянных частицами сферических волн. Наибольшей амплитудой обладает волна вторичного опорного источника, которым в этой схеме является частица с большим сечением рассеяния (в случае нейтронов часто используется ядро атома водорода - протон). Тогда регистрируемая? пространственно-чувствительным детектором интенсивность потока рассеянных нейтронов описывается соотношением
• frz. ~ ЗРг^^'ЗГСт' ■ С ^ ^
'"§.-% Л- ^I^r-^M I V
1(к) =
(в виде отдельного слагаемого выделена амплитуда опорной сферической волны Фо)- Учитывая; что, согласно нашему предположению, |Фо|2 > ^¿Ф/с] при любых г, к Ф 0 (это приближение, как правило, выполняется), пренебрежем перекрестными слагаемыми, не содержащими амплитуду волны вторичного источника. Получаем
г
где |В<| «С 1.
Отметим, что опущенные квадратично-малые по амплитуде члены можно формально ввести в константу /о, что будет соответствовать введению поправки в эффективное сечение рассеяния источника опорной волны. Таким образом, регистрируемый приемником сигнал можно приближенно представить в виде суммы сигналов, приходящих от вторичного опорного источника и от остальных компонентов молекулы.
Для дальнейшей обработки удобно выделить переменную часть интенсивности, несущую основную часть информации о расположении частиц, сформировав информационно-полезный сигнал 5(к):
5(к) = = ^в.соз (./(*,к)).
г
Стоящая справа сумма включает в себя не только амплитуд}' рассеяния всех входящих в молекулу атомов, но и амплитуду рассеяния искомого фрагмента. Перемножая 5(к) и пространственный спектр фрагмента (для заданного его положения), получаем спектр мощности взаимно-корреляционной функции. Совершив фурье-преобразование, определяем саму ее величину как функцию пространственных координат.
Бели коэффициент взаимной корреляции не равен нулю в некоторой точке пространства, то можно говорить (с некоторой степенью вероятности) о наличии в данной точке искомого фрагмента. На практике нам приходится учитывать конечность числа детекторов, спектральный состав пучка и наличие шума. Эти факторы влияют на отличие вычисленного коэффициента корреляции от нуля. Принятие заключительного решения ДА-НЕТ — операция нелинейная, основы которой разработаны достаточно хорошо в статистике [3,4]. В ряде случаев достаточно ввести некоторый порог, зависящий от амплитуды флуктуации коэффициента корреляции как функции координат (в частности, пороговый уровень обусловливается дисперсией шума в голограмме и характером структуры объекта).
Сходная с описанной выше постановка эксперимента возможна и при регистрации пространственного распределения интенсивности в зоне, облучаемой основным падающим пучком. В частности, можно представить себе подобный опыт с пучком монокинетических электронов. Основная трудность в этом случае связана с очень малым контрастом голограммы. Он может быть несколько увеличен при использовании сфокусированных пучков и регистрации интенсивности рассеяния на полусфере. В подобном опыте может быть измерена, например, амплитуда волновой функции рассеяния электрона на атоме.
Как уже отмечалось, решение сформулированной выше задачи сводится к определению линейных и угловых координат устойчивого фрагмента молекулы. Ограниченность пространственной разрешающей способности детектора, зависящей от размеров элементарного приемника, и конечное отношение сигнал/шум при регистрации голограммы позволяют сделать переход от непрерывного распределения по 6 координатам к перебору по набору их дискретных значений, что ускоряет процедуру анализа. Необходимая при этом априорная информация о структуре фрагмента может быть получена на основании данных других методов, например таких, как результаты расчета методами квантовой химии или рентгеноструктурного анализа.
Фо + ^Фг
Фо
Отметим, что предложенный подход не требует создания дополнительных образцов, а также проведения дополнительных по отношению к регистрации корпускулярной голограммы экспериментов.
Высокая эффективность описанного метода была проверена при обработке данных реального опыта по схеме с внутренним детектором [2]. Целью исследования в этой работе являлось восстановление положения двенадцати ближайших к детектору атомов РЬ монокристалла РЬо,9974 Сс1о,0026 (роль детектора играл атом Сс1). При постановке эксперимента первоначальная ориентация образца была неизвестна. В связи с этим к ранее сформулированной задаче измерения координат атомов добавилась задача определения ориентации элементарной кристаллической ячейки - блока - относительно падающего пучка нейтронов. При Рис. 3. Характерное восстановление коор- ДЛине корпускулярной опорной волны, равной динат цепочки атомов (одна из сложных за- 0,084 нм, удалось локализовать блок с ошибкой дач голографии). менее 0,012 нм по координатам и 1° - по углам
ориентации, причем блок находился на расстоянии приблизительно 0,35 нм от вторичного источника излучения.
Анализ результатов этого эксперимента показал, что эффективность метода зависит не только от качества использованных данных, но и от свойств самого искомого объекта. Наличие симметрии, в частности, приводит к тому, что автокорреляционная функция может иметь несколько максимумов. Типичным примером может быть бензольное кольцо или линейная цепочка атомов (рис. 3). Как и в оптической голографии, вероятность правильного опознавания зависит от сложности объекта, его уникальности. Нами разрабатываются нелинейные методы обработки полученной в эксперименте информации, позволяющие повысить надежность решения подобных задач.
Отметим, что предложенный метод обладает высокой устойчивостью по отношению к случайным помехам. Приведем пример, в котором отношение сигнал/шум в голограмме близко к единице. Сравнение восстановленной картины для случаев без шумов (рис. 4, а) и с шумом (рис. 4, б) показывает, что визуально они идентичны. Даже при 10-кратном превышении шума над сигналом в голограмме все еще можно было определить координаты объекта путем исследования локальной окрестности точки его предполагаемого положения, хотя этот уровень шумов является уже критическим.
Рассмотрим еще один пример компьютерного моделирования задачи опознавания объек-
_а
Рис. 4- Восстановление координат группы атомов. а - в случае отсутствия шума; б - при отношении сигнал/шум в голограмме, равном 1.
Рис. 5. Модельный объект - спиральное расположение блоков атомов, показанных на рис. 2.
Каждый блок обозначен жирной точкой, спираль показана для наглядности. Период спирали равен 0,4 нм. Маленькие точки - случайно расположенные в пространстве частицы.
тов, зарегистрированных голографическим методом, имеющий пока только демонстрационный характер, но показывающий эффективность и красоту метода. Модельная равномерная спираль (рис. 5) содержала 200 атомов (серые точки), расположенных случайным образом. К этой системе были добавлены 13 одинаковых блоков, таких же, как представленные на рис. 2, состоящих из 13 атомов. Положение блоков на спирали указано на рис. 5 черными шариками. Была рассчитана голограмма всего комплекса и проведена описанная выше процедура фильтрации. Предполагалось, что длина волны равна 0,074 нм и расстояние от вторичного источника до центра масс спирали - 2 нм. Результаты обработки приведены частично на рис. 6. Как видно, пространственные координаты блоков восстановлены с точностью не хуже 0,01 нм и отношение сигнал/шум по амплитуде составляет не менее 5:1.
Без сомнения, рассмотренные объекты не слишком сложны, и обработка результатов могла бы проводиться обычными методами. Но наша цель состояла в том, чтобы максимально упростить задачу и показать возможность применения предлагаемого метода. Приведенные примеры свидетельствуют о правильности предположений об эффективности применения метода опознавания образов при анализе сложных корпускулярных голограмм.
В заключение следует отметить, что приведенные в данной работе результаты численных экспериментов не исчерпывают возможности метода опознавания заданной группы атомов. По
1
Рис. 6. Восстановление координат блоков.
Приведено распределение значения функции корреляции сигнала, полученного от блока, и голограммы искомого объекта. На рисунке дается пример распределения амплитуды функции корреляции в нескольких плоскостях (1-7), 8 - положение плоскостей в пространстве. Шаг на горизонтальных плоскостях вдоль каждой координаты равен 0,005 нм, вертикальный шаг - 0,05 нм.
нашему мнению, предлагаемый подход может позволить определять пространственное расположение и ориентацию набора элементарных блоков, например, в двойной спирали молекулы ДНК, в белках и других сложных молекулах, находящихся в самых различных конформаци-онных состояниях.
Summary
Pastor A. A., Tolmachev Yu. A., Sharkov I. G. Pattern recognition for the method of hologram analysis.
Complex bio molecules, as proteins, are composed of the specific and limited in their number stable groups of atoms which spatial configuration and position in the molecule completely define the molecule properties. In the present paper, we propose a new computer holography method which reconstructs the'position and orientation of pre-deterrnined groups. The method is based on pattern recognition ideas and permits to measure the spatial and angular coordinates of the group. Fourier hologram of the unknown compound object is taken for the initial signal, and the hologram of a group under analysis is used for the reference one. The magnitude of cross-correlation function of pattern hologram to the measured one possesses a series of well-determined maxima that characterize the probability to find the pattern in the studied molecule.
Литература
1. Tegze M., Faigel Gy. // Rep. Prog. Phys. 1999. Vol. 62. P. 355-393. 2. Шарков И. Г.,. Крекснер Г., Пастор А. А. и др. // Вестн. С.-Петерб. ун-та. Сер.4: Физика, химия. 2001. Вып. 3 (JV* 20). С. 124-128. 3. Cser L., Torok Gy, Krexner G. et al. // Phys. Rev. Lett. 2002. Vol. 89, N 17. P. 175-504. 4. Шестов H. С. Выделение оптических сигналов на фоне случайных помех. М., 1967.
Статья поступила в редакцию 15 мая 2003 г.