Научная статья на тему 'ВЛИЯНИЕ ПРЕДВАРИТЕЛЬНОГО ПРЕОБРАЗОВАНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ НА ТОЧНОСТЬ РЕЗУЛЬТАТОВ ОБРАБОТКИ РЕНТГЕНОВСКИХ РЕФЛЕКТОГРАММ'

ВЛИЯНИЕ ПРЕДВАРИТЕЛЬНОГО ПРЕОБРАЗОВАНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ НА ТОЧНОСТЬ РЕЗУЛЬТАТОВ ОБРАБОТКИ РЕНТГЕНОВСКИХ РЕФЛЕКТОГРАММ Текст научной статьи по специальности «Математика»

CC BY
37
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕНТГЕНОВСКАЯ РЕФЛЕКТОМЕТРИЯ / ТЕХНОЛОГИЯ CUDA

Аннотация научной статьи по математике, автор научной работы — Карташов Дмитрий Александрович, Медетов Нурлан Амирович, Смирнов Дмитрий Игоревич, Орлов Роман Сергеевич

Рассмотрено влияние предварительного преобразования экспериментальных результатов относительной двухволновой рентгеновской рефлектометрии на точность определения параметров многослойных структур. Исследована эффективность применения технологии CUDA для компьютерной обработки результатов. Предложена эффективная реализация вычислений по моделированию метода относительной двухволновой рентгеновской рефлектометрии на основе технологии CUDA.An impact of the preliminary transformation of the relative double-way X-ray reflectometry on the accuracy in determining the parameters of the multi-layer structures has been considered. The efficiency of using the CUDA technology for computer processing of the results has been investigated. An effective method of the multi-layer structure parameters calculations for double-wave X-ray reflectometry models using the CUDA based algorithms has been proposed.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Карташов Дмитрий Александрович, Медетов Нурлан Амирович, Смирнов Дмитрий Игоревич, Орлов Роман Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ВЛИЯНИЕ ПРЕДВАРИТЕЛЬНОГО ПРЕОБРАЗОВАНИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ НА ТОЧНОСТЬ РЕЗУЛЬТАТОВ ОБРАБОТКИ РЕНТГЕНОВСКИХ РЕФЛЕКТОГРАММ»

УДК 621.386:004.021

Влияние предварительного преобразования экспериментальных данных на точность результатов обработки рентгеновских рефлектограмм

Д.А.Карташов, Н.А.Медетов, Д.И.Смирнов, Р.С.Орлов

Московский государственный институт электронной техники (технический университет)

Рассмотрено влияние предварительного преобразования экспериментальных результатов относительной двухволновой рентгеновской рефлек-тометрии на точность определения параметров многослойных структур. Исследована эффективность применения технологии CUDA для компьютерной обработки результатов. Предложена эффективная реализация вычислений по моделированию метода относительной двухволновой рентгеновской рефлектометрии на основе технологии CUDA.

Ключевые слова: рентгеновская рефлектометрия, графические процессоры, технология CUDA.

Одним из точных неразрушающих методов контроля параметров слоев (толщина, плотность, шероховатость границы раздела) в многослойных тонкопленочных структурах (МС) с периодическими и непериодическими чередующимися слоями на кремниевых подложках является относительная двухволновая рентгеновская рефлектометрия [1].

Трудность применения метода относительной рентгеновской рефлектометрии связана с тем, что данный метод является косвенным, т.е. по экспериментальным данным нельзя непосредственно оценить параметры многослойных тонкопленочных структур. Для эффективного использования методики требуется сложная интерпретация экспериментальных данных, когда для точного расчета сравнительно небольшого количества параметров достаточно «простых» исследуемых структур требуются большие вычислительные мощности и время.

Процедура определения параметров МС состоит из двух этапов: 1) экспериментальная съемка угловой зависимости коэффициента отражения; 2) численное определение параметров МС по выбранной для расчета математической модели многослойных тонкопленочных структур.

Для корректного моделирования МС необходим предварительный анализ исследуемых образцов для определения степени четкости границ раздела, состояния слоев (кристаллическое или аморфное), оценки величины шероховатости и т.д. Математическая модель должна учитывать как можно больше особенностей структуры (взаимодиффузию слоев, шероховатость, наличие оксида на поверхности образца или подложки, наличие слоев с переходными фазами). Чем точнее формируется модель, тем лучше результат расчета совпадает с экспериментальными данными. Однако это имеет и побочные эффекты: чем сложнее создаваемая модель, тем больше времени требуется для расчета структуры. Это обусловлено увеличением числа рассчитываемых параметров структуры.

В данной работе экспериментальные исследования осуществлялись на рентгеновском многоволновом рефлектометре «X-Ray MiniLab» разработанном в ООО «Инсти-

© Д.А.Карташов, Н.А.Медетов, Д.И.Смирнов, Р.С.Орлов, 2011

тут рентгеновской оптики». Как показано в [2], преимуществом данного прибора является возможность измерения интенсивностей исследуемого рентгеновского излучения на нескольких длинах волн одновременно за одно сканирование. Рефлектометрические измерения проводились по схеме 0 - 20. В качестве источника использовалась трубка БСВ-21 с медным анодом и видимой проекцией фокусного пятна на аноде 0,02*8 мм. Мощность рентгеновской трубки 280 Вт. Охлаждение источника излучения осуществлялось системой замкнутого водяного охлаждения. В качестве детекторов использовались сцинтилляционные детекторы с люминофором №1:Т1. При рефлектометрических исследованиях для определения параметров пленок использовался генетический алгоритм. Исследованные образцы были получены путем магнетронного распыления на кремниевые подложки. Ниже приведены технологические параметры исследуемой структуры: структура Р1/Б1; шероховатость по верхней границе слоя Р1 < 10 А; толщина слоя Р1 равна 35 А; шероховатость по нижней границе слоя Р1 менее 10 А.

Предварительная обработка экспериментальных результатов относительной двухволновой рентгеновской рефлектометрии. Для численного определения параметров слоев в МС необходимо выполнить минимизацию функции невязки теоретической и экспериментальной рефлектограммы по критерию среднеквадратического отклонения (СКО). При подгонке теоретической и экспериментальной кривых возникает трудность, связанная с тем, что если экспериментальная кривая периодическая, то в соответствии с выбранным критерием теоретическая кривая может проходить не через точки локальных максимумов и минимумов, а между ними. При этом периоды экспериментальных и теоретических кривых не будут совпадать, и соответственно параметры экспериментальной и расчетной МС будут сильно отличаться. Полученная таким образом расчетная структура будет соответствовать локальному минимуму целевой функции. Ситуация осложняется тем, что выйти из найденного локального экстремума не удается без применения специальных методов. Обычно это явление имеет место, если на экспериментальной кривой имеется несколько экстремумов. Применение специального предварительного преобразования экспериментальных данных, приведенного в данной работе, позволяет избавиться от описанного выше эффекта.

Преобразование состоит из трех этапов.

Первый этап - разделение исходной экспериментальной рефлектограммы на две: прямой и обратной функции. Полученная при этом преобразованная рефлектограмма представляется в памяти компьютера как массив комплексных чисел, действительная часть каждого элемента которого будет соответствовать прямой функции (Дап§1е) = Ка(ап§1е)/КЬ(ап§1е)), а мнимая - обратной (1/Г(аи§1е) = КЬ(ап§1е)/Ка(ап§1е)).

Второй этап - выбор определенных значений из массива, полученного на первом этапе. Таким образом, получается еще один массив комплексных чисел. Приведем пошаговый алгоритм второго этапа преобразования.

1. Вычислить интегрированный вид рефлектограммы (для прямой и обратной функции.

2. Вычислить значение интеграла для прямой и обратной функции.

3. Разбить вертикальные отрезки, ограничиваемые нулем и значением интегралов прямой и обратной функции, на равные части. Количество частей определяется числом неизвестных параметров.

4. Найти соответствующее УН значение на оси ХН для выбранной кривой.

5. Определить значение Х21 для другой кривой по ранее заданному значению УН.

6. Определить значение У21 для другой кривой по ранее заданному значению ХН.

7. Вычислить значение квадратного корня из площади прямоугольника, построенного между точками (ХН, УН) и (Х21, У21).

Третий этап - получение целевой функции. По полученному массиву определяется целевая функция, равная сумме квадратов его элементов как действительных, так и мнимых. Целевая функция будет действительным числом. Основное отличие полученной таким образом функции ошибки является то, что она не нормирована на единицу. В этой связи диапазон поиска равен квадратному корню отношения минимальной и максимальной ошибки во всем пространстве поиска. Подобный подход позволяет учесть расстояние между экстремумами, так как чем больше расстояние по горизонтальной оси между экстремумами, тем больше значение полученной суммы и, соответственно, целевая функция. Следовательно, целевая функция устроена таким образом, чтобы совмещать X и 7-координаты экстремумов. Это обеспечивает более точное совпадение периодов расчетной и экспериментальной рефлектограмм.

На рис.1 представлены отношения коэффициентов отражения для экспериментальной и теоретических рефлектограмм (для длин волн CuKa и CuKp). Результатом, подтверждающим факт эффективности предварительной обработки экспериментальных результатов относительной двух-волновой рентгеновской рефлектометрии на точность определения параметров МС, является более строгое совпадение экспериментальной и теоретических рефлекто-грамм, хотя необходимо признать, что различие между двумя вычисленными реф-лектограммами не столь велико.

Таким образом, можно утверждать, что применение описанного предварительного преобразования экспериментальных результатов относительной двухволновой рентгеновской рефлектометрии помогает устранить ряд недостатков в численном определении параметров МС, в частности более эффективно решить проблему уменьшения шумов в области больших углов, а также добиться более точного совмещения угловых координат максимумов и минимумов расчетных и экспериментальных рефлектограмм.

Использование графических процессоров и технологии CUDA. На сегодня развитие параллельных вычислительных технологий достигло значительного прогресса, так или иначе связанного с трехмерными играми. Уже в течение нескольких лет графические процессоры (GPU) используются для неграфических вычислений, выполнении на них сложных математических расчетов. Универсальные устройства с многоядерными процессорами для параллельных векторных вычислений, используемых в 3D-графике, достигают высокой пиковой производительности, которая центральным процессорам (CPU) не под силу. Это связано с тем, что видеокарты состоят из множества мультипроцессоров, которые управляют высокоскоростной памятью, что делает их использование эффективным как для графических, так и для неграфических вычислений.

Применение GPU позволяет значительно ускорить расчеты на обычных персональных компьютерах малой стоимости за счет использования общей памяти и значительного параллелизма [3]. Эффект распараллеливания вычислений и увеличения эффективности достигается за счет того, что на CPU обрабатываются данные, во-первых,

у2

1 Vl V

1...... 0, 2 0 4 0 6 V 0 Ui т, \ 1 с

Угол, градусы (29)

Рис.1. Угловая зависимость отношения коэффициентов отражения, полученная при расчете целевой функции: 1 - эксперимент; 2 - без предварительной обработки; 3 - с предварительной обработкой экспериментальных данных

последовательно, а во-вторых, не более чем в восьми потоках одновременно. Процессоров на GPU значительно больше, за счет чего одновременно обрабатывается гораздо большее количество данных. Кроме того, производительность GPU и CPU отличается за счет количества набора операций (в CPU их больше, так как GPU предназначены для решения более узких задач). Современные видеоадаптеры содержат сотни математических исполнительных блоков, и эта мощь может использоваться для значительного ускорения множества вычислительно интенсивных приложений.

Вместе с тем сегодняшнее поколение GPU обладает достаточно гибкой архитектурой, что вместе с высокоуровневыми языками программирования и программно-аппаратными архитектурами раскрывает эти возможности и делает их значительно более доступными. До недавнего времени эффективное использование вычислительных возможностей видеокарт для неграфических вычислений оставалось сложным из-за возможности управления GPU только через интерфейс прикладного программирования. Именно поэтому компания NVIDIA выпустила технологию программирования Compute Unified Device Architecture (CUDA). Это программно-аппаратная вычислительная архитектура NVIDIA, основанная на расширении языка СИ со своим компилятором и библиотеками для вычислений на GPU.

Технология CUDA обеспечивает быструю разработку и адаптацию программ для исполнения на GPU, а также предоставляет возможность организации доступа к набору инструкций GPU и управления его памятью при организации параллельных вычислений. Следует отметить, что поддержка NVIDIA CUDA есть у всех чипов G8x, G9x, GT2xx и GFlxx, применяемых в видеокартах GeForce серий 8, 9, 200 и 400, которые очень широко распространены [3, 4].

Максимальная скорость вычислений на GPU достигается лишь в ряде удобных задач и имеет некоторые ограничения, но такие устройства уже начали довольно широко применять в сферах, для которых они изначально не предназначались. В последние годы исследования в данной области стали значительно интенсивнее [5-9].

Поскольку целью нашего исследования является использование GPU и технологии CUDA для увеличения эффективности вычислений по интерпретации результатов относительной двухволновой рентгеновской рефлектометрии МС на кремниевых подложках, более детальную информацию о технологии CUDA можно найти в [3], а также на сайте компании NVIDIA.

В работе проводились вычисления по интерпретации экспериментальных данных, полученных методом относительной двухволновой рентгеновской рефлектометрии, на базе GPU по технологии CUDA. В качестве сравнения проведен расчет тех же экспериментальных данных с использованием CPU. Для проведения математических расчетов применена следующая модель видеокарты: NVidia GeForce 9600 GT. Число одновременно обрабатываемых потоков составляет 128, максимальное количество потоков может составлять 512. Эта видеокарта обладает 64 процессорами с частотой 1625 МГц и 1024 Мб памяти частотой 1800 МГц. В качестве центрального процессора использовался Intel Core 2 Quad 9300 с четырьмя ядрами, частотой 2,5 ГГц каждое с кэшем первого уровня 64 Кб на каждое ядро процессора и 6 Мб общего кэша второго уровня.

На рис.2 представлены временные графики расчета по математической модели для МС, состоящей из 10 слоев. Видно, что максимальное увеличение производительности достигается при количестве экспериментальных точек более 100 000 и равно 30.

о

5

я

Li

ё VD

я

6

■: о

о. С

1000

100

10

1

2 V

10

10000 100000 Количество угловых точек

юооо ----При количестве угловых точек, равном

1000, время обработки результатов на GPU составляет 1 мс, а на CPU 3 мс, т.е. время вычислений сокращается в 3 раза.

С увеличением количества параметров в вычислительной модели время обсчета на CPU растет линейно, а на GPU нелинейно, что свидетельствует об увеличении эффективности использования графических процессоров для расчета моделей с большим количеством параметров. Это свойство будет в дальнейшем использовано для увеличения производительности вычислений на GPU.

Из результатов, представленных на рис.3, видно, что зависимости целевых функций от числа итераций при расчетах на CPU и GPU немного отличаются на начальном участке, что связано с наличием случайной величины в алгоритме оптимизации. При количестве итераций, равном 1000, значения ошибок, получаемые на CPU и GPU для одного и того же образца, не отличаются, что свидетельствует о корректности вычислений на GPU.

Результаты, представленные на рис.4, также подтверждают тот факт, что теоретические рефлектограммы, полученные при вычислении на CPU и GPU, хорошо совпадают с экспериментальной рефлектограммой. Различие между двумя вычисленными рефлектограммами невелико.

В результате расчетов получены следующие параметры слоев: толщина - 37,74 А; шероховатость по верхней границе слоя - 7,02 А; шероховатость по нижней границе слоя - 8,67 А; плотность слоя - 20,78 г/см3. Данные параметры близки к технологическим. Шероховатости границ раздела не превышают 10 А.

Рис.2. Время обработки входного массива данных (прямая задача) от количества угловых точек (GPU - NVidia GeForce 9600 GT; CPU - Intel Core 2 Quad 9300): 1 - CPU 10 слоев; 2 - GPU 10 слоев

=

к ю s

в

о

ж

= я

» 0,01

>i е

0,001

» V * \ » 1 11 А

и1 Vi

1 10 100 1000 10000 100000 Количество итераций

Рис.3. Зависимость целевой функции от количества итераций: 1 - Pt 35А GPU; 2 - Pt 35А CPU

Угол, градусы (20)

Рис.4. Рефлектограммы, полученные при расчете на CPU - Intel Core 2 Quad 9300 (-- ) и на GPU - NVidia GeForce 9600 GT (- - -); эксперимент

Замеры времени расчетов показывают, что решение обратной задачи с применением GPU 9600 GT (64 процессора, 1,6 ГГц) проходит в 4,7 раза быстрее, чем на CPU Q9300 (1 процессор, 2,5 ГГц) для слоя платины толщиной 35 А. Количество особей в популяции генетического алгоритма составляет 256, количество итераций 2560, что соответствует 640 тыс. процедурам решения прямой задачи.

Применяя свойство нелинейности времени расчета от количества входных данных на GPU (см. рис.2), возможно дополнительно ускорить вычислительный процесс на GPU, что отображено в таблице. Количество угловых точек составляет 330, количество особей в популяции генетического алгоритма 1-1000, количество итераций 2560, что соответствует 2,56 тыс.-2,56 млн процедурам решения прямой задачи.

В программе обработки данных количество особей для генетического алгоритма составляет 256. Время вычислений на CPU равно 2146 с, а при вычислении на GPU сокращается до 136 с.

Анализируя полученные результаты, можно сделать следующие выводы.

Предложенное предварительное преобразование экспериментальных результатов позволяет улучшить совпадение теоретической и экспериментальной рефлектограмм в процессе вычисления и, соответственно, повысить точность обработки экспериментальных данных.

В результате реализации алгоритма по технологии CUDA на графических процессорах получен значительный прирост производительности вычислений данных по сравнению с аналогичной реализацией на центральном процессоре компьютера.

С увеличением количества параметров в вычислительной модели время обсчета на базе центрального процессора растет линейно, а на базе графических процессоров -нелинейно, что говорит о большей эффективности использования графических процессоров для обсчета моделей с большим количеством параметров.

Групповой метод расчета рефлектограмм на графическом процессоре уменьшает время вычислений еще в несколько раз по сравнению с одиночным методом. В то же время при малом количестве особей в популяции генетического алгоритма и небольшом числе слоев эффективность использования центрального процессора для этой задачи выше, но при реальных расчетах такие параметры используются редко.

В настоящее время графические процессоры являются оптимальной параллельной архитектурой с общей памятью по соотношению «цена - производительность» [6]. При относительно невысокой стоимости по вычислительным мощностям они сравнимы с более дорогими небольшими кластерами, реализованными на центральных процессорах. Данный факт увеличивает перспективность использования технологии CUDA в решении задач по интерпретации результатов относительной двухволновой рентгеновской рефлектометрии наноструктур.

Зависимость времени решения обратной задачи от числа особей в генетическом

алгоритме, рассчитываемых на видеокарте за один вызов функции

Число особей CPU Q9300 (2,5 ГГц), GPU 9600 GT, с Прирост скорости вычислений,

с разы

1 9 27 0,333

2 17 28 0,6

3 26 29 0,89

5 43 30 1,43

10 85 31 2,74

25 210 38 5,52

100 847 77 11

256 2102 136 15,45

1000 8468 511 16,57

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, приведенные результаты демонстрируют увеличение точности обработки экспериментальных результатов и сокращение временных затрат на компьютерные вычисления при широкодоступных вычислительных мощностях, что, безусловно, увеличивает эффективность вычислений результатов относительной двухволновой рентгеновской рефлектометрии и соответственно перспективность применения данного метода для анализа многослойных структур.

Коллектив авторов выражает благодарность профессору Н.Н.Герасименко за высказанные идеи и плодотворное обсуждение материалов статьи.

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках реализации проекта ФЦП «Научные и научно-педагогические кадры инновационной России на 2009-2013 годы» (ГК№ П2426).

Литература

1. Wainfan N., Scott N.J., Parratt L. G. Density measurements of some thin copper films // J. Appl. Phys. -1959. - Vol. 30. - N. 10. - P. 1504-1609.

2. Турьянский А.Г., Виноградов А.В., Пиршин И.В. Двухволновой рентгеновский рефлектометр // Приборы и техника эксперимента. - № 1. - 1999. - С. 105-111.

3. NVIDIA CUDA Computer Unified Device Architecture. Programming Guide. http:// developer. down-load.nvidia.com/compute/cuda/2_0/NVIDIA_CUDA_Programming_ Guide_2.0.pdf

4. Аляутдинов М.А., Троепольская Г.В. Использование современных многоядерных процессоров в нейрокомпьютерах для решения задач математической физики // Нейрокомпьютеры: разработка, применение. - 2007. - № 9. - С. 71-80.

5. Fast calculation of HELAS amplitudes using graphics processing unit (GPU) / K.Hagiwara, J.Kanzaki, N.Okamura et al. // Eur. Phys. J. C. - 2010. - Vol. 66. - P. 477-492.

6. Боярченков А.С., Поташников С.И. Использование графических процессоров и технологии CUDA для задач молекулярной динамики // Вычислительные методы и программирование. - 2009. -Т. 10. - С. 9-23.

7. Боярченков А.С., Поташников С.И. Параллельная молекулярная динамика с суммированием Эвальда и интегрированием на графических процессорах // Вычислительные методы и программирование. - 2009. - Т. 10. - С. 158-168.

8. Матвеева Н.О., Горбаченко В.И. Решение систем линейных алгебраических уравнений на графических процессорах с использованием технологии CUDA // Известия ПГПУ, Физико-математические и технические науки. - 2008. - № 8(12). - С. 115-120.

9. Евстигнеев Н.М. Интегрирование уравнения Пуассона с использованием графического процессора технологии CUDA // Вычислительные методы и программирование. - 2009. - Т. 10. - С. 268-274.

Статья поступила 25 октября 2010 г.

Карташов Дмитрий Александрович - аспирант научно-исследовательской лаборатории радиационных методов, технологий и анализа (НИЛ РМТА) МИЭТ, инженер-технолог ОАО «НИИМЭ и Микрон» (г. Москва). Область научных интересов: компьютерная обработка результатов измерений наноструктур рентгеновскими методами.

Медетов Нурлан Амирович - докторант НИЛ РМТА МИЭТ, кандидат физико-математических наук. Область научных интересов: радиационная стойкость наноструктур, процессы формирования структур в твердых телах при облучении, рентгеновские методы анализа имплантированных систем.

Смирнов Дмитрий Игоревич - аспирант НИЛ РМТА МИЭТ. Область научных интересов: рентгеновские методы анализа многослойных структур, радиационная стойкость наноструктур. E-mail: rmta@miee.ru

Орлов Роман Сергеевич - студент МИЭТ. Область научных интересов: компьютерная обработка результатов рентгеновской рефлектометрии.

i Надоели баннеры? Вы всегда можете отключить рекламу.