Информационные технологии Вестник Нижегородского университета им. Н.И. Лобачевского, 2012, № 4 (1), с. 260-267
УДК 004.94
МОДЕЛИРОВАНИЕ РЕЛАКСАЦИИ МАССИВА КРЕМНИЕВЫХ НАНОКРИСТАЛЛОВ ПО МЕТОДУ МОНТЕ-КАРЛО С ИСПОЛЬЗОВАНИЕМ ГРАФИЧЕСКИХ УСКОРИТЕЛЕЙ
© 2012 г. В.А. Беляков, А.В. Линёв, А.В. Горшков, И.Б. Крылов
Нижегородский госуниверситет им. Н.И. Лобачевского [email protected]
Поступила в редакцию 24.04.2012
Рассматривается задача моделирования релаксации массива кремниевых нанокристаллов. Описывается схема решения задачи с использованием метода Монте-Карло. Представлены алгоритмы случайного размещения массива нанокристаллов в плоском слое и моделирования процесса эмиссии массива. Предложена схема распараллеливания алгоритмов и их адаптации к выполнению на графическом ускорителе. Приведены результаты вычислительных экспериментов и их анализ с точки зрения корректности результатов и производительности.
Ключевые слова: оптоэлектроника, массив нанокристаллов, метод Монте-Карло, высокопроизводительные вычисления, графические ускорители, GPGPU, СЦТОА.
Введение
Хорошо известно, что кремний является основным элементом современной микроэлектроники. Возможность высокой очистки кремния, его доступность и дешевизна, высокие качества границы раздела Si/SiO2 обеспечили кремнию лидирующие позиции в создании различных приборов микроэлектроники и их применении. Тем не менее в оптоэлектронике кремний пока не получил широкого распространения. Причиной тому - фундаментальная особенность кремниевой зонной структуры - ее непрямозон-ность. Волновые функции электронов (в зоне проводимости) и дырок (в валентной зоне) являются полностью локализованными в импульсном пространстве. При этом значения импульсов для электронов и дырок очень сильно различаются, и разница эта превосходит на 3-4 порядка импульс фотона, который мог бы быть излучен при межзонном электронно-дырочном переходе. В результате закон сохранения импульса при излучательном межзонном переходе не выполняется, что приводит к полному запрету таких переходов в системе.
Преодоление этого препятствия видится в наноструктурировании кремния, т.е. создании различных структур на основе квантовых точек
- нанокристаллов - кремния, динамика электронов в которых описывается чисто квантовыми законами. В нанокристалле, помещенном в широкозонную диэлектрическую матрицу, например в SiO2, электронное состояние оказывается локализованным внутри нанокристалла,
что ведет к «размытию» волновых функций электронов и дырок в импульсном пространстве. Это, в свою очередь, делает электронно-дырочный излучательный переход разрешенным.
В начале 90-х годов прошлого столетия было открыто излучение нанокристаллического [1] и пористого [2-4] кремния в видимом диапазоне, причем оказалось возможным даже получение оптического усиления на кремниевых нанокристаллах [5]. За прошедшие с тех пор годы большие усилия как теоретиков, так и экспериментаторов были направлены на исследования электронной структуры и оптических свойств нанокристаллов кремния. Эта тематика вызывает живой интерес и сейчас, и связано это в первую очередь с желанием увеличить эффективность фотонной генерации в нанокристаллах кремния, поскольку интенсивность световой эмиссии в них остается все-таки достаточно низкой.
Надо, однако, заметить, что теоретическое изучение оптических свойств нанокристаллов кремния чаще всего выполняется для одного нанокристалла, в то время как в экспериментах всегда приходится иметь дело с их ансамблями, содержащими миллионы или даже миллиарды кристаллитов. Эти ансамбли характеризуются разбросом по размерам кристаллитов, что само по себе может приводить к некоторым особенностям в спектрах излучения, а кроме того, в плотных массивах нанокристаллов становится возможным энергообмен между нанокристаллами, что самым существенным образом может сказаться на люминесценции массива.
В данной работе описана схема решения задачи с использованием метода Монте-Карло, представлены алгоритмы случайного размещения массива нанокристаллов в плоском слое и моделирования процесса эмиссии массива, предложена схема распараллеливания алгоритмов и их адаптации к выполнению на графическом ускорителе. Приведены результаты вычислительных экспериментов и их анализ с точки зрения корректности результатов и производительности.
Задача численного моделирования
Адекватное описание световой эмиссии массива нанокристаллов должно учитывать возможность энергообмена между элементами массива, а также различные безызлучательные релаксационные процессы, идущие в самих нанокристаллах и составляющие конкуренцию излучательным межзонным переходам. Энергообмен между нанокристаллами может проявляться в первую очередь посредством туннельной миграции возбужденных носителей (электронов и дырок), а также посредством экситон-ного переноса, идущего по механизму Фер-стера-Декстера [6-8]. Среди безызлучательных процессов, идущих «внутри» нанокристалла независимо от наличия «соседей», следует выделить захват электронов на оборванные связи на поверхности нанокристалла и Оже-рекомби-нацию.
Все эти безызлучательные процессы, как и излучательные межзонные переходы, носят вероятностный характер и описываются скоростями (вероятностями за единицу времени), значения которых известны. При этом скорости излучательной рекомбинации, Оже-рекомбина-ции и захвата на оборванные связи зависят от радиуса нанокристалла, скорости туннелирования и экситонных переходов являются функциями не только радиусов эмитирующего и принимающего нанокристаллов, но и расстояния между нанокристаллами. Эти зависимости рассчитывались ранее в работах [9-19], и сейчас мы не будем останавливаться на детальном их обсуждении, отметив лишь один момент, имеющий принципиальное значение для последующего моделирования люминесценции массива нанокристаллов.
Важным для нас, и существенно усложняющим расчеты, является, в частности, то обстоятельство, что скорости всех вышеперечисленных процессов имеют очень большой разброс значений. Так, для интересующего нас интервала радиусов нанокристаллов от (примерно) одного до трех нанометров (что обычно имеет
место в экспериментах) можно указать следующие области изменения скоростей. Например, скорость захвата на оборванные связи т С варьируется от 102 до 1011 с-1 [9,10], скорость Оже-рекомбинации т А меняется в пределах 105—1010 с-1 [10-12], излучательная электроннодырочная рекомбинация - существенно более медленный процесс - имеет скорости Т А от 102 до 105 с-1 [13-17]. Туннелирование возбужденных носителей и экситонные переходы между нанокристаллами очень чувствительны к изменению как размеров нанокристаллов, так и расстояния между ними. Скорости туннельных процессов т достаточно высоки - они равны 107-1012 с-1 (в зависимости от размеров нанокристаллов), когда нанокристаллы примыкают друг к другу, и экспоненциально убывают до значений 102-108 с-1 при увеличении расстояния между ними до 1 нм [18,19]. Относительно экси-тонных переходов можно сказать, что они являются самыми медленными среди всех релаксационных процессов - их скорости т не превышают, как правило, 103 с-1 [19].
Таким образом, в целом, интервал изменения скоростей всех рассматриваемых процессов оказывается очень широким - от 102 до 1012 с-1. Это значит, что при моделировании релаксации массива нанокристаллов в режиме реального времени нам придется выбирать шаг по времени 5? (который должен удовлетворять условию 5?/т << 1, где т - характерное время самого быстрого процесса) много меньше 10-12 с-1. В то же время количество шагов, которые нужно сделать, чтобы быть уверенным, что релаксационные процессы в массиве уже завершились, очевидно, должно быть таким, чтобы общее время «наблюдения» за системой оказалось много большим характерного времени самого медленного процесса. В нашем случае, по-видимому, это будет время порядка одной секунды, а ко-
13
личество шагов, соответственно, - порядка 10 .
Надо также учесть, что количество нанокристаллов в массиве должно быть таким, чтобы позволить набрать достаточную статистику из-лучательных переходов при релаксации массива. Это означает, что число нанокристаллов не может быть величиной порядка сотни или тысячи, поскольку безызлучательные процессы обладают на несколько порядков большими скоростями, чем излучательные переходы, вследствие чего из сотни или даже тысячи нанокристаллов подавляющее большинство сре-лаксирует безызлучательно и только единицы сумеют испустить фотон. Кроме того, желательно было бы максимально приблизить
«входные» данные для нашего компьютерного эксперимента к реальным параметрам системы. Все это обусловило наш выбор количества нанокристаллов в массиве на уровне 108. Фактически это означает, что разыгрывая разные «сценарии» (т.е. выбор того или иного процесса релаксации) на каждом шаге по времени, мы должны будем делать это для каждого нанокристалла в массиве. Все это вместе обусловливает строгую необходимость привлечения к расчетам мощных компьютерных кластеров и использования пакетов программ и технологий параллельного многопоточного программирования для получения требуемого результата за приемлемое время.
Задача моделирования люминесценции в плотных ансамблях нанокристаллов кремния разбивается на два логических этапа:
1. Случайное размещение нанокристаллов в плоском слое;
2. Непосредственное моделирование процесса эмиссии массива.
Нанокристаллы представляют собой окружности со случайными радиусами, разброс значений которых будем описывать логарифмическим нормальным распределением
p(R) = -
1
exp
(ln(R) - M )2 IS1
я
где Я - радиус квантовой точки в нанометрах, М и 5 - математическое ожидание и среднеквадратичное отклонение логарифма радиуса соответственно, связанные с математическим ожиданием Я и среднеквадратичным отклонением 5А самого радиуса соотношениями:
Я = ехр(М + 52 /2); 8Я = Я7ехр(52 -1) .
Как показывают эксперименты, именно логарифмическое нормальное распределение наиболее точно описывает статистику размеров нанокристаллов в реальных структурах.
Получение случайной величины Я с логнормальным распределением осуществляется через преобразование Бокса — Мюллера согласно формулам:
Я = ехр(М + хБ), г = сов(2тсф)л/- 21п г , где ф и г - независимые случайные величины, равномерно распределенные на интервале [0,1).
Алгоритм размещения нанокристаллов
В рамках первого этапа решения задачи необходимо равномерно разместить окружности (нанокристаллы) внутри заданного прямоугольника на плоскости так, чтобы они не пересекались (пуассоновское размещение). Существуют различные алгоритмы пуассоновского размеще-
ния окружностей. Самым простым и теоретически корректным является метод Dart Throwing [20], который заключается в последовательном бросании окружностей на плоскость и проверке того, что данная окружность не пересекает уже размещенные. Этот метод, однако, является очень медленным и не поддается распараллеливанию. Для ускорения этого метода применяются различные усовершенствования схемы размещения, позволяющие существенно уменьшить время работы алгоритма, не ухудшая при этом статистических свойств получаемого распределения. Например, используется подход, при котором изначально радиусы окружностей считаются большими, а затем итерационно уменьшаются [20]. Другие методы предполагают размещение окружностей не произвольно, а с использованием ячеек определенной структуры [20]. Еще одним подходом, используемым для размещения окружностей, является иерархическое итерационное разбиение области и бросание центров окружностей в рамках полученных подобластей [21] - так называемое параллельное пуассоновское размещение окружностей. Для данного алгоритма возможна эффективная параллельная реализация как на многоядерных CPU, так и на GPU. При этом получаемое в итоге распределение обладает приемлемыми статистическими характеристиками. Именно этот алгоритм и был задействован в данной работе.
Алгоритм включает выполнение следующей последовательности действий:
1. На заданную прямоугольную область вбрасывается точка (центр окружности), при этом проверяется, нет ли пересечений данной окружности с уже имеющимися;
2. Область разбивается на четыре равные не-пересекающиеся подобласти (делением пополам по вертикали и горизонтали), вброшенная точка приписывается той новой подобласти, куда она попала после разбиения;
3. В каждую из получившихся подобластей, не содержащую точки, снова бросается точка, как на шаге 1.
Обход подобластей на шаге 3 осуществляется в случайном порядке. В случае когда при размещении окружности в подобласти имеет место пересечение с уже размещенными окружностями, делается еще несколько попыток случайного размещения, количество этих попыток является параметром алгоритма. Алгоритм завершается либо по достижении нужной плотности, либо когда размер подобластей будет недостаточен для дальнейшего размещения окружностей.
Рис. 1. Алгоритм Dart Throwing: спектральная плотность распределения (a), радиальный спектр (b) и анизотропия (с)
а Ь с
Рис. 2. Реализованный алгоритм: спектральная плотность распределения (а), радиальный спектр (Ь) и анизотропия (с)
Описанный выше алгоритм является строго последовательным. Следующие дополнения обеспечивают его распараллеливание:
- после разбиения области из всех подобластей выделяются фазовые группы: подобласти принадлежат одной фазовой группе, если размещение окружностей в них возможно независимо и параллельно; в частности, к одной фазовой группе могут относиться подобласти, которые расположены на определенном расстоянии друг от друга;
- выполняется последовательная обработка фазовых групп, при этом области из одной фазовой группы обрабатываются параллельно; выбор фазовой группы для обработки на каждом шаге происходит случайным образом.
Были реализованы последовательная и параллельная (для систем с общей памятью с использованием технологии OpenMP) версии описанного алгоритма для CPU.
Проверка корректности полученных результатов в задаче пуассоновского размещения окружностей основана на сравнении статистических характеристик размещения с результатами, полученными при использовании алгоритма Dart Throwing. Сравнивались такие характеристики, как вид спектральной функции плотности распределения
( N У Л ( N У
P(ffl) = — N
^cos(2nfflxj)
j=i
^sin(2nfflxj)
j=i
где Xj - двумерные радиус-векторы центров окружностей; радиальный спектр R(r), представляющий собой среднее значение спектральной функции на кольце от r до r + dr; анизотропия A(r), являющаяся мерой радиальной симметрии спектральной функции.
На рис. 1 приведены статистические характеристики пуассоновского распределения для алгоритма Dart Throwing, которые являются теоретически корректными, а на рис. 2 - полученные в результате работы созданного параллельного алгоритма.
Моделирование люминесценции массива нанокристаллов
В процессе моделирования люминесценции нанокристаллов кремния для каждого нанокристалла рассматриваются четыре конкурирующих между собой процесса - межзонная излу-чательная рекомбинация (скорость тR), безыз-лучательная рекомбинация (захват экситона на оборванную связь плюс Оже-рекомбинация), идущая со скоростью тNR = т^ + тA, туннелирование электрона или дырки (скорость т ^) и экситонный переход (скорость т”’). Как уже говорилось выше, скорости этих процессов рассчитывались ранее [9-19], и сейчас мы просто
будем использовать полученные в работах [919] значения. Кроме этих четырёх событий за единицу времени может также реализоваться еще одно, так называемое «нулевое» событие, в результате которого система остается в исходном состоянии, т.е. ни одно из вышеперечисленных четырёх событий не происходит. Очевидно, шаг по времени 5? должен выбираться так, чтобы нулевое событие обладало наибольшей вероятностью, много большей вероятности любого из других событий. Определение того, какое из пяти (с учетом нулевого) событий за время 5? происходит, на каждом шаге по времени для каждого нанокристалла проводится при помощи испытания - вброса случайного числа на линейку вероятностей. При этом вероятность события определяется произведением скорости соответствующего процесса на величину шага по времени 5?. Вероятность же нулевого события Р0 определяется из условия нормировки:
5?(т яЯ + т Ая + т / + т *') + Р0 = 1 .
Величина шага по времени определяется из условия, что самое быстрое из всех событий, исключая нулевое, среди всех нанокристаллов массива имеет вероятность, не превышающую 0.01. Кроме того, полное число всех событий за один шаг не должно превышать 1000.
До начала работы основной части алгоритма выполняются следующие предварительные вычисления:
- для каждого нанокристалла рассчитываются энергии основного уровня по формулам: Ее = = 7/Я32 эВ - для электронов; Ен = 0.8/Я32 эВ
- для дырок; ЕрН = Ее + Ен + 1.12 эВ - для фотонов (радиус Я берется в нанометрах);
- для каждого нанокристалла в соответствии с его размером задаются скорости излучатель-ного перехода, Оже-процесса и захвата носителя на оборванную связь;
- задается начальное число электронов Ае, дырок N и фотонов Ар\г в каждом нанокристалле (в экспериментах использовались значения N = 1, N = 1, МрН = 0);
- случайным образом определяется наличие оборванной связи в нанокристалле (вероятность
0.6);
- для каждого нанокристалла определяется набор соседей, с которыми он способен обмениваться электронами, дырками и экситонами, посредством проверки выполнения условий L < < 2 нм и Я] < Я2, где L - расстояние между краями нанокристаллов, Я1 - радиус накристалла, у которого ищется окружение, Я2 - радиус соседнего нанокристалла; для всех соседей рассчитываются скорости туннелирования электронов и дырок и скорости экситонных переходов.
На каждом шаге алгоритма выполняются следующие действия:
- рассчитывается оптимальный шаг по времени по формуле 5? = 10-^в(Рт )+2^, где Рт - максимальная среди всех кристаллитов вероятность наступления ненулевого события;
- для каждого нанокристалла строится линейка вероятностей наступления возможных событий и выбирается одно из них путем генерации случайного значения.
Поскольку на каждом шаге вычисления для различных нанокристаллов независимы, они могут производиться параллельно. В представляемой реализации параллельно выполнялись определение набора соседей, поиск максимальной вероятности ненулевого события и выбор одного процесса с линейки вероятностей.
Были реализованы последовательная версия данного алгоритма для СРи, параллельная для СРи для систем с общей памятью (ОрепМР) и параллельная версия для графического ускорителя GPU (СиБА). Также была реализована версия для работы на системе с распределенной памятью, использующей GPU, выполняющая расчет для многослойных систем - каждый отдельный слой моделируется на своем узле кластера, используя при этом вычислительные возможности GPU. Слои изначально формируются в рамках «своих» процессов, после окончания расчетов данные передаются на главный узел. Данная версия реализована с использованием технологии МР1.
Для проверки корректности полученного решения использовался качественный анализ кривой, показывающей зависимость общего количества экситонов от времени. Для этого были проведены эксперименты моделирования экситонного переноса для массива из 1000 нанокристаллов, размещенных с разной плотностью. Рисунок 3 показывает зависимость общего количества экситонов от времени при трех вариантах плотности размещения нанокристаллов.
Отметим два момента, относящихся к графикам: во-первых, при увеличениии плотности заполнения скорость экситонного переноса возрастает (при меньшей плотности общее число экситонов уменьшается быстрее), во-вторых, начиная с некоторого момента происходит экспоненциальное уменьшение количества эксито-нов со временем (на графике использована логарифмическая шкала).
Действительно, на временном интервале ? >> >> тАЯ (~10-4 с) аннигиляция экситонов происходит только за счёт одного процесса - излуча-тельной рекомбинации. При этом энергообмен между нанокристаллами также заканчивается, поскольку экситоны либо уже перешли из мень-
-0.58%
-2.32%
-9.28%
-37.12%
3"
ю
О
0,01
1Е-0Э 1Е-08 0,0000001 0,000001 0,00001 0,0001 0,001
Время (с)
Рис. 3. Зависимость общего количества экситонов в системе от времени для различных плотностей заполнения области нанокристаллами
Количество ядер CPU
Количество ядер CPU
Рис. 4. Время работы и ускорение алгоритма размещения окружностей
ших кристаллов в большие, либо уже аннигилировали в меньших нанокристаллах с большей скоростью излучательной рекомбинации. Таким образом, на этой стадии изменение числа экси-тонов описывается линейным дифференциальным уравнением
dN = _ N dt т R
откуда N = e_/lR . Следовательно, число эксито-нов на больших временных интервалах спадает экспоненциально. Таким образом, описанное поведение кривой зависимости общего количества экситонов от времени соответствует ожидаемому, из чего делается вывод о корректности результата численного моделирования.
Результаты тестов производительности
Вычислительные эксперименты проводились в следующих условиях:
- язык программирования: C;
- используемые технологии: OpenMP, CUDA;
- операционная система: Microsoft Windows Server 2008 HPC Edition SP2 x64;
- среда разработки: Microsoft Visual Studio 2010;
- компилятор: Intel C++ Compiler XE 12.1;
- 16 узлов: 2 CPU Intel Xeon L5630 2.13 ГГц, 4 ядра; 24 ГБ оперативной памяти; NVidia Tesla M2050.
На рис. 4 представлены временные результаты и ускорение параллельного алгоритма размещения окружностей.
На рис. 5 представлены временные результаты и ускорение параллельной СРи-версии и параллельной GPU-версии алгоритма моделирования люминесценции и экситонного переноса в зависимости от количества нанокристаллов.
На рис. 6 представлены временные результаты и ускорение параллельной GPU-версии алгоритма моделирования люминесценции и экситонного переноса для системы с распределенной памятью, использующей графические ускорители. Максимально использовалось 7168 графических ядер.
Как видно из графиков, все предложенные и реализованные схемы распараллеливания обеспечивают высокую масштабируемость.
Заключение
В работе была исследована возможность выполнения численного моделирования релаксации массива кремниевых нанокристаллов по методу Монте-Карло на вычислительных системах, использующих графические ускорители. Описаны алгоритмы формирования массива нанокристаллов и моделирования люминесценции, предложены схемы их распараллеливания,
16364 3276В 65536 131072 262144 8192 16334 32768 65536 131072
Количество нанокристаллов Количество нанокристаллов
Рис. 5. Время работы и ускорение алгоритма моделирования люминесценции и экситонного переноса
6 8 10 Число узлов кластера
Рис. 6. Время работы и ускорение алгоритма моделирования люминесценции и экситонного переноса на системе с распределенной памятью, использующей графические ускорители
приведены данные о масштабировании выполненных реализаций. Текущие результаты показывают, что предложенные параллельные решения обладают хорошей масштабируемостью.
Результаты вычислительных экспериментов были использованы для обоснования модели энергообмена между кремниевыми квантовыми точками посредством переноса элементарных возбуждений (экситонов).
Работа выполнена в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» (госконтракт № 07.514.11.4012) при организационной поддержке Лаборатории информационных технологий ННГУ.
Список литературы
1. Takagi H., Ogawa H., Yamazaki Y. et al. Quantum size effects on photoluminescence in ultrafine Si particles // Appl. Phys. Lett. 1990. V. 56. P. 2379-2380.
2. Canham L.T. Silicon quantum wire array fabrication by electrochemical and chemical dissolution of wafers // Appl. Phys. Lett. 1990. V. 57. P. 1046-1048.
3. Calcott P.D.J., Nash K.J., Canham L.T. et al. Identification of radiative transitions in highly porous silicon // J. Phys.: Condens. Matter. 1993. V. 5. P. L91-L98.
4. Calcott P.D.J., Nash K.J., Canham L.T., et al. Spectroscopic identification of the luminescence mechanism of highly porous silicon // J. Lumin. 1993. V. 57. P. 257-269.
5. Pavesi L., Dal Negro L., Mazzoleni C. et al. Optical gain in silicon nanocrystals // Nature. 2000. V. 408. P. 440-444.
6. Forster T. Versuche zum zwischenmolekularen. Ubergang von elektronenanregungsenergie // Zeitschrift fur Elektrochemie. 1949. B. 53. S. 93.
7. Forster T. Experimentelle und theoretische Unter-suchung des zwischenmolekularen Ubergangs von Elek-tronenanregungsenergie // Zeitschrift fur Naturforschung. 1949. B. A4. S. 321.
8. Dexter D.L. A theory of sensitized luminescence in solids // J. Chem. Phys. 1952. V. 21. P. 836.
9. Lannoo M., Delerue C., and Allan G. Theory of radiative and nonradiative transitions for semiconductor nanocrystals // J. Lumin. 1996. V. 70. P. 170-184.
10. Delerue C., Lannoo M. Nanostructures. Theory and Modelling. Berlin, Heidelberg: Springer-Verlag, 2004.
11. Mahdouani M., Bourguiga R., Jaziri S. et al. // Physica E. 2009. V. 42. P. 57.
12. Курова Н.В., Бурдов В.А. Резонансная структура скорости Оже-рекомбинации в нанокристаллах кремния // ФТП. 2010. Т. 44. С. 1463-1465.
13. Hybertsen M.S. // Phys. Rev. Lett. 1994. V.72. P. 1514.
14. Delerue C., Allan G., Lannoo M. Electron-phonon coupling and optical transitions for indirect-gap semiconductor nanocrystals // Phys. Rev. B. 2001. V. 64. P. 193402-1-193402-4.
15. Moskalenko A.S., Berakdar J., Prokofiev A.A., Yassievich I.N. Single-particle states in spherical Si/Si02 quantum dots // Phys. Rev. В. 2007. V. 76. P. 085427-1085427-9.
16. Belyakov V.A., Burdov V.A., Lockwood R., Meldrum A. Silicon Nanocrystals: Fundamental Theory
and Implications for Stimulated Emission // Adv. Opt. Tech. 2008. P. 279502.
17. Belyakov V.A., Burdov V.A. Г-X Mixing in Phosphorus-Doped Silicon Nanocrystals: Improvement of the Photon Generation Efficiency // Phys. Rev. B. 2009. V. 79. P. 035302.
18. Беляков В.А., Конаков А.А., Бурдов В.А. Миграция возбужденных носителей в ансамблях нанокристаллов кремния, легированных фосфором //
®m 2010. T. 44. C. 1466.
19. Belyakov V.A., Burdov V.A. Radiative Recom-binantion and Migration Effects in Ensembles of Si Nanocrystals: Towards Controllable Nonradiative Energy Transfer // J. Comp. Theor. Nanosci. 2011. V. 8. P. 365.
20. Lagae A., Dutre P. A Comparison of Methods for Generating Poisson Disk Distributions // Computer Graphics. 2008. Vol. 27. Number 1. P. 114-129.
21. Wei L.-Y. Parallel Poisson Disk Sampling // Microsoft Research Asia. 2008.
RELAXATION SIMULATION OF A SILICON NANOCRYSTAL ARRAY BY THE MONTE CARLO METHOD USING GRAPHICS ACCELERATORS
V.A. Belyakov, A. V. Linev, A V. Gorshkov, I.B. Krylov
Relaxation simulation of a silicon nanocrystal array is considered. A problem-solving scheme is described using the Monte Carlo method. The algorithms of the nanocrystal array random distribution in the plane layer and the array emission simulation are presented. A scheme to parallelize the algorithms and adapt them to a graphics accelerator is suggested. The results of computing experiments and their analysis in terms of their correctness and efficiency are given.
Keywords: optoelectronics, array of nanocrystals, Monte Carlo method, high-performance computing, GPGPU, CUDA.