Научная статья на тему 'НОВЫЙ ПОДХОД К КОМПЬЮТЕРНОМУ ОБУЧЕНИЮ ОТ BERKELEY LAB'

НОВЫЙ ПОДХОД К КОМПЬЮТЕРНОМУ ОБУЧЕНИЮ ОТ BERKELEY LAB Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКСПЕРИМЕНТАЛЬНАЯ МАТЕМАТИКА / МАШИННОЕ ОБУЧЕНИЕ / ПРЕОБРАЗОВАНИЕ ИЗОБРАЖЕНИЙ / EXPERIMENTAL MATHEMATICS / MACHINE LEARNING / TRANSFORMATION OF IMAGES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Павлюк Л.А.

Математики Национальной лаборатории Лоуренса Беркли в Лаборатории Беркли (Berkeley Lab) разработали новый подход к компьютерному обучению, нацеленный на экспериментальные данные визуализации. Вместо того, чтобы полагаться на десятки или сотни тысяч изображений, используемых типичными методами машинного обучения, этот новый подход «учится» гораздо быстрее и требует гораздо меньше изображений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Павлюк Л.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEW APPROACH TO COMPUTER TRAINING FROM BERKELEY LAB

Mathematicians of National laboratory of Lawrence Berkeley in Berkeley's (Berkeley Lab) Laboratory have developed the new approach to computer training aimed at experimental data of visualization. Instead of relying on tens or hundreds of thousands of images used by typical methods of machine learning, this new approach "studies" much quicker and demands much less images.

Текст научной работы на тему «НОВЫЙ ПОДХОД К КОМПЬЮТЕРНОМУ ОБУЧЕНИЮ ОТ BERKELEY LAB»

3. И. А. Кондрашкин, Н. Н. Кузьмина, В. В. Морозов [и др.]. учеб. пособие «Волновая оптика» - М.: Изд-во СПбГЭТУ "ЛЭТИ", 1997.

004.032.26

Павлюк Л.А. студент магистратуры Саратовский государственный технический университет имени Гагарина Ю.А.

Россия, г. Саратов

НОВЫЙ ПОДХОД К КОМПЬЮТЕРНОМУ ОБУЧЕНИЮ ОТ

BERKELEY LAB.

Аннотация: Математики Национальной лаборатории Лоуренса Беркли в Лаборатории Беркли (Berkeley Lab) разработали новый подход к компьютерному обучению, нацеленный на экспериментальные данные визуализации. Вместо того, чтобы полагаться на десятки или сотни тысяч изображений, используемых типичными методами машинного обучения, этот новый подход «учится» гораздо быстрее и требует гораздо меньше изображений.

Ключевые слова: Экспериментальная математика, машинное обучение, преобразование изображений

Pavlyuk L.A., the Master of Science, Yuri Gagarin State Technical

University of Saratov, Russia, Saratov

NEW APPROACH TO COMPUTER TRAINING FROM BERKELEY

LAB.

Summary: Mathematicians of National laboratory of Lawrence Berkeley in Berkeley's (Berkeley Lab) Laboratory have developed the new approach to computer training aimed at experimental data of visualization. Instead of relying on tens or hundreds of thousands of images used by typical methods of machine learning, this new approach "studies" much quicker and demands much less images.

Keywords: Experimental mathematics, machine learning, transformation of images

Daniel Pelt и James Sethian из Центра экспериментальной математики для исследований в области энергетики (CAMERA) Беркли основали концепцию машинного обучения в своей голове, разработав так называемую «гибридную нейронную сеть с плотным свертыванием (MS-D)», которая требует гораздо меньше параметров, чем традиционные методы, сходится быстро и имеет возможность «учиться» из чрезвычайно небольшого набора тренировок. Их подход уже используется для извлечения биологической структуры из изображений ячеек и предназначен для создания крупного нового вычислительного инструмента для анализа данных в широком спектре областей исследований [1].

Поскольку экспериментальные установки генерируют изображения с более высоким разрешением на более высоких скоростях, ученые могут быстрее управлять и анализировать полученные данные, что часто делалось кропотливо и вручную. В 2014 году James Sethian основал CAMERA в Berkeley Lab в качестве интегрированного междисциплинарного центра для разработки и предоставления фундаментальной новой математики, необходимой для использования экспериментальных исследований на объектах пользователей DOE Office of Science. CAMERA является подразделением вычислительных исследований лаборатории.

«Во многих научных приложениях для аннотирования и маркировки изображений требуются огромные ручные работы - для получения нескольких тщательно очерченных изображений может потребоваться несколько недель, - сказал James Sethian, который также является преподавателем математики в Калифорнийском университете в Беркли. «Наша цель заключалась в разработке техники, которая учится с очень маленького набора данных».Подробная информация об алгоритме была опубликована 26 декабря 2017 года в статье в Трудах Национальной академии наук.

«Прорыв произошел из-за понимания того, что обычное масштабирование, которое захватывает функции в различных масштабах изображения, может быть заменено математическими свертками, обрабатывающими несколько шкал в одном слое», - сказал Daniel Pelt, который также является членом группы национального научно -исследовательского института математики и информатики в Нидерландах.

Чтобы сделать алгоритм доступным для широкого круга исследователей, команда Berkeley построила web-портал «Сегментирование маркированных изображений (Engine Data Data Engine, SlideCAM)» в рамках набора инструментов CAMERA для экспериментальных установок DOE [2].

Одним из перспективных приложений является понимание внутренней структуры биологических клеток и проекта, в котором метод MS-D Daniel Pelt и James Sethian нуждался только в данных из семи клеток для определения структуры клеток.

«В нашей лаборатории мы работаем, чтобы понять, как структура клетки и морфология влияют или контролируют поведение клеток. Мы проводим бесчисленные часовые опыты для сегментации клеток, чтобы извлечь структуру и идентифицировать, например, различия между здоровыми и больными клетками», - сказала Carolyn Larabell, директор Национального центра рентгеновской томографии и профессор Калифорнийского университета Школы медицины Сан-Франциско. «Этот новый подход может радикально трансформировать нашу способность понимать болезнь и является ключевым инструментом в нашем новом проекте, финансируемом Chan-Zuckerberg, для создания« Атласа человеческих клеток», глобального сотрудничества для сопоставления и характеристики всех клеток здорового человека».

Изображения повсюду. Смартфоны и датчики создали сокровищницу фотографий, многие из которых имеют соответствующую информацию, идентифицирующую контент. Используя эту обширную базу данных изображений с перекрестными ссылками, сверточные нейронные сети и другие методы машинного обучения революционизировали нашу способность быстро идентифицировать естественные образы, которые выглядят как ранее увиденные и каталогизированные.

Эти методы «учатся», настраивая потрясающе большой набор скрытых внутренних параметров, руководствуясь миллионами помеченных изображений и требуя больших объемов времени суперкомпьютера. Но что, если у вас не так много отмеченных изображений? Во многих областях такая база данных является недостижимой роскошью. Биологи записывают изображения клеток и тщательно описывают границы и структуру вручную: для одного человека нередко приходится проводить недели с одним полностью трехмерным изображением. Ученые-медики используют томографическую реконструкцию для сверления внутри пород и материалов, а затем свертывают их рукава, чтобы маркировать разные области, идентифицируя трещины, переломы и пустоты вручную [3]. Контрасты между различными, но важными структурами часто очень малы, и «шум» в данных может маскировать функции и смешивать лучшие алгоритмы.

Эти драгоценные кураторы, созданные вручную, нигде не приближаются к традиционным методам машинного обучения. Для решения этой задачи математики CAMERA атаковали проблему машинного обучения из очень ограниченного количества данных. Пытаясь сделать «больше с меньшими затратами», их целью было выяснить, как создать эффективный набор математических «операторов», что может значительно уменьшить количество параметров. Эти математические операторы могут, естественно, включать ключевые ограничения, чтобы помочь в идентификации, например, путем включения требований в научно обоснованные формы и шаблоны.

Многие приложения машинного обучения для проблем с изображениями используют глубокие сверхточные нейронные сети (DCNN), в которых входное изображение и промежуточные изображения свернуты в большом количестве последовательных слоев, что позволяет сети изучать высоко нелинейные функции. Чтобы достичь точных результатов для сложных проблем обработки изображений, DCNN обычно полагаются на комбинации дополнительных операций и соединений. Наконец, DCNN обычно используют большое количество промежуточных изображений и обучаемых параметров, часто более 100 миллионов, для достижения результатов в решении сложных проблем.

Вместо этого новая сетевая архитектура «Смешанная шкала плотности» позволяет избежать многих из этих осложнений и вычисляет расширенные свертки в качестве замены операций масштабирования для захвата функций в различных пространственных диапазонах с

использованием нескольких шкал в пределах одного слоя и плотного соединения всех промежуточных изображений [4]. Новый алгоритм достигает точных результатов с несколькими промежуточными изображениями и параметрами, устраняя необходимость настройки гиперпараметров и дополнительных слоев или соединений для обучения.

Другой проблемой является получение изображений с высоким разрешением с входа с низким разрешением. Любому, кто попытался увеличить маленькую фотографию и обнаружил, что она только ухудшается по мере ее увеличения, это кажется почти невозможным. Но небольшой набор обучающих изображений, обработанных с помощью сети Mixed-Scale Dense, может обеспечить реальный прогресс. В качестве примера представьте себе попытку снизить томографические реконструкции армированного волокном мини-композитного материала. В эксперименте, описанном в документе, изображения были восстановлены с использованием 1024 полученных рентгеновских проекций для получения изображений с относительно низким уровнем шума. Затем шумные изображения одного и того же объекта были получены путем реконструкции с использованием 128 проекций[5]. Входы обучения представляли собой шумные изображения, причем соответствующие бесшумные изображения использовались в качестве целевого выхода во время обучения. Затем обученная сеть могла эффективно принимать шумные входные данные и восстанавливать изображения с более высоким разрешением.

Новые приложения Daniel Pelt и James Sethian используют свой подход к множеству новых областей, таких как быстрый анализ в реальном времени изображений, выходящих из источников синхротронного излучения, и проблем реконструкции в биологической реконструкции, таких как клетки и картирование мозга[6].

«Эти новые подходы действительно интересны, поскольку они позволят применять машинное обучение к гораздо большему разнообразию проблем с изображениями, чем это возможно в настоящее время», - сказал Daniel Pelt. «Сокращая количество требуемых учебных изображений и увеличивая размер обрабатываемых изображений, новая архитектура может использоваться для ответа на важные вопросы во многих областях исследований».

Использованные источники:

1. Овчинкина Т.В., Митин В.В., Кузьмин А.А. ПРИМЕНЕНИЕ ГИБРИДНЫХ НЕЙРОННЫХ СЕТЕЙ В ПРОГНОСТИЧЕСКИХ МОДЕЛЯХ ОЦЕНКИ ФУНКЦИОНАЛЬНОГО СОСТОЯНИЯ СЕРДЕЧНОСОСУДИСТОЙ СИСТЕМЫ // Современные проблемы науки и образования. - 2013. - № 5

2. Banakar Ahmad, Mohammad Fazle Azeem. Wavelet Neuro-Fuzzy Model With Hybrid Learning Algorithm Of Gradient Descent And Genetic Algorithm // International Journal of Wavelets Multiresolution And Information Processing. 2011. Vol. 9, no. 2. P. 333-359. DOI:10.1142/S021969131100402X

3. Arotaritei D. Genetic Algorithm for Fuzzy Neural Networks using Locally Crossover // International Journal of Computers Communications & Control. 2011. Vol. 6, no. 1. P. 8-20

4. Глова В.И., Аникин И.В., Катасёв А.С., Подольская М.А. Формирование базы знаний медицинской диагностической экспертной системы на основе нечеткой нейронной сети // Исследования по информатике. Вып. 12. Казань: Отечество, 2007. С. 31-46.

5. Катасёв А.С. Ахатова Ч.Ф. Нейронечеткая модель формирования баз знаний экспертных систем с генетическим алгоритмом обучения // Проблемы управления и моделирования в сложных системах: труды XII Межд. конференции. Самара: Самарский научный центр РАН, 2010. С. 615621

6. Лавыгина А.В., Ходашинский И.А. Гибридный алгоритм настройки параметров нечетких моделей // Двенадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2010 (Россия, Тверь, 20-24 сентября 2010 г.) : труды. Т. 4. М.: Физматлит, 2010. С. 112-115

i Надоели баннеры? Вы всегда можете отключить рекламу.