ISSN 2223-4047
Вестник магистратуры. 2019. № 6-2(93)
УДК 004
И.К. Резаев
СИСТЕМЫ ХРАНЕНИЯ ДАННЫХ ДЛЯ МАШИННОГО ОБУЧЕНИЯ
Данная статья посвящена рассмотрению системы распределенного хранения данных для алгоритмов машинного обучения. В статье будут рассмотрены системы хранения данных и подходы к их созданию и функционированию
Ключевые слова: Системы хранения данных, алгоритмы поиска изображений, машинное обучение.
Системы хранения данных понадобились ровно тогда, когда объем хранимых и передаваемых данных стал настолько велик, что использовать старые решения для хранения и передачи данных стало просто нецелесообразно. Количество данных увеличивалось в геометрической прогрессии. Начиная с 2010 года, практически каждый год суммарный объем данных увеличивался в два раза. Вместе с объемом увеличилась и стоимость информации. Большинство организаций, начиная с малого бизнеса и заканчивая государственными учреждения начали хранить свои данные в цифровом виде. Появилась необходимость в новых системах, лавным требованием к которым стал объем хранимой информации и возможность быстрого доступа к данным. Однако есть и другая сторона. Вследствие того, что каждая компания старается сэкономить свои бюджеты, поэтому производителям необходимо находится в постоянном поиске новых решений, которые при меньших затратах позволят получить более технологичные решения.
На данный момент таким решением стали системы хранения данных - это не просто набор полок, с установленными в них серверами, а сложные системы, представляющие из себя симбиоз сложного программного обеспечения и высокотехнологичного оборудования, главной задачей которых является хранение и передача больших объемов информации. Потребителю сегодня нужно чтобы данные занимали меньше места и при этом иметь постоянный и быстрый доступ к ним.
Системы хранения бывают несколько типов, это и чисто аппаратные решения, в основе которых стоит железо, так и гибридные решения, где применяются сложные программные системы.
При проектировании аппаратных решений выделяют три основных подхода: DAS, NAS, SAN.
DAS - это технология, при которой накопитель (внутренний или внешний) подключается непосредственно к серверу напрямую. В качестве примера можно рассматривать самый простой вариант -это единственный диск, находящийся в сервере. Внутри может находится как одни диск, так и целый RAID массив. Одним из важнейших компонентов таких систем является контроллер, который отвечает за работу всего массива накопителей. В системе DAS имеется возможность подключения большого количества компьютеров, благодаря наличию внешних каналов. К недостаткам системы стоит отнести достаточно большие затраты при хранении и управлении данными, вследствие того, что весь объем информации находится в разбросанном состояние. Вторым немаловажным фактором является отсутствие гибкости системы, в том случае если необходимо добавлять новые компоненты.
NAS - представляет сетевой подход к хранению данных. В его основе лежит подключение всех компонентов по сети. Однако у такого подхода есть свои недостатки. Главным из них является то, что объем и скорость передачи напрямую зависят от скорости работы сети и в том случае, если скорость сети будет недостаточно, данные можно получать дольше обычного.
SAN - является структурой хранения и передачи данных. Такая система является скорее подсистемой. С помощью SAN связывается несколько серверов с определенным количеством устройств. Принцип заключается в том, что любой сервер может подключится к любому устройству, не использую остальные серверы.
Помимо аппаратных решений, также имеются и программные решения. На данный момент такой системой является SDS (Software Defined Storage) - это программно-определяемые системы хранения данных. Компании начинают задумываться о внедрении SDS, когда стандартные процедуры работы с данными становятся неэффективными и их поиск отнимает много времени. Преимуществами такого рода систем является то, что они масштабируемы, дают относительную свободу от аппаратной части и упрощают структуру хранения.
SDS это виртуализированная среда для хранения данных с интерфейсом управления сервисами, которая должна включать в себя:
© Резаев И.К.,2019.
Научный руководитель: Афанасьев Алексей Викторович - профессор, доктор физико-математических наук, Московский государственный технический университет им. Н.Э. Баумана (филиал в г. Мытищи), Россия.
Вестник магистратуры. 2019. № 6-2(93)
ISSN 2223-4047
• автоматизацию - упрощенное управление, снижающее издержки на обслуживание инфраструктуры хранения данных;
• стандартные интерфейсы - API для управления, выделения и освобождения ресурсов, обслуживания сервисов и устройств хранения;
• виртуализацию путей доступа к данным - блочный, объектный и файловый доступ в соответствии с интерфейсами приложений;
• масштабируемость - изменение инфраструктуры хранения без снижения требуемого уровня доступности или производительности;
• прозрачность - мониторинг потребляемых ресурсов хранения, управление ими и контроль их стоимости.
Почти все SDS системы делятся на три основные группы:
• классические (CEPH, Red Hat Storage Server, EMC ScaleIO),
• на основе традиционных систем хранения (NetApp ONTAP Select, HPE StoreVirtual VSA),
• в составе вычислительных комплексов (VMware vSAN).
Такие решения могут позволить себе только те компании, которые готовы затрачивать значительные суммы на обслуживание своих IT инфраструктур, для которых сохранность и быстрый доступ к данным занимают не последнее место в процессе функционирования организации. На данный момент системы хранения данных применяются во многих сферах: начиная с архивов видеонаблюдения сетей гипермаркетов, до работы в крупнейших банках, госструктурах, крупных предприятиях. В случае крупных организаций на системы хранения данных могут выделять до 25% бюджета компании, выделяемого на IT инфраструктуру. Такие системы используют Банки: ВТБ, Сбербанк, Райффайзенбанк, сотовые операторы: Мегафон, МТС, Билайн и многие другие
Одним из наиболее часто используемых видов хранимы данных являются изображения. С того момента, как появилась возможность делать фотографию один нажатием на смартфон, количество данных такого рода увеличилось в десятки раз. Соответственно такие данные необходимо хранить, обрабатывать и выдавать пользователям.
Чтобы получить информацию из изображения, необходимо обратится к его локальным особенностям. Существует множество алгоритмов по поиску изображений. Рассмотрим самые популярные из них: Detector Harris, Forstner, Trajkovic, FAST. Принцип действия таких алгоритмов заключается в поиске особых точек на изображении. Алгоритмы анализируют изображения, после чего выявляют на нем особые точки, которые позволяют определить, что именно изображено на картинке.
Также в последние годы стало популярным использовать для решения поставленных задач машинное обучение. Системы хранения данных не стали исключением. На сегодняшний день уже есть алгоритмы, которые в своей работе используют данную технологию. Всеми известный алгоритм FAST использует в своей работе по определению особых точек методы машинного обучения.
Таким образом мы получаем постоянно растущий объем данных, который требует не только места на жестком диске, но и быстрого доступа. Также сегодня развивается компьютерное зрение и другие методы машинного обучения, которые значительно упрощают работу с данными. Однако производителям таких систем необходимо постоянно двигаться в ногу со времени, чтобы в ближайшее время не получилось так, что их продукт малоэффективен и не способен решать поставленные перед ним задачи.
Библиографический список
1.Конушин А. Слежение за точечными особенностями сцены (Point feature tracking). Компьютерная графика и мультимедиа. Выпуск №1(5)/2003.
2.M. H. Miroslav Trajkovii. Fast corner detection, 1998.
3.B. Smith. SUSAN — A new approach to low level, 1997
4.R. S. Farzin Mokhtarian. Robust Image Corner Detection Through Curvature Scale Space, 1998.
5.V. Rodehorst, A. Koschan. Comparison and evaluation of feature point detectors, 2006.
6. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
7.Liang Wang, Li Cheng, Guoying Zhao. Machine Learning for Human Motion Analysis. — IGI Global, 2009.
РЕЗАЕВ ИГОРЬ КОНСТАНТИНОВИЧ - магистрант, Московский государственный технический университет им. Н.Э. Баумана (филиал в г. Мытищи), Россия.