Научная статья на тему 'Хранилище данных: современные подходы к хранению и обработке'

Хранилище данных: современные подходы к хранению и обработке Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
672
83
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНИЛИЩЕ ДАННЫХ / DATA WAREHOUSE / HADOOP / MAPREDUCE / БОЛЬШИЕ ДАННЫЕ / BIG DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Толеу Магжан Куатулы, Омарова Шолпан Ембергеновна, Баширов Александр Витальевич

Ежедневно растущий объем электронных данных ставит сложные задачи перед традиционными способами по организации в хранении, обработке и анализе данных. Целесообразность проведения дальнейших исследований в данной области подтверждается наличием высокого спроса на услуги хранения данных и аналитической обработки данных. В данной статье анализируются возможные способы их решения, ограничения, которые не позволяют сделать это эффективно, а также приводится обзор систем для современных подходов к работе с большими данными. Изучены преимущества и недостатки существующих решений, также рассмотрены основные достоинства и недостатки использования системы в крупных компаниях.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Толеу Магжан Куатулы, Омарова Шолпан Ембергеновна, Баширов Александр Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Хранилище данных: современные подходы к хранению и обработке»

4. Тельный А. В., Монахов М. Ю. «Формирование динамической модели оценки показателей надежности объектовых комплексов технических средств охранной сигнализации»: Динамика сложных систем — XXI век. ISSN 1999-7493. № 4, 2015.

ХРАНИЛИЩЕ ДАННЫХ: СОВРЕМЕННЫЕ ПОДХОДЫ К ХРАНЕНИЮ

И ОБРАБОТКЕ Толеу М. К.1, Омарова Ш. Е.2, Баширов А. В.3

'Толеу Магжан Куатулы — магистрант;

2Омарова Шолпан Ембергеновна — кандидат экономических наук, профессор;

3Баширов Александр Витальевич — кандидат технических наук, ведущий научный сотрудник, кафедра информационно-вычислительных систем, Научно-исследовательский институт экономических и правовых исследований

Карагандинский экономический университет Казпотребсоюза, г. Караганда, Республика Казахстан

Аннотация: ежедневно растущий объем электронных данных ставит сложные задачи перед традиционными способами по организации в хранении, обработке и анализе данных. Целесообразность проведения дальнейших исследований в данной области подтверждается наличием высокого спроса на услуги хранения данных и аналитической обработки данных. В данной статье анализируются возможные способы их решения, ограничения, которые не позволяют сделать это эффективно, а также приводится обзор систем для современных подходов к работе с большими данными. Изучены преимущества и недостатки существующих решений, также рассмотрены основные достоинства и недостатки использования системы в крупных компаниях. Ключевые слова: хранилище данных, hadoop, mapreduce, большие данные.

DATA STORAGE: MODERN APPROACHES TO STORAGE AND HANDLING Toleu M.1, Omarova Sh.2, Bashirov A.3

'Toleu Magzhan— postgraduate student;

2Omarova Sholpan — Candidate of Economic Sciences, Professor;

3Bashirov Aleksandr — Candidate of Technical Sciences, Leading Researcher, RESEARCH INSTITUTE OF ECONOMICS AND LEGAL STUDIES; DEPARTMENT OF INFORMATION AND COMPUTING SYSTEMS, KARAGANDA ECONOMIC UNIVERSITY OFKAZPOTREBSOUZ, KARAGANDA, REPUBLIC OF KAZAKHSTAN

Abstract: daily growing volume of electronic data poses challenges to traditional methods of organization in the storage, processing and analysis of data. The expediency offurther research in this area is confirmed by the high demand for storage services and analytical data. This article examines the possible ways to address them, constraints that do not allow to do it effectively, as well as an overview of systems for modern approaches to dealing with large data. Explore the advantages and disadvantages of existing solutions as well as the basic advantages and disadvantages of using the system in large companies.

Keywords: data warehouse, hadoop, mapreduce, big data.

УДК 004.75

На сегодняшний день нелегко измерить общий объем электронных данных, хранящихся во всем мире, однако по оценкам IDC размер «цифрового мира» в 2006 г. составлял около 0.18 зеттабайта, а через 5 лет к 2011 г. должен достигнуть около 1.8 зеттабайта, тем самым продемонстрировав десятикратный рост [2, с. 1]. Согласно данным IDC объем данных к объем данных к 2020 г. достигнет отметки в 44 зеттабайта.

Источниками таких объемов данных являются такие как:

- Главная фондовая биржа США, генерирует 1 терабайт данных в день.

- Хранилище данных социальной сети Facebook ежедневно увеличивает объем данных на 500 терабайт.

- Internet Archive Stores хранящая данные интернет сайтов по сосстоянию По состоянию на октябрь 2012 уже хранит 10 петабайт данных и ежемесячно прирастает 20 терабайтами в месяц.

- Большой адронный коллайдер, расположенный около Женевы, генерирует около 15 петабайт в год.

Ежедневно растущий объем электронных данных ставит перед нами задачу по организации в хранении, обработке и анализе данных.

Большой объем данных, а также информации хранится в специализированных реляционных базах данных, которые называют хранилищами данных (ХД либо Data Warehouse) [1, с. 20]. Хранилища данных в отличие от оперативных баз данных OLTP (On-Line Transaction Processing), работающих с приложениями, имеют некоторые функциональные ограничения, что позволяет уменьшить время выполнения запросов. Отличия ХД от обычной базы данных:

- обычные базы данных (БД) предназначены для помощи в выполнении повседневной работе, а ХД для принятия решений;

- обычные БД подверженны постоянному изменению данных, ХД в свою очередь выполняют обновление базы согласно предписанному времени без изменения предыдущих данных;

- обычные БД чаще всего являются источником ХД, а ХД могут также пополняться из других внешних источников;

- зачастую ХД имеет ненормализованную структуру, что позволяет заметно увеличить скорость выполнения запросов.

Ральф Кимбалл, один из авторов концепции хранилищ данных, сформулировал и основные требования к хранилищам данных:

- поддержка высокой скорости получения данных из ХД;

- поддержка внутренней непротиворечивости данных;

- возможность получения и сравнения так называемых срезов данных (slice and dice);

- наличие удобных утилит просмотра данных в ХД;

- полнота и достоверность хранимых данных;

- поддержка качественного процесса пополнения данных.

Одним из основных принципов построения ХД является использование единой структуры метаданных: системные таблицы хранилища данных имеют жестко заданную структуру, а содержащаяся в них информация четко описывает модель данных ХД, в соответствии с которой загружаются и обрабатываются классификаторы и данные. Таким образом, это позволяет начать построение универсальных программных компонентов, взаимодействующих с ХД.

На сегодняшний день не все инструменты способны справиться с большими объемами данных. Hadoop является набором инструментов позволяющих работать с большими данными. Средняя производительность жестких дисков около 100 МБ/с, то есть для обработки 1 ТБ данных потребуется примерно 2.5 часа времени. Параллельная обработка данных с нескольких дисков позволяет улучшить показатели в несколько раз. Например, на обработку 1 ТБ данных с дисков потребуется 2 минуты. Распределенная файловая система HDFS отвечает за организацию и хранение данных в Hadoop кластерах.

Принципы проектирование в Hadoop:

Так как сбои в аппаратной системе неизбежны. HDFS реализует надежные алгоритмы репликации данных, а метаданные файловой системы используют журнал, позволяющий восстановить требуемое состояние [1, с. 12].

Система HDFS построена таким образом, что позволяет обработку больших объемов данных с наиболее максимальной производительностью благодаря поточной обработке данных. Система оптимизирована для работы с большим объемом данных.

Вычисления происходят намного эффективнее благодаря программному интерфейсу, который предоставляет HDFS.

В Hadoop все вычисления разбиваются на несколько подмножеств, каждое из которых обрабатывается на отдельном узле кластера. Представляется это в виде последовательности map задач и reduce задач. Каждый узел в map задачах получает на вход множество пар

Вычисления в Hadoop представляются в виде последовательности map и reduce задач. В начале вычислений входное множество данных разбивается на несколько подмножеств. Каждое подмножество обрабатывается на отдельном узле кластера. Map задача на каждом узле получает на вход множество пар ключ-значений и возвращает другое множество. По ключу все пары сортируются, группируются и передаются на вход reduce, которая в свою очередь формирует итоговый результат.

Эффективность использования Hadoop можно заметить в одном из интересных примеров тестирования скорости сортировки данных. Рекордные показатели в 2008 году предоставила компания Google, 1TB данных в Hadoop кластере компании Google удалось отсортировать за 68 с. В 2009 году в отчете компании Yahoo утверждалось, что им удалось это сделать за рекордные 62 с.

Целесообразность проведения дальнейших исследований в данной области подтверждается наличием высокого спроса на услуги хранения данных и аналитической обработки данных.

Список литературы / References

1. Shvachko Konstantin, Kuang Hairong, Radia Sanjai, Chansler Robert. The Hadoop Distributed File System, 2010. С. 33.

2. White Tom // Hadoop: The Definitive Guide, 3rd Edition, 2012. С. 688.

3. Pokorny Jaroslav. NoSQL databases: a step to database scalability in web environment. Proceedings of the 13th International Conference on Information Integration and Web- based Applications and Services, 2011. С. 278-283. Нью-Йорк.

4. Anderson J. Chris, Lehnardt Jan, Slater Noah. CouchDB: The Definitive Guide, 2010. С. 272.

ИССЛЕДОВАНИЕ СООТВЕТСТВИЯ ПРЕДЛОЖЕНИЯ И ПОТРЕБИТЕЛЬСКОГО СПРОСА НА ОДЕЖДУ ИЗ ПЛАЩЕВЫХ МАТЕРИАЛОВ Старовойтова А. А.1, Рубцова Н. А.2

'Старовойтова Анастасия Александровна — кандидат технических наук, доцент; 2Рубцова Наталья Александровна — магистрант, кафедра конструирования и технологии изделий легкой промышленности, Омский государственный технический университет, г. Омск

Аннотация: в статье представлены результаты исследований соответствия предложения рынка г. Омска и покупательского спроса на женскую одежду из плащевых материалов в весенне-осенний период. Основными направлениями исследования выбраны следующие: анализ видов изделий из плащевых материалов и выявление предпочтений потребителей. Сбор данных осуществлен методом опроса женской части населения трудоспособного возраста с помощью анкеты полузакрытого типа. Особое внимание уделено наиболее популярным у потребителей способам и видам отделки изделий из плащевых материалов. Ключевые слова: одежда из плащевых материалов, потребительский спрос, предложения рынка, отделка изделий, опрос респондентов.

THE STUDY OF MATCHING SUPPLY AND CONSUMER DEMAND FOR CLOTHES FROM MANTLE MATERIALS Starovoitova A.1, Rubtsova N.2

'Starovoitova Anastasia — candidate of technical Sciences, associate Professor;

2Rubtsova Natalia — undergraduate, DEPARTMENT OF DESIGNING AND TECHNOLOGY OF PRODUCTS OF LIGHT INDUSTRY, OMSK STATE TECHNICAL UNIVERSITY, OMSK

Abstract: the results of studies of matching the market offer of Omsk and consumer demand for women's clothing from mantle materials in the period of spring and autumn presented in the article. Analysis of the products of mantle materials and the identification of preferences of consumers selected as the main directions for research. Data collection was done by a survey of the female population of working age with the help of the questionnaire the semi-closed type. Special attention is given to the most popular among consumers methods and types of trim garmentfrom mantle materials.

Keywords: clothing of mantle materials, consumer demand, market offer, trim garment, survey respondents.

УДК: 687.173

Ассортимент современной одежды чрезвычайно разнообразен. Однако несколько лет подряд в Омском регионе свое постоянство проявляют именно изделия из плащевых материалов. В условиях весенне-осеннего периода, когда наблюдается резкий перепад температур, частые осадки в виде дождя и мокрого снега, усиление скорости ветра, плечевая одежда из плащевых материалов - идеальный вариант в гардеробе. Благодаря современным

i Надоели баннеры? Вы всегда можете отключить рекламу.