Научная статья на тему 'Информационная система обработки и хранения больших объемов измерительных данных'

Информационная система обработки и хранения больших объемов измерительных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
346
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
большие данные / измерительные данные / Apache Hadoop / HDFS / Apache Spark / хранение данных / обработка данных. / big data / measurement data / Apache Hadoop / HDFS / Apache Spark / data storage / data processing.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Манев Дмитрий Валерьевич, Сальников Вячеслав Юрьевич

В современном мире, когда любые технологии развиваются стремительно, а потоки информации ежедневно увеличиваются в объеме, появляется необходимость создания систем, обрабатывающих и хранящих полученные данные. В данной статье рассмотрены основные понятия методологии больших данных и описана спроектированная информационная система для хранения и обработки измерительных данных, как специфичных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Манев Дмитрий Валерьевич, Сальников Вячеслав Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION SYSTEM FOR PROCESSING AND STORAGE OF BIG VOLUMES OF MEASURING DATA

In the world today, when the technology evolves rapidly and the flow of information increases in volume daily, it will be necessary to create the system that process and stores the data. This article focuses on the major concept of big data methodology and describes the information system for storing and processing measurement data as a specific.

Текст научной работы на тему «Информационная система обработки и хранения больших объемов измерительных данных»

Таким образом, интеллектуальный анализ данных может улучшить прогнозирование и точность прогнозирования в овербукинге. Обе рассмотренные модели дают хорошие результаты классификации. Они могут помочь менеджерам при оценке, будут ли клиенты отменять бронирование, а также могут помочь в планировании динамического потенциала службы.

Список литературы

1. Shirley C., Andera S. A Practical Guide to Data Mining for Business and Industry, 1st edition. Pondicherry: Minion, 2014, 303 p.

2. Hilbe M. Practical Guide to Logistic Regression, 1st edition. London : CRC Press, 2015, 174 p.

3. Janakiram S., Shaler S., Conrad L. Airline Yield Management with Overbooking, Cancellations, and No-Shows // Journal Transportation Science. Maryland, USA, 1999, Vol. 33, Issue 2, pp. 147-167.

4. Hilbe M. Practical Guide to Logistic Regression, 1st edition. London : CRC Press, 2015, 174 p.

5. RapidMiner. Available at: https://rapidminer.com/. (accessed 7 October 2017).

6. Volkova V. N., Chernenkaya L. V., Desyatirikova E. N., Hajali Moussa, Khodar Almothana, Alkaadi Osama "Load Balancing in Cloud Computing" in Proc. of 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (2018 ElConRus), St. Petersburg and Moscow, Russia on January 29 - February 1, 2018,Volume 2018-January, 14 March 2018, Pages 387-390. doi:10.1109/EIConRus.2018.8317113.

УДК 004.043

Манев Дмитрий Валерьевич1,

студент.

Сальников Вячеслав Юрьевич ,

канд. техн. наук, доцент

ИНФОРМАЦИОННАЯ СИСТЕМА ОБРАБОТКИ И ХРАНЕНИЯ БОЛЬШИХ ОБЪЕМОВ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ

Россия, г. Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого

1 2 dmanevd@gmail.com, zvs@mail.ru

Аннотация. В современном мире, когда любые технологии развиваются стремительно, а потоки информации ежедневно увеличиваются в объеме, появляется необходимость создания систем, обрабатывающих и хранящих полученные данные. В данной статье рассмотрены основные понятия методологии больших данных и

описана спроектированная информационная система для хранения и обработки измерительных данных, как специфичных.

Ключевые слова: большие данные, измерительные данные, Apache Hadoop, HDFS, Apache Spark, хранение данных, обработка данных.

Manev Dmitrii Valeryevich1,

Student,

Salnikov Vyacheslav Yurevich2,

Ph.D.

INFORMATION SYSTEM FOR PROCESSING AND STORAGE OF BIG VOLUMES OF MEASURING DATA

Russia, St. Petersburg, Peter the Great St. Petersburg Polytechnic University

1 2 dmanevd@gmail.com, zvs@mail.ru

Annotation. In the world today, when the technology evolves rapidly and the flow of information increases in volume daily, it will be necessary to create the system that process and stores the data. This article focuses on the major concept of big data methodology and describes the information system for storing and processing measurement data as a specific.

Keywords: big data, measurement data, Apache Hadoop, HDFS, Apache Spark, data storage, data processing.

Введение и актуальность

Внедрение любых технологий в наши дни непременно связано с обработкой данных, будь то данные пользователей, механизмов или даже данные о данных, но что более важно, объемы этих данных с огромной скоростью растут, а значит и для их обработки необходимо создавать все новые решения и технологии. Осознание данного факта открыло начало такому направлению в информационных технологиях, как «Big Data» (с англ. - «Большие Данные»). Данный термин возник в 2008 году [1] и с течением времени эти технологии, а правильнее сказать методы, обрели применение почти в каждой сфере деятельности человека -с каждым днем популярность Big Data набирает обороты и актуальность изучения и применения данной области не оставляет сомнений. Именно повышенный интерес к технологиям разработки программного обеспечения, хранящего большие объемы структурированных и неструктурированных данных, а также выполняющего их обработку на распределенных системах, стал ориентиром к выбору объекта исследования - распределенное хранение и обработка данных, как сфера технических наук.

Цель исследования

На текущий момент готовые инструменты и технологические решения для обработки больших объемов данных связаны с использованием неограниченных ресурсов и быстрым ростом производимой человечеством информации. Типичная архитектура таких решений не позволяет учесть особенности обработки измерительных данных, как специфичных, поэтому целью данного исследования является: на основе современных методов, технологий и инструментов разработать информационную систему хранения и обработки больших объемов данных, в условиях специфики измерительных данных, позволяющую с высокой скоростью проводить их обработку

Big Data

Большие объемы данных возникают в различных сферах нашей

жизни - бизнес, торговля, транспорт, медицина, медиа. По состоянию на

18

2018 год каждый день генерируется 2,5 эксабайта (2,5 х 10 ) данных. [2] На основании прогноза отчета IDC глобальный объем данных будет расти экспоненциально с 4,4 зетабайта до 44 зетабайтов в период с 2013 по 2020 год. [3] К 2025 году, согласно прогнозу IDC, будет 163 зетабайта данных. [4]

Большие данные можно связать с пятью ключевыми понятиями:

[5]

1. Объем.

Представляет собой наиболее актуальную проблему для традиционных ИТ-структур. Данный аспект приходит в голову большинству людей, когда они думают о больших данных.

2. Скорость.

Скорость, с которой эти данные с одной стороны создаются, а с другой - могут обрабатываться, храниться и анализироваться.

3. Разнообразие.

Большие данные - это не всегда структурированные данные, и их не всегда легко поместить в реляционную базу данных. Работа с различными структурированными и неструктурированными данными значительно увеличивает сложность хранения и анализа больших данных. 90% генерируемых данных - это данные в неструктурированной форме.

4. Достоверность.

Когда мы имеем дело с большим объемом, скоростью и разнообразием данных, невозможно, чтобы все эти данные оказались на

100% верными. Качество получаемых данных может сильно различаться. Точность анализа данных зависит от достоверности исходных данных.

5. Ценность.

Ценность является наиболее важным аспектом в больших данных. При работе с большими данными их потенциальная ценность достаточно велика. Хорошо, когда есть доступ к большим данным, но если мы не сможем извлечь из них пользу, они станут бесполезными.

Результаты

В качестве основного фрейморка для работы данной системы был выбран продукт с открытым исходным кодом Apache Hadoop. Данный инструмент имеет функционал распределённого хранилища данных (HDFS) и вычислений (MapReduce, YARN). Для обработки данных и интерпретации кода в систему был выбран механизм высокоуровневого API - Apache Spark. Язык программирования Scala.

Архитектура системы

Основной идеей работы системы является предварительная локальная обработка структурированных измерительных данных. Apache Spark поваляет нам обработать в локальном (не кластерном режиме) имеющиеся данные заранее определённой структуры, а после чего сохранить результат в распределённое хранилище для последующих вычислений с использованием мощности всего кластера.

Поскольку концепция распределённого хранения подразумевает собой передачу данных (блоков данных в HDFS) по сети между узлами кластера, то, таким образом, мы ускоряем процесс обработки, передавая в систему данные много меньше, чем входные.

Данный метод позволяет использовать специфику именно измерительной информации, так как операции, производимые над ней, зачастую являются статистическими методами и не требуют высокой аппаратной мощности или увеличения количества потоков в параллельной обработке.

На рис. 1 представлена архитектура системы, позволяющей хранить, получать и обрабатывать измерительные данные в фреймворке Apache Hadoop.

В качестве исследуемых данных были взяты температурные показания с погодной станции «USC00010505 - Bankhead Lock and Dam, AL, US», предоставляемые National Centers for Environmental Information (National Oceanographic Data Center). [6] Данные имеют структуру таблицы и представлены в формате CSV.

Рис. 1. Архитектура системы обработки измерительных данных Тестирование системы на температурных данных. На рис. 2 представлена часть данных файла уникальной структуры

1.

"STATION",

U5C00010505,

USC00010505,

USC00010505,

U5C00010505,

USC00010505,

USC00010505,

U5C00010505,

USC00010505,

USC00010505,

"NAME " , "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD "BÄHKHEAD

LOCK AND LOCK AND LOCK AND LOCK AND LOCK AND LOCK AND LOCK AND LOCK AND LOCK AND

DAM, DÄM, DÄM, DAM, DÄM, DAM, DÄM, DÄM, DÄM,

AL US" AL US" AL U5" AL US" AL US" AL US" AL US" AL US" AL US"

"DATE",

2/1/1557,

2/2/1557,

2/3/1957,

2/4/1557,

2/5/1557,

2/6/1957,

2/7/1557,

2/8/1557,

2/9/1557,

"TMAX", 2 3.3152 70, 2 2.881367, 17.8140 64, 22.545612, 24.480017, 23.327433, 21.151388, 23.555273, 26.186847,

"TMIN", 12.878281 7.216641, 6. 79309B, 16.150515 12.828621 13.339730 12.274025 11.773141 11.756269

"TD3S" ,20.8176 7.858522 17.857826 ,16.130766 ,16.183156 ,15.644492 ,13.512555 ,12.814313 ,16.745430

Рис. 2 Файл уникальной структуры 1

В текущем файле показания температуры имеют необоснованно высокую точность. По средствам Apache Spark показания были округлены методом «к ближайшему целому». На рис. 3 представлена часть полученного файла, сохраненного непосредственно в распределенное хранилище (HDFS).

Output file:

ID, DATE, TMÄX,TMIN,ГOBS

U5C0ÜÜ1Q5Q5,2/1/1557,2 3.3,12.9,2 0.8 USC00010505,2/2/1557,2 2.9,7.2,7.5 U5CC"j010505, 2/3/1557,17.8,6.8,17.9 U5CÜQ010505,2/4/1557,2 2.5,16.2,16.1 USC0Q0105Q5,2/5/1957,24.5,12.8,16.2 USC00010505,2/6/lS57,2 3.3,13.3,15.6 USC0Q0105Q5,2/7/1957,21.2,12.3,13.9 U5C0ÜÜ1Q5Q5,2/8/1557,2 4.0,11.8,12.8 USC00010505,2/5/1557,26.2,11.8,16.7

Рис. 3. Резлуьтативный файл

На рис. 4 представлена часть данных файла уникальной структуры

Data Sample

"STAriOW", "WAME", "DATE", " TMAX", ■TMIW", "TOBS

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/1/1958, 15 ■ 3, 53. -12 . ,7

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/2/1553, 7. 5, 53. 3, -17. ,7

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/3/1553, 8. 1. 53. 3, -17. ,7

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/4/1553, 12 f 54. 4, -15. ,5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/5/1553, 12 .5, 55, -16. , 6

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/6/1958, 13 ■1, 55, -12 . ,7

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/7/1553, 8. 53. 3, -12 . ,1

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/8/1553, 53. 3, -18. ,3

U5C00010505, "BAWKHEAD LOCK AWD DAM, AL US ", 1/5/1553, 3. 1, 51. 1, -21

Рис. 4. Файл уникальной структуры 1

В текущем файле показания температуры смещены: TMIN - увеличено на 3.1, TMAX - увеличено на 100, TOBS - уменьшено на 12.7. По средствам Apache Spark над каждым показанием каждого дня были проведены соответствующие математические операции. На рис. 5 представлена часть полученного файла, сохраненного непосредственно в распределённом хранилище в уже созданный ранее файл.

ID, DATE, TMAX,THIN,TOBS

USC00Q1Q5Q5,1/1/1958,16.7,-1.1,0.О USC00Q1Q5Q5,1/2/1958, 4.4, —6.7,-5.0 ÜSC00010505,1/3/1958,5.6, -6.7,-5.0 USC00Q1Q5Q5,1/4/1958, 8.9, -5.6, -2 . 5 USC0QQ1Q505,1/5/1958,9.4,-5.О,-3.9 USC0QQ1Q505,1/6/1958,10.О,-5.0,0.О U5C00010505,l/7/155£,5.6,-1.7,0.6 US£00010505,1/8/1958, 3.9,-6.7,-5.6 US£00010505,1/9/1958,0.0,-8.9,-8.3

Рис. 5. Продолжение результативного файла

Данные решения на Apache Spark могут работать параллельно и обрабатывать получаемые в ситему данные, приводя их в общую структуру. Полученный файл можно обрабатывать и искать зависимости, используя вычислительные мощности всего кластера, запуская Spark Job в кластерном режиме.

В качестве тестирования были найдены средние значения для TMIN, TMAX и TOBS для каждого месяца. На рисунке 6 представлен частичный результат работы программы в режиме кластера.

Output:

|МОЫТН_УЕЙЕ | TMAX_AVERAGE | rMIN_AVERAGE | rOB5_AVERAGE |

1 1/1555| 5 8 1 -2 7 1 0 --+ 81

| 10/1557 1 20 7 1 5 2 1 11 81

| 10/1555 1 24 0 1 9 9 | 12 0 1

| 11/1557 1 17 5| 6 2 1 5 7 1

| 11/1555| 15 5 1 5 4 1 5 6|

| 12/1557| 14 5 1 0 5 1 5 4

| 12/1S58I 11 4 1 -1 1 | 2 0|

| 2/1557| 18 5 1 с 6 1 Э 8|

1 2/1555 1 3 3 1 -4 3 1 -1 2

| 3/1557| 16 1 | 4 4 1 7 И

1 3/1555 1 15 5 1 3 6 1 6 31

| 4/1557| 24 6 1 10 4 1 14 4

| 4/1555| 23 1 | 5 1 | 11 5 1

| 5/1557 1 23 1 | 15 7 1 19 31

1 5/1955 1 27 5 1 13 5 | 15 01

| 6/1557| 31 7 1 2 0 0 1 23 6|

| 6/1555| 31 5 1 15 0 1 23 5

| 7/1557| 32 5 1 20 6 1 24 2

| 7/1558| 32 0 | 20 7 1 24 2

1 3/1557| 34 1 | 19 4 1 23 2

| 8/1558 1 32 7 1 15 3 | 22 7 1

| 5/1557 1 25 3 1 17 5 | 2 0 И

| 5/1553 1 30 7 1 17 4 1 2 0 5

Рис.. 6. Результат обработки файла в режиме кластера

Выводы.

В данной статье были рассмотрены основные понятия, связанные с обработкой и хранением больших данных. Была разработана информационная система, которая позволяет увеличить скорость процессинга измерительных данных за счет использования предварительной локальной (не распределенной) обработки.

Данная система является нетепичной и представляет собой компромисс между стандартным решением и особенностями методов обработки (в данном случае статистической) и представления измерительных данных.

Список литературы

1. Lynch A. Big data: How do your data grow? // Nature - 2008. Vol. 455. №7209 -P. 28-29.

2. Data Never Sleeps 5.0 [Электронный ресурс] — URL: https://www.domo.com/learn/data-never-sleeps-5?aid=ogsm072517_1&sf100871281=1. Доступ свободный. Дата обращения: 11.02.2019.

3. Makrufa Sh. Hajirahimova, Aybeniz S. About Big Data Measurement Methodologies and Indicators // International Journal of Modern Education and Computer Science (IJMECS) - 2007. Vol. 9. №10 - P. 1-9.

4. Reinsel D., Gantz J., Rydning J. The Digitization of the World - From Edge to Core // IDC - 2018.

5. Ishwarappa, Anuradha J. A Brief Introduction on Big Data 5Vs Characteristics and Hadoop Technology // International Conference on Intelligent Computing, Communication & Convergence (ICCC-2015) - ICCC. 2010. - P. 319-324.

6. The main page - NCEI (NOAA) [Электронный ресурс] — URL: https://www.ncdc.noaa.gov/. Доступ свободный. Дата обращения: 15.03.2019.

i Надоели баннеры? Вы всегда можете отключить рекламу.