Научная статья на тему 'Большие данные: причины появления и как их можно использовать'

Большие данные: причины появления и как их можно использовать Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1842
153
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / МЕТОД ОБРАБОТКИ ДАННЫХ / СТРУКТУРЫ ДАННЫХ / АНАЛИЗ ИНФОРМАЦИИ / ПРОГНОЗНАЯ АНАЛИТИКА / ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Медведев Дмитрий Андреевич

В статье приводится описание больших данных и других основных понятий, непосредственно связанных с темой исследования. Проведен анализ структуры больших данных, объема, темпа роста, причин их появления, а также как их можно в дальнейшем использовать. На основании полученной информации выявлены основные проблемы данного типа данных и возможные пути решения этих проблем для дальнейшей аналитики с высоким процентом достоверности полученных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Большие данные: причины появления и как их можно использовать»

ТЕХНИЧЕСКИЕ НАУКИ

БОЛЬШИЕ ДАННЫЕ: ПРИЧИНЫ ПОЯВЛЕНИЯ И КАК ИХ МОЖНО

ИСПОЛЬЗОВАТЬ Медведев Д.А.

Медведев Дмитрий Андреевич — магистрант, кафедра информатики и прикладной математики, Братский государственный университет, г. Братск

Аннотация: в статье приводится описание больших данных и других основных понятий, непосредственно связанных с темой исследования. Проведен анализ структуры больших данных, объема, темпа роста, причин их появления, а также как их можно в дальнейшем использовать. На основании полученной информации выявлены основные проблемы данного типа данных и возможные пути решения этих проблем для дальнейшей аналитики с высоким процентом достоверности полученных данных. Ключевые слова: большие данные, метод обработки данных, структуры данных, анализ информации, прогнозная аналитика, информационные технологии.

Мы живем в мире полном цифровой информации, которая огромными темпами продолжает производится и накапливаться. Различные средства для сбора данных, такие как датчики и прочие информационно-коммуникационные устройства постоянно генерируют и обрабатывают гигантские объемы информации. Такая информация называется «большие данные».

Термин «большие данные» не имеет строгого определения. Изначально идея состояла в том, что объем информации настолько вырос, что рассматриваемое количество уже фактически не помещалось в памяти компьютера, используемой для обработки, поэтому инженерам потребовалось модернизировать инструменты для анализа всех данных [1]. Но в общих чертах большие данные можно описать, как обозначение для структурированных и неструктурированных огромных данных, которое эффективно обрабатываются горизонтально масштабируемыми программными инструментами (т.е. программные средства, развернутые на одном уровне, занимающиеся параллельной обработкой данных) и альтернативными системами управления базами данных (СУБД). Альтернативные СУБД значительно отличаются от своих традиционных аналогов, как технологиями сбора данных, так и способами сглаживания данных, их хранения и последующего доступа к ним.

Термин большие данные может быть причислен к данным, связанным с высочайшей изменчивостью источников данных, а также обладающим сложными взаимосвязями и трудностями изменения или удаления отдельных записей. Большие данные характеризуются гигантским объёмом, значительной скоростью поступления данных, а также многообразием самих данных. Для таких данных требуются новейшие способы обработки, которая в дальнейшем может привести к улучшению методов принятия решений, оптимизации процессов и поиска закономерностей.

Большие данные обладают рядом характеристик, которые позволяют с большей точностью определить относится ли имеющийся набор данных к типу BigData. Это так называемый принцип «Трех V»:

1) Volume (объем) - имеющаяся база данных (БД), является огромным набором данных, которые очень сложно или уже почти невозможно обрабатывать и хранить традиционными способами. Необходимы принципиально новые подходы и инструменты.

2) Velocity (скорость) - признак одновременно указывающий и на скорость накопления информации, так и на скорость обработки. Данный признак менее значим, если используются БД реального времени, которые в настоящий момент переживают лучший период своего развития.

3) Variety (многообразие) - это характеристика означает возможность одновременной обработки данных различной степени структурированности.

Начиная изучать большие данные невозможно обойти стороной вопрос их структуры. Изначально, большие данные считаются неформатированными и слишком не структурированными, с высокой степенью экспоненциального увеличения своих объемов [2]. Но грамотный подход к организации сбора и хранения данных позволяет добиться большей степени структурированности. Однако, данные бывают разных типов, что значительно осложняет структурированность больших данных, особенно при условии их гибридного состава в одном наборе.

В настоящее время все существующие данные можно разделить на:

- структурированные;

- слабоструктурированные;

- квазиструктурированные;

- неструктурированные.

К структурированным данным относятся данные, которые упорядочены определенным способом, четко организованы и описывают конкретную предметную область. В совокупности это позволяет проводить достоверный и глубокий анализ этих данных. Чаще всего такие данные можно увидеть в виде таблиц, хранящихся в реляционных БД.

К слабоструктурированным данным можно отнести те данные, которые не соответствуют четкой структуре таблиц и отношений в БД, но при этом содержат в себе специальные разграничители (теги), которые позволяют семантический разделять весь объем данных. В качестве примера можно привести XML-документы.

К квазиструктурированным данным относятся данные с неустойчивым форматом, требующие для своей обработки специальными инструментами больших временных затрат. Примером таких данных может служить WEB.

К неструктурированным данным можно отнести данные, которые не имеют определенной формы и не являются строго зафиксированными. Данный вид данных является преобладающим на текущем этапе развития информационных технологий, примерно 80% всей имеющейся на данный момент информации, являются неструктурированной [3]. Примером таких данных являются изображения, видео, аудио и информация из социальных сетей.

По прогнозам, количество данных на планете будет удваиваться каждые два года вплоть до 2020 года. А за период между 2010 и 2020 годом количество информации увеличится с 1,2 зеттабайт до 35,5 зеттабайт (рис. 1). При этом значительная часть произведенных к настоящему моменту данных ни разу не была исследована с 5 помощью специализированных аналитических инструментов. По оценкам International Data Corporation (IDC), к 2020 году только 35% данных будет содержать ценную для анализа информацию [4].

Рис. 1. Предположительный темп роста объема мировой информации

Из-за своего огромного объема и экспоненциального темпа роста, у больших данных проявляется ряд свойств, такие как:

- данные не полны;

- данные содержат ошибки;

- данные противоречивы;

- данные очень разнородны;

- отсутствие модели данных.

Вышепредставленные свойства значительно осложняют процесс структурирования данных. Для решения этих проблем целесообразно искать обратную связь, нечеткие связи и соответствия, а также использовать методы машинного обучения.

Уже структурированные данные можно использовать для проведения анализа, что позволит проследить закономерность проявляющихся событий и спрогнозировать их потенциальное проявление в будущем. Прогнозная аналитика, или предиктивный анализ данных - это метод анализа

данных, концентрирующийся на прогнозировании будущего поведения объектов и субъектов с целью принятия оптимальных решений.

Данный подход может использоваться в практически любой сфере деятельности человека, где присутствуют большие данные, при условии, что они обладают необходимой структурой. Рассмотрим несколько примеров из разных областей:

1) Маркетинг - определение уровня спроса на товар.

2) Экономика - оценка изменения уровня инфляции, безработицы.

3) Медицина - прогноз по возникновениям вспышек заболеваний и уровня смертности, поиск лекарств и снижение стоимости медикаментов.

4) Коммерция - оптимизация ценовой политики.

5) Производство - анализ поведения производственного оборудования, предотвращение простоев оборудования в результате поломки, а также установка проведения предупредительного технического осмотра и ремонта оборудования.

Исходя из данных, полученных в ходе проведения данного теоретического исследования больших данных, можно сделать вывод о том, что для предупреждения возникновения информационного хаоса, важно четко строить модель сбора данных, минимизировать не структурированность накапливаемых данных, оптимизировать систему хранения с помощью специальных систем управления базами данных и использовать инструменты для проведения предиктивного анализа, тем самым максимально эффективно использовать имеющиеся данные. Проводя данные работы по оптимизации информационного пространства в отдельных организациях и областях можно замедлить процесс накопления неструктурированных данных.

Список литературы

1. Майер-Шенбергер В. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / Виктор Майер-Шенбергер, Кеннет Кукьер; пер. с англ. Инны Гайдюк. М.: Манн, Иванов и Фербер, 2014. 240 с.

2. Моррисон Алан и др. Большие Данные: как извлечь из них информацию. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010. Выпуск 3. PricewaterhouseCoopers (17 декабря 2010).

3. Биктимиров М.Р., Елизаров А.М., Щербаков А.Ю. Тенденции развития технологий обработки больших данных и инструментария хранения разноформатных данных и аналитики // Электронные библиотеки, 2016. Т. 19. № 5.

4. Лаврищева Е.М. Программная инженерия и технологии программирования сложных систем: учебник для вузов / Е.М.Лаврищева. М.: Издательство Юрайт, 2018. 432 с.

5. Силен Д., Мейсман А., Али М. Основы Data Science и Big Data. Python и наука о данных. СПб: Питер, 2017. 336 стр.

6. Измалкова С.А., Головина Т.А. Использование глобальных технологий «big data» в управлении экономическими системами // Изв. Тульского гос. ун-та. Экономические и юридические науки, 2015. № 4-1. С. 151-158.

ПОВЫШЕНИЕ НЕСУЩЕЙ СПОСОБНОСТИ КОЛОНН ЗДАНИЙ

Акулин В.А.

Акулин Валерий Андреевич — магистрант, кафедра городского строительства и архитектуры, Тульский государственный университет, г. Тула

Аннотация: проанализирована и рассчитана возможность применения двойных металлических труб для повышения несущей способности колонн при монтаже зданий, с использованием программы ВеЕопп.

Ключевые слова: возведение колонн, двойная труба, конструкция, ВеЕопп.

УДК 69.07

Повышение объемов строительства нежилых зданий, таких как ангары, склады, теплицы и других построек приводит к необходимости увеличения скорости возведения сооружений и снижению их себестоимости (рис. 1). Эти проблемы решаются, например, использованием модернизированных и переработанных конструктивных элементов, в частности колонн.

i Надоели баннеры? Вы всегда можете отключить рекламу.