Научная статья на тему 'Большие данные - это не только размер данных'

Большие данные - это не только размер данных Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
2970
364
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОЛЬШИЕ ДАННЫЕ / BIG DATA / АНАЛИЗ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ / ANALYSIS OF UNSTRUCTURED DATA / РЕВОЛЮЦИЯ СОЦИАЛЬНЫХ ДАННЫХ / SOCIAL DATA REVOLUTION

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Денисова О.Ю., Мухутдинов Э.А.

Большие данные” термин, который определяет не только размер наборов данных, превосходящий возможности обычных баз данных, но и неструктурированную информацию, перед обработкой и анализом которой бессильны традиционные алгоритмы. При работе с большими данными используется широчайший спектр методов анализа, в основе которых лежит инструментарий, заимствованный из статистики и информатики. Социальные данные это часть технологии, создаваемая людьми в некоммерческих целях, то есть различные социальные сети, фотобанки, блоги, чаты и т.д. Революция социальных данных это тенденция изменения модели взаимодействия людей в сторону расширения обмена личной информацией, особенно заметная в последнее десятилетие, и связанные с ней последствия. Это явление привело к накоплению беспрецедентного количества опубликованных данных частного характера. Этот постоянно обновляемый источник данных можно охарактеризовать как новый тип научного инструмента для социальных наук, изучения поведения людей и общества.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Большие данные - это не только размер данных»

УДК 004.62

О. Ю. Денисова, Э. А. Мухутдинов

БОЛЬШИЕ ДАННЫЕ - ЭТО НЕ ТОЛЬКО РАЗМЕР ДАННЫХ

Ключевые слова: Большие данные, анализ неструктурированных данных, революция социальных данных.

"Большие данные" - термин, который определяет не только размер наборов данных, превосходящий возможности обычных баз данных, но и неструктурированную информацию, перед обработкой и анализом которой бессильны традиционные алгоритмы. При работе с большими данными используется широчайший спектр методов анализа, в основе которых лежит инструментарий, заимствованный из статистики и информатики. Социальные данные - это часть технологии, создаваемая людьми в некоммерческих целях, то есть различные социальные сети, фотобанки, блоги, чаты и т.д. Революция социальных данных - это тенденция изменения модели взаимодействия людей в сторону расширения обмена личной информацией, особенно заметная в последнее десятилетие, и связанные с ней последствия. Это явление привело к накоплению беспрецедентного количества опубликованных данных частного характера. Этот постоянно обновляемый источник данных можно охарактеризовать как новый тип научного инструмента для социальных наук, изучения поведения людей и общества.

Keywords: Big data, analysis of unstructured data, Social Data Revolution.

"Big data" is not only about size of data. It is also about unstructured information that can not be handled by traditional algorithms. There are a lot of methods of analysis used for Big data. These methods based on tools that came from statistics and computer science. Social data is a part of non-commercial technology, i.e. some social networks, photoarchives, blogs, chats etc. Social Data Revolution is a trend in the model of human interaction, which leads to increased exchange of private data. It leads to accumulation of unprecedented amount of published private data for the last ten years. Moreover, this is constantly renewable resource of data, so it can be characterized as a new type of scientific instrument for the social sciences.

Введение

Термин «большие данные» (Big data) сегодня продвигается как тренд в информационных технологиях нового века и определяет не только размер наборов данных, который превосходит возможности обычных баз данных (БД) по занесению, хранению, управлению и анализу, но и неструктурированную информацию, перед обработкой и анализом которой бессильны традиционные алгоритмы.

Для обработки данных такого вида нужны методы анализа, которые работают в разы быстрее, а главное, могут приспосабливаться под задачу и обучаться самостоятельно, без вмешательства человека, используя направление технологии «искусственный интеллект» под названием «машинное обучение».

Согласно одному из подходов, понятие «большие данные» относится к операциям, которые можно выполнять исключительно над выдающимися объемами информации. Другими словами, при увеличении количества обрабатываемых данных появляются новые возможности, недоступные при обработке меньших объемов.

Так появились новые технологии обработки данных, например, MapReduce от Google и ее open sourse-аналог Hadoop от компании Yahoo. Они дали возможность управлять намного большим количеством данных, чем прежде. При этом важно, что данные уже не нужно выстраивать в аккуратные ряды или классические таблицы БД.

Определяющие характеристики

Обычно при определении понятия «большие данные» говорят о «четырех V»: Volume,

Variety, Velocity и Value, т.е. объеме, вариативности, скорости и ценности. Само определение звучит следующим образом: большие данные - это «технологии и архитектуры нового поколения для экономичного извлечения ценности из разноформатных данных большого объема путем их быстрого захвата, обработки и анализа». Однако очевидно, что эта формулировка весьма расплывчата. Специалисты отмечают, что термин еще не устоялся, что понятие «большие данные» относительно: то, что вчера было большим, сегодня уже таковым не является, а завтра и вовсе может оказаться маленьким.

Параметр «Объем» говорит о том, что накопленные данные должны достигать объема в 100 Тбайт.

Для параметра «Скорость» приводятся два значения. Первое характеризует захват и обработку данных в режиме, близком к реальному времени. Второе - это скорость накопления данных, подлежащих анализу.

Параметр «Вариативность» определяется следующим образом: «данные собираются из одного или нескольких источников и, возможно, в разных форматах».

Большие данные в повседневной жизни

Мы еще только стоим на пороге эпохи больших данных, однако уже полагаемся на них ежедневно. Спам-фильтры в электронной почте работают с учетом автоматической адаптации к вариациям нежелательных писем, сайты знакомств подбирают пары на основе корреляции многочисленных атрибутов с теми, кто ранее составил удачные пары. Спутниковое отслеживание автомобильного трафика показывает участки с

затрудненным движением, помогает не попасть в пробки и делает прогнозы на несколько часов вперед. Здесь стоит привести интересный пример: анализируя информацию со спутников о дорожном движении, исследователи стартапа Kaggle сделали вывод, что пробки растут не только назад, но и вперед. Этот же исследовательский стартап изучил базу данных по покупкам подержанных автомобилей и оказалось, что автомобили оранжевого цвета при прочих равных условиях находятся в лучшем состоянии [1].

Анализ фактов и данных, на первый взгляд не имеющих никакой связи, открывает удивительные, порой сложно объяснимые корреляции. Софтверная компания InsideSales исследовала сделки, совершенные группой продавцов за девять лет, и обнаружила, что средний объем сделок в новолуние в два раза выше, чем в полнолуние, и на 43% выше, чем в промежуточных фазах Луны [2]. Уже упомянутый выше Kaggle доказал, что вегетарианцы реже опаздывают, а люди с редкими и странным именами придерживаются либеральных политических взглядов. Гарвардские исследователи изучили миллионы постов в китайских социальных сетях и реакцию властей на них и выяснили, что китайский режим остается прочен не из-за того, что подавляет всю критику, а потому, что не дает критикам объединиться [3].

Системы, построенные на основе машинного обучения, работают эффективно благодаря поступлению большого количества данных, на основе которых они могут строить свои прогнозы. Более того, они спроектированы таким образом, чтобы со временем улучшаться и самообучаться за счет отслеживания самых полезных сигналов и моделей по мере поступления новых данных.

Используя всю доступную информацию, мы получаем более полный результат. Это позволяет увидеть те нюансы, которые не заметны при ограничении небольшим объемом данных. Большие данные дают особенно четкое представление о деталях подкатегорий и сегментов, которые невозможно оценить с помощью выборки.

Точность второстепенна

Если принимать во внимание то, что данные обрабатываются в очень большом объеме, можно снизить требования к их точности. Когда возможность измерения ограничена,

подсчитываются только самые важные показатели, и стремление получить точное число вполне целесообразно. До недавнего времени все цифровые инструменты были основаны на точности: считалось, что СУБД должны извлекать записи, идеально соответствующие запросам.

Этот способ мышления свойствен среде «малых данных», где измеряется настолько мало показателей, что их следует подсчитывать как можно точнее. К примеру, небольшой магазин в состоянии составить отчет по выручке к концу дня вплоть до копейки. Однако никто не станет (и нет необходимости) делать то же самое с ВВП страны.

Точность требует тщательной проверки сведений. Она подходит для небольших объемов информации и в некоторых случаях, безусловно, необходима. Но в мире больших данных абсолютная точность невозможна, а порой и нежелательна. Если оперировать данными, большая часть которых постоянно меняется, строгая точность уходит на второй план.

Большие данные имеют неупорядоченный характер, далеко не все они одинакового качества, а кроме того, разбросаны по бесчисленным серверам по всему миру. Имея дело с большими данными, как правило, приходится довольствоваться общим представлением, а не пониманием явления вплоть до дюйма, копейки или молекулы. Потери из-за неточности на микроуровне позволяют делать открытия на макроуровне.

Но, теряя точность, мы можем находить корреляции между данными, которые открывают новые неоценимые знания. Корреляции не могут сказать точно, почему происходит то или иное событие, зато предупреждают о том, какого оно рода. И в большинстве случаев этого вполне достаточно. Например, если электронные медицинские записи показывают, что в определенном сочетании апельсиновый сок и аспирин способны излечить от рака, то точная причина менее важна, чем сам факт: лечение эффективно.

Место информации в бизнес-моделях

Инвестиционные фонды анализируют записи в социальные сети (напр. Twitter), чтобы спрогнозировать работу фондового рынка. Онлайн-магазины Amazon и Netflix рекомендуют своим клиентам продукты исходя из множества взаимодействий пользователей со своими сайтами. А социальные сети LinkedIn и Facebook выстраивают «социальные графы» отношении □ пользователей для изучения их предпочтений.

Большие данные вносят коррективы в характер бизнеса, рынков и общества. Во второй половине ХХ века особое значение придавалось не физической инфраструктуре, а нематериальным активам, не земле и заводам, а интеллектуальной собственности. Сейчас общество идет к тому, что новым источником ценности станет не мощность компьютерного оборудования, а получаемые им данные и способ их анализа.

Данные становятся важным корпоративным активом, жизненно важным экономическим вкладом и основой новых бизнес-моделей. И хотя данные еще не вносятся в корпоративные балансовые отчеты, вероятно, это всего лишь вопрос времени.

Немного статистики

Чтобы почувствовать масштабность развития технологий, достаточно ознакомиться с некоторыми весьма занимательными фактами, справедливыми на момент написания статьи:

- каждые 2 дня мы создаем столько информации, сколько создали за все время до 2003

года [4];

- более 90% всех данных было создано за последние 2 года [5];

- ожидается, что к 2020 объем цифровой информации вырастет с 3,2 зетабайт до 40 зетабайт. Объем накапливаемой информации удваивается за 1,2 года [6];

- каждую минуту мы отправляем 204 миллиона электронных писем, ставим 1,8 миллионов лайков в Facebook-е, отправляем 278 тысяч твитов и закачиваем на Facebook 200 фотографий [7];

- один только поисковик Google обрабатывает 40 тысяч поисковых запросов в секунду, или 3,5 млрд. в день [8];

- общая продолжительность видео, ежедневно сканируемых YouTube, составляет более 400 лет. Каждую минуту на YouTube добавляется 100 часов видео. Пользователи YouTube каждый месяц просматривают более 6 миллиардов часов видео [9];

- объем данных, пропускаемых через сеть в месяц, увеличился на 81% с 2012 по 2014 год и достиг объема 1,5 экзабайта (1,5 млрд. гигабайт) [10];

- агентство национальной безопасности США анализирует 1,6% всего мирового интернет-трафика каждый день - около 30 петабайт (30 млн. гигабайт) [11].

Отрасли использования

Невозможно перечислить все отрасли, где большие данные обеспечивают новые эффективные решения. Новые технологии работы с большими данными открывают огромные возможности практически во всех сферах жизни общества.

Операторы мобильной связи

Не так давно один из крупных мобильных операторов первым в России запустил сервис геопространственного анализа, в основе которого лежат собственные технологии обработки массивов информации. Возможности этого сервиса позволяют не только решать чисто «операторские» задачи, но и помогают очень точно планировать развитие городской инфраструктуры.

Ещё недавно при строительстве дорожной сети специалисты опирались на теоретические модели развития города, которые, в свою очередь, базировались на предыдущем опыте, данных переписи населения и т.д. Но никто точно не знал, откуда, куда, каким образом и в каком количестве добираются люди. Маркетинговые исследования, выполненные с помощью ручных замеров, давали ответы лишь на некоторые вопросы - с большой погрешностью при очень высокой стоимости. С появлением возможности анализа больших данных был создан уникальный инструмент, который даёт гораздо более точную картину жизни города.

Большие данные задействуют не теорию, а практику, причём в режиме, близком к реальному времени. А это значит, что не только появляются корректные сведения для решения многих задач, но и на порядки повышается точность прогнозирования

- анализируя большие данные, мы можем заглядывать в будущее с высокой точностью.

Медицина

В медицине большие данные обещают качественные изменения в уровне диагностики и лечения пациентов. Рост объемов информации и появление мощных аналитических инструментов позволяют делать прогнозы эффективности различных методов лечения пациентов, основываясь на просмотре истории всех обращений к врачу конкретного пациента (его медицинских снимков, результатов прежних и текущих лабораторных обследований), а также на многочисленных накопленных материалах из других историй болезней. Большие данные позволяют находить подобную информацию в реальном времени и применять ее в ходе консультаций [12].

Гарантирование доходов

Другая область, где актуально использование больших данных - это решения класса Revenue Assurance (гарантирование доходов), предназначенные для автоматизации деятельности по гарантированию доходов предприятий. Основное назначение технологии - гарантировать полноту обработки информации об оказанных услугах, корректность учета этой информации и своевременное обнаружение возможных потерь или искажения информации, которые могут привести к снижению финансовых результатов. Системы Revenue Assurance позволяют, например, сопоставлять объем потребленных услуг и величину начислений за них по действующим тарифам, давая возможность быстро выявлять подозрительные расхождения. Как правило, современные системы гарантирования доходности имеют в своем составе инструменты обнаружения несоответствий и углубленного анализа данных.

Банковские сервисы

Большие данные открывают и банкам новые горизонты и новые задачи, дают возможность привнести в свою деятельность качественно новую аналитику. Если раньше речь шла в основном об анализе полученной ранее информации, то сейчас системы хранения и анализа позволяют управлять значимыми для бизнеса параметрами практически в режиме, приближенном к реальному времени.

Например, система управления

ликвидностью теперь может работать на уровне отдельных сделок, мгновенно пересчитывая будущий денежный поток. Это позволяет ускорить реакцию банка в том числе на внешние изменения и более точно управлять денежными средствами.

Другие случаи

В рамках данной статьи невозможно рассмотреть все разнообразие сфер, выше перечислены лишь крупнейшие направления. Стоит отметить еще пару примеров активной работы с огромными массивами информации: стресс-тестирование (проверка на устойчивость в экстремальных условиях), сентимент-анализ (анализ тональности текста рекламных кампаний на базе мониторинга социальных сетей с их огромным количеством постов).

Методика анализа больших данных

При работе с большими данными используется широчайший спектр методов анализа, в основе которых лежит инструментарий, заимствованный из статистики и информатики. Несмотря на разнообразие методик, все они вытекают из нескольких основополагающих методов. К ним можно отнести интеллектуальный анализ данных, краудсорсинг (методика сбора определенным кругом лиц данных из большого количества источников), интеграция разнородных данных, статистический анализ, прогнозная аналитика, имитационное моделирование, искусственные нейронные сети и т.д.

Интеллектуальный анализ данных (Data mining) - процесс выявления скрытых закономерностей, обнаружения в необработанных данных (Raw data) ранее неизвестных, нетривиальных знании □, простых для интерпретации и практически полезных в принятии решении □ во всех областях человеческой жизни.

Интеллектуальный анализ дал начало и развитие другим методикам:

- обучение ассоциативным правилам служит для выявления взаимосвязей, т. е. ассоциативных правил между переменными величинами в больших массивах данных;

- классификация - категоризация новых данных на основе принципов, ранее применённых к уже имеющимся данным;

- кластерный анализ - статистический метод классификации объектов по группам за счет выявления заранее неизвестных общих признаков;

- регрессионный анализ - набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний [13].

Характерно, что некоторые из методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

Следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих.

Социальные данные как часть больших данных

Выделяют такое понятие, как социальные данные (Social Data) - это часть больших данных, создаваемая людьми в некоммерческих целях, то есть различные социальные сети, фотобанки, блоги, чаты и т. д.

Ежедневно миллионные аудитории посещают популярные интернет-площадки, оставляя за собой «следы» - комментарии, мнения, отзывы, рецензии и др. частную информацию,

доступную для анализа и поиска корреляций. Коллекционируемые таким образом ресурсы профессионалы сравнивают с «нефтью» XXI века.

В целом, наблюдая за развитием социальных данных и влиянием, которое интернет оказывает на людей, говорят о происходящей в наши дни «Революции социальных данных» [14].

Революция социальных данных - это тенденция изменения модели взаимодействия людей в сторону расширения обмена личной информацией, особенно заметная в последнее десятилетие, и связанные с ней последствия. К этому явлению можно отнести массовое распространение соцсетей и проникновение их во многие сферы жизни. Это явление привело к накоплению беспрецедентного количества опубликованных данных частного характера.

Этот постоянно обновляемый источник данных можно охарактеризовать как новый тип научного инструмента для социальных наук, изучения поведения людей и общества. Независимые исследователи используют анализ и обработку социальных данных в прогнозировании тенденций моды, безработицы, вспышек гриппа, общественных настроений, политических мнений и др. Примерами генераторов социальных данных являются такие соцсети, как Twitter и Facebook.

В частности, Facebook фокусируется не только на публикациях пользователя, но и на взаимодействии пользователя с друзьями. Это предоставляет множество способов для сбора данных от пользователей: теги, распознавание друзей на фотографиях, комментарии под ними и др. Эти данные являются основой для создания сложных моделей взаимоотношений между пользователями и позволяют, к примеру, узнавать и изучать целевую аудиторию для рекламной выдачи.

Но революция социальных данных позволяет не только расширять бизнес-модели, но и предоставляет широкие возможности для улучшения принятия решений государственной политики и международных отношений.

Несомненно, революция социальных данных является двигателем в формировании новых моделей как социального мира для определенного сообщества людей, так и психологического индивидуального мира у конкретного человека.

Заключение

Таким образом, большие данные диктуют три основных шага к пониманию современного анализа, обработки и поиска корреляций. Первый -это способность анализировать все данные, а не довольствоваться только их частью или статистическими выборками. Второй - готовность иметь дело с неупорядоченными данными в ущерб точности. Третий - изменение образа мыслей: доверять корреляциям, а не гнаться за труднодостижимой причинностью.

На фоне больших данных традиционные способы конструирования социальных структур выглядят неполными. Информации стало настолько

много, что на любой вопрос можно получить статистически обоснованный ответ.

Интересно, что большие данные являются как инструментом, так и ресурсом, и предназначены в большей степени информировать, чем объяснять. При этом они все еще могут вызывать недоразумения в зависимости от того, как с ними обращаться. Какими бы яркими ни были возможности больших данных, необходимо всегда иметь в виду свойственные им недостатки.

Поскольку информация не бывает идеальной, наши прогнозы так или иначе подвержены ошибкам. Но это не означает неправильности данных - просто они не бывают полными. Такое положение вещей не отрицает открытии □ со стороны больших данных, но все расставляет по местам. Большие данные не дают окончательных ответов, но и те, что есть, дают возможность дождаться лучших методов и, следовательно, лучших ответов. А между тем следует использовать большие данные со значительной долей беспристрастности и человечности.

Литература

1. Quentin Hardy, The New York Times, 28, 3 (2012)

2. Deborah Gage, The Wall Street Journal, 82, 2 (2014)

3. Gary King, American Political Science Review, 107, 2, 326-343 (2013)

4. MG Siegler, You're Damn Right I'm a Fanboy: MG Siegler on Apple, Google, Startup Culture, and Jackasses on the Internet. Amazon Digital Services, Kindle edition, 2012.

177 p.

5. James Taylor, IBM big data and information management [Электронный ресурс]. - URL: http://www-01.ibm.com/software/data/bigdata/. (14.11.2014)

6. Rob Petersen, 38 big facts on Big Data every business leader should know [Электронный ресурс]. - URL: http://barnraisersllc.com/2012/12/38-big-facts-big-data-companies/. (14.11.2014)

7. Qmee, Online in 60 seconds [Электронный ресурс]. -URL: http://blog.qmee.com/wp-content/uploads/2013/07/Qmee-0nline-In-60-Seconds2.png. (14.11.2014)

8. Amit Singhal, Google Search Statistics [Электронный ресурс]. - URL: http://www.internetlivestats.com/google-search-statistics/. (дата обращения: 14.11.2014)

9. YouTube Company, YouTube statistics [Электронный ресурс]. - URL: https://www.youtube.com/yt/press/en-GB/statistics.html. (дата обращения: 14.11.2014)

10. Chris Neiger, 10 Fascinating Facts About Mobile Data Usage [Электронный ресурс]. - URL: http://www.fool.com/investing/general/2014/03/29/10-fascinating-facts-about-the-mobile-internet.aspx. (дата обращения: 14.11.2014)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Steven Musil, NSA claims it 'touches' only 1.6 percent of Internet traffic [Электронный ресурс]. - URL: http://www.cnet.com/uk/news/nsa-claims-it-touches-only-1-6-percent-of-internet-traffic/. (дата обращения: 14.11.2014)

12. Григорьева И.Г., Тунакова Ю.А., Вестник Казанского технологического университета, 17, 2, 326-329 (2014)

13. Горюнова С.М., Ефремова Н.Л., Вестник Казанского технологического университета, 24, 24, 157-160 (2013)

14. Andreas Weigend, Social data revolution [Электронный ресурс]. - URL: http://www.weigend.com/sdr/. (дата обращения: 14.11.2014)

О. Ю. Денисова - асп. каф. ИПМ КНИТУ, denisovaoj@gmail.com; Э. А. Мухутдинов - д.х.н., профессор кафедры ИПМ КНИТУ, wtiger@mail.ru.

O. Y. Denisova, Postgraduate student of the Department of Informatics and applied mathematics of the faculty of design and software engineering Kazan National research Technological University, denisovaoj@gmail.com; E. A. Mukhutdinov, Doctor of Chemical Sciences, Professor of the Department of Informatics and applied mathematics Kazan National research Technological University, wtiger@mail.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.