Научная статья на тему '2018. 04. 021. Бласкес Д. , доменеч Х. Источники и методы изучения больших данных для социального и экономического анализа. Blazquez D. , Domenech J. Big data sources and methods for social and economic analyses // technological forecasting & social change. - 2018. - Vol. 130. - p. 99-113. - Mode of access: http://dx. Doi. Org/10. 1016/j. Techfore. 2017. 07. 027'

2018. 04. 021. Бласкес Д. , доменеч Х. Источники и методы изучения больших данных для социального и экономического анализа. Blazquez D. , Domenech J. Big data sources and methods for social and economic analyses // technological forecasting & social change. - 2018. - Vol. 130. - p. 99-113. - Mode of access: http://dx. Doi. Org/10. 1016/j. Techfore. 2017. 07. 027 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
87
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АРХИТЕКТУРА БОЛЬШИХ ДАННЫХ / ПРОГНОЗИРОВАНИЕ БУДУЩЕГО / ПРОГНОЗИРОВАНИЕ ТЕКУЩЕГО СОСТОЯНИЯ / ЖИЗНЕННЫЙ ЦИКЛ ДАННЫХ / СОЦИОЭКОНОМИЧЕСКИЕ ДАННЫЕ / НЕТРАДИЦИОННЫЕ ИСТОЧНИКИ ДАННЫХ / НЕТРАДИЦИОННЫЕ МЕТОДЫ АНАЛИЗА
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Виноградова Т.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2018. 04. 021. Бласкес Д. , доменеч Х. Источники и методы изучения больших данных для социального и экономического анализа. Blazquez D. , Domenech J. Big data sources and methods for social and economic analyses // technological forecasting & social change. - 2018. - Vol. 130. - p. 99-113. - Mode of access: http://dx. Doi. Org/10. 1016/j. Techfore. 2017. 07. 027»

вроде бы направленная на то, чтобы сделать научное знание более доступным для широкой публики, а исследования более ответственными, в итоге оказывается отвлекающей тактикой и чрезмерной самонадеянностью» (с. 193).

Т.В. Виноградова

2018.04.021. БЛАСКЕС Д., ДОМЕНЕЧ Х. ИСТОЧНИКИ И МЕТОДЫ ИЗУЧЕНИЯ БОЛЬШИХ ДАННЫХ ДЛЯ СОЦИАЛЬНОГО И ЭКОНОМИЧЕСКОГО АНАЛИЗА.

BLAZQUEZ D., DOMENECH J. Big Data sources and methods for social and economic analyses // Technological forecasting & social change. - 2018. - Vol. 130. - P. 99-113. - Mode of access: http://dx. doi.org/10.1016/j. techfore.2017.07.027

Ключевые слова: архитектура больших данных; прогнозирование будущего; прогнозирование текущего состояния; жизненный цикл данных; социоэкономические данные; нетрадиционные источники данных; нетрадиционные методы анализа.

Свою цель авторы, сотрудники Политехнического университета Валенсии (Испания), видят в том, чтобы наметить пути и способы, которые позволили бы использовать большие данные в со-циоэкономической сфере.

Концепт «большие данные» появился в конце 1990-х годов и в начале 2000-х годов стал определяться как модель 3V: объем (volume), скорость (velocity) и вариативность (variety). Эта модель эволюционировала, приспосабливаясь к новой цифровой реальности, и превратилась в модель 4V: был добавлен такой параметр, как ценность (value) - процесс извлечения ценной информации из набора данных, известный как аналитика больших данных. В настоящее время концепт «большие данные» чаще определяют уже в терминах модели 5V, в которую добавлен параметр достоверности (veracity), означающий адекватное управление данными и соблюдение права на частную жизнь (с. 99).

Предполагается, что феномен больших данных внесет радикальные изменения в формирование социоэкономической политики, управление и исследования в этой области. Выявление того, какие источники данных доступны, какой тип данных они поставляют и как с ними обращаться, служит основой, позволяющей ге-

нерировать максимальное количество ценной информации для компании или организации. В этом контексте архитектура больших данных, адаптированная к специфической области и цели организации, вносит свой вклад в систематизацию процесса генерирования ценного знания. Эта архитектура должна быть способной управлять всем жизненным циклом данных в организации, включая их усвоение, анализ и хранение.

Для использования больших данных в социальной или экономической областях до сих пор не было предложено специфической архитектуры. Авторы статьи предлагают свой вариант архитектуры больших данных, который позволил бы прогнозировать текущие и будущие изменения в этой сфере.

Цифровые «следы», которые оставляют люди, вызвали экспоненциальный рост количества источников данных (помимо традиционных опросов и официальных отчетов), доступных для социального и экономического анализа. Хотя причин создания этих новых данных множество, способы, с помощью которых они генерируются, имеют важные этические и юридические импликации. Например, персональные данные, касающиеся осуществляемых покупок, не могут использоваться для тех же целей, что и данные из профиля человека, представленного в Твиттере. В определенной степени использование данных ограничивается тем, как они создаются. Это заставило авторов рассмотреть и классифицировать нетрадиционные источники социальных и экономических данных в зависимости от цели пользователя, который их генерировал (рис. на с. 102).

Первый уровень таксономии включает пять категорий: 1) причина для поиска информации; 2) цель осуществления транзакции, которая может быть финансовой или не финансовой; 3) цель распространения информации; 4) цель осуществления социальной интеракции; 5) отсутствие определенной цели (с. 101). Данные, которые попали в последнюю категорию, были разделены на три типа: используемые данные, данные о локации и персональные данные. Описание каждой категории и примеры источников, задействованных в каждом процессе генерирования данных, авторы представили в виде таблицы на с. 102.

Большинство нетрадиционных источников социальных и экономических данных предполагают использование Интернета. Огромное количество людей, компаний и организаций ищут, пере-

дают и генерируют ежедневно «тонны» информации. Эти цифровые «следы», помещенные в рамки адекватной архитектуры больших данных, могут помочь в описании поведения, решений и интенций тех, кто их оставил, и на основе этого провести мониторинг ключевых экономических и социальных изменений и трендов. Авторы приводят перечень и краткое описание этих нетрадиционных источников данных.

Гугл-тренды: мощность поисковых систем. Гугл-тренды (ГТ) - это базирующийся на Интернете девайс, который впервые был использован в мае 2006 г. С его помощью можно по специфическому ключевому слову или тексту получать сведения об объеме всех поисковых запросов, которые были сделаны с января 2006 г. Таким образом можно узнать, как потребность в информации по определенной теме менялась со временем, что служит полезным источником данных для выявления возникающих тенденций и лежащих за ними интересов общества. С его помощью также можно получить информацию о поведении потребителей в разных секторах, о некоторых макроэкономических переменных (объеме продаж домов и автомобилей, въездном туризме и заявках безработных) и пр. (с. 101).

Сайты и блоги социальных сетей. Социальные сети специально предназначены для того, чтобы пользователи имели возможность выразить свои чувства и мнения по любому вопросу. Поэтому информация, которую они содержат, в некоторой степени отражает то, что происходит в обществе. Однако разнообразный и сложный формат содержащейся в них информации приводит к тому, что они остаются малоизученными.

Веб-сайты и приложения: транзакционные платформы и распространение информации. В цифровую эру фирмы формируют свой официальный публичный образ в Интернете путем создания корпоративных веб-сайтов. Примечательно, что веб-сайты имеют сложную структуру, которая отличается в каждом случае, так что стандартизация, хранение и анализ их информации требуют специфичной архитектуры больших данных. Эта сложность стала причиной того, что корпоративные веб-сайты остаются практически неизученным источником данных.

Выдающаяся роль Интернета в современной экономике и жизни общества привела к появлению электронных бизнес-

сервисов, которые фирмы могут использовать для продажи своих продуктов, для взаимодействия онлайн со своими заказчиками (э-коммерция), набора кандидатов на замещение вакантных должностей (э-рекрутинг) или предложения других услуг онлайн (например, э-банкинга). Многие из них предоставляют возможность высказать свое мнение по очень широкому кругу вопросов, от конкретных товаров до пребывания в отеле или посещения ресторана.

Мобильные приложения дают доступ к информации и услугам, которые могут быть или не быть предоставлены другими способами, например на веб-сайтах. Поскольку использование приложений становится широко распространенным в повседневной жизни людей и организаций, они стали источником данных с большим потенциалом для прогнозирования социальных и экономических тенденций.

Городские и мобильные сенсоры и датчики. Успехи компьютерных технологий привели к созданию беспроводных, незаметных и недорогих сенсоров для сбора информации о повседневной жизни граждан. Среди городских сенсоров самый распространенный и широко используемый - это ридер кредитных карточек. Богатым источником информации о предпочтениях покупателей также служат сканеры, используемые в розничной торговле. Эти данные уже доказали свою полезность с точки зрения прогнозирования поведения потребителей, продаж и цен.

Некоторые датчики, встроенные в мобильные телефоны, также служат потенциальным источником социальных данных: GSM, GPS, Bluetooth, акселерометр или сенсоры для соединения с телефонной сетью через Base transceiver stations. Данные этих сенсоров полезны для идентификации мест, которые интересны людям, а также для определения личностных характеристик, которые компании могут использовать для персонализации своих услуг.

Данные, полученные из нетрадиционных социоэкономиче-ских источников, объемны, разнообразны и не структурированы или полуструктурированы, что порождает серьезные трудности, когда дело доходит до их извлечения, обработки, анализа и хранения. К настоящему времени разработано много методов и техник, связанных с машинным обучением и большими данными. Многие из этих методов широко применяются в других областях, таких как инженерные науки, медицина и биостатистика. Несмотря на их

потенциал с точки зрения работы с социоэкономическими данными, их использование в данной области пока находится в зачаточном состоянии.

Авторы перечисляют и описывают методы, которые подошли бы для работы с большими социоэкономическими данными. Они подразделяют их на следующие группы: методы для структурирования данных; методы для моделирования данных; методы для оценки поведения и мощности модели (с. 104-106). Таксономия нетрадиционных методов работы с социальными и экономическими данными представлена авторами в виде рисунка на с. 105.

Цифровые данные имеют множество преимуществ, прежде всего это простота их обмена, воспроизведения и рекомбинации, что позволяет использовать их многократно. Но для того чтобы можно было воспользоваться этим преимуществом, данные должны быть правильно собраны, переработаны и сохранены. Потеря данных или их повреждение могут дорого стоить. Поэтому важно определить, какие фазы и процессы составляют жизненный цикл данных, чтобы применить надежную и гибкую архитектуру для управления ими.

Жизненный цикл данных - это последовательность стадий, которые проходят данные от момента, когда они входят в систему, до момента, когда они из нее извлекаются или отправляются на хранение. Обзор работ по этой теме позволил авторам выделить и описать стадии полного жизненного цикла данных в контексте экономического и социального анализа. Всего они выделили девять таких стадий: изучение и планирование; сбор данных; документирование данных и обеспечение их качества; интеграция данных; приведение данных в нужный формат; анализ; публикация и шеринг; хранение; повторное использование данных (с. 108).

Отталкиваясь от описания жизненного цикла данных в организациях, авторы предлагают свой вариант архитектуры больших данных для прогнозирования текущих социальных и экономических изменений, который отображен на рисунке 4 (с. 109). Эта архитектура организована в виде трех слоев. Слой анализа данных содержит основные процессы генерирования знания: от извлечения данных из множественных источников до их публикации или доклада. Он состоит из шести модулей, которые работают последовательно, от рецепции данных до публикации результатов (модуль получения данных; модуль предварительной обработки дан-

ных; модуль интеграции данных; модуль приведения данных в нужный формат; модуль анализа данных; модуль публикации результатов) (с. 108-110).

Наряду с этим слоем существуют еще два слоя, функция которых состоит в поддержке анализа данных. Слой управления расположен горизонтально по отношению к остальной системе и занимается приложением существующих норм и регулятивных правил ко всему жизненному циклу данных, а также занимается вопросами лицензирования. Он состоит из пяти модулей, четыре из которых относятся к жизненному циклу данных, а еще один используется в целях аудита. В их число входят: модуль сбора данных; модуль переработки; модуль результатов; модуль архивирования и извлечения данных; модуль аудита (с. 111).

Персистентный слой выполняет вспомогательную функцию по отношению ко всем другим слоям, занимаясь всеми вопросами, связанными с хранением информации. Он охватывает не только сами данные, но и процедуры хранения, которые используются в разных модулях для получения доступа и преобразования данных.

В заключение авторы отмечают, что главный вклад их статьи состоит в предложении архитектуры больших данных, которая адаптирована к особенностям экономического и социального анализа и опирается на подход, исходящий из жизненного цикла данных в организациях (с. 111).

Т.В. Виноградова

2018.04.022. КУЛЬТУРЫ ДАННЫХ, СОДЕРЖАЩИЕСЯ В МОБИЛЬНЫХ ПРИЛОЖЕНИЯХ ЗНАКОМСТВ: ВОПРОСЫ ДЛЯ КРИТИЧЕСКОГО СОЦИОЛОГИЧЕСКОГО ИССЛЕДОВАНИЯ / АЛБАРИ К., БУРГЕСС Дж., ЛАЙТ Б., РЭЙС К., УИЛКЕН Р. Data cultures of mobile dating and hook-up apps: Emerging issues for critical social science research / Albury K., Burgess J., Light B., Race K., Wilken R. // Big data & society. - 2017. - Vol. 4, N 2. - P. 111. - Mode of access: https://doi.org/10.1177/2053951717720950

Ключевые слова: знакомства онлайн; приложения; мобильные медиа; геолокация; сексуальность; культура данных.

Социальные и этические последствия интеллектуального анализа данных, алгоритмической курации и автоматизации в контексте социальных медиа, по словам группы авторов из Австралии

i Надоели баннеры? Вы всегда можете отключить рекламу.