оригинальная статья
DOI: 10.26794/2226-7867-2019-9-6-143-149 УДК 342.8(045)
Технологии big data в политических процессах: возможности и риски*
Д. Р. Мухаметов
Финансовый университет, Москва, Россия https://orcid. org/0000-0001-7256-3281
аннотация
В статье рассматриваются различные аспекты, связанные с использованием анализа big data в политических процессах . Цифровые технологии оказывают амбивалентное влияние на социально-политические процессы, так как создают «серую зону» возможностей, которые являются предметом конфликтов и конкуренции различных политических агентов . На первом этапе описывается концепция data-driven campaign в политике, которая получает распространение в силу востребованности гибких механизмов управления и формирования «экономики внимания» . Практическая реализация концепции включает этапы сбора и алгоритмического анализа данных (создание психологических профилей и психограмм), сегментирование аудитории и микротаргетинг - в статье раскрывается содержание каждого из них на примере актуальных кейсов . Преимущество использования анализа больших данных заключается как в масштабах анализируемой информации, так и в поиске более глубоких каузальных связей и зависимостей, что расширяет спектр возможностей воздействия на поведение политических агентов. На втором этапе рассматривается возможность экстраполяции механизмов data-driven campaign на уровень общего управления и data-driven politics . Формулируются основные риски и угрозы, связанные с технологиями big data в политических процессах: воронка недоверия к политическим институтам и технологиям, размывание принципов плебисцитарной демократии, конфиденциальность персональных данных, использование коммерческих данных в политических целях, последствия когнитивных ограничений алгоритмов и принятия решений на их основе . Как следствие, в краткосрочной перспективе будут актуальны вопросы институционального регулирования использования данных пользователей, а также защита персональных данных через совершенствование инструментов кибербезопасности и развитие человеческого капитала как базовых навыков использования современных технологий.
Ключевые слова: большие данные; сбор и анализ данных; психометрия; кампания, основанная на данных; микротаргетинг; цифровой след; избирательная кампания; Cambridge Analytica; информационная безопасность; воронка недоверия
Для цитирования: Мухаметов Д. Р. Технологии big data в политических процессах: возможности и риски. Гуманитарные науки. Вестник Финансового университета. 2019;9(5):143-149. DOI: 10.26794/2226-7867-2019-9-6-143-149
ORIGINAL PAPER
Big Data Technologies in Political Processes: Risks and Opportunities**
D. R. Mukhametov
Financial University, Moscow, Russia https://orcid. org/0000-0001-7256-3281
abstract
The article deals with various aspects related to the use of Big Data technologies in political processes. Digital technologies have an ambivalent impact on the social and political processes, creating the "grey zone" of opportunities and resources that are the subject of conflicts and competition among various political agents. This
* Статья подготовлена по результатам исследований, выполненных за счет бюджетных средств по государственному заданию Финансовому университету при Правительстве РФ .
** The article is prepared according to the results of studies carried out at the expense of budgetary funds on the state task of the Financial University.
statement is equally true concerning election campaigns. Firstly, the author describes the concept of data-driven campaign, which is rapidly spreading due to the demand for flexible management mechanisms and the formation of the "attention economy". The implementation of the concept includes processes of data mining and analysis, microtargeting - the article reveals the content of each stage on the example of recent cases. The essential advantage of using big data analysis in political processes is concluded not only in the scale of the data mining but also in the possibility to examine deep causal relationships and dependencies, which extends the range of opportunities to influence political agents behaviour. Secondly, it is possible to extrapolate mechanisms of data-driven campaign to the level of data-driven politics . The author formulates the major risks and threats associated with the use of Big Data in political processes: funnel of mistrust in political institutions and technologies, blurring political institutions and plebiscite democracy, the preservation and confidentiality of personal data, the consequences of algorithms cognitive restrictions. As a result, in the short term it will be relevant to provide institutional regulation of data using, as well as to support the development of human capital as the basic skills of personal data protection and the use of modern technologies.
Keywords: big data; data mining and data analysis; psychometrics; data-driven campaign; microtargeting; digital footprint; election campaign; Cambridge Analytica; cybersecurity; funnel of mistrust
For citation: Mukhametov D. R. Big Data technologies in political processes: Risks and opportunities. Gumanitarnye Nauki. VestnikFinasovogo Universiteta = Humanities and Social Sciences. Bulletin of the Financial University. 2019;9(6):143-149. DOI: 10.26794/2226-7867-20199-6-143-149
ВВЕДЕНИЕ
Использование цифровых технологий в социально-политических процессах характеризуется двойственностью возможностей и угроз. С одной стороны, государство всегда стремилось упростить общество, сделать его максимально «видимым» для установления желаемого социального порядка [1]: в этом отношении технологии сбора и анализа данных позволяют количественно и качественно увеличить собираемую государством информацию о гражданах и предоставляют новые ресурсы контроля и управления.
С другой стороны, новые технологии содействуют процессам децентрализации и открывают новые формы самоорганизации граждан: в перспективе развитие интернета вещей, системы распределенных реестров и аддитивного производства может способствовать эксклюзии государства как регуляторного посредника из жизни отдельных групп социума [2].
Важно признать, что неопределенность потенциала использования цифровых технологий создает «серую зону» возможностей, ресурсов и инструментов, которые становятся предметом конфликтов и конкуренции между широким кругом политических агентов. В частности, это находит выражение в сфере избирательного процесса: вследствие экспоненциального роста персональных данных и их сбора происходит деанонимизация и нивелирование приватной сферы; тренд цифровой виртуализации благоприятствует росту fake news и таргетированных манипуляций — подобные вопросы являются объектом настоящей работы.
анатомия data-driven campaign И ЕЕ использование В ПОлИТИЧЕСКИХ ПРОЦЕССАХ
Понятие и причины популяризации
В общем понимании data-driven campaign определяется как использование big data в политических процессах, в первую очередь в избирательных кампаниях. Возрастающая распространенность ее применения обуславливается следующими причинами.
Во-первых, технологии data-driven campaign могут предоставить политическим организациям ресурсы как более детального исследования собственного электората и социальных групп, так и их эффективной мобилизации — это позволяет преодолеть ригидность бюрократических машин и их неспособность ответить на вызовы окружающей среды.
Во-вторых, требуются инструменты управления ограниченной рациональностью избирателей, и в этом отношении теория data-driven campaigning может реализовать идеи поведенческой экономики, в частности, теорию «подталкивания» (nudge theory) Р. Талера [3]. В условиях ограниченной рациональности агентов и наличия разрыва между знанием, намерениями и действиями (knowledge-attitudes-practice gap [4]) процесс принятия решений сопровождается ростом трансакционных и когнитивных издержек, а принятые решения могут оказаться несоответствующими параметрам ситуации: во избежание этого необходимо предоставление дифференцированных стимулов,
которые при сохранении выбора указывают на наиболее выгодное решение (что также может стать средством спекуляции). В контексте использования big data в роли описанных стимулов выступает таргетированная информация, предоставляемая на основе собранных данных.
В-третьих, рост и избыток информации влияет на развитие «клипового мышления» — человек склонен тратить значительно меньше времени на анализ предложений на рынке: в данных условиях формируется «экономика внимания» (attention economy) [5], в рамках которой внимание пользователей — выборочное фокусирование на отдельных стимулах — становится ограниченным ресурсом и предметом конкуренции организаций. Таким образом, стратегия data-driven campaign позволяет через внедрение цифровых платформ и анализ цифрового следа пользователей предоставлять им таргетированную рекламу и концентрировать внимание пользователей на определенных товарах, услугах, сообщениях.
Приведенные аргументы являются основанием для дальнейшего анализа использования data-driven campaign в политике. В общем плане процесс data-driven campaign можно представить как последовательное прохождение трех стадий: (1) сбор данных избирателей, (2) анализ данных и формирование психологических профилей, (3) распространение таргетированных сообщений и воздействие на избирателя.
Сбор данных
Можно выделить три варианта организации сбора данных: тестирование и извлечение данных пользователей социальных сетей, использование API, аутсорсинг. Сбор данных в рамках data-driven campaign осуществляется всеми тремя описанными способами, однако за последние несколько лет можно обозначить тенденцию роста участия в этом процессе коммерческих компаний широкого профиля.
Тестирование пользователей является традиционным способом извлечения информации: пользователям предлагается ответить на список вопросов, исходя из ответов на которые определяется психологический профиль человека. При прохождении теста необходимо согласие на передачу данных профиля организаторам теста, которые в дальнейшем используются для моделирования психологического профиля.
API-исследования — это подход в цифровой социологии, основанный на извлечении записей из наборов данных, доступных онлайн-платформам через их интерфейсы прикладного программирования (API — Application Programming Interface) [6, 7]. Этот вид сбора позволяет агрегировать подробную информацию о больших группах населения при отсутствии прямого контакта с ними, поэтому сегодня использование API-доступа является распространенным методом социологических исследований ввиду значительного объема «сырых» количественных данных, которые они могут предоставить.
Стоит отметить, что в контексте избирательных кампаний политические организации редко обладают достаточными техническими ресурсами и знаниями для масштабного сбора данных, поэтому наиболее распространенным решением является аутсорсинг — передача части функций сторонней профессиональной структуре. Так как в большинстве случаев собираются данные, в том числе относящиеся к коммерческой сфере, проблема на данном этапе заключается в стирании границы между данными, собираемыми в политических целях, и данными, собранными в коммерческих целях, направленными на более качественное профилирование предпочтений потребителей. Как следствие, в настоящее время на политическом рынке формируется новый тип игроков в лице коммерческих компаний, которые обладают необходимыми техническими инструментами и предоставляют готовые решения сбора и анализа данных для политических организаций: однако следует учитывать, что компании отличаются в зависимости от того, данные какого типа они предоставляют.
Наиболее распространенными являются организации по исследованию социальных медиа (Social listening companies), которые специализируются на мониторинге и анализе дискуссий в социальных сетях по конкретной теме, кандидату, партии или бренду [8]. Однако в последние годы заметен тренд на привлечение к кампаниям «брокеров данных» (data brokers), собирающих информацию о пользователях из различных источников, включая социальные сети, государственные записи и покупку данных у частных компаний [9] — объем информации, имеющейся у «брокеров данных», зависит от законодательного регулирования сферы использования данных страны, в которой они осуществляют свою деятельность.
Анализ данных, психометрический анализ и сегментирование аудитории
Собранные данные анализируются с помощью алгоритмов машинного обучения для создания психограмм пользователей и микротаргетинга. Технически первичный анализ осуществляется уже в процессе агрегирования, так как некоторые программы баз данных включают опцию визуализации данных пользователей. Однако современный политический маркетинг сопряжен с большими требованиями к сбору и анализу данных: востребованным становится не только агрегирование данных об избирателях, но и предоставление инструментов для воздействия на них. Получают развитие компании, включенные в сети обмена данными и информацией, имеющие необходимые ресурсы и программное обеспечение для их хранения и анализа — наиболее известной из подобных организаций является Cambridge Analytica, которая одной из первых ввела практику психометрии широкой аудитории через измерение модели «большой пятерки» на основе данных пользователей социальной сети Facebook (психограмма «большой пятерки» отражает такие характеристики, как нейротизм, открытость новому опыту, экстраверсия, сознательность, доброжелательность).
Традиционными способами получения информации для психометрии выступали проведение опросов, анкетирование участников, что априори обуславливает два типа барьеров для наиболее полного определения психологического профиля: во-первых, ограничение выборки и, во-вторых, склонность респондентов при прямом опросе корректировать свои ответы, особенно в отношении вопросов о политических предпочтениях.
При использовании big data и данных социальных сетей психометрический анализ проводится на базе «цифрового следа»: производимый контент, отправляемые сообщения, интересующие страницы, группы, новости, геотеги, хэштэги используются как исходный материал для алгоритма и применяются для выявления выше-обозначенных измерений психотипа личности. Алгоритмы, используемые для психотипирования, в большинстве случаев имеют вид регрессионных, кластерных или классификационных моделей. На первом этапе через проведение психологических тестов в социальных сетях и интернет-пространстве определяются психологические наклонности пользователя; параллельно в рамках тестовых
приложений агрегируются данные цифрового следа пользователя — «лайки», опубликованные сообщения, подписки на каналы и группы. На втором этапе через модели алгоритмов производится поиск взаимосвязей между ответами пользователя и данными его цифрового следа, которые позволяют выявить его психологические характеристики: данный подход может быть в равной степени использован для определения психологического профиля пользователей разных социальных сетей вне зависимости от формы цифрового материала, на котором апробируются и тестируются алгоритмы: Twitter, Facebook, Instagram [10-12].
Данный подход позволяет преодолеть ограничения традиционных методов за счет анализа данных широкой аудитории, не ограниченной условиями выборки, а также вследствие обработки большого массива информации о пользователе и поиска неочевидных каузальных связей и зависимостей, детерминирующих поведение, благоприятствующих микротаргетингу.
Распространение таргетированной рекламы
Третий этап — распространение таргетированной рекламы: после сегментирования аудитории реклама в различной форме доставляется до потенциального избирателя для воздействия на его решение — ключевыми каналами распространения являются социальные медиа, посещаемые пользователем сайты и форумы, мессенджеры, электронная почта. Тем не менее социологические исследования демонстрируют неоднозначность оценки влияния таргетированной рекламы — в частности, опрос пользователей Facebook в США после скандала с Cambridge Analytica выявил, что 32% респондентов не обращают внимания на рекламные объявления и воспринимают их наравне с публикациями других пользователей.
Распространение таргетированной политической рекламы направлено на запуск «эмоционального заражения» — включение человека в определенный контекст, благоприятствующий ожидаемой психологической реакции. Механизмы эмоционального заражения широко варьируются и в большинстве случаев подразумевают непосредственный контакт, однако распространение социальных медиа и потенциал моделирования поведенческих реакций человека исходя из анализа его цифрового следа позволяют
осуществлять эмоциональное заражение опосредованно, сохраняя при этом индивидуальный подход [13]. Это становится возможным с помощью погружения индивида через микротаргетинг в сравнительно изолированную информационную среду, в которой артикулируется поток новостей, соответствующих психограмме человека и склоняющих его к совершению ожидаемых действий. В большинстве случаев информация, транслируемая через микротаргетинг, носит негативный характер — чувство угрозы и демо-низация имеют больший мобилизационный потенциал, нежели положительные образы и события. В частности, использование данной техники в контексте избирательной кампании Д. Трампа позволило мобилизовать малоинформированных избирателей (low-information voters) — неоднородную группу населения, в силу разных причин аполитичных или критично настроенных по отношению к политическим новостям, событиям, избирательному процессу [14].
ОТ DATA-DRIVEN CAMPAIGN К DATA-DRIVEN POLITICs:
риски и угрозы
В перспективе data-driven campaign может быть масштабирована в парадигму data-driven politics, что сопряжено с рядом социально-политических проблем, связанных с ростом контроля и ограничением приватной сферы. Представляется возможным выделить несколько общих категорий рисков и угроз.
1. Проблема «воронки недоверия» к новым технологиям и политическим институтам вследствие роста ресурсов контроля и манипулирования. Исследователь из Гарвардского университета Дж. Зиттрейн предложил определение «интеллектуальный долг» (intellectual debt) для описания ситуации, при которой люди активно внедряют новые технологии в собственную повседневную жизнь и профессиональную деятельность при отсутствии полного понимания и знаний принципов их работы. Следствием данной информационной асимметрии становится возможность спекуляции и сокрытия отдельных деталей об особенностях и свойствах технологических устройств, что, например, отражено в сборе «умными колонками» Amazon широкого спектра данных о пользователе.
В условиях цифровой трансформации сохранность и использование персональных данных становятся одним из основных предметов беспо-
койства и опасений населения и экспертного сообщества [15-17]: несанкционированный доступ к данным и непредсказуемые выводы, которые можно сделать на основе их анализа, рассматриваются как ключевые угрозы. По этим причинам становится реальным развитие «воронки недоверия», которую можно представить в виде следующей схемы: наличие и рост интеллектуального долга à опасность отчуждения персональных данных и их использование в обход человека, включая политические цели и манипулирование à недоверие к политическим организациям, кандидатам и институтам, использующим анализ данных à недоверие к технологиям и частичный отказ от них как средство сокращения интеллектуального долга/использование технологий как инструмента сопротивления экспансии институтам контроля и регулирования. Опыт недавних протестов в Гонконге продемонстрировал возможность адаптации и использования цифровых технологий в противовес государственным структурам.
2. Размывание демократических институтов и механизмов плебисцитарной демократии. Распространение таргетированной политической рекламы на основе моделирования личности исходя из ее поведения в социальных сетях стали инструментами воздействия на потенциальный выбор избирателя, что дискредитирует ключевые положения плебисцитарной демократии. В этом отношении следует констатировать рост уязвимости выбора человека, так как микротаргетинг позволяет смоделировать его решение и поведение с последующим информационным воздействием: успех «информационного заражения» избирателей в президентской кампании Д. Трампа и участников референдума по членству Великобритании в ЕС стали причиной роста дискуссий о будущем механизма плебисцитарной демократии.
3. Проблема конфиденциальности и сохранения анонимности персональных данных. Современные исследования демонстрируют возможность точной идентификации пользователя на основании анонимных данных, размещенных в публичном доступе [18]. В техническом измерении это требует создания кросс-секторального массива анонимных данных, включающего, как минимум, 15 параметров информации о человеке (пол, почтовый индекс, дата рождения, группа крови и т.д.): при анализе 15 категорий «безымянных» анонимных данных с помощью ге-
неративных моделей и алгоритмов машинного обучения можно идентифицировать человека с точностью до 99,8% при охвате 100% населения США, или 99,6% — при охвате 1% населения.
4. Когнитивные ограничения алгоритмов и последствия решений, принятых на основе их результатов. Действия алгоритмов имеют когнитивные ограничения и допускают игнорирование отдельных аспектов ситуации [19, 20], поэтому внедрение в алгоритм ошибочных связей может исказить итоговые результаты и привести к непредвиденным последствиям. Это используется как аргумент в пользу противодействия внедрению алгоритмов в политические процессы и избегания избирательного использования анализа данных — data violence: к примеру, в Чикаго в алгоритмы машинного обучения, разработанные для отслеживания криминальной активности и распределения полицейских групп среди городских кварталов, была включена предпосылка о наличии взаимосвязи между тем, какой расы/национальности большинство проживающих в квартале и количеством преступлений в нем, что привело к росту полицейского надзора за конкретными этническими группами [21].
Предупреждение и нивелирование данных рисков становится возможным через развитие институциональной базы — законодательное регулирование сбора и использования персональных данных пользователей, а также через развитие человеческого капитала — совершенствование навыков использования современных технологий, которые позволяют сократить асим-
метрию информации между пользователями и разработчиками, получить базовые знания о защите персональных данных. Принятие в ЕС «Общего регламента по защите данных» в 2017 г. отражает необходимость участия политических институтов в законодательном регулировании и формировании этики использования персональных данных пользователей.
Таким образом, в настоящий момент можно наблюдать внедрение технологий big data в политические процессы, что обусловлено возможностями поиска ранее неочевидных взаимосвязей для совершенствования качества прогнозов и управления. Несмотря на указанные преимущества, опыт использования микротаргетинга в избирательных кампаниях продемонстрировал горизонт допустимых действий с точки зрения социальных ожиданий и одобрения: на первый план выходят различные политические риски, связанные с конфиденциальностью персональных данных, ростом ресурсов контроля и манипулирования, последствиями когнитивных ограничений алгоритмов. Как следствие, на международном и национальном уровнях следует ожидать инициирования процессов переговоров и согласования интересов различных сторон в вопросе законодательного регулирования сферы использования пользовательских данных, — уже в настоящий момент можно идентифицировать линии конфликтов и противоречий основных участников в лице национальных государств, технологических компаний (включая Big Tech), коммерческих организаций, криминальных структур, институтов гражданского общества.
список источников/references
1. Scott J. Two Cheers for Anarchism: Six Easy Pieces on Autonomy, Dignity and Meaningful Work and Play. Princeton University Press; 2012.
2. Rifkin J. The Zero Marginal Cost Society: The Internet of Things, the collaborative commons, and the eclipse of capitalism. Palgrave Macmillan; 2014.
3. Thaler R., Sunstein C. Nudge: Improving Decisions about Health, Wealth and Happiness. Yale University Press; 2008.
4. Kollmuss A., Agyeman J. Mind the Gap: Why do people act environmentally and what are the barriers to pro-environmental behavior? Environmental Education Research. 2002;8(3):239-260.
5. Lanham R. The Economics of Attention. Style and Substance in the Age of Information. Chicago: Chicago University Press; 2006.
6. Venturini T., Rogers R. "API-Based Research" or How can Digital Sociology and Journalism Studies Learn from the Facebook and Cambridge Analytica Data Breach. Digital Journalism. 2019;7(40):532-540.
7. Bruns A. After the "APIcalypse": social media platforms and their fight against critical scholarly research. Information Communication and Society. 2019;22(2):1-23.
8. Jan F., Valikoski T-R., Grau J. Listening in the Business Context: Reviewing the State of Research. The International Journal of Listening. 2008;22(2):141-151.
9. Deulkar D., Gupta P. A Study on Usage of Online Personal Information by Data Brokers. International Research Journal of Engineering and Technology. 2018;5(5):3522-3527.
10. Golbeck J., Robles C., Edmondson M., Turner K. Predicting personality from Twitter. IEEE International Conference on Social Computing; 2011.
11. Ouercia D., Lambiotte R., Stillwell D., Kosinski M., Crowcroft J. The personality of popular Facebook users. Proceedings of the ACM 2012 conference on computer supported cooperative work; 2012.
12. Segalin C., Perina A., Cristani M., Vinciarelli A. The pictures we like are our image: continuous mapping of favorite pictures into self-assessed and attributed personality traits. IEEE Trans Affect Comput. 2017;8(2):268-285.
13. Kramer A. D., Guillory J. E., Hancock J. T. Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Science of the USA. 2014;111(24):8788-8790.
14. Fording R., Schram S. The Cognitive and Emotional Sources of Trump Support: The Case of Low-Information Voters. New Political Science. 2017;39(4):670-686.
15. Мухаметов Д. Р. Проблемы и перспективы реализации концепции «Умный город» в России (на примере Москвы). Мир новой экономики. 2019;13(3):81-88.
Mukhametov D. R. Problems and prospects of realisation of the concept "smart city" in Russia (on the example of Moscow). World of the new economy. 2019;13(3):81-88. (In Russ.).
16. Ерохина О. В. «Умная Москва»: новая концепция развития столицы. Гуманитарные науки. Вестник Финансового университета. 2018;8(3):6-10.
Erokhina O. V. "Smart Moscow": a new concept of development of the capital city. Gumanitarnye nauki. Vestnik Finansovogo universiteta. 2018;8(3):6-10. (In Russ.).
17. Pentland A. Social Physics: How Good Ideas Spread — The Lessons from a New Science. New York: The Penguin Press; 2014.
18. Rocher L., Hendrickx J., de Montjoye Y.-A. Estimating the success of re-identifications in incomplete datasets using generative models. Nature Communications. 2019;10(1):145-171.
19. O'Neil С. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. N.Y.: Crown Books; 2016.
20. Pasquale F. The black box society: The secret algorithms that control money and information. Cambridge: Harvard University Press; 2015.
21. Гринфилд А. Радикальные технологии: устройство повседневной жизни. М.: Издательский дом «Дело»; 2018.
Greenfield А. Radical Technologies: The Design of Everyday Life. Moscow: Izdatel'skij dom Delo; 2018. (In Russ.).
информация об авторе
Данияр Рустямович Мухаметов — студент 1-го курса магистратуры факультета социологии и политологии, Финансовый университет, Москва, Россия; исследователь Центра изучения трансформации общественно-политических отношений, Москва, Россия [email protected]
ABOUT THE AUTHOR
Daniyar R. Mukhametov — 1-year master's student, Department of Sociology and Political Sciences, Financial University, Moscow, Russia; Researcher at the Center for Study of Transformation of Socio-Political Relations, Moscow, Russia
Статья поступила 20.10.2019; принята к публикации 07.11.2019. Автор прочитал и одобрил окончательный вариант рукописи. The article received on 20.10.2019; accepted for publication on 07.11.2019. The author read and approved the final version of the manuscript.