Научная статья на тему 'Модели институционализации доступа исследователей к данным государства'

Модели институционализации доступа исследователей к данным государства Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
62
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
государственные данные / микроданные / доступ к микроданным / government data / microdata / access to microdata

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вяткин Илья, Комин Михаил Олегович, Копыток Витовт Константинович

Центр перспективных управленческих решений в рамках проекта «Инфраструктура научно-исследовательских данных» представляет обзор международного опыта институционализации доступа исследователей к разным типам микроданных, которыми обладают органы государственной власти. Из-за рисков раскрытия чувствительной информации такие данные, как правило, не публикуются и требуют использования специальных организационных и инфраструктурных механизмов для установления доступа к ним. В аналитическом обзоре была предложена типология, включающая в себя три основных модели доступа к таким данным исходя из функциональной роли организаций, привлекаемых государством для хранения, подготовки и обеспечения доступа. В заключение была предложена модель институционализации доступа, оптимальная для современной России.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Вяткин Илья, Комин Михаил Олегович, Копыток Витовт Константинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Institutionalization Models of Researchers' Access to State Data

Center for Advanced Governance within the project «Инфраструктура научно-исследовательских данных» provides an overview of international experience in institutionalizing researchers' access to different types of microdata held by public authorities. Because of the risks of sensitive information disclosure, such data is usually not published and requires the use of special organizational and infrastructural mechanisms for establishing access. In the analytical review, a typology is proposed that includes three main models of access to such data based on the functional role of organizations involved in storing, preparing and providing access. In conclusion, a model of institutionalization of access optimal for Russia is proposed.

Текст научной работы на тему «Модели институционализации доступа исследователей к данным государства»

(2

центр

перспективных

управленческих

решений

инид

Аналитический обзор

Модели

институционализации доступа исследователей к данным государства

Авторы

Илья Вяткин Михаил Комин Витовт Копыток

Исследования по вопросам государственного управления

Москва, 2021

УДК 351.9 ББК 66.033.9 В 99

Вяткин И.О., Комин М.О., Копыток В.К

Модели институционализации доступа исследователей к данным государства // Центр перспективных управленческих решений. — М.: ЦПУР, 2021. — 47 с.

Издается с 2019 года ISSN 2713—2137 online

Центр перспективных управленческих решений в рамках проекта «Инфраструктура научно-исследовательских данных» представляет обзор международного опыта институционализации доступа исследователей к разным типам микроданных, которыми обладают органы государственной власти. Из-за рисков раскрытия чувствительной информации такие данные, как правило, не публикуются и требуют использования специальных организационных и инфраструктурных механизмов для установления доступа к ним. В аналитическом обзоре была предложена типология, включающая в себя три основных модели доступа к таким данным исходя из функциональной роли организаций, привлекаемых государством для хранения, подготовки и обеспечения доступа. В заключение была предложена модель институционализации доступа, оптимальная для современной России.

Центр перспективных управленческих решений —

аналитический и исследовательский центр, созданный в 2018 году для продвижения в России принципов доказательной политики (evidence-based policy making), а также для поддержки разработки и внедрения изменений с целью повысить эффективность системы государственного управления. Центр исследует проблемы системы государственного управления, готовит аналитические доклады, обзоры и записки, знакомит с результатами этих исследований органы государственной власти, представителей бизнеса, академического и экспертного сообществ.

Контакты:

г. Москва, Газетный переулок, дом 3-5, Автономная некоммерческая организация «Центр перспективных управленческих решений»

E-mail:

info@cpur.ru

m.komin@cpur.ru

https://data-in.ru/

Инфраструктура научно-исследовательских данных (ИНИД) — магистральный проект ЦПУР, цель которого — обеспечивать продуктивное взаимодействие между владельцами данных о государстве и обществе и исследователями для принятия управленческих решений на основе данных и совершенствования государственной политики. Благодаря платформе исследователи могут получать доступ к данным, а представители органов государственной власти — ставить прикладные задачи и предоставлять для их решения наборы данных.

www.cpur.ru

977271321300809

ОГЛАВЛЕНИЕ

ПРЕДИСЛОВИЕ ОТ МАРИИ ШКЛЯРУК...........................................................................5

EXECUTIVE SUMMARY |ОСНОВНЫЕ РЕЗУЛЬТАТЫ.................................................6

ГЛОССАРИЙ ТЕРМИНОВ.......................................................................................................9

ВВЕДЕНИЕ..................................................................................................................................10

Типы государственных данныхи дилемма их раскрытия........................10

Российский подход к раскрытию государственных данных..................14

МОДЕЛИ ДОСТУПА ИССЛЕДОВАТЕЛЕЙ К ДЕТАЛЬНЫМ ГОСУДАРСТВЕННЫМ ДАННЫМ: ЗАРУБЕЖНЫЙ ОПЫТ.......................................18

Модель 1. Дополнение функционала

государственного статистического агентства без создания организаций-посредников (unmediated access approach)...................19

Модель 1.1. Доступ без посредников: передача данных по ограниченной лицензии в защищенные локации (unmediated access: restricted-use data license)..............................................................................................19

Модель 1.2. Доступ без посредников: передача менее детализированных данных в режиме реального времени (unmediated access: real time access mode)....................................................................21

Модель 2. Создание или соучреждение государством отдельной исследовательской организации

(research data center approach).........................................................................22

Модель 2.1. Центр исследования данных: создание отдельной организации в подчинении у профильного государственного ведомства или нескольких ведомств................................23

Модель 2.2. Центр исследования данных: соучреждение специальной организации ведомством в партнерстве с университетом, фондом или НКО...............................................................................................29

Модель 3. Партнерство с университетами и независимыми исследовательскими организациями (research-practice partnership).............................................................................31

Модель 3.1. Партнерская сеть: делегирование функций по хранению, обработке и организации доступа

к данным через регулярные соглашения...............................................................................31

Модель 3.2. Партнерская сеть: разделение функций по обработке и предоставлению доступа к данным между ведомствоми негосударственными организациями............................................34

ВЫВОДЫ.....................................................................................................................................36

РЕКОМЕНДАЦИИ......................................................................................................................41

ПРИЛОЖЕНИЕ 1.......................................................................................................................44

БИБЛИОГРАФИЯ....................................................................................................................46

(5

ПРЕДИСЛОВИЕ ОТ МАРИИ ШКЛЯРУК

В 2019 г. Центр перспективных управленческих решений запустил проект «Инфраструктура научно-исследовательских данных». Мы видели его «песочницей», экспериментом для того, чтобы понять, каким может быть успешный для России механизм доступа исследователей к более детализированным и качественным государственным данным, чем те, которые уже были опубликованы на порталах и сайтах ведомств.

За год работы мы много сделали для повышения качества и доступности отдельных данных для исследователей, создав качественные общедоступные датасеты и опробовав механизмы предоставления доступа к ранее неопубликованным сведениям, сформированным на основе административных данных. Но мы выступаем за институционализацию этой практики и более четкое нормативное регулирование, именно поэтому публикуем не только результаты анализа международного опыта, но и рекомендации, на которые влияет практический опыт, приобретенный нами в процессе реализации проекта ИНИД. Так что в определенном смысле соавторами рекомендаций являются все пользователи, которые оставляли обратную связь на сайте data-in.ru, и партнеры проекта из государственных органов и научных организаций, которые в течение года много обсуждали вопросы баланса открытости данных и соблюдения требований безопасности.

Сейчас в России приоритетным потребителем государственных данных становится бизнес: именно для стартапов и разработчиков решений, связанных с применением технологий искусственного интеллекта (ИИ), формируется концепция доступа к государственным данным, обсуждаемая с бизнес-сообществом. Но важно, чтобы кроме ярких технологических компаний доступ к данным получали исследователи, эксперты, студенты, аналитические центры, которые помогают формировать более качественное регулирование, повышать качество решений, принимаемых государственными органами. И разработчики практических решений, основанных на технологиях ИИ, и научные сотрудники сталкиваются с проблемами качества данных, ограничениями использования. Решать основную проблему (качества государственных данных, как открытых, так и тех, которые могут быть полезны даже при ограничении к ним доступа) предстоит для всех пользователей. Чтобы достичь успеха в этом, необходимо ориентироваться на пользователей, воспринимая их как клиентов, заказчиков качества данных.

Одновременно важно соблюдать баланс открытости и безопасности, и, как показывает международный опыт, для этого баланса существует целый набор технологических и правовых механизмов, которые не ограничиваются понятием «открытые данные», и данные, доступ к которым получают только сами госорганы.

Я надеюсь, что этот отчет поможет продолжить дискуссию о том, каким именно для России должен быть набор режимов доступа и правил, который поможет успешно поддерживать научные исследования, развивать технологические стартапы, но при этом сохранять право на приватность личных данных.

Мария Шклярук,

Генеральный директор ЦПУР

EXECUTIVE SUMMARY | ОСНОВНЫЕ РЕЗУЛЬТАТЫ

1. В настоящий момент в России отсутствуют устоявшиеся механизмы доступа исследователей к более детализированным данным и микроданным государства, которые собираются в рамках официального статистического наблюдения или в ходе исполнения ведомствами своих административных функций. В то же время, мировой опыт показывает, что для повышения эффективности системы государственного управления, выстраивания процесса принятия решений на основе данных и использования принципов доказательной политики1 (evidence-based policy making) необходимо обеспечить внедрение, а также законодательное и институциональное закрепление практики раскрытия детальных данных для исследователей и представителей академического сообщества. Организационно-правовая форма реализации этого процесса выбирается каждым государством самостоятельно в соответствии со сложившимся опытом взаимодействия государственных и негосударственных акторов и текущим законодательством.

2. В мировой практике сложилось три базовых модели организации доступа исследователей к микроданным государственных органов, в зависимости от распределения функций по сбору, обработке и организации доступа к данным между ведомством и негосударственными стейкхолдерами.

• дополнение функционала статистического агентства или профильного департамента гос.органа без создания организаций посредников (unmediated access approach)

• создание (или соучреждение в партнерстве) государством отдельной организации в формате центра исследования данных (research datacenter approach, RDC)

• формирование партнерской сети из негосударственных организаций (НКО, университетов, исследовательских центров), которые полностью или частично берут на себя функционал по предоставлению доступа к данным (research-practice partnership).

3. Помимо организационной формы, важным отличием моделей также являются механики, с помощью которых реализуется доступ к данным для исследователей. Эти механики отличаются уровнем защищенности и соответственно уровнем детализации доступных данных (чем выше уровень защиты, тем выше уровень детализации). В мировой практике выделяют три основных механики доступа:

• Физический доступ из защищенных локаций - пользователь с одобренным допуском должен прийти в специально оборудованное помещение, где он сможет поработать с данными напрямую, но не

1 Доказательная политика // ЦПУР. URL: https://ebpm.cpur.ru/

<s

сможет их скачать, унести и использовать на других устройствах. Наиболее безопасный способ предоставления доступа к данным.

• Удаленный защищенный доступ — пользователь с одобренным допуском подключается к месту хранения данных, и, либо напрямую работая с данными, либо отправляя команды для их обработки («удаленное выполнение»), получает итоговый результат. Достаточно безопасный способ предоставления доступа к данным.

• Прямая передача данных — данные передаются пользователю для самостоятельного хранения и обработки без права передачи файлов другому пользователю или их публикации в открытом доступе. После использования данных организация может предъявить требование по удалению использованных данных. Наименее безопасный способ предоставления доступа к данным, в связи с чем через такую механику предоставляются наименее детальные данные.

4. Для России минимальным (или стартовым) сценарием организации доступа к микроданным для исследователей может выступить модель, построенная на создании специального центра исследования данных

(research data-center), который будет находиться в прямом подчинении отдельных органов власти или носить межведомственный характер. При этом наибольшей эффективностью, вероятно, будет обладать модель соучреждения такого центра в партнерстве с независимыми исследовательскими организациями или университетами. В таком случае отделение функционала центра от других задач ведомств и возможность прямой кооперации с исследовательским сообществом через инструменты концессионных соглашений или государственно-частного партнерства позволят относительно быстро внедрить практику обмена данными между исследователями и госслужащими в интересах обеих сторон, а также дифференцировать источники финансирования центра. К большинству данных, раскрываемых в рамках этой модели, целесообразно предоставить доступ через удаленный защищенный контур (в том числе «удаленное выполнение») и организовать недискриминационный доступ к данным для всех исследователей, обеспечив равные права для исследователей, аффилированных и не аффилированных с российскими исследовательскими организациями и университетами.

5. Оптимальным сценарием для России (или сценарием, к которому целесообразно перейти после формирования устойчивых практик предоставления доступа к данным), представляется использование партнерской сети организаций, которые реализуют полный спектр работы с государственными микроданными — от их обработки до организации доступа. Основой для подобной партнерской сети в России могут выступить национальные исследовательские университеты, в которых можно как развернуть сеть защищенных локаций для работы с наиболее сенситивными микроданными, так и реализовать удаленный защищенный доступ для получения данных федеральных, а также региональных органов власти, в которых расположен университет.

6. Независимо от выбранной модели предоставления доступа к микроданным, параллельно необходимо расширять состав сведений,

публикуемых в свободном доступе (в том числе в формате открытых данных). В случаях когда риски нарушения конфиденциальности при публикации детальных данных из какой-либо области низкие, целесообразно отдавать приоритет именно формату открытых данных. Мировой опыт показывает, что формализация правил доступа и расширение состава пользователей, имеющих регламентированный доступ к микроданным государства также приводит и к повышению разнообразия и качества наборов открытых данных, доступных для всех пользователей без ограничений.

ГЛОССАРИЙ ТЕРМИНОВ

• Анонимизация микроданных — снижение уровня детализации исходных микроданных таким образом, чтобы по полученным в итоге обработки данным нельзя было прямо или косвенно определить

их принадлежность к определенному лицу или объекту2. Часто по отношению к процессу обработки исходных данных в целях обеспечения их конфиденциальности также используется термин «обезличивание». Однако его принципиальным отличием от процесса анонимизации является сохранение возможности восстановить принадлежность к определенному лицу или объекту, например с использованием данных из открытых источников.

• Защищенные локации (secure rooms / secure data enclaves) —

помещения, защищенные от несанкционированного доступа, в которых размещаются компьютеры (как для хранения, так и для доступа). Могут снабжаться видеокамерами, возможно отключение компьютеров от доступа в Интернет. Пользователь при входе обязан оставить все записывающие устройства и гаджеты.

• Контроль раскрытия статистической информации (statistical disclosure control) — ряд процедур по обработке исходных данных, выполняемых человеком или алгоритмом в целях предотвращения раскрытия конфиденциальной информации.

• Тонкий клиент (thin client) — особый компьютер, с которого пользователь осуществляет доступ к данным и на котором запущено клиентское программное обеспечение удаленного рабочего стола. Все команды выполняются на терминальном сервере, и пользователь может наблюдать результаты их исполнения. Иными словами, тонкий клиент — это устройство ввода и отображения информации, но не ее анализа.

• Безопасный сетевой протокол (Secure Network Protocol / SFTP) —

протокол для безопасной передачи большеразмерных файлов с одного компьютера на другой через Интернет.

2 Больше о способах анонимизации микроданных см.: Livraga G. Privacy in microdata release: Challenges, techniques, and approaches. In: Crato N., Paruolo P. (eds) Data-Driven Policy Impact Evaluation. Springer, Cham, 2019, pp. 67-83. URL: https://doi.org/10.1007/978-3-319-78461-8_5

ВВЕДЕНИЕ

Типы государственных данных и дилемма их раскрытия

В последние десятилетия в развитых странах при разработке мер государственной политики все больше используются методы количественной и качественной оценки влияния государственного воздействия (программы, проекта, отдельных мероприятий) на достижение желаемых социально-экономических эффектов. Один из примеров — распространение подхода «what works» в США и Великобритании3, подразумевающего, что любое решение государства должно быть подкреплено достаточным доказательством его применимости и эффективности (сработает в данных условиях). Этот принцип лежит в основе парадигмы доказательной политики (evidence-based policy making)4 и подкрепляется «революцией достоверности» (credibility revolution) в эмпирической эконометрике, призывающей к верифицируемости и воспроизводимости результатов научных исследований5. Однако эффективное использование методов доказательной политики и современных методов оценки результативности государственного воздействия требуют надежных и детальных данных, которые зачастую имеются только у одного актора — государства.

Государственные данные можно подразделить на четыре крупные группы, в зависимости от источника данных и уровня их агрегации (таблица 1).

Таблица 1. Типы государственных данных

Уровень агрегации данных

Единица наблюдения > Объект сбора данных Единица наблюдения

Объект сбора данных

X X X (B И * Статистическое наблюдение 1. Показатели официальной и ведомственной статистики. Пример: численность населения (с детализацией до территориальных единиц, пола, возрастных групп) 2. Микроданные официальной статистики и выборочных наблюдений (первичная статистика). Пример: данные переписи населения с детализацией до индивида, указанием его пола, года рождения, уровня образования и других характеристик

X T 0 1-u s Исполнение административных полномочий ведомством 3. Показатели на основе административных данных. Пример: количество зарегистрированных за определенный период безработных в разрезе регионов и возрастных групп 4. Административные микроданные. Пример: индивидуальные характеристики получателей услуг, обратившихся в органы занятости населения, а также статус и принятые решения по каждому обращению

Источник: разработка ЦПУР.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 What Works Clearinghouse, US. URL: https://ies.ed.gov/ncee/wwc/:

What Works Network, UK. URL: https://www.gov.uk/guidance/what-works-network

4 Доказательная политика // ЦПУР. URL: https://ebpm.cpur.ru/

5 Angrist J.D., Pischke J.S. The credibility revolution in empirical economics: How better research design is taking the con out of econometrics. Journal of Economic Perspectives, 2010, vol. 24, no. 2, pp. 3-30.

<s

1. Показатели официальной и ведомственной статистики. Источником таких данных выступают формы статистического наблюдения (статистическая отчетность) на федеральном, региональном, муниципальном или ведомственном уровне, а также специально организуемые выборочные или сплошные статистические наблюдения (обследования, переписи). Данные из этих источников агрегируются в утвержденный список показателей официальной статистики, и в результате этой агрегации осуществляется переход от более низкоуровневых (мелких) объектов сбора данных к более крупным итоговым единицам наблюдения. Например, переход происходит от уровня индивидов, домохозяйств или организаций на уровень совокупности индивидов или домохозяйств в пределах одной территориальной единицы (муниципалитета, региона и т.д.) или на уровень всех организаций этого типа (образовательных организаций школьного образования, профессионального образования и т.д.). Как правило, большинство показателей официальной статистики открыто публикуется национальным статистическим бюро (в России это Росстат), правительством и самими ведомствами и не относится к сенситивным (чувствительным) данным.

2. Микроданные официальной статистики или выборочных наблюдений.

Источником таких данных тоже выступают утвержденные формы статистического наблюдения или выборочные, или сплошные статистические наблюдения. Однако эти данные не агрегируются в более крупные единицы наблюдения, а остаются дезагрегированными и равными по «величине» объекту, измерение характеристик которого и происходило в процессе сбора данных (индивиду, домохозяйству, организации). По сути, это первичная статистика6, из которой путем агрегирования и применения соответствующих методик расчета конструируются показатели официальной статистики (п. 1). Тем не менее эти данные представляют интерес не только как промежуточный этап получения агрегированных статпоказателей, но и отдельно от них. Часто эти данные не размещаются в публичном доступе или размещаются частично, поскольку содержат сенситивную (в том числе персональную) информацию. Для их раскрытия применяются методы статистического контроля раскрытия информации7 (Statistical Disclosure Limitation), построенные на механизмах деперсонализации, зашумления и синтезирования данных, а также организационно-инфраструктурные методы, связанные с созданием специальных условий предоставления доступа к такого рода данным, прошедшим базовую процедуру обезличивания или анонимизации.

3. Показатели на основе административных данных. В отличие от п. 1 и п. 2. источником для таких данных выступают не специально созданные и утвержденные статистические формы, а процесс исполнения ведомствами своих обычных функций. В ходе оказания государственных услуг (населению или организациям) или в ходе

6 Эти сведения в России относятся к информации ограниченного доступа

7 Matthews G.J., Harel O. Data confidentiality: A review of methods for statistical disclosure limitation and methods for assessing privacy. Statistics Surveys, 2011, vol. 5, pp. 1-29. URL: https://doi.org/10.1214/11-SS074

реализации других государственных полномочий (контрольно-надзорных, правоохранительных, по сбору налогов, обеспечению выплат и т.д.) ведомства генерируют и собирают с объектов различные сведения, которые в числе прочего заносят в государственных информационные системы (ресурсы), созданные для поддержки в исполнении этих функций. Сведения, полученные ведомствами таким способом, относят к административным данным. В большинстве случаев эти данные ведомства агрегируют до более высокоуровневых единиц (показателей) для формирования общей картины по оказанию той или иной услуги или исполнению функции. Таким образом, в результате агрегации эти данные становятся менее сенситивными, и их возможно публиковать в открытом доступе. Однако, как правило, ведомства публикуют далеко не все имеющиеся у них данные названного типа, поскольку четкие и однозначные требования к раскрытию указанных данных содержатся в законодательстве ограниченного числа развитых государств. Публикуемые таким образом данные подпадают под понятие «открытые данные»8 и размещаются на специализированных порталах или отдельных страницах ведомств.

4. Административные микроданные. Источником этих данных тоже являются сведения, генерируемые и собираемые ведомствами в ходе исполнения своих функций. Но при этом, так же как и в п. 2, рассматриваемые данные представляют собой не агрегаты, а первоначально собранные сведения, где единица наблюдения совпадает с объектом, которому посвящены эти данные. Они зачастую носят крайне сенситивный характер, и для их раскрытия (а не в рамках прямого исполнения функций ведомством) применяются методы обработки путем удаления прямых идентификаторов, зашумления и синтезирования данных вместе с организационно-инфраструктурными методами предоставления ограниченного доступа. Несмотря на высокую ценность для анализа, эти данные редко доступны внешним пользователям.

Требования к данным в логике подходов доказательной политики и в целом общий тренд на открытость и подотчетность работы органов государственной власти формируют запрос на большее раскрытие данных второго и четвертого типа, т.е. микроданных. Именно эти данные в большинстве случаев остаются в распоряжении только государства, несмотря на то что потенциал их использования в научных исследованиях и в аналитике крайне высок. Огромным потенциалом также обладает связывание административных данных из нескольких источников, позволяющее рассматривать более широкий круг исследовательских вопросов.

Государства вырабатывают различные модели организации доступа к микроданным9. Выбор модели во многом зависит от того, каким образом государство для себя решает дилемму о соблюдении баланса между уровнем детализации раскрываемых микроданных (а значит, их полезностью и применимостью) и сохранением конфиденциальности

8 Open Data Handbook // The Open Knowledge Foundation. URL: http://opendatahandbook.org/

9 Managing Statistical Confidentiality & Microdata Access. Principles and Guidelines of Good Practice. United Nations Economic Commission for Europe, Conference of European Statisticians, 2007, 115 p.

URL: https://unece. org/fileadmin/DAM/stats/publications/Managing. statistical. confidentiality. and. microdata. access. pdf

<s

объектов наблюдения (дилемма «usability vs privacy»). Уровень детализации, с которым микроданные могут быть опубликованы в формате открытых, зависит от того, что является объектом наблюдения и какие сведения об этом объекте раскрываются. Например, оснований использовать методы обезличивания и организационно-инфраструктурные методы для сохранения конфиденциальности при публикации детальных данных об учреждениях здравоохранения или образования (из первичных статформ) не очень много. В то же время при публикации подробных сведений о получателях мер социальной поддержки проведение оценки рисков раскрытия конфиденциальной информации обязательно.

Между форматом открытых данных и полностью непубличными данными есть достаточно значимое количество промежуточных форм предоставления доступа в зависимости от примененной к ним комбинации методов обезличивания и анонимизации, а также от организационно-инфраструктурных инструментов раскрытия данных (рисунок 1).

Рисунок 1. Дилемма «полезность vs безопасность» для государственных данных и подходы к ее решению

Источник: разработка ЦПУР.

Государства, выбирая способ решения дилеммы «usability vs privacy», с одной стороны, обязаны обеспечить конфиденциальность при публикации детальных сведений из государственных реестров, информационных систем и других ресурсов. Это связано с тем, что собираемые ведомствами данные могут содержать информацию на уровне отдельных граждан, домохозяйств или фирм, а неавторизованный доступ к подобной информации или ее непреднамеренное раскрытие могут создавать риски для субъектов, о которых собираются данные. На предотвращение таких рисков направлено законодательство, регламентирующее сбор и обработку персональных данных. С другой стороны, объем накопленных микроданных у государств уже настолько высок, что обрабатывать их самостоятельно и оставлять полностью внутри системы государственного управления, скорее, нецелесообразно10. При этом интерес к подобным данным со стороны представителей академического сообщества, исследователей и других потенциальных групп пользователей высок, что создает основания для разработки специальных моделей доступа.

10 Langedijk S., Vollbracht I., Paruolo P. The Potential of Administrative Microdata for Better Policy-Making in Europe. In: Crato N., Paruolo P. (eds) Data-Driven Policy Impact Evaluation. Springer, Cham, 2019, pp. 333-346. URL: https://doi.org/10.1007/978-3-319-78461-8_20

Анализу этих моделей, а также тому, как с их помощью государства решают дилемму «usability vs privacy» и каким образом можно ее решить для России, и посвящен этот обзор.

Российский подход к раскрытию государственных данных

В России инициативы по раскрытию данных, имеющихся в распоряжении органов власти, начали активно развиваться с 2000-х гг.11. Новый импульс этой проблематике придал один из так называемых майских указов Президента РФ — Указ № 60112. Согласно документу к середине 2013 г. государственные органы должны были обеспечить доступ к открытым данным, содержащимся в их информационных системах. В конце 2013 г. был запущен портал открытых данных13, а на сайтах государственных органов были созданы специальные разделы, посвященные открытым данным.

Согласно принятым нормативным документам в тот период, к данным, подлежащим публикации, кроме сведений о структуре и текущей деятельности государственных органов, была отнесена «статистическая информация, сформированная федеральным органом исполнительной власти в соответствии с федеральным планом статистических работ, а также статистическая информация по результатам проведенных плановых и внеплановых проверок»14. Однако конкретные требования к уровню детализации именно этой информации сформулированы не были. Это привело к тому, что само выделение в рамках российского нормативного регулирования особого типа (перечня) общедоступной информации, публикация которой стала обязательной в формате открытых данных, могло снизить стимулы ведомств к раскрытию другой общедоступной информации, оказавшейся вне этого перечня или недостаточно конкретизированной в его рамках. Появилась дифференциация общедоступных данных на те, публикация которых обязательна и ведется ведомствами, и другие общедоступные данные, которые не подпадают под требования (или эти требования неконкретны), а потому воспринимаются ведомствами как необязательные к раскрытию, особенно с учетом наличия механизма доступа к таким данным по запросу (ст. 7 Федерального закона от 09.02.2009 № 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления»).

11 Parkhimovich O., Gritsenko D. Open Government Data in Russia. In: Gritsenko D., Wijermars M., Kopotev M. (eds) The Palgrave Handbook of Digital Russia Studies. Palgrave Macmillan, Cham, 2021, pp. 389-407.

URL: https://doi.org/10.1007/978-3-030-42855-6_22

12 Указ Президента РФ от 07.05.2012 № 601 «Об основных направлениях совершенствования системы государственного управления».

13 Портал открытых данных Российской Федерации. URL: https://data.gov.ru/

14 Распоряжение Правительства Российской Федерации от 10.07.2013 № 1187-р «Об утверждении перечня общедоступной информации о деятельности федеральных государственных органов, органов государственной власти субъектов РФ и органов местного самоуправления, размещаемой в информационно-телекоммуникационной сети «Интернет» в форме открытых данных».

<s

Тем не менее Концепция открытости федеральных органов исполнительной власти15, принятая в 2014 г., подразумевала организацию свободного доступа ко всем публикуемым ведомствами наборам данных для неограниченного круга лиц. Несмотря на то что такой подход, безусловно, соответствует принципам открытости в документах, разработанных в целях реализации Концепции, прозрачные механизмы доступа к более детальным данным, полученным на основе как сведений из статистических форм, так и административных данных, созданы не были.

Однако ценность административных микроданных в России признана государством и зафиксирована на уровне законодательства. В частности, в Федеральном законе «Об официальном статистическом учете и системе государственной статистики в Российской Федерации»16 содержится понятие «административные данные», и его определение прямо подразумевает использование такого типа данных при формировании официальной статистической информации. Кроме того, на уровне региональных органов власти есть прецеденты использования административных микроданных в целях повышения качества принимаемых решений. Например, Департамент экономической политики и развития города Москвы с 2015 г. использует административные данные ПФР для оценки показателей занятости и заработной платы17. В то же время, хотя большинство пожеланий исследовательского сообщества касательно публикации более детализированных данных, в том числе из собираемых ведомствами статистических форм, обсуждаются с участием представителей органов власти18, вопрос не сдвигается с места.

Между тем в настоящее время в России в некоторых областях публикуется достаточно детализированная информация на основе государственных данных. Например, Россия занимает высокие позиции в мировых рейтингах по уровню открытости сведений о государственных финансах и закупках19. Это в числе прочего связано с тем, что кластер бюджетно-финансовых данных доступен в относительно высокой детализации. Однако в областях, для которых микроданные являются более сенситивными (здравоохранение, социальная политика, экология, правоохранительная деятельность), зачастую публикуются только высоко агрегированные показатели, хотя запрос на эти данные со стороны различных групп стейкхолдеров высок.

Для отдельных групп пользователей возможность получить более детальные данные все же остается. Это происходит с помощью направляемого официально запроса в ведомства с обоснованием целей использования данных, а также через осуществление экспертной поддержки внешними

15 Распоряжение Правительства РФ от 30.01.2014 № 93-р «Об утверждении Концепции открытости федеральных органов исполнительной власти».

16 Статья 2 Федерального закона от 29.11.2007 № 282-ФЗ «Об официальном статистическом учете и системе государственной статистики в Российской Федерации».

17 Крючкова П.В., Провков К.С., Решетников М.Г. Возможности использования административных данных для формирования статистики рынка труда: пример г Москвы // Вопросы государственного и муниципального управления. 2018. № 2. С. 7—29.

18 См., напр.: Эксперты Вышки предлагают публиковать первичную статотчетность о медучреждениях в формате «открытых данных». URL: https://www.hse.ru/expertise/news/192955141.html

19 Например, рейтинг Open Data Watch за 2020 год: Open Data Inventory 2020/21. Executive summary. URL: https://odin.opendatawatch.com/Downioads/otherFiies/ODIN-2020-Ex.ecutiveSummary.pdf

консультантами профильных департаментов органов власти в рамках научно-исследовательских работ (НИР), государственных заданий и т.д. Однако эти способы получения данных носят эпизодический характер и недоступны для большей части заинтересованных в них пользователей. Какой-либо институционализированной и универсальной практики организации доступа исследователей к детальным данным государства в России пока что не сложилось.

Доступ к данным для исследователей

Как было сказано выше, одна из ключевых групп пользователей государственных микроданных включает в себя исследователей, представителей академического сообщества и аналитиков. Именно от уровня взаимодействия ведомств с этой группой зависит успешность применения инструментов доказательной политики и в конечном счете эффективность принимаемых ведомствами решений.

В мире для решения дилеммы «usability vs privacy», т.е. дилеммы между уровнем детализации раскрываемых данных и сохранением конфиденциальности персональных сведений, в части предоставления доступа к данным для исследователей применяется подход Five Safes20. Он включает в себя 5 аспектов защиты распространяемых государством чувствительных данных (рисунок 2):

1) Safe Data — методы обезличивания и анонимизации данных;

2) Safe People — правила определения пользователей, которым предоставляется доступ к данным;

3) Safe Projects — правила определения проектов, под реализацию которых предоставляются данные;

4) Safe Settings — правила подбора «настроек» (конкретных инструментов, механики) предоставления доступа;

5) Safe Outputs — методы и правила контроля за полученными результатами после работы с данными.21

20 Regulating access to data. URL: https://www.ukdataservice.ac.uk/manage-data/legal-ethical/access-control/flve-safes; Desai T., Ritchie F., Welpton R. Five Safes: designing data access for research. Economics Working Paper Series, 2016. URL: http://csrm.cass.anu.edu.au/sites/default/flles/rsss/Ritchie_5safes.pdf

21 Подробнее см.: Desai T., Ritchie F., Welpton R. Op. cit.

Рисунок 2. Пять аспектов защиты данных

Источник: Служба данных Великобритании (UK Data Service).

URL: https://www.ukdataservice.ac.uk/manage-data/legal-ethical/access-control/five-safes

Представленный аналитический обзор в большей степени сфокусирован на анализе трех аспектов защиты данных — правилах определения пользователей, проектов и «настроек» доступа, таким образом, он охватывает организационные и инфраструктурные способы решения дилеммы «usability vs privacy».

В целях выявления наиболее распространенных в мире моделей организации доступа к данным для исследователей в рамках обзора были проанализированы:

• регламенты доступа, документация, сайты международных организаций, непосредственно занимающихся предоставлением доступа к данным;

• научные и экспертные публикации, связанные с проблематикой организации доступа к данным.

В анализ были включены организационные аспекты и модели доступа к микроданным, применяющиеся в 12 странах: США, Канаде, Великобритании, Германии, Франции, Италии, Нидерландах, Швеции, Финляндии, Австралии, Новой Зеландии, ЮАР.

По результатам обзора были сформулированы рекомендации по выбору оптимальной для России модели институционализации доступа исследователей к микроданным, собираемым государством.

МОДЕЛИ ДОСТУПА ИССЛЕДОВАТЕЛЕЙ К ДЕТАЛЬНЫМ ГОСУДАРСТВЕННЫМ ДАННЫМ: ЗАРУБЕЖНЫЙ ОПЫТ

Обзор зарубежного опыта моделей предоставления микроданных для исследователей, экспертов и представителей академического сообщества происходил на основании логики пяти аспектов защиты данных от Службы данных Великобритании, описанной выше. Кроме анализа аспектов Safe People и Safe Projects (кому и под какие проекты предоставлять доступ), а также Safe Settings (с помощью каких инструментов и технологий), для большего понимания институционализированного формата взаимодействия государства, поставщиков данных и их потребителей также была собрана информация о том, кто предоставляет доступ к данным (провайдер) и каким образом эта деятельность финансируется.

В итоге каждая модель была описана по следующим характеристикам.

1. Организация (кто?) — форма, в которой зарегистрирована и действует институция, выступающая провайдером (поставщиком) данных, а также отношения этого провайдера с органами власти и с организациями, занимающимися обработкой данных.

2. Право доступа (кому?) — процедура получения исследователями доступа к данным и выдвигаемые к ним требования (необходима ли аффилиация с исследовательским учреждением, взимается ли плата за использование данных и т.д.).

3. Механика доступа (как?) — физическая и IT-инфраструктура, задействованная для обеспечения доступа исследователей к микроданным (защищенные локации или удаленный доступ, наличие специально разработанного ПО).

4. Финансирование (за чей счет?) — источники средств для поддержания и развития провайдеров данных и их проектов (бюджетные средства или смешанные, включающие грантовое и фондовое финансирование).

При этом определяющая роль в итоговой типологии выявленных моделей доступа принадлежит именно п. 1. — организациям — провайдерам данных.

Отталкиваясь именно от этой характеристики, мы сгруппировали модели в этом параграфе ниже.

<s

Модель 1. Дополнение функционала государственного статистического агентства без создания организаций-посредников (unmediated access approach)

Первая модель описывает самый базовый подход, когда для предоставления доступа к микроданным расширяется функционал ведомства, ответственного за сбор и обработку государственных данных. Чаще всего такой функционал появляется у национальных статистических агентств или у профильных статистических департаментов отдельных ведомств. При использовании такой модели отсутствуют какие-либо посредники между провайдером микроданных и пользователем в лице исследователя или исследовательской организации. В зарубежной практике устоялись две разновидности такого рода моделей доступа: разовая передача данных в защищенные локации пользователя (модель 1.1) и передача данных по защищенным каналам в режиме доступа в реальном времени (модель 1.2).

Модель 1.1. Доступ без посредников: передача данных по ограниченной лицензии в защищенные локации (unmediated access: restricted-use data license)

Примеры:

• National Center for Education Statistics — NCES22, США;

• Statistics Sweden23, Швеция;

• Statistics Netherlands — CBS24, Нидерланды.

Организация.

Статистический департамент профильного ведомства (в случае NCES) или национальное статистическое агентство (в случаях Statistics Sweden или CBS) позволяет исследователям подавать заявки на лицензию на ограниченное использование датасетов из обезличенных микроданных. Датасеты передаются непосредственно исследователю по предварительно одобренной заявке, содержащей проект исследования. Использовать данные можно только в специальной локации (см. «Механика доступа») и только для целей указанного в заявке исследования (см. «Право доступа»).

22 National Center for Education Statistics. URL: https://nces.ed.gov/

23 Statistics Sweden. URL: https://www.scb.se/en_/Documentation/Dokumentation/Microdata-och-classifications/

24 Statistics Netherlands. URL: https://www.cbs.nl/en-gb/onze-diensten/customised-services-microdata/microdata-conducting-your-own-research/microdata-catalogue

Право доступа.

Исследователь формирует проектную заявку25, обосновывая необходимость доступа к данным для ответа на поставленный исследовательский вопрос или решения прикладной (policy) проблемы, и отправляет ее в ведомство. Для Statistics Sweden и CBS заявку может отправить как аффилированный с организацией (университетом) исследователь, так и неаффилированный; для NCES — только аффилированный26. На следующем этапе заявку оценивают эксперты ведомства и выносят решение о предоставлении или непредоставлении лицензии на доступ к данным. В случае одобрения ведомственных экспертов подписываются документы о неразглашении, лицензионное соглашение и план безопасности — декларации о возможности удовлетворения требованиям к защищенности локации доступа. Только после этого исследователь получает данные, проводит с ними необходимые операции и формирует результаты. Результаты выгружаются для проверки отсутствия в них чувствительных (в аспектах конфиденциальности) сведений. После одобрения выгрузки результатов экспертами ведомства исследовательская работа может быть опубликована или отправлена изначальному заказчику. В отдельных случаях (в частности для CBS) за использование данных вносится плата. Более подробная последовательность шагов для получения доступа к данным в этой модели отражена на рисунке 3.

Рисунок 3. Процесс раскрытия микроданных Национальным статистическим бюро Нидерландов (CBS, Statistics Netherlands)

Источник: ЦПУР на основе Microdata: Conducting your own research. URL: https://www.cbs.nl/ en-gb/onze-diensten/customised-services-microdata/microdata-conducting-your-own-research

25 Restricted-Use Data Procedures Manual. NCES. URL: https://nces.ed.gov/sta.tprog/ru.dman/', How to order microdata from Statistics Sweden. URL: https://www.scb.se/en/services/guidance-for-researchers-and-universities/', Applying

for access to microdata. URL: https://www.cbs.nl/en-gb/onze-diensten/customised-services-microdata/microdata-conducting-your-own-research/applying-for-access-to-microdata

26 Restricted-Use Data License. URL: https://nces.ed.gov/statprog/instruct_apply.asp

<s

Механика доступа.

Согласно условиям лицензии исследователи выступают в качестве хранителей данных и получают данные от ведомства напрямую: в случае NCES — на зашифрованном компакт-диске, в случае Statistics Sweden и CBS — через специальные облачные платформы27. Для получения и хранения данных ведомства выставляют требования к конфигурации безопасности для компьютера и локации доступа. Например, в случае NCES — закрытая комната с доступом только для авторизованных пользователей и ряд требований к защищенному доступу к ПК28. Обычно такие локации предоставляются университетом или организацией, которую представляет исследователь. Еще до предоставления данных сотрудники NCES проверяют соответствие локации требуемым мерам безопасности во время необъявленных инспекций. Кроме того, для защиты от нецелевого использования данных полученные исследователем результаты анализа передаются ему для выгрузки только после проведения контроля раскрытия статистической информации.

Финансирование.

Поскольку в приведенной модели отсутствует какой-либо посредник между провайдером данных и пользователем, то все финансирование на поддержание этой функции осуществляется из бюджета провайдера — государственного органа. Для обеспечения этого функционала иногда вводится дополнительная плата, которую взимают с пользователей (организаций или индивидуальных исследователей).

Модель 1.2. Доступ без посредников: передача менее детализированных данных в режиме реального времени (unmediated access: real time access mode)

Примеры:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Statistics Canada RTRA29, Канада;

• Australian Bureau of Statistics30, Австралия.

Организация.

Схема организации аналогична модели 1.1, ключевая разница состоит в том, что национальное статистическое бюро или статистический департамент

27 About MONA (Microdata Online Access). URL: https://www.scb.se/en/services/guidance-for-researchers-and-universities/mona-statistics-swedens-platform-for-access-to-microdata/about-mona/

28 Cm.: Security Plan Form. URL: https://nces.ed.gov/statprog/rudman/pdfZi.pdf

29 The Real Time Remote Access (RTRA) system. URL: https://www.statcan.gc.ca/eng/rtra/rtra

30 Microdata Entry Page. URL: https://www. abs. gov. au/websitedbs/D3310114. nsf/home/Microdata%2BEntry%2BPage

профильного ведомства предоставляет доступ к данным в режиме реального времени, а не отдает датасеты исследователям в защищенную локацию. Такой способ считается менее безопасным31, чем модель 1.1, где доступ в онлайн-режиме отсутствует. Это обусловливает снижение детализации микроданных, доступных через модель 1.2, а также ограничения свободы исследователя в выборе программного обеспечения для обработки данных и подключения (например, RTRA позволяет использовать только ограниченный набор команд SAS). Кроме того, при такой модели исследователь может не видеть данные напрямую, а отправляет определенные команды, которые должны произвести с данными какие-либо процедуры (так называемое удаленное выполнение).

Право доступа.

В отличие от модели 1.1, в этой модели возможность подать заявку на получение данных имеется только у аффилированных исследователей. Например, в случае RTRA требуется аффилиация с государственным органом, НКО, научным центром32. В остальном сам процесс рассмотрения заявки и контроля за выгружаемыми результатами аналогичен предыдущей модели.

Механика доступа.

Данные предоставляются получившим одобрение исследователям через удаленное онлайн-подключение, как было описано выше.

Финансирование.

Аналогично модели 1.1.

Модель 2. Создание или соучреждение государством отдельной исследовательской организации (research data center approach)

Эта модель подразумевает, что органы власти полностью самостоятельно или вместе с какой-нибудь исследовательской организацией либо университетом учреждают отдельную подведомственную организацию, отвечающую за полный функционал работы с данными. То есть в отличие от первой модели обработка и раскрытие данных не вменяется какому-то департаменту госоргана, а передается специально созданной организации, работающей в формате центра исследования данных (Research Data Center, RDC), но напрямую созданной или в существенной степени аффилированной с конкретным ведомством или в целом с органами государственной власти.

31 Утверждается, что эта модель более релевантна для провайдеров информации с ограниченным опытом в области безопасности и конфиденциальности данных. См.: Shen J., Vilhuber L. Physically Protecting Sensitive Data. In: Cole S., Dhaliwal I., Sautmann A., Vilhuber L. (eds) Handbook on Using Administrative Data for Research and Evidence-based Policy. 2020. URL: https://admindatahandbook.mit.edu/book/v1.0-rc6/security.html

32 Application process. RTRA. URL: https/www. statcan. gc. ca/eng/rtra/proc

Такой тип организации доступа за счет передачи функций по обработке данных вовне ведомства, во-первых, позволяет создавать организации и раскрывать данные не только национальным статистическим бюро и статдепартаментам (у которых достаточно для этого внутренних компетенций), но и большему кругу ведомств. Во-вторых, при использовании межведомственного формата учреждаемой организации это дает возможность накапливать и предоставлять доступ к данным из большего количества отраслей. В-третьих, в случае учреждения центра в партнерстве с каким-либо университетом или другой профильной организацией это позволяет вовлечь в работу по обработке данных большее количество специалистов и обеспечить использование полученных результатов работы с данными сразу же для конструирования более эффективной политики. В-четвертых, такой формат существенно снижает организационные издержки в процессе связывания данных различных ведомств.

В зарубежной практике сформировалось две разновидности функционирования этой модели: (1) учреждение в рамках ведомства или нескольких ведомств центра исследования данных (RDC) — в таком формате существует большая часть известных на сегодня примеров организации доступа исследователей к данным; и (2) соучреждение исследовательской организации совместно государственными ведомствами (или одним ведомством) и университетом, фондом либо НКО.

Модель 2.1. Центр исследования данных: создание отдельной организации в подчинении у профильного государственного ведомства или нескольких ведомств

Примеры:

• Administrative Data Research UK, ADR UK33, Великобритания:

• Her Majesty's Revenue and Customs Datalab, HMRC Datalab, Великобритания;34

• Secure Research Service (SRS) Office of national statistics35, Великобритания.

• The Research Data Centre (FDZ) of the Federal Employment Agency at the Institute for Employment Research, RDC-IAB36, Германия;

33 Administrative Data Research UK. URL: https:fwww.adruk.org/

34 Her Majesty's Revenue and Customs Datalab. URL: https://www.gov.uk/guidance/hmrc-datalab-datasets-available

35 Accessing secure research data as an accredited researcher. URL: https://www. ons. gov. uk/aboutus/whatwedo/ statistics/requestingstatistics/approvedresearcherscheme

36 The Research Data Centre (FDZ) of the Federal Employment Agency at the Institute for Employment Research. URL: https://fdz.iab.de/en.aspx

• Federal Statistical Office RDC37, Германия

• Stats New Zealand Data Lab38, Новая Зеландия;

• The Laboratory for Elementary Data Analysis39 — ADELE, Италия;

• Secure Data Access Centre40 — CASD, Франция;

• City of Cape Town Data Science unit41, ЮАР;

Организация.

Исследовательский центр, который занимается какой-либо сферой микроданных (например, данными по рынку труда или финансам государственного бюджета) создается в виде отдельного структурного подразделения при профильном для этого типа данных органе власти (например, при государственном агентстве по труду и занятости, как RDC-IAB в Германии или при министерстве финансов или казначействе, как, HMRC Datalab в Британии). Иногда подобный центр создается при органе власти не федерального, а регионального или городского уровня и тогда занимается данными для городских исследований, как например City of Cape Town Data Science unit в ЮАР. Еще один вариант реализации этой модели создание на базе нескольких ведомств или межведомственого органа власти исследовательского центра, призванного агрегировать и раскрывать данные сразу из нескольких сфер (связывая данные из разных источников), в том числе ориентируясь на запросы исследователей и потребности системы государственного управления в исследованиях на данных (ADR UK, Великобритания).

В функции подобных центров входит полный цикл работы с данными, т.е. сбор или получение данных от провайдера данных (гос.органа), обработка (в том числе обезличивание), связывание и организация доступа к данным для отобранных категорий лиц. Как правило, у центров появляются и дополнительные функции, связанные с грантовой поддержкой и отбором наиболее приоритетных исследований, медиаторские функции между исследователями и стейкхолдерами из органов власти и т.д.

Право доступа.

Доступ к данным предоставляется исследовательским институциям — университетам или независимым научным центрам. Доступ для коммерческих организаций также возможен, однако им для получения данных требуется доказать научную состоятельность и обеспечить публичность результатов.

37 About the Research Data Centres of official statistics. URL: https://www.forschungsda.tenzentrum.de/en/abou.t-rdc

38 Integrated Data Infrastructure. URL: https://www.stats.govt.nz/integrated-data/integrated-data-infrastructure/

39 The Laboratory for Elementary Data Analysis (ADELE). URL: https://www.istat.it/en/information-and-services/ researchers/laboratory-for-elementary-data-analysis

40 Secure Access Data Centre. URL: https://www.casd.eu/en/

41 City of Cape Town Data Science unit. URL: https://www.capetown.gov.za/Family%2Qand%2Qhome/education-and-research-materials/data-statistics-and-research

<s

Сотрудничество с индивидуальными исследователями в большинстве случаев не предусмотрено или крайней затруднено.

Как правило, для получения доступа необходимо подать заявку и описать содержание исследовательского проекта. После оценки проекта экспертами из организации по формализованным критериям - (например, в случае RDC-IAB используются такие критерии, как тема исследования, релевантность запрашиваемых данных теме исследования и др.42) заявка одобряется и доступ предоставляется по одной из трех механик (описаны ниже).

Кроме того, в случае HMRC Datalab для получения доступа к защищенным локациям, помимо стандартной процедуры подачи исследовательского проекта, исследователям необходимо прослушать курсы подготовки и сдать тест с использованием тестовых (синтетических) данных для апробации программного обеспечения43. В случае NZ Data Lab за использование микроданных взимается плата.

Механика доступа.

В рамках рассматриваемой модели доступ к микроданным может быть предоставлен тремя способами (каждый центр выбирает наиболее подходящие для него варианты доступа из этого «меню» или в разных вариантах доступа предоставляет одни и те же данные с разным уровнем детализации).

1. Физический доступ из защищенных локаций — специально оборудованных помещений, размещенных в так называемых гостевых исследовательских центрах. Такие центры аккредитуются по специальной процедуре и затем играют роль защищенных локаций, организованных на базе университетов и в достаточно крупных независимых исследовательских центрах. Доступ к данным пользователь получает с помощью тонкого клиента и может пользоваться только утвержденным статистическим программным обеспечением, а для установки дополнительного ПО требуется одобрение работников центра (рисунок 4).

42 Data Access. The Research Data Centre (FDZ). URL: https://fdz.iab.de/en/FDZ_Data_Access.aspx

43 The HMRC Datalab. URL: https://www.gov.uk/government/organisations/hm-revenue-customs/about/ research#the-hmrc-datalab

Рисунок 4. Схема доступа к данным из «гостевых» исследовательских центров (на примере РЭС-ТАБ, Германия)

Гостевые RDC

Гостевой RDC в Германии

Тонкий клиент

Гостевой RDC в Анн Арбор, Мичиган, США

Тонкий клиент

2) Контроль физического доступа к инфраструктуре

Брандмауэр

Брандмауэр

Защищенное соединение

Защищенное соединение

Брандмауэр

RDC с даннными

Терминальный сервер с даннными

1) Общее разрешение и договор

3) Контроль выходных данных

Источник: Bender S., Heining J. The Research-Data-Centre in Research-Data-Centre approach: A first step towards decentralised international data sharing. IASSIST Quarterly, 2012, vol. 35, no. 3, pp. 10-16. URL: https://doi.org/10.29173/iq119

Такой формат предоставления данных используется в немецких вариантах реализации модели 2: RDC-IAB и Federal Statistical Office RDC. В случае других упомянутых центров44 защищенные локации организуются на базе самих ведомств, при которых создан исследовательский центр, либо может быть привлечена организация-посредник, которая устанавливает такие локации. Пример последнего — защищенные локации SafePod, организуемые и финансируемые Советом по экономическим и социальным исследованиям Великобритании, в том числе для предоставления доступа к данным ADR UK. Отмечается, что защищенные локации SafePod благодаря сборной конструкции комнат относительно дешевы в установке и эксплуатации по сравнению с оборудованием каждого отдельного RDC (рисунок 5)45.

44 The HMRC Datalab. URL: https://www.gov.uk/government/organisations/hm-revenue-customs/about/research#the-hmrc-datalab; Apply to use microdata for research. Integrated Data Infrastructure. URL: https://www.stats.govt nz/integrated-data/apply-to-use-microdata-for-research/; The Laboratory for Elementary Data Analysis (ADELE).

URL: https:/www4.istat.it/en/information/researchers/laboratory-for-elementary-data-a; CASD. URL: https://www.casd eu/en/le-centre-dacces-securise-aux-donnees-casd/le-casd/

45 Shen J., Vilhuber L. Physically Protecting Sensitive Data. In: Cole S., Dhaliwal I., Sautmann A., Vilhuber L. (eds) Handbook on Using Administrative Data for Research and Evidence-based Policy. 2020. URL: https://admindatahandbook mit.edu/book/v1.Q-rcd/security.html

Рисунок 5. Защищенная локация SafePod UK

КРАТКОЕ ОПИСАНИЕ

С Стол с регулируемой

высотой ( Доска для заметок

исследователя ^ Вентиляционные отверстия О Панель управления

освещением и аварийной сигнализацией О Звукоизоляционная панель

с войлочной отделкой О Светодиодное освещение О Виниловое напольное покрытие О Сейф

Источник: The SafePod Network.

URL: https://libanswers.st-andrews.ac.uk/loader?fid=9264&type=1&key=a28baa1d47e26e400

534b5ad7d82b1d0#:~:text=A%20SafePod%20is%20a%20small,SafePod%20has%20two%20

separate%20areas/

2. Удаленный защищенный доступ — пользователь получает возможность подключиться с собственного устройства (по верифицированному профилю пользователя или внесенному в специальный реестр IP-адресу устройства) к одобренным ему датасетам. После проведения операций с данными пользователь формирует запрос на выгрузку результатов и получает или не получает его одобрение. В случае особо сенситивных данных может быть использован формат так называемого удаленного выполнения. В этом случае пользователь отправляет программный код для анализа данных (например, Stata do-files), который исполняется в центральном RDC, и получает результаты, не видя самих данных (в RDC-IAB используется специально разработанная система веб-интерфейса Job Submission Application — JoSuA). При этом результаты перед отправкой пользователю проходят контроль раскрытия статистической информации.

3. Передача файлов для научного использования (scientific-use files) — прошедшие процедуры обезличивания микроданные отправляются исследовательским организациям напрямую. Эти данные не могут быть размещены исследовательскими организациями публично или переданы кому-то другому.

Примеры датасетов, доступ к которым реализован центрами, функционирующими в рамках модели 2.

RDC-IAB в Германии представляет доступ к следующим датасетам:

• IAB Establishment History Panel (BHP), содержащий характеристики всех наемных работников (пол, возраст, образование, зарплата, место работы, отрасль индустрии и др.) начиная с 1999 г. (для работников, получающих социальное обеспечение с 1975 г.);

• IZA/IAB Administrative Evaluation Dataset (AED) — случайная выборка лиц, оставшихся без работы в период с 01.01.2001 по 31.12.2008 и их характеристики;

• Sample of Integrated Labor Market Biographies (SIAB) — случайная выборка, взятая из комплексных биографий занятости (IEB) IAB, отражающая статус занятости человека с точностью до дня.46

HMRC в Великобритании предоставляет доступ к следующим датасетам:

• Corporation Tax, включающий корпоративные налоговые декларации или оценки, сделанные на основе деклараций, в период с 2001 по 2015 г.;

• Research and Development (R&D) Tax Credits — информация о налоговых льготах на исследования и разработки за 2001—2013 гг.

• Survey of Personal Incomes, связывающий ряд административных датасетов в репрезентативную выборку, содержащую информацию о финансах нескольких сотен тысяч налогоплательщиков47.

В базе микроданных ADELE, NZ Data Lab, CASD и ADR UK содержится множество связанных датасетов, касающихся образования, доходов, социальных льгот, миграции, правосудия и здравоохранения48.

CCP Data Science unit, напротив, не производит стандартизированные датасеты, а предоставляет исследователям обработанные и агрегированные административные микроданные, соответствующие запросу49.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Финансирование.

Источники финансирования центров, функционирующих по модели 2, сочетают бюджетные средства ведомства, в подчинении которого находится центр, и грантовую поддержку из других источников — как коммерческих, так и бюджетов других ведомств или уровней власти (региональные, муниципальные бюджеты).

Такая более гибкая система управления и финансирования не только позволяет организациям быть более устойчивыми, но и ориентирует существенную часть их деятельности на запросы госоргана, экспертов

46 Establishment History Panel (BHP). URL: https://fdz.iab.de/en/FDZ_Establishment_Data/Establishment_History_ Pa.nei.aspx:, IZA/IAB Administrative Evaluation Dataset (AED) and IZA/IAB Linked Evaluation Dataset 1993-2010 (LED). URL: https://fdz.iab.de/en/FDZ_Individuai_Data/aed.aspx; Sample of Integrated Labour Market Biographies (SIAB). URL: https://fdz.iab.de/en/FDZ_IndiViduai_Data/integrated_iabour_market_biographies.aspx

47 Survey of Personal Incomes, 2013-2014: Public Use Tape. URL: https://beta.ukdataservice.ac.uk/datacataiogue/ studies/study?id=8044&type=Data%20cataiogue

48 Microdata files. ADELE. URL: https://www4.istat.it/en/products/microdata-fies; Integrated Data Infrastructure. URL: https://www.stats.govt.nz/integrated-data/integrated-data-infrastructure/; Available data on CASD. URL: https:/ www.casd.eu/en/avaiiabie-data-on-casd/

49 Submit a research request. URL: https://www.capetown.gov.za/City-Connect/Access-information/Submit-a-research-request

или представителей академического сообщества. Подобные запросы (и, соответственно, внешние проекты) чаще всего связаны с созданием и предоставлением доступа к новому датасету из микроданных. Например, популярный датасет с выборкой биографических данных застрахованных лиц в Германии (Biographical data of selected insurance agencies in Germany (BASiD))50 был создан на базе RDC-IAB, но профинансирован отдельно федеральным министерством образования и научных исследований.

Финансирование полностью межведомственных центров может быть организовано напрямую из отдельной госпрограммы. Например, организация ADR UK, являющаяся частью инициативы Совета по экономическим и социальным исследованиям (Economic and Social Research Council) по улучшению условий доступа к государственным данным, полностью спонсируется в рамках этой программы51.

Модель 2.2. Центр исследования данных: соучреждение специальной организации ведомством в партнерстве с университетом, фондом или НКО

Примеры:

• New Brunswick Institute for Research, Data and Training — NB-IRDT52, Канада.

Организация.

Исследовательский центр, работающий при каком-либо университете или независимо, вместе с ведомством (или несколькими ведомствами) учреждают центр по исследованию данных, который наделяется функциями хранения и обработки микроданных, а также организации доступа к ним для исследователей. Такой центр заключает соглашения с ведомствами единоразово, описывая процедуры процесса передачи данных и их защиты, а также требования к локациям, из которых исследователи получают этот доступ.

Центр NB-IRDT учрежден на базе Университета Нью-Брансуика, который прежде всего предоставляет доступ к административным микроданным собранным в этой провинции Канады. Центр получает данные в свое хранилище53 сразу от нескольких региональных органов власти, а в обмен предоставляет им консультации54 и поддерживает исследования для

50 Biographical data of selected insurance agencies in Germany (BASiD). FDZ. URL: https://fdz.iab.de/en/FDZ_ Individual_Data/basid.aspx

51 About ADR UK. URL: https://www.adruk.org/about-us/about-adr-uk/

52 New Brunswick Institute for Research, Data and Training. URL: https://www.unb.oa/nbirdt_/

53 NB-IRDT Data holdings. URL: https://www.nbirdt.oa/hoidings

54 About NB-IRDT. URL: https://www.unb.oa/nbirdt/about/index.html

проведения доказательной политики55. Кроме того, в ЫВ-ШОТ сформировалась практика прикомандирования специалистов центра в соответствующие правительственные ведомства для ознакомления с особенностями работы с собираемыми ими данными. Эта процедура позволяет формировать более корректные и более качественные датасеты на основе генерируемых ведомствами административных микроданных.

Право доступа.

Данные могут быть предоставлены как сотрудникам организации-партнера, на базе которой учреждается центр, так и другим, в том числе неаффилированным, исследователям. В случае с ЫВ-1РОТ подача заявки на доступ к данным проходит в два этапа — предварительный проект анализируется на уместность использования данных, после чего исследователям предлагается скорректировать проект и подать расширенную версию заявки. Специфическое требование ЫВ-ШОТ для получения доступа — отсутствие у заявившегося судимостей за 12 месяцев56, предшествующих дате подачи заявки. Отдельные пользователи также должны принять участие в одночасовом обучающем тренинге по конфиденциальности административных данных и сеансе пробного запроса данных.

Механика доступа.

После одобрения заявки исследователь может получить доступ к данным только из защищенной локации. У ЫВ-ШОТ таких локаций три, и они располагаются в различных кампусах университета57. Для получения доступа используются тонкие клиенты. Исследователям разрешается установка широкого набора статистического ПО и неограниченное использование методов анализа. Удаленный доступ к данным не предполагается.

Финансирование.

В отличие от модели 2.1 эта модель предполагает еще меньшее финансовое участие государства. Достаточно гибкая структура совместного центра позволяет получить финансирование из различных источников. В случае ЫВ-ШОТ это гранты, контракты и платные услуги.

55 В Канаде, также как и в некоторых других странах, вместо термина evidence-based policy making (EBPM) устоялся термин evidence-informed policy making (EIPM).

56 Access to Information Policy. NB-IRDT. URL: https://www.nbirdt.ca/static/site-content/fiies/pnvacy/poiiaes-and' other-doc/access-to-mfo-2Q191029.pdf

57 Our Locations. NB-IRDT. URL: https://www. unb. ca/nbirdt/about/iocations. html

Модель 3. Партнерство с университетами и независимыми исследовательскими организациями (research-practice partnership)

В рамках этой модели происходит еще большее разделение поставщика данных (ведомства) и провайдера данных. В качестве последнего выступают уже не отдельные департаменты при органах власти или специально созданные при ведомствах исследовательские центры, а третьи стороны — университеты или партнерские сети университетов, отдельные научные институты или лаборатории в рамках университетов, а также независимые исследовательские организации. Провайдерам данных могут делегироваться как функции по обработке микроданных и созданию датасетов, так и функции по хранению и организации доступа к данным.

В зарубежной практике устоялось две разновидности этого типа модели: 1) заключение регулярных соглашений ведомств с исследовательской организацией, которая помогает хранить, обрабатывать и предоставлять допуск к данным; 2) функции по хранению и обработке данных остаются у ведомств, а функция организации доступа возлагается на партнерскую сеть исследовательских центров и университетов.

Модель 3.1. Партнерская сеть: делегирование функций по хранению, обработке и организации доступа к данным через регулярные соглашения

Примеры:

• Ohio and the Longitudinal Data Archive — OLDA58, США;

• The Stanford/San Francisco Unified School District Partnership — Stanford/SFUSD Partnership59, США.

Организация.

Исследовательская организация или университет заключают с органом власти или несколькими ведомствами специальное соглашение, в рамках которого будет регулироваться вопрос предоставления микроданных для их обработки, последующего использования и организации доступа.

Например, университет штата Огайо в США в рамках инициативы Ohio and the Longitudinal Data Archive (OLDA) заключил с несколькими ведомствами штата (Департаментом высшего образования, Департаментом школьного образования, Агентством по вопросам финансирования жилья, Департаментом по вопросам занятости и семейным отношениям штата

58 Ohio Longitudinal Data Archive. URL: https://chrr.Qsu.edu/prQjects/QhiQ-lQngitu.dinal-da.ta.-archive

59 The Stanford/San Francisco Unified School District Partnership. URL: https://cepa.stanfQrd.edu/stanfQrd-sfusd/Qverview

Огайо и др.) меморандум о взаимопонимании и отдельное достаточно подробное юридическое соглашение. Эти документы были заключены с каждым ведомством по отдельности и регулярно (каждые два года) должны перезаключаться или пролонгироваться. В рамках соглашения были учреждены органы корпоративного управления OLDA60 — три комитета, которые следят за соблюдением правил меморандума.

• Политический совет (Policy Council) включает представителей руководства всех ведомств-участников, а также аппарата губернатора и отвечает за общие вопросы использования микроданных.

• Управляющий комитет (Governing Committee) обеспечивает регулярное взаимодействие между директором научного подразделения университета и ключевым ответственным ведомством в соглашении — Департаментом по вопросам занятости и семейным отношениям штата Огайо (ODJFS).

• Комитет дата-стюардов (Data Stewards Committee) принимает решения об управлении базами данных, доступом и о других вопросах, связанных с безопасностью; также члены комитета проводят техническую экспертизу для сотрудников Университета.

Переданные в рамках этих юридических процедур микроданные хранятся в самом университете штата Огайо, который занимается их обработкой (созданием датасетов) и последующей организацией доступа. В число предоставляемых таким образом датасетов, например, входят61: микроданные по регистрируемой безработице (Unemployment Insurance Wage Data), административные данные об обучающихся в организациях высшего образования штата (Higher Education Information), описание профилей арендаторов коммерческого жилья в штате (Ohio Housing Tenant Files).

Другой пример подобного типа организации доступа — Stanford/SFUSD Partnership. Университет Стэнфорда заключил соглашение62 с отдельным уровнем муниципальной власти — объединенным школьным округом Сан-Франциско63. По этому соглашению Стэнфорд получает микроданные, обрабатывает их, организует доступ для исследователей, а также делится результатами исследований с ведомствами — поставщиками данных. Микроданные хранятся в самом Университете в специальном хранилище64, доступ к которому жестко регламентирован (см. «право доступа»). Для управления соглашением между Стэнфордом и муниципальными ведомствами не создано такой масштабной структуры, которая существует при OLDA, тем не менее соглашение требует постоянной пролонгации, а результаты взаимодействия ведомства с университетом могут быть проверены внешними аудиторами.

60 Ohio. OLDA. URL: http://slds.rhaskell.org/state-profiles/ohio#_ftn1

61 Investigator Search. OLDA. URL: https://www.chrr.ohio-state.edu/investigator/pages/search

62 Data Use Agreement between San Francisco Unified School District and the Stanford Research Organization. URL: https/admindatahandbook. mit. edu/book/testing/appendix/sfusd_appendix_b. pdf

63 Вид особенных районов (special district) — независимых муниципальных образований, сосуществующий с местными органами власти, но отвечающий за определенную отрасль (например, образование) и обладающий существенной административной и финансовой автономией.

64 Stanford CEPA Data Warehouse. URL: https://cepa.stanford.edu/stanford-sfusd/data-warehouse

Право доступа.

Доступ предоставляется прежде всего исследователям, аффилированным с университетом или другой организацией, заключившей соглашение с ведомствами. В OLDA исследователи подают заявку с кратким описанием проекта исследования, которая должна быть одобрена управляющим комитетом, а также представителями ведомства — владельца данных65. При этом исследователю могут быть предоставлены не все микроданные, а только те их элементы, которые необходимы для ответа на вопрос исследования. В случае с Stanford/SFUSD Partnership заявку одобряют только представители Университета, но зато доступ к данным не может быть никаким образом предоставлен66 исследователям из других организаций (не из Стэнфорда). OLDA позволяет получить доступ не аффилированным с Университетом Огайо исследователям, но им доступно меньше датасетов, а процедура одобрения допуска к данным усложнена: кроме более детализированной заявки надо пройти краткосрочные курсы работы с микроданными ведомства и программным обеспечением.

Механика доступа.

В рамках этой модели доступ предоставляется только с компьютеров, расположенных в университетском офисе исследователя, причем 1Р-адрес этого компьютера должен соответствовать адресу, указанному в одобренной заявке и зарегистрирован в специальном реестре (в случае с О1_ЭА). Данные передаются пользователю напрямую через безопасный протокол передачи файлов (ЭРТР), которые обеспечивается исследовательским подразделением университета67.

Финансирование.

Финансирование проектов организации доступа в рамках модели 3.1 также может быть достаточно диверсифицировано. В ОЬОА средства на работу и развитие проекта поступают из бюджета Университета, поддерживаются за счет региональных, отраслевых и частных грантов, а также государственных контрактов на проведение исследований на микроданных68.

65 Ohio Longitudinal DataArchive (OLDA) Access Procedures. URL: https://ohioanaiytics.gov/DataAccess/PDF/ DataAccess.stm

66 Agreement for Confidential Data Exchange between San Francisco Unified School District and Stanford University. URL: https://admindatahandbook.mit.edu/book/testing/appendix/sfusd_appendix_a.pdf

67 State-Level Big Data: Ohio Longitudinal Data Archive. URL: https://www. census. gov/fedcasic/fc2015/ppt/12_hariow.pdf

68 Ohio Analytics. URL: https://oerc.osu.edu/ohio-anaiytics

Модель 3.2. Партнерская сеть: разделение функций по обработке и предоставлению доступа к данным между ведомством и негосударственными организациями

Примеры:

• Federal Statistical Research Data Centers — FSRDC69, США;

• Statistics Finland70, Финляндия.

Организация.

В отличие от описанной выше модели 3.1 для данной модели характерно сокращение функционала исследовательских организаций, входящих в партнерскую сеть, только до организации доступа к данным. Таким образом, хранителем и оператором данных остаются ведомства (чаще всего национальные статистические бюро, которые в большей степени обладают необходимыми компетенциями), а точками доступа выступает сеть исследовательских организаций.

В случае с FSRDC сформирована сеть вступивших в партнерство с национальным статистическим бюро и другими ведомствами США исследовательских центров, каждый из которых на своем месте предоставляет доступ к микроданным. Всего в доступе микроданные от 11 ведомств (среди них U.S. Department of Housing and Urban Development, Census Bureau, Bureau of Labor Statistics71), а доступ к ним предоставляется из порядка 30 точек —исследовательских центров, расположенных в разных университетах, в разных штатах. При таком подходе меняется и логика юридического оформления партнерских отношений. В рассматриваемой ситуации исследовательские организации подают заявки в статистическое агентство на установку центра исследований данных (research data-center, RDC) у себя72. Сотрудничество с целым рядом ведомств, тем более на федеральном/национальном уровне, открывает академическому сообществу доступ ко множеству датасетов из широкого спектра предметных областей73.

69 Federal Statistical Research Data Centers. URL: https://www.census.gov/about/adrm/fsrdc.html

70 Statistics Finland. URL: https://www. stat. fi/tup/tutkimusaineistot/index_en. html

71 Полный список доступен по ссылке: Federal Partners. URL: https://www.census.gov/about/adrm/fsrdc/federai_ partners.html

72 Hosting an RDC at your Institution. URL: https://www.census.gov/about/adrm/fsrdc/about/hostrdc.htmi; Guidelines for the Development and Operation of a Federal Statistical Research Data Center (RDC) or RDC Branch, URL: https:/ www.census.gov/content/dam/Census/about/about-the-bureau/fsrdc/documents/Guideiines_for_RDC_Deveiopment_ and_Operations_FINAL_FY2Q2Q.pdf

73 Available Data. URL: https://www.census.gov/about/adrm/fsrdc/about/avaiiabie_data.htmi; The data. Statistics Finland. URL: http://tiiastokeskus.fi/tup/mikroaineistot/aineistot_en.htmi

<s

Право доступа.

Правом доступа обладают исследователи, как аффилированные с какой-либо организацией или университетом, так и неаффилированные. Как и в предыдущих моделях, для получения доступа к микроданным исследователи должны предоставить описание своего проекта. Проект рассматривается сотрудниками статистического ведомства74, т.е. владельцем данных; в отличие от моделей 3.1 и 3.2 участие внешних экспертов из партнерской сети не предусмотрено. У РЭРРС также есть дополнительное требование к заявителям, если они не граждане США. Такие исследователи должны проживать на территории США не менее трех лет из последних пяти лет. Кроме того, за использование некоторых датасетов РЭРРС взимается плата75.

Механика доступа.

Сеть точек доступа состоит в основном из университетов и исследовательских организаций (однако в случае FSRDC данные могут быть размещены в банках Федеральной резервной системы)76. Микроданные хранятся в статистических ведомствах и передаются на точки доступа в защищенные локации с помощью тонких клиентов. Возможность удаленного доступа отсутствует. Компьютерные мощности, на которых выполняется анализ, также находятся в национальном статистическом ведомстве. Вся IT-инфраструктура обслуживается персоналом национального статбюро, но для этих целей также возможен аутсорсинг услуг частной компании. Например, Statistics Finland пользуется услугами финского IT-центра CSC77.

Финансирование.

Так же как и модель 3.1, этот тип модели подразумевает, что существенная часть финансирования ляжет на плечи государства, т.е. в большей степени будет поступать из бюджета национального статистического бюро. Часть затрат на поддержание инфраструктуры может покрываться партнерскими организациями, где расположены исследовательские центры данных78.

74 Application process for microdata. Statistics Finland. URL: http://tilastokeskus.fi/tup/mikroaineistot/ hakumenettely_en.html

75 FSRDC Network Fees. URL: https://www.census.gov/about/adrm/fsrdc/about/fsrdc-network-fees.html

76 Research Data Centers. URL: https://www. census. gov/about/adrm/fsrdc/locations. html

77 Remote access use (Fiona). URL: http://www.stat.fi/tup/mikroaineistot/etakaytto_en.html

78 Federal Partners. URL: https://www.census.gov/about/adrm/fsrdc/federal_partners.html

ВЫВОДЫ

Проведенный анализ зарубежного опыта организации доступа исследователей к микроданным государства показал, что на текущий момент сформировались три базовых модели, достаточно институционализированных, т.е. устоявшихся и задающих правила взаимодействия различных стейкхолдеров. Все три модели и их разновидности предлагают свой способ решения дилеммы «полезность vs безопасность» («usability vs privacy») в зависимости от устоявшихся практик и накопленного опыта взаимодействия государственных органов и негосударственных стейкхолдеров.

Общими (или крайне похожими) во всех моделях являются следующие аспекты.

• Доступ к данным предоставляется на основе оценки внешними или внутренними экспертами заявки исследователя или группы исследователей, в которой содержится описание исследовательского проекта и необходимые манипуляции с данными (принцип Safe Project, подробнее см. введение).

• Для большинства моделей характерен не только контроль за исследовательскими проектами, но и контроль за выгружаемыми результатами, полученными исследователем после проделанных процедур (принцип Safe Outputs).

• Основные датасеты, доступ к которым предоставляется исследователям, содержат обработанные административные микроданные и служат не только для развития науки, но и для использования результатов научных исследований в целях повышения эффективности работы и качества предоставляемых услуг ведомствами — поставщиками данных.

• Финансирование проектов по организации доступа к данным зависит от выбранного разделения функций между владельцем (ведомством)

и поставщиком (ведомством или негосударственным стейкхолдером) данных, но там, где это возможно, государства стремятся использовать смешанные источники финансирования: бюджеты ведомств или межведомственных программ, частное финансирование как под конкретные датасеты, так и в целом для исполнения базовых функций, в отдельных случаях взимается плата за доступ к данным.

Тем не менее проанализированные модели достаточно сильно различаются между собой в зависимости от распределения функций по сбору, обработке и организации доступа к данным между ведомством и другими негосударственными стейкхолдерами («организация»).

Первый тип моделей связан с делегированием полного спектра функций

по обработке микроданных и организации доступа к ним национальному статистическому бюро или профильному департаменту (например, департаменту IT и обработки статистической информации) внутри органа государственной власти. У этой модели есть две основные разновидности: в модели 1.1 доступ предоставляется только в рамках специальных защищенных

<s

локаций, а в модели 1.2 доступ возможен через удаленное защищенное онлайн-подключение. Соответственно, в модели 1.2, как правило, степень детализации данных ниже, поскольку ниже и уровень их защиты.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Основным преимуществом моделей степень защищенности данных — распоряжения данными остается в недостаткам следует отнести:

первого типа является как раз высокая ■ в отсутствие посредников вопрос руках только у ведомства. К основным

• ограниченность ресурсов ведомства на решение такого рода задач (в дополнение к другим имеющимся функциям) и вследствие этого меньший объем и разнообразие датасетов;

• высокие требования к компетенциям сотрудников ведомств, необходимым для реализации процедур по обработке микроданных, отбору заявок со стороны исследователей и т.д.; у небольшого количества ведомств имеются в штате сотрудники с такими компетенциями;

• финансирование проектов происходит полностью за счет государственных средств; возможности привлечения внешнего финансирования крайне ограничены.

Второй тип моделей связан с делегированием полного спектра функций специальной организации, полностью или частично учрежденной ведомством в форме центра исследования данных (research data-center, RDC). У этой модели также две основные разновидности. В рамках модели 2.1 RDC учреждается одним органом государственной власти и, соответственно, занимается предоставлением доступа к микроданным этого ведомства, или же он может быть учрежден определенным уровнем власти (федеральным, региональным, городским), тогда доступ предоставляется к данным сразу нескольких ведомств. В рамках модели 2.2 RDC учреждается совместно органом власти и какой-либо независимой исследовательской организацией

или университетом, таким образом обеспечивается прямая связь владельца данных (ведомства) и конечных пользователей (исследователей).

К преимуществам моделей второго типа следует отнести:

• снижение нагрузки (и требований к компетенциям) на линейные подразделения ведомства, в связи с делегированием функций по обработке и организации доступа к данным специально учреждаемому центру; в случае создания межведомственного центра происходит существенное расширение перечня ведомств, доступ к данным которых может быть предоставлен;

• большую гибкость в части используемых механик предоставления пользователям доступа к данным (для более сенситивных данных используются защищенные локации доступа, для менее сенситивных данных применяется как прямая передача данных пользователю, так и удаленный защищенный доступ или удаленное выполнение);

• возможность большей приоритезации работы по предоставлению доступа к данным на стыке интересов научного сообщества и

©

САй, РР-05(16)-2021

сотрудников ведомств (специально создаваемый центр лучше справляется с функциями медиатора запроса ведомства на повышение эффективности принимаемых им решений и интереса и возможностей исследователей по реализации проектов на данных, доступ к которым предполагается предоставить);

• снижение организационных издержек в процессе связывания административных данных разных ведомств.

К недостаткам моделей второго типа относятся:

• дополнительные усилия для создания (или соучреждения) ведомствами специального типа организаций — центров исследования данных; может потребоваться проработка законодательной базы и регламентов взаимодействия центров с другими государственными и негосударственными агентами;

• достаточно значимый объем финансирования, выделяемый для создания и функционирования нового центра (объем может быть уменьшен в случае использования модели 2.2, а именно соучреждения такого центра государством и негосударственными стейкхолдерами).

Третий тип моделей подразумевает наибольшее вовлечение негосударственных стейкхолдеров в процедуру организации доступа к данным. Модель 3.1 предполагает делегирование независимой организации (чаще всего университету) полного спектра функций по обработке микроданных и организации доступа к ним. В то же время модель 3.2 оставляет функции по обработке данных и созданию датасетов на основе микроданных у ведомства, а функции по организации доступа делегирует партнерской сети исследовательских институтов и университетов.

К преимуществам моделей третьего типа прежде всего относятся снижение нагрузки на сотрудников ведомства, более низкие финансовые затраты ведомств на реализацию доступа к данным, а также максимальный уровень вовлеченности академического сообщества в приоритезацию данных, предназначенных для раскрытия. В числе недостатков следует отметить относительно меньший уровень защищенности данных (поскольку либо весь спектр функций, либо функция организации доступа делегируется внешнему негосударственному игроку), а также относительно высокие издержки на «вход» для исследовательских организаций, связанные или с необходимостью создания и оборудования защищенных локаций, или с постоянным юридическим сопровождением процесса передачи, обработки и организации доступа к данным в соответствии с заключенными соглашениями с ведомствами.

Кроме выбранной организационной формы, рассмотренные в рамках аналитического обзора организации различаются также по критериям отбора пользователей, доступ которым предоставляется («право доступа»). Главным отличием выступает существование или отсутствие обязательного требования по аффилиации исследователей, подающих заявку на предоставление доступа к данным, с университетом или иной научной либо исследовательской организацией. Четкого принципа, по которому в рамках рассмотренных кейсов организации делают выбор в пользу предоставления

(5

данных только аффилированным или и аффилированным, и неаффилированным пользователям, выявить не удалось. Тем не менее аффилированность с научной организацией выступает дополнительным гарантом большей защищенности передаваемых микроданных, так как повышает издержки исследователя «на вход». В то же время обоснованность подобного «эксклюзивного» подхода вызывает сомнения и с точки зрения справедливости (дискриминация независимых исследователей), и с позиции «чистых издержек» в виде непроведенных исследований (их потенциальный вклад в научное знание по предмету).

Наконец, наиболее важным различием между рассмотренными в рамках этого обзора организациями остается то, с помощью каких инструментов они предоставляют доступ пользователям к микроданным («механика доступа»). Сформировалось три конкретных механики доступа.

1. Физический доступ из защищенных локаций — пользователь с одобренным допуском должен прийти в специально оборудованное помещение, где он сможет поработать с данными напрямую, но не сможет их скачать, унести и использовать на других устройствах. Результат обработки данных перед выгрузкой должен быть дополнительно одобрен организацией.

2. Удаленный защищенный доступ — пользователь с одобренным допуском подключается к месту хранения данных, и, либо напрямую работая с данными, либо отправляя команды для их обработки («удаленное выполнение»), получает итоговый результат, который перед выгрузкой должен быть дополнительно одобрен со стороны организации.

3. Прямая передача данных — данные передаются пользователю для самостоятельного хранения и обработки без права передачи файлов другому пользователю или их публикации в открытом доступе. После использования данных организация может предъявить требование по удалению использованных данных.

Большинство рассмотренных организаций предоставляет доступ исследователям, используя защищенные локации или удаленный доступ. При этом наиболее детализированные и сенситивные данные предоставляются только в защищенных локациях, позволяющих максимально ограничить риски утечки конфиденциальных данных, но в то же время создающих наибольшие издержки для пользователей. Прямая передача данных используется для наименее детализированных данных, хотя этот способ наиболее удобен для пользователя. Удаленный защищенный доступ и его разновидности (например, «удаленное выполнение») используется как компромиссный вариант между уровнем детализации данных и рисками, возникающими вследствие их раскрытия.

Таким образом, в соответствии со сложившимся международным опытом при выборе модели организации доступа исследователей к микроданным государства целесообразно использовать все лучшие практики из выявленных общих аспектов рассмотренных кейсов (предварительный отбор проектов, контроль за выгружаемыми результатами, смешанные источники финансирования, нацеленность тематики датасетов на исследования в логике доказательной политики), а также сформировать собственную модель на основе различающихся аспектов («организация», «право доступа», «механика доступа»).

Таблица 2 содержит примеры рассмотренных в этом аналитическом обзоре организаций, предоставляющих доступ к микроданным для исследователей, в разрезе выбранной модели самой организации, используемых механик доступа, а также наличия или отсутствия аффилиации у исследователя с научной организацией.

Таблица 2. Примеры организаций, предоставляющих доступ к микроданным для исследователей в соответствии с определенными параметрами

Кто и кому (организация / право доступа)

Дополнение функционала ведомства (unmediated access) Создание или соучреждение центра исследования данных (research data center approach) Партнерство с университетом, фондом, НКО (research-practice partnership)

Защищенная Secure Research Service (Великобритания) RDC-IAB (Германия) ADELE (Италия) О Federal Statistical Research

ика доступа) физическая локация • NZ Data Lab (Новая Зеландия) ADR UK (Великобритания), NB-IRDT (Канада) • Data Centers (США), Statistics Finland (Финляндия) •

Удаленный защищенный доступ National Center for Educaion Statistics (США) О RDC-IAB (Германия) CCP Data Science unit (ЮАР) ADELE (Италия) о

н а X Ф м (в том числе удаленное выполнение) Australian Bureau of Statistics (Австралия) о ADR UK (Великобритания) •

Как ( Прямая National Center for Education Statistics (США) о RDC-IAB (Германия) только специальные научные файлы о Ohio and the Longitudinal Data О

передача данных Statistics Sweden (Швеция), Statistics Netherlands (Нидерланды) • ADR UK (Великобритания): только в рамках проектов • Archive (США): передача через SFTP на. рабочий ПК •

О A

,

p — О

сл

О — доступ аффилированным исследователям;

— доступ неаффилированным исследователям

Примечание. В случае О_ЭА неаффилированным исследователям доступно меньше датасетов, а также для них предусмотрена более сложная процедура подачи заявки и требование доказать навыки работы с микроданными и статистическим ПО.

Источник: разработка ЦПУР.

) 2

О ю

<s

РЕКОМЕНДАЦИИ

1. В настоящий момент в России отсутствуют устоявшиеся механизмы доступа исследователей к более детализированным данным и микроданным государства, которые собираются в рамках официального статистического наблюдения или в ходе исполнения ведомствами своих административных функций. Несмотря на закрепленный в законодательстве принцип раскрытия большего объема информации, имеющейся в распоряжении ведомств, а также на осознаваемую отдельными органами власти ценность административных данных для принятия более эффективных управленческих решений, серьезного прогресса в этом направлении добиться не удается. В то же время, как показывает мировой опыт, для повышения эффективности системы государственного управления, выстраивания процесса принятия решений на основе данных и использования принципов доказательной политики необходимо обеспечить внедрение, а также законодательное и институциональное закрепление практики раскрытия детальных данных для исследователей и представителей академического сообщества. Организационно-правовая форма реализации процесса раскрытия данных выбирается каждым государством самостоятельно в соответствии со сложившимся опытом взаимодействия по вопросам данных государственных и негосударственных акторов, текущим законодательством и подходом к решению дилеммы «полезность vs безопасность».

2. На основе проанализированного в рамках этого обзора зарубежного опыта реализации доступа исследователей к микроданным государства наименее перспективным для России представляется подход, построенный на дополнении функционала ведомств новыми полномочиями по организации доступа к данным для исследователей. Большинство профильных (статистических и IT) департаментов ведомств, на которые, как правило, возлагаются эти функции, перегружены текущими задачами и не обладают достаточными ресурсами или компетенциями для запуска процесса сбора и раскрытия микроданных. Если на них будет возложена такая новая задача, она будет вытеснена более приоритетными мероприятиями и более привычными форматами взаимодействия с экспертным и академическим сообществом. В то же время из числа встречающихся в международной практике наименее подходящей механикой раскрытия микроданных для России является прямая передача данных пользователю по защищенным каналам. В таком случае или передаваемые данные окажутся крайне сильно агрегированными и не будут отличаться от уже опубликованных наборов открытых данных, или же, если данные будут достаточно детальными, будет высок риск наступления негативных последствий от, например, непреднамеренного раскрытия данных из-за отсутствия сформированных практик их использования российскими исследователями.

3. Минимальным (или стартовым) сценарием организации доступа к микроданным исследователей в России может выступить модель, построенная на создании специального центра исследования данных (research data-center), который будет находиться в прямом

подчинении отдельных органов власти или носить межведомственный характер. При этом наиболее эффективна для России, вероятно, будет модель соучреждения такого центра в партнерстве с независимыми исследовательскими организациями или университетами (модель 2.2 данного обзора). В таком случае отделение функционала центра от других задач ведомств и возможность прямой кооперации с исследовательским сообществом через инструменты концессионных соглашений или государственно-частного партнерства позволят относительно быстро внедрить практику обмена данными между исследователями и госслужащими в интересах обеих сторон, а также дифференцировать источники финансирования центра. К большинству данных, раскрываемых в рамках этой модели, целесообразно предоставить доступ через удаленный защищенный контур (в том числе «удаленное выполнение»). Доступ через сеть защищенных локаций можно использовать только для ограниченного набора крайне чувствительных данных с очень высокой степенью детализации. В то же время в рамках этой модели крайне важно организовать недискриминационный доступ к данным для всех исследователей и обеспечить равные права для исследователей, аффилированных и не аффилированных с российскими исследовательскими организациями и университетами.

4. Оптимальным сценарием или же сценарием, к которому целесообразно перейти после формирования устойчивых практик предоставления доступа к данным, возникших в результате реализации минимального сценария (п. 3.), представляется использование партнерской сети организаций, которые реализуют полный спектр работы с государственными микроданными — от их обработки до организации доступа (модель 3.1). Основой для подобной партнерской сети в России могут выступить национальные исследовательские университеты, в которых можно как развернуть сеть защищенных локаций для работы с наиболее сенситивными микроданными, так и реализовать удаленный защищенный доступ для получения данных федеральных, а также региональных органов власти, в которых расположен университет.

5. Независимо от выбранной модели параллельно необходимо расширять состав сведений, публикуемых в свободном доступе. В случаях когда риски нарушения конфиденциальности при публикации детальных данных из какой-либо области низкие, целесообразно отдавать приоритет формату открытых данных. Мировой опыт показывает, что формализация правил доступа и расширение состава пользователей, имеющих регламентированный доступ к детальным сведениям государственных систем, приводит к повышению разнообразия и качества наборов открытых данных, собранных на основе информации из этих систем (рисунок 6).

<s

Рисунок 6. Сценарии реализации доступа исследователей к государственным микроданным в России

Кто и кому (организация / право доступа)

Дополнение функционала ведомства (unmediated access) Создание или соучреждение центра исследования данных (research data center approach) Партнерство с университетом, фондом, НКО (research-practice partnership)

Как (механика доступа) Защищенная физическая локация

Удаленный защищенный доступ

Прямая передача данных

□ — наименее перспективный сценарий

— минимальный (стартовый) сценарий

— оптимальный (на развитие) сценарий

Источник: Разработка ЦПУР.

6. Перечень потенциально востребованных наборов микроданных, сформированных на основе государственных административных данных или первичных данных официальной статистики России, приведен в Приложении 179.

79 В Приложении перечислены только те данные, которые при достаточном уровне детализации могут потребовать использования организационно-инфраструктурных методов обеспечения конфиденциальности, описанных в настоящей записке. В перечне наборов не упоминаются, например, государственные финансовые данные (бюджеты, закупки, контракты, субсидии и т.п.), поскольку предполагается, что для них наиболее подходящим является формат открытых данных. Перечень приведен в качестве иллюстрации и не является исчерпывающим.

о

САй, РР-05(16)-2021

ПРИЛОЖЕНИЕ 1

Таблица 3. Перечень наборов микроданных, которые можно собрать на основе государственных административных данных или первичных данных официальной статистики России

№ Набор данных Источник и ведомство

Микроданные официальной статистики

1. Обезличенные микроданные переписей населения 2002, 2010, 2015 и 2021 гг. на уровне отдельных домохозяйств и индивидов Росстат

2. Полные микроданные выборочных обследований, проводимых в России Росстат

3. Первичные данные из официальных форм статистического учета в разрезе отдельных государственных учреждений (школы, больницы, и т.п.) Росстат

Административные микроданные

4. Связанные обезличенные микроданные о получателях мер социальной поддержки, а также о статусе занятости и заработной плате в периоды до и после получения поддержки АИС ПФР-2 (Пенсионный фонд РФ) и ЕГИССО (Минтруд и Пенсионный фонд РФ)

5. Обезличенные данные об образовательных траекториях, учебных результатах (включая результаты ЕГЭ и ГИА), поступлении в образовательные учреждения и трудоустройстве выпускников (данные об индивидуальной образовательной и трудовой траектории с 9-го класса школы до первых нескольких лет на рынке труда) АИС ПФР-2 (Пенсионный фонд РФ), ФИС ФРДО и ФИС ГИА (Рособрнадзор)

6. Данные по экономической(производственной) активности предприятий с привязкой к географическому местоположению (району, муниципалитету) и с детализацией не менее чем на уровне отраслей (2-значный код ОКВЭД) Федеральная налоговая служба

7. Детальные обезличенные данные о смертности и фактическом месте проживания граждан, объединенные с информацией о медицинской инфраструктуре ЕГР ЗАГС (Федеральная налоговая служба) и ЕГИСЗ (Минздрав России)

8. Связанные микроданные о гражданах, получивших дополнительное образование, об участниках иных программ активного содействия занятости, о факте трудоустройства и об уровне заработной платы РПУ (Роструд) и АИС ПФР-2 (Пенсионный фонд РФ)

9. Обезличенные медицинские данные на уровне индивидов об анамнезе, отдельных заболеваниях, ходе и результатах лечения ЕГИСЗ (Минздрав России), включая электронные медицинские карты и ВИМИС

АИС ПФР-2 — Автоматическая информационная система Пенсионного фонда Российской Федерации.

(5

ЕГИССО — Единая государственная информационная система социального обеспечения.

ФИС ФРДО — Федеральная информационная система «Федеральный реестр сведений о документах об образовании и (или) о квалификации, документах об обучении».

ФИС ГИА — Федеральная информационная система государственной итоговой аттестации.

ЕГР ЗАГС — Единый государственный реестр записей актов гражданского состояния.

ЕГИСЗ — Единая государственная информационная система в сфере здравоохранения.

РПУ — Регистр получателей услуг в сфере занятости населения.

ВИМИС — Вертикальная интегрированная медицинская информационная система по отдельным заболеваниям.

Источник: Разработка ЦПУР.

БИБЛИОГРАФИЯ

1. Крючкова П.В., Провков К.С., Решетников М.Г. Возможности использования административных данных для формирования статистики рынка труда: пример г. Москвы // Вопросы государственного и муниципального управления. 2018. № 2. С. 7—29.

2. Angrist J.D., Pischke J.S. The credibility revolution in empirical economics: How better research design is taking the con out of econometrics. Journal of Economic Perspectives, 2010, vol. 24, no. 2, pp. 3-30.

3. Bender S., Heining J. The Research-Data-Centre in Research-Data-Centre approach: A first step towards decentralised international data sharing. IASSIST Quarterly, 2012, vol. 35, no. 3, pp. 10-16.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

URL: https://doi.org/10.29173/iq119

4. Desai T., Ritchie F., Welpton R. Five Safes: designing data access for research. Economics Working Paper Series, 2016. URL: http://csrm.cass.anu.edu.au/ sites/default/files/rsss/Ritchie_5safes.pdf

5. Langedijk S., Vollbracht I., Paruolo P. The Potential of Administrative Microdata for Better Policy-Making in Europe. In: Crato N., Paruolo P. (eds) Data-Driven Policy Impact Evaluation. Springer, Cham, 2019, pp. 333-346. URL: https://doi.org/10.1007/978-3-319-78461-8_20

6. Livraga G. Privacy in microdata release: Challenges, techniques, and approaches. In: Crato N., Paruolo P. (eds) Data-Driven Policy Impact Evaluation. Springer, Cham, 2019, pp. 67-83.

URL: https://doi.org/10.1007/978-3-319-78461-8_5

7. Managing Statistical Confidentiality & Microdata Access. Principles and Guidelines of Good Practice. United Nations Economic Commission for Europe, Conference of European Statisticians, 2007, 115 p.

URL: https://unece.org/fileadmin/DAM/stats/publications/Managing. statistical.confidentiality.and.microdata.access.pdf

8. Matthews G.J., Harel O. Data confidentiality: A review of methods for statistical disclosure limitation and methods for assessing privacy. Statistics Surveys, 2011, vol. 5, pp. 1-29. URL: https://doi.org/10.1214/11-SS074

9. Open Data Inventory 2020/21. Executive summary.

URL: https://odin.opendatawatch.com/Downloads/otherFiles/ODIN-2020-ExecutiveSummary.pdf

10. Parkhimovich O., Gritsenko D. Open Government Data in Russia. In: Gritsenko D., Wijermars M., Kopotev M. (eds) The Palgrave Handbook of Digital Russia Studies. Palgrave Macmillan, Cham, 2021, pp. 389-407. URL: https://doi.org/10.1007/978-3-030-42855-6_22

11. Shen J., Vilhuber L. Physically Protecting Sensitive Data. In: Cole S., Dhaliwal I., Sautmann A., Vilhuber L. (eds) Handbook on Using Administrative Data for Research and Evidence-based Policy. 2020.

URL: https://admindatahandbook.mit.edu/book/v1.0-rc6/security.html

центр

перспективных

управленческих

решений

i Надоели баннеры? Вы всегда можете отключить рекламу.