Научная статья на тему 'Открытые данные: проблемы и решения'

Открытые данные: проблемы и решения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2310
514
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОТКРЫТЫЕ ДАННЫЕ / OPEN DATA / КЛАССИФИКАЦИЯ ОТКРЫТЫХ ДАННЫХ / OPEN DATA CLASSIFICATION / ПЯТИЗВЕЗДОЧНАЯ МОДЕЛЬ / FIVE-STARS MODEL / НОРМАТИВНО-ПРАВОВАЯ БАЗА ОТКРЫТЫХ ДАННЫХ / NORMATIVE-LEGAL BASE OF OPEN DATA

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Волков А.И., Рейнгольд Л.А.

В работе рассмотрены проблемы и решения для работы с открытыми данными, которые могут использоваться без ограничений, связанных с авторским правом, патентами и др. Проведен анализ понятия открытых данных и их содержания, отмечена актуальность и преимущества работы с ними, предложены эффективные способы использования открытых данных, отмечена важность обеспечения достаточного нормативно-правового регулирования. В заключении сформулированы наиболее актуальные вопросы открытых данных, которые будут определять эффективность развития информационных технологий в ближайшем будущем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Open data: problems and solutions

This article deals with problems and solutions related to open data, which can be used without any legal limitations (owner’s rights, patents, etc.). There is a lot of analytical research of correct definition and reality, advantages and most effective ways of using an open data. In conclusion mentioned the most important questions, related to open data, which will define the effectiveness of future development of information technology.

Текст научной работы на тему «Открытые данные: проблемы и решения»

ПРИКЛАДНАЯ ИНФОРМАТИКА /-

' № 3 (51) 2014

А. И. Волков, генеральный директор ЗАО «РДТЕХ», аспирант Московского физико-технического института, Anatoli.Volkov@rdtex.ru Л. А. Рейнгольд, канд. техн. наук, консультант ЗАО «РДТЕХ», Москва,

Leonid.Reingold@rdtex.ru

Открытые данные: проблемы и решения

В работе рассмотрены проблемы и решения для работы с открытыми данными, которые могут использоваться без ограничений, связанных с авторским правом, патентами и др . Проведен анализ понятия открытых данных и их содержания, отмечена актуальность и преимущества работы с ними, предложены эффективные способы использования открытых данных, отмечена важность обеспечения достаточного нормативно-правового регулирования . В заключении сформулированы наиболее актуальные вопросы открытых данных, которые будут определять эффективность развития информационных технологий в ближайшем будущем

Ключевые слова: открытые данные, классификация открытых данных, пятизвездочная модель, нормативно-правовая база открытых данных .

Введение

В информационных системах, интенсивно внедряемых во все сферы жизни современного общества, появляются данные, которые не являются закрытыми, т. е. могут использоваться без ограничений всеми заинтересованными лицами и встраиваться в любые свободно разрабатываемые приложения. Теме открытых данных внимание стало уделяться относительно недавно — в связи с появлением возможностей решения различных задач, связанных со становлением в стране информационного общества. Построение инфраструктуры открытых данных требует осознания спектра концептуальных и методологических вопросов, решения ряда проблем, которые мы рассмотрим ниже.

Понятие открытых данных

Под открытыми данными (Open Data) обычно понимаются сведения на машинном носителе, доступные для использования и повторной публикации без ограниче-

ний, связанных с авторским правом, патентами и др. [1]. Использование открытых данных (ОД) позволяет достичь нового качества во внедрении информационных технологий в самых разных областях.

Используя такой ресурс, можно получать не просто готовый фиксированный контент, но также переработанную под нужды пользователей информацию из различных источников. При этом уменьшаются требования к квалификации пользователя по обработке данных, а также возникает синергетический эффект — появляется возможность решать новые, неочевидные задачи с использованием взаимосвязанных данных и соответствующего программного обеспечения.

В литературе пока не сформировалось единое мнение о содержании понятия ОД.

Существуют различные толкования этого понятия, которые не позволяют сравнивать имеющиеся решения в этой области и в частности единообразно сопоставить различные страны по уровню развития и внедрения ОД [2].

Несмотря на наличие ОД коммерческого происхождения, в рассматриваемом

№ 3 (51) 2014

контексте обычно акцентируют внимание на данных, полученных в рамках различных государственных программ, в частности решения задач «открытого правительства».

Рассмотрим некоторые концептуальные классификации, связанные с ОД, которые позволят нам глубже понять это явление.

Распространенную классификацию по доступности и удобству применения ОД предложил один из авторов основных концепций Паутины (Web) в целом и различных web-технологий — Тим Бернерс-Ли [2, 3].

Эта классификация предлагает «пятизвездочную модель». Одной звездой отмечается любое машиночитаемое хранилище данных, находящееся в любом формате. Например, файл с графическим образом документа может получить только одну звезду. Две звезды получают данные в проприетарном формате, где существует какое-либо структурирование, допускающее автоматическую обработку. Примером может служить файл электронной таблицы, в частности формат Excel. Три звезды получают структурированные данные, автоматизированная обработка которых не требует каких-либо лицензий и платежей, например предоставляемые в структурированном текстовом формате CSV. Четыре звезды получают ОД, где используются URL-ссылки. Пять звезд — данные, которые предоставляются в связи с другими данными, например структурированные в виде взаимоувязанных таблиц.

Понятно, что приведенная классификация носит условный характер, и те же упомянутые данные в виде образов документов могут быть обработаны современными средствами с автоматическим распознаванием и структурированием их содержания, получив дополнительные «звезды».

В целом оказывается, что доступные в имеющихся сервисах ОД в силу ряда организационных и технологических причин недостаточно структурированы. При их формировании и поддержке не всегда в достаточной степени соблюдаются необходимые методические, технологические и нормативно-правовые ограничения.

Рассмотренная классификация не учитывает содержательного наполнения ОД и не определяет их место среди других имеющихся информационных ресурсов.

Обратимся к классификации, выделяющей имеющиеся в государстве информационные слои и взаимосвязи между ними [4]. Все информационное наполнение автоматизированных систем разделим на 4 слоя: по условиям формирования и организации доступа к информации:

1) государственный приватный;

2) государственный официальный общего применения;

3) коммерческий;

4) бесплатный.

Государственный приватный уровень включает в себя информацию, распространение которой ограничено из военных, политических, государственных, экономических соображений. Сюда же относятся защищаемые данные, неправомерное применение которых может привести к нарушению интересов юридических и физических лиц, например персональные данные. Открытой информация этого уровня может стать только в результате выполнения процедуры рассекречивания. В этом случае она попадает в следующую рассматриваемую нами категорию.

Государственная официальная информация общего применения — это информация, получаемая государственными структурами или оплаченная государством, которую нет оснований скрывать.

Эта категория является наиболее важной и интересной для развития информационной инфраструктуры в государстве. Ее качественное развитие позволяет связывать все остальные слои данных общей семантикой, ключами, требованиями к ограничениям и ведению информации. Ведение этой информации должно быть регламентировано, стандартизовано, обеспечено технической и технологической поддержкой.

Коммерческий информационный уровень формируется в процессе деятельности коммерческих организаций. Информация это-

№ 3 (51) 2014

го уровня применяется как для обеспечения коммерческой деятельности, так и для продажи или передачи заказчикам и партнерам.

Уровень бесплатной информации — это сведения, получаемые бесплатно в результате функционирования бесплатных сервисов, благотворительности, а также используемые в качестве хобби.

Где же место ОД среди рассмотренных информационных уровней? Очевидно, ОД могут существовать на всех уровнях, кроме первого — государственного приватного. Однако в литературе по рассматриваемому вопросу неявно под ОД понимаются данные второго уровня — государственного официального. По нашему мнению, это приводит к чрезмерному сужению существа проблемы.

В составе инфраструктуры ОД необходимо комплексно рассматривать также коммерческий и бесплатный уровни — для обозначения ответственности государства и общества в их формировании, поддержке, исключении негативных явлений.

Очень важным вопросом является информационная связность всех рассмотренных уровней. Здесь ключевой уровень — государственный официальный. Он позволяет целенаправленно развивать информационную инфраструктуру, к нему должны привязываться, нанизываться на общие смыслы ключи данных и регламенты, информация остальных уровней. Этим уровнем нужно целенаправленно управлять, что позволит получить дополнительные технологические, экономические и социальные выгоды.

Актуальность и преимущества использования открытых данных

Формирующаяся в настоящее время инфраструктура ОД — это база для сервисов и услуг, предоставляемых в коммерческом или бесплатном режиме. При наличии связующего звена из общедоступных офи-

циальных данных, которые формируются по понятному всем четко прописанному алгоритму, появляется возможность объединять данные, получаемые и используемые на различных условиях. Появляется возможность объединять закрытые и открытые данные для решения задач, стоящих перед государственными органами. То есть наличие ОД при определенных условиях приводит к синергетическому эффекту — появляются новое качество, новые возможности в автоматизированных системах за счет более полного использования имеющейся в них информации, учета всех имеющихся обстоятельств.

В России ОД сейчас получают особую значимость в связи с интенсивным внедрением предоставления государственных услуг в электронной форме. Расширение общедоступного официального информационного сегмента позволяет развивать рынок автоматизации предоставления сервисов, ускорять и упрощать внедрение государственных услуг. Функциональность имеющихся решений возрастет также с появлением возможности включения в ИТ-инфраструктуру страны информационных ресурсов коммерческих организаций и социально активных граждан.

Отсутствие совместимости в данных усложняет обработку информации в различных автоматизированных системах, ведет к появлению ручного труда, связанного с ручным контролем и очисткой данных на их стыках. Развитие инфраструктуры ОД позволит устранить эти «паразитные шестеренки» в системах автоматизации различных уровней.

При использовании инфраструктуры ОД человеку не понадобится обращаться в офисы соответствующих государственных, муниципальных и коммерческих структур. Вернее, многие из таких обращений станут виртуальными. Те вопросы, которые можно решить в «удаленном режиме», будут решаться гражданами дистанционно. Дополнительная справочная информация «для размышления», получаемая за счет совмести-

№ 3 (51) 2014

мой семантики и согласованной структуры данных, позволяет расширить функциональность средств автоматизации.

ОД позволят уменьшить повторный ввод данных в связанные информационно системы за счет возможности использовать согласованную по общим ключам и регламентам обработки информацию. Это позволит устранить ошибки, возникающие при ручной «трансляции» данных из одной системы в другую. На стыках автоматизированных систем, имеющих различные регламенты, по-разному структурированных, как раз и выявляются основные интеграционные проблемы. Они связаны с необходимостью «ручной» проверки данных и появляющимися при этом возможностями возникновения различных интерпретаций информации, ошибок и злоупотреблений.

Повторное получение, ввод и проверка информации в случае отсутствия инфраструктуры автоматизированного информационного обмена приводит к дополнительным издержкам, поскольку требуются лишние затраты времени сотрудников и компьютерных ресурсов.

Отсутствие информационной связности между различными автоматизированными системами ограничивает возможности по агрегированию, свертыванию информации и приводит к невозможности получения в оперативном режиме достаточной информации для принятия управленческих решений.

От несовместимости данных и взаимной несовместимости регламентов возникают также социальные издержки, ведущие к снижению доверия населения к органам власти.

В социально-экономической системе, имеющей прозрачную, адаптирующуюся инфраструктуру ОД, все взаимодействующие субъекты общества понимают друг друга, разговаривают в автоматизированном режиме «на одном языке», и такая система быстро и в оптимальном режиме развивается.

Содержание открытых данных

Какого рода информация наиболее актуальна для размещения в инфраструктуре ОД? Это информация о различных общезначимых объектах, которые нужны в самых разных областях применения. Необходимы стандартизованные описания основных из них:

• информация о людях (в инфраструктуре ОД в обезличенной форме, соответствующей законодательству о персональных данных);

• сведения о юридических лицах, подлежащие публикации;

• адреса объектов в текстовой форме;

• местоположения различных типов объектов и сведения об их форме и размерах;

• форматы и правила формирования используемых в государстве документов, их структурированные описания;

• финансовая информация, не являющаяся секретной и интересная для различных областей применения (например, разнообразная статистическая информация, сведения о расходовании органами управления бюджета и пр.);

• учебная, справочная, досуговая информация общего применения, на которую не распространяются ограничения по тиражированию (за истечением сроков давности, в связи с выкупом государством соответствующих прав у правообладателей и др.);

• различного рода служебная информация: справочники, классификаторы, регламенты и прочие источники данных, лежащие в основе описаний других видов информации и нуждающиеся в упорядоченном и предсказуемом сопровождении.

Для получения и поддержания этой информации в актуальном состоянии, обеспечения ее доступности потребителям в заданном режиме должны быть сформированы соответствующие условия.

Необходима достаточная регламентация получения и обращения ОД, финансирование их получения и обслуживания, а также политическая воля государства для преодоления имеющихся проблем субъективного

№ 3 (51) 2014

и объективного характера с минимизацией возможных негативных явлений. Не секрет, что во многих случаях юридическим и физическим лицам выгодна монополия на информацию или извлечение пользы от ее отсутствия в надлежащем виде. Существующие в социальной системе «паразитные шестерни», роль которых в основном сводится к трансляции и передаче сообщений, также заинтересованы препятствовать развитию инфраструктуры ОД.

нормативно-правовая база открытых данных

У любой информации имеется первоисточник, ее получение требует затрат. Часто публикация данных, наряду с очевидными выгодами, затрагивает чьи-либо интересы. Поэтому распространение ОД во многих случаях нуждается в правовом регулировании.

В настоящее время формируется необходимая нормативно-правовая база для развития инфраструктуры ОД. К такой нормативной базе можно отнести ряд законов и постановлений, принятых в России на федеральном уровне и призванных обеспечить доступность информации всех уровней управления для решения актуальных для населения задач. Действующие нормативные акты приведены в списке литературы [5-8], однако следует отметить, что инфраструктура ОД в настоящее время — сфера интенсивного нормотворчества, и происходит постоянное совершенствование и развитие соответствующей нормативно-правовой базы.

Перспективная правовая поддержка инфраструктуры ОД должна обеспечивать необходимую защиту и регулирование обращения ОД, эффективно противостоять негативным тенденциям, предотвращать необоснованное сокрытие информации в корыстных интересах, обеспечивать предоставление ОД в форматах, удобных для практического применения.

Доступность информации не должна зависеть от корпоративных интересов, заин-

тересованности чиновников и организаций в эксклюзивном доступе к информации, желания обосновать штатное расписание и расходы, не связанные с реальной необходимостью. В то же время распространение и использование ОД не должно ущемлять чьи-либо обоснованные интересы.

способы использования открытых данных

Возможны различные технологические решения при формировании и распространении ОД. Они имеют свои особенности и в зависимости от ситуации — преимущества и недостатки.

В любом случае данные распространяются в машиночитаемом формате, однако их применение может быть ограничено в той или иной степени применяемыми технологиями. Например, в литературе просматривается тенденция пролоббировать распространение данных в «полузакрытом» виде — например в виде файлов в формате MS Office, с тем, чтобы они обрабатывались проприетарным программным обеспечением конкретных поставщиков [2]. Нужно отметить, что информация в этом виде, как правило, недостаточно формализована, и осуществить регламентацию ее предоставления с достаточной степенью детализации довольно сложно.

Одним из наиболее распространенных способов обращения к ОД в настоящее время являются web-сервисы. Такой подход позволяет реализовывать запросно-ответные системы и является удобным для случаев, когда различным автоматизированным системам требуется обмениваться сообщениями фиксированного формата. Взаимодействующие системы видят друг друга как «черный ящик».

Однако более перспективной представляется выкладка информации в унифицированном формате в виде некоторого типичного подмножества баз данных с четко прописанной семантикой, регламентами обновления, форматами реквизитов и связями

№ 3 (51) 2014

между таблицами в виде детально проработанных ER-диаграмм.

К информации в этом виде могут прилагаться стандартные интерфейсы в виде API, прототипов программного обеспечения для работы с соответствующими объектами базы данных. Структурированные данные должны дополняться гарантированным регламентом их формирования и обновления. За каждый элемент данных должна отвечать та организационная структура, которая является первоисточником этих данных. Необходимо осуществлять журналирование изменений в таких базах данных.

Подобный подход обеспечит высокий уровень интеграции информационного обмена, включая осуществление транзакци-онной целостности в связанных системах. То есть вместо набора малоструктурированных таблиц данные должны представляться в виде сложной структуры: группа связанных таблиц с детальным документированием ограничений целостности данных, порядка журналирования и обновления, ведения истории предыдущих состояний данных и пр. ОД при этом могут быть связаны с информацией, имеющей ограниченное распространение или находящейся в платном доступе.

Такой подход обеспечит реализацию всех бизнес-возможностей, появляющихся при внедрении ОД, и фактически означает появление новой предсказуемой для пользователей информационной макросреды, обеспечивающей решение всех перспективных прикладных задач.

Это решение фактически означает создание в перспективе общедоступной системы управления основными данными — технологии, подобной Master Data Management (MDM) [9] в масштабе государства. Такой подход соответствует «пяти звездочкам» по рассмотренной выше классификации Тима Бернерса-Ли и обеспечит полноценную интеграцию всех уровней данных в рамках рассмотренной нашей классификации. Такая интеграция должна осуществляться

на основе государственного официального уровня данных.

Следует ожидать, что в перспективе будет обеспечено решение различных имеющихся и перспективных задач интеграции и совместного использования данных.

Ситуация с внедрением открытых данных

В России, как и в других странах мира, интенсивно развивается инфраструктура ОД. В июне 2009 г. открыт портал OpenGovData.ru, посвященный внедрению открытых данных в государстве и включающий различную доступную информацию.

Технологии открытых данных внедряются как на уровне государства, так и в регионах. Эта работа находится пока на начальной стадии, представление информации на ресурсах различных управленческих структур пока не унифицировано. В частности, открылся портал открытых данных правительства Москвы data.mos.ru.

Развивается общественный портал открытых данных Санкт-Петербурга opendata. spb.ru. Сообщество по геоинформационным технологиям ГисЛаб поддерживает портал публикации открытых геоданных gislab.info.

Ростелеком развивает инфраструктуру для предоставления госуслуг, которая формирует условия для углубленной информационной интеграции автоматизированных систем и коммуникационную среду для функционирования транзакционных систем на основе ОД в масштабе государства.

Однако в настоящее время недостаточное внимание уделяется методическим вопросам, связанным с формированием ОД. На упомянутых выше сайтах выкладывается информация в недостаточно формализованном виде — от документов в формате офисных пакетов до текстовых файлов с разделителями и HTML-страниц. Отсутствует или явно недостаточна унификация открытых информационных ресурсов, регламентация

№ 3 (51) 2014

их формирования и обновления, что в перспективе приведет к затратам на их интеграцию, но уже на новом уровне. Хотя, безусловно, то, что уже делается, исключительно полезно и способствует формированию нового слоя приложений.

Сейчас развитие инфраструктуры ОД находится на начальном этапе. Поэтому актуальной является система мер по унификации информации. Она должна включать в себя ряд основных положений:

• необходимы унифицированные описания структур ОД, закрепленные в соответствующих стандартах и других нормативных актах;

• нужна полная ясность с интерпретацией семантики каждого реквизита и связей между таблицами по всем общезначимым объектам;

• наличие логической и физической структуры ОД с полным описанием требований к атрибутам, формированию первичных и внешних ключей таблиц, ограничений по форматам и значениям данных и др. Данные должны однозначно, без разночтений, восприниматься специалистами в процессе проектирования и использования приложений, работающих с ОД;

• необходимы полные описания регламентов по вводу и обновлению данных. Важна полная ясность: кто, когда, с какой периодичностью актуализирует информацию, нормативная база, на основании которой производится раскрытие информации.

Структура и регламенты ведения данных имеют свойство изменяться. Часто изменения связаны с улучшением структурирования и появлением дополнительных ограничений по их вводу. Это приводит к тому, что значения данных, полученных по прежним правилам, могут оказаться не полностью совместимыми с текущей версией. Эта проблема должна учитываться в процессе проектирования структур и регламентов работы с данными. Должна быть возможность применять «исторические» структуры, значения и регламенты работы с данными. Приложения должны иметь возмож-

ность обращаться к прошлым, актуальным в прошедшие периоды времени ОД, «понимая» при необходимости, что это не актуальные данные. Кроме сохранения работоспособности всех применяемых пользователями версий приложений, это позволит решать новые задачи, связанные с оценкой и анализом динамики изменения объектов, а также в целом служить информационной базой для развития социально-экономической среды, включающей эти объекты.

Заключение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Мы рассмотрели актуальные вопросы, связанные с формированием инфраструктуры и использованием ОД.

Авторам статьи представляется, что в настоящее время ОД — это один из наиболее актуальных вопросов, определяющих эффективность развития информационных технологий в ближайшем будущем. Требуется решение методических и технологических проблем, связанных с ОД, что позволит реализовать необходимые механизмы интеграции информации и создать условия для расширения функциональных возможностей систем обработки данных.

Наличие стандартизованных структур данных и программных интерфейсов для работы с ними, прототипов приложений, облегчающих их разработку и отладку, позволит быстро увеличивать востребованность ОД, а также формировать новые слои ОД там, где это необходимо, используя сведения, полученные от пользователей приложений.

Исключительно важной является задача обеспечения достаточного нормативного регулирования инфраструктуры ОД. Необходимо соблюдение интересов всех участников процесса формирования и использования ОД, преодоление возникающих ведомственных барьеров и конфликта интересов. Открывать данные нужно, но обоснованно, последовательно, по четким правилам и с учетом всех возможных последствий. Это должна быть не мода, а проду-

№ 3 (51) 2014

манная и долгосрочная политика в развитии информационной инфраструктуры общества.

Список литературы

1. http://ru.wikipedia.org/wiki/Открытые_данные.

2. Демидов М. Открытые данные: Россия стоит на низком старте. CNews.ru: Статьи. http://www.cnews.ru/reviews/index. shtml? 2013/03/27/523707.

3. Открытые государственные данные: российский и зарубежный опыт. Информационный обзор. Серия «Развитие информационного общества и электронного правительства» // Центр технологий электронного правительства НИУ ИТМО. 2012. Вып. 3. — 7 с. http://egov.ifmo.ru/ files/reviews/eGov_Review_2012_03_opendata. pdf.

4. Рейнгольд Л. А., Рейнгольд Е. А., Славин О. А. Интеграция информации в социально-экономической системе как основа инновационного развития государства // Труды ИСА РАН: Методы и модели системного анализа. Оценка эффективности и инвестиционных проектов. Системная диагностика социально-экономиче-

ских процессов: Т. 61. Вып. 3. М.: URSS, 2011. С. 76-83.

5. Федеральный закон Российской Федерации от 9 февраля 2009 г. № 8-ФЗ «Об обеспечении доступа к информации о деятельности государственных органов и органов местного самоуправления». Режим доступа: http://www. rg.ru/2009/02/13/dostup-dok.html.

6. Распоряжение Правительства РФ от 17 декабря 2010 г. № 2299-р. Режим доступа: http:// government.consultant.ru/page.aspx?1536480.

7. Давлетшина П. Правительство вносит поправки к закону «Об открытых данных». http://www. gosbook.ru/node/70958.

8. Постановление Правительства РФ от 10 июля 2013 г. № 583 «Об обеспечении доступа к общедоступной информации о деятельности государственных органов и органов местного самоуправления в информационно-телекоммуникационной сети Интернет в форме открытых данных». http://government.ru/media/ filesM1d47b326fd7c7acda11.pdf.

9. Управление основными данными http:// ru.wikipedia.org/wiki/Управление_основными_ данными.

A. Volkov, Master Degree, CEO, CJSC RDTEX, Post-Graduate Student, Institute of Physics & Technology State University, Moscow Anatoli.Volkov@rdtex.ru

L. Reingold, Candidate of Technics, Consultant, CJSC RDTEX, Moscow, Leonid.Reingold@rdtex.ru

Open data: problems and solutions

This article deals with problems and solutions related to open data, which can be used without any legal limitations (owner's rights, patents, etc.). There is a lot of analytical research of correct definition and reality, advantages and most effective ways of using an open data. In conclusion mentioned the most important questions, related to open data, which will define the effectiveness of future development of information technology.

Keywords: open data, open data classification, five-stars model, normative-legal base of open data.

i Надоели баннеры? Вы всегда можете отключить рекламу.