УДК 330.341 JEL B 49, C82
DOI 10.25205/2542-0429-2018-18-1-83-95
О. Н. Кораблева 1 2, В. Н. Митякова 3, О. В. Калимуллина 1
1 Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики Кронверкский пр., 49, Санкт-Петербург, 197011, Россия
2 Санкт-Петербургский государственный университет Университетская наб., 7-9, Санкт-Петербург, 199034, Россия
3 ООО «Рексофт» пр. Медиков, 3, литера А, Санкт-Петербург, 197022, Россия
on.korableva@gmail.com, chemireva@mail.ru, vnmilyakova@gmail.com
МЕТОДОЛОГИЯ СБОРА ДАННЫХ ОБ ИННОВАЦИОННОЙ АКТИВНОСТИ И ЕЕ ВЛИЯНИИ НА ПОТЕНЦИАЛ ЭКОНОМИЧЕСКОГО РОСТА НА ОСНОВЕ ПОСТРОЕНИЯ ОНТОЛОГИЙ *
Экономика как концептуально многообразная область представляет собой сложную систему, где большие объемы качественной и количественной информации зачастую находятся в слабоструктурированной или неструктурированной форме. Использование технологий семантического веба позволяет привести к единой, гибкой структуре и интегрировать не только количественные, но и, что особенно важно, качественные показатели и создать условия для машинной обработки в дальнейшем. В рамках исследования разработана методология и алгоритмы поиска источников и сбора экономических данных и их приведения к структуре разработанной онтологии инновационной активности и экономического потенциала. Актуальность и научная новизна исследования обусловлена предметной областью, а также применением технологий семантического веба к сбору информации из гетерогенных распределенных источников, в том числе из слабоструктурированных и неструктурированных.
Ключевые слова: экономика, онтология, методология сбора данных, потенциал экономического роста, инновационная активность, семантический веб.
Введение
Наращивание инновационного потенциала играет центральную роль в динамике роста успешных развивающихся стран. При этом инновации - это не только высокотехнологичная продукция, но и комплексная инновационная инфраструктура с широкими возможностями обучения, которые позволят значительно улучшить позиции в области инновационного развития и повысить инновационную активность.
* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 16-29-12965/17.
Кораблева О. Н, Митякова В. Н., Калимуллина О. В. Методология сбора данных об инновационной активности и ее влиянии на потенциал экономического роста на основе построения онтологий // Мир экономики и управления. 2018. Т. 18, № 1. С. 83-95.
ISSN 2542-0429. Мир экономики и управления. 2018. Том 18, № 1 © О. Н. Кораблева, В. Н. Митякова, О. В. Калимуллина, 2018
В рамках предыдущего этапа исследования 1 была разработана онтология инновационной активности и ее связи с потенциалом экономического роста, описывающая сложные взаимосвязи и взаимозависимости понятий рассматриваемой предметной области, а также специфику инноваций как объектов управления: проблемы коммерциализации инноваций, в том числе связанные с недостатками инновационной инфраструктуры; низкий уровень технологической регламентации; длительный период протекания; способность к диффузии; быстрые темпы морального устаревания результатов инновационной деятельности; отсутствие детерминированной связи между усилиями и результатами; риск непринятия инновации; юридическая защищенность проекта. Таким образом, анализ специфики предметной области выявил необходимость построения комплексной интегрированной модели с помощью технологий семантического веба, способной отразить весь спектр взаимосвязей и взаимозависимостей между понятиями инновационной активности и экономического потенциала в контексте экономики РФ на макроуровне.
В связи с обозначенной спецификой инновационных процессов возникает необходимость проводить анализ качественных показателей наряду с количественными, поэтому проблема их интеграции из распределенных гетерогенных источников и дальнейшей обработки приобрела особое значение. Технология сбора данных на основе онтологии (семантический поиск), отражающей сложную структуру понятий, взаимосвязей и взаимозависимостей экономики страны на макроуровне, является современным и перспективным способом интеграции, обладающим более широкими возможностями, по сравнению с классическим подходом на основе баз данных, и позволяющим делать автоматические умозаключения об уже имеющихся или вновь вводимых фактах и тем самым производить семантическую обработку информации. Несмотря на многообразие способов моделирования экономических процессов, значительным преимуществом онтологического моделирования является возможность последовательной обработки текстов на естественном языке с извлечением информации на основе семантического поиска, при этом осуществлять поиск и обработку не только структурированной, но также и неструктурированной информации.
Таким образом, в данной работе для моделирования предметной области онтология используется по нескольким причинам.
Во-первых, строится единая недвусмысленная модель предметной области в удобной для восприятия человеком форме (например, в виде графа), что особенно важно в междисциплинарном проекте. Такая модель позволяет включить в структурированном виде все необходимые для поставленной задачи понятия и связи, отразить взаимное влияние и взаимозависимости, а также отбросить ненужные понятия и связи.
Во-вторых, онтология используется для построения в дальнейшем на ее основе информационной системы автоматизированного сбора данных в области экономики страны на макроуровне.
Уникальность исследования обусловливается применением технологий семантического веба к сбору информации из гетерогенных распределенных источников, в том числе слабоструктурированных и неструктурированных. Новизна определяется практически полным отсутствием подобных исследований применительно к предметной области «экономика страны на макроуровне».
Методы
В ходе исследования были использованы разнообразные методы: онтологическое моделирование, методы дескриптивной логики, методы теории графов и др.
Интеграция данных из распределенных гетерогенных источников в работе производится на основе структуры онтологии. Для описания онтологий используются специальные формальные языки (RDF, OWL и др.). В рамках данной работы была разработана онтология, предназначенная для сбора данных для дальнейшего построения моделей прогнозирования потенциала экономического роста.
1 Кораблева О. Н., Митякова В. Н., Калимуллина О. В. Онтологическое моделирование инновационной активности и потенциала экономического роста // Вестн. ВГУ. Серия: Экономика и управление. 2017. № 3. С. 160-167.
Методы дескриптивной логики применяются при разработке и кодировании онтологии для сбора экономических показателей, поскольку эти методы лежат в основе языков описания онтологий.
Методы теории графов используются при визуализации схемы онтологии в виде ориентированного графа. При этом вершинами являются классы онтологии, связями - отношения между классами.
Также для решения поставленной задачи были разработаны алгоритмы и методология сбора данных из распределенных гетерогенных источников, содержащих информацию о макроэкономических статистических показателях.
Обзор литературы
Методология сбора и обработки данных на основе семантического поиска рассматривалась в работе ряда авторов.
В статье [1] Xin Liu и др. представили подход к построению семантической системы интеграции данных из реляционных баз данных для нефтедобычи, основанный на онтологии предметной области. На основе структур этих источников строится глобальная семантическая модель. Доступ к данным предоставляется в ее терминах при помощи SPARQL-запросов, которые транслируются в SQL-запросы и передаются в соответствующие базы данных для получения ответа. Также производится логический вывод для получения скрытых связей. В отличие от нашей работы, онтология в статье используется для унификации запросов к некоторому набору баз данных одной предметной области, но сами данные остаются в базах данных.
В работе [2] Dominic Girardi и др. описывают систему для ручного ввода и анализа гетерогенных данных на основе онтологии, не зависящую от предметной области. При настройке системы создается онтология, которая используется для хранения данных и генерации интерфейса пользователя для их ввода на основе типа (строка, число, файл и др.). В отличие от нашей работы, статья направлена на методы обработки данных (при помощи самоорганизующейся карты Кохонена, статистического анализа для повышения качества данных и др.). Данные из заранее определенных источников вводятся вручную.
В статье [3] предлагается подход к управлению данными на основе онтологии, а именно для координации, интеграции и поддержки данных, необходимых для разработок в области науки, технологий и инноваций. Этот подход представляет собой способ интеграции информации, в котором глобальная схема данных заменяется концептуальной моделью предметной области, определяемой с помощью онтологии. Авторы утверждают, что разработанная ими онтология многомерной оценки исследований позволяет однозначно определять и указывать индикаторы, на которых основана оценка, отслеживать их изменение с течением времени, а также анализировать влияние фактического использования показателей на поведение ученых и выявлять оппортунистические формы поведения. Также разрабатывается система мониторинга для отслеживания изменений установленных критериев оценки с течением времени и их влияния на исследовательскую систему.
Интересна докторская диссертация Kurt Uwe [4] в части сбора структурированных данных в области электронной коммерции, где предлагается использовать сходство в шаблонах вебстраниц, вызванное популярностью программного обеспечения и типовой разметки данных, обнаруженной в подмножестве веб-страниц, в качестве данных для машинного обучения.
Gaihua Fu [5] вносит свой вклад в формальный и полуавтоматический подход к разработке онтологий на основе метода анализа формальных концепций (FCA) с целью интеграции данных, которые содержат неявную и неоднозначную информацию. FCA поддерживает разработку онтологий путем извлечения концепций из атрибутивных описаний объектов, что позволяет автоматизировать некоторые процессы разработки онтологии. Автором проведено исследование по нескольким нетривиальным промышленным наборам данных. Полученные экспериментальные результаты показывают, что метод предлагает эффективный механизм, позволяющий организациям опрашивать и проверять разнородные данные и создавать знания, которые отвечают потребностям бизнеса.
В статье [6] содержится обзор систем и подходов к интеграции гетерогенных данных на основе онтологий до 2001 г. В отличие от нашей работы, в качестве источников данных рассматриваются базы данных и онтологии.
Подавляющее большинство имеющихся проектов ориентировано на онтологическое моделирование бизнес-процессов, работ, в которых бы обсуждалось онтологическое моделирование потенциала экономического роста и показателей инновационной активности в рамках страны, практически нет. Работы, коррелирующие с темой настоящего исследования, крайне немногочисленны: исследование И. В. Ефименко и В. Ф. Хорошевского [7], докторская диссертация Claudius Gräbner [8], работа Ivar Blums, Hans Weigand [9]. Это подтверждает актуальность и научную новизну проводимого авторами исследования.
Исследование
Несомненно, онтологический подход к сбору данных обладает значительными преимуществами по сравнению с другими подходами.
Классическим подходом является сбор на основе структуры базы данных [10]. При этом создается база данных (как правило, реляционная), и агрегируемые данные из различных источников приводятся к ее структуре. Онтологический подход является его альтернативой, предоставляющей качественно новые возможности, что особенно актуально в случае рассматриваемой предметной области «экономика страны на макроуровне» с акцентом на взаимосвязь понятий инновационной активности и роста экономического потенциала.
Как было выяснено в ходе анализа исследований, онтологии широко используются для гибкой интеграции данных, при которой данные из распределенных гетерогенных источников приводятся к структуре онтологии. Достоинство такого подхода заключается в построении единой недвусмысленной модели предметной области (что особенно важно в междисциплинарных проектах), позволяющей включить все необходимые для поставленной задачи понятия и связи и отбросить ненужные, а также возможности генерации пользовательского интерфейса на основе высокоуровневой семантической модели данных [11; 12]. На основе онтологии возможно построение баз знаний, которые (в отличие от обычной базы данных) содержат в себе не только фактическую информацию, но и правила вывода, позволяющие делать автоматические умозаключения об уже имеющихся или вновь вводимых фактах и тем самым производить семантическую обработку информации.
Представим построение схемы онтологии.
Прежде всего для решения задачи сбора экономических данных в нашей работе была разработана схема онтологии (рис. 1). Онтология, предлагаемая в настоящей работе, является уникальной в своей предметной области, представляет собой систематизированный свод знаний в части понятия инновационной активности и его связи с ростом экономического потенциала, включает 263 понятия, описывает связи и взаимосвязи понятий, которые, в свою очередь, были разделены на классы, подклассы, экземпляры с обозначением отношений.
На рис. 2 наглядно представлена часть схемы онтологии, формирующая структуру для сбора экономических данных. Овалами обозначены классы онтологии, прямоугольниками -конкретные значения указанных свойств, связи без подписи относятся к типу «имеет подкласс».
Класс «Данные» имеет два подкласса - «Структурированные», экземплярами которого в основном являются значения конкретных показателей с указанием свойств (например, год, для которого приведено значение; отрасль; федеральный округ и др.), и «Неструктурированные» - экземплярами в основном являются ссылки на релевантные документы. Для определения того, к чему относится конкретный показатель, эти классы имеют объектное свойство «имеет тип», которое ссылается на классы, являющиеся отражением предметной области и иерархически раскрывающие сущность «Потенциал экономического роста».
Для выделения типов источников данных был произведен поиск источников данных в сети Интернет. В результате все данные были разделены на группы: индексы (количественная информация), рейтинги / рэнкинги (количественная информация), аналитические данные (количественная и качественная информация), статистика (количественная информация), нормативно-правовая база (качественная и количественная информация), научные публика-
ции (качественная информация), периодика (качественная информация), справочники и словари (качественная информация), официальные сайты, программы, спецификации (качественная информация). Наиболее значимые из них приведены в табл. 1.
макроуровень
мезоуровень
микроуровень
Рис. 1. Агрегированная схема онтологии
Рис. 2. Часть схемы онтологии. Показатель «Потенциал экономического роста» высший в иерархии, поэтому все классы наследуют объектное свойство «имеет тип» - «Данные»
Таблица 1
Наиболее значимые источники исследования
Ссылка на источник Форматы данных Какие данные содержит
http://www.gks.ru/ xls Целевые индикаторы реализации стратегии инновационного развития, статистика инноваций в РФ, основные социально-экономические показатели РФ
http : //data. worldbank .org/ xls, csv Широкий спектр данных об уровне развития РФ
данные .минобрнауки.рф/ xml, json, csv Данные о развитии образования и науки РФ
http://www.raexpert.ru xls, html Аналитические материалы по состоянию и развитию финансового рынка, анализ макроэкономической ситуации, анализ деятельности отраслей, регионов, организаций
http : //gtmarket. ru xls, html Центр гуманитарных исследований представляет аналитические данные
http://www.sci-innov.ru/wsdl/ веб-сервис Федеральный портал по научной и инновационной деятельности представляет статистические и аналитически данные
https://data.oecd.org/api/ веб-сервис Официальный сайт организации экономического сотрудничества и развития содержит более 100 показателей по России, которые охватывают широкий спектр областей
Выделим типы данных из списка начальных источников информации.
1. Таблицы в документах форматов PDF, XLS, HTML. Данные форматы предназначены для отображения информации в наглядной форме. Сложность сбора данных зависит от конкретного документа.
2. Веб-сервисы и сайты, предоставляющие API (формат JSON/XML). Является самым подходящим типом источников, так как данные отдаются в машиночитаемых форматах, и их сбор не представляет трудности с технической точки зрения.
3. Тексты на естественном языке. Могут содержаться в документах разных форматов (PDF, HTML, электронных письмах и т. д.). На данный момент не существует методов, позволяющих со стопроцентной точностью извлекать требуемые данные из произвольных текстов. В данной статье не рассматривается сбор данных из этого источника.
Следует отметить незначительное число источников данных второго типа. Среди русскоязычных сайтов такой тип доступа к данным предоставляет только сайт Министерства образования и науки РФ 2, а, например, сайт «Федеральной службы государственной статистики» 3 предоставляет пользователям интерфейс навигации по своей базе данных. Также данные могли бы содержаться в других машиночитаемых форматах: HTML-документах со встроенным RDFa 4 и в SPARQL-точках доступа 5, но на данный момент таких источников в интересующей предметной области не было найдено.
2 Министерство образования и науки Российской Федерации. Открытые данные М1р://открытые-данные.мин-обрнауки.рф/.
3 Официальный сайт федеральной служба государственной статистики - http://www.gks.ru/.
4 RDFa 1.1 Primer - https://www.w3.org/TR/xhtml-rdfa-primer/.
5 SPARQL-точки доступа https://www.w3.org/TR/sparql11-protocol/.
Поиск источников данных осуществляется на основе поисковых запросов, направляемых в поисковую систему общего назначения. Оператор пишет запрос на естественном языке или как набор ключевых слов. Из запроса убираются знаки препинания и предлоги. Оператор также может строить запрос на основе структуры онтологии, для этого необходимо выбрать класс и значения его параметров для уточнения запроса. При поиске учитываются не только указанный класс и его синонимы при наличии, но и его родительский класс и подклассы для расширения поиска при малом количестве результатов. Также связи между понятиями используются для уменьшения многозначности для получения более релевантных запросов.
Для поддержания процессов поиска источников и сбора данных был разработан прототип системы для сбора макроэкономических и статистических данных (САСД) (рис. 3).
задать начальные источники данных
задать параметры системы для сбора данные
I
_I_
задать запросы для
поиска новых источников данных
<по каждому источнику
< источник формата pdf, xls и HTML, содержит табличные _данные^
I Да
оператор семантически аннотирует данные в таблицах
< источник веб-сервис?
< источник содержит текст на естественном языке?
| Да
САСД собирает данные и при водит к структуре онтологии
САСД производит предварительную обработку данных и сохраняет в онтологию
--^
Конец
Рис. 3. Методология сбора данных (составлено авторами)
На этапе сбора данных из выделенных типов источников формируются потенциальные экземпляры классов в формате, пригодном для дальнейшего сохранения в онтологию.
Большинство найденных источников для данной работы предоставляют данные в виде PDF-таблиц. Как уже было сказано, формат PDF предназначен для выгрузки информации в удобной для восприятия человеком форме и не является машиночитаемым форматом, что делает задачу сбора данных из PDF-документов непростой и трудоемкой.
Так как в документах встречаются таблицы произвольного вида, перед этапом сбора было принято решение ввести этап семантического аннотирования документа оператором для таблиц каждого типа, при котором каждый столбец сопоставляется с сущностью онтологии. Иначе говоря, оператор указывает, в каком столбце находятся экземпляры какой сущности, в каком значении и другие атрибуты (например, к какому году и отрасли относится значение). Процесс аннотирования оператором планируется поддерживать прототипом САСД. Далее размеченные таблицы передаются в общую для всех типов таблиц программу-конвертер, которая переводит табличные данные в RDF-триплеты.
XLS-таблицы перед аннотированием конвертируются в HTML-таблицы. Из-за особенностей формата PDF таблицы конвертируются в HTML с проблемами (например, появляются лишние пустые или склеенные ячейки, строки), поэтому они аннотируются отдельно. Аннотированные HTML-документы обрабатываются аналогично PDF-документам.
Источником данных может служить веб-сервис - это идентифицируемая веб-адресом программная система со стандартизированными интерфейсами 6. Примером сайта, предоставляющего веб-сервис, является «Федеральный портал по научной и инновационной деятельности» 7. На сегодняшний день для реализации веб-сервисов наибольшее распространение получил протокол SOAP.
Некоторые сайты предоставляют веб-интерфейс программирования приложений (Web API) - определенный набор HTTP-запросов, а также определение структуры HTTP-ответов, для выражения которых используют форматы XML (WSDL) или JSON. Web API считают частным случаем веб-сервиса. Web API может предоставляться через протокол SOAP или посредством REST-архитектуры, последний в настоящее время является более популярным. Пример - сайт «Организации экономического сотрудничества и развития» 8. Сайт с Web API предоставляет данные в машиночитаемых форматах, что очень удобно, так как они сразу могут быть переданы на этап предварительной обработки.
Для получения данных через веб-сервис необходимо составить запросы (на языке WSDL для протокола SOAP или в форме HTTP-запроса с параметрами для REST). Так как у каждого сайта свой формат запроса на языке WSDL или через Web API, то и запросы необходимо составлять для конкретного сервиса в зависимости от предоставляемой им информации и требуемых входных параметров. Также остается проблема приведения полученных данных к структуре онтологии - формат отдаваемого JSON или WSDL индивидуален для каждого веб-сервиса (кроме случаев, когда несколько сайтов используют единый формат). Например, сайт «Организации экономического сотрудничества и развития» использует формат SDMX-JSON 9, который был специально создан для удобного доступа к статистическим данным. Таким образом, требуется предварительная настройка перед этапом сбора данных.
Предварительная настройка осуществляется для каждого сайта и состоит в следующем:
1) оператор составляет список запросов в соответствии с предоставляемым API;
2) программист разрабатывает программу-конвертер, которая переводит полученный ответ от сайта в формате JSON / WSDL в триплеты языка описания онтологии.
Далее полученные триплеты отправляются на этап предварительной обработки.
Отметим, что предварительную настройку необходимо выполнить только один раз для источника, после этого сбор данных может быть автоматизирован.
Рассмотрим разрешение конфликтов при приведении данных к структуре онтологии.
6 Веб-служба - Ьйр8://га.№1к1ре111а.о^/№1к1/Веб-служба
7 Федеральный портал по научной и инновационной деятельности - http://www.sci-innov.ru/wsdl/
8 Официальный сайт организации экономического сотрудничества и развития - https://data.oecd.org/ searchresults/?q=russia/.
9 Описание формата БОМХ-КОК - https://data.oecd.org/api/sdmx-json-documentation/.
На этапе сбора данных формируются потенциальные экземпляры класса «Данные» в формате, пригодном для дальнейшего сохранения в онтологию. На данном этапе рассматривается каждый их них на предмет выявления конфликтов в данных.
На этапе предварительной настройки перед сбором данных оператор определяет стратегии автоматического разрешения конфликтов в данных. Если при помощи указанных стратегий конфликт невозможно разрешить, к процессу подключается оператор.
Наиболее популярными стратегиями разрешения конфликтов на произвольных данных являются 10 [13]:
• по частоте - более часто встречающиеся значения считаются приоритетными;
• по дате - более свежие данные считаются приоритетными;
• по степени доверия источнику - у списка заданных источников данные считаются приоритетными;
• по значению - если значение больше / меньше, то оно считается приоритетным. Также может браться среднее значение (или значение может высчитываться по какой-либо заданной формуле).
Для классов конкретных показателей экземпляры формировались на этапе сбора по набору ключевых свойств. Экземпляр класса будем считать конфликтующим, если:
• экземпляр является дублем (для двух экземпляров полностью совпадают все имеющиеся значения свойств);
• есть экземпляр, совпадающий по значениям по набору ключевых свойств.
Например, у класса «Патентная статистика» есть следующие свойства: «имеет значение»,
«значение указано за год», «указано для региона», «единица измерения» и «собрано из источника». Если есть два экземпляра этого класса с одинаковыми значениями свойств «значение указано за год» и «указано для региона», но с отличающимся свойством «имеет значение», то будет обнаружен конфликт [14].
Аналогично для данных, описывающих инновационную инфраструктуру [15]. Например, для экземпляров класса «Университеты» ключевым свойством является название, поэтому если есть два экземпляра с одинаковым значением свойства «Название», но с отличающимися значениями других свойств, то будет обнаружен конфликт.
На этапе разрешения конфликтов рассматривается каждый потенциальный экземпляр класса «Данные» онтологии. Первым шагом проверяется, не является ли текущий экземпляр дублем уже существующего. Если является, то происходит добавление еще одного источника данных к существующему экземпляру. В остальных случаях происходит попытка разрешения конфликта при помощи указанной оператором стратегии. В случае удачи экземпляр сохраняется в онтологию, иначе привлекается оператор для разрешения конфликта вручную.
Методология автоматизированного сбора макроэкономических статистических данных описывает, каким образом при помощи представленных выше алгоритмов производится сбор данных, при поддержке разработанного в рамках нашей работы программного обеспечения САСД.
Приведем методологию сбора данных (см. рис. 3).
1. Оператор должен выполнить предварительную настройку:
a) задать начальные источники данных для типов, выделенных в разделе «Типы источников данных для сбора экономических показателей»;
b) задать параметры системы для сбора: частоту автоматического сбора, необходимость автоматического поиска источников и его частоту;
c) задать запросы для поиска новых источников данных.
2. Для источников формата PDF, XLS и HTML, содержащих данные в виде таблиц, оператор семантически аннотирует таблицы, из которых необходимо извлечь данные.
3. Для веб-сервисов программист выполняет следующие действия:
a) составляет список запросов в соответствии с предоставляемым API;
b) разрабатывает конвертер из формата источника в RDF-триплеты.
10 М1р://открытые-данные. минобрнауки. рф/
4. САСД собирает данные по алгоритму в зависимости от типов источников и приводит к структуре онтологии.
5. САСД производит разрешение конфликтов в данных по алгоритму и сохраняет их в онтологию.
6. Оператор при необходимости просматривает визуализированные данные и общую статистику по собранным данным. К этому моменту САСД рассчитывает базовую статистику: сколько экземпляров какого класса было собрано и сколько имеется всего.
7. Через указанное время автоматизированный сбор данных повторяется САСД.
8. По запросу оператора выполняется поиск новых источников данных по соответствующему алгоритму.
Дискуссия
Из-за того, что источники представлены в форматах, предназначенных для отображения информации в наглядной форме, необходима трудоемкая предварительная настройка.
Данные могли бы содержаться в машиночитаемых форматах: HTML-документах со встроенным RDFa и в SPARQL-точках доступа, но на данный момент таких источников в интересующей предметной области не было найдено. В связи с этим данные приходится собирать из таблиц в документах форматов PDF, XLS, HTML (и текстов на естественном языке). Эти форматы предназначены для выгрузки информации в удобной для восприятия человеком форме и не является машиночитаемым форматом. Требуется значительное количество ресурсов на доработку поддерживающего процесс сбора ПО, поскольку необходимо подстраивать его под каждый конкретный источник, а также участие оператора на этапе настройки, сбора и проверки собранных данных.
Также требуется участие оператора на этапе сохранения данных в онтологию, так как возникают конфликты. Проблема частично решается при помощи задания стратегий разрешения конфликтов. Проблема конфликтов в структуре сохраняемых данных решается на этапе предварительной настройки.
Тем не менее другие системы сбора и интеграции данных, рассмотренные в разделе Related Works, также требуют предварительной настройки или участия оператора в процессе сбора. Предварительную настройку из п. 1 методологии необходимо выполнить только при первом сборе данных, из п. 2-3 - для каждого нового источника. Описанная методология является достаточно гибкой и при необходимости может быть расширена в расчете на сбор данных из других типов источников, а также могу быт изменены параметры автоматизированного сбора данных и поиска источников.
Заключение
Результатом работы являются разработанные алгоритмы семантически управляемого поиска слабоструктурированных и неструктурированных данных с учетом специфики предметной области - экономики как сложной системы; алгоритмы автоматизированного сбора данных для предметной области экономики страны на макроуровне отдельно для данных форматов XLS, PDF, DOC, CSV, XML, JSON, HTML; алгоритм предварительной обработки слабоструктурированных и неструктурированных экономических данных для приведения распределенных гетерогенных данных к единой структуре онтологии. Данные алгоритмы специфичны для разработанной онтологии, поэтому аналогов на данный момент не существует. Также разрабатывается прототип системы для сбора данных на основе методологии автоматизированного сбора макроэкономических статистических показателей для оценки результатов ее практического применения.
В результате исследования были получены данные, собранные при помощи описанных алгоритмов и методологии из выделенных источников данных и приведенные к структуре онтологии, что делает возможным их дальнейшую автоматическую обработку.
Данные были собраны при помощи САСД из начального набора источников. В настоящее время в онтологии содержится 263 класса, 8 свойств, более 436 экземпляров классов. Собранные данные прошли проверку системой логического вывода на согласованность («con-
sistency»), выполнимость понятий («satisfiability») и категоризацию («subsumption»). Это произошло благодаря участию оператора на этапе предварительной настройки прототипа и на этапе разрешения конфликтов в собранных данных.
В работе проанализировано состояние исследований в области поиска, систем сбора и интеграции слабоструктурированных и неструктурированных данных на основе онтологии. В рамках исследования разработана методология и алгоритмы сбора данных и их приведения к структуре созданной в рамках работы онтологии. Разработанная методология и алгоритмы позволяют искать и собирать как качественные, так и количественные экономические данные, приводя их к структуре разработанной онтологии инновационной активности и потенциала экономического роста, что позволяет учесть такие особенности предметной области, как наличие большого количества связей и взаимозависимостей, а также понятий, характеризуемых различными типами данных.
Большой проблемой в нашей работе оказалось найти подходящие источники данных. Самым подходящим типом источников среди найденных являются веб-сервисы и сайты, предоставляющие Web API, так как данные доступны в машиночитаемых форматах, и их сбор не представляет трудности с технической точки зрения. К сожалению, пока их очень мало: среди русскоязычных сайтов такой тип доступа к данным предоставляет только сайт Министерства образования и науки РФ 11 .
В дальнейшем планируется пополнение разработанной онтологии экономическими данными из большего числа источников, оптимизация алгоритмов (в том числе использование в алгоритме поиска источников данных методов компьютерной лингвистики), тестирование пользователями и доработка САСД для большей автоматизации процессов сбора данных и поиска новых источников. Следующим шагом после сбора планируется анализ собранных данных, выявление закономерностей, прогнозирование потенциала экономического роста экономики РФ и показателей инновационной активности. Это позволит разрабатывать стратегии развития на основе комплексного анализа имеющихся ресурсов, ограничений и конъюнктуры, а также ставить более точные структурные и модернизационные цели, что будет способствовать повышению конкурентоспособности экономики и даст возможность выйти на путь устойчивого развития.
Список литературы
1. Xin Liu, Chungjin Hu, Jianyi Huang, Feng Liu. OPSDS: a semantic data integration and service system based on domain ontology // Data Science in Cyberspace (DSC), IEEE International Conference, 2016.
2. Girardi D., Giretzlehner M., Arthofer K. Ontology-Guided Data Acquisition and Analysis. Data analytics // The First International Conference on Data Analytics, 2012
3. Daraio C., Lenzerini M., Leporelli Cl., MoedH. F., Naggar P., Bonaccorsi A., Bartolucci Al. Data integration for research and innovation policy: an Ontology-Based Data Management approach // Scientometrics. February 2016. Vol. 106. Iss. 2. P. 857-871. URL: https://link.springer. com/article/10.1007/s11192-015-1814-/.
4. Kurt Uwe Stoll. Doctoral Thesis. Using Existing Structured Data as a Learning Set for Web Information Extraction in E-Commerce. Universität der Bundeswehr. München, 2016.
5. Gaihua Fu. FCA based ontology development for data integration // Information Processing & Management. 2016. Vol. 52. Iss. 5. P. 765-782. URL: http://www.sciencedirect.com/science/ article/pii/S030645731630019X/.
6. Wache T. Vögele, Visser U. Ontology-Based Integration of Information - A Survey of Existing Approaches // Workshop: Ontologies and Information. 2001. P. 108-117.
7. Ефименко И. В., Хорошевский В. Ф. Онтологическое моделирование экономики предприятий и отраслей современной России. Часть 1. Онтологическое моделирование: подходы, модели, методы, средства, решения / Нац. исслед. ун-т «Высшая школа экономики». М.: ИД ВШЭ, 2011.
11 http://открытые-данные.минобрнауки.рф/
8. Grabner C. A systemic framework for the computational analysis of complex economies. An evolutionary-institutional perspective on the ontology, epistemology, and methodology of complexity economics. A thesis submitted to the Doctoral Commission Dr. rer. pol. of the University of Bremen in fulfillment of the requirements for the degree of Dr. rer. pol. Claudius Grabner. Bremen, 2016.
9. Blums I., Weigand H. Towards a reference ontology of complex economic exchanges for Accounting Information Systems // Proc. Of 20th IEEE International Enterprise Distributed Object Computing Conference (EDOC 2016). Vienna, Austria, 2016. P. 1-10.
10. Калимуллина О. В. Возможности применения гибридных моделей на основе сбалансированной системы показателей в рамках системы риск-менеджмента коммерческого банка // Экономика и менеджмент систем управления. 2014. № 3 (13). C. 30-39.
11. Korableva O., Kalimullina O. Strategic Approach to the Optimization of Organization Based on the BSC SWOT Matrix // Proceedings of the International Conference on Knowledge Engineering and Applications. ICKEA, 2016. Singapore, 2016. P. 212-215.
12. Bleiholder J., Naumann F. Conflict Handling Strategies in an Integrated Information System // Proceeding of the International Workshop on information integration on the Web (IIWEB), 2006.
13. Korableva O. N., Kalimullina O. V., Kurbanova E. S. Building the monitoring systems for complex distributed systems: Problems & solutions. ICEIS 2017 // Proceedings of the 19th International Conference on Enterprise Information Systems. Portugal, Porto, 2017. P. 221-228.
14. Korableva O. N., Razumova I. A., Kalimullina O. V. Research of Innovation Cycles and the Peculiarities Associated with the Innovations Life Cycle Stages // Proceedings of 29th IBIMA Conference. Vienna, Austria, 2017. P. 1853-1862.
Материал поступил в редколлегию 08.07.2017
O. N. Korableva 1 2, V. N. Mityakova 3, O. V. Kalimullina 1
1 ITMO University 49 Kronverksky Ave., St. Petersburg, 197101, Russian Federation
2 St. Petersburg State University 13B Universitetskaya Emb., St. Petersburg, 199034, Russian Federation
3 Reksoft
3 Litera A, Medikov Ave., St. Petersburg, 197022, Russian Federation on.korableva@gmail.com, chemireva@mail.ru, vnmityakova@gmail.com
METHODOLOGY FOR COLLECTING DATA ON INNOVATION ACTIVITY AND ITS IMPACT ON THE POTENTIAL FOR ECONOMIC GROWTH BASED ON BUILDING ONTOLOGIES
The economy, as a conceptually diverse area, is a complex system where large volumes of qualitative and quantitative information are often presented in poorly structured or unstructured form. The use of semantic web technologies allows to adjust to a single, flexible structure and to integrate not only quantitative but, what is especially important, qualitative indicators and create conditions for computer processing in the future. Within the framework of the research, a methodology and algorithms for searching for sources and collecting economic data and their reduction to the structure of the established ontology of innovation activity and economic potential have been developed. The relevance and scientific novelty of the study is due to the subject area, as well as the application of semantic web technologies to the collection of information from heterogeneous distributed sources, including weakly structured and unstructured ones.
Keywords: economy, ontology, methodology of data collection, potential for economic growth, innovative activity, semantic web.
References
1. Xin Liu, Chungjin Hu, Jianyi Huang, Feng Liu. OPSDS: a semantic data integration and service system based on domain ontology. Data Science in Cyberspace (DSC), IEEE International Conference, 2016.
2. Girardi D, Giretzlehner M., Arthofer K. Ontology-Guided Data Acquisition and Analysis. Data analytics. The First International Conference on Data Analytics, 2012.
3. Daraio C., Lenzerini M., Leporelli Cl., Moed H. F., P. Naggar, A. Bonaccorsi, Bartolucci Al. Data integration for research and innovation policy: an Ontology-Based Data Management approach. Scientometrics, February 2016, vol. 106, iss. 2, p. 857-871. URL: https://link.springer.com/ article/10.1007/s11192-015-1814-0/.
4. Kurt Uwe Stoll. Doctoral Thesis. Using Existing Structured Data as a Learning Set for Web Information Extraction in E-Commerce. Universität der Bundeswehr, München, 2016.
5. Gaihua Fu. FCA based ontology development for data integration. Information Processing & Management. 2016, vol. 52, iss. 5, p. 765-782. URL: http://www.sciencedirect.com/ science/ arti-cle/pii/S030645731630019X/.
6. Wache, T. Vögele, U. Visser. Ontology-Based Integration of Information - A Survey of Existing Approaches. Workshop: Ontologies and Information, 2001, p. 108-117.
7. Efimenko I. V., Khoroshevsky V. F. Ontological modeling of the economy of enterprises and branches of modern Russia. Part 1. Ontological modeling: approaches, models, methods, tools, solutions. Gov. Reseach University Higher School of Economics. Moscow, Publ. house of the Higher School of Economics, 2011. (In Russ.)
8. Gräbner C. A systemic framework for the computational analysis of complex economies. An evolutionary-institutional perspective on the ontology, epistemology, and methodology of complexity economics. A thesis submitted to the Doctoral Commission Dr. rer. pol. of the University of Bremen in fulfillment of the requirements for the degree of Dr. rer. pol. Claudius Gräbner. Bremen, 2016.
9. Blums I., Weigand H. Towards a reference ontology of complex economic exchanges for Accounting Information Systems. Proc. of 20th IEEE International Enterprise Distributed Object Computing Conference (EDOC 2016). Vienna, Austria, 2016, p. 1-10.
10. Kalimullina O. V. The possibilities of applying hybrid models on the basis of a balanced system of indicators within the framework of the risk management system of a commercial bank. Economy and Management of Control Systems, 2014, № 3 (13), p. 30-39. (In Russ.)
11. Korableva O., Kalimullina O. Strategic Approach to the Optimization of Organization Based on the BSC SWOT Matrix. Proceedings of the International Conference on Knowledge Engineering and Applications. ICKEA, 2016. Singapore, 2016, p. 212-215.
12. Bleiholder J., Naumann F. Conflict Handling Strategies in an Integrated Information System. Proceeding of the International Workshop on information integration on the Web (IIWEB), 2006.
13. Korableva O. N., Kalimullina O. V., Kurbanova E. S. Building the monitoring systems for complex distributed systems: Problems & solutions. ICEIS 2017. Proceedings of the 19th International Conference on Enterprise Information Systems. Portugal, Porto, 2017, p. 221-228.
14. Korableva O. N., Razumova I. A., Kalimullina O. V. Research of Innovation Cycles and the Peculiarities Associated with the Innovations Life Cycle Stages. Proceedings of 29th IBIMA Conference. Vienna, Austria, 2017, p. 1853-1862.
For citation :
Korableva O. N., Mityakova V. N., Kalimullina O. V. Methodology for Collecting Data on Innovation Activity and Its Impact on the Potential for Economic Growth Based on Building Ontologies.
World of Economics and Management, 2018, vol. 18, no. 1, p. 83-95. (In Russ.)
DOI 10.25205/2542-0429-201S-1S-1-S3-95