Научная статья на тему 'Метод ситуационного прогнозирования появления новых технологий Индустрии 4.0'

Метод ситуационного прогнозирования появления новых технологий Индустрии 4.0 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
102
27
Поделиться
Ключевые слова
четвертая промышленная революция / Индустрия 4.0 / ситуационный анализ / про-гнозирование / система поддержки принятия решений / сценарный анализ / кластеризация / Industry 4.0 / situational analysis / forecasting / decision support system / scenario analysis / clus-tering

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А. М. Андреев, Д. В. Березкин, И. А. Козлов

В статье рассматривается задача автоматизированного прогнозирования появления и развития ин-новационных технологий на основе анализа потоков больших данных. Показана актуальность выпол-нения такого прогнозирования в условиях Индустрии 4.0. Рассмотрены существующие подходы к про-гнозированию, выявлены их недостатки с учетом специфики решаемой задачи и особенностей больших данных. Для решения задачи предложено использовать разработанный авторами гибридный подход к ана-лизу потоков данных. Он позволяет выполнять автоматизированный мониторинг и прогнозирование развития ситуаций на основе обработки потоков разнородных данных, представленных, в частности, текстовыми документами, числовыми рядами, записями в БД. Предложенный подход включает обна-ружение в потоке данных событий, формирование ситуаций, определение возможных сценариев их дальнейшего развития и подготовку предложений для лиц, принимающих решения. Приведены модели событий, используемые при работе с потоками текстовой и структурированной информации. Для выделения событий, относящихся к инновационным технологиям, в потоке тексто-вых документов используется метод на основе инкрементальной кластеризации. Также с помощью ин-крементальной кластеризации выполняется формирование ситуационных цепочек, отражающих разви-тие технологий с течением времени, при анализе потока структурированных данных. Описан метод формирования сценариев дальнейшего развития анализируемой инновационной технологии на основе принципа исторической аналогии. Предложенный метод позволяет определять наиболее вероятный сценарий с помощью логистиче-ской регрессии, а также выделять оптимистический и пессимистический сценарии на основе метода анализа иерархий. Каждый из сформированных сценариев снабжается рекомендациями по действиям, которые необходимо предпринять для способствования или препятствования развитию технологии по этому сценарию. Приведены примеры ситуаций, построенных на основе анализа потоков текстовых и структурированных данных, а также пример сформированных сценариев и предложений для одной из ситуаций.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А. М. Андреев, Д. В. Березкин, И. А. Козлов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

A method of situational forecasting of the emergence of novel Industry 4.0 technologies

The paper considers the problem of automated forecasting of the emergence and development of innovative technologies based on Big Data Streams analysis. It shows that such forecasting is significant due to Industry 4.0. The authors analyze the existing approaches to forecasting, determine their advantages and shortcomings taking into account the specifics of the task and Big Data features. It is proposed to solve the problem using the hybrid approach to data stream analysis developed by the authors. The approach allows automatic monitoring and forecasting the development of situations based on processing streams of heterogeneous data represented by text documents, numerical series, and records in da-tabases. The process of data stream analysis includes detecting events, forming situations, identifying possible scenarios of their further development and preparing proposals for decision makers. The authors describe event models that are used for processing streams of textual and structured data. The incremental clustering method detects IT events in text documents flows. This method is also utilized in the processing of structured data stream to form situational chains reflecting the development of innovative tech-nologies over time. The method for forming scenarios of the further development of the analyzed innovation technology is based on the principle of historical analogy. The proposed method allows determining the most probable scenario using logistic regression, as well as identifying the most optimistic and pessimistic scenarios via the Analytic Hierarchy Process method. The au-thors describe a way to supplement each scenario with recommendations for decision makers regarding the measures that should be taken to facilitate or hinder the development of technology according to this scenario. The paper provides the examples of situations detected in textual and structured data flows, as well as an example of scenarios and recommendations generated for one of the situations.

Текст научной работы на тему «Метод ситуационного прогнозирования появления новых технологий Индустрии 4.0»

УДК 004.89 Дата подачи статьи: 27.12.18

DOI: 10.15827/0236-235X.126.227-237 2019. Т. 32. № 2. С. 227-237

Метод ситуационного прогнозирования появления новых технологий Индустрии 4.0

А.М. Андреев 1, к.т.н, доцент, arkan.dreev@gmail.com

Д.В. Березкин 1, к.т.н, доцент, berezkind@fomstu.ru

И.А. Козлов 1, младший научный сотрудник, kozlovilya89@gm.ail.com

1 Московский государственный технический университет им. Н.Э. Баумана, г. Москва, 105005, Россия

В статье рассматривается задача автоматизированного прогнозирования появления и развития инновационных технологий на основе анализа потоков больших данных. Показана актуальность выполнения такого прогнозирования в условиях Индустрии 4.0. Рассмотрены существующие подходы к прогнозированию, выявлены их недостатки с учетом специфики решаемой задачи и особенностей больших данных.

Для решения задачи предложено использовать разработанный авторами гибридный подход к анализу потоков данных. Он позволяет выполнять автоматизированный мониторинг и прогнозирование развития ситуаций на основе обработки потоков разнородных данных, представленных, в частности, текстовыми документами, числовыми рядами, записями в БД. Предложенный подход включает обнаружение в потоке данных событий, формирование ситуаций, определение возможных сценариев их дальнейшего развития и подготовку предложений для лиц, принимающих решения.

Приведены модели событий, используемые при работе с потоками текстовой и структурированной информации. Для выделения событий, относящихся к инновационным технологиям, в потоке текстовых документов используется метод на основе инкрементальной кластеризации. Также с помощью инкрементальной кластеризации выполняется формирование ситуационных цепочек, отражающих развитие технологий с течением времени, при анализе потока структурированных данных. Описан метод формирования сценариев дальнейшего развития анализируемой инновационной технологии на основе принципа исторической аналогии.

Предложенный метод позволяет определять наиболее вероятный сценарий с помощью логистической регрессии, а также выделять оптимистический и пессимистический сценарии на основе метода анализа иерархий. Каждый из сформированных сценариев снабжается рекомендациями по действиям, которые необходимо предпринять для способствования или препятствования развитию технологии по этому сценарию. Приведены примеры ситуаций, построенных на основе анализа потоков текстовых и структурированных данных, а также пример сформированных сценариев и предложений для одной из ситуаций.

Ключевые слова: четвертая промышленная революция, Индустрия 4.0, ситуационный анализ, прогнозирование, система поддержки принятия решений, сценарный анализ, кластеризация.

Бурное развитие информационных и коммуникационных технологий постепенно превращает среду обитания человека в киберфизи-ческую систему, что приводит к существенному изменению социальных и экономических отношений. В работах современных исследователей для описания этого явления используется ряд близких по своему значению терминов, таких как четвертая промышленная революция, цифровая экономика, Индустрия 4.0. В [1] отмечается, что беседа с компьютером вскоре станет нормой, что приведет к явлению, которое можно назвать окружающим разумом. Различные устройства становятся неотъемлемой частью личной экосистемы человека. При этом

происходят синтез и взаимодействие различных технологий в физических, цифровых и биологических областях, что составляет фундаментальное отличие четвертой промышленной революции от всех предыдущих революций. В качестве ее базового инфраструктурного элемента рассматривается Интернет вещей (Internet of things, IoT).

Развитие современного общества существенно ускоряется, и происходящие в нем изменения охватывают все сферы общественной жизни: политику, экономику, социальные и культурные отношения. На эту особенность ученые обратили внимание уже достаточно давно. В работе [2] отмечается, что для успеш-

ной адаптации к постоянно изменяющимся условиям необходимо предугадывать направление и скорость этих перемен. Таким образом, обосновывается потребность в появлении все более точных и долгосрочных прогнозов на будущее. Поскольку в условиях Индустрии 4.0 происходящие в обществе изменения неразрывно связаны с новыми технологиями, особую важность имеет прогнозирование их появления и развития, а также возможных последствий от их распространения. С переходом к цифровой экономике и с активным распространением технологий 1оТ у многих категорий специалистов (ученых, инженеров, экономистов, политиков, социологов, экологов и др.) появляется потребность оперативно получать результаты таких прогнозов, причем для совершенно разных, но часто связанных между собой предметных областей.

Существующие подходы к решению этой задачи носят, как правило, экспертный характер. Они требуют привлечения для подобных исследований большого числа специалистов из разных предметных областей, а также сложных процедур оценки и обобщения экспертных мнений, которые также должны осуществляться экспертным путем. Результаты подобных исследований известны, например [3], но они потребовали больших усилий, временных затрат и организации работы на уровне государства и смогли ответить лишь на некоторые вопросы стратегического развития науки и техники для отдельных областей экономики страны. В связи с этим высокую актуальность имеют исследования, посвященные разработке автоматизированных методов прогнозирования, требующих минимального участия экспертов и легко адаптируемых для анализа различных предметных областей.

Еще одним вызовом, стоящим перед обществом в условиях четвертой промышленной революции, является возрастающая сложность управления [4]. От органов управления государств, компаний и отдельных граждан требуется принятие правильных решений относительно разработки и внедрения новых технологий. Принятие таких решений можно считать задачей национальной или даже интернациональной важности: при грамотном использовании инновации приносят экономическую пользу и дают существенное конкурентное преимущество, однако неосторожное применение новых технологий может привести к возникновению угроз безопасности граждан, государств или всего человечества.

Задача принятия решений осложняется проблемой сверхвыбора: разнообразие технологий приводит к тому, что анализ возможных решений и выбор наилучшего из них становятся чрезвычайно трудными и дорогостоящими. Кроме того, вследствие ускорения перемен в окружающей среде и увеличения объемов информации, поступающих лицу, принимающему решения (ЛПР), происходит его информационная перегрузка, что снижает возможность эффективного реагирования на изменения и принятие рациональных решений [2]. Это свидетельствует о том, что поддержка принятия решений относительно разработки, развития, внедрения и использования новых технологий Индустрии 4.0 должна быть автоматизированной.

Система поддержки принятия решений выполняет подготовку для ЛПР предложений по действиям, способствующим наиболее благоприятному развитию текущей ситуации (например, рекомендует направить ресурсы на исследования в новой многообещающей технологической области или прекратить разработку малоперспективной технологии). Но для выработки таких предложений требуется прогнозирование дальнейшего развития ситуации в случае принятия того или иного решения.

Таким образом, для принятия наилучших управленческих решений в условиях Индустрии 4.0, предотвращения развития угроз и эффективной адаптации к стремительным изменениям в обществе необходимо осуществлять автоматизированное прогнозирование появления и развития новых технологий с использованием всей доступной для этого информации. Решению этой задачи посвящена данная статья.

Требования к методу прогнозирования

Одна из важных особенностей четвертой промышленной революции состоит в появлении возможности и необходимости обработки потоков больших данных для решения разнообразных аналитических задач. Так, основой для прогнозирования появления и развития новых технологий являются огромные массивы данных, динамически поступающих из открытых и специализированных источников - новостных порталов, корпоративных БД, сторонних информационных систем. Динамический характер потоков данных позволяет проследить историю развития технологии с течением времени, и эта история должна учитываться

при построении прогноза ее дальнейшего развития.

В качестве основных свойств, характерных для больших данных, обычно выделяют так называемые «три V». Данные имеют огромный объем (Volume) и высокую скорость прироста (Velocity), что накладывает ограничения на методы их обработки: необходимо использовать методы, позволяющие уточнять результаты анализа при поступлении новых данных без выполнения полного перерасчета на основе всей собранной информации. Кроме того, большие данные отличаются многообразием (Variety), в связи с чем методы их обработки должны иметь возможность работы с различными типами как структурированной, так и неструктурированной информации.

С учетом характеристик больших данных и особенностей решаемой задачи можно выделить следующие требования, которым должен удовлетворять метод прогнозирования развития новых технологий:

- возможность совместного анализа разнородных данных;

- возможность автоматического анализа данных;

- учет динамики развития ситуаций;

- возможность использования результатов прогнозирования для принятия управленческих решений по разработке, развитию и внедрению новых технологий.

Существующие методы прогнозирования

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Важное место среди существующих формализованных методов прогнозирования занимает прогнозирование временных рядов, которое подразумевает, что известно значение некой функции в первых n точках временного ряда. Используя эту информацию, необходимо спрогнозировать значение в n + 1-й точке временного ряда. При анализе развития новой технологии временными рядами могут быть представлены:

- динамика активности публикации новостей средств массовой информации, посвященных технологии;

- количество полученных патентов, связанных с технологией.

Для прогнозирования временных рядов используется широкий спектр методов: регрессионные модели, авторегрессионные модели (ARIMA, GARCH), модель экспоненциального сглаживания, модель скользящих средних и другие [5].

На рисунке 1 представлен прогноз, построенный для временного ряда, отражающего активность появления публикаций, посвященных Интернету вещей. Прогноз получен путем сглаживания методом наименьших квадратов.

Рис. 1. Временной ряд, отражающий популярность запроса Интернет вещей

(сплошная линия), и построенный для него прогноз (пунктирная линия)

Fig. 1. A time series reflecting the popularity of the Internet of Things query (solid line), and the forecast built for it (dashed line)

Во многих практических задачах данные представлены не временными рядами, а наборами признаков: х = (х|, xf,..., x"). В этом случае прогнозирование можно рассматривать как задачу классификации [6]. Подходы на основе классификации предполагают отнесение анализируемого объекта к одному из нескольких классов: y е {y1, y2, ..., yN}. При применении классификации для решения задачи прогнозирования в качестве классов могут быть использованы:

- различные варианты развития технологии (например, появление на рынке продукта, реализующего некоторую новую технологию (y1), и отсутствие такого продукта (y2));

- возможные сроки реализации/внедрения технологии ( например, выход технологии на рынок в течение полугода (y1), года (y2) или трех лет (y3)).

В качестве признаков, описывающих технологию, могут использоваться, в частности, количество патентов, относящихся к данной технологии (числовой признак), отрасль, к которой относится технология (категориальный признак), тип компании, разрабатывающей технологию, - публичная или частная (бинарный признак).

Среди моделей классификации наибольшее распространение получила бинарная классификация, когда решается вопрос о принадлежности объекта к одному из двух классов. На

практике при обработке данных многие задачи классификации могут быть сведены к бинарным. Для построения бинарных моделей широко применяются такие эффективные методы, как дерево решений, метод ближайших соседей, наивный байесовский классификатор, логистическая регрессия, метод опорных векторов и другие [7]. В качестве обучающей выборки используются ретроспективные данные, для которых известно значение выходной переменной.

Рассмотренные методы формируют прогноз автоматически и позволяют учесть при прогнозировании динамику развития ситуации. Однако они предназначены для анализа конкретных типов данных и не могут быть применены для работы с потоками разнородных данных. Кроме того, результаты прогнозирования, полученные с их помощью, нельзя непосредственно использовать для генерации рекомендаций для ЛПР - формирование таких предложений является отдельной задачей.

С целью устранения этих недостатков было решено использовать для прогнозирования развития новых технологий предложенный авторами гибридный подход к анализу потоков разнородных данных [8].

Гибридный подход к прогнозированию развития ситуаций

Подход основан на выполнении мониторинга и прогнозирования развития различных ситуаций, отраженных в потоках разнородных данных. Для мониторинга развития некоторой новой технологии необходимо отслеживать изменения в потоке данных, относящиеся к этой технологии. Такие изменения рассматриваются как события £г. Последовательное обнаружение событий позволяет сформировать цепочку взаимосвязанных событий, отражающую развитие технологии с течением времени. Такие цепочки будем называть ситуациями:

/12 п\

* = (В,, б2 6, ) .

При обнаружении событий необходимо учитывать, что при работе с разными типами данных используются различные модели событий. Также различаются методы, используемые для обнаружения событий и объединения событий в цепочки. Таким образом, задача мониторинга развития новых технологий редуцируется на подзадачи обнаружения последовательностей взаимосвязанных событий, отраженных в потоках данных различного типа.

Прогнозирование дальнейшего развития технологии состоит в определении возможных вариантов продолжения ситуационной цепочки, сформированной к настоящему моменту. Каждый из них представляет собой последовательность событий, которые могут наступить в будущем. Такие цепочки будем называть сценариями: £ = (в^, в^, ..., в^). Представление ситуаций и сценариев цепочками событий позволяет учесть динамику развития ситуаций при прогнозировании.

Единый способ представления ситуаций и сценариев позволяет единообразно выполнять прогнозирование при работе с разными типами данных. Таким образом, предложенный подход является гибридным: на этапе прогнозирования выполняется агрегирование результатов решения подзадач мониторинга развития ситуаций, полученных с использованием различных моделей и методов обнаружения событий.

Для эффективного использования результатов прогнозирования из множества сформированных сценариев необходимо выделять три варианта, представляющих наибольший интерес для ЛПР: пессимистический, оптимистический и наиболее вероятный. Кроме того, поскольку результаты прогнозирования должны использоваться для принятия управленческих решений по развитию и внедрению новых технологий, для каждого сценария также требуется формировать предложения для ЛПР по действиям, которые необходимо предпринимать для содействия или противодействия дальнейшему развитию технологии по этому сценарию.

Этапы гибридного подхода к мониторингу и прогнозированию развития ситуаций отражены на рисунке 2.

Обнаружение событий в потоках данных

Для представления событий, отраженных в потоках данных, предложено множество моделей [9-12], в частности: логическое правило, фрейм, отражающий изменение характеристик временного ряда, всплеск во временном ряде, фрейм, отражающий изменение модели представления знаний.

Для каждого из этих способов представления событий используются различные методы выделения событий из потока данных и объединения их в ситуационные цепочки.

В качестве исходных данных для мониторинга и прогнозирования развития инноваци-

I Внешние ИСI

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I____I

Сбор данных

сбор текстовых материалов

Сбор табличных данных

Первичная обработка данных

Первичная обработка текстовых материалов

Первичная обработка табличных данных

Первичная обработка числовыхданных

Отслеживание развития ситуаций

Обнаружение взаимосвязанных событий в потоке текстовых материалов

Обнаружение взаимосвязанных событий в потоке табличныхданных

Обнаружение взаимосвязанных событий в потоке числовыхданных

Построение сценариев и формирование рекомендаций для ЛПР

ЛПР

Эксперты

Рис. 2. Этапы гибридного подхода к прогнозированию развития ситуаций Fig. 2. Stages of a hybrid approach to forecasting the development of situations

онных технологий были выбраны сообщения средств массовой информации (текстовые документы) и записи корпоративных БД с информацией о деятельности компаний, связанной с разработкой и внедрением новых технологий (структурированные данные). В связи с этим рассмотрим более подробно методы обнаружения событий в потоках текстовой и структурированной информации.

Обнаружение событий в потоке текстовых данных. В существующих работах, посвященных задаче обнаружения событий в потоке текстовых документов, используются различные подходы к представлению событий. В частности, событие может быть представлено:

- изменением распределения тем в текстовом потоке [13];

- набором термов, наиболее часто встречающихся в потоке в текущий момент времени [14];

- документом, содержащим описание события [15];

- группой (кластером) документов, описывающих событие [16, 17].

Для обработки потоков больших данных наилучшим образом подходят методы на основе динамической (инкрементальной) кластеризации, поскольку они не требуют повторения кластеризации всех сообщений после каждой загрузки новых данных из источника. При динамической кластеризации каждый документ обрабатывается сразу после его поступления от источника и либо относится к некоторому существующему кластеру, либо становится первым элементом нового кластера.

В [18] авторами предложен подход к обнаружению событий на основе динамической кластеризации, позволяющий осуществлять гибкую настройку на различные предметные области. С этой целью каждый документ представляется многокомпонентной моделью, компоненты которой описывают содержание, структуру и метаданные документа: а. = (а™, а?, а', ар, а^, а?, <, , а'). В частности, компонентами модели являются вектор ключевых слов, множества релевантных документу именованных сущностей, множество встречающихся в тексте документа числовых значений и время публикации сообщения. Каждое событие описывается аналогичной многокомпонентной моделью, компоненты которой формируются на основе документов, относящихся к событию. Для сопоставления документа и события выполняется покомпонентное сравнение моделей ^ и с использованием различных мер близости: косинусной меры, расстояния Левенштейна, коэффициента Жаккара. После получения вектора, состоящего из результатов сравнения моделей по различным критериям, с помощью метода опорных векторов определяется близость ^ к е;, на основе чего принимается решение о том, относится ли документ к событию. Объединение событий в ситуационные цепочки также выполняется на основе покомпонентного сопоставления их моделей.

На рисунке 3 приведен пример ситуации, сформированной на основе анализа текстового потока. Представленная ситуация отражает развитие технологии беспилотных такси.

Ситуация: Тестирование беспилотных такси Uber

Компания Uber запустила беспилотное такси в США

Имя документа Дата публикации Время публикации Источник

Компания Uber запустила беспилотное такси в США 14.09.2016 14:41:39 ТАСС

Uber запустил первые беспилотные такси в США 14.09.2016 17:19:37 РБК

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Беспилотные такси выехали на дороги 14.09.2016 19:40:00 Комсомольская правда

Власти Калифорнии требуют от Uber прекратить использование беспилотных такси

Имя документа Дата публикации Время публикации Источник

Власти Калифорнии требуют, чтобы Uber свернула сервис беспилотного такси в Сан-Франциско 15.12.2016 07:27:16 ТАСС

Власти Калифорнии требуют от Uber прекратить использование беспилотных такси 15.12.2016 07:55:00 Коммерсант

Власти Калифорнии потребовали прекратить эксперимент Uber с беспилотными такси 15.12.2016 09:15:00 Интерфакс

В Калифорнии потребовали ликвидировать сервис беспилотного такси Uber 15.12.2016 09:28:00 Комсомольская правда

Власти вынудили Uber свернуть онлан-вызов такси с автопилотом в Сан-Франциско

Имя документа Дата публикации Время публикации Источник

Власти вынудили Uber свернуть онлайн-вызов такси с автопилотом в Сан-Франциско 22.12.2016 06:01:00 ТАСС

Uber приостановил испытания беспилотных такси в Калифорнии 22.12.2016 10:59:00 Интерфакс

Uber перенесла беспилотные такси в Аризону

Имя документа Дата публикации Время публикации Источник

Uber перенес испытания беспилотных такси в Аризону 23.12.2016 19:51:00 Интерфакс

Uber перенесла беспилотные такси в Аризону 23.12.2016 20:10:00 Вести. Экономика

Uber после неудачи в Калифорнии протестирует сервис беспилотного такси в Аризоне 24.12.2016 07:01:18 ТАСС

Рис. 3. Пример ситуации, сформированной на основе анализа потока текстовых документов Fig. 3. An example of a situation based on the analysis of the text document stream

Обнаружение событий в потоке структурированных данных. В качестве потока структурированной информации при решении задачи прогнозирования развития инновационных технологий рассматривается содержимое постоянно пополняющихся корпоративных БД, отражающее деятельность компаний по созданию, развитию и внедрению новых технологий. Каждая запись в таких базах соответствует некоторому событию. В связи с этим удобным способом его представления является фрейм, слоты которого описывают различные свойства события: е( = ((а1, V1), (а2, V2),..., (а{, V)),

к к 1 где ак и v¡ - имя и значение к-го слота /-го события, f - количество слотов. При использовании фреймового представления «извлечение события» заключается в заполнении слотов фрейма на основе полей некоторой записи БД.

Выделение ситуационных цепочек на основе множества событий можно рассматривать как задачу кластеризации: необходимо разделить все события на группы С = {с/}, каждая из которых соответствует некоторой технологии. Затем из событий группы с/ может быть сформирована цепочка s/ путем упорядочения их по времени наступления. Существуют разнообразные алгоритмы, разделяющие множество объектов на кластеры: графовые (алгоритмы выделения связных компонент и минимального остовного дерева), иерархические, стати-

стические (ЕМ-алгоритм и к-средних), плот-ностные (БВБСАК) [19]. Однако все эти методы выполняют статическую кластеризацию, что предполагает выполнение анализа всего набора событий при каждом его изменении (при добавлении новой записи в базу). При обработке потока структурированных данных новые события поступают постоянно, поэтому для выделения ситуаций удобнее применять динамическую кластеризацию, которая позволяет обрабатывать каждое новое событие по мере его появления.

Пример ситуации, сформированной на основе анализа потока структурированных данных, приведен в таблице. Ситуация отражает развитие технологии онлайн верификации личности пользователей.

Пример ситуации, сформированной на основе анализа потока структурированных данных

An example of a situation based on a structured data stream analysis

Дата Описание события

11.03.2014 Trulioo получает $6 млн. инвестиций

26.06.2014 BlockScore получает начальное финансирование в объеме $2 млн.

31.07.2014 Confident Technologies получает $5.59 млн. инвестиций

09.12.2015 TransUnion приобретает компанию Trustev

Метод формирования сценариев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

После построения цепочки событий, отражающей развитие инновационной технологии с течением времени, необходимо определить возможные сценарии ее дальнейшего развития. Генерация сценариев основана на принципе исторической аналогии: текущая ситуация ¿с подвергается сравнению с эталонными ситуациями е Бе из подготовленной экспертами базы эталонов Бе. Такие эталоны отражают развитие различных технологий в прошлом. Если обнаружено сходство текущей последовательности с начальной частью st(se, Sc) эталонной цепочки, можно предположить, что дальнейшее развитие ситуации ¿с будет аналогично заключительной части этой цепочкиАп^е, ¿с). Таким образом, последовательность событийs•c) можно рассматривать как возможный сценарий дальнейшего развития текущей ситуации.

Предполагается, что ситуации могут быть аналогичными только при наличии попарной близости между некоторыми из составляющих их событий. Поэтому при сравнении цепочек в первую очередь в них выделяются пары аналогичных событий. Для определения аналогичности событий гг и % рассчитывается расстояние между ними уап(ег, %). Если оно меньше порогового значения ТНап, делается вывод о том, что событие ег- аналогично %.

При расчете расстояния уап(ег, %) учитывается близость между событиями с точки зрения различных критериев, при этом набор критериев зависит от предметной области. Расстояние определяется как взвешенная сумма

У ап (В,-, В j) = Е У и , где Nг - количество учи-

к

тываемых критериев; уг . - расстояние между

г-м и 7-м событиями с точки зрения к-го критерия; Хк - вес к-го критерия. Для определения значений весовых коэффициентов Хк и порогового значения ТНап используется метод опорных векторов.

Расстояние между событиями с точки зрения некоторого критерия определяется путем сравнения соответствующих компонентов моделей событий. Если обработке подвергаются данные одного типа, модели всех событий формируются единообразно и состоят из одинаковых компонентов. При обработке потоков данных различного типа формирование моделей событий осуществляется по-разному, однако эти модели могут иметь и однотипные компоненты. В качестве примера рассмотрим событие «поглощение инновационного стартапа

технологическим гигантом». При работе со структурированными данными такие компоненты модели события, как «участники сделки» и «сумма сделки», могут быть получены путем чтения значений определенных полей записи в БД. При анализе текстового потока эти компоненты также могут быть сформированы, но для этого необходимо извлечь именованные сущности и числовые значения из текстов документов. Наличие однотипных компонентов в моделях позволяет определить близость между событиями с точки зрения соответствующих критериев и, следовательно, рассчитать значение расстояния уап(ег, %) между ними. Таким образом, может быть определена аналогичность между событиями, обнаруженными в потоках данных различного типа, что позволяет использовать предложенный подход для совместного анализа потоков разнородных данных.

После выделения в цепочках попарно аналогичных событий выполняется расчет близости между ситуациями. При этом необходимо учитывать, что каждая из ситуаций может содержать события, аналоги которых отсутствуют в другой цепочке. Для сравнения ситуаций используется метод, представляющий собой модификацию расстояния Левенштейна: расстояние между цепочками определяется нормированным суммарным весом операций, необходимых для преобразования s•c) в ¿с:

ДГИ7

Р(,е , ^ ) =

len( st (se, sc ))

(0, + 0,^,« +6 W + 0, W )

^ del del add add rep rep trep trep s

len(st(se, sc))

где len(st(se, Sc)) - длина начальной части эталонной цепочки; W = (Wdel, Wadd, Wrep, Wtrep) -вектор, содержащий суммарные веса различных типов операций преобразования цепочек: операций удаления события из эталонной ситуации (Wdel), операций добавления события в текущую ситуацию (Wadd), операций замены события на его аналог (Wrep), операций изменения временного интервала между событиями (Wtrep); способ вычисления весов зависит от типа анализируемых данных и выбирается исходя из используемых моделей событий;

0 = (0del, 0add, 0rep, 0trep) - коэффициенты, определяющие вклад операций различных типов в значение расстояния.

На основании значения p(se, Sc) требуется определить, является ли текущая ситуация Sc аналогом эталона Se. Установление аналогичности рассматривается как задача логистиче-

ской регрессии. Для этого вводится переменная у, принимающая значение 1, если цепочки не являются аналогами, и 0 в противном случае. Делается предположение, что вероятность наступления события у = 0 (то есть вероятность того, что текущая ситуация является аналогом эталонной) задана логистической функцией от расстояния между цепочками:

Р(у = 0| ^ , ^ ) = 1--1—- .

Значения коэффициентов 0 подбираются методом максимального правдоподобия на основе обучающей выборки, состоящей из множества пар аналогичных и неаналогичных ситуаций. Эталонные цепочки, для которых Р(у = 0|5е, ,5с) > 0,5, считаются аналогами ситуации sc, а их заключительные части рассматриваются как возможные сценарии ее дальнейшего развития.

Заключительная часть цепочки, для которой вероятность аналогичности текущей ситуации максимальна (8рг°ъ = а^ шаха [Р(у = 01 , 8с)]),

является наиболее вероятным сценарием.

Из всего множества сценариев, сформированных для текущей ситуации, выделяются два наиболее интересных для ЛПР - оптимистический и пессимистический. Для их определения

а) Оптимистический сценарий (получение разрешения на использованиетехнологии)

Название события эталонной ситуации Рекомендации

Власти Британии выдали Amazon разрешение на испытания 6еепплотников для доставки товаров actor Руководство компании action Инициировать получение специального разрешения period 1 месяц

б) Наиболее вероятный сценарий (запрет использования технологии до предоставления доказательств безопасности)

Название события эталонной ситуации Рекомендации

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шотландия ввела мораторий на технологию фрекинга actor Руководство компании action Организовать подготовку обоснований безопасности технологии period 3 месяца

в) Пессимистический сценарий (прекращениеиспользования технологии из-за проблем с безопасностью)

Название события эталонной ситуации Рекомендации

Samsung объявил о прекращении производства Galaxy Note 7 actor Руководство компании action Направить средства на развитие других технологий period 3 месяца

Рис. 4. Пример сгенерированных сценариев и предложений Fig. 4. An example of generated scenarios and recommendations

рассчитывается приоритетность всех сценариев с помощью метода анализа иерархий [20]. Также с целью поддержки принятия решений для каждого из сформированных сценариев готовятся предложения относительно действий, которые необходимо предпринимать для способствования или противодействия развитию ситуации по этому сценарию. Для формирования таких предложений при подготовке базы Бе эксперты снабжают каждое событие эталонных ситуаций рекомендациями, указывающими, какое лицо какие действия и в какие сроки должно выполнить при наступлении аналогичного события в будущем.

Пример сгенерированных для текущей ситуации сценариев (наиболее вероятного, оптимистического и пессимистического) и предложений для ЛПР представлен на рисунке 4.

Для каждого сценария ЛПР должно получать информацию об отличиях текущей цепочки от эталонной ситуации, на основе которой сформирован этот сценарий. Даже если ситуации признаются аналогичными, между ними есть определенные структурные и содержательные различия, которые должны учитываться при анализе построенного прогноза и принятии решения о применении полученных

рекомендаций. Для учета этих различий ЛПР предоставляется следующая информация:

- наиболее важные события каждой ситуации, не имеющие аналогов в другой цепочке;

- предложения с наибольшим различительным весом из текстовых описаний текущей и эталонной ситуаций; эти предложения содержат описание наиболее существенных отличительных особенностей каждой из ситуаций относительно другой цепочки.

Заключение

В статье рассмотрено применение гибридного подхода к ситуационному анализу для прогнозирования появления и развития инновационных технологий. Прогнозирование выполняется на основе обработки потоков больших данных, которые могут быть представлены в текстовой, числовой и табличной формах. В основе предложенного подхода лежит последовательное выполнение обнаружения событий в потоках разнородных данных, формирования ситуаций и построения сценариев их дальнейшего развития.

При обработке потоков данных разных типов применяются различные модели событий и методы их обнаружения. Для выявления событий в потоке текстовых документов использован метод на основе инкрементальной кластеризации, имеющий возможность гибкой настройки в зависимости от анализируемой предметной области благодаря использованию машинного обучения. Обнаруженные события объединяются в цепочки (ситуации), отражающие развитие технологий с течением времени.

После формирования ситуационной цепочки выполняется построение возможных сценариев ее развития в будущем. В его основе лежит принцип исторической аналогии: текущая ситуация сравнивается с эталонами из подготовленной экспертами базы. Эталоны, признанные аналогами текущей ситуации, считаются сценариями ее дальнейшего развития. Вероятность сценариев оценивается с помощью логистической регрессии. Из множества сформированных сценариев выделяются оптимистический и пессимистический, для чего используется метод анализа иерархий. Также предложен способ подготовки предложений по действиям, которые необходимо предпринять для способствования или препятствования развитию анализируемой технологии по построенным сценариям. Предложенный метод формирования сценариев учитывает динамику раз-

вития ситуаций и может быть использован для совместного анализа потоков данных разных типов.

Литература

1. Schwab K. The fourth industrial revolution. Crown Publ., NY, 2016, 198 p.

2. Toffler A. Future shock. Random House Publ., NY, 1970, 505 p.

3. Choi M., Choi H. Foresight for science and technology priority setting in Korea. Foresight and STI Governance, 2015, vol. 9, no. 3, pp. 54-67. DOI: 10.17323/1995-459X.2015.3.54.65.

4. Schwab K., Davis N. Shaping the fourth industrial revolution. Geneva, Switzerland, World Economic Forum Publ., 2018, 287 p.

5. Shumway R.H., Stoffer D.S. Time series analysis and its applications: with R examples. Springer, Switzerland, 2017, 562 p. DOI: https://doi. org/10.1007/978-3-319-52452-8.

6. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Н.: Изд-во ИМ СО РАН, 1999. 270 c.

7. Hastie T., Tibshirani R., Friedman J. The elements of statistical learning. Springer-Verlag, NY, 2009, 763 p. DOI: https://doi.org/10.1007/978-0-387-84858-7.

8. Андреев А.М., Березкин Д.В., Козлов И.А. Гибридный подход к прогнозированию развития ситуаций на основе извлечения событий из потоков разнородных данных // Гибридные и синерге-тические интеллектуальные системы: тр. IV Все-рос. Поспеловской конф. с междунар. участием. Калининград: Изд-во БФУ им. И. Канта, 2018. С. 140-147.

9. Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams. Proc. 22nd Conf on Artificial Intelligence, SF, AAAI Press, 2010, pp. 1501-1506.

10. Hogenboom F., Frasincar F., Kaymak U., De Jong F. An overview of event extraction from text. Proc. Workshop DeRiVE-2011, 2011, vol. 779, pp. 48-57.

11. Guralnik V., Srivastava J. Event detection from time series data. Proc. V Intern. Conf. ACM SIGKDD, 1999, pp. 33-42. DOI: 10.1145/312129. 312190.

12. Yao W., Chu C. H., Li Z. Leveraging complex event processing for smart hospitals using RFID. J. Network and Computer Applications, 2011, vol. 34, no. 3, pp. 799-810. DOI: https://doi.org/10.1016/ j.jnca.2010.04.020.

13. Aggarwal C.C., Subbian K. Event detection in social streams. Proc. 2012 SIAM Intern. Conf. on Data Mining, 2012, pp. 624-635. DOI: https:// doi.org/10.1137/1.9781611972825.54.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Weng J., Lee B.S. Event detection in Twitter. Proc. 5th ICWSM, 2011, vol. 11, pp. 401-408.

15. Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Выявление новых событий из потока новостей // Компьютерная лингвистика и интеллектуальные технологии: тр. Междунар. конф. «Диалог-2007», 2007. С. 349-352.

16. Yang Y., Pierce T., Carbonell J. A study of retrospective and on-line event detection. Proc. 21st Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval, 1998, pp. 28-36.

17. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams. Know-

ledge and Information Systems, 2010, vol. 24, no. 2, pp. 171-196.

18. Андреев А.М., Березкин Д.В., Козлов И.А. Подход к автоматизированному мониторингу тем на основе обнаружения событий в потоке текстовых документов // Информационно-измерительные и управляющие системы. 2017. Т. 15. № 3. С. 49-60.

19. Воронцов К.В. Лекции по алгоритмам кластеризации и многомерного шкалирования. 2007. URL: http://www.ccas.ru/voron/download/Clustering. pdf (дата обращения: 10.12.2018).

20. Saaty T.L. The analytic hierarchy process: planning, priority setting, resource allocation. NY, McGraw-Hill Publ., 1980, 287 p.

Software & Systems Received 27.12.18

DOI: 10.15827/0236-235X.126.227-237 2019, vol. 32, no. 2, pp. 227-237

A method of situational forecasting of the emergence of novel Industry 4.0 technologies

A.M. Andreev l, Ph.D. (Engineering), Associate Professor, arkandreev@gmail.com D.V. Berezkin 1, Ph.D. (Engineering), Associate Professor, berezkind@bmstu.ru I.A. Kozlov ', Junior Researcher, kozlovilya89@gmail.com

1 Bauman Moscow State Technical University, Moscow, 105005, Russian Federation

Abstract. The paper considers the problem of automated forecasting of the emergence and development of innovative technologies based on Big Data Streams analysis. It shows that such forecasting is significant due to Industry 4.0. The authors analyze the existing approaches to forecasting, determine their advantages and shortcomings taking into account the specifics of the task and Big Data features.

It is proposed to solve the problem using the hybrid approach to data stream analysis developed by the authors. The approach allows automatic monitoring and forecasting the development of situations based on processing streams of heterogeneous data represented by text documents, numerical series, and records in databases. The process of data stream analysis includes detecting events, forming situations, identifying possible scenarios of their further development and preparing proposals for decision makers.

The authors describe event models that are used for processing streams of textual and structured data. The incremental clustering method detects IT events in text documents flows. This method is also utilized in the processing of structured data stream to form situational chains reflecting the development of innovative technologies over time. The method for forming scenarios of the further development of the analyzed innovation technology is based on the principle of historical analogy.

The proposed method allows determining the most probable scenario using logistic regression, as well as identifying the most optimistic and pessimistic scenarios via the Analytic Hierarchy Process method. The authors describe a way to supplement each scenario with recommendations for decision makers regarding the measures that should be taken to facilitate or hinder the development of technology according to this scenario. The paper provides the examples of situations detected in textual and structured data flows, as well as an example of scenarios and recommendations generated for one of the situations.

Keywords: Industry 4.0, situational analysis, forecasting, decision support system, scenario analysis, clustering.

References

1. Schwab K. The Fourth Industrial Revolution. Crown Publ., NY, 2016, 198 p.

2. Toffler A. Future Shock. Random House Publ., NY, 1970, 505 p.

3. Choi M., Choi H. Foresight for science and technology priority setting in Korea. Foresight and STI Governance. 2015, vol. 9, no. 3, pp. 54-67. DOI: 10.17323/1995-459X.2015.3.54.65.

4. Schwab K., Davis N. Shaping the Fourth Industrial Revolution. World Economic Forum, Geneva, 2018, 287 p.

5. Shumway R.H., Stoffer D.S. Time Series Analysis and its Applications: with R Examples. 4th ed. Springer, Cham, 2017, 562 p. DOI: https://doi.org/10.1007/978-3-319-52452-8.

6. Zagoruyko N.G. Applied Methods of Data and Knowledge Analysis. Novosibirsk, Sobolev Institute of Mathematics Publ., 1999, 270 p.

7. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. 2nd ed. Springer-Verlag Publ., NY, 2009, 763 p. DOI: https://doi.org/10.1007/978-0-387-84858-7.

8. Andreev A.M., Berezkin D.V., Kozlov I.A. Hybrid approach to forecasting the development of situations based on event detection in heterogeneous data streams. Hybrid and Synergetic Intellectual Systems: Proc. IV All-Russ. Pospelov Conf. with Intern. Participation. Kaliningrad, 2018, pp. 140-147 (in Russ.).

9. Zhao Q., Mitra P., Chen B. Temporal and information flow based event detection from social text streams. Proc. 22nd Conf on Artificial Intelligence, SF, AAAI Press, 2010, pp. 1501-1506.

10. Hogenboom F., Frasincar F., Kaymak U., De Jong F. An overview of event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the Semantic Web (DeRiVE 2011) at 10th Intern. Semantic Web Conf (ISWC 2011). 2011, vol. 779, pp. 48-57.

11. Guralnik V., Srivastava J. Event detection from time series data. Proc. 5th A CM SIGKDD Intern. Conf. on Knowledge Discovery and Data Mining. 1999, pp. 33-42.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12. Yao W., Chu C.H., Li Z. Leveraging complex event processing for smart hospitals using RFID. J. of Network and Computer Applications. 2011, vol. 34, no. 3, pp. 799-810. DOI: https://doi.org/10.1016/j.jnca. 2010.04.020.

13. Aggarwal C.C., Subbian K. Event detection in social streams. Proc. 2012 Siam Intern. Conf. on Data Mining. 2012, pp. 624-635. DOI: https://doi.org/10.1137/L9781611972825.54.

14. Weng J., Lee B.S. Event Detection in Twitter. ICWSM. 2011, vol. 11, pp. 401-408.

15. Lande D.V., Braychevsky S.M., Grigorev A.N., Darmokhval A.T., Radetsky A.B. Detection of new events from news flow. Proc. Intern. Conf. "Dialog-2007" on Computer Linguistics and Intelligent Technologies. 2007, pp. 349-352 (in Russ.).

16. Yang Y., Pierce T., Carbonell J. A study of retrospective and on-line event detection. Proc. 21stAnnual Intern. ACMSIGIR Conf. on Research and Development in Information Retrieval. 1998, pp. 28-36.

17. Aggarwal C.C., Philip S.Y. On clustering massive text and categorical data streams. Knowledge and Information Systems. 2010, vol. 24, no. 2, pp. 171-196.

18. Andreev A.M., Berezkin D.V., Kozlov I.A. Automated topic monitoring based on event detection in text stream. J. Information-Measuring and Control Systems. 2017, vol. 15, no. 3, pp. 49-60 (in Russ.).

19. Vorontsov K.V. Lectures on Clustering and Multidimensional Scaling Algorithms. 2007. Available at: http://www.ccas.ru/voron/download/Clustering.pdf (accessed December 10, 2018).

20. Saaty T.L. The Analytic Hierarchy Process: Planning, Priority Setting, Resource Allocation. McGraw-Hill, NY, 1980, 287 p.

Для цитирования

Андреев А.М., Березкин Д.В., Козлов И.А. Метод ситуационного прогнозирования появления новых технологий Индустрии 4.0 // Программные продукты и системы. 2019. Т. 32. № 2. С. 227-237. DOI: 10.15827/0236-235X. 126.227-237.

For citation

Andreev A.M., Berezkin D.V., Kozlov I.A. A method of situational forecasting of the emergence of novel Industry 4.0 technologies. Software & Systems. 2019, vol. 32, no. 2, pp. 227-237 (in Russ.). DOI: 10.15827/0236-235X.126.227-237.