Научная статья на тему 'ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ И МОДЕЛИРОВАНИЕ РАЗВИТИЯ СИТУАЦИЙ НА ОСНОВЕ СОЧЕТАНИЯ НЕЙРОСЕТЕВОЙ ОБРАБОТКИ ТЕКСТОВ, МЕТОДОВ НЕЧЕТКОГО КОГНИТИВНОГО АНАЛИЗА И ДИНАМИЧЕСКОЙ КЛАСТЕРИЗАЦИИ'

ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ И МОДЕЛИРОВАНИЕ РАЗВИТИЯ СИТУАЦИЙ НА ОСНОВЕ СОЧЕТАНИЯ НЕЙРОСЕТЕВОЙ ОБРАБОТКИ ТЕКСТОВ, МЕТОДОВ НЕЧЕТКОГО КОГНИТИВНОГО АНАЛИЗА И ДИНАМИЧЕСКОЙ КЛАСТЕРИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ СИТУАЦИЙ / НЕЙРОСЕТЕВАЯ ОБРАБОТКА ТЕКСТОВ / ОДНОРОДНАЯ СЕМАНТИЧЕСКАЯ СЕТЬ / НЕЧЁТКАЯ КОГНИТИВНАЯ МОДЕЛЬ / ДИНАМИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Борисов В.В., Харламов А.А.

Предложен и реализован оригинальный подход к интеллектуальному анализу и моделированию развития ситуаций на основе сочетания нейросетевой обработки текстов, методов нечеткого когнитивного анализа и динамической кластеризации. Искусственные нейронные сети используются для первичной обработки корпусов текстов, с выделением семантической сети концептов, характеризующих анализируемые ситуации. Использование нечеткого когнитивного подхода позволяет представить взаимосвязи и взаимозависимости между объектами ситуаций в виде нечетких отношений взаимовлияния, результаты анализа которых используются для обоснования совокупности показателей для идентификации и мониторинга динамики изменения кластерной структуры ситуаций, а также для анализа устойчивости идентифицированных групп ситуаций. Методы же динамической кластеризации применяются для мониторинга динамики изменения групп ситуаций, прогноза их развития в зависимости от специфических внешних воздействий, представленных текстовыми описаниями.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLECTUAL ANALYSIS AND MODELING OF THE DEVELOPMENT OF SITUATIONS BASED ON A COMBINATION OF NEURAL NETWORK WORD PROCESSING, METHODS OF FUZZY COGNITIVE ANALYSIS AND DYNAMIC CLUSTERING

An original approach to the intellectual analysis and modeling of the development of situations based on a combination of neural network text processing, fuzzy cognitive analysis methods and dynamic clustering is proposed and implemented. Artificial neural networks are used for the primary processing of text corpora, with the selection of a semantic network of concepts that characterize the analyzed situations. The use of a fuzzy cognitive approach makes it possible to represent the relationships and interdependencies between the objects of situations in the form of fuzzy relations of mutual influence, the results of the analysis of which are used to substantiate a set of indicators for identifying and monitoring the dynamics of changes in the cluster structure of situations, as well as for analyzing the stability of identified groups of situations. The methods of dynamic clustering are used to monitor the dynamics of changes in groups of situations, forecast their development depending on specific external influences represented by text descriptions

Текст научной работы на тему «ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ И МОДЕЛИРОВАНИЕ РАЗВИТИЯ СИТУАЦИЙ НА ОСНОВЕ СОЧЕТАНИЯ НЕЙРОСЕТЕВОЙ ОБРАБОТКИ ТЕКСТОВ, МЕТОДОВ НЕЧЕТКОГО КОГНИТИВНОГО АНАЛИЗА И ДИНАМИЧЕСКОЙ КЛАСТЕРИЗАЦИИ»

Интеллектуальный анализ и моделирование развития ситуаций на основе сочетания нейросетевой обработки текстов, методов нечёткого когнитивного анализа и динамической кластеризации

Борисов В.В., доктор технических наук, профессор, Филиал НИУ «МЭИ» в г. Смоленске, профессор, г. Смоленск, Россия, vbor67@mail.ru

Харламов А.А., доктор технических наук, старший научный сотрудник ИВНД и НФ РАН, профессор МГЛУ, профессор ВШЭ, заведующий кафедрой МФТИ, Москва, Россия, kharlamov@analyst.ru

Предложен и реализован оригинальный подход к интеллектуальному анализу и моделированию развития ситуаций на основе сочетания нейросетевой обработки текстов, методов нечеткого когнитивного анализа и динамической кластеризации. Искусственные нейронные сети используются для первичной обработки корпусов текстов, с выделением семантической сети концептов, характеризующих анализируемые ситуации. Использование нечеткого когнитивного подхода позволяет представить взаимосвязи и взаимозависимости между объектами ситуаций в виде нечетких отношений взаимовлияния, результаты анализа которых используются для обоснования совокупности показателей для идентификации и мониторинга динамики изменения кластерной структуры ситуаций, а также для анализа устойчивости идентифицированных групп ситуаций. Методы же динамической кластеризации применяются для мониторинга динамики изменения групп ситуаций, прогноза их развития в зависимости от специфических внешних воздействий, представленных текстовыми описаниями.

• анализ ситуаций • нейросетевая обработка текстов • однородная семантическая сеть • нечёткая когнитивная модель • динамическая кластеризация.

ВВЕДЕНИЕ

Большие объемы информации, которые, с одной стороны, необходимы для успешного анализа, а с другой, возникают в настоящее время как реакция на текущие события

29

30

разной этиологии, предполагают исключительно автоматические механизмы анализа этой информации.

Информация в текстах характеризует описанные в них ситуации как в статике, так и в динамике. Эта информация характеризуется различной степенью структурированности, многоаспектностью, лингвистической неопределенностью,многозначностью и противоречивостью, неполнотой, а также многообразием и разнотипностью взаимосвязей и взаимозависимостей между концептами анализируемой проблемной области. Текст, представленный (с использованием искусственных нейронных сетей [1]) в виде однородной семантической сети, является смысловым портретом анализируемой ситуации. Группы ситуаций структурно определяются устойчивыми кластерами взаимосвязанных и взаимозависимых пар концептов предметной области. Такое представление позволяет выявлять различные ситуации, оценивать их устойчивость, сопоставлять их между собой, моделировать динамику их структуры, осуществлять мониторинг и прогнозировать развитие ситуаций. Однако отмеченная выше специфика анализируемой информации существенно затрудняет использование типовых подходов к кластеризации концептов с целью идентификации групп ситуаций.

Использование нечеткого когнитивного подхода обеспечивает представление взаимосвязей и взаимозависимостей между концептами (объектами) ситуаций в виде нечетких отношений взаимовлияния, и, таким образом, обеспечивая в последующем возможность использования и развития исследовательского инструментария нечеткой динамической кластеризации [2] для анализа и моделирования развития ситуаций.

Выделение взаимосвязанных кластеров семантической сети, состоящих из выделенных в тексте концептов, описывающих ситуацию с определенной точки зрения, позволяет анализировать сущности (информационные объекты) ситуации в их коллаборации/противопоставлении, а также устойчивость ситуации в динамике, прогнозировать развитие самых разнообразных процессов, в том числе социально-экономических, социотехнических и других.

В дальнейшем для каждого идентифицированного класса ситуаций может быть построена своя модель, предназначенная для решения спектра задач интеллектуального анализа, прогнозирования и диагностирования ситуаций.

В процессе «эволюции» проблемной области неизбежно изменяются взаимосвязи и взаимозависимости между выявленными концептами, что приводит к изменению самой кластерной структуры этих пар концептов, ее устойчивости и, как следствие, к перегруппировке ситуаций.

Для мониторинга динамики изменения классов ситуаций применяются методы динамической кластеризации. Мониторинг заключается в анализе изменений кластерной структуры пар концептов, включая дрейф

центров кластеров, исчезновение и появление новых кластеров, их объединение и разделение.

1. ПЕРВИЧНАЯ ОБРАБОТКА ТЕКСТОВОГО КОРПУСА, ОПИСЫВАЮЩЕГО СИТУАЦИЮ

Для нечеткой кластеризации по основанию «степень воздействия» требуется выбор из текста направленных пар концептов, из которых один (первый в паре) воздействует на другой с силой, представленной в тексте.

В качестве инструментария для выявления таких пар концептов в текстах используется нейросетевая технология TextAnalyst для автоматического смыслового анализа текстов [1]. Функциональность технологии позволяет на основе анализируемого корпуса текстов построить семантическую сеть корпуса, вершинами которой являются концепты (объекты), представленные в текстах, а дуги характеризуют связи этих концептов в тексте. И концепты, и их связи маркируются их смысловыми весами. Весовые характеристики концептов характеризуют их важность в тексте, которая выявляется с учетом связности конкретного концепта с другими концептами на несколько шагов по сети. Весовые характеристики связей характеризуют степень связности отдельных концептов в тексте.

И сеть, и весовые характеристики ее вершин и связей формируются автоматически. Формирование семантической сети проводится в два этапа [3]. На первом этапе осуществляется формирование частотной сети на основе выявленных в корпусе текстов частоты встречаемости слов в тексте и встречаемости пар слов в предложениях текста. На втором этапе осуществляется переранжирование весовых характеристик концептов с помощью итеративной процедуры, учитывающей вклад связанных в сети с концептами понятий на несколько шагов.

1.1. Технология для анализа текстов

1.1.1. Первичная обработка текста

Обычно текст содержит кроме текстовой также нетекстовую информацию: рисунки, таблицы, графики, адреса электронной почты, сокращения и аббревиатуры. Кроме того, для построения однородной семантической сети необходимо убрать из текста также рабочие слова (предлоги, артикли), общеупотребимые слова. И еще необходимо текст разбить на слова, предложения, а слова подвергнуть процедуре стем-минга, чтобы убрать влияние словоизменения на результаты анализа.

1.1.2. Формирование первичной сети

В отличие от подхода, основанного на дистрибутивной семантике (где текст рассматривается как мешок слов), для анализа текста формируется сеть, вершинами которой являются понятия, представленные словами текста, а дуги соответствуют отношениям этих понятий в действительности, описанной текстом. Такая сеть позволяет рассматривать связи слов в тексте на любую глубину (как цепи вершин), а потому учитывать влияние предшествующих слов на последующие.

31

32

Первичная сеть строится на основе анализа словоупотребления в анализируемом тексте, а также употребления пар слов в предложениях текста. Первоначальные веса вершин сети оцениваются частотой встречаемости слова в тексте. Веса дуг — частотой встречаемости пар слов в предложениях текста.

Семантическая сеть. Формально ассоциативная (однородная семантическая) сеть БЫ может быть представлена следующим образом [4].

Определение 1. Под семантической сетью БЫ понимается множество несимметричных пар событий {<С;С•>} где с/ и С¡ — события, связанные между собой отношением ассоциативности (совместной встречаемости в некоторой ситуации):

Применительно к содержанию статьи этими событиями являются слова текста. Следующие друг за другом пары слов текста и состав-

ляют однородную семантическую (ассоциативную) сеть:

[<wiwj.>j

В данном случае отношение ассоциативности несимметрично:

< ; \г'; > ^ < IV > .

Определение 2. Семантическая сеть, описанная таким образом, может быть представлена какмножествотакназываемыхзвездочек{<ш; <

Определение 3. Имея в виду, что события и есть слова, под звездочкой < < . понимается конструкция, включающая главное слово \у/р связанное с множеством слов-ассоциантов которые являются

семантическими признаками главного слова, отстоящими от главного слова в сети на одну связь. Связи направлены от главного слова к сло-вам-ассоциантам.

1.1.3. Ранжирование вершин и дуг

Поскольку реально ранг вершин отличается от частоты встречаемости слов в тексте (на ранг вершины влияют веса вершин, связанных с нею на один и более шагов на сети), для расчета ранга вершин используется итеративная процедура переранжирования, где суммарный нормированный вес вершин, связанных с анализируемой вершиной, влияет на ее ранг, а процедура проводится до сходимости процесса.

В отличие от веса вершин, веса дуг остаются равными первоначально посчитанной частоте ^ встречаемости пар слов в предложениях текста. Она далее и используется для проведения нечеткой кластеризации. Необходимо помнить, что пары слов направленные, то есть влияние одного концепта на другой в общем случае не одинаково с влиянием второго концепта на первый.

Единственное изменение масштаба, которое необходимо для последующего анализа, это переход от шкалы [0 -г 100] к шкале [-50 -г +50], так как для реализации нечеткой кластеризации требуется учет как корреляции, так и антикорреляции.

Ы-граммнаямодель текста. При анализе текста используется п-граммная, а точнее, «односторонняя» п-граммная модель, а именно принятая при использовании п-грамм «правосторонняя» модель, в которой вероятность очередного слова строки задается в зависимости от предшествующих ему [п -1) слов, что записывается как РОп К,-, Тогда:

В терминах вероятности «быть справа» имеем:

или

Введя фиктивный символ «начало» и договорившись, что 11Л/0) = р(и^), можно переписать:

Оценкой вероятности n-граммы служит частота ее встречаемости:

C(Wi_n ...w^wi)

ß(Wi\Wi-n ...Wi-i) =/(wi|wi_n...wi_1) =

... Wj-i)

Так для биграммной модели оценкой вероятности биграммы является частота ее появления в тексте:

p(Wj\wt) =f(Wj\wt) =

C(WjWj) C(w{) '

Использование п-граммной модели хоть и более корректно при анализе текстов с лингвистической точки зрения, увы, невозможно при п>3 для текстов нефлективных языков, а для флективных языков п не может превысить 2, так как в мире не существует такого количества текстов соответствующего языка для обучения модели соответствующей граммности [5]. Для русского языка пользуются, например, 2,5-граммными моделями, где пары рассматривают как пары слов, а в тройки включают наряду с парой слов третьим элементом — грамматическую категорию вместо соответствующего слова. Либо используют другие эмпирические «натяжки».

Использование частного случая представления текста в виде однородной семантической сети позволяет ввести п-граммность аналитически [6] (на сети).

Биграммная модель. Если мы будем рассматривать последовательности из двух слов на сети текста, получим биграммную модель. Для каждого второго слова wj строки из двух слов (wí , wj) первое слово строки wí («слева-направо»)

33

является темой: (индекс «2» — поскольку биграммная мо-

дель). Объединим все пары слов с одинаковыми темами в звездочки. В этом случае вершина сети, соответствующая слову = ^, является корневой вершиной одного из тематических деревьев (в данном случае — звездочек). Так как вероятность появления строки из двух слов (правосторонняя модель) в тексте р(и^иД

вероятность появления темы в биграммной модели есть сумма вероятностей появления пар с одинаковым первым словом (вероятность появления звездочки):

где /г — число слов в сети (ассоциантов ж. звездочки), связанных с первым словом мл. А вероятность — это исходные вероятности распределения слов в тексте. Введем условное понятие «темы»р(ш-) = ^ для монограммного распределения. И так для каждого второго слова первое слово пары («слева-направо») является темой: \y.si

Л Л ' 1

7=1

Для того чтобы общая полученная сумма вероятностей была равна

единице:

где п — число тем, необходимо нормировать полученные для каждой темы суммы. В общем случае число тем совпадает с числом всех слов текста T=W, но обычно выбирают лишь несколько главных тем: T<W.

Нормирование осуществляется на сумму по всем темам tj:

34

Здесь р( С,1) означает вероятность появления отдельного слова (то есть — вероятность из монограммной модели). Ар(^2) — вероятность появления звездочки из биграммной модели. Причём главное слово звездочки в терминах биграммной модели является темой для ее ближайших ассоциантов — семантических признаков — «вторых» слов.

Триграммная модель. Рассмотрим теперь не последовательности длиной в два слова, а последовательности длиной в три слова в сети текста, то есть триграммную модель:

Тогда вероятность появления строки из первых двух слов в строке из трех слов можно получить, как и в (1), суммированием по третьему слову:

Борисов В.В., Харламов А.А.

Интеллектуальный анализ и моделирование развития ситуаций на основе сочетания нейросетевой обработки текстов, методов нечеткого когнитивного анализа и динамической кластеризации

и вероятность появления первого слова в строке из трех слов можно получить суммированием по второму слову:

К,

pN=ZZP

j=1 k=l

WiWjWk

Тогда p(tf) вычисляется в рамках биграммной модели, p(w;) = а вероятность

появления второго слова пары в зависимости от появления первого слова пары в тексте одна и та же, независимо от граммности модели текста, как следует из сетевого представления текста (взаимосвязанные пары слов остаются теми же):

где Г,- и Г,- обозначают, соответственно, темы в соответствии с биграммной и триграмм-ной моделями, а число тем, как и ранее, может соответствовать числу слов в тексте 7=1/1V, но обычно ограничивается волевым решением до 7=1/11. К корневым вершинам ti крепятся через «вторые» слова-вершины ti звездочки г, звездочки биграммной модели

Четырех- и более граммные модели. Итеративная процедура перевзвешивания.

Та же процедура, примененная для анализа четырехграммной модели, приведет к получению следующего уровня множества корневых вершин, к которым прикрепятся все графы (тематические структуры), полученные на этапе анализа три-граммной модели. То есть мы можем вычислить веса тематических вершин семантической сети текста с учетом их зависимости в последовательности из четырех слов.

То же будет и для п-граммной модели. Хотя надо заметить, что начиная с некоторого п процесс сойдется, так как зависимость слов, как правило, в модели языка сказывается не далее, чем на длине простого предложения.

Другими словами, мы имеем итеративную процедуру перевзвешивания, которая по-

.п ,

зволяет наити значения вероятностей появления тем [в случае использования сетевой п-граммной модели) в тексте.

35

36

ЕрКЬМ'Г1

ЕЕ рК-К-МС1) ¡=1 ]=1

где р(^)=р^2) и р^. — одинаковая для всех шагов итерации вероятность появления последующего слова текста при условии появления предыдущего слова.

1.2. Текстовая информация для анализа

В качестве исходного материала для анализа ситуаций рассматривается корпус текстов, описывающих ситуацию, например выборка сообщений из социальной сети — откликов участников сети на некоторое событие [7].

Поскольку корпус текстов содержит самую различную информацию, необходимо предварительное выявление концептов, интересных с точки зрения последующего анализа — с точки зрения последующих возможных участников ситуации. Этот анализ проводится экспертами, которые формируют перечень концептов, используемых для дальнейшего анализа. Тем не менее и другая, не относящаяся к задаче информация оказывается важной при выявлении весовых характеристик семантической сети, так как она является контекстом, в котором реализуется анализируемая ситуация.

Выявленные экспертами концепты далее анализируются с точки зрения их весомости в корпусе текстов (в анализируемой ситуации): только концепты, ранги которых превышают пороговое значение, участвуют в последующем анализе. Для отобранных таким образом концептов исследуются далее весовые характеристики их положительных и отрицательных связей.

2. АНАЛИЗ НЕЧЕТКИХ ОТНОШЕНИЙ ВЗАИМОВЛИЯНИЯ МЕЖДУ КОНЦЕПТАМИ И ИДЕНТИФИКАЦИЯ КЛАСТЕРОВ (ГРУПП) СИТУАЦИЙ

Для выбранных концептов проблемной области А = {а,|, =1, ..., 1} на основе их взаимосвязей задаются нечеткие отношения взаимовлияния:

К = {(г,./(а, а.)) | г.е[-1, 1], а,, а.е А}.

Затем элементы отношения К преобразуются в элементы отношения Q по правилам:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если г. > О, ТО <72,-1,2.-1 = ГЦ И 421-121-1 = ГЦ' Если Г,1 < а ТО <2,-1,21-1 = -Г,1 И <2,-1,21-1 = -Г,1 .

После чего выполняется транзитивное замыкание отношения Q основе операций тах-ргс^-композиции:

Q = Q V Q2 V Q3 V ... .

Затем выполняется обратное преобразование отношения Q в отношение Я' = {(г', г0} состоящее из положительно-отрицательных пар согласованных элементов:

: -1,2]-1 $21 2]) = -тах (?2/ -1,2] , $21 2]-г\.

Гу = max |

В итоге рассчитываются следующие показатели для кластеризации концептов проблемной области [8]:

воздействие объекта на ситуацию, д(а;) = — Х/^ёД^/ + ^)тах(К'|'|^/|))' г

воздействие ситуации

\ I /

на объект, р2 (a,) = у X(si§n [rfl + ^ )'тах (\rjt|'

согласованное влияние объекта на ситуацию,

I, i = !..!;

На основе этих показателей и выполняется кластеризация концептов проблемной области и идентификация групп ситуаций.

3. МОДЕЛИРОВАНИЕ РАЗВИТИЯ СИТУАЦИЙ

После первоначальной идентификации групп ситуаций для мониторинга динамики их изменения целесообразно воспользоваться одним из методов нечеткой кластеризации, позволяющим определять нечеткие степени принадлежности объектов к кластерам.

Использование метода нечеткой кластеризации fuzzy C-means зачастую приводит к некорректным результатам в случаях, когда кластеры различаются по форме [9]. Этого недостатка лишен метод UOFC, представляющий собой комбинацию метода fuzzy C-means и усовершенствованного метода максимального правдоподобия [10]. Важным является и то, что данный метод позволяет найти наилучшее (в смысле показателей качества кластеризации) разбиение на кластеры.

Особенностью постановки и решения задачи мониторинга динамики изменения групп ситуаций на основе метода UOFC является то, что источником информации служит изменение значений нечетких отношений взаимовлияния между объектами.

Представленные выше процедуры осуществляются на корпусах текстов для разных временных промежутков («позавчера-вчера-сегодня»). Для каждого временного промежутка строится своя семантическая сеть, каждая из которых характеризует ситуации в этот промежуток времени.

При этом сам мониторинг заключается в анализе в каждый момент модельного времени: во-первых, изменений кластерной структуры проблемной области, включая

37

Таблица 1

Концепты РхЮ P2(a) P3(a) C(I)

a1 Авиасообщение 0.060 -0.098 -0.014 c3

a2 Больницы 0.056 -0.162 -0.121 c4

a3 Вузы 0.062 -0.013 0.193 c2

a4 Выявлено 0.065 -0.063 0.033 c3

a5 Гостиницы 0.042 0.196 -0.134 c1

a6 Дезинфекция 0.049 0.182 -0.032 c1

a7 Избегать 0.041 -0.025 0.006 c6

a8 Италия 0.047 0.032 0.151 c2

a9 Карантин 0.062 -0.126 0.017 c3

a10 Китай 0.039 -0.028 0.151 c2

a11 Коммунарка 0.041 0.088 0.061 c5

a12 Коронавирусная 0.039 0.043 -0.304 c7

a13 Магазины 0.038 0.123 0.098 c5

a14 Медицинские работники 0.057 -0.074 -0.137 c4

a15 Медицинские учреждения 0.051 -0.013 0.094 c2

a16 Москва 0.057 0.006 0.014 c6

a17 Нерабочая 0.035 0.003 0.209 c2

a 18 Ограничительные меры 0.058 0.080 -0.014 c7

a 19 Пенсионеры 0.026 0.036 0.031 c6

a 20 Регионы 0.038 0.020 -0.015 c6

a 21 Рестораны 0.033 0.074 0.102 c5

a 22 Симптомы 0.056 -0.032 0.086 c6

a 23 Случаи заражения 0.051 0.071 -0.079 c7

a 24 Средства индивидуальной защиты 0.059 0.142 -0.120 c1

a 25 Транспорт 0.036 0.138 0.130 c5

a 26 Ухань 0.042 0.022 -0.098 c7

a 27 Школы 0.039 -0.161 0.149 c3

38

анализ дрейфа центров кластеров (групп) ситуаций, исчезновения и появления новых кластеров, их объединения и разделения; во-вторых, устойчивости кластеров на основе оценки результатов транзитивного замыкания нечетких отношений взаимовлияния между объектами проблемной области.

4. ПРИМЕР

В качестве примера рассмотрим задачу идентификации и моделирования развития ко-вид-ситуаций на начальной стадии, характеризующейся высокой динамикой изменения проблемной области за период с 26 по 31 марта 2019 г., разбитые на три временных интервала (эпохи): 26-27, 28-29 и 30-31 марта.

В результате анализа корпуса текстов общим объемом 180 Мб с использованием нейросетевой технологии Тех1Апа1ув1 построена семантическая сеть, включающая в себя около 5 тыс. понятий (концептов) проблемной области.

Экспертно-статистическим методом отобрано 27 концептов, в наибольшей степени характеризующих ситуации рассматриваемой проблемной области, построена ее нечеткая когнитивная модель, и на основе согласованных нечетких отношений взаимовлияния между ее концептами рассчитаны значения показателей для идентификации кластеров этой проблемной области в первую эпоху (см. табл. 1).

На рис. 1 показано первоначальное расположение концептов и центров кластеров (идентифицированных групп ситуаций) в первую эпоху.

Идентифицированы кластеры:

Кластеры Положение центра Устойчивость

Pi P2 Рз

С1 -0.095 0.173 0.05 2.33

С2 0.164 -0.004 0.047 1.4

С3 0.047 0.113 0.056 1.75

С4 -0.129 -0.118 0.057 3.5

С5 0.098 0.106 0.037 1.75

С6 0.016 0.006 0.042 1.4

С7 -0.124 0.054 0.048 1.75

Рис. 1. Результаты первоначальной кластеризации концептов проблемной

области в первую эпоху

Транзитивное замыкание нечеткой когнитивной модели свидетельствует об устойчивости кластерной структуры проблемной области в целом. Такой же вывод справедлив и для всех идентифицированных кластеров (семь групп ситуаций).

На рис. 2 и 3 отражено изменение кластерной структуры проблемной области во вторую и третью эпохи.

39

40

Остались кластеры (группы ситуаций)

Кластеры Положение центра Устойчи-

Pi P2 Рз вость

С1 0.032 0.173 0.05 0.86

С2 0.164 -0.004 0.047 0.67

С5 0.047 0.113 0.056 0.67

С6 -0.129 -0.118 0.057 3.0

Исчезли кластеры: с3, с4, с7. Переходы концептов:

Ö1 : C3 ^ C1 a14 ■ C4 ^ c

a2 ■ C4 ^ C5 ai8 : C7 ^ C\

a3 : C2 ^ C5 ai9 : C6 ^ c.

a4 : C3 ^ C5 a22 ■ C6 ^ c

a6 : C1 ^ C2 a23 ■ C7 ^ c

a7 : C6 ^ C2 a26 ■ C7 ^ c

a9 ■ C3 ^ C5 a27 ■ C3 ^ c.

a12 ■ C7 ^ C5

a13 ■ C5 ^ C2

Рис. 2. Результаты кластеризации концептов проблемной области

во вторую эпоху

Остались кластеры (группы ситуаций)

Кластеры Положение центра Устойчивость

Pi Р2 Рз

ci 0.032 0.173 0.05 1.5

С2 0.164 -0.004 0.047 1.0

С5 0.047 0.113 0.056 3.0

С6 -0.129 -0.118 0.057 3.0

С8 0.099 0.116 0.064 3.0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Появился кластер c8. Переходы концептов:

a3 ■ c5 ^ c8 a17 ■ c2 ^ c.

a4 ■ c5 ^ c2 a18 ■ c5 ^ c

a6 ■ c2 ^ C1 a19 ■ c2 ^ c.

a8 ■ c2 ^ c8 a21 ■ c5 ^ c

a9 ■ c5 ^ c6 a23 ■ c1 ^ c.

aio ■ c2 ^ c8 a24 ■ c1 ^ c.

a12 ■ c5 ^ C6 a25 ■ c5 ^ c.

a14 ■ c1 ^ c2 a26 ■ c1 ^ c.

a16 ■ c6 ^ c2 a27 ■ c2 ^ c

Рис. 3. Результаты кластеризации концептов проблемной области

в третью эпоху

В табл. 2 отражена динамика изменения кластерной структуры проблемной области за три эпохи.

Таблица 2

Концепты C C C(III)

ai Авиасообщение С3 ci Ci

a2 Больницы С4 C5 C5

a3 Вузы С2 C5 C8

a4 Выявлено С3 C5 C2

a5 Гостиницы Ci Ci Ci

a6 Дезинфекция Ci C2 Ci

a7 Избегать С6 C2 C2

a8 Италия C2 C2 Ci

a9 Карантин C3 C5 C6

ai0 Китай C2 C2 C8

all Коммунарка C5 C5 C5

ai2 Коронавирусная C7 C5 C6

ai3 Магазины C5 C2 C2

ai4 Медицинские работники C4 Ci C2

ai5 Медицинские учреждения C2 C2 C2

ai6 Москва C6 C6 C2

ai7 Нерабочая C2 C2 C5

a i8 Ограничительные меры C7 C5 Ci

a i9 Пенсионеры C6 C2 C8

a 20 Регионы C6 C6 C6

a 2i Рестораны C5 C5 C8

a 22 Симптомы C6 Ci Ci

a 23 Случаи заражения C7 Ci C8

a 24 Средства индивидуальной защиты Ci Ci C2

a 25 Транспорт C5 C5 C2

a 26 Ухань C7 Ci C2

a 27 Школы C3 C2 Ci

ЗАКЛЮЧЕНИЕ

Рассмотрено решение комплексной задачи идентификации и моделирования развития ситуаций проблемной области на основе нейросетевой обработки текстов и сочетания методов нечеткого когнитивного анализа и динамической кластеризации.

41

42

Интеллектуальная нейросетевая система/технология используется для предварительного анализа проблемной области, заключающегося в обработке разнородной текстовой информации, анализе, выявлении и оценке значимости объектов проблемной области, характеризующих группы ситуаций.

Нечеткий когнитивный подход создает основу для идентификации групп ситуаций за счет представления взаимосвязей и взаимозависимостей между выявленными концептами ситуаций в виде нечетких отношений взаимовлияния, обеспечивая возможность обоснования показателей кластеризации объектов.

Для мониторинга динамики изменения групп ситуаций, т. е. изменения кластерной структуры объектов проблемной области, включая дрейф центров кластеров (групп) ситуаций, исчезновение и появление новых кластеров, их объединение и разделение, применяются методы динамической кластеризации.

Для каждой идентифицированной группы ситуаций в каждой эпохе может быть построена своя модель для интеллектуального анализа, прогнозирования и диагностирования ситуаций.

В качестве примера рассмотрена задача идентификации и моделирования развития ковид-ситуаций на начальной стадии, характеризующейся высокой динамикой изменения проблемной области.

Исследование выполнено при финансовой поддержке Министерства науки и высшего образования РФ [государственное задание №FSWF-2020-0019).

Литература

1. Харламов А.А. Ассоциативная память — среда для формирования пространства знаний. От биологии к приложениям. — Дюссельдорф: Palmarium Academic Publishing, 2017.

2. Angstenberger L. Dynamic fuzzy pattern recognition with applications to finance and engineering. Boston: Kluwer Academic Publishers, 2001.

3. Харламов А.А. Нейросетевая технология представления и обработки информации (естественное представление знаний). — М.: Радиотехника, 2006.

4. Харламов А.А., Ермоленко Т.В. Нейросетевая среда (нейроморфная ассоциативная память) для преодоления информационной сложности. Поиск смысла в слабоструктурированных массивах информации. Часть II. Обработка информации в гиппокампе. Модель мира / Информационные технологии, N 12, 2015. — Стр. 883—889.

5. Воронцов К.В. Вероятностные тематические модели (курс лекций).

6. Харламов А.А. Формирование n-граммной тематической модели текста// Речевые технологии № 1-2, 2016. С. 15-23.

7. Kharlamov A.A., Raskhodchikov A.N., Pilgun M. Smart City Data Sensing during COVID-19: Public Reaction to Accelerating Digital transformation. Sensors 2021, 21(12), 3965

8. Арбузов А.Д., Борисов В.В., Дли М.И. Мониторинг кластеров социотехнических систем на основе нечеткого когнитивного подхода и методов динамической кластеризации // Мягкие измерения и вычисления. 2020. Т. 33. № 8. — С. 26-37.

9. Bezdek J.C., Keller J., Krisnapuram R., Pal N. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing. New York, Springer Science, 2005.

10. Geva A.B., Steinberg Y., Bruckmair S., Nahum G. A Comparison of Cluster Validity Criteria for a Mixture of Normal Distributed Data // Pattern Recognition Letters. 2000. Vol. 21(6-7), pp. 511-529.

INTELLIGENT ANALYSIS AND MODELING OF THE DEVELOPMENT OF SITUATIONS BASED ON A COMBINATION OF NEURAL NETWORK PROCESSING OF TEXTS, METHODS OF FUZZY COGNITIVE ANALYSIS AND DYNAMIC CLUSTERING

Borisov V.V., Doctor of Technical Sciences, Professor, Branch of NRU "MPEI"in Smolensk, Professor, Smolensk, Russia, vbor67@mail.ru

Kharlamov A.A., Doctor of Technical Sciences, Senior Researcher employee of IHNA and NP RAS, Moscow, professor of Moscow State Linguistic University, HSE Professor, Head of Department, Moscow Institute of Physics and Technology, Moscow, Russia, kharlamov@analyst.ru

An original approach to the intellectual analysis and modeling of the development of situations based on a combination of neural network text processing, fuzzy cognitive analysis methods and dynamic clustering is proposed and implemented. Artificial neural networks are used for the primary processing of text corpora, with the selection of a semantic network of concepts that characterize the analyzed situations. The use of a fuzzy cognitive approach makes it possible to represent the relationships and interdependencies between the objects of situations in the form of fuzzy relations of mutual influence, the results of the analysis of which are used to substantiate a set of indicators for identifying and monitoring the dynamics of changes in the cluster structure of situations, as well as for analyzing the stability of identified groups of situations. The methods of dynamic clustering are used to monitor the dynamics of changes in groups of situations, forecast their development depending on specific external influences represented by text descriptions.

• situation analysis • neural network word processing • homogeneous semantic network

• fuzzy cognitive model • dynamic clustering.

43

i Надоели баннеры? Вы всегда можете отключить рекламу.