Практика использования семантических представлений в многомодальных системах управления

Арзуманов В.В.

52

Практика использования семантических представлений в многомодальных системах управления

Арзуманов В. В., научный сотрудник ISS («Интеллектуальные системы безопасности»), valery.arzumanov@iss.ru

В данной статье рассматривается дополнение модели мира видеоаналитических систем элементами текстовой модальности. Для лингвистического обеспечения систем управления используются онтология и набор продукционных правил — вместе они дают возможность описывать сценарии поведения на подмножестве естественного языка. Эксперименты показали, что такой подход обеспечивает большую гибкость, унификацию решений и позволяет привлекать к подготовке описания логики экспертов, не знакомых с математическими алгоритмами и спецификой программных продуктов. В перспективе планируется развитие текущего прототипа редактора правил до полноценного, простого и удобного в использовании инструмента для составления компактных и наглядных описаний различных технических процессов и регламентов.

• многомодальная модель мира • семантические представления • онтология, продукционное правило • видеоаналитика • описание предметной области •

ВВЕДЕНИЕ

Видеоаналитические системы прочно вошли в жизнь человека и используются в огромном количестве различных областей, среди которых дорожно-транспортная и индустриальная безопасность, пищевая промышленность, медицина и многие другие. В большинстве случаев такие системы опираются только на «визуальную модальность» и ряд математических компонентов. То есть, иными словами, имеется «зрительный анализатор», в качестве которого выступают камеры, которые могут работать на основе разных принципов (обычные ^^-камеры видеонаблюдения, камеры FishEye, сдвоенные пары камер, которые позволяют создать 3D-модель пространства [1], камеры, строящие карту глубины [7], под которые пишется специальный софт, и другие оптические устройства), данные, от которых позже поступают в различные вычислительные модули (модули, построенные на принципе «вычитания фона», нейросетевые анализаторы и др.), выдающие метаданные, которые могут быть подвергнуты дальнейшей обработке различным программным обеспечением. В реальных

ситуациях используются также и метаданные не собственно зрительной сенсорики, что будет более подробно описано далее. Такие подходы имеют свои достоинства и свои недостатки, однако один фактор даже при беглом знакомстве с проблематикой не может не привлечь внимания. Это фактор неполноты модели мира. Именно он и явился изначальной посылкой для попытки дополнить контур системы.

КРАТКАЯ ИСТОРИЯ ВОПРОСА

Результат работы зрительной сенсорики во многих системах является единственным источником информации, в то время как человек, обладающий естественным интеллектом (в противоположность искусственному в рамках дихотомии «естественный интеллект» vs «искусственный интеллект»), использует для перцепции окружающей действительности и другие анализаторы — это слух, обоняние, осязание и т. д. Кроме того, в модели мира человека присутствует языковой компонент, в известном смысле ее упорядочивающий [5]. Его формализованный вид и представляет собой основной интерес в рамках данной статьи.

Работа над потенциально предстоящим пересмотром механизмов формирования алгоритмов была начата с обзора уже введенных в эксплуатацию компонентов видеоаналитики, разработанных в компании. На основе этого обзора было отмечено два важных момента.

Большая (если не большая) часть решений имеют «ad hoc» характер. Иными словами, было обнаружено, что аналитика готовится под некие конкретные случаи. Это является узким местом, поскольку изменение каких-либо параметров может приводить к неработоспособности системы. Кроме того, имеет место неудобство работы с самой логикой принятия решений, что выражается в следующем:

настройка модуля предполагает тонкую регулировку с множеством переключателей (в том числе в отдельных файлах);

во многих случаях необходимо понимание процессов (в числе прочих и математических), заложенных в алгоритмы, что затрудняет конфигурирование под нужды пользователя-оператора.

Нейронные сети являются очень полезным, но в то же время и очень требовательным инструментом. Это выражается в широком использовании:

человеческого ресурса — для нейросетей необходим большой корпус данных, который готовится вручную или в полуавтоматическом режиме, что обуславливает необходимость иметь в распоряжении отдельную группу людей, занимающихся разметкой; кроме того, необходимы программисты, которые должны разрабатывать и поддерживать сети и ПО, основанное на них;

временного ресурса — подготовка больших корпусов данных занимает очень длительное время, и, кроме того, периодически возникает необходимость «дообучать» сети вследствие обнаружения неожиданного поведения при определенных условиях; важно также учитывать и тот факт, что нейросеть в режиме реального времени может работать с большим временн'ым откликом, что является камнем преткновения

53

в системах видеомониторинга, которые работают в режиме реального времени: в них время, отводимое на обработку, к примеру, одного кадра видеопотока, исчисляется не секундами, а миллисекундами;

вычислительного ресурса — нейронные сети требуют достаточно мощного и современного аппаратного обеспечения.

Исходя из этого, в видеоаналитических системах, которые введены в эксплуатацию, они часто используются для решения простых задач, таких как: трекинг объектов на видимой сцене, детектирование статических объектов, классификация объектов и т. п.

Насыщение представлений о модели мира элементами текстовой модальности, согласно первоначальной гипотезе, должно было помочь преодолеть если не все, то по крайней мере часть проблем, и в течение нескольких лет развития данной концепции были достигнуты значительные успехи [3, 4].

Наряду с преодолением проблем «текстовый слой», используемый в качестве вспомогательного, имеет определенную специфику.

Во-первых, логика сценария в его терминах описывается самым естественным для человека способом — на подмножестве языка, который он знает или носителем которого он является. Это позволяет обеспечить межведомственную коммуникацию — инженер по знаниям может общаться с экспертом предметной области на производстве и с разработчиками лингвистических движков таким способом, который будет одинаково хорошо воспринимаем всеми сторонами взаимодействия.

Во-вторых, единовременная подготовка модели предметной области, адекватно ее описывающей, позволяет взаимно однозначно трансформировать естественно-языковые последовательности в структуры, понимаемые машиной, что позволяет подключить к работе по описанию логики экспертов, не являющихся программистами, поскольку задумываться о внутренних процессах им уже, вне всякого сомнения, не требуется.

В-третьих, тексты позволяют компактно и очевидно описывать комплексные сценарии поведения объектов — ни последовательные логи метаданных, ни сложные математические алгоритмы, описанные на языке программирования, не обладают ни одним из этих признаков.

В-четвертых, отпадает необходимость в модификации исходного кода модулей при необходимости переописания логики — используется всё тот же инструментарий. Это в огромной степени релевантно для тех случаев, когда обнаруживается, что в описании сценария поведения, подготовленном инженером по знаниям, есть ошибки, неточности или конфликты, которые необходимо исправить.

54

УВЯЗЫВАНИЕ МОДАЛЬНОСТЕЙ

Рассмотрим, какое место в системе отводится для естественно-языкового компонента. Для этого обратимся к схеме функционирования модуля видеоаналитики. Она представлена на рис. 1 в упрощенном виде.

Рис. 1. Упрощенная схема работы компонента видеоаналитики и «ЕЯ-контура»

На данной схеме хорошо видно разделение двух модальностей в пределах одной сущности («водораздел» обозначен красной пунктирной линией). Слева представлена часть, относящаяся к обработке визуальной информации, а справа — к языковой. При этом необходимый результат они показывают тогда и только тогда, когда находятся в тесном взаимодействии друг с другом.

Целесообразным кажется коротко описать, как происходит обработка в рамках приведенной концепции. Ядро видеоаналитического модуля запрашивает от видеоподсистемы кадр и подает его на вход нейросетям и иным вычислительным алгоритмам. Метаданные, которые они выдают, отправляются обратно в ядро. В это же время в ядро модуля в асинхронном режиме приходят данные от всей остальной сенсорики, которая не имеет отношения к видеопотокам (рис. 2а и 2б). Все, что приходит в ядро, преобразовывается в удобные для обработки структуры и уходит в управляющий модуль анализатора, в который еще на этапе инициализации загружаются продукционные правила, сформированные редактором правил и преобразователем с опорой на формализованную модель предметной области (под редактором правил в данном случае имеется в виду frontend часть, а под преобразователем — backend часть). В управляющем модуле анализатора метаданные необходимым образом перерабатываются и превращаются в факты, которые помещаются в список фактов в «движке» экспертной системы (данный движок реализован с привлечением машины логического вывода CLIPS, представленной динамической библиотекой).

55

Рис. 2а. Метаданные от нейронных сетей и других математических анализаторов (рамки объектов, ключевые точки, классы и идентификаторы)

Рис. 2б. Метаданные от не зрительной сенсорики (кнопки, СКУД, рамки металлодетекторов и т.п.)

Наибольший интерес на схеме выше, разумеется, представляет ее правая часть, так как в ней явным образом выделены семантические компоненты в рамках текстовой модальности. Ниже следует их подробное описание.

Модель предметной области. Представлена онтологией, в рамках которой заданы:

56

• доступные анализатору типы и наименования всех сущностей (зоны, статичные объекты сцены и т. п.) и агенты с их параметрами;

• совокупность естественно-языковых последовательностей самого низкого уровня («атомарных смыслов»), которые связаны с выходом всей доступной сенсорики и аналитики, и соответствующих им шаблонов, которым во взаимно однозначное соответствие поставлены формулы или специальные токены;

• служебная информация.

База знаний. Представлена совокупностью продукционных правил (продукций] для «движка» экспертной системы и служебной информацией. В ходе работы программы алгоритм Rete [6] строит специальный граф, который также называется префиксным деревом.

Особенности обоих компонентов следует рассмотреть индивидуально.

МОДЕЛЬ ПРЕДМЕТНОЙ ОБЛАСТИ

При проработке онтологии необходимо учитывать тот факт, что она, вероятно, вряд ли может быть в полной мере завершенным представлением на каждом из ее этапов. Поэтому наибольшее значение имеет не столько попытка перечислить всё, что может формально войти в модель, а единовременная структуризация таким образом, чтобы в нее можно было оперативно добавить новые данные без существенных накладных расходов. Иными словами, онтология должна быть достаточно гибкой как для расширения, так и для обработки. В связи с этим был выбран проприетарный формат онтологии, который удовлетворяет этому критерию.

На самом деле в онтологию могут быть сведены и несколько предметных областей, особенно когда есть пересечения по агентам, сущностям и «атомарным смыслам» — это, например, могут быть различные локации на одном объекте производства.

Следует отметить один важный нюанс, касающийся естественно-языковых последовательностей, — они представлены не предложениями текста, а шаблонами с место-заполнителями, которые в ходе написания логики замещаются соответствующими сущностями. Местозаполнители в шаблонах разделены на отдельные классы: местозаполнители для зон, для агентов, для трехмерных областей контроля и т. д. Совокупность всех возможных подстановок, в свою очередь, дает полное описание предметной области и возможность обеспечить инженера по знаниям интерактивными подсказками, о чем пойдет речь ниже. То есть, иными словами, если в каждой последовательности заполнить все валентности предиката и перебрать все возможные варианты, то не должно остаться возможности неоднозначно истолковать какой-либо из них.

Нельзя не упомянуть, что в онтологию должны попадать и те последовательности, которые формируются в ходе написания правил. Это, с одной стороны, необходимо с позиций самой технологии — новые комплексные смыслы должны быть известны анализатору. С другой стороны, это обеспечивает унификацию представления, и модель предметной области дополняется комплексными смыслами. Здесь же следует отметить, что эти последовательности необходимо хранить

57

Арзуманов В. В.

Практика использования семантических представлений в многомодальных системах управления

совместно с массивом начальных форм тех слов, которые составляют эти последовательности. Это обуславливается тем, что в слитной речи, отражением которой является письменный текст, есть глаголы-связки, согласование, падежные формы и т. д., и система не распознает две последовательности, вроде person pushed the button и person had pushed the button как одинаковые по смыслу при попытке сопоставления «точь-в-точь» — по сути, предложение хранится как подобие однородной семантической сети, где вершины представлены леммами [2]. Если вершины представлены именно начальными формами, то при процессе, который реализован как нечто, похожее на наложение друг на друга двух сетей, можно получить изоморфные представления, что и даст желаемый результат.

Целесообразным выглядит переход к описанию второго семантического компонента — базы знаний.

В качестве базы знаний, что было показано на схеме выше (рис. 1), выступает совокупность продукционных правил, которые записываются на естественном языке, а потом с помощью специального преобразователя конвертируются в структуры языка CLIPS. Каждая естественноязыковая последовательность преобразовывается в факт CLIPS и некоторую служебную информацию, которая закреплена за этим фактом, с опорой на онтологию, текст правила и его настройки.

Факты распадаются на два больших класса: универсальные и неуниверсальные. Эти два класса, в свою очередь, распадаются на подклассы.

К подклассу неуниверсальных фактов относятся:

1. Факты, соответствующие неуниверсальным «атомарным смыслам».

Факты данного типа имеют набор допустимых агентов (акторов), а также закрепленную за ними логико-математическую формулу, флаг отрицания (когда в посылке присутствует отрицательная частица «не») и некоторую служебную информацию; они появляются в списке при работе «движка», если условия, заложенные в формуле, выполняются однократно или в течение некоторого временного интервала (в зависимости от того, как написано правило): эти условия относятся к метаданным, которые выдают преимущественно нейросетевые анализаторы.

2. Факты, соответствующие неуниверсальным «комплексным смыслам». Факты данного типа также имеют набор допустимых агентов (акторов) и закрепленные за ними флаг отрицания и некоторую служебную информацию, однако за ними не закреплено никаких формул; они появляются в списке при работе «движка» в результате «цепной реакции» — то есть их возникновение обуславливается появлением

БАЗА ЗНАНИИ

58

в списке других фактов, которые могут соответствовать как «атомарным», так и «комплексным смыслам» (более подробно этот эффект будет описан далее).

К подклассу универсальных фактов относятся:

1. Факты, соответствующие «атомарным смыслам», относящимся к незрительной сенсорике. Факты данного типа не имеют агентов: агент подставляется в соответствующий слот факта формально — используется наименование сенсора; за такими фактами не закреплено никаких формул, их появление в списке фактов обуславливается исключительно внешними событиями — нажатие кнопки, замыкание и размыкание электрической цепи, прикладывание к считывателям идентификационных карточек и т. п.

2. Факты, соответствующие «атомарным смыслам», относящимся к управляющему модулю анализатора. Факты данного типа применимы для всех агентов предметной области; за такими фактами также не закреплено никаких формул — их появление в списке фактов обуславливается событием, которое отслеживает управляющий модуль анализатора — это события покидания объектом зоны, пропадания объекта из зоны видимости и т. п.

3. Факты, соответствующие «атомарным смыслам», относящимся к вычислительным модулям системы. Факты данного типа, как и факты подкласса (1), не имеют агентов и закрепленных за ними формул; их появление в списке фактов обуславливается порождением определенного состояния системы неким внешним (по отношению к анализатору, основанном на работе с естественно-языковой логикой) вычислительным модулем: примером такого модуля может служить детектор изменения фона; состояние системы может фиксироваться для добавления факта как одномоментно свершившееся событие (произошел переход в состояние Х) и как событие, имеющее некую длительность (система пробыла в состоянии X в течение N секунд).

Все приведенные выше подклассы фактов за исключением «комплексных неуниверсальных» могут выступать в правилах только в качестве посылок, в то время как «комплексные неуниверсальные» факты могут быть как посылками, так и выводами при соблюдении единственного условия: один и тот же смысл не может в рамках одного продукционного правила выступать и тем и другим одновременно. За счет специфики алгоритма Rete и выбранной концепции наращивание сложности формально ничем не ограничено — использование в качестве посылок в одних правилах выводов других позволяет компактно описывать комплексные сценарии поведения. Для иллюстрации принципа «цепной реакции» рассмотрим два правила из предметной области «Дорожная безопасность» в упрощенной форме.

IF

vehicle A1 stopped on the road AND LATER (less than 25 sec} vehicle A2 stopped on the road

THEN

potential crash detected

IF

potential crash detected AND EARLIER {less than 30 sec} pedestrian has been detected on the road

59

60

THEN

crash confirmed

Как можно заметить, вывод правила детектирования потенциальной аварии (potential crash detected) используется в качестве посылки для правила подтверждения аварии в совокупности с детектированием людей на проезжей части. В практическом смысле это означает, что при столкновении двух машин рано или поздно эффект инерции нивелируется, и они останавливаются; после этого, если авария не стала летальной для всех пассажиров и водителей, из машин выходят люди, которые оказываются на проезжей части (там могут также оказаться и мимо проходящие пешеходы, которые стремятся оказать пострадавшим первую помощь в случае необходимости), что может служить фактором подтверждения аварии.

Правила пишутся в упрощенной интегрированной среде, которая называется редактором правил (или редактором логики). Его прототип представлен на рис. 3.

■©•ISS Sign in

Edit rule body

RULE TITLE:

Humanwashed'hishands DESCRIPTION:

N"J: rule serves for efisuring thàt àpérson washect his hands □ IGNORE 1D Q NO LOG □ REPEAT О SPATIAL FILTER

Рис. 3. Прототип редактора правил

В редакторе правил можно создавать правила с необходимым названием, указывать описание того, для чего служит данное правило, выставлять для него служебную информацию и писать собственно текст самого правила. Совокупности правил объединяются в сущности под названием «сценарий поведения».

При написании текстов правил редактор предлагает оператору/инженеру по знаниям интерактивные подсказки в соответствии с вводимыми строками. В данном конкретном случае при вводе слова person в качестве продолжения предлагаются части тела человека — его левая и правая рука. Возможные опции целиком и полностью опираются

на модель предметной области, из которой извлекаются доступные шаблоны с заполненными валентностями. Подсказки помогают решить сразу две задачи: во-первых, они сводят к минимуму возможность ошибочного ввода данных, во-вторых, позволяют оператору получить некое представление о предметной области.

ЗАКЛЮЧЕНИЕ

В данной работе представлена практика дополнения модели мира компонентами текстовой модальности в системах видеоаналитики. Как показали эксперименты, описание логики на подмножестве естественного языка позволяет уходить от «ad hoc» решений и описывать сценарии поведения в независимости от ракурса и угла обзора сцены. Также допустимо привлекать экспертов, не являющихся программистами.

Для данной проблематики видятся как экстенсивные, так и интенсивные перспективы развития. Экстенсивное развитие предполагает охват новых предметных областей и дополнение описаний уже используемых. Интенсивное же развитие предполагается минимум в трех направлениях.

1. Естественно-языковые шаблоны должны добавляться в онтологию в полуавтоматическом режиме. В настоящий момент все шаблоны добавляются в онтологию вручную, что может приводить к возникновению в них ошибок. Для того чтобы избежать этого, предполагается создание вспомогательной утилиты, которая будет порождать шаблон на основе реальной естественно-языковой последовательности.

2. Формализованные и неязыковые элементы должны постепенно быть вытеснены из текстов правил. В тексте правил выше можно заметить темпоральные характеристики, заданные в фигурных скобках, что не в полной мере соответствует первоначальному замыслу.

3. Интерфейс предоставления интерактивных подсказок для оператора и визуальная составляющая редактора правил нуждаются в доработке. На данный момент редактор представляет собой лишь прототип. В последующих версиях продукта планируется улучшение механизма выдачи подсказок (пока он далек от совершенства) и подсветка известных сущностей и потенциальных ошибок в тексте правил.

Список использованных источников

1. Вахитов А. Т. Обзор алгоритмов стереозрения/А. Т. Вахитов, Л. С. Гуревич, Д. В. Павленко. Стохастическая оптимизация в информатике. Вып. 4 /под ред. О. Н. Граничина. СПб.: Издательство С.-Петербургского университета, 2008. — 299 с.

2. Харламов А. А., Ермоленко Т. В. Автоматическое формирование неоднородной семантической сети на основе выявления ключевых предикатных структур предложений текста // Открытые семантические технологии проектирования интеллектуальных систем. — 2012. — № 2. — С. 385-390.

3. Харламов А. А., Жаркой Р. М. Семантический анализ визуальной сцены // Открытые семантические технологии проектирования интеллектуальных систем. — 2017. — № 7. — С. 317-320.

61

62

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Харламов А. А., Жаркой Р. М., Арзуманов В. В. Коллективная модель мира мобильного робота. Языковой анализ сцены и управление пешеходным переходом // Речевые технологии. - 2019. - № 1-2. - С. 99-108.

5. Kharlamov A. Neuroinformatics and Semantic Representations: Theory and Applications. 1 ed. Newcastle: Cambridge Scholars Publishing, 2020. 305 p.

6. CLIPS User's Guide [Электронный ресурс] // CLIPS: A Tool for Building Expert Systems URL: https://clipsrules.net/documentation/v631 /ug631.pdf (дата обращения: 02.03.2023).

7. Skeleton tracking software — Nuitrack SDK — Kinect replacement for Android, Windows, Linux, iOS, Intel RealSense, Orbbec [Электронный ресурс] // Nuitrack URL: nuitrack.com (дата обращения: 02.03.2023).

THE PRACTICE OF USING SEMANTIC REPRESENTATIONS IN MULTIMODULE CONTROL SYSTEMS

Arzumanov V. V., ISS Researcher («Intelligent security Systems»), valery.arzumanov@iss.ru

This paper is centered on the augmentation of the world model of VA modules with textual modality components. The linguistic support of control systems is provided via an ontology and a set of production rules: together they help to describe behaviour scenarios with a subset of natural language items. The experiments conducted showed that this approach ensures a greater degree of flexibility, the standardization of solutions and allows the experts, unfamiliar with mathematical algorithms and specific features of software products, to be involved into the preparation of logic description. In future, the current rule editor prototype is planned to be developed into a full-fledged and easy-to-use tool for describing different technical processes and regulations in a compact and illustrative manner.

• multimodal world model • semantic representations • ontology • production rule • video analysis • subject domain description •

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Арзуманов В.В.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Арзуманов В.В.

THE PRACTICE OF USING SEMANTIC REPRESENTATIONS IN MULTIMODULE CONTROL SYSTEMS

Текст научной работы на тему «Практика использования семантических представлений в многомодальных системах управления»