УДК 004.75
В.Ю. Будков, М.В. Прищепа, С.В. Глазков
КОНТЕКСТНО-ОСВЕДОМЛЕННАЯ СИСТЕМА УПРАВЛЕНИЯ ОБОРУДОВАНИЕМ И ВЕБ-ТРАНСЛЯЦИИ МЕРОПРИЯТИЙ ИЗ ИНТЕЛЛЕКТУАЛЬНОГО ЗАЛА
Осведомленность о контексте является одним из ключевых вопросов при разработке системы управления оборудованием для записи мероприятий и телеконференций. Анализ поведения участников - положение в конференц-зале, речевая активность, направление лица, использование проектора или доски - позволяет системе выбирать наиболее актуальные мультимедийные потоки для записи. Функциональные модули системы и их взаимодействие при проведении веб-трансляции мероприятия в интеллектуальном зале рассматриваются в статье.
Ключевые слова: интеллектуальное пространство, контекстно-осведомленные системы, распознавание действий, обнаружение спикера, управление контентом.
V. Yu. Budkov, M. V. Prishepa, S. V. Glazkov
CONTEXT-AWARE SYSTEM FOR FACILITIES CONTROL AND WEB-TRANSLATION FROM SMART MEETING ROOM
Context awareness is one of the key issues at the development of the facilities control system for meeting recording and supporting teleconference. An analysis of participant behavior including position in the meeting room, speech activity, and face direction, use of a projector or whiteboard allows the system to select the most actual multimedia streams for recording. Functional modules of the system and their communication during meeting web-transmission in the smart room are considered.
Keywords: Smart space, context awareness, action recognition, speaker detection, content management.
Введение
В интеллектуальном пространстве, предназначенном для проведения совещаний, контекстноосведомленные системы анализируют поведение пользователя с помощью аудиовизуальных и других датчиков и предоставляют сервисы для информационной и технической поддержки проведения мероприятий, включая управление интеллектуальными камерами, массивами микрофонов, вебтрансляцию мероприятия и автоматическое архивирование аудио- и видеозаписей. Несмотря на перечисленные сервисы, пока не существует универсального подхода к определению контекста и формированию управляющих воздействий на основе анализа текущего контекста в интеллектуальном зале совещаний [1]. Среди существующих подходов можно выделить два класса систем, направленных на решение этой задачи: (1) системы, основанные на правилах, описывающих определенный набор действий для всех вариантов контекста, предусмотренных системой; (2) обучающиеся системы, основанные на нейронных сетях, динамических Байесовских сетях, марковских моделях и т.д.
Проблемы представления контекста, недостоверности показаний сенсоров и низкой надежности первичной обработки сигналов от датчиков рассматриваются в недавно разработанной теории пространств контекста [2]. Однако нет общепринятого мнения о типах и количествах пространств контекста и их атрибутах. Например, в работе [3] для определения контекста использовались местоположение пользователя, данные об окружающей среде, о пользователе и время. В [4] Dey описывает контекст как эмоциональное состояние пользователя, фокус его внимания, положение и ориентация, дата и время, объекты и людей в окружении пользователя. Три различные категории контекста были предложены в [5]: (1) текущая (местоположение, ориентация, температура, уровень шума, профиля телефона, уровень заряда батареи и др.); (2) историческая (например, предыдущее местоположение, предыдущие настройки устройств); (3) обоснованная (движение, точка назначения, погода, расписание, деятельность пользователя, формат контента, отношения и т.д.).
В работе [6] информационный контекст, используемый для персонализации сервисов и разработки мультимедийных приложений для гетерогенных мобильных устройств, был разделен на пять категорий: пространственно-временная информация (место, время), информация об окружающей среде, личная информация, информация о задачах, социальная информация. Персонифицированные сервисы на основе анализа профиля пользователя и его запросов формируют необходимый контент и услуги в текущей ситуации.
Три типа контекстов предлагается использовать при объединении многомодальной информации [7]: (1) контекст предметной области, который содержит некоторые априорные знания, предпочтения пользователя, ситуационную модель, описания объектов и субъектов, их возможных видов деятельности и их отношений; (2) разговорный контекст, описывающий возможные диалоги с системой и текущие условия; (3) визуальный контекст, включающий анализ направления взгляда, жестов, действий пользователей в ходе наблюдаемой ситуации.
Три базовые сущности: человек, физическая и информационная среда были рассмотрены в работе [8] в рамках двух типов контекстов: (1) интерактивный контекст, описывающий ситуации взаимодействия между людьми; (2) контекст окружающей среды, представляющий текущие установки и параметры программно-аппаратного обеспечения конференц-зала. В работе используется предположение, что контекст мероприятия имеет иерархическую структуру, поэтому для его представления применяется древовидная структура. Изменение положения пользователя (стоит/сидит), его местоположение, направление лица, мимика, жесты, смена дикторов и другие события анализируются для прогнозирования контекста. Сеть на основе конечного автомата была использована для классификации наиболее значимых действий участников. Этапу классификации предшествует параметрическая обработка сигналов и выделение отличительных признаков, по которым осуществляется оценка принадлежности контекста тому или иному классу. Для определения наличия участников в зале и анализа их поведения применяется широкий спектр программно-аппаратных средств аудио- и видеообработки.
Автоматический анализ аудио- и видеоданных, записанных во время совещаний, является нетривиальной задачей, так как необходимо одновременно следить за несколькими участниками, которые могут менять положение своего тела, головы, направление взгляда. Методы аудиовизуального слежения были тщательно исследованы в рамках проектов СН1Ь и АМ1/АМГОА [9].
Использование панорамной и персональных камер подходит для записи небольших совещаний, во время которых все участники находятся за одним конференц-столом. При средних размерах мероприятия (~ 50 человек) увеличивается зона слежения, что влияет на стоимость оборудования для записи и многоканальной обработки сигналов [10]. Распределенные системы массивов микрофонов, PTZ (Рап/ТП^оот) камеры с функциями наклона, поворота и масштабирования и другие датчики используются для обнаружения положения участников и выбора текущего диктора в средних интеллектуальных залах совещаний.
Разработанный интеллектуальный зал предназначен для проведения малых и средних мероприятий (совещаний, лекций, семинаров) с числом присутствующих до 42 человек. Две группы устройств используются для слежения за участниками и записи выступающих: (1) персональные веб-камеры обслуживают участников, расположенных за конференц-столом, (2) четыре массива микрофонов с различными конфигурациями и пять видеокамер трех типов используются для аудиолокализации источника звука и видеозаписи участников, которые сидят в креслах в другой части зала.
В ходе исследования были разработаны три проактивных сервиса: (1) управление параметрами PTZ камеры при наведении на лицо выступающего; (2) автоматическое архивирование данных мероприятия, включая фотографии лиц участников, видеозаписи выступающих, слайды презентации и рукописные наброски на умной доске и другие материалы, полученные на основе оперативного анализа контекста; (3) выбор и веб-трансляция наиболее актуального мультимедийного контента в процессе проведения мероприятия в интеллектуальном зале. В статье рассматривается система веб-трансляции мероприятий, которая реализует последний сервис и использует результаты работы других двух сервисов.
Архитектура системы веб-трансляции мероприятий
Разработанная система веб-трансляции мероприятий (СВТМ) состоит из пяти основных программных комплексов и управляющего сервера. На рисунке 1 представлены все шесть модулей, которые отмечены цифрами. Первый комплекс - система управления мультимедийным оборудованием (СУМО), которая объединяет модули, управляющие мультимедийными приложениями и оборудованием, служащим для записи поведения пользователей и отображения презентационных данных. Второй комплекс - многоканальная система обработки персональных веб-камер (МСОПВ), которая захватывает и обрабатывает аудио- и видеопотоки с камеры. Третий комплекс служит для хранения аудио- и видеоданных с мероприятия. Четвертый комплекс представляет собой базу данных, которая включает в
себя информацию о совещании. Номером шесть на рисунке 1 отмечен сервер управления мероприятиями (СУМ), который получает и анализирует данные из всех других модулей и предоставляет информацию для веб-системы отображения (ВСО), которая отмечена как номер пять. Система ВСО включает модули, которые передают мультимедийный контент удаленным участникам. Система управления контентом (СУК) включает третий, пятый и шестой комплексы.
Первый комплекс СУМО отвечает за работу мультимедийных устройств. Система управления умной доской (СУД) позволяет пользователям использовать плазменную панель с сенсорным экраном для рисования и записи заметок. Система управления презентациями (СУП) отвечает за загрузку, отображение и переключение слайдов презентации. Многоканальная система аудиолокализации (МСА) дает информацию об аудиоактивности в интеллектуальном зале. Многоканальная система видеомониторинга (МСВ) отвечает за обработку и запись видеопотоков, поступающих от камер, направленных на аудиторию, ведущего и участников, сидящих в зоне стульев.
МСОПВ состоит из персональных модулей веб-камер ПМВ, которые управляют работой персональных веб-камер расположенных за конференц-столом, а также сервера управления ПМВ -СПМВ, который обрабатывает аудио- и видеоданные, поступающие с этих модулей.
Аудиофайлы в формате wav и видеофайлы в формате avi, которые были получены от персональных камер и обработаны СУМ (изменен формат, разрешение и имя файла), изображения с МСВ, СУП, СУД и ПМВ сохраняются в файловом хранилище.
База данных мероприятия реализована с помощью сервера MySQL и включает две таблицы: (1) основные сведения обо всех запланированных мероприятиях; (2) информация о текущем совещании, которая включает в себя некоторые данные для системы отображения совещании.
ВСО представлена в виде веб-страницы с несколькими формами [11]. Информация о наполнении этих форм получается на основе технологии AJAX. Передача аудиоданных реализована на основе потокового RTMP сервера и технологии Abobe Flash.
СУМ получает и анализирует данные от всех модулей, а также выбирает аудио- и видеоконтент для ВСО. Этот анализ основан на логико-временной модели [11].
Рис. 1. Архитектура системы веб-трансляции мероприятий
Программные модули СВТМ были установлены на нескольких персональных компьютерах, объединенных в одну локальную сеть. Связь между модулями реализована на основе передачи строковых сообщений по ИБР протоколу.
Диаграмма работы системы веб-трансляции мероприятий
Работа системы, отвечающей за веб-трансляцию и ее компонентов, зависит от текущей ситуации в комнате. На рисунке 2 показан пример переключения режимов компонентов и синхронизации аудио- и видеоконтента в зависимости от входящих событий, модулей аудиолокализации, видеомониторинга и модулей управления мультимедийными устройствами. СУК управляет выбором мультимедийного контента, который доступен для удаленного участника совещания.
Оборудование
СУК вывод
Рис. 2. Пример обработки событий при проведении мероприятия События, которые сгенерированы СУМ, влияют на работу системы веб-трансляции мероприятия. Эти события показаны в правой части рисунка 2 по оси времени. Представленные события могут быть
разделены на четыре типа по следующим критериям: (1) время; (2) деятельность основного докладчика; (3) деятельность сидящих участников; (4) использование презентационных устройств.
Первое событие, показанное на схеме, - ”20 минут до встречи”. После этого события (событие Е1), система веб-трансляции переходит в режим подготовки и запускает модули МСА, МСВ и МСОПВ. Кроме того, система отправляет сообщения для опускания экрана и включения света. Логотип мероприятия отображается на веб-странице. После обнаружения аудиоактивности в комнате (событие Е2) в модуле МСА запускается режим определения звуковой активности.
При появлении участника в комнате (событие Е3) МСВ переходит в режим "слежения за участниками” (СУ) и на веб-страницу выводится изображение с общим видом комнаты, а также аудиопоток с микрофона, в котором анализируется все пространство комнаты. Когда до начала заседания остается около десяти минут (событие Е4), включается проектор, плазменная панель с сенсорным экраном и модули СУД, РС.
Если появляются участники в зоне стульев (событие Е5), МСВ начинает работать в режиме "регистрация участников" (РУ). Если есть участники, сидящие за конференц-столом (событие Е6), запускаются модули ПМВ. Если МСВ обнаруживает основного докладчика (событие Е7) и МСА - его аудиоактивность (события Е9, событие Е12), то кадры с камеры, направленной на него, отображаются на веб-странице. Система начинает передачу аудиопотока с микрофона, с помощью которого производится анализ зоны презентаций. Когда презентация полностью загружена (событие Е8), ее первый слайд отображается на веб-странице. Если аудиоактивность была обнаружена за конференц-столом (событие Е10), то система получает аудиопоток с персональной веб-камеры, расположенной перед участником.
Когда слайд изменен (событие Е11), изображение с новым слайдом передается на веб-страницу. Если участник использует сенсорную доску (событие Е13), то изображение слайдов на веб-странице изменяется на изображение с 8Б8. Если в зоне стульев была обнаружена аудиоактивность (событие Е14), то PTZ камера фокусируется на говорящем участнике и МУР8 записывает его речь. В то же время на веб-странице отображаются кадры с PTZ камеры и записывается аудиопоток, полученный с микрофона в этой зоне. Когда основной докладчик покидает зону презентации (событие Е15), для удаленных участников отображается общий вид комнаты.
После совещания, когда все участники выходят из комнаты (событие Е16), все модули и устройства выключаются. После окончания совещания на веб-странице отображается только логотип.
Экспериментальные результаты
Экспериментальные результаты были получены в ходе проведения сценария, при котором несколько человек обсуждают проблему в интеллектуальном зале СПИИРАНе. Один из участников стоял в презентационной зоне и использовал сенсорную доску и проектор, остальные сидели за конференцстолом. Докладчик начал выступление, когда все участники зашли в зал и сели в кресла. Каждый из участников мог задавать вопросы после окончания презентации.
Данные по мероприятию, которые влияли на изменение ситуации и графического контента, представлены в таблице 1. Во время регистрации участников весь графический контент был жестко задан, поэтому ошибок в выборе источника не было. Изменение состояний сенсорной панели и переключение слайдов были определены верно. Большая часть ошибок возникла при определении речевой активности участников, сидящих за конференц-столом. Эти ошибки приводили к неверному выбору изображения с камеры, а также источника звука, что приводило к записи диктора более удаленным микрофоном.
Результаты эксперимента показывают, что большинство ошибок при определении активного диктора (ложное определение диктора БЛ и пропуск диктора М8) происходит, когда участник на конференции задает вопрос, но изображение другого участника, который находится рядом, показывается в диалоговом окне активного диктора. Такие погрешности происходят из-за ошибок алгоритма аудиолокализации по причине высокого уровня реверберации в зале. Кроме того, небольшое расстояние между участниками, сидящими за конференц-столом, осложняет процесс аудиолокализации. В то же время количество ошибок при переключении с сидящего участника на ведущего и наоборот меньше, так как расстояние между ними существенно больше, чем между участниками за конференц-столом.
Таблица 1
Результаты эксперимента
Описания мероприятия Определено вручную Определено автоматически
Число FA MS
Участник 5
5 0 0
Участники, сидящие за конференц-столом 4 4 0 0
Изменения слада 22 22 0 0
Использование сенсорного экрана 1 1 0 0
Речевая активность главного диктора 10 15 5 0
Речевая активность сидящих участников 9 32 24 1
Временное отсутствие активности в аудитории 2 2 0 0
Переход реплики от выступающего к сидящим участникам 8 13 6 1
Переход реплики от сидящих участников к выступающему 7 13 6 0
Переход реплики между выступающими 1 18 17 0
Всего переходов реплик 16 44 29 1
Кроме того, паузы в речи основного докладчика приводят к переключению камеры на аудиторию или другого участника, чья речь была неправильно обнаружена. Так как оценки MS и FA были рассчитаны для многоканальной системы МСОПВ, то число правильных случаев выбора графического источника не всегда совпадает со значением аналогичного параметра, вычисленного вручную. В общей сложности было сделано 31 переключение на ошибочный источник графического контента при анализе текущей ситуации в конференц-зале, что составляет около 3% от всего времени заседания. На данный момент разработанная система веб-трансляции была проверена в режиме, когда удаленные участники являлись только слушателями и не могли влиять на ход мероприятия. Для повышения активности участников будут разработаны панели инструментов, позволяющие удаленному слушателю задавать вопросы и активно участвовать в дискуссии.
Заключение
Моделирование и обоснование контекста, извлечение и обмен знаниями являются наиболее важными вопросами при разработке окружающих интеллектуальных пространств. Разработка контекстноосведомленной системы обработки мероприятий позволяет автоматизировать запись, архивирование и трансляцию аудио-, видео- и презентационных материалов заседания. Многоканальная система аудиовизуальной обработки сигналов на основе классификатора AdaBoost для распознавания лиц и GCC-PHAT метода локализации звука источника была разработана для отслеживания участников в среднем по размеру интеллектуальном зале. Анализ поведения участников и состояния презентационного оборудования применялся для прогнозирования контекста и выбора аудио- и видеоисточников, которые передают наиболее актуальный мультимедийный контент. Разработанная веб-система трансляции мероприятий позволяет удаленным участникам воспринимать все события в зале заседаний через персональные компьютеры или смартфоны. Дальнейшая работа будет сосредоточена на увеличение возможностей удаленных участников при проведении мероприятий в интеллектуальном зале.
Литература
1. Boytsov, A., Zaslavsky, A. Extending context spaces theory by proactive adaptation. Berlin: Springer, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 1-12 (2010).
2. Padovitz, A., Loke, S.W., Zaslavsky, A. Towards a Theory of Context Spaces. In Proceedings of the Second IEEE Annual Conference on Pervasive Computing and Communications Workshop, Orlando, USA, 38-42, (2004).
3. Morse, D.R., Ryan, N.S., Pascoe, J. Enhanced reality fieldwork using hand-held computers in the field. Life Sciences Educational Computing, 9 (1), 18-20, (1998).
4. Dey, A.K., Salber, D., Abowd, G.D. A Conceptual Framework and a Toolkit for Supporting the Rapid Prototyping of Context-Aware Applications. The Human-Computer Interaction, 16 (2-4), 97-166, (2001).
5. Moltchanov, B., Mannweiler, C., Simoes, J.: Context-Awareness Enabling New Business Models in Smart Spaces. Berlin: Springer, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 13-25 (2010).
6. Goh, K.H., Tham, J.Y., Zhang, T., Laakko, T.: Context-Aware Scalable Multimedia Content Delivery Platform for Heterogeneous Mobile Devices. In Proceedings of MMEDIA 2011, Budapest, Hungary, 1-6, (2011).
7. Chai, J., Pan, S., Zhou, M.: MIND: A Context-based Multimodal Interpretation Framework, Kluwer Academic Publishers, (2005).
8. Dai, P., Tao, L., Xu, G.: Audio-Visual Fused Online Context Analysis Toward Smart Meeting Room. Berlin: Springer, J. Indulska et al. (Eds.): UIC 2007, LNCS 4611, 868-877, (2007).
9. Computers in the human interaction loop. Ed. Waibel, A. and Stiefelhagen, R. Berlin: Springer, (2009).
10. Rui, Y., Gupta, A., Grudin, J., He, L.: Automating lecture capture and broadcast: Technology and videography. Multimedia Systems, 10, 3-15, (2004).
11. Ronzhin, An., Budkov, V., Karpov, A.: Multichannel System of Audio-Visual Support of Remote Mobile Participant at E-Meeting. Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, 62-71, (2010).
12. Ronzhin, Al., Prischepa, M., Karpov, A.: A Video Monitoring Model with a Distributed Camera System for the Smart Space. Berlin: Springer, S. Balandin et al. (Eds.): NEW2AN/ruSMART 2010, LNCS 6294, P. 102-110, (2010).
Будков Виктор Юрьевич, аспирант лаборатории речевых и многомодальных интерфейсов учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). e-mail: budkov@iias.spb.su; 199178, г. Санкт-Петербург, СПИИРАН, 14-я линия В.О., д. 39; р.т. +7(812)328-7081, факс +7(812)328-7081.
Прищепа Мария Викторовна, программист лаборатории речевых и многомодальных интерфейсов учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). email: prischepa@iias.spb.su; 199178, г. Санкт-Петербург, СПИИРАН, 14-я линия В.О., д. 39; р.т. +7(812)328-7081, факс +7(812)328-7081.
Глазков Сергей Викторович, аспирант лаборатории речевых и многомодальных интерфейсов учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН (СПИИРАН). email: glazkov@iias.spb.su; 199178, г. Санкт-Петербург, СПИИРАН, 14-я линия В.О., д. 39; р.т. +7(812)328-7081, факс +7(812)328-7081.
Budkov Viktor Yurievich, Phd Student, Laboratory of Speech and Multimodal Interfaces St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS). Research interests: multichannel audiovisual signal processing, web technologies for distant control and communication. The number of publications — 25. budkov@iias.spb.su; SPIIRAS, 39, 14-th Line V.O., St. Petersburg, 199178, Russia; office phone +7(812)328-7081, fax +7(812)328-7081. Scientific adviser — Dr. Tech. Sci., Assoc. Prof. A.L. Ronzhin.
Prischepa Maria Viktorovna, programmer, Laboratory of Speech and Multimodal Interfaces St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS). Research interests: models of interaction between user and information robot, development of personified strategies for human-machine interaction. The number of publications — 18. E-mail: prischepa@iias.spb.su; SPIIRAS, 39, 14-th Line V.O., St. Petersburg, 199178, Russia; office phone +7(812)328-7081, fax +7(812)328-7081. Scientific adviser — Dr. Tech. Sci., Assoc. Prof. A.L. Ronzhin.
Glazkov Sergey Viktorovich, Phd Student, Laboratory of Speech and Multimodal Interfaces St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences (SPIIRAS). Research interests: multimodal interfaces, heterogeneous mobile devices, client-server architecture. The number of publications — 2. glazkov@iias.spb.su; SPIIRAS, 39, 14-th Line V.O., St. Petersburg, 199178, Russia; office phone +7(812)328-7081, fax +7(812)328-7081. Scientific adviser — Dr. Tech. Sci., Assoc. Prof. A.L. Ronzhin.