УДК 004.622
А.А. Сытник, Н.С. Вагарина, Н.И. Мельникова ТЕХНОЛОГИИ СЕМАНТИЧЕСКОГО ВЕБ ДОСТУПА К МУЛЬТИМЕДИЙНЫМ АКТИВАМ
Преодоление семантического разрыва в использовании мультимедийных активов возможно при использовании технологий семантического веба. Анноти-
рование мультимедийных активов на основе предметно-независимых мультимедийных онтологий и предметных онтологий сможет обеспечить их многократное долгосрочное использование.
Мультимедийные активы, семантический разрыв, мультимедийные онтологии, предметные онтологии
A.A. Sytnik, N.S. Vagarina, N.I. Melnikova SEMANTIC WEB TECHNOLOGIES TO ACCESS MULTIMEDIA ASSETS
Overcoming the semantic divide when using multimedia assets is possible on the semantic web technologies base. Annotation of multimedia assets on the basis of thematic independent multimedia ontology and thematic ontology will help providing multiple reuse of multimedia assets.
Multimedia assets, semantic divide, multimedia ontology, thematic ontology
Беспрецедентное развитие мультимедийных технологий в последнее десятилетие привело к появлению больших слабоструктурированных мультимедийных активов, в том числе образовательных. Становление онлайнового образования, т.е. образования на основе использования цифровых образовательных ресурсов посредством компьютерных сетей, требуют нового подхода к структурированию и доступу к мультимедийным активам. В образовательной среде таковыми, прежде всего, являются презентации или, точнее презентационные фильмы к лекциям, выступлениям на конференциях, семинарах, тренингах и пр. Схожие процессы по развитию онлайнового образования и соответствующего производства мультимедийных активов идут во всех странах, которые имеют развитые системы образования.
В Европейском Союзе, по данным агентства по образованию, аудиовизуальным средствам и культуре (Education, Audiovisual and Culture Executive Agency) 2011 г. все европейские страны имеют национальные стратегии использования информационно-коммуникационных технологий в среднем образовании [4]. В большинстве стран используется широкий спектр информационно-коммуникационного оборудования. Учителям рекомендуется использовать компьютеры, проекторы, DVD, видео, телевидение, видеокамеры, интерактивные доски. Спектр используемого программного обеспечения также достаточно обширен: офисные приложения, учебные приложения, мультимедийные приложения, коммуникационное программное обеспечение, цифровые учебные игры, цифровые ресурсы. В ряде стран в учебном процессе уже используют мобильные устройства и электронные книги. В свою очередь, виртуальные среды обучения объединяют весь спектр новых технологий и ресурсов для создания персонализированного пространства онлайнового обучения.
По данным исследования, осуществлённого консорциумом Sloan , в США в 2010 г. более 6,1 млн. студентов изучали в осеннем семестре, по крайней мере, один курс в онлайновой форме [2]. По сравнению с предыдущим годом количество онлайновых студентов увеличилось на 0,56 млн. чел. Количество онлайновых студентов неуклонно продолжает расти, опережая общую численность студентов высших учебных заведений, никаких признаков замедления не обнаруживается. Например, темпы роста онлайновой регистрации в 2010 г. составили 10,0%, в то время как темпы роста общей численности студентов составили лишь 2% за тот же период. По крайней мере, один курс в онлайновом режиме изучали 31% студентов высших учебных заведений. Онлайновое образование является составной частью долгосрочной стратегии развития 65% высших учебных заведений. Необходимо также отметить, что существует последовательное во взглядах академическое меньшинство, обеспокоенное тем, что качество онлайнового обучения может быть не тождественным традиционному очному обучению. В 2010 г. это меньшинство составило 11%. Интерпретация данных результатов в терминах теории диффузии инноваций Э. Роджерса показывает, что онлайновое образование захватило полностью социальную систему. Согласно Роджерсу, инновация определяется как идея, метод, или объект, воспринимаемые в качестве новых соответствующим субъектом освоения [8]. Диффузия является процессом, при котором инновация распространяется посредством определенных коммуникационных каналов во времени среди членов некоторой социальной системы, при этом индивидуумы, обеспечивающие продвижение инновации, называются агентами влияния, а те, кто воспринимает инновацию, называются адептами. Таким образом, по состоянию на 2010 г. такая инновация как онлайновое образование охватила полностью социальную систему, в которой данная инновация распространяется во времени, включая инноваторов (2-3%), ранних адептов (14-15%), раннее большинство (33%), позднее большинство (33%). Во всякой социальной системе при адаптации инноваций всегда существуют так называемые «отстающие» в количестве около 16%, которые никогда не станут
адептами инновации. Следовательно, исходя из данных отчётов Sloan, количество приверженцев онлайнового образования в академической социальной системе США можно рассматривать исчерпанным.
Особенность диффузионного процесса состоит в том, что любая его точка может стать точкой стагнации или даже отката, но именно при переходе от ранних адептов к раннему большинству наиболее вероятен провал инновации. Это - критическая точка диффузионного процесса. Sloan проводит исследование онлайнового образования США начиная с 2002 г. По его данным, уже в 2002 г. эта критическая точка была пройдена. Онлайновое образование вышло на уровень «позднее большинство», поскольку ещё 27,6% академической социальной системы отказывали онлайновому образованию в правах на существование. Таким образом, распространение инновации в самой лёгкой части диффузионного процесса, при переходе от раннего большинства к позднему, составило 8 лет. Систематические исследования на протяжении многих лет показывают сложность диффузионного процесса онлайнового образования. Одной из причин этого является опережение технологий создания цифровой информации от механизмов доступа к ней, за исключением текстовой информации. Однако текстовая информация наиболее сложно воспринимаемый тип информации в онлайновом образовании. Эффективное онлайновое образование требует мультимедийного представления информации, т.е. возможности представления информации различной природы посредством одного устройства, каковым в настоящее время является компьютер.
Из-за неструктурированности и линейности доступа к мультимедийным активам их большая часть в полной мере не используется. Возникает так называемый семантический разрыв, т.е. несоответствие извлекаемой мультимедийной информации конкретным информационным потребностям пользователя. Как уже указывалось, наибольшей частью образовательных мультимедийных активов является презентационное видео. Их создано, можно сказать, несметное количество, но участники образовательного процесса зачастую испытывают трудности в поиске конкретных частей информации в презентациях. Иногда даже автору требуется просматривать материал несколько раз, чтобы найти нужный фрагмент. Для обеспечения эффективного использования стремительно наращиваемых мультимедийных активов, необходимо осуществить соответствующее описание и создать механизмы доступа, чтобы эти активы стали многократно используемыми, так же как и текстовая информация. Тщательное описание мультимедийных активов является важнейшей предпосылкой их использования различными пользователями.
Существует множество подходов к описанию мультимедийных активов. Но в основе каждого из этих подходов можно выделить два этапа: фрагментация и описание выделенных фрагментов. Так, например, непрерывный поток видеоданных представляется в виде набора значимых фрагментов, а затем осуществляется их описание. При фрагментации необходимо определить объект индексации и уровень детализации. В случае презентации естественная иерархия в представлении материала требует иерархической структуры фрагментации, индексирования и доступа к нему. Другие типы мультимедийных активов требуют своих подходов к фрагментированию. Одной из наиболее ранних работ в этой области является проект Cornell Lecture Browser, который использует различия бинарного представления слайдов для фрагментации слайдового видеопотока [3, 6]. В 2002 г. была предложена функция плотности контента [7]. Оказалось, что границы темы совпадают с приливами и отливами «плотности» видеоконтента. В 2003 г. была предложена методика сегментации лекционного видео через вычисление похожести векторов заголовков, полученных из текста, и последовательности лекционных векторов, полученных из лекционной речи [10]. В 2005 г. были предложены лингвистические подходы к сегментации видео [5].
Несмотря на достигнутые успехи, семантический разрыв сохраняется, поскольку информационные потребности пользователей не обеспечиваются соответствующими мультимедийными активами. Пользователи из различных предметных областей или различной подготовки воспринимают предоставляемые мультимедийные активы с различных точек зрения и интересуются только их определённым аспектом. Однако большая часть существующих систем поиска информации имеет единственное описание этих данных. А это означает, что для систем поиска практически невозможны множественность и персо-нифицированность представления мультимедийных активов для пользователей с различными интересами. В результате степень релевантности поисковой выдачи по запросам к этим активам является низкой. Происходит это по причине недостаточного описания самих данных, когда в полной мере не учитываются синтаксические и семантические ограничения. Поэтому трудно выделить релевантные данные из постоянно растущего объёма мультимедийных активов.
Проблема релевантности поисковой выдачи характерна не только для мультимедийных активов, но и в целом для web-сервиса. Информационное переполнение в Интернете потребовало нового подхода к организации данных. В 2004 г. возникла концепция семантического веба (Semantic Web, Sweb) или Web 3.0. Семантический веб был предложен консорциумом W3C в качестве новой модели развития web-сервиса. Основным содержанием данного подхода является использование семантических моделей -онтологий, которые строятся на основе дескрипционных логик. Существуют стандарты языков описания онтологий и метаданных (например, RDF, OWL, SPARQL), а также инструменты для работы с онтологиями, такие как редакторы онтологий, например, Protege и системы логического вывода, например, Pellet.
Следует отметить, что трудности реализации концепции Sweb в рамках всего Интернета связаны с необходимостью создавать и поддерживать онтологии, а также в связи со сложностью интеграции ресурсов. Однако идеи и технологии Sweb следует использовать для развития информационных систем в рамках локальных сетей, в частности университетов. Sweb определяет рамки, которые позволяют разделять данные и повторно их использовать различными пользователями и приложениями. Sweb предлагает мягкую эволюцию существующих информационных ресурсов.
Существуют два типа онтологий: предметно-независимые онтологии и онтологии предметных областей.
Предметно-независимые онтологии описывают общие свойства информации различной природы. Для описания мультимедийных активов созданы специальные мультимедийные онтологии. Мультимедийные онтологии описывают мультимедийные сущности, структуру и контент, которые могут быть в различных предметных областях. Наиболее широко распространёнными стандартами описания мультимедийного контента являются дублинское ядро (Dublin Core) и MPEG-7. MPEG-7 предлагает большой набор инструментов для описания мультимедийных активов в различных аспектах, например создание контента, описание контента, управление контентом, навигация и доступ, взаимодействие пользователей и др. Ряд мультимедийных онтологий разработан на основе стандартов MPEG-7 [9]. К таковым следует отнести онтологии Хантер, Ширанаки, COMM. Онтология Хантер является первой MPEG-7 онтологией и она покрывает верхнюю (upper) часть схемы описания мультимедиа (Multimedia Description Scheme, MDS) стандарта MPEG-7. Онтология Ширанаки покрывает полностью MDS стандарта MPEG-7. Онтология COMM (Core Ontology for MultiMedia) основана на онтологии верхнего уровня DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering, http://www.loa.istc.cnr.it/DOLCE.html) и описывает большую часть стандарта MPEG-7. Эта онтология создается полностью автоматически из стандарта MPEG-7 и используется, например, в известном проекте MusicBrainz, который позволяет определить происхождение любого музыкального фрагмента из Интернета.
Создание мультимедийной онтологии осуществляется в несколько этапов. Во-первых, необходимо идентифицировать классы онтологий, которые описывают концепты предметной области и являются отправной точкой большинства онтологий. В мультимедийных онтологиях обычно выделяют следующие классы: мультимедийные сущности, немультимедийные сущности, дескрипторы сущностей. Мультимедийные сущности классифицируются следующим образом: графические образы, видео, аудио, видеоаудио, мультимедиа. Немультимедийные сущности включают: визуальные дескрипторы, аудиодескрипторы, структурные дескрипторы и семантические дескрипторы. Классы могут иметь подклассы, например, видеосегмент является подклассом видео. Отношение подкласс/класс может углубляться на несколько уровней в зависимости от предметной области. Затем все классы упорядочиваются в иерархию. Иерархическая концепция описывает различные отношения между классами, например, мультимедийные сущности разъединены с немультимедийными сущностями и дескрипторными сущностями, а видеосегмент является подклассом видео. Последний этап состоит в определении свойств каждого класса. Эти свойства в дальнейшем определят допустимые отношения между мультимедийными, немультимедийными и дескриптивными сущностями.
Предметные онтологии предоставляют общий словарь для предметной области и определяют с разным уровнем формальности смысл терминов и отношений между ними. Знания в предметной онтологии формализуются в следующие иерархии: классы, отношения, функции, аксиомы и экземпляры классов. Классы в онтологии, как правило, организованы в таксономии.
Как уже указывалось, с развитием технологий семантического веба были разработаны несколько онтологий для аннотирования и представления мультимедийного контента. Для мультимедийных аннотаций презентаций, например, применяются алгоритмы выделения терминов по заголовкам, служебной информации слайдов и содержимому слайдов. В аннотации также может находиться информация о лекторе, длительности презентации и пр. Неинформативными словами для таких аннотаций являются слова из общеупотребимого списка стоп-слов.
Мультимедийная онтология является предметно-независимой и может объединяться с различными предметно-зависимыми онтологиями для удовлетворения информационных потребностей различных пользователей. Новая онтология генерируется посредством объединения специальных знаний в предметной области с мультимедийной онтологией. Онтология затем используется для описания мультимедийных данных с целью интегрирования знаний предметной области для мультимедийного доступа и возрастания релевантности поисковой выдачи по запросам. В результате подобные онтологии работают для пользователей из различных предметных областей. Перед выделением терминов, например, из обрабатываемых слайдов удаляются неинформативные слова и пунктуация. Для того чтобы найти неинформативные слова во входном тексте для аннотации, происходит изучение частотности употребления терминов тематической онтологии. Основываясь на результатах частотного анализа тематической онтологии, можно выявить термины с очень высокой частой употребления и объединить их со списком общеупотреби-
мых стоп-слов, а затем использовать этот объединённый список для удаления неинформативных слов из исходного текста.
Для доступа к мультимедийным активам, описанным на основе мультимедийных онтологий, следует использовать существующие онтологии предметных областей и онтологии добычи знаний. Изучение взаимодействия этих онтологий можно использовать на онтологии большого проекта в области биоинформатики, который называется Открытые биомедицинские онтологии (Open Biomedical Ontologies, OBO) для которого консорциум Gene Ontology Consortium разработал онтологию генов - Gene Ontology (GO, www.geneontology.org). А для добычи знаний можно использовать онтологию Data Mining Ontology (DMO, http://www.dmo-foundry.org/). Онтология генов предоставляет словарь для описания генных продуктов в терминах биологических процессов, молекулярных функций и их положения в клеточных компонентах. Использование стандартизованных терминов в онтологии генов способствует востребованности генных продуктов, поскольку позволяет делать однотипные запросы по различным научным базам данных. Необходимо отметить, что онтологии наиболее развиты в настоящее время в биологии и являются важнейшей частью биоинформатики в области автоматизированной обработки высокопроизводительных экспериментов [1]. Вследствие обширности и открытости этих онтологий их следует использовать для проведения работ, связанных с исследованием особенностей представления мультимедийных активов и добычи знаний.
Для того чтобы применить онтологии к различным типам мультимедийных активов, необходимо рассматривать особенности описания данных в конкретных предметных областях, изучать созданные в этих предметных областях онтологии. Если подходящая предметная онтология отсутствует, то её необходимо разрабатывать, хотя это создание предметной онтологии является сложной и ответственной задачей. На основе тщательного изучения мультимедийных активов предметной области необходимо провести анализ и ранжирование мультимедийных онтологий для отбора наиболее подходящих к рассматриваемой предметной области. Как уже указывалось, существует ряд успешно применяемых предметнонезависимых мультимедийных онтологий, которые можно использовать для описания различных типов мультимедийных активов.
Кроме того, необходимо подробно описать особенности многократного использования мультимедийных активов. Это позволит сделать множественное предоставление одного и того же мультимедийного контента с использованием различных предметных онтологий и таким образом удовлетворить разнообразные информационные потребности пользователей. Только в этом случае можно обеспечить долгосрочное использование созданных образовательных мультимедийных активов.
ЛИТЕРАТУРА
1. Пономаренко Е.А. Технологии знаний в протеомике / Е.А. Пономаренко, Е.В. Ильгисонис, А.В. Лисица // Биоорганическая химия. 2011. Т. 37. № 2. С. 190-198.
2. Allen I.E., Seaman J. Going the Distance: Online Education in the United States / I.E. Allen, J. Seaman. Wellesley: 2011. 39 p. Available online: http://sloanconsortium.org/publications/survey/going_distance_2011.
3. Boreczky J. Comparison of Video Shot Boundary Detection Techniques / J. Boreczky, L. Rowe // Journal of Electronic Imaging. N.Y.: IS&T, SPIE, 1996. V. 5. Is. 2. P. 116-238.
4. Key Data on Learning and Innovation through ICT at School in Europe 2011, Chiffres cles de l'utilisa-tion des TIC pour l'apprentissage et l'innovation a l'ecole en Europe 2Schlusselzahlen zum Einsatz von IKT fur Ler-nen und Innovation an Schulen in Europa 2011. Education, Audiovisual and Culture Executive Agency, 2011.Aavailable online: http://eacea.ec.europa.eu/education/eurydice.
5. Automated video segmentation for lecture videos / M. Lin, M. Chau, J. Cao, J.F. & Nunamaker // The International Journal of Technology and Human Interaction (IJTHI), 2005. V. 1. № 2. P. 27-45.
6. Mukhopadhyay S. Passive capture and structuring of lectures / S. Mukhopadhyay, B. Smith // 7th ACM international conference on Multimedia (MULTIMEDIA'99, Orlando, USA 5 Oct. 30 Nov. 1999): Proc. of conf . P. 1. N.Y., 1999. P. 477-487.
7. Phung D. High level segmentation of instructional videos based on content density / D. Phung, S.Venkatesh, C.Dorai // 10th ACM international conference on Multimedia (Multimedia’02, Juan-les-Pins, France. 1-5 dec. 2003) : Proc. of conf. N.Y., 2002. P. 295-298.
8. Roders E.M. Diffusion of innovations / E.M. Roders. 5rd Edition. NY, 2003. 541 p.
9. MPEG-7 based Multimedia Ontologies: Interoperability Support or Interoperability Issue? / R. Troncy, O. Celma, S. Little, R. Garcia, C. Tsiranaki // 1st Workshop on Multimedia Annotation and Retrieval enabled by Shared Ontologies (MAReSo, Genova, Italy, 5 dec 2007): Proc. of workshop. 2007. P. 2-16. Available online http://mklab.iti.gr/mareso/files/proceedings.pdf
10. Yamamoto N. Topic segmentation and retrieval systems for lecture videos based on spontaneous speech recognition / N. Yamamoto, J. Ogata, Y. Ariki // 8th European Conference on Speech Communication and Technology: (EUROSPEECH 2003, Geneva, Switzerland 1-4 sept. 2003): Proc. of conf. N.Y., 2003. P. 961-964.
Сытник Александр Александрович -
доктор технических наук, профессор, заведующий кафедрой «Информационные системы и технологии» Саратовского государственного технического университета имени Гагарина Ю.А.
Вагарина Наталия Сергеевна -
кандидат физико-математических наук, доцент кафедры «Информационные системы и технологии» Саратовского государственного технического университета имени Гагарина Ю.А.
Мельникова Нина Ивановна -
доктор социологических наук, профессор кафедры «Информационные системы и технологии» Саратовского государственного технического университета имени Гагарина Ю.А.
Aleksandr A. Sytnik -
Dr. Sc., Professor
Head: Department of Information Technologies and Systems
Gagarin Saratov State Technical University
Nataliya S. Vagarina -
PhD, Associate Professor
Department of Information Technologies and Systems Gagarin Saratov State Technical University
Nina I. Melnikova -
Dr. Sc., Professor
Department of Information Technologies and Systems Gagarin Saratov State Technical University
Статья поступила в редакцию 15.11.11, принята к опубликованию 01.12.11