К вопросу о технологии преобразования звук – изображение – звук

Дворянкин Сергей Владимирович; Нагорных Иван Михайлович

□

ДВОРЯНКИН1 Сергей Владимирович, доктор технических наук, профессор НАГОРНЫХ2 Иван Михайлович

К ВО

ПРЕОБ

СУ О ТЕХНОЛОГИИ АЗОВАНИЯ ЗВУК -ИЗОБРАЖЕНИЕ - ЗВУК

Дан краткий обзор направлений, использующих преобразование визуальных данных в звук. Предложена технология преобразования. изображение - звук - изображение. Технология, предполагает, сегментацию и перевод изображения, в звук с последующим, восстановлением исходного кадра. Проведена оценка влияния количества компонент, сегментации на качество восстановленного изображения. Предложенный подход может, быть использован, для. передачи визуальных данных в условиях ограниченной пропускной способности канала передачи данных и для. стеганографической защиты, изображения. Ключевые слова: преобразование изображение — звук — изображение, сегментация, стеганография.

Areas in which, use image to sound transform are briefly reviewed in this article. Process of image - sound - image transform is proposed. The process includes segmentation and transform of image to sound with subsequent recovering initial frame. Influence of segmentation, components number to recovered, image quality was evaluated. Proposed, process may be used, for visual data transmission, in limited, bandwidth of data transmission, channel and. in steganographic image protection. Keywords: image — sound. — image transform, segmentation, steganography.

По данным [1] в настоящее время более 51% мирового интернет-трафика приходится на потоковое видео с прогнозируемым увеличением доли до 54% к 2016 году. Это свидетельствует о том, что визуальная информация является наиболее востребованной в современном обществе. Ежегодно публикуется огромное количество материалов, посвященных обработке, сжатию, способам передачи графических данных. В то же время довольно мало работ посвящено преобразованию визуальной информации в звуковую. Тем не менее существуют и развиваются направления, в которых актуален перевод графической информации в звуковую форму. Рассмотрим некоторые из них.

Современные и перспективные направления использования преобразования изображение - звук -изображение

Сонификация

В настоящее время ведутся активные исследования в области сонификации (БопШсаИоп) [2]. Развитие сонификации стало возможным благодаря разработке новых технологий преобразования графического изображения в звук и обратно как одной из составных частей этого направления. Исследования в этом направлении обусловлены тем, что в некоторых случаях намного удобнее использовать акустическое восприятие вместо тактильного или визуального. Кроме

того, в современном обществе, стоящем на высокой ступени сознания, много внимания уделяется людям с ограниченными возможностями. Такие люди, в частности, могут использовать только органы слуха для получения информации об окружающем мире. Система восприятия звука у человека обладает возможностью обучения в процессе получения акустических данных. Она позволяет регистрировать и распознавать очень сложные и быстро изменяющиеся акустические колебания. Работа [3] является одной из основополагающих работ в сонификации. Трансляция изображения в звук осуществляется по столбцам. В столбце пикселю, расположенному в верхней части изображения, присваивается максималь-

' — НИЯУ МИФИ, декан факультета Кибернетики и информационной безопасности;

2 — ФГБУ ФИПС, ведущий государственный эксперт по интеллектуальной собственности.

ная частота, нижнему — минимальная. Амплитуде звука соответствует значение цвета пикселя. Полученные в одном столбце сигналы суммируются, и полученный акустический сигнал воспроизводится. После этого процесс повторяется для следующего столбца кадра. «Щелчок» информирует слушателя о переходе к воспроизведению следующего кадра изображения. В [4] предложена теоретическая модель, которая может быть полезна для навигации в общественных местах. В звук транслируется не только графический образ, но и движение объектов в реальном времени. Изменение положения объекта определяется по сравнению кадров изображений, полученных с двух разных камер. Трансляция движения реализована как изменение частоты и интерауральной разности интенсивности с использованием закона обратных квадратов. За яркость изображения отвечает высота тональности.

Кроме компенсации проблем со зрением, особенности акустического восприятия человека дают посыл к созданию системы, которая бы усилила общее восприятие человеком информации. В частности появляется возможность расширить регистрируемый человеком световой спектр, увеличить разрешение и углы визуального восприятия, повысить чувствительность восприятия расстояния [5]. Улучшение восприятия предлагается достичь частичным переносом визуальной информации на акустический канал. Для этого параметры изображения (вертикальное и горизонтальное положение пикселя, его яркости, общей яркости сцены, превуалирую-щего цвета) кодируются параметрами звуковой волны (частота огибающей и несущая частота, их фазы в выбранный момент времени, базовая функция, амплитуда).

Недостатком и существенной сложностью для внедрения упомянутых технологий является необходимость в длительных тренировках. Сложные графические образы преобразуются в не менее сложные звуковые сочетания. Их распознавание требует обучения для выработки человеком значительной акустической «базы знаний» и последующей адаптации к восприятию «конвертированных» изображений.

Восстановление искаженной аудиоинформации

Даже в цифровую эру до сих пор в мире существует много архивов и хранилищ аналоговых носителей информации. В частности, такими носителями являются грампластинки. Воспроизведение данных с этих носителей механическим способом ведет к деградации поверхности и появлению побочных шумов, а в конечном итоге приводит к повреждению носителя и невозможности воспроизведения с него. В [6] и [16] использован бесконтактный метод копирования информации с механических аналоговых накопителей. Посредством микроскопа со встроенной камерой формируется двухмерное изображение поверхности, содержащей аналоговый акустический сигнал. В грампластинке этот сигнал записан в виде извилистых дорожек. Форма (глубина и ширина, отклонения в радиальном направлении) дорожки модулирована акустическим сигналом. Посредством технологии распознавания изображения определяются параметры дорожки, и на их основе синтезируется аудиосигнал. Кроме того, метод позволяет восстанавливать частичную потерю данных и уменьшать шумы, вызванные царапинами и дефектами поверхности. Наглядность, обработка звука в визуальной области Технологии преобразования звук — изображение — звук нашли широкое применение в сфере мультимедиа для обработки звука. Преобразование в графическую форму позволяет использовать более удобный, быстрый и привычный для человека визуальный анализ звуковой дорожки при ее редактировании. Точное выявление изменений характеристик акустического сигнала не всегда возможно в силу более низкой чувствительности слуховых органов, чем органов визуального восприятия. Кроме того, графическая форма представления позволяет одномоментно работать с намного большим объемом данных. При работе с акустической формой происходит активное использование памяти человека либо повторное воспроизведение звука, что утомительно и неудобно. Кроме того, появляются дополнительные возможности для наложения звуковых эффектов и фильтров. В [7] из кадра изображения построчно формируется звуковой образ.

Пиксель изображения представляет собой кадр звука. Звуковой амплитуде соответствует яркость цвета, нормированная на единицу (максимальное значение амплитуды) в зависимости от глубины цвета изображения. Преобразование звука в изображение производится обратным представлением амплитуды звука в значение яркости с соответствующей нормировкой с построчным формированием кадра. Ширина кадра подбирается в соответствии с частотой звукового сигнала. В [8] описан подход представления звуковой «окраски» мелодии, ее эмоциональной составляющей в графической форме. Мелодия представляется в виде блоков. Каждый блок представляет собой участок, цвет которого является условным графическим представлением вектора [9] характеристик музыкального сегмента. Представление может быть использовано для облегчения работы композитора по созданию нового произведения. Композитор может выбирать длительность и «цвет» музыкального фрагмента — блока — и формировать из них мелодию. Стеганография

Для защиты информации от несанкционированного доступа стеганография использует сокрытие информации в некотором контейнере. Сама же информация остается незащищенной (незашифрованной), скрывается сам факт содержания секретной информации. В качестве контейнеров могут выступать аудио-, видео- и текстовые данные [10]. При использовании аудиоконтейнера можно считать, что внедряемые данные преобразуются в звуковые. Как правило, в качестве скрываемой информации выступают водяные знаки, т.к. стеганографические техники позволяют внедрять незначительные объемы информации в контейнер. В противном случае растет вероятность обнаружения сокрытых данных. В [11] данные изображения кодируются в звук. Вертикальная ось соответствует частоте спектрограммы, горизонтальная — временной оси, цвет — амплитуде. Спектрограмма формируется посредством кратковременного преобразования Фурье с использованием окон. Из сформированной таким образом спектрограммы создается амплитудно-временной звуковой сигнал. Для получения информации об исходной

Разделение исходного кадра Формирование сонограмм компонент Передача компонент в звуковой форме

W W

Синтез изображения <-

Рис. 1. Блок-схема технологии преобразования изображение - звук - изображение

сцене изображение просматривается спектрограмма звука. В [11] не используется обратное преобразование звука в изображение, что является темой последующих исследований. По мнению авторов, технология позволяет избежать неправильного использования или взлома изображений в Интернете. Схема является стойкой к классическим методам стего- и криптоанализа. Подводная связь

Развитие робототехники повлекло за собой появление широкого спектра всевозможных автономных или дистанционно управляемых устройств.

Большинство из них выполняют разведочные задачи или занимаются сбором информации. В частности, появился класс устройств, действующих под водой (разведка и картографирование морского дна, океанская нефтедобыча, мониторинг состояния морских экосистем и т.д.). Водная среда характеризуется высоким коэффициентом затухания электромагнитных волн, поэтому использование передачи собираемых данных этим наиболее широко распространенным способом затруднительно либо вовсе невозможно. Поэтому для передачи информации на относитель-

но большие расстояния используются акустические системы связи. Вместе с тем даже использование акустических волн накладывает серьезные ограничения на пропускную способность канала связи в воде. Ширина канала в коммерчески изготавливаемых устройствах составляет несколько десятков кбит/с [12]. Несмотря на такое ограничение созданы системы передачи видео [13, 14]. В [14] удалось передавать потоковое видео низкого качества (256х256 пикселей с частотой 12 кадров/с) на скорости около 90 кбит/с на расстояние до 1 км. Для передачи использовался акустический передатчик. Акустический сигнал генерировался с использованием технологии мультиплексированых каналов с ортогональным частотным разделением (OFDM).

Как было показано, методы преобразования визуальных данных в звуковую форму активно развиваются и находят применение во многих, не связанных между собой областях. Описанная в настоящей статье технология расширяет арсенал уже имеющихся средств.

(А) Исходное изображение

(Б) Компонента сепарации изображения

(В) Сонограмма компоненты

(Д) Нормализованное восстановленное (Г) Восстановленное изображение изображение

Рис. 2. Изображение на разных этапах метода при сепарации на 4 части

ЕХНОЛОГИИ

щ ш

(А) Исходное изображение

(Б) Сепарация на 2 части

(В) Сепарация на 4 части

(Г) Сепарация на 6 частей (Д) Сепарация на 8 частей (Е) Сепарация на 12 частей

Рис. 3. Изображения, нормализованные по яркости

Технология преобразования изображение - звук -изображение

Описание технологии

В основе настоящего подхода лежит представление данных как суммы узкополосных сигналов. Узкополосные сигналы описываются в параметрическом виде по Гильберту:

s(t) = G(t)cosfy(t))f

где G(t) — огибающая сигнала, ty(t) — полная фаза сигнала. Выражение для полного сигнала имеет вид:

k=o

где gk(t) — значение Гильбертовской огибающей k-го элементарного узкополосного сигнала, а tyk(t) — значения фазы k-й составляющей. Такой подход применялся в работе [15], а его алгоритм реализован в программе «Лазурь», использовавшейся для экспериментов. Будучи разложенными на узкополосные составляющие, данные изображения интерпретиру-

ются в качестве сонограммы, соответствующей некоторому звуковому образцу.

Принципиальная схема технологии представлена на рис. 1. Исходный кадр построчно разделяется на компоненты. Формируются N кадров, каждый из которых содержит H/N ненулевых строк, представляющих собой соответствующую строку исходного кадра, где H — «высота» кадра в пикселях. После каждой такой ненулевой строки следует пропуск N—1 строк, заполненных нулями. Из неиспользованных N—1 строк исходного изображения аналогичным образом создаются N—1 кадров.

На рис. 2 показан частный случай, при разделении кадра на 4 компоненты. После разделения исходного изображения каждая из составляющих преобразуется в сонограмму посредством программы «Лазурь». Соног-рамма формируется путем перевода вертикальной координатной оси изображения в частотную ось амплитуд мгновенных комплексных спектров, следующих друг за другом на временной оси. Яркости цвета соответствует

яркость соответствующего отсчета на сонограмме. По сонограмме восстанавливается традиционная амплитудно-временная форма звуковых данных и преобразованные компоненты изображения могут быть переданы по каналам связи в формате звукового файла или с использованием протоколов передачи потокового звука. Получив все составляющие, принимающая сторона посредством суммирования восстанавливает исходное изображение. Восстановление осуществляется построчным суммированием соног-рамм звуковых данных соответствующих N кадров. Как видно из рис. 2Г, восстановленное изображение «светлее» исходного. Для улучшения качества можно применить нормализацию гистограммы яркости (рис. 2Д). Вместе с тем даже после нормализации имеется незначительная потеря качества восстановленного изображения по сравнению с исходным. Оценка влияния количества компонент разделения на качество синтезированного изображения На рис. 3 представлены нормализованные по яркости изображения,

восстановленные из компонент сепарации исходного изображения. Сепарация на 2 компоненты приводит к искажению восстановленного изображения по сравнению с оригинальным: отчетливо видна вертикальная «рябь» белого цвета, а также размытие контуров. Искажения приводят к неразличимости мелких объектов. Причиной, по которой наблюдается сильное ухудшение качества восстановленного изображения, является особенность преобразования изображения в частотно-временную плоскость. Преобразование графических данных в образ акустического сигнала осуществляется с использованием взвешивания выборки отсчетов окном наблюдения (Гаусса, Блэкмана, Хэмминга), сдвига окна и усреднения результатов на ширине окна наблюдения. Процедура свертки последовательности в окне приводит к уширению спектра, что при дальнейшем суммировании и усреднении приводит к появлению ложных отсчетов для конкретного временного среза. Это видно на рис. 2В: в результате преобразования в каждой компоненте изображения происходит «размывание» по вертикали ненулевых строк. Вместе с тем изображение (рис. 2В) выглядит более естественным, по сравнению с непреобразованной компонентной (рис. 2Б). В данном случае происходит своего рода деинтерлейсинг кадра. При синтезе изображения суммирование ложных отсчетов и приводит к ухудшению изображения, выраженному в снижении контрастности («расфокусировке») и размытию контуров объектов. При разделении на 4 компоненты (рис. 3В) картина меняется. Рябь исчезает, размытие контуров становится крайне незначительным — даже самые мелкие объекты изображения могут быть идентифицированы, присутствует только эффект «расфокусировки» изображения. Дальнейшее увеличение числа компонент сепарации не дает улучшения качества восстановленного изображения. Таким образом, с учетом того, что разделение на 2 компоненты приводит к появлению артефактов восстановленного изображения, целесообразно использовать сепарацию на 4 или более компонент.

Заключение

В настоящей работе кратко представлены основные области использования технологий преобразования изображение — звук — изображение, а также предложена новая технология такого преобразования. Как видно из анализа публикаций, спектр использования преобразования изображе-

ние — звук — изображение весьма широк, технология востребована и развивается. Предложенный подход может быть использован для стега-нографической защиты визуальных данных: поскольку в технологии осуществляется преобразование изображения в звуковую форму, то возможна передача данных изображения под видом звуковых данных Щ

Литература

1. Cisco Visual Networking Index: Forecast and Methodology, 30.12.2012.

2. Sarkar, R.; Bakshi, S.; Sa, P. K. Review on Image Sonification: A Non-visual Scene Representation. 1st International Conference on Recent Advances in Information Technology (RAIT 2012), ISM Dhanbad, 15-17th March 2012.

3. P. B. L. Meijer. An Experimental System for Auditory Image Representations. IEEE Transactions on Biomedical Engineering, 1992. — Vol. 39. — PP. 112 — 121.

4. AUDITORY EYES: REPRESENTING VISUAL INFORMATION IN SOUND AND TACTILE CUES, Suresh Matta, Heiko Rudolph, and. Dinesh K Kumar. The 13th European Signal Processing Conference 2005 promoted, by EURASIP, the European Association for Signal. Speech and. Image Processing, Antalya, Turkey, 2005. — Vol. I. — P. 710.

5. Maluf, D.A., Schipper, J.F. Sensing Super-position: Visual Instrument Sensor Replacement. IEEE Aerospace Conference, Montana, 2006.

6. Fadeyev, V., and. C. Haber. Reconstruction of mechanically recorded, sound, by image processing./ Journal of the Audio Engineering Society, DEC 2003. — Vol. 51. — p. 1172.

7. APPLICATION OF RASTER SCANNING METHOD TO IMAGE SONIFICATION, SOUND VISUALIZATION, SOUND ANALYSIS AND SYNTHESIS. Woon Seung Yeo, Jonathan Berger. Proc. of the 9th Int. Conference on Digital Audio Effects (DAFx-06), Montreal, Canada, 2006. September 18-20. — PP. 309 — 314.

8. A Synopsis of Sound — Image Transforms based, on the Chromaticism, of Music, D. POLITIS, D. MARGOUNAKIS, WSEAS TRANSACTIONS on COMPUTERS, August 2008. — Issue 8. — Vol. 7. — PP. 1113 — 1127.

9. D. Politis & D. Margounakis. In Search, for Chroma in Music. Proceedings of the 7th WSEAS International Conference on Systems, Corfu, 7 — 10 July 2003.

10. Грибунин В.Г. Цифровая, стеганография. — М.: Солон-Пресс, 2002, 272 с.

11. V.J. Rehna, M.K. Jeya Kumar. A Strong Encryption. Method of Sound. Steganography by Encoding an Image to Audio./ International Journal of Information, and Electronics Engineering, May 2012. — Vol. 2. — No. 3. — PP. 362 — 365.

12. http://www.evologics.de/en/products/acoustics/s2cr_48_78.html.

13. J.P. Morash. Implementation, of a wireless underwater video link./ Massachusetts institute of technology, January 2008.

14. J. Ribas. Underwater wireless video transmission, using acoustic OFDM. Master's thesis./ Massachusetts institute of technology, 27.12.2009.

15. Калужин Р.В. Адаптивное сжатие акустических сигналов и речи в автоматизированных системах защиты, и обработки оперативно-розыскной информации. Диссертация. — Москва, 2001. — 208 с.

16. Beinan Li, Jordan B.L. Smith, Ichiro Fujinaga. OPTICAL AUDIO RECONSTRUCTION FOR STEREO PHONOGRAPHRECORDS USING WHITE LIGHT INTERFEROMETRY. 10th International Society for Music Information. Retrieval Conference, ISMIR, 2009.

К вопросу о технологии преобразования звук – изображение – звук Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дворянкин Сергей Владимирович, Нагорных Иван Михайлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дворянкин Сергей Владимирович, Нагорных Иван Михайлович

Текст научной работы на тему «К вопросу о технологии преобразования звук – изображение – звук»