Научная статья на тему 'Многоэтапный алгоритм сжатия мультимедийных данных'

Многоэтапный алгоритм сжатия мультимедийных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
274
52
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванов Владимир Георгиевич, Ломоносов Юрий Вячеславович

Проводится сравнительный анализ показателей качества некоторых алгоритмов сжатия звуковой информации при различных значениях частоты дискретизации исходных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Multi-stage algorithm of contraction of multimedia data

The comparative analysis of figure of merits of algorithms of contraction of sound signals is reduced at different frequency rates of digitization of input datas. The possibilities and outlooks of a heightening of performance of figure of merits of multi-stage algorithm of contraction are determined.

Текст научной работы на тему «Многоэтапный алгоритм сжатия мультимедийных данных»

УДК 621.391

МНОГОЭТАПНЫЙ АЛГОРИТМ СЖАТИЯ МУЛЬТИМЕДИЙНЫХ ДАННЫХ

ИВАНОВ В.Г., ЛОМОНОСОВ ю.в.__________

Проводится сравнительный анализ показателей качества некоторых алгоритмов сжатия звуковой информации при различных значениях частоты дискретизации исходных данных.

Одним из наиболее популярных на сегодняшний день направлений в мире персональных компьютеров является мультимедиа. С помощью приложений мультимедиа текст, графика, аудио- и видеоинформация объединяются или используются автономно, исходя из условий решаемой задачи. Все это требует хранения и обработки очень больших объемов данных.

В работе проводится анализ степени сжатия звуковой информации некоторыми программными продуктами при различных значениях частоты дискре -тизации исходного сигнала в сравнении с алгоритмом, предложенным в [1], на основе вычислений точек перегиба в структуре сигнала.

В качестве анализируемых программ, позволяющих обеспечить эффективное сжатие звуковых сигналов, рассматривались известные универсальные программы архивации ARJ и WinRAR, а также программа MP3, позволяющая формировать наиболее часто применяемые файлы формата Layer-3.

Файлы со звуковыми данными формировались при использовании стандартной программы WAVE STUDIO.

основе вычислений точек перегиба в структуре сигнала, который подробно рассмотрен в [1]. В результате обработки сигнала, на первом этапе сжатия производится формирование числовой последовательности определенной структуры, состоящей из нескольких взаимосвязанных участков данных и ряда вспомогательных параметров, используемых при восстановлении звукового сигнала. Таким образом, выходные данные, полученные после действия алгоритма сжатия на основе вычисления точек перегиба в структуре сигнала, имеют определенный внутренний формат, причем диапазон изменения амплитудных значений данных внутреннего формата равен соответствующему диапазону исходного звукового сигнала (0-255 или 8 бит).

Необходимо отметить, что при восстановлении звукового сигнала, после первого этапа сжатия, происходит незначительное искажение исходной информации, которое при прослушивании не воспринимается человеческим ухом. Среднеквадратическая ошибка (Е), вносимая 1-м этапом сжатия информации, для каждого типа сигнала (речевое сообщение или музыка) при различных значениях частоты дискретизации (F) отображена на рис.1.

E

0,061

0,05-

0,04-

0,03-

0,02-

0,01-

0-1

0,053

8kHz 11kHz 22kHz 44kHz F

Сравнительный анализ проводился по среднему значению коэффициента сжатия, полученного на основе 10 итераций. В качестве исходной звуковой информации использовались файлы (WAV—формата), содержащие речевые сообщения, произнесенные разными дикторами, а также музыкальные мелодии различного темпа звучания. При формировании звуковых файлов программой WAVE STUDIO выбирались следующие параметры записи для каждого значения частоты дискретизации:

— размерность звуковых файлов (*.wav) формата 100-300 кБ;

— частота дискретизации сигнала 8, 11, 22, 44 кЕц;

— диапазон изменения амплитудных значений звукового сигнала 0-255 или 8 бит;

— количество каналов моно.

Предлагаемый формат (программа) осуществляет сжатие звуковых данных в два этапа.

В основу первого этапа преобразований звуковых сигналов положен алгоритм сжатия данных на

□ речь □ музыка

Рис.1. Зависимость среднеквадратической ошибки (E) от частоты дискретизации сигнала (F)

Наибольшая ошибка (более 5%) соответствует речевым сообщениям с частотой дискретизации 8кЕц, а наименьшая (менее 1%) — музыкальным мелодиям при частоте дискретизации исходного сигнала 44кЕц. Диапазон изменений среднеквадратической ошибки не превышает 6% для рассматриваемых типов звуковых сигналов. Среднеквадратическая ошибка, при которой исходная звуковая информация претерпевает существенные изменения, отражающиеся на качестве прослушивания после восстановления, составляет около 12-15%.

Следует отметить, что потеря исходной звуковой информации присутствует и при работе MP3, однако при слуховом восприятии эти потери не ощутимы, в силу того, что алгоритм, реализующий формат Layer-3, исключает частоты, не слышимые человеческим ухом.

РИ, 2000, № 4

87

Как известно, без потерь какой-либо информации работают универсальные программы архивации ARJ и WinRAR, которые используют алгоритмы кодирования Лемпеля-Зива-Уэлча (LZW) и алгоритм, разработанный Е. Рошалем.

Восстановление исходного звукового сигнала можно производить после первого этапа сжатия, но при этом степень компрессии информации не имеет явного преимущества. По временным затратам все анализируемые программы и алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала (1-й этап) приблизительно имеют равные показатели.

В данной ситуации в качестве второго этапа сжатия звуковой информации целесообразно дополнительно использовать еще один алгоритм сжатия, но уже без потерь входной информации при восстановлении. Для второго этапа сжатия в качестве входных используются данные, полученные на первом этапе и имеющие определенный внутренний формат представления.

Из известных алгоритмов сжатия без потерь информации при восстановлении анализировались алгоритмы кодирования RLE (групповое кодирование), LZW, алгоритм, реализующий метод сжатия Хаффмена, и модифицированный алгоритм Хаффмена (CCITT) [2]. Для реализации второго этапа компрессии звуковой информации был выбран алгоритм LZW, который в модифицированном виде используется в архиваторах ZIP, ARJ, ZOO и других универсальных программах архивации.

Таким образом, после первого этапа компрессии данные не помещаются в отдельный выходной файл, а сразу подвергаются обработке с использованием алгоритма сжатия LZW, и только после этого формируется выходной файл.

Декомпрессия осуществляется в два этапа только в обратном порядке и без записи промежуточных результатов.

Результаты сравнительной оценки коэффициента сжатия (K) при различных значениях частоты дискретизации (F) для речевых сообщений представлены на рис.2, а для музыкальных мелодий — на рис.3.

Временные затраты при реализации данной программы превышают аналогичный показатель анализируемых программ в среднем в 2 раза.

Преимуществом предложенного алгоритма двухэтапного сжатия звуковой информации является более высокий коэффициент сжатия при максимальных значениях частоты дискретизации сигнала и одинаковом качестве звучания (рис.2 и 3), как для речевых, так и для звуковых сигналов. В качестве недостатков можно отметить большее время обработки, а также зависимость коэффициента сжатия и среднеквадратической ошибки, вносимой на 1-м этапе компрессии, от частоты дискретизации звуковых сигналов.

К

□ ARJD WinRAR □ MP3 □ 1-й этапП 2-й этап

Рис.2. Зависимость коэффициента сжатия (К) от частоты дискретизации (F) речевых сообщений

К

12

10

8

6

4

2 0

□ ARJ □ WinRAR □ MP3 □ 1-й этап □ 2-й этап

Рис.3. Зависимость коэффициента сжатия (К) от частоты дискретизации (F) музыкальных мелодий

В ходе исследовательских работ рассматривалось также комбинированное применение алгоритмов сжатия данных, в частности, применение программ архивации (ARJ и WinRAR) после использования МР3 (формат Layer-3) для звуковых сигналов. Общий коэффициент сжатия звуковой информации при этом практически не изменялся. Увеличение степени сжатия в среднем составляло 1,1 раза относительно автономного использования программы МР3.

В настоящее время нами ведутся исследования по дальнейшему развитию и модификации предложенного алгоритма с использованием принципов вейвлет-анализа сигналов [3].

Рассмотренный программный продукт, а также алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала, реализованный на первом этапе сжатия, был разработан с использованием среды программирования Delphi 5 на базе вычислительных средств с процессором Pentium III (500MHz) в Национальной юридической академии

44,7

' 1 'И

8,2

С Д ев' 1.

4 4,4 4 4,44^ 2_fi 1^1 4 1.

2,62,^СІИА ч 1

8kHz 11kHz 22kHz 44kHz

88

РИ, 2000, № 4

Украины им. Я. Мудрого (г. Харьков) на кафедре информатики и вычислительной техники и может быть рекомендован в качестве альтернативного формата хранения и передачи звуковой информации.

Литература: 1. Иванов В.Г., Ломоносов Ю.В. Алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала // Вестник ХГПУ. Системный анализ, управление и информационные технологии. 2000. № 94. С. 25-29. 2. Мюррей Д, Ван Райпер У. Энциклопедия форматов графических файлов: Пер. с англ. К.: Издательская группа BHV, 1997. 672 с. 3. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. СПб.:Изд-во ВУС, 1999. 208 с.

Поступила в редколлегию 14.06.2000

Рецензент: д-р техн. наук, проф. Куценко А.С.

Иванов Владимир Георгиевич, канд. техн.наук, доцент, заведующий кафедрой информатики и вычислительной техники Национальной юридической академии Украины имени Я.Мудрого. Научные интересы: кодирование и распознавание сигналов различной физической природы. Адрес: Украина, 61024, Харьков, ул. Пушкинская, 77, тел. (8-0572) 19-12-02, 94-80-39, факс: (8-0572) 475-825, E-mail: uracad@kipt.kharkov.ua

Ломоносов Юрий Вячеславович, канд. техн. наук, ассистент кафедры информатики и вычислительной техники Национальной юридической академии Украины имени Я.Мудрого. Научные интересы: методы и алгоритмы компактного представления данных. Адрес: Украина, 61024, Харьков, ул. Пушкинская, 77, тел. (8-0572)19-12-02.

УДК 519.7

РЕАЛИЗАЦИЯ НЕЙРОНОВ В СЕМАНТИЧЕСКИХ НЕЙРОННЫХ СЕТЯХ

ДУДАРЬ З.В, ШУКЛИНД.Е.________________

Рассматривается принцип преобразования виртуальных машин. На его основе реализуется виртуальная машина, которая обеспечивает функционирование семантической нейронной сети, понимающей тексты на естественном языке. Описывается внутренняя структура нейрона и принципы организации хранилища данных нейронов.

1. Введение

Компьютеризация все больше и больше входит в нашу жизнь. Компьютеры находят всё новые и новые области применения: утюги, телевизоры, стиральные машины и большинство других устройств бытовой электроники оснащаются микроЭВМ. Наряду с процессом распространения компьютеров продолжается процесс их совершенствования. Сложность компьютеров увеличивается уже не с каждым годом, а с каждым месяцем. Усложняются задачи, которые могут решать вычислительные машины. Увеличивается объем программного обеспечения, необходимого для выполнения поставленных задач. Размеры программ достигают уже десятков гигабайт.

Параллельно с усложнением программного и аппаратного обеспечения усложняется их использование и сопровождение. Отдельно взятый человек просто физически не в состоянии освоить внутреннюю архитектуру современных компьютерных систем. Для того чтобы приступить к решению своих задач с помощью ПК, рядовой пользователь вынужден изучить огромный объем различной информации сугубо компьютерного назначения.

Для решения этих проблем создаются различные программные комплексы, ориентированные на возможность работы с ними практически без обучения. Однако наличие в таких продуктах чрезвы-

чайно развитого сервиса делает невозможным изучение всех полезных функций за приемлемый промежуток времени. Перед компьютерными специалистами встают задачи по разработке и реализации программного обеспечения всё большей и большей сложности. Широкое распространение нашли так называемые “средства быстрой разработки приложений” (CASE Computer added software engineering). В них процесс создания приложения заключается в общении со специализированной программой “Мастер”, которая по информации, полученной от пользователя, сама вносит изменение в исходные тексты программ. Создаются специальные методы разработки программного обеспечения, такие как структурное, объектно-ориентированное, компонентное программирование, автоматизация программных систем.

Для решения наметившихся проблем во взаимодействии человека с компьютером идеально подходит общение с машиной на естественном языке. Отточенные тысячелетиями правила общения людей друг с другом могут быть применены и для общения человека с компьютером. Каждый человек изо дня в день использует универсальность языка, на котором он общается с другими людьми. На естественном языке мы с вами можем описать практически любые концепции, передать друг другу любую информацию и любые команды. Естественный язык в состоянии полностью удовлетворить требования людей к языку для работы с вычислительной машиной. Общение с компьютером на естественном для человека языке снизит психологический стресс, уменьшит количество ошибок и аварий, значительно снизит стоимость обучения персонала. Трудно полностью предсказать те выгоды, которые сулит нам переход с узкоспециализированных языков программирования на естественный язык.

Для обеспечения полномасштабного перехода на общение с информационными системами на естественном языке необходимо добиться понимания машиной текстов на естественном языке. Понимание естественного языка может быть выполнено

РИ, 2000, № 4

89

i Надоели баннеры? Вы всегда можете отключить рекламу.