УДК 621.391
МНОГОЭТАПНЫЙ АЛГОРИТМ СЖАТИЯ МУЛЬТИМЕДИЙНЫХ ДАННЫХ
ИВАНОВ В.Г., ЛОМОНОСОВ ю.в.__________
Проводится сравнительный анализ показателей качества некоторых алгоритмов сжатия звуковой информации при различных значениях частоты дискретизации исходных данных.
Одним из наиболее популярных на сегодняшний день направлений в мире персональных компьютеров является мультимедиа. С помощью приложений мультимедиа текст, графика, аудио- и видеоинформация объединяются или используются автономно, исходя из условий решаемой задачи. Все это требует хранения и обработки очень больших объемов данных.
В работе проводится анализ степени сжатия звуковой информации некоторыми программными продуктами при различных значениях частоты дискре -тизации исходного сигнала в сравнении с алгоритмом, предложенным в [1], на основе вычислений точек перегиба в структуре сигнала.
В качестве анализируемых программ, позволяющих обеспечить эффективное сжатие звуковых сигналов, рассматривались известные универсальные программы архивации ARJ и WinRAR, а также программа MP3, позволяющая формировать наиболее часто применяемые файлы формата Layer-3.
Файлы со звуковыми данными формировались при использовании стандартной программы WAVE STUDIO.
основе вычислений точек перегиба в структуре сигнала, который подробно рассмотрен в [1]. В результате обработки сигнала, на первом этапе сжатия производится формирование числовой последовательности определенной структуры, состоящей из нескольких взаимосвязанных участков данных и ряда вспомогательных параметров, используемых при восстановлении звукового сигнала. Таким образом, выходные данные, полученные после действия алгоритма сжатия на основе вычисления точек перегиба в структуре сигнала, имеют определенный внутренний формат, причем диапазон изменения амплитудных значений данных внутреннего формата равен соответствующему диапазону исходного звукового сигнала (0-255 или 8 бит).
Необходимо отметить, что при восстановлении звукового сигнала, после первого этапа сжатия, происходит незначительное искажение исходной информации, которое при прослушивании не воспринимается человеческим ухом. Среднеквадратическая ошибка (Е), вносимая 1-м этапом сжатия информации, для каждого типа сигнала (речевое сообщение или музыка) при различных значениях частоты дискретизации (F) отображена на рис.1.
E
0,061
0,05-
0,04-
0,03-
0,02-
0,01-
0-1
0,053
8kHz 11kHz 22kHz 44kHz F
Сравнительный анализ проводился по среднему значению коэффициента сжатия, полученного на основе 10 итераций. В качестве исходной звуковой информации использовались файлы (WAV—формата), содержащие речевые сообщения, произнесенные разными дикторами, а также музыкальные мелодии различного темпа звучания. При формировании звуковых файлов программой WAVE STUDIO выбирались следующие параметры записи для каждого значения частоты дискретизации:
— размерность звуковых файлов (*.wav) формата 100-300 кБ;
— частота дискретизации сигнала 8, 11, 22, 44 кЕц;
— диапазон изменения амплитудных значений звукового сигнала 0-255 или 8 бит;
— количество каналов моно.
Предлагаемый формат (программа) осуществляет сжатие звуковых данных в два этапа.
В основу первого этапа преобразований звуковых сигналов положен алгоритм сжатия данных на
□ речь □ музыка
Рис.1. Зависимость среднеквадратической ошибки (E) от частоты дискретизации сигнала (F)
Наибольшая ошибка (более 5%) соответствует речевым сообщениям с частотой дискретизации 8кЕц, а наименьшая (менее 1%) — музыкальным мелодиям при частоте дискретизации исходного сигнала 44кЕц. Диапазон изменений среднеквадратической ошибки не превышает 6% для рассматриваемых типов звуковых сигналов. Среднеквадратическая ошибка, при которой исходная звуковая информация претерпевает существенные изменения, отражающиеся на качестве прослушивания после восстановления, составляет около 12-15%.
Следует отметить, что потеря исходной звуковой информации присутствует и при работе MP3, однако при слуховом восприятии эти потери не ощутимы, в силу того, что алгоритм, реализующий формат Layer-3, исключает частоты, не слышимые человеческим ухом.
РИ, 2000, № 4
87
Как известно, без потерь какой-либо информации работают универсальные программы архивации ARJ и WinRAR, которые используют алгоритмы кодирования Лемпеля-Зива-Уэлча (LZW) и алгоритм, разработанный Е. Рошалем.
Восстановление исходного звукового сигнала можно производить после первого этапа сжатия, но при этом степень компрессии информации не имеет явного преимущества. По временным затратам все анализируемые программы и алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала (1-й этап) приблизительно имеют равные показатели.
В данной ситуации в качестве второго этапа сжатия звуковой информации целесообразно дополнительно использовать еще один алгоритм сжатия, но уже без потерь входной информации при восстановлении. Для второго этапа сжатия в качестве входных используются данные, полученные на первом этапе и имеющие определенный внутренний формат представления.
Из известных алгоритмов сжатия без потерь информации при восстановлении анализировались алгоритмы кодирования RLE (групповое кодирование), LZW, алгоритм, реализующий метод сжатия Хаффмена, и модифицированный алгоритм Хаффмена (CCITT) [2]. Для реализации второго этапа компрессии звуковой информации был выбран алгоритм LZW, который в модифицированном виде используется в архиваторах ZIP, ARJ, ZOO и других универсальных программах архивации.
Таким образом, после первого этапа компрессии данные не помещаются в отдельный выходной файл, а сразу подвергаются обработке с использованием алгоритма сжатия LZW, и только после этого формируется выходной файл.
Декомпрессия осуществляется в два этапа только в обратном порядке и без записи промежуточных результатов.
Результаты сравнительной оценки коэффициента сжатия (K) при различных значениях частоты дискретизации (F) для речевых сообщений представлены на рис.2, а для музыкальных мелодий — на рис.3.
Временные затраты при реализации данной программы превышают аналогичный показатель анализируемых программ в среднем в 2 раза.
Преимуществом предложенного алгоритма двухэтапного сжатия звуковой информации является более высокий коэффициент сжатия при максимальных значениях частоты дискретизации сигнала и одинаковом качестве звучания (рис.2 и 3), как для речевых, так и для звуковых сигналов. В качестве недостатков можно отметить большее время обработки, а также зависимость коэффициента сжатия и среднеквадратической ошибки, вносимой на 1-м этапе компрессии, от частоты дискретизации звуковых сигналов.
К
□ ARJD WinRAR □ MP3 □ 1-й этапП 2-й этап
Рис.2. Зависимость коэффициента сжатия (К) от частоты дискретизации (F) речевых сообщений
К
12
10
8
6
4
2 0
□ ARJ □ WinRAR □ MP3 □ 1-й этап □ 2-й этап
Рис.3. Зависимость коэффициента сжатия (К) от частоты дискретизации (F) музыкальных мелодий
В ходе исследовательских работ рассматривалось также комбинированное применение алгоритмов сжатия данных, в частности, применение программ архивации (ARJ и WinRAR) после использования МР3 (формат Layer-3) для звуковых сигналов. Общий коэффициент сжатия звуковой информации при этом практически не изменялся. Увеличение степени сжатия в среднем составляло 1,1 раза относительно автономного использования программы МР3.
В настоящее время нами ведутся исследования по дальнейшему развитию и модификации предложенного алгоритма с использованием принципов вейвлет-анализа сигналов [3].
Рассмотренный программный продукт, а также алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала, реализованный на первом этапе сжатия, был разработан с использованием среды программирования Delphi 5 на базе вычислительных средств с процессором Pentium III (500MHz) в Национальной юридической академии
44,7
' 1 'И
8,2
С Д ев' 1.
4 4,4 4 4,44^ 2_fi 1^1 4 1.
2,62,^СІИА ч 1
8kHz 11kHz 22kHz 44kHz
88
РИ, 2000, № 4
Украины им. Я. Мудрого (г. Харьков) на кафедре информатики и вычислительной техники и может быть рекомендован в качестве альтернативного формата хранения и передачи звуковой информации.
Литература: 1. Иванов В.Г., Ломоносов Ю.В. Алгоритм сжатия данных на основе вычислений точек перегиба в структуре сигнала // Вестник ХГПУ. Системный анализ, управление и информационные технологии. 2000. № 94. С. 25-29. 2. Мюррей Д, Ван Райпер У. Энциклопедия форматов графических файлов: Пер. с англ. К.: Издательская группа BHV, 1997. 672 с. 3. Воробьев В.И., Грибунин В.Г. Теория и практика вейвлет-преобразования. СПб.:Изд-во ВУС, 1999. 208 с.
Поступила в редколлегию 14.06.2000
Рецензент: д-р техн. наук, проф. Куценко А.С.
Иванов Владимир Георгиевич, канд. техн.наук, доцент, заведующий кафедрой информатики и вычислительной техники Национальной юридической академии Украины имени Я.Мудрого. Научные интересы: кодирование и распознавание сигналов различной физической природы. Адрес: Украина, 61024, Харьков, ул. Пушкинская, 77, тел. (8-0572) 19-12-02, 94-80-39, факс: (8-0572) 475-825, E-mail: uracad@kipt.kharkov.ua
Ломоносов Юрий Вячеславович, канд. техн. наук, ассистент кафедры информатики и вычислительной техники Национальной юридической академии Украины имени Я.Мудрого. Научные интересы: методы и алгоритмы компактного представления данных. Адрес: Украина, 61024, Харьков, ул. Пушкинская, 77, тел. (8-0572)19-12-02.
УДК 519.7
РЕАЛИЗАЦИЯ НЕЙРОНОВ В СЕМАНТИЧЕСКИХ НЕЙРОННЫХ СЕТЯХ
ДУДАРЬ З.В, ШУКЛИНД.Е.________________
Рассматривается принцип преобразования виртуальных машин. На его основе реализуется виртуальная машина, которая обеспечивает функционирование семантической нейронной сети, понимающей тексты на естественном языке. Описывается внутренняя структура нейрона и принципы организации хранилища данных нейронов.
1. Введение
Компьютеризация все больше и больше входит в нашу жизнь. Компьютеры находят всё новые и новые области применения: утюги, телевизоры, стиральные машины и большинство других устройств бытовой электроники оснащаются микроЭВМ. Наряду с процессом распространения компьютеров продолжается процесс их совершенствования. Сложность компьютеров увеличивается уже не с каждым годом, а с каждым месяцем. Усложняются задачи, которые могут решать вычислительные машины. Увеличивается объем программного обеспечения, необходимого для выполнения поставленных задач. Размеры программ достигают уже десятков гигабайт.
Параллельно с усложнением программного и аппаратного обеспечения усложняется их использование и сопровождение. Отдельно взятый человек просто физически не в состоянии освоить внутреннюю архитектуру современных компьютерных систем. Для того чтобы приступить к решению своих задач с помощью ПК, рядовой пользователь вынужден изучить огромный объем различной информации сугубо компьютерного назначения.
Для решения этих проблем создаются различные программные комплексы, ориентированные на возможность работы с ними практически без обучения. Однако наличие в таких продуктах чрезвы-
чайно развитого сервиса делает невозможным изучение всех полезных функций за приемлемый промежуток времени. Перед компьютерными специалистами встают задачи по разработке и реализации программного обеспечения всё большей и большей сложности. Широкое распространение нашли так называемые “средства быстрой разработки приложений” (CASE Computer added software engineering). В них процесс создания приложения заключается в общении со специализированной программой “Мастер”, которая по информации, полученной от пользователя, сама вносит изменение в исходные тексты программ. Создаются специальные методы разработки программного обеспечения, такие как структурное, объектно-ориентированное, компонентное программирование, автоматизация программных систем.
Для решения наметившихся проблем во взаимодействии человека с компьютером идеально подходит общение с машиной на естественном языке. Отточенные тысячелетиями правила общения людей друг с другом могут быть применены и для общения человека с компьютером. Каждый человек изо дня в день использует универсальность языка, на котором он общается с другими людьми. На естественном языке мы с вами можем описать практически любые концепции, передать друг другу любую информацию и любые команды. Естественный язык в состоянии полностью удовлетворить требования людей к языку для работы с вычислительной машиной. Общение с компьютером на естественном для человека языке снизит психологический стресс, уменьшит количество ошибок и аварий, значительно снизит стоимость обучения персонала. Трудно полностью предсказать те выгоды, которые сулит нам переход с узкоспециализированных языков программирования на естественный язык.
Для обеспечения полномасштабного перехода на общение с информационными системами на естественном языке необходимо добиться понимания машиной текстов на естественном языке. Понимание естественного языка может быть выполнено
РИ, 2000, № 4
89