Научная статья на тему 'ОПТИМАЛЬНОЕ УНИВЕРСАЛЬНОЕ КОДИРОВАНИЕ ДЛЯ ОБЪЕДИНЕНИЯ РАЗЛИЧНЫХ МНОЖЕСТВ ИСТОЧНИКОВ СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ'

ОПТИМАЛЬНОЕ УНИВЕРСАЛЬНОЕ КОДИРОВАНИЕ ДЛЯ ОБЪЕДИНЕНИЯ РАЗЛИЧНЫХ МНОЖЕСТВ ИСТОЧНИКОВ СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ Текст научной статьи по специальности «Математика»

CC BY
18
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник СибГУТИ
ВАК
Область наук
Ключевые слова
КОДИРОВАНИЕ / ИЗБЫТОЧНОСТЬ / ЭНТРОПИЯ / ХРАНЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ / ИСТОЧНИК СООБЩЕНИЙ

Аннотация научной статьи по математике, автор научной работы — Трофимов Виктор Куприянович, Храмова Татьяна Викторовна

Предложен метод универсального кодирования для множества источников, состоящего из объединения счётного числа множеств. Показано, что предложенное кодирование объединения марковских источников с конечной памятью является асимптотически оптимальным. Кроме того, установлено, что предложенное кодирование - слабо универсальное для множества стационарных источников.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

OPTIMAL UNIVERSAL CODING SETS FOR COMBINING VARIOUS SETS OF SOURCES BY SYMBOLS OF UNEQUAL DURATION

The method of universal coding for sets of sources, consisting of the union of a countable number of sets is proposed. It is shown that the proposed encoding of Markov's sources combination with finite memory is asymptotically optimal. Furthermore, it was found that the proposed coding is weakly universal for stationary sources.

Текст научной работы на тему «ОПТИМАЛЬНОЕ УНИВЕРСАЛЬНОЕ КОДИРОВАНИЕ ДЛЯ ОБЪЕДИНЕНИЯ РАЗЛИЧНЫХ МНОЖЕСТВ ИСТОЧНИКОВ СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ»

УДК 621.391

Оптимальное универсальное кодирование

для объединения различных множеств источников

1

символами неравной длительности

В.К. Трофимов, Т.В. Храмова

Предложен метод универсального кодирования для множества источников, состоящего из объединения счётного числа множеств. Показано, что предложенное кодирование объединения марковских источников с конечной памятью является асимптотически оптимальным. Кроме того, установлено, что предложенное кодирование — слабо универсальное для множества стационарных источников.

Ключевые слова: кодирование, избыточность, энтропия, хранение и обработка информации, источник сообщений.

1. Введение

Проблема сжатия (кодирования) информации [1] относятся к фундаментальным в области инфокоммуникаций. В книге В. Г. Хорошевского [2] отмечено, что решение этих проблем значимо и при создании большемасштабных распределённых вычислительных систем. В таких системах метода сжатия информации, как правило, используют параллельные информационно-вычислительные технологии.

В настоящей работе исследуется вопрос о кодировании информации, порождённой неизвестным источником из объединения некоторого числа источников буквами выходного (кодового) алфавита, имеющими различные длительности. Для букв, имеющих равные длительности, эта задача впервые рассмотрена в [3]. Задача кодирования неравнозначными буквами последовательности, порождённой известным источником, впервые рассмотрена в [1]. В дальнейшем вопросы кодирования сообщений, порождённых известным источником, неравнозначными символами рассматривались в [4-6].

Кодирование сообщений, порождённых неизвестным источником, буквами алфавита с равнозначными длительностями символов впервые рассмотрено в [7]. Кодирование сообщений, порождённых неизвестным источником, получило название универсального кодирования. Точная постановка задачи универсального кодирования сделана в [8]. Универсальное кодирование равнозначными символами для различных множеств источников и для различных типов кодирований интенсивно изучалось как у нас в стране, так и за рубежом. Кроме упомянутых работ отметим [9-14]. Наиболее полная библиография по этому вопросу содержится в [9, 15, 16]. В частности, в [8] предложен метод универсального кодирования бернул-лиевских источников и доказана его асимптотическая оптимальность. В [13] предложен метод универсального кодирования для множества источников с конечной памятью, а в [11] доказана его асимптотическая оптимальность. В [17, 18] авторами предложен метод универсального кодирования бернуллиевских и марковских источников неравнозначными симво-

Работа выполнена при поддержке Российского фонда фундаментальных исследований (грант № 12-07-00188).

лами и доказана их асимптотическая оптимальность. Как и в случае равнозначности длительности букв кодового алфавита, платой за незнание источника является множитель, пропорциональный log N (здесь и далее log х = log2x, 0log0 = 0, N — длина кодируемого блока).

В настоящей работе предложен метод кодирования средними для объединения различных множеств источников. Показано, что предложенное кодирование является слабо универсальным для множеств стационарных источников.

2. Основные определения. Постановка задачи

Изучение методов кодирования информации с целью уменьшения занимаемого ею объёма является актуальной задачей информатики. Данная работа посвящена изучению оптимальных методов сжатия информации, порождённой неизвестным дискретным стационарным источником, буквами выходного алфавита, которые имеют различные стоимости.

Рассмотрим источник сообщений 0, генерирующий последовательность из букв некоторого конечного алфавита X = ,х2,..., хк} .

Последовательность должна быть закодирована и передана по каналу связи. Для решения нашей задачи оптимального кодирования разобьём исходящую последовательность букв источника на блоки (слова) фиксированной длины N. Процедура кодирования источника заключается в том, что каждому блоку w е Х1^ ставится в соответствие некоторое кодовое слово ф(м>) е У * из букв кодового алфавита У = (у, у,..., ут} (как обычно У * обозначает

множество всевозможных последовательностей из элементов множества У ). Кодирование, при котором блокам источника ставится в соответствие кодовое слов нефиксированной длины, называется, равномерным по входу. Разные буквы кодового алфавита имеют разную длительность или, другими словами, стоимость передачи: т. = t(у) , ] = 1, т . Таким образом, каждому кодовому алфавиту можно поставить в соответствие вектор длительностей букв \={гх,гъ---,гт), з = \™\

В частности, длительности кодовых символов могут быть одинаковы, в этом случае соответствующий алфавиту вектор обозначим = (1Д, • • •, 1)

т

Самым популярным примером кода с неравными длительностями является код Морзе, актуальность которого не теряется и в наше время — на основе кода Морзе созданы широко используемые штрих-коды.

Длительностью кодового слова будем считать величину, равную сумме длительностей входящих в слово букв:

1(Н™),ту)= Е t(у).

Уе<р(

Стоимость кодирования определяется как отношение средней длительности кодового слова к средней длительности слова источника и в рассматриваемом случае принимает вид:

ь(^ту)=1 Е Р0((<Р(у),У),

N мееХ"

где р@ (w) — вероятность слова w, порождённого источником 0. Эффективность кодирования ф определяется его избыточностью Я(N, 0,ф, % ), определяемой равенством

Я( N, 0,р, ТУ) = Ь( N, 0,р, ТУ) - Н (0)1 С(ТУ).

Здесь H (0) — энтропия источника 0, определяемая обычным образом [19, 20], C (^ ) — пропускная способность канала без шума [1, 6], вычисляемая по формуле

ОД ) = log Ц (Ту )),

где о0( tY) — наибольший положительный корень уравнения со'*1 +... + a~tm = 1.

Избыточность универсального кодирования R (N, Q, Ц) множества источников Q определяется равенством

R (N, Q, у ) = inf sup R (N, 0,v, TY ).

3. Адаптивное кодирование

для объединения различных множеств источников

Сформулируем и докажем утверждение, которое позволит строить коды, адаптивные по множеству классов источников.

00

Лемма. Если множество источников ¡V = [] Жк и для каждого из множеств Жк

к=О

известно оптимальное кодирование ф(к), к=1,2,..., то существует такое кодирование ф, что для любого источника 0еЖк выполняется неравенство

Я( N, Т¥) < Я( N, 0, Ту) + ^Ор + Т*,

*

где Т — постоянная, не зависящая от N.

Доказательство. Кодирование ф® дешифруемо, поэтому для чисел I\я),Т¥) выполняется неравенство Макмиллана

^ к)() 10&)<! к = \2

я^

Рассмотрим кодирование ф, которое каждому слову я, я е XN, ставит в соответствие слово ф(я) длительности I(ф(я>),Ту ) :

I (v(w),ty )

k=0

здесь X — нормирующий множитель.

1 ЛУ 1 2~1 (V k)(W)' ty) i0g со (ty) 0g

Из определения 1 (v(w),tr) имеем ^ 2 1(v(w)t)logCo(tr)< 1, значит, как следует

weXN

из алгоритма описанного в [18], можно построить кодирование с длительностями кодовых слов /(ср(я\Тг^, отличающееся от 1(ср(я),Ту} на равномерно ограниченную постоянную Т , т.е. для любого слова я, я е XN выполняется неравенство

Покажем, что кодирование ф является искомым для источника 0 :

я^,0,р, Ту) =1 Е Р0М-1р),Ту)

NwеXN

т\ Н (0) * С (ту)

<

<^ Е Р0(^)- - 1о^Етг^22

1_1-1{я>< к)()с( У)

=о(к +1)2

Н(0) | Т + С1 _

С (ТУ ) N

1 Е Р0( / (^ю, у)-Н0

NwеXN С ( ТУ )

+

1

+^ Е Р0(

^ wеXN

Л / - ^

V V

*

(кр +1)2 ^-¡{^Ш,)+¡(р(ко)(щ),тг)

1 +е (к^ • 2 Е (к +1)2

к Ф кп

+

Т + С1+ 1оёЯ + 21оё(к0 +1)

N '

Так как при любых w е XN выполняется неравенство

- 1ОБ

(кр + 1)2 2- ¡(р( к)(w),Гг )+/(р( ко)( Wо),Гг )

1+Е 2

Е (к +1)2

< о

то из предыдущего получаем:

Я( N, 0, р, Т,) < Я( N, 0, р( ко), ) + 21°ё (кр +1) + Т

N

N

Из универсальной оптимальности р(кр) для множества источников ^ из (1) имеем

Я( N, 0,р, 7Г) < Я( N, 0,р( ко), 7Г) + 210ё(к0 +1) + £,

'( N ЖК, Ту )

(1)

(2)

следует

где Т не зависит ни от Ы, ни от к, ни от к0. Из (2) и определения Я утверждение леммы.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Следует отметить, что предложенное кодирование ф не требует перестройки в зависимости от выбранного источника: оно само автоматически подстраивается по выбранному источнику.

4. Универсальное кодирование

для объединения множеств марковских источников

Пусть О = у О где 0,к — марковские источники с конечной памятью л(^), к= 1,2,... .

Имеет место следующее утверждение.

+

«

к

Теорема. Для множества марковских источников £1 = ио^. существует такое кодиро-

к

вание ф, что для любого источника © е О, , к0 — произвольное, выполняется асимптотики

ческое неравенство

и^ггл -1) , к0 + С

©,ру)<-^—-■ 1о§N + - & 0

2 N

N

Доказательство. В работе [17] построен оптимальный метод кодирования марковских источников с конечной памятью. Этот метод кодирования позволяет получить для марковских источников связанности 5 оценку вида:

к" (к — 1) Т

Я(N, О, ,ру ) < ( —_ ) ■ 1ов N + —: V , 2^ (У) & N

(3)

которую асимптотически нельзя улучшить. Пусть ф - кодирование, оптимальное для множества марковских источников связанности В [18] такое кодирование построено. Каждому слову и оно ставит в соответствие слово ф5(и), имеющее длительность | ф5(и) |:

р" (и) <— 1ов р" (и) + Т *,

где р" (и) — средняя вероятность слова и по множеству источников О, при условии, что на О задано КТ-распределение [15]. Для множества источников О определена средняя вероятность слова и по формуле

Р(и) = -ГЕ72"(к)(и) .

л к=1 к

(4)

Очевидно, что если объединение состоит из бесконечного числа источников, то Е р(и) = 1, в противном случае, Е р(и) < 1. Построим разделимое кодирование,

иеXN иеХы

как это сделано в [18], используя распределение (4), тогда кодирование ф имеет для слова и длительность

|р(и)| <— 1о§ р(и) + Т**.

(5)

В (5) Т — равномерно ограниченная постоянная. Оценим для построенного кодирования Я(N, ©, р, у ). Пусть © е О^ ^ по определению имеем:

Я( N, ©,р, у) =

-1 Е р©(и) ■(—1оёР"(к)(и)) —, н(©^

ЧиеХ

1о8®о(У)

Л

+ —

у N

(6)

Согласно (4), (5) из (6) следует

я(n,©,р,ту) = 1 е р©(и)■ (—1о§р*{к)(и))- н(©> +

NuеXN (0) 1оё^0(гу)

+

/

— Е р©(и) ■ 1о§1 + Е

N иеX*

к02 Р"(к )(и)

к^к к2 Р"(ко)(и)

+ ■

Т

у У

N

Так как

1 I P® (u) • (-logPs(ko)(u)) - = R(N, Y ) + NN < R(N Qs(k„)'^ ) +

(T — равномерно ограниченная постоянная) и

T N

-1 I P0 (u) • log[l 4

NueXN 1 k ФКк Ps(K )(u)

< o.

o^ 'J

- - T

то из (7) получаем: R(N, 0, ф, tY) < R(N, Qs(k )5 tY) + — .

N

_ ks (k -1) T

Отсюда и из (3) имеем R(N 0 ф U ) < —--- н--Теорема доказана.

V , Y) 2NC(Y) N

5. Заключение

Предложенное выше кодирование целесообразно применять в том случае, когда избыточность кодирования одного класса источников существенно отличается от избыточности другого класса источников.

Например, известно, что кодируемый источник может быть либо бернуллиевским, либо марковским связанности s = 20. Если кодировать все источники как марковские источники с памятью s = 20, то в [19] показано, что избыточность такого кодирования будет асимптоти-

k20(k —1)

чески равна ----. log N, а кодирование, предложенное в настоящей работе, имеет эту

2 NC (tY)

избыточность только для марковских источников с памятью s = 20, для бернуллиевских ис-

« « k -1 , N + L точников это же самое кодирование будет давать избыточность--log-, что

2 NC(%) L +1

в k 20 раз меньше.

Литература

1. Шеннон К. Математическая теория связи. Работы по теории информации и кибернетике.

- 1969. - Ил., М. - С.243 - 332.

2. Хорошевский В.Г. Архитектура вычислительных систем: Учеб. пособие. - 2-е изд., пере-раб. и доп. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2008. - 520 с.

3. Рябко Б. Я. Дважды универсальное кодирование.// Проблемы передачи информации. — 1984. — Т. 20, № 3. — С. 24-28.

4. Csiszar I. Simple proof of some theorems on noiseless channels// Information and control. -1969. - V.14. - P.285 - 298.

5. Чисар И. О каналах без шума. // Пробл. передачи информ. - 1970. - Т.6. № 4. - С.3-15.

6. Katona G. General theory of noiseless channels. // UDINE, Courses and lectures - 1970, № 31.

- P.69.

7. Фитингоф Б. М. Оптимальное кодирование при неизвестной и меняющейся статистике сообщений.// Пробл. передачи инф. - 1966 - т.2, № 2. с. 3-11.

8. Кричевский Р. Е. Связь между избыточностью кодирования и достоверностью сведений об источнике // Проблемы передачи информации. - 1968, Т.4, № 3. - С.48-57.

9. Потапов В. Н. Обзор методов неискажающего кодирования дискретных источников.// Дискр. анализ и иссл. операций. Сер.1 - 1999 - Т.6, № 4. - С. 49-91.

10. Рябко Б. Я. Кодирование источника с неизвестными, но упорядоченными верочтностя-ми.// Проблемы передачи информации. — 1979. — Т. 15, № 2. — С. 71-77.

11. Трофимов В. К. Избыточность универсального кодирования произвольных марковских источников // Пробл. передачи инф. - 1974. - Т.10, № 4. - С.16-24.

12. Devisson L. D. Universal noiseless coding // IEEE Trans. Inform. Theory. - 1973. - V.19, № 6. -P.783-795.

13. Штарьков Ю. М. Кодирование сообщений конечной длины на выходе источника с неизвестной статистикой// Материалы V конференции по теории кодирования и передачи информации. - Москва-Горький. - 1972. - ч. 1. - С. 147-152.

14. Elias P. Universal codeword sets and representation of the integers // IEEE Trans. Inform. Theory. - 1975. - V.21, № 2. - P.194-203.

15. Krichevsky R. E., Trofimov V. K. The performance of universal encoding // IEEE Transactions on Information Theory. - 1981. - V. 27, № 2. - P. 199-207.

16. Verdu S. Fifty Years of Shannon Theory.// IEEE Transactions on Information Theory. - 1998. -V. 44, № 6. - P.2057-2078.

17. Трофимов В. К., Храмова Т.В. Сжатие неравнозначными символами информации, порождённой неизвестным источником без памяти. // Автометрия. - Новосибирск. - 2012. — T.48, №1. - С.30— 44.

18. Трофимов В. К., Храмова Т. В. Универсальное кодирование марковских источников неравнозначными символами.// Дискретный анализ и исследование операций. - Новосибирск. - май—июнь 2013. - Т.20, № 3. — С. 71-83.

19. Галлагер Р. Г. Теория информации и надёжная связь. М.:Советское радио. - 1974. -C. 720.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20. ФаноР. Передача информации. Статистическая теория связи. - М.: «Мир» - 1965. - С. 440.

Статья поступила в редакцию 01.09.2014

Трофимов Виктор Куприянович

д.т.н., профессор, заведующий кафедрой высшей математики ФГОБУ ВПО СибГУТИ, декан факультета информатики и вычислительной техники ФГОБУ ВПО СибГУТИ (630102, г. Новосибирск, ул. Кирова, д. 86), тел.: (383) 269-82-70, e-mail: trofimov@sibsutis .ru

Храмова Татьяна Викторовна

к.т.н., доцент кафедры высшей математики ФГОБУ ВПО СибГУТИ (630102, г. Новосибирск, ул. Кирова, д. 86), тел.: +79139294100, e-mail: tvkhramova@gmail.com

Optimal universal coding sets for combining various sets of sources by symbols of unequal duration

V.K. Trofimov, T.V. Khramova

The method of universal coding for sets of sources, consisting of the union of a countable number of sets is proposed. It is shown that the proposed encoding of Markov's sources combination with finite memory is asymptotically optimal. Furthermore, it was found that the proposed coding is weakly universal for stationary sources.

Keywords: coding, redundancy, entropy, storage and processing of information, the source of messages.

i Надоели баннеры? Вы всегда можете отключить рекламу.