Научная статья на тему 'Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой'

Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой Текст научной статьи по специальности «Математика»

CC BY
192
56
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОДИРОВАНИЕ / ИЗБЫТОЧНОСТЬ / СТОИМОСТЬ КОДИРОВАНИЯ / CODING / REDUNDANCY / CAPACITY

Аннотация научной статьи по математике, автор научной работы — Трофимов Виктор Куприянович

Предложен метод универсального равномерного по выходу кодирования для множества дискретных стационарных источников. Получены оценки избыточности предложенного кодирования. Установлены необходимые и достаточные условия существования универсального равномерного по выходу кодирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of compression by steady code of data emitted by a discrete stationary source is considered. A uniform-to-block coding of Bernuly"s sources was considered first in papers of G. Hodack, F.Jelinek, E.Shredenger. Markov"s sources with known messages statistic were studied by the author and L. Ziv. The universal uniform-to-block coding of Bernuly"s and Markov"s sources is studied by D. Lourenz, Y. Shtar"kov. The question of existence of universal uniform-to-block codes for stationary sources remained open. The goal of this paper is to proof the following statements. Theorem 1. Weak universal uniform -to-block coding exists for set of all stationary sources. Let ƒS(n) be the approximation of stationary source ƒ of ƒ by Markov"s one with the memory S(n). The following statement holds. Theorem 2. For existing of the universal uniform-to-block coding for the stationary source"s set ƒ it is necessary and sufficient that entropy ( ) H ƒS(n) evenly converges to entropy H (ƒ) on the set ƒ, with S(n)tending to infinity. Remark. The statement of theorem 1 guarantees the existence of code which redundancy tends to 0 for any stationary source, but not uniformly on ƒ  ƒ. The second theorem gives the conditions which the set of sources has to satisfy, in order for redundancy"s tendingg to 0 were uniform.

Текст научной работы на тему «Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2011 Управление, вычислительная техника и информатика № 1(14)

УДК 621.391

В.К. Трофимов РАВНОМЕРНОЕ ПО ВЫХОДУ КОДИРОВАНИЕ ДИСКРЕТНЫХ СТАЦИОНАРНЫХ ИСТОЧНИКОВ СООБЩЕНИЙ С НЕИЗВЕСТНОЙ СТАТИСТИКОЙ1

Предложен метод универсального равномерного по выходу кодирования для множества дискретных стационарных источников. Получены оценки избыточности предложенного кодирования. Установлены необходимые и достаточные условия существования универсального равномерного по выходу кодирования.

Ключевые слова: кодирование, избыточность, стоимость кодирования.

Проблемы сжатия (кодирования) информации [1] относятся к фундаментальным в области инфокоммуникаций. Как отмечено в книги В.Г. Хорошевского [2], решение этих проблем значимо и при создании большемасштабных распределённых вычислительных систем. Методы сжатия информации в таких системах, как правило, используют параллельные информационно-вычислительные технологии.

Настоящая работа посвящена кодированию информации, порождённой источником, в классической постановке К. Шеннона [1]. Вопросы сжатия данных также рассматривались Ф.П. Тарасенко [3].

1. Основные определения. Постановка задачи

Пусть буквы конечного алфавита А = {аь а2, ..., ак}, 2 < к< да, порождаются источником 0. Мера, заданная на последовательности букв, порождаемой источником, определяет тип источника. Если буквы порождаются независимо, то источник называют бернуллиевским. В этом случае Р^а,) = 0j, 01 + 01 + ... + 0к = 1, где Ре(а,) - вероятность порождения буквы aj источником 0. Если же появление очередной буквы зависит от предыдущей, то для условной вероятности Р0(а,- /а,)

к

появления буквы а,■ после а, имеют место равенства Р0(а,- /а,) = 0,, = 1,

і=1

- = 1, к, и в этом случае источник называют марковским. Если появление очередной буквы зависит от 5 предшествующих букв, то условные вероятности Р0 (а, /у) определяются равенствами Р0(а,/ V) = 0-„, где V є А5, источник 0 называют марковским с памятью & Следует отметить, что для любого слова V є А5

к

0 < 5 < да, выполняется равенство ^ 0^. = 1. Множество всех марковских источ-

,=1

ников с памятью £ обозначим 05. Дискретный стационарный источник 0 задаётся

1 Работа выполнена в рамках интеграционного проекта № 113 СО РАН, при поддержке РФФИ (гранты № 09-07-00095, 10-07-00157, 08-07-00022), Совета по грантам Президента РФ для поддержки ведущих научных школ (грант НШ-5176.2010.9) и в рамках государственного контракта № 02.740.11.0006 с Минобрнауки РФ.

всеми условными распределениями вероятностей P0(üj / v) = 0jv порождения источником букв üj, j = 1, к, при заданных предшествующих v, V e As, s любое целое неотрицательное число, причём при любом заданном V, v e As, s = 0,1, 2,..., выполняется равенство 9v1 +9V 2 +------+ 9vk = 1.

Если u - произвольное слово в алфавите A, то через P9 (u) обозначим вероятность слова u, порождённого источником 0. Число |u| букв в слове u назовём его длиной. Энтропию источника 9 обозначим H(9) [4, 5]. Если 0 - произвольный дискретный стационарный источник и H(9) - его энтропия, то справедливо равенство [4, 5]: H(9) = lim Hs (9).

Пусть - множество всех дискретных стационарных источников с конечной энтропией. Конечное полное префиксное множество слов T во входном алфавите назовём кодовым.

Пусть 9 - произвольный источник из Qs, Т - произвольное кодовое множество. Обозначим через 9(T) марковскую цепь, состояниями которой являются слова из T, а переходные вероятности P9(T)(u/v), u,veT, индуцируются источником 9 . Будем рассматривать только марковские источники с памятью s, переходные вероятности которых строго положительны. Тогда для марковской цепи 9(T) существует стационарное распределение P0 (u) > 0, u e T . Средняя длина

9(T)

слова d(T, 9) для множества Т, как доказано в [6], равна

d(T,9) = X P90(T)(u)|u| . (1)

ueT

В этой же работе доказаны тождества Вальда, которые имеют вид

X P90(T)(u) • Г, (u) = (d(T,9) - s + 1)9ov , X P90(T)(u) • (u) = (d(T,9) - s^9vг , (2)

ueT ueT

где rv (u), rvi (u) - число вхождений блоков v, vai, v e As, соответственно в слово

u , s = max (s,1)

Полубесконечная последовательность букв, порождаемая источником 9, однозначно разбивается на последовательность слов из фиксированного кодового множества T . Полученная последовательность слов из Т с помощью отображения Ф переводится в слова выходного алфавита В, который, не уменьшая общности,

можно считать двоичным. Из неравенства Мак-Милана - Крафта [4, 5] следует, что множество ф^) = {(u), u e T} является префиксным. Если длины всех слов множеств T (ф(Г)) равны между собой, то говорят, что T ^(T)) состоит из блоков; в противном случае - из слов переменной длины. В зависимости от видов множеств Т и ф(7) логически возможны следующие виды кодирований: блоки в слова переменной длины (обозначается BV; слова переменной длины в блоки (обозначается VB); слова переменной длины в слова переменной длины (обозначается VV ); блоки в блоки (обозначается BB ).

Среднее число букв выходного алфавита при кодировании типа ст, ст = BV, VB, VV, приходящихся на одну букву входного, назовём стоимостью кодирования и обозначим через Сст (T, 9, ф). Как доказано в [6], величина

Сст (T, 9, ф) находится по формуле

ССТ (T, 9, ф) =-----1-У P0 (u) |ф(и)|. (3)

ст ds (T, 9) - s +1 u^T 0(T)

Эффективность кодирования ф будем оценивать разностью между стоимостью кодирования Сст (T, 9, ф) и энтропией источника H(9). Эта разность в дальнейшем называется избыточностью кодирования и обозначается rCT (T, 9, ф), т.е.

Гст (T, 9, ф)= Сст (T, 9, ф) - H(9). (4)

Избыточностью универсального кодирования типа СТ для множества источников Q и с заданной сложностью N назовём величину RCT (N, Q)

RCT (N, Q) = inf sup rCT (T, 9, ф). (5)

ф 6eQ

Здесь нижняя грань берётся по всем кодированиям ф, для которых кодовое

множество T имеет не более чем kN слов. Построение хорошего кодирования при заданной сложности - основной вопрос при изучении передачи сообщений по каналу без шума.

Если множество источников Q состоит из единственного источника, то мы имеем дело с кодированием известного источника, которое подробно изучено для различных типов кодирования, например, в работах [1, 3 - 5, 7 - 13]. Универсальное кодирование марковских источников различных типов также хорошо изучено [14 - 18]. Подробную библиографию по этому вопросу можно найти в [14, 17 -19]. Особо отметим работу В.Ф. Бабкина, Ю.М. Штарькова [16], в которой изучалось BV-кодирование для стационарных источников. В частности, в этой работе было доказано, что существует последовательность BV-кодирований фN, такая, что для любого стационарного источника 9 избыточность кодирования rBV (AN, 9, фN) стремится к нулю. В то же время легко показать, что при N

избыточность универсального кодирования множества всех стационарных источников RBV (N, QOT) стремится к бесконечности. Вопрос о равномерной сходимости rBV (An, 9, фN) в [16] не исследовался. Кодирование, построенное в [16], получило название слабоуниверсального кодирования. При построении слабоуниверсального BV-кодирования основная сложность состоит в определении отображения фN , так как область определения при таком кодировании определена - это множество всех слов длины N в алфавите А . При построении кодирования типа VB основная трудность состоит в конструировании области определения кодирования фN , т.е. в определении кодового множества TN.

2. Равномерное по выходу кодирование марковских источников

В этом параграфе предложен метод кодирования марковских источников с памятью 5, получена оценка избыточности предложенного метода и доказана его универсальность. При доказательстве основного утверждения параграфа нам потребуются следующие понятия и обозначения. Марковский источник 9 связанности 5 задаётся начальным распределением вероятностей 90у появления блока V за первые 5 шагов работы источника и вероятностями 9И- появления буквы а^ после блока V, аг- е А , V е А5.

На множестве источников 05 определим КТ-распределение ю(9) [14], которое задаётся формулой

ю(9) =

к

к п2

1

к

П П(

уєЛ* i=1

(6)

Проинтегрировав вероятность слова и, порождённого источником 9, по множеству источников 05, если на 05 задана плотность ю(9), получим [14]

Ps (») =

Г (К

к

к п2

ks

П

v&As

Г1 rv(и)+2

()

где Г (z) - гамма функция от z . Используя для функции Г (z) формулу Стирлинга, из (7) получим

- log Ps(u) = У rv(u)Fs (u) + k—1 У log rv(u) + с, (8)

veAs veAs

где x = max (x,1), logx=log2x, 0log0=0, Fs (u) - квазиэнтропия u , определяемая равенством

F (u ) = -S {f- i^ log ^.

v^H - Si=1 rv(u ) rv(u )

Сформулируем и докажем основное утверждение параграфа.

Теорема 1. Для любого фиксированного s, 0 < s < да , существует последовательность кодирований фN типа VB, для которых избыточность кодирования rVB (TN, 9,фN) при любом источнике 9 , 9eQs, удовлетворяет неравенству

rVB (фм, 9, tn ) -

ks (к -1) + 2 logds (TN, 9) + c

ds (Tn , 9)

где постоянная c не зависит ни от 9 , ни от T,

N ■

Доказательство. Как уже отмечалось ранее, каждое кодирование определяется тройкой (Т, ф, ф(Т)), где Т - область определения Т, ф(Т) - область значений

отображения ф . Для равномерного по выходу кодирования ф(Т) = ВГ1о§ИТ1П , где

[х"| - наименьшее целое, большее или равное х, ||Г|| - мощность множества Т. Таким образом, при построении равномерных по выходу кодирований вся сложность заключается в построении кодовых множеств.

Зафиксируем произвольное натуральное N, в кодовое множество Ты включим все слова и , для которых выполняется неравенство

1 ■ ^ ^ , (9)

Рs (и)

и в то же время существует буква aj, aj e A, такая, что для конкатенации слова u и aj выполняется неравенство

----> kN . (10)

Р., (иа])

Совершенно очевидно, что построенное таким образом кодовое множество Ты является конечным, полным, префиксным множеством слов во входном алфавите, т.е. Ты - кодовое множество. При равномерном по выходу кодировании каждому слову u ставится в соответствие слово ф^ (u) , u e Ты , длины Рlog |ТN||] . Оценим избыточность предложенного метода кодирования. Из определения избыточности (4) имеем

V (,9,ф^)= (т*+1 -Н(9). ()

ds (ТN , 9)-S + 1

Кодирование фN - дешифруемое, поэтому величина rVB (ТN, фN, 9) неотрицательна. Найдём верхнюю оценку этой величины. Из соотношения (9) следует, что

при любом u, u e TN, справедливо неравенство Рs (и) > —N. Просуммировав это

k

неравенство по всем словам u из TN и учитывая, что в силу полноты ТN выполняется равенство i Р, (и) = 1, получим

ыеТ n

kN > ITnII . (12)

Из (11) с учётом (10) и (12) следует

i Pek )C«>log| tnii

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

rVB (ТN,9,фN)- ^ -------H (9) +

1

ds (Tn , 9) ds (Tn ,9)

- Z p9(t n )^)log ps (ua})

— Р9(Т N )( .

------------------------------H (9)+-------------------------------------------1-. (13)

ds (Tn , 9) V ^ ds (Tn , 9)

Из определения средней вероятности Рх (иа}-) слова иа}- по множеству источников , свойств гамма-функции и (7) для слова и , заканчивающегося блоком

V, справедливо неравенство

- log Рs (иа}) < - log Ps (и) + log (|u - s + -2jj. Отсюда и из (13) получаем

- Z Pe(r N )(u)log Ps (n) Z Pe°(r N )(и)log I N _s + f l + 1

V (Tn,e,9n)<^-----------------------------------------------H(e) + “erN

ds (Tn, e) ds (Tn ,)

Воспользовавшись (8), имеем

Z Z Pe°rN )(и) rv (u)Fs (n )

V (Tn,e,Фn)< v—AnTn (-Н(e) +

ds (ТN , e)

^ Z Z pe°(тN)(u)logra(u)+с Z р(Т,)^)log(l«l-s+k

V—A N—ТN , N—ТN

(14)

d(Tn, e) ds (Tn, 0)

Используя неравенство Иенсена для функций -х log х и log х, а также тождествами Вальда (2) и определения величины ds (ТN, e), см. (1), получаем

Z Z ^Т, )(и) rv (и)Fs (и )

-^^А-и-Т^---------------------Н (e)< °; (15)

ds (Тn , e) V 7

Z Р°тn)log(lи1-s)<log(s(Тn,e)-s); (i6)

N—Т ,

Z Р°Т, ) log K(U )< Z Р0°(Т, ) log (И - s )< log (s (ТN , e)-s) (17)

N—Тn N—Тn

Из (14) и соотношений (15) - (17) окончательно вытекает

„ ( 0ф kS (k - 1) log ds (TN , e) . log ds (ТN , e) + C

rVB K1 N ,°,Ф^Ь ~ • , /„ Q4 + , /T ,

2 ds (ТN , e) ds (ТN , e)

где с не зависит от e . Теорема доказана.

Из доказанной теоремы следует, что для множества Qs марковских источников с памятью s, 0 < s < да , существует универсальное равномерное по выходу кодирование.

Следствие. Для избыточности RVB (N, Qs) универсального равномерного по выходу кодирования с заданной сложностью N справедлива оценка

Rb (N.a, )< W;:U+li£gdTi+-^—, (18)

V s) 2 ds (Т,) ds (Т,)

где ds (Tn )= inf ds (ТN, e), с не зависит от e , т.е. существует универсальное

0—q s

равномерное по выходу кодирование для множества источников Qs.

Доказательство. Утверждение следствия вытекает непосредственно из теоремы и определения величин RVB (N, Qs) и r (ТN,e,ф, ) (см (5)).

3. Кодирование типа VB для стационарных источников

Сформулируем и докажем основные результаты работы.

Теорема 2. Для множества стационарных источников Qw существует слабоуниверсальное равномерное по выходу кодирование.

Доказательство. Каждый стационарный источник 9 , 9е Qw , задается условными вероятностными распределениями 9s (аг| v), at е A , v е As, s = 0,1, 2,_

появления буквы а после блока v. Таким образом, каждый стационарный источник 9 определяет последовательность марковских источников 9s, s = 0,1, 2,..., при s, стремящемся к бесконечности, энтропия Н (9s) источника 9s, не возрастая, сходится к энтропии Н (9) источника 9 , т.е. lim H(9s) = H(9).

s^w

Для любого фиксированного s, 0 < s < w , определена стоимость кодирования CVB (Т, 9, ф) (см. (3)). Покажем, что стоимость кодирования cvb (n, 9,ф ), предложенного ранее, при N и s, стремящихся к бесконечности, существует и равна энтропии источника Н (9). Для этого нам нужно установить, что избыточность кодирования rVB (N, 9, ФN) для стационарного источника 9, 9 е Qw , стремится к нулю с ростом N и s . Используя определение величины rVB (N, 9, ФN) (см. (11)), имеем

N\Тn\ I!

rVB (TN, 0, фN ) =

--H (0,)

+ [ (0,)-H (0)]. (19)

_ d, (TN, 0,) - , +1

В равенстве (19) первое слагаемое в правой части, согласно следствию из предыдущего параграфа, ограничено асимптотически сверху величиной

(k -1) + 2 log d, (ТN) (20)

2 d, (TN) .

Если выбрать 5 = o (log Т, (т()- loglog u, ( )), то из (20) и свойств энтропии следует, что с ростом 5 оба слагаемых в (19) стремятся к нулю, т.е.

lim rvB (,0,ФN ) = 0 или lim C(т(,0,,фN ) = H(0).

Теорема доказана.

Из теоремы 2 следует, что существует кодирование, при котором для любого фиксированного источника 0 из Qw его избыточность стремится к нулю. Однако

это стремление не является равномерным по множеству источников Qw . Нижеследующее утверждение даёт ответ на вопрос о существовании универсального равномерного по выходу кодирования для множества источников Q .

Теорема 3. Для существования универсального равномерного по выходу кодирования множества источников Q необходимо и достаточно, чтобы при s, стремящемся к бесконечности, энтропия Н (0,) сходилась равномерно по 0, 0eQ, к энтропии Н (0).

Доказательство. Необходимость. Пусть Н (9s) сходится равномерно по 0 к Н (9) на множестве Q , при s . Согласно определению, для любой последовательности кодовых множеств {т,}, N = 1,2,..., 0 < s <w , справедливо равенство

r (N, 9, ф N ) = r (N, 9s, ф N) + Н (9s)-Н (9).

Так как r , 9s, ФN) ^ 0 , то из последнего равенства имеем

Н (9s)-Н (9) < r (Т^, 9, ф n ) = r (, 9s, ФN) + Н (9s)-Н (9). (21)

В качестве TN возьмём кодовые множества, построенные при доказательстве теоремы 1. Согласно следствию, из (18) и (21) имеем

r , а ф, )< )(k ~‘)+2 • +я(9‘)-я(е) <22)

as (Т N ) а (Т N )

Из (22) условия теоремы и следствия из теоремы 1 вытекает справедливость утверждения.

Достаточность. Если Н (9s)- Н(9) не стремится к нулю равномерно по множеству Q , то из (20), точнее, из нижней оценки (21), следует, что для любой последовательности кодовых множеств T, избыточность r (ТN, 9, ф, )е стремится к нулю равномерно по множеству Q . Теорема доказана.

Заключение

В работе предложен метод универсального равномерного по выходу кодирования сообщений, порожденных известным марковским источником связанности s; получена верхняя оценка избыточности этого кодирования, которая примерно в два раза меньше полученной ранее оценки [17]. Доказано существование слабоуниверсального кодирования типа BV для множества всех стационарных дискретных источников и сформулированы необходимые и достаточные условия существования универсального кодирования для произвольного множества источников.

ЛИТЕРАТУРА

1. Шеннон К. Математическая теория связи. Работы по теории информации и кибернетике. М.: ИЛ, 1969. С. 243-332.

2. Хорошевский В.Г. Архитектура вычислительных систем. М.: МГТУ им. Н.Э. Баумана, 2005. 520 с.

3. Тарасенко Ф.П. Введение в курс теории информации. Томск: ТГУ, 1963.

4. Фано Р. Передача информации. Статистическая теория связи. М.: Мир, 1965. 440 с.

5. ГаллагерР. Теория информации и надёжная связь. М.: Сов.радио, 1974. 720 с.

6. Могульский А.А., Трофимов В.К. Тождество Вальда и стоимость кодирования для цепей Маркова // VII Всесоюзная конференция по теории кодирования и передачи информации (Теория информации). М.; Вильнюс, 1978. Ч. I. C. 112-116.

7. Кричевский Р.Е. Длина блока, необходимая для получения заданной избыточности // ДАН СССР. 1966. Т. 171. № 1.

8. Гильберт Э.Н., Мур Э. Ф. Двоичные кодовые системы переменной длины // Кибернетический сборник. М.: ИЛ, 1961. № 3. C. 103-141.

9. Ходак Г.Л. Оценки избыточности при пословном кодировании сообщений, порождаемых бернуллиевским источником // Пробл. передачи информ. 1972. Т. 8. № 2. С. 21-32.

1°. Khedak G.L. ^ding оf markov sources with low redundancy // Proc. of 2 International Бушр. Inform. Theory Tsahkadzor. 1973. P. 201-204.

11. Jelinek F., Shneider K. On variable-length to block coding // IEEE Trans. Inform. Theory. 1972. V.18. No. 6. P. 756-774.

12. Трофимов В.К. Эффективное кодирование блоками слов различной длины, порождённых известным марковским источником // Обработка информации в системах связи. Л.: ЛЭИС, 1985. С. 9-15.

13. Ziv J. Variable-to-fixed length codes are better than fixed-to-variable length wdes for marcov sources // IEEE Trans. Inform. Theory. 1990. V. 36. No.4. P. 861-863.

14. Кричевский Р.Е. Связь между избыточностью кодирования и достоверностью сведений об источнике // Пробл. передачи информ. 1968. Т.4. № 3. С. 48-57.

15. KrichevskiiR.E., Trofimov V.K. The performace of universal encoding // IEEE Trans. Inform. Theory. 1981. V. IT-27. No. 2. P. 199-207.

16. Shtarkov Yu.M., Babkin V.F. Combinatorial encoding for discrete stationary sources // 2

Internat. Бушр. on Inform. Theory Tsahkadzor. 1973. P. 249-256.

17. Трофимов В.К. Равномерное по выходу кодирование марковских источников при неизвестной статистике // Пятый Международный симпозиум по теории информации. 1979.

Ч. II. C.172-175.

18. Krichevsky R. Universal Compression and Retrieval. London, 1994. 219 p.

19. Sergio Verdu. Fifty Years of Shannon Theory // IEEE Trans. Inform. Theory. 1998. VIT 44.

No 6. P. 2057-2077.

Трофимов Виктор Куприянович

ГОУ ВПО «Сибирский государственный университет

телекоммуникаций и информатики»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

E-mail: [email protected] Поступила в редакцию 3 декабря 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.