Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой

Трофимов Виктор Куприянович

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2011 Управление, вычислительная техника и информатика № 1(14)

УДК 621.391

В.К. Трофимов РАВНОМЕРНОЕ ПО ВЫХОДУ КОДИРОВАНИЕ ДИСКРЕТНЫХ СТАЦИОНАРНЫХ ИСТОЧНИКОВ СООБЩЕНИЙ С НЕИЗВЕСТНОЙ СТАТИСТИКОЙ1

Предложен метод универсального равномерного по выходу кодирования для множества дискретных стационарных источников. Получены оценки избыточности предложенного кодирования. Установлены необходимые и достаточные условия существования универсального равномерного по выходу кодирования.

Ключевые слова: кодирование, избыточность, стоимость кодирования.

Проблемы сжатия (кодирования) информации [1] относятся к фундаментальным в области инфокоммуникаций. Как отмечено в книги В.Г. Хорошевского [2], решение этих проблем значимо и при создании большемасштабных распределённых вычислительных систем. Методы сжатия информации в таких системах, как правило, используют параллельные информационно-вычислительные технологии.

Настоящая работа посвящена кодированию информации, порождённой источником, в классической постановке К. Шеннона [1]. Вопросы сжатия данных также рассматривались Ф.П. Тарасенко [3].

1. Основные определения. Постановка задачи

Пусть буквы конечного алфавита А = {аь а2, ..., ак}, 2 < к< да, порождаются источником 0. Мера, заданная на последовательности букв, порождаемой источником, определяет тип источника. Если буквы порождаются независимо, то источник называют бернуллиевским. В этом случае Р^а,) = 0j, 01 + 01 + ... + 0к = 1, где Ре(а,) - вероятность порождения буквы aj источником 0. Если же появление очередной буквы зависит от предыдущей, то для условной вероятности Р0(а,- /а,)

к

появления буквы а,■ после а, имеют место равенства Р0(а,- /а,) = 0,, = 1,

і=1

- = 1, к, и в этом случае источник называют марковским. Если появление очередной буквы зависит от 5 предшествующих букв, то условные вероятности Р0 (а, /у) определяются равенствами Р0(а,/ V) = 0-„, где V є А5, источник 0 называют марковским с памятью & Следует отметить, что для любого слова V є А5

к

0 < 5 < да, выполняется равенство ^ 0^. = 1. Множество всех марковских источ-

,=1

ников с памятью £ обозначим 05. Дискретный стационарный источник 0 задаётся

1 Работа выполнена в рамках интеграционного проекта № 113 СО РАН, при поддержке РФФИ (гранты № 09-07-00095, 10-07-00157, 08-07-00022), Совета по грантам Президента РФ для поддержки ведущих научных школ (грант НШ-5176.2010.9) и в рамках государственного контракта № 02.740.11.0006 с Минобрнауки РФ.

всеми условными распределениями вероятностей P0(üj / v) = 0jv порождения источником букв üj, j = 1, к, при заданных предшествующих v, V e As, s любое целое неотрицательное число, причём при любом заданном V, v e As, s = 0,1, 2,..., выполняется равенство 9v1 +9V 2 +------+ 9vk = 1.

Если u - произвольное слово в алфавите A, то через P9 (u) обозначим вероятность слова u, порождённого источником 0. Число |u| букв в слове u назовём его длиной. Энтропию источника 9 обозначим H(9) [4, 5]. Если 0 - произвольный дискретный стационарный источник и H(9) - его энтропия, то справедливо равенство [4, 5]: H(9) = lim Hs (9).

Пусть - множество всех дискретных стационарных источников с конечной энтропией. Конечное полное префиксное множество слов T во входном алфавите назовём кодовым.

Пусть 9 - произвольный источник из Qs, Т - произвольное кодовое множество. Обозначим через 9(T) марковскую цепь, состояниями которой являются слова из T, а переходные вероятности P9(T)(u/v), u,veT, индуцируются источником 9 . Будем рассматривать только марковские источники с памятью s, переходные вероятности которых строго положительны. Тогда для марковской цепи 9(T) существует стационарное распределение P0 (u) > 0, u e T . Средняя длина

9(T)

слова d(T, 9) для множества Т, как доказано в [6], равна

d(T,9) = X P90(T)(u)|u| . (1)

ueT

В этой же работе доказаны тождества Вальда, которые имеют вид

X P90(T)(u) • Г, (u) = (d(T,9) - s + 1)9ov , X P90(T)(u) • (u) = (d(T,9) - s^9vг , (2)

ueT ueT

где rv (u), rvi (u) - число вхождений блоков v, vai, v e As, соответственно в слово

u , s = max (s,1)

Полубесконечная последовательность букв, порождаемая источником 9, однозначно разбивается на последовательность слов из фиксированного кодового множества T . Полученная последовательность слов из Т с помощью отображения Ф переводится в слова выходного алфавита В, который, не уменьшая общности,

можно считать двоичным. Из неравенства Мак-Милана - Крафта [4, 5] следует, что множество ф^) = {(u), u e T} является префиксным. Если длины всех слов множеств T (ф(Г)) равны между собой, то говорят, что T ^(T)) состоит из блоков; в противном случае - из слов переменной длины. В зависимости от видов множеств Т и ф(7) логически возможны следующие виды кодирований: блоки в слова переменной длины (обозначается BV; слова переменной длины в блоки (обозначается VB); слова переменной длины в слова переменной длины (обозначается VV ); блоки в блоки (обозначается BB ).

Среднее число букв выходного алфавита при кодировании типа ст, ст = BV, VB, VV, приходящихся на одну букву входного, назовём стоимостью кодирования и обозначим через Сст (T, 9, ф). Как доказано в [6], величина

Сст (T, 9, ф) находится по формуле

ССТ (T, 9, ф) =-----1-У P0 (u) |ф(и)|. (3)

ст ds (T, 9) - s +1 u^T 0(T)

Эффективность кодирования ф будем оценивать разностью между стоимостью кодирования Сст (T, 9, ф) и энтропией источника H(9). Эта разность в дальнейшем называется избыточностью кодирования и обозначается rCT (T, 9, ф), т.е.

Гст (T, 9, ф)= Сст (T, 9, ф) - H(9). (4)

Избыточностью универсального кодирования типа СТ для множества источников Q и с заданной сложностью N назовём величину RCT (N, Q)

RCT (N, Q) = inf sup rCT (T, 9, ф). (5)

ф 6eQ

Здесь нижняя грань берётся по всем кодированиям ф, для которых кодовое

множество T имеет не более чем kN слов. Построение хорошего кодирования при заданной сложности - основной вопрос при изучении передачи сообщений по каналу без шума.

Если множество источников Q состоит из единственного источника, то мы имеем дело с кодированием известного источника, которое подробно изучено для различных типов кодирования, например, в работах [1, 3 - 5, 7 - 13]. Универсальное кодирование марковских источников различных типов также хорошо изучено [14 - 18]. Подробную библиографию по этому вопросу можно найти в [14, 17 -19]. Особо отметим работу В.Ф. Бабкина, Ю.М. Штарькова [16], в которой изучалось BV-кодирование для стационарных источников. В частности, в этой работе было доказано, что существует последовательность BV-кодирований фN, такая, что для любого стационарного источника 9 избыточность кодирования rBV (AN, 9, фN) стремится к нулю. В то же время легко показать, что при N

избыточность универсального кодирования множества всех стационарных источников RBV (N, QOT) стремится к бесконечности. Вопрос о равномерной сходимости rBV (An, 9, фN) в [16] не исследовался. Кодирование, построенное в [16], получило название слабоуниверсального кодирования. При построении слабоуниверсального BV-кодирования основная сложность состоит в определении отображения фN , так как область определения при таком кодировании определена - это множество всех слов длины N в алфавите А . При построении кодирования типа VB основная трудность состоит в конструировании области определения кодирования фN , т.е. в определении кодового множества TN.

2. Равномерное по выходу кодирование марковских источников

В этом параграфе предложен метод кодирования марковских источников с памятью 5, получена оценка избыточности предложенного метода и доказана его универсальность. При доказательстве основного утверждения параграфа нам потребуются следующие понятия и обозначения. Марковский источник 9 связанности 5 задаётся начальным распределением вероятностей 90у появления блока V за первые 5 шагов работы источника и вероятностями 9И- появления буквы а^ после блока V, аг- е А , V е А5.

На множестве источников 05 определим КТ-распределение ю(9) [14], которое задаётся формулой

ю(9) =

к

к п2

1

к

П П(

уєЛ* i=1

(6)

Проинтегрировав вероятность слова и, порождённого источником 9, по множеству источников 05, если на 05 задана плотность ю(9), получим [14]

Ps (») =

Г (К

к

к п2

ks

П

v&As

Г1 rv(и)+2

()

где Г (z) - гамма функция от z . Используя для функции Г (z) формулу Стирлинга, из (7) получим

- log Ps(u) = У rv(u)Fs (u) + k—1 У log rv(u) + с, (8)

veAs veAs

где x = max (x,1), logx=log2x, 0log0=0, Fs (u) - квазиэнтропия u , определяемая равенством

F (u ) = -S {f- i^ log ^.

v^H - Si=1 rv(u ) rv(u )

Сформулируем и докажем основное утверждение параграфа.

Теорема 1. Для любого фиксированного s, 0 < s < да , существует последовательность кодирований фN типа VB, для которых избыточность кодирования rVB (TN, 9,фN) при любом источнике 9 , 9eQs, удовлетворяет неравенству

rVB (фм, 9, tn ) -

ks (к -1) + 2 logds (TN, 9) + c

ds (Tn , 9)

где постоянная c не зависит ни от 9 , ни от T,

N ■

Доказательство. Как уже отмечалось ранее, каждое кодирование определяется тройкой (Т, ф, ф(Т)), где Т - область определения Т, ф(Т) - область значений

отображения ф . Для равномерного по выходу кодирования ф(Т) = ВГ1о§ИТ1П , где

[х"| - наименьшее целое, большее или равное х, ||Г|| - мощность множества Т. Таким образом, при построении равномерных по выходу кодирований вся сложность заключается в построении кодовых множеств.

Зафиксируем произвольное натуральное N, в кодовое множество Ты включим все слова и , для которых выполняется неравенство

1 ■ ^ ^ , (9)

Рs (и)

и в то же время существует буква aj, aj e A, такая, что для конкатенации слова u и aj выполняется неравенство

----> kN . (10)

Р., (иа])

Совершенно очевидно, что построенное таким образом кодовое множество Ты является конечным, полным, префиксным множеством слов во входном алфавите, т.е. Ты - кодовое множество. При равномерном по выходу кодировании каждому слову u ставится в соответствие слово ф^ (u) , u e Ты , длины Рlog |ТN||] . Оценим избыточность предложенного метода кодирования. Из определения избыточности (4) имеем

V (,9,ф^)= (т*+1 -Н(9). ()

ds (ТN , 9)-S + 1

Кодирование фN - дешифруемое, поэтому величина rVB (ТN, фN, 9) неотрицательна. Найдём верхнюю оценку этой величины. Из соотношения (9) следует, что

при любом u, u e TN, справедливо неравенство Рs (и) > —N. Просуммировав это

k

неравенство по всем словам u из TN и учитывая, что в силу полноты ТN выполняется равенство i Р, (и) = 1, получим

ыеТ n

kN > ITnII . (12)

Из (11) с учётом (10) и (12) следует

i Pek )C«>log| tnii

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

rVB (ТN,9,фN)- ^ -------H (9) +

1

ds (Tn , 9) ds (Tn ,9)

- Z p9(t n )^)log ps (ua})

— Р9(Т N )( .

------------------------------H (9)+-------------------------------------------1-. (13)

ds (Tn , 9) V ^ ds (Tn , 9)

Из определения средней вероятности Рх (иа}-) слова иа}- по множеству источников , свойств гамма-функции и (7) для слова и , заканчивающегося блоком

V, справедливо неравенство

- log Рs (иа}) < - log Ps (и) + log (|u - s + -2jj. Отсюда и из (13) получаем

- Z Pe(r N )(u)log Ps (n) Z Pe°(r N )(и)log I N _s + f l + 1

V (Tn,e,9n)<^-----------------------------------------------H(e) + “erN

ds (Tn, e) ds (Tn ,)

Воспользовавшись (8), имеем

Z Z Pe°rN )(и) rv (u)Fs (n )

V (Tn,e,Фn)< v—AnTn (-Н(e) +

ds (ТN , e)

^ Z Z pe°(тN)(u)logra(u)+с Z р(Т,)^)log(l«l-s+k

V—A N—ТN , N—ТN

(14)

d(Tn, e) ds (Tn, 0)

Используя неравенство Иенсена для функций -х log х и log х, а также тождествами Вальда (2) и определения величины ds (ТN, e), см. (1), получаем

Z Z ^Т, )(и) rv (и)Fs (и )

-^^А-и-Т^---------------------Н (e)< °; (15)

ds (Тn , e) V 7

Z Р°тn)log(lи1-s)<log(s(Тn,e)-s); (i6)

N—Т ,

Z Р°Т, ) log K(U )< Z Р0°(Т, ) log (И - s )< log (s (ТN , e)-s) (17)

N—Тn N—Тn

Из (14) и соотношений (15) - (17) окончательно вытекает

„ ( 0ф kS (k - 1) log ds (TN , e) . log ds (ТN , e) + C

rVB K1 N ,°,Ф^Ь ~ • , /„ Q4 + , /T ,

2 ds (ТN , e) ds (ТN , e)

где с не зависит от e . Теорема доказана.

Из доказанной теоремы следует, что для множества Qs марковских источников с памятью s, 0 < s < да , существует универсальное равномерное по выходу кодирование.

Следствие. Для избыточности RVB (N, Qs) универсального равномерного по выходу кодирования с заданной сложностью N справедлива оценка

Rb (N.a, )< W;:U+li£gdTi+-^—, (18)

V s) 2 ds (Т,) ds (Т,)

где ds (Tn )= inf ds (ТN, e), с не зависит от e , т.е. существует универсальное

0—q s

равномерное по выходу кодирование для множества источников Qs.

Доказательство. Утверждение следствия вытекает непосредственно из теоремы и определения величин RVB (N, Qs) и r (ТN,e,ф, ) (см (5)).

3. Кодирование типа VB для стационарных источников

Сформулируем и докажем основные результаты работы.

Теорема 2. Для множества стационарных источников Qw существует слабоуниверсальное равномерное по выходу кодирование.

Доказательство. Каждый стационарный источник 9 , 9е Qw , задается условными вероятностными распределениями 9s (аг| v), at е A , v е As, s = 0,1, 2,_

появления буквы а после блока v. Таким образом, каждый стационарный источник 9 определяет последовательность марковских источников 9s, s = 0,1, 2,..., при s, стремящемся к бесконечности, энтропия Н (9s) источника 9s, не возрастая, сходится к энтропии Н (9) источника 9 , т.е. lim H(9s) = H(9).

s^w

Для любого фиксированного s, 0 < s < w , определена стоимость кодирования CVB (Т, 9, ф) (см. (3)). Покажем, что стоимость кодирования cvb (n, 9,ф ), предложенного ранее, при N и s, стремящихся к бесконечности, существует и равна энтропии источника Н (9). Для этого нам нужно установить, что избыточность кодирования rVB (N, 9, ФN) для стационарного источника 9, 9 е Qw , стремится к нулю с ростом N и s . Используя определение величины rVB (N, 9, ФN) (см. (11)), имеем

N\Тn\ I!

rVB (TN, 0, фN ) =

--H (0,)

+ [ (0,)-H (0)]. (19)

_ d, (TN, 0,) - , +1

В равенстве (19) первое слагаемое в правой части, согласно следствию из предыдущего параграфа, ограничено асимптотически сверху величиной

(k -1) + 2 log d, (ТN) (20)

2 d, (TN) .

Если выбрать 5 = o (log Т, (т()- loglog u, ( )), то из (20) и свойств энтропии следует, что с ростом 5 оба слагаемых в (19) стремятся к нулю, т.е.

lim rvB (,0,ФN ) = 0 или lim C(т(,0,,фN ) = H(0).

Теорема доказана.

Из теоремы 2 следует, что существует кодирование, при котором для любого фиксированного источника 0 из Qw его избыточность стремится к нулю. Однако

это стремление не является равномерным по множеству источников Qw . Нижеследующее утверждение даёт ответ на вопрос о существовании универсального равномерного по выходу кодирования для множества источников Q .

Теорема 3. Для существования универсального равномерного по выходу кодирования множества источников Q необходимо и достаточно, чтобы при s, стремящемся к бесконечности, энтропия Н (0,) сходилась равномерно по 0, 0eQ, к энтропии Н (0).

Доказательство. Необходимость. Пусть Н (9s) сходится равномерно по 0 к Н (9) на множестве Q , при s . Согласно определению, для любой последовательности кодовых множеств {т,}, N = 1,2,..., 0 < s <w , справедливо равенство

r (N, 9, ф N ) = r (N, 9s, ф N) + Н (9s)-Н (9).

Так как r , 9s, ФN) ^ 0 , то из последнего равенства имеем

Н (9s)-Н (9) < r (Т^, 9, ф n ) = r (, 9s, ФN) + Н (9s)-Н (9). (21)

В качестве TN возьмём кодовые множества, построенные при доказательстве теоремы 1. Согласно следствию, из (18) и (21) имеем

r , а ф, )< )(k ~‘)+2 • +я(9‘)-я(е) <22)

as (Т N ) а (Т N )

Из (22) условия теоремы и следствия из теоремы 1 вытекает справедливость утверждения.

Достаточность. Если Н (9s)- Н(9) не стремится к нулю равномерно по множеству Q , то из (20), точнее, из нижней оценки (21), следует, что для любой последовательности кодовых множеств T, избыточность r (ТN, 9, ф, )е стремится к нулю равномерно по множеству Q . Теорема доказана.

Заключение

В работе предложен метод универсального равномерного по выходу кодирования сообщений, порожденных известным марковским источником связанности s; получена верхняя оценка избыточности этого кодирования, которая примерно в два раза меньше полученной ранее оценки [17]. Доказано существование слабоуниверсального кодирования типа BV для множества всех стационарных дискретных источников и сформулированы необходимые и достаточные условия существования универсального кодирования для произвольного множества источников.

ЛИТЕРАТУРА

1. Шеннон К. Математическая теория связи. Работы по теории информации и кибернетике. М.: ИЛ, 1969. С. 243-332.

2. Хорошевский В.Г. Архитектура вычислительных систем. М.: МГТУ им. Н.Э. Баумана, 2005. 520 с.

3. Тарасенко Ф.П. Введение в курс теории информации. Томск: ТГУ, 1963.

4. Фано Р. Передача информации. Статистическая теория связи. М.: Мир, 1965. 440 с.

5. ГаллагерР. Теория информации и надёжная связь. М.: Сов.радио, 1974. 720 с.

6. Могульский А.А., Трофимов В.К. Тождество Вальда и стоимость кодирования для цепей Маркова // VII Всесоюзная конференция по теории кодирования и передачи информации (Теория информации). М.; Вильнюс, 1978. Ч. I. C. 112-116.

7. Кричевский Р.Е. Длина блока, необходимая для получения заданной избыточности // ДАН СССР. 1966. Т. 171. № 1.

8. Гильберт Э.Н., Мур Э. Ф. Двоичные кодовые системы переменной длины // Кибернетический сборник. М.: ИЛ, 1961. № 3. C. 103-141.

9. Ходак Г.Л. Оценки избыточности при пословном кодировании сообщений, порождаемых бернуллиевским источником // Пробл. передачи информ. 1972. Т. 8. № 2. С. 21-32.

1°. Khedak G.L. ^ding оf markov sources with low redundancy // Proc. of 2 International Бушр. Inform. Theory Tsahkadzor. 1973. P. 201-204.

11. Jelinek F., Shneider K. On variable-length to block coding // IEEE Trans. Inform. Theory. 1972. V.18. No. 6. P. 756-774.

12. Трофимов В.К. Эффективное кодирование блоками слов различной длины, порождённых известным марковским источником // Обработка информации в системах связи. Л.: ЛЭИС, 1985. С. 9-15.

13. Ziv J. Variable-to-fixed length codes are better than fixed-to-variable length wdes for marcov sources // IEEE Trans. Inform. Theory. 1990. V. 36. No.4. P. 861-863.

14. Кричевский Р.Е. Связь между избыточностью кодирования и достоверностью сведений об источнике // Пробл. передачи информ. 1968. Т.4. № 3. С. 48-57.

15. KrichevskiiR.E., Trofimov V.K. The performace of universal encoding // IEEE Trans. Inform. Theory. 1981. V. IT-27. No. 2. P. 199-207.

16. Shtarkov Yu.M., Babkin V.F. Combinatorial encoding for discrete stationary sources // 2

Internat. Бушр. on Inform. Theory Tsahkadzor. 1973. P. 249-256.

17. Трофимов В.К. Равномерное по выходу кодирование марковских источников при неизвестной статистике // Пятый Международный симпозиум по теории информации. 1979.

Ч. II. C.172-175.

18. Krichevsky R. Universal Compression and Retrieval. London, 1994. 219 p.

19. Sergio Verdu. Fifty Years of Shannon Theory // IEEE Trans. Inform. Theory. 1998. VIT 44.

No 6. P. 2057-2077.

Трофимов Виктор Куприянович

ГОУ ВПО «Сибирский государственный университет

телекоммуникаций и информатики»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

E-mail: [email protected] Поступила в редакцию 3 декабря 2010 г.

Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Трофимов Виктор Куприянович

Похожие темы научных работ по математике , автор научной работы — Трофимов Виктор Куприянович

Текст научной работы на тему «Равномерное по выходу кодирование дискретных стационарных источников сообщений с неизвестной статистикой»