ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2011 Управление, вычислительная техника и информатика № 1(14)
УДК 621.391
В.К. Трофимов РАВНОМЕРНОЕ ПО ВЫХОДУ КОДИРОВАНИЕ ДИСКРЕТНЫХ СТАЦИОНАРНЫХ ИСТОЧНИКОВ СООБЩЕНИЙ С НЕИЗВЕСТНОЙ СТАТИСТИКОЙ1
Предложен метод универсального равномерного по выходу кодирования для множества дискретных стационарных источников. Получены оценки избыточности предложенного кодирования. Установлены необходимые и достаточные условия существования универсального равномерного по выходу кодирования.
Ключевые слова: кодирование, избыточность, стоимость кодирования.
Проблемы сжатия (кодирования) информации [1] относятся к фундаментальным в области инфокоммуникаций. Как отмечено в книги В.Г. Хорошевского [2], решение этих проблем значимо и при создании большемасштабных распределённых вычислительных систем. Методы сжатия информации в таких системах, как правило, используют параллельные информационно-вычислительные технологии.
Настоящая работа посвящена кодированию информации, порождённой источником, в классической постановке К. Шеннона [1]. Вопросы сжатия данных также рассматривались Ф.П. Тарасенко [3].
1. Основные определения. Постановка задачи
Пусть буквы конечного алфавита А = {аь а2, ..., ак}, 2 < к< да, порождаются источником 0. Мера, заданная на последовательности букв, порождаемой источником, определяет тип источника. Если буквы порождаются независимо, то источник называют бернуллиевским. В этом случае Р^а,) = 0j, 01 + 01 + ... + 0к = 1, где Ре(а,) - вероятность порождения буквы aj источником 0. Если же появление очередной буквы зависит от предыдущей, то для условной вероятности Р0(а,- /а,)
к
появления буквы а,■ после а, имеют место равенства Р0(а,- /а,) = 0,, = 1,
і=1
- = 1, к, и в этом случае источник называют марковским. Если появление очередной буквы зависит от 5 предшествующих букв, то условные вероятности Р0 (а, /у) определяются равенствами Р0(а,/ V) = 0-„, где V є А5, источник 0 называют марковским с памятью & Следует отметить, что для любого слова V є А5
к
0 < 5 < да, выполняется равенство ^ 0^. = 1. Множество всех марковских источ-
,=1
ников с памятью £ обозначим 05. Дискретный стационарный источник 0 задаётся
1 Работа выполнена в рамках интеграционного проекта № 113 СО РАН, при поддержке РФФИ (гранты № 09-07-00095, 10-07-00157, 08-07-00022), Совета по грантам Президента РФ для поддержки ведущих научных школ (грант НШ-5176.2010.9) и в рамках государственного контракта № 02.740.11.0006 с Минобрнауки РФ.
всеми условными распределениями вероятностей P0(üj / v) = 0jv порождения источником букв üj, j = 1, к, при заданных предшествующих v, V e As, s любое целое неотрицательное число, причём при любом заданном V, v e As, s = 0,1, 2,..., выполняется равенство 9v1 +9V 2 +------+ 9vk = 1.
Если u - произвольное слово в алфавите A, то через P9 (u) обозначим вероятность слова u, порождённого источником 0. Число |u| букв в слове u назовём его длиной. Энтропию источника 9 обозначим H(9) [4, 5]. Если 0 - произвольный дискретный стационарный источник и H(9) - его энтропия, то справедливо равенство [4, 5]: H(9) = lim Hs (9).
Пусть - множество всех дискретных стационарных источников с конечной энтропией. Конечное полное префиксное множество слов T во входном алфавите назовём кодовым.
Пусть 9 - произвольный источник из Qs, Т - произвольное кодовое множество. Обозначим через 9(T) марковскую цепь, состояниями которой являются слова из T, а переходные вероятности P9(T)(u/v), u,veT, индуцируются источником 9 . Будем рассматривать только марковские источники с памятью s, переходные вероятности которых строго положительны. Тогда для марковской цепи 9(T) существует стационарное распределение P0 (u) > 0, u e T . Средняя длина
9(T)
слова d(T, 9) для множества Т, как доказано в [6], равна
d(T,9) = X P90(T)(u)|u| . (1)
ueT
В этой же работе доказаны тождества Вальда, которые имеют вид
X P90(T)(u) • Г, (u) = (d(T,9) - s + 1)9ov , X P90(T)(u) • (u) = (d(T,9) - s^9vг , (2)
ueT ueT
где rv (u), rvi (u) - число вхождений блоков v, vai, v e As, соответственно в слово
u , s = max (s,1)
Полубесконечная последовательность букв, порождаемая источником 9, однозначно разбивается на последовательность слов из фиксированного кодового множества T . Полученная последовательность слов из Т с помощью отображения Ф переводится в слова выходного алфавита В, который, не уменьшая общности,
можно считать двоичным. Из неравенства Мак-Милана - Крафта [4, 5] следует, что множество ф^) = {(u), u e T} является префиксным. Если длины всех слов множеств T (ф(Г)) равны между собой, то говорят, что T ^(T)) состоит из блоков; в противном случае - из слов переменной длины. В зависимости от видов множеств Т и ф(7) логически возможны следующие виды кодирований: блоки в слова переменной длины (обозначается BV; слова переменной длины в блоки (обозначается VB); слова переменной длины в слова переменной длины (обозначается VV ); блоки в блоки (обозначается BB ).
Среднее число букв выходного алфавита при кодировании типа ст, ст = BV, VB, VV, приходящихся на одну букву входного, назовём стоимостью кодирования и обозначим через Сст (T, 9, ф). Как доказано в [6], величина
Сст (T, 9, ф) находится по формуле
ССТ (T, 9, ф) =-----1-У P0 (u) |ф(и)|. (3)
ст ds (T, 9) - s +1 u^T 0(T)
Эффективность кодирования ф будем оценивать разностью между стоимостью кодирования Сст (T, 9, ф) и энтропией источника H(9). Эта разность в дальнейшем называется избыточностью кодирования и обозначается rCT (T, 9, ф), т.е.
Гст (T, 9, ф)= Сст (T, 9, ф) - H(9). (4)
Избыточностью универсального кодирования типа СТ для множества источников Q и с заданной сложностью N назовём величину RCT (N, Q)
RCT (N, Q) = inf sup rCT (T, 9, ф). (5)
ф 6eQ
Здесь нижняя грань берётся по всем кодированиям ф, для которых кодовое
множество T имеет не более чем kN слов. Построение хорошего кодирования при заданной сложности - основной вопрос при изучении передачи сообщений по каналу без шума.
Если множество источников Q состоит из единственного источника, то мы имеем дело с кодированием известного источника, которое подробно изучено для различных типов кодирования, например, в работах [1, 3 - 5, 7 - 13]. Универсальное кодирование марковских источников различных типов также хорошо изучено [14 - 18]. Подробную библиографию по этому вопросу можно найти в [14, 17 -19]. Особо отметим работу В.Ф. Бабкина, Ю.М. Штарькова [16], в которой изучалось BV-кодирование для стационарных источников. В частности, в этой работе было доказано, что существует последовательность BV-кодирований фN, такая, что для любого стационарного источника 9 избыточность кодирования rBV (AN, 9, фN) стремится к нулю. В то же время легко показать, что при N
избыточность универсального кодирования множества всех стационарных источников RBV (N, QOT) стремится к бесконечности. Вопрос о равномерной сходимости rBV (An, 9, фN) в [16] не исследовался. Кодирование, построенное в [16], получило название слабоуниверсального кодирования. При построении слабоуниверсального BV-кодирования основная сложность состоит в определении отображения фN , так как область определения при таком кодировании определена - это множество всех слов длины N в алфавите А . При построении кодирования типа VB основная трудность состоит в конструировании области определения кодирования фN , т.е. в определении кодового множества TN.
2. Равномерное по выходу кодирование марковских источников
В этом параграфе предложен метод кодирования марковских источников с памятью 5, получена оценка избыточности предложенного метода и доказана его универсальность. При доказательстве основного утверждения параграфа нам потребуются следующие понятия и обозначения. Марковский источник 9 связанности 5 задаётся начальным распределением вероятностей 90у появления блока V за первые 5 шагов работы источника и вероятностями 9И- появления буквы а^ после блока V, аг- е А , V е А5.
На множестве источников 05 определим КТ-распределение ю(9) [14], которое задаётся формулой
ю(9) =
к
к п2
1
к
П П(
уєЛ* i=1
(6)
Проинтегрировав вероятность слова и, порождённого источником 9, по множеству источников 05, если на 05 задана плотность ю(9), получим [14]
Ps (») =
Г (К
к
к п2
ks
П
v&As
Г1 rv(и)+2
()
где Г (z) - гамма функция от z . Используя для функции Г (z) формулу Стирлинга, из (7) получим
- log Ps(u) = У rv(u)Fs (u) + k—1 У log rv(u) + с, (8)
veAs veAs
где x = max (x,1), logx=log2x, 0log0=0, Fs (u) - квазиэнтропия u , определяемая равенством
F (u ) = -S {f- i^ log ^.
v^H - Si=1 rv(u ) rv(u )
Сформулируем и докажем основное утверждение параграфа.
Теорема 1. Для любого фиксированного s, 0 < s < да , существует последовательность кодирований фN типа VB, для которых избыточность кодирования rVB (TN, 9,фN) при любом источнике 9 , 9eQs, удовлетворяет неравенству
rVB (фм, 9, tn ) -
ks (к -1) + 2 logds (TN, 9) + c
ds (Tn , 9)
где постоянная c не зависит ни от 9 , ни от T,
N ■
Доказательство. Как уже отмечалось ранее, каждое кодирование определяется тройкой (Т, ф, ф(Т)), где Т - область определения Т, ф(Т) - область значений
отображения ф . Для равномерного по выходу кодирования ф(Т) = ВГ1о§ИТ1П , где
[х"| - наименьшее целое, большее или равное х, ||Г|| - мощность множества Т. Таким образом, при построении равномерных по выходу кодирований вся сложность заключается в построении кодовых множеств.
Зафиксируем произвольное натуральное N, в кодовое множество Ты включим все слова и , для которых выполняется неравенство
1 ■ ^ ^ , (9)
Рs (и)
и в то же время существует буква aj, aj e A, такая, что для конкатенации слова u и aj выполняется неравенство
----> kN . (10)
Р., (иа])
Совершенно очевидно, что построенное таким образом кодовое множество Ты является конечным, полным, префиксным множеством слов во входном алфавите, т.е. Ты - кодовое множество. При равномерном по выходу кодировании каждому слову u ставится в соответствие слово ф^ (u) , u e Ты , длины Рlog |ТN||] . Оценим избыточность предложенного метода кодирования. Из определения избыточности (4) имеем
V (,9,ф^)= (т*+1 -Н(9). ()
ds (ТN , 9)-S + 1
Кодирование фN - дешифруемое, поэтому величина rVB (ТN, фN, 9) неотрицательна. Найдём верхнюю оценку этой величины. Из соотношения (9) следует, что
при любом u, u e TN, справедливо неравенство Рs (и) > —N. Просуммировав это
k
неравенство по всем словам u из TN и учитывая, что в силу полноты ТN выполняется равенство i Р, (и) = 1, получим
ыеТ n
kN > ITnII . (12)
Из (11) с учётом (10) и (12) следует
i Pek )C«>log| tnii
rVB (ТN,9,фN)- ^ -------H (9) +
1
ds (Tn , 9) ds (Tn ,9)
- Z p9(t n )^)log ps (ua})
— Р9(Т N )( .
------------------------------H (9)+-------------------------------------------1-. (13)
ds (Tn , 9) V ^ ds (Tn , 9)
Из определения средней вероятности Рх (иа}-) слова иа}- по множеству источников , свойств гамма-функции и (7) для слова и , заканчивающегося блоком
V, справедливо неравенство
- log Рs (иа}) < - log Ps (и) + log (|u - s + -2jj. Отсюда и из (13) получаем
- Z Pe(r N )(u)log Ps (n) Z Pe°(r N )(и)log I N _s + f l + 1
V (Tn,e,9n)<^-----------------------------------------------H(e) + “erN
ds (Tn, e) ds (Tn ,)
Воспользовавшись (8), имеем
Z Z Pe°rN )(и) rv (u)Fs (n )
V (Tn,e,Фn)< v—AnTn (-Н(e) +
ds (ТN , e)
^ Z Z pe°(тN)(u)logra(u)+с Z р(Т,)^)log(l«l-s+k
V—A N—ТN , N—ТN
(14)
d(Tn, e) ds (Tn, 0)
Используя неравенство Иенсена для функций -х log х и log х, а также тождествами Вальда (2) и определения величины ds (ТN, e), см. (1), получаем
Z Z ^Т, )(и) rv (и)Fs (и )
-^^А-и-Т^---------------------Н (e)< °; (15)
ds (Тn , e) V 7
Z Р°тn)log(lи1-s)<log(s(Тn,e)-s); (i6)
N—Т ,
Z Р°Т, ) log K(U )< Z Р0°(Т, ) log (И - s )< log (s (ТN , e)-s) (17)
N—Тn N—Тn
Из (14) и соотношений (15) - (17) окончательно вытекает
„ ( 0ф kS (k - 1) log ds (TN , e) . log ds (ТN , e) + C
rVB K1 N ,°,Ф^Ь ~ • , /„ Q4 + , /T ,
2 ds (ТN , e) ds (ТN , e)
где с не зависит от e . Теорема доказана.
Из доказанной теоремы следует, что для множества Qs марковских источников с памятью s, 0 < s < да , существует универсальное равномерное по выходу кодирование.
Следствие. Для избыточности RVB (N, Qs) универсального равномерного по выходу кодирования с заданной сложностью N справедлива оценка
Rb (N.a, )< W;:U+li£gdTi+-^—, (18)
V s) 2 ds (Т,) ds (Т,)
где ds (Tn )= inf ds (ТN, e), с не зависит от e , т.е. существует универсальное
0—q s
равномерное по выходу кодирование для множества источников Qs.
Доказательство. Утверждение следствия вытекает непосредственно из теоремы и определения величин RVB (N, Qs) и r (ТN,e,ф, ) (см (5)).
3. Кодирование типа VB для стационарных источников
Сформулируем и докажем основные результаты работы.
Теорема 2. Для множества стационарных источников Qw существует слабоуниверсальное равномерное по выходу кодирование.
Доказательство. Каждый стационарный источник 9 , 9е Qw , задается условными вероятностными распределениями 9s (аг| v), at е A , v е As, s = 0,1, 2,_
появления буквы а после блока v. Таким образом, каждый стационарный источник 9 определяет последовательность марковских источников 9s, s = 0,1, 2,..., при s, стремящемся к бесконечности, энтропия Н (9s) источника 9s, не возрастая, сходится к энтропии Н (9) источника 9 , т.е. lim H(9s) = H(9).
s^w
Для любого фиксированного s, 0 < s < w , определена стоимость кодирования CVB (Т, 9, ф) (см. (3)). Покажем, что стоимость кодирования cvb (n, 9,ф ), предложенного ранее, при N и s, стремящихся к бесконечности, существует и равна энтропии источника Н (9). Для этого нам нужно установить, что избыточность кодирования rVB (N, 9, ФN) для стационарного источника 9, 9 е Qw , стремится к нулю с ростом N и s . Используя определение величины rVB (N, 9, ФN) (см. (11)), имеем
N\Тn\ I!
rVB (TN, 0, фN ) =
--H (0,)
+ [ (0,)-H (0)]. (19)
_ d, (TN, 0,) - , +1
В равенстве (19) первое слагаемое в правой части, согласно следствию из предыдущего параграфа, ограничено асимптотически сверху величиной
(k -1) + 2 log d, (ТN) (20)
2 d, (TN) .
Если выбрать 5 = o (log Т, (т()- loglog u, ( )), то из (20) и свойств энтропии следует, что с ростом 5 оба слагаемых в (19) стремятся к нулю, т.е.
lim rvB (,0,ФN ) = 0 или lim C(т(,0,,фN ) = H(0).
Теорема доказана.
Из теоремы 2 следует, что существует кодирование, при котором для любого фиксированного источника 0 из Qw его избыточность стремится к нулю. Однако
это стремление не является равномерным по множеству источников Qw . Нижеследующее утверждение даёт ответ на вопрос о существовании универсального равномерного по выходу кодирования для множества источников Q .
Теорема 3. Для существования универсального равномерного по выходу кодирования множества источников Q необходимо и достаточно, чтобы при s, стремящемся к бесконечности, энтропия Н (0,) сходилась равномерно по 0, 0eQ, к энтропии Н (0).
Доказательство. Необходимость. Пусть Н (9s) сходится равномерно по 0 к Н (9) на множестве Q , при s . Согласно определению, для любой последовательности кодовых множеств {т,}, N = 1,2,..., 0 < s <w , справедливо равенство
r (N, 9, ф N ) = r (N, 9s, ф N) + Н (9s)-Н (9).
Так как r , 9s, ФN) ^ 0 , то из последнего равенства имеем
Н (9s)-Н (9) < r (Т^, 9, ф n ) = r (, 9s, ФN) + Н (9s)-Н (9). (21)
В качестве TN возьмём кодовые множества, построенные при доказательстве теоремы 1. Согласно следствию, из (18) и (21) имеем
r , а ф, )< )(k ~‘)+2 • +я(9‘)-я(е) <22)
as (Т N ) а (Т N )
Из (22) условия теоремы и следствия из теоремы 1 вытекает справедливость утверждения.
Достаточность. Если Н (9s)- Н(9) не стремится к нулю равномерно по множеству Q , то из (20), точнее, из нижней оценки (21), следует, что для любой последовательности кодовых множеств T, избыточность r (ТN, 9, ф, )е стремится к нулю равномерно по множеству Q . Теорема доказана.
Заключение
В работе предложен метод универсального равномерного по выходу кодирования сообщений, порожденных известным марковским источником связанности s; получена верхняя оценка избыточности этого кодирования, которая примерно в два раза меньше полученной ранее оценки [17]. Доказано существование слабоуниверсального кодирования типа BV для множества всех стационарных дискретных источников и сформулированы необходимые и достаточные условия существования универсального кодирования для произвольного множества источников.
ЛИТЕРАТУРА
1. Шеннон К. Математическая теория связи. Работы по теории информации и кибернетике. М.: ИЛ, 1969. С. 243-332.
2. Хорошевский В.Г. Архитектура вычислительных систем. М.: МГТУ им. Н.Э. Баумана, 2005. 520 с.
3. Тарасенко Ф.П. Введение в курс теории информации. Томск: ТГУ, 1963.
4. Фано Р. Передача информации. Статистическая теория связи. М.: Мир, 1965. 440 с.
5. ГаллагерР. Теория информации и надёжная связь. М.: Сов.радио, 1974. 720 с.
6. Могульский А.А., Трофимов В.К. Тождество Вальда и стоимость кодирования для цепей Маркова // VII Всесоюзная конференция по теории кодирования и передачи информации (Теория информации). М.; Вильнюс, 1978. Ч. I. C. 112-116.
7. Кричевский Р.Е. Длина блока, необходимая для получения заданной избыточности // ДАН СССР. 1966. Т. 171. № 1.
8. Гильберт Э.Н., Мур Э. Ф. Двоичные кодовые системы переменной длины // Кибернетический сборник. М.: ИЛ, 1961. № 3. C. 103-141.
9. Ходак Г.Л. Оценки избыточности при пословном кодировании сообщений, порождаемых бернуллиевским источником // Пробл. передачи информ. 1972. Т. 8. № 2. С. 21-32.
1°. Khedak G.L. ^ding оf markov sources with low redundancy // Proc. of 2 International Бушр. Inform. Theory Tsahkadzor. 1973. P. 201-204.
11. Jelinek F., Shneider K. On variable-length to block coding // IEEE Trans. Inform. Theory. 1972. V.18. No. 6. P. 756-774.
12. Трофимов В.К. Эффективное кодирование блоками слов различной длины, порождённых известным марковским источником // Обработка информации в системах связи. Л.: ЛЭИС, 1985. С. 9-15.
13. Ziv J. Variable-to-fixed length codes are better than fixed-to-variable length wdes for marcov sources // IEEE Trans. Inform. Theory. 1990. V. 36. No.4. P. 861-863.
14. Кричевский Р.Е. Связь между избыточностью кодирования и достоверностью сведений об источнике // Пробл. передачи информ. 1968. Т.4. № 3. С. 48-57.
15. KrichevskiiR.E., Trofimov V.K. The performace of universal encoding // IEEE Trans. Inform. Theory. 1981. V. IT-27. No. 2. P. 199-207.
16. Shtarkov Yu.M., Babkin V.F. Combinatorial encoding for discrete stationary sources // 2
Internat. Бушр. on Inform. Theory Tsahkadzor. 1973. P. 249-256.
17. Трофимов В.К. Равномерное по выходу кодирование марковских источников при неизвестной статистике // Пятый Международный симпозиум по теории информации. 1979.
Ч. II. C.172-175.
18. Krichevsky R. Universal Compression and Retrieval. London, 1994. 219 p.
19. Sergio Verdu. Fifty Years of Shannon Theory // IEEE Trans. Inform. Theory. 1998. VIT 44.
No 6. P. 2057-2077.
Трофимов Виктор Куприянович
ГОУ ВПО «Сибирский государственный университет
телекоммуникаций и информатики»
E-mail: trofimov@sibsutis.ru Поступила в редакцию 3 декабря 2010 г.