Научная статья на тему 'КОДИРОВАНИЕ ГЕОМЕТРИЧЕСКИХ ИСТОЧНИКОВ ПРИ НЕИЗВЕСТНОЙ СТАТИСТИКЕ'

КОДИРОВАНИЕ ГЕОМЕТРИЧЕСКИХ ИСТОЧНИКОВ ПРИ НЕИЗВЕСТНОЙ СТАТИСТИКЕ Текст научной статьи по специальности «Математика»

CC BY
26
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник СибГУТИ
ВАК
Область наук
Ключевые слова
КОДИРОВАНИЕ / ИЗБЫТОЧНОСТЬ / ЭНТРОПИЯ / ИСТОЧНИК СООБЩЕНИЙ

Аннотация научной статьи по математике, автор научной работы — Трофимов Виктор Куприянович

Предложен метод универсального кодирования произвольного множества источников без памяти, порождающих буквы бесконечного алфавита. Вероятности появления букв входного алфавита являются геометрической прогрессией. Предложенный метод являются слабоуниверсальным для множества всех геометрических источников. При знаменателе геометрической прогрессии превосходящей δ, δ > 0, предложенное кодирование - универсальное. Получены оценки избыточности через ε-энтропию для произвольного подмножества геометрических источников.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ENCODING GEOMETRIC SOURCES WITH UNKNOWN STATISTICS

Universal encoding method of an arbitrary set of sources without memory generating letters of an infinite alphabet is proposed. The probabilities of the input alphabet letter appearance are a geometric progression. The proposed method is weakly universal for the set of all geometric sources. If the denominator of the geometric progression exceeds δ, δ > 0, the proposed encoding is universal. Redundancy estimates are obtained for an arbitrary subset of geometric sources.

Текст научной работы на тему «КОДИРОВАНИЕ ГЕОМЕТРИЧЕСКИХ ИСТОЧНИКОВ ПРИ НЕИЗВЕСТНОЙ СТАТИСТИКЕ»

УДК 519.723.6

Кодирование геометрических источников при неизвестной статистике

В. К. Трофимов

Предложен метод универсального кодирования произвольного множества источников без памяти, порождающих буквы бесконечного алфавита. Вероятности появления букв входного алфавита являются геометрической прогрессией. Предложенный метод являются слабоуниверсальным для множества всех геометрических источников. При знаменателе геометрической прогрессии превосходящей 8, 8 > 0, предложенное кодирование -

универсальное. Получены оценки избыточности через ^-энтропию для произвольного подмножества геометрических источников.

Ключевые слова: кодирование, избыточность, энтропия, источник сообщений.

1. Введение

Предлагаемая статья посвящена универсальному кодированию источников с бесконечным алфавитом, имеющих геометрическое распределение вероятностей. В работе Левенштейна [1] доказано, что и при кодировании бесконечного числа сообщений выполнение неравенства Крафта является необходимым и достаточным условием существования дешифруемого кодирования. В дальнейшем мы будем рассматривать только дешифруемые в смысле [1] кодирования. В [2] установлено, что для кодирования блоков длины N порожденных источником с бесконечным алфавитом, в общем случае не существует универсального кодирования.

Однако для определенных классов источников с бесконечным алфавитом были предложены так называемые методы слабого универсального кодирования [3]. Слабоуниверсальное кодирование - это кодирование, которое обеспечивает оптимальность для каждого источника из заданного множества источников, но не обеспечивает оптимальность для совокупности всех источников. Первым примером слабоуниверсального кодирования является предложенное Бабкиным и Штарьковым [4] кодирование множества всех стационарных источников с конечным алфавитом. Кодированию специальных классов источников с бесконечным входным алфавитом посвящены работы Бабкина [5] и Кудряшова, Порова [6]

Пуассоновские источники рассматривались Штарьковым и Рыбьевой [7], оптимальные коды для этих источников предложены автором в [8].

Настоящая работа посвящена универсальному кодированию геометрических источников, т.е. источников, в которых вероятности появления букв образуют геометрическую прогрессию. Используя идею построения универсальных кодов из [9, 10], предложен универсальный код для любого подмножества таких источников и получены оценки избыточности кодирования для рассматриваемых классов источников.

Доказано, что это кодирование является слабоуниверсальным для всех рассматриваемых источников и универсальным, если знаменатель прогрессии больше или равен 8, 0 <8 < 1/2.

2. Основные определения

Предположим, что буквы бесконечного алфавита А = {ао,а2,...} , называемого в дальнейшем входным, порождаются источником без памяти в. Вероятность порождения буквы а^ обозначим Рв(aj) = вj, ] = 0, 1, 2, ... Очевидно, в0 +в + в2 + ... = 1.

Таким образом, каждый источник в однозначно определяется последовательностью положительных чисел вз, в\, в2, ... , сумма которых равна 1, верно и обратное утверждение.

Как обычно, А - совокупность всех слов, содержащих N букв алфавита А. Рассмотрим произвольную полубесконечную последовательность букв алфавита А , порождаемую источником в. Такая последовательность однозначно разбивается на слова (блоки) по N букв в каждом. Число букв в слове и, взятом в произвольном алфавите, называют длиной слова и и обозначают |и|.

Каждое из слов и, и е AN с помощью отображения р кодируется словом р(и) в выходном алфавите В, который, не уменьшая общности, можно считать двоичным, т.е. В = {0,1} . Как отмечалось выше, мы рассматриваем только дешифруемые в смысле [1] кодирования.

В [1] установлено, что дешифруемое кодирование р длинами кодовых слов |р(и)|,

и е А существует тогда и только тогда, когда выполняется неравенство:

I 2"р(и ^ 1 . (1)

иеАы

Неравенство (1) является обобщением неравенства Крафта [11] на бесконечный алфавит. Среднее число букв выходного алфавита, приходящихся на одну букву входного при кодировании р , назовём стоимостью кодирования и обозначим с(N,р,в):

■(N,9,e)= N I Pe(u)((u)|.

........ (2)

Здесь и в дальнейшем Pq(u) - вероятность порождения слова u источником в. Если источник в задается вероятностями вj, j = 0, 1, 2, ..., то его энтропия H (в) вычисляется по формуле [11]:

H (в) = - I в} log ej. (3)

j=0

По определению полагаем: log x = log2 x, 0log 0 = 0.

Разность между стоимостью кодирования c(N,р,в) и энтропией источника H (в), которые определены равенствами (2), (3), обозначим r (N ,в, u) и назовём избыточностью кодирования р для источника в при кодировании блоков длины N или просто избыточностью кодирования р. Таким образом, по определению:

r (N,в,р) = c(N,р,в) - H (в). (4)

Пусть Q - произвольное множество источников. Наша задача состоит в том, чтобы предложить кодирование, которое будет хорошим для любого источника из Q. Эффективность кодирования характеризует величина R (N, Q), называемая избыточностью универсального кодирования для множества источников Q, которая задается равенством

R (N, Q ) = inf sup r (N,в,р), (5)

Р 9eQ (5)

здесь inf берётся по всем дешифруемым кодированиям.

Кодирование, при котором r (N, 9, ф) с ростом N стремится равномерно к нулю, называют универсальным. Очевидно, что в этом случае выполняется неравенство:

R(N,в)< sup r(N,в,ф). (6)

9eQ

Если же величина r (N,в,ф) стремится к нулю неравномерно, то кодирование называют слабоуниверсальным.

В настоящей работе для множества всех геометрических источников предложено кодирование, которое является слабоуниверсальным и универсальным при 1 > в> 8 > 0 . Получена оценка избыточности предложенного кодирования для произвольного подмножества геометрических источников.

Доказано, что если Q - произвольное подмножество Q, то существует кодирование <р, такое что для произвольного ве Q выполняется неравенство:

r (N ,в<)< + СВ, (7)

n n

где !s (Q) - е-энтропия множества источников Q, которая формально определяется ниже.

В частности, при Q = Q из (7) вытекает неравенство:

r (N ,в,<)< 1. +£tf). (8)

v ' 2 N N

Если в > 8 > 0, то в (7) и (8) постоянные не зависят от в.

3. Энтропия геометрического источника. Кодирование близких источников

Геометрический источник в в определяется бесконечно убывающей геометрической прогрессией со знаменателем в, 0 < в < 1, т.е. вероятности появления букв из входного алфавита A равны Р9в (aj) = (1 ~в)в, j = 0, 1, 2, .... Таким образом, каждый из рассматриваемых нами источников однозначно определяется числом из промежутка (0,1) .

H(вр) = - I (1 .log(1 -в)в. (9)

j=0

Найдём H (вв), используя (9). Очевидные преобразования позволяют записать H (вв) в

виде

H (вв) = - I (1 -в)в log (1 -в)- I (1 -P)Pjj log в. (10)

j=0 j=0

Так как I (1 - в) в'1 = 1, то первое слагаемое в (10) равно - log (1 -в). Вычислим второе

j=0

слагаемое из (10)

^ оо

- I (1 -в)в ■ j log в = (-(1 -в). log в). I jвj ,

j=0 j=1

I j вj =Тв2 . j=1 (1 -в)2

Получаем:

- Z(1 -ß)ßjjlogß = ßß. j=0 1 -ß

С учётом вышесказанного из (10) окончательно следует, что

/ \ H (ß)

H(6ß) = T-ß' (11)

где H (ß) = -ßlogß-(1 -ß)log(1 -ß).

Расстояние p(6ß,6ß) между источниками 6ß и 6ß определим по формуле p(6ß,6ß) = |ß -ß1, все аксиомы расстояния выполняются.

Для получения основного результата настоящей работы докажем утверждение, которое позволит нам оценить избыточность кодирования для источников 6ß и 6ß^ в том случае, когда

расстояние между ß и ßA достаточно мало. Обозначим через (pß кодирование, которое каждому u, u е AN, ставит в соответствие слово (ß(u) длины

pß(u)| = -logPoß(u) , uе AN, (12)

x - наименьшее целое число, большее или равное x.

Существование дешифруемого кодирования с длинами кодовых слов, удовлетворяющих

равенствам (12), гарантирует выполнение для чисел pß(u) =- log Po(u) , u е AN неравенства Крафта [1], так как

£ 2-pß(u£ 2logP6ß(u)= 1. ueAN ueAN

Сформулируем и докажем основное утверждение настоящего параграфа.

Лемма. Пусть 6ß и 6ß - произвольные источники, ß, ß1 е (0,1). Тогда для стоимости c(N,(ß,6ß ) кодирования pß источника 6ß^ при кодировании слов длины N имеет место

асимптотическое равенство

/ л ч -ß log ß-(1 -ß) log (1 -ß) 1

c (N,Pß°ß )= Я 1 ] + N ■ (13)

В частности, при ß = ß[ равенство (13) принимает вид:

c ( n (ß°ß)=h (6ß)+N ■

Доказательство. По определению c(N,pß,6ß) имеем:

c(N,Pß,61 )=N £n%(u)--logP6ß(u)=N £n%(u)-(-logP6ß(u^•

ueA ueA

Здесь А не зависит от источника и не превосходит 1. Из равенств

^ Г -lri (u)

P6ß( u )=П Г(1 -ß)ßj 1j , £/eß( u )• rj (u ) = N-(1 -ß)ßj

(14)

j=0

и (14) получаем

ue A

:(N ,<в,вд)=-в1М-1::в1М12в)

.+£ (в)

-Д п

Лемма доказана. □

Перейдем к доказательству основных утверждений настоящий работы.

4. Метод кодирования и оценка его эффективности

Для универсального кодирования произвольного подмножества геометрических источников предложен метод кодирования, основанный на идее, описанной в [9, 10], и лемме предыдущего раздела

В нашем случае предлагаемый метод кодирования состоит в следующем.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как отмечалось выше, существует взаимно однозначное соответствие между множеством источников и множеством точек интервала (0,1) .

Обозначим через Q произвольное подмножество геометрических источников. Отсюда следует, что Q можно считать подмножеством интервала (0,1).

Пусть в в и вц - два произвольных геометрических источника из Q. Расстояние р(вр,вв^) между источниками в в и вв определяется равенством

р(вв )=|д-в.

Обозначим через !£( Q) е-энтропию множества Q. По определению величина !£( Q)

равна логарифму числа элементов минимальной е-сети для множества источников Q [12].

В нашем случае:

а) если Q - множество всех геометрических источников, то при £ — 0

!е( Q ) = log £ + o ^ log £ j;

б) если Q - конечное множество геометрических источников и ||Q|| - мощность множества Q, то при £ —> 0

!£(Q) = log|Q|| .

Элементы е-сети множества источников Q обозначим Q £). По определению Q £) для любого источника в, ве Q существует источник в\, в е Q(£, такой что выполняется неравенство р(в,в1) < £. Если источник в задается числом в, а в - числом в то |в - в| < £.

Докажем теорему, которая в качестве следствия из неё позволит получить оценки избыточности для различных множеств геометрических источников.

Теорема. Для произвольного источника в, ве Q, произвольного сколь угодно малого £, £ > 0 , при N — ж существует последовательность кодирований < , такая что для избыточности r (N,B,<n ) выполняется асимптотическое неравенство:

r (N ) < ^+£1 £2+£2М.

V > N 1 в N

Доказательство. Зафиксируем произвольное достаточно малое положительное £. Пусть Q £) - минимальная е-сеть для . Рассмотрим кодирование < , которое каждому слову

u, и е AN ставит в соответствие слово < (и) длины

К (u )| = - log

Z<?eQ(£)Pe (u)

Q (е)

(15)

Из определения О(е) для числа (и)|, ие А выполняется неравенство Крафта [1], следовательно, дешифруемый код с длинами кодовых слов, удовлетворяющих равенствам (15), существует. Пусть бд - фиксированный источник из О(е). Используя определение С-энтропии (14), из (15) несложно получить:

К (u)|<h£(Q)-logрё (u)-log

Pa (u)

i + Z

вей(е) рё0) (u) в

+1.

Так как всегда выполнено соотношение

-log

P~a (u)

i + Z

вей(е) р0 (u) в Фв0

< 0,

V в ^ во у

то предыдущее неравенство можно переписать в виде:

К (u )|< he( Q)-log Pb (u) +1.

(16)

Для произвольного источника в в е О существует источник вд е О (е), такой что расстояние между вро и в в не превосходит е. Из определения г (N, ) и неравенств (16) полу-

чаем:

-(N, в,К )<

he(Q) 1

Z PeB(u)logрв (u)-H(в) + -

N N ' ~ вРо" 7 N

ue a

(17)

Так как источник вр задается числом в, а источник во - числом во, то, используя определение стоимости кодирования и лемму, получаем:

i \ 1 ^ ^ -elog в-(1 -в) log (1 -во) 1

c (NKo, °fi) = -N Z/в(u) log Po (u )=Р ёР0 \ ё1 Р0 ' + N

ueA

(18)

В [9] доказано равенство

е2 1 (19)

-¿logво-(1 -в)log(1 -во)<-elogв-(1 -в)log(1 Св)-зТ2 ■

Р N3/2

С учётом (19) соотношение (18) примет вид:

1 Л \ н(в) е c\р)

С(NKB ,вв)<^-1 +-;-Г + ■

\ Р) 1 -в 2в(1 -в) N3/2

(в)

(2о)

Согласно (11) первое слагаемое в правой части неравенства (20) равно Н ( в). Отсюда из (17) получаем:

, ( n ,вк )< ^++С2(в)

N

в(1 -в) N

3/2

Теорема доказана.

1

5. Оценки избыточности универсального кодирования геометрических источников

Теорема, доказанная выше, позволяет получить оценки избыточности универсального кодирования для различных классов геометрических источников. Эта же теорема позволяет построить реальные коды. Сформулированные ниже утверждения являются её следствиями.

Следствие 1. Для множества всех геометрических источников & существует последовательность слабоуниверсальных кодирований , N = 1,2,..., такая что для любого источника ве &, определяемого знаменателем в, выполняется неравенство:

1 1 С2

r

(N ,B,Vn ) — ~ 7z + q — + -

2 N 1 PN N 3/2

Доказательство. Утверждение следствия вытекает из теоремы предыдущего параграфа.

1 2 1

В самом деле, возьмем £ = ^=, тогда £ = — и h 1 (Q ) = log N . Из теоремы получаем

4N

r^N) — + ■ <2D

Из (21) вытекает, что для любого фиксированного источника предложенное кодирование является эффективным, его избыточность стремится к нулю, и имеем скорость убывания

2 • loNN . Следует отметить, как видно из (21), это стремление к нулю не является равномерным. Следствие доказано. □ Следующее следствие позволит нам описать множество геометрических источников, для которых существует универсальное кодирование. Обозначим через Q $ подмножество геометрических источников в, для которых знаменатель прогрессии fi>8. Для множества этих источников справедливо:

Следствие 2. Для избыточности R (N, Q$) универсального кодирования множества геометрических источников Q$ выполняется неравенство

R (N, Q$) — + С.

V $ 2 NN с - не зависит от кодируемого источника.

Доказательство. Возьмем произвольный источник в, ве Q$. Поэтому знаменатель прогрессии в, определяющий источник, не меньше $. Из утверждения следствия 1 получаем, что для любого ве Q$ выполнено неравенство:

1 log N 1 с2

r

(N ,B,Vn ) —+ Ъ— + -

2 N 1 вN N 3/2

Отсюда и определяется избыточность универсального кодирования Я (N, &). Из (5) и (6) имеем

Я (N,&,)< + С,

У д' 2 NN

с не зависит от источника.

Следствие доказано. □

Следствие 3. Для любого множества источников &, & с & существует слабоуниверсальное кодирование, для которого избыточность г (N ,в<р) удовлетворяет неравенству

-(N ,в,р)< + - С

N в N

Доказательство. Доказательство следует из теоремы при £ = !— . Чем ближе в к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^JN

нулю, тем большую значимость приобретает второе слагаемое. Однако при фиксированном источнике в и N — ж для каждого источника в асимптотически главную роль играет первое слагаемое, т.е. при N — ж всегда выполняется равенство

11ш -1.Д^ = цт Л. = 0.

N —>ж вN 2 N N—ж вN Следствие доказано. □

Следствие 4. Для избыточности R (N, О $) универсального кодирования множества источников 02 $, 02 ^с 0$ выполняется неравенство

R ( N, 0$)< ЬШМ + Л.

v $ N N Доказательство. Справедливость утверждения непосредственно вытекает из определения R (N, О $) и утверждения теоремы при £ = —^.

^/N

Следствие доказано. □

6. Заключение

В данной работе было рассмотрено множество геометрических источников с бесконечным алфавитом. Доказано, что для произвольного множества этих источников существует слабо универсальное кодирование. Для множества источников со знаменателем не меньше чем $, $ > 0 доказано существование универсального кодирования. Получены оценки убывания

избыточности в зависимости от е-энтропии множества геометрических источников.

Литература

1. Левенштейн В. И. Об избыточности и замедлении разделимого кодирования натуральных чисел // Проблемы кибернетики. 1968. В. 20. С. 173-179.

2. Gyorfi L., Pali I.; van der Meulen E. C. There is no Universal Source Code for an Infinite Source Alphabet // IEEE Transactions on Information Theory. 1994. V. 40, № 1. P. 267-271.

3. Devison L. D. Universal Noiseless coding // IEEE Transactions on Information Theory. 1973. V. 19, № 6. P. 783-795.

4. Shtarkov Yu. M., Babkin V. E. Combinatorial encoding for discrete stationary sources // Proc. 2nd Inter. Symp. on Inform. Theory, Tsahkad-zor, Armenia, USSR, 1971. P. 249-256.

5. Бабкин В. Ф. Универсальное кодирование дискретных независимых источников со счетным алфавитом // Вопросы кибернетики. 1977. В. 34. С. 3-10.

6. Кудряшов В. Д., Поров А. В. Универсальное кодирование источников без памяти со счетным алфавитом // Проблемы передачи информации. 2014. Т. 50, № 4. С. 100-108.

7. Штарков Ю. М, Рыбьева Н. Е. Адапривное кодирование для пуасоновских источников // Кодирование в сложных системах. 1974. С. 169-175.

8. Трофимов В. К. Кодирование потоков Пуассона при неизвестных и неточно известных параметрах // Проблемы передачи информации. 1987. Т. 23, № 4. С. 49-57.

9. Трофимов В. К. Универсальное кодирование произвольного множества источников без памяти // Вестник СибГУТИ. 2018. № 4. С. 30-34.

10. Трофимов В. К. Оценка избыточности универсального кодирования произвольного множества источников без памяти // Вестник СибГУТИ. 2019. № 4. С. 56-61.

11. Файнстейн А. Основы теории информации. М., 1960. 138 с.

12. Витушкин А. Г. Оценка сложности задачи табулирования М.: Гос. изд. физ.-мат. лит., 1959. 228 с.

Статья поступила в редакцию 17.02.2021; переработанный вариант - 01.06.2021.

Трофимов Виктор Куприянович

д.т.н., профессор, декан факультета информатики и вычислительной техники, заведующий кафедрой высшей математики СибГУТИ (63оЮ2, Новосибирск, ул. Кирова, 86), тел. (383) 269-82-7о; e-mail: trofimov@sibguti.ru.

Область научных исследований - теория информации, кодирование информации, порождаемой дискретным источником, оценка сложности кодирования.

Encoding geometric sources with unknown statistics V. K. Trofimov

Universal encoding method of an arbitrary set of sources without memory generating letters of an infinite alphabet is proposed. The probabilities of the input alphabet letter appearance are a geometric progression. The proposed method is weakly universal for the set of all geometric sources. If the denominator of the geometric progression exceeds S, S > 0, the proposed encoding is universal. Redundancy estimates are obtained for an arbitrary subset of geometric sources.

Keywords: encoding, redundancy, entropy, message source.

i Надоели баннеры? Вы всегда можете отключить рекламу.