Научная статья на тему 'Кодирование сообщений, порождённых произвольным марковским источником, при неизвестной статистике сообщений'

Кодирование сообщений, порождённых произвольным марковским источником, при неизвестной статистике сообщений Текст научной статьи по специальности «Математика»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник СибГУТИ
ВАК
Область наук
Ключевые слова
источник сообщений / универсальное кодирование / марковский источник / энтропия / стоимость кодирования / избыточность кодирования / coding / redundancy / Markov sources / entropy / storage and processing of information / the source of messages

Аннотация научной статьи по математике, автор научной работы — Трофимов Виктор Куприянович

Доказано существование универсального кодирования произвольного множества марковских источников, а также произведена оценка его эффективности в зависимости от ε-энтропии множества источников.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Encoding of Messages Generated by an Arbitrary Markov Source with Unknown Message Statistics

The method of universal coding of an arbitrary set of Markov sources with finite memory is proposed. An estimation of the universal coding is obtained depending on the -entropy of the set of sources describing the massive of this set.

Текст научной работы на тему «Кодирование сообщений, порождённых произвольным марковским источником, при неизвестной статистике сообщений»

DOI: 10.55648/1998-6920-2023-17-4-109-115

УДК 519.723

Кодирование сообщений, порождённых произвольным марковским источником,

при неизвестной статистике сообщений

В. К. Трофимов

Сибирский гос. унив. телекоммуникаций и информатики (СибГУТИ)

Аннотация: Доказано существование универсального кодирования произвольного множества марковских источников, а также произведена оценка его эффективности в зависимости от е-энтропии множества источников.

Ключевые слова: источник сообщений, универсальное кодирование, марковский источник, энтропия, стоимость кодирования, избыточность кодирования.

Для цитирования: Трофимов В. К. Кодирование сообщений, порождённых произвольным марковским источником, при неизвестной статистике сообщений // Вестник СибГУТИ. 2023. Т. 17, № 4. С. 109-115. https://doi.org/10.5564 8/1998-6920-2023-17-4109-115.

1. Введение

Данная работа посвящена обобщению результатов автора [1] на произвольное множество марковских источников с конечной памятью и конечным алфавитом. В этой работе доказано существование универсального кодирования произвольного множества марковских источников в зависимости от его структуры. Дана оценка избыточности этого кодирования в зависимости от е-энтропии множества источников. В качестве следствия получаются оценки для множества всех источников без памяти, полученных Р. Е. Кричевским [2], и для множества всех марковских источников, изученных Ю. М. Штарьковым [3] и автором [4].

2. Основные определения

Пусть буквы конечного алфавита А = {$1, ..., а%}, 2 < к , называемого в дальнейшем входным, порождаются марковским источником с памятью 0 < ^ < ^ . В этом случае источник в однозначно определяется переходными вероятностями:

Р (Щаа) = вт , где аае А' * = 1 к •

®

Контент доступен под лицензией Creative Commons Attribution 4.0 License

© Трофимов В. К., 2023

Статья поступила в редакцию 20.05.2023; принята к публикации 25.07.2023.

* Работа выполнена в рамках государственного задания № 071-03-2023-001 от 19.01.2023.

При a = (¿1,is), aa = аца{2 ...ais , aa е As, i = 1,s . Очевидно, всегда выполняется равенство p (aa1) + p (aa2) + ...+ p (aak) = 1, при любом аае As . Таким образом, каждый марковский источник с памятью s однозначно определяется набором (вектором) переходных вероятностей. Размерность этого вектора равна ks (k -1). Верно и обратное утверждение. Отсюда видно, что множество марковских источников с памятью s является единичным кубом размерности ks (k -1).

Множество всех слов An, взятых в алфавите A, назовем кодовым. Тогда произвольная полубесконечная последовательность букв входного алфавита, порождаемая источником, однозначно разбивается на последовательность слов u е An . Число букв, входящих в произвольное слово u, будем обозначать |u и называть его длиной.

Произвольная полубесконечная последовательность букв входного алфавита, порождаемая источником в, однозначно разбивается на последовательность слов длины n. Каждому

слову u е An с помощью отображения ф поставим в соответствие слово ((u) в выходном алфавите B . Не умаляя общности, можно считать B - двоичным, т.е. B = {0, 1} .

В работе рассматриваются только дешифруемые кодирования, т.е. множество слов в выходном алфавите ((An) ={((u)|, uе An} являются префиксными или, что то же самое, что

для совокупности чисел {((u)|, uе An~} выполняется неравенство Крафта [5]. В этом случае

существуют различные алгоритмы построения дешифруемых кодов. Мы не ставим задачи построить код, наша задача - оценить эффективность этих кодов.

Стоимостью кодирования ( при кодировании блоков длины n источником в назовем величину C (n, в, ((, которая определяется как среднее число букв выходного алфавита, приходящихся на одну входную [6], т.е.

C(n, в, () = - £ Рв(u)((u)|, (1)

n |u|=n

где Рв(u) - вероятность порождения слова u источником в. Энтропию источника в обозначим H (в). В нашем случае:

k

H (в) = - £ ^ai, (2)

aasAS i=1

где в'oa - начальные стационарные вероятности для блоков aa, вai - вероятность получения буквы ai после блока aa, aa е As , i = 1, k . Здесь и далее: log x = log 2 x. Как показано в [6]:

H (в)= lim - - £ Рв(u) log Рв (u).

n n|u|=n

Избыточность кодирования r (n, в, () определяется разностью между стоимостью кодирования C (n, в, (( и энтропией источника H (в), определенных равенствами (1) и (2) соответственно. Таким образом, по определению

r (п, в, () = C (п, в, ()- H (в). (3)

Избыточностью универсального кодирования для множества источников Q, при

кодировании слов длины n назовём, как обычно [7], величину

R (n, Q) = infy supg^Qrr (n, в, ф), (4)

где Qs - множество всех марковских источников с памятью s. История поведения R (n, g, ф) подробно рассмотрена в [8].

В настоящей работе получена оценка сверху для R (n, Q). Доказано, что

R(n, Q)< ^(Q) +-. (5)

n n

Здесь и в дальнейшем h£(Q) - е-энтропия Q, определяемая обычным образом [9], если

принять во внимание, что источник в определяется точкой в ks (к -1) единичном кубе. Расстояние между точками - обычное евклидово. Для конечного множества источников Q при £ ^ 0 , очевидно, H£ (Q) = log Q , где Q - число элементов в Q.

3. Оценка избыточности универсального кодирования

Пусть Q - произвольное подмножество источников из Q s, и пусть для источников из Q выполняются неравенства 0ai >v> 0, ae As i = 1, к . Пусть £, £> 0, сколько угодно малое. Построим е-сеть для Q. Элементы минимальной е-сети обозначим Q(£ ). Тогда для каждого источника в из Q найдется по крайней мере один источник из Q(£), такой что

Gai - eai = дai, | Aai| < £, аае A ,i =1 к• (6)

Докажем справедливость следующего утверждения.

Лемма. Для произвольного множества источников Q и произвольного £, £<minва,

в G Q, существует е-сеть Q(e), такая что для любого источника в, в G Q, найдется источник в , в GQ(e), для которого справедливы неравенства:

к 2 0 £ - I в0аХа (logerai - log a ) < £ (7)

aaeAs i=1

где À не зависит от в.

Доказательство. Для доказательства (7) достаточно установить справедливость соотношений

к ~ к ъ

о < - log a + log eai < £, aa е As. (8)

i=1 i=1

Из равенств: é?a1 + ^a2 + — + eaк = 1, aa е As и теоремы К. Шеннона для канала без шума [6] следует нижняя оценка в (8). Докажем справедливость верхней оценки. Как было отмечено выше, для любого источника из Q найдется источник в из Q£), для которого выполнены

условия (6). Соотношение (8) можно переписать в виде:

к к к д

-logà + la logeai =- w

i=1 i=1 i=1 t>ai

Воспользовавшись разложением в ряд функции log (1 + x) из последнего неравенства, получаем:

к к

I&ai logа + Yßa x°geat < i=1 i=1

к 1 к д ,2

ZAai + ± I a i=1 2 i=1 a

log e. (9)

Просуммировав общие части (7) по i = 1, к и учитывая, что при любом а выполняются

к к

равенства £6ai = £6ai = 1, окончательно получаем, что при любом а выполняется равен-

i=1 i=1

k

ство £Aai = 0. Отсюда и из (9) вытекает справедливость верхней оценки в (8). Таким образом,

i=1

утверждение леммы полностью доказано. □

Перейдем к оценке универсального кодирования произвольного множества марковских источников.

Теорема. Для произвольного множества марковских источников Q, у которых S < min 6а, 6е Q, е < S, для R (n, Q, (S)) избыточности универсального кодирования множества источников Q выполняется неравенство:

r(n,a{S)) < 10gQi£l + с1е2 +

n n

Здесь Q и C2 не зависят от s, е - сколь угодно малое.

Доказательство. Возьмем произвольное е, е > 0 , удовлетворяющее условию леммы, и построим минимальную е-сеть Q(e). Элементы из множества Q(e) занумеруем произвольным образом: 61, 62,..., 6Q(e). Рассмотрим кодирование (е , которое каждому слову u, uе An ставит в соответствие слово (ре (u) длины

Q(e)

(е(и )| = - log([ £ Pß (u)]/Q(e)). (10)

i=1

Существование дешифруемого кодирования (е с длинами кодовых слов, удовлетворяющих равенствам (10), вытекает из выполнения неравенства Крафта [5] для чисел (е (u)|,

u е An . Оценим эффективность кодирования (е . Из определения r (n, 6, (е) избыточности кодирования (е при заданном источнике 6 и из (10) имеем:

r (n, 6, (£) = 1/(n - s +1) £ P6(u) (е (u )|-H (6) <

u=n

r

<-1/(n-s +1) I Pe(u)log

u=n

V

(u)

/ n(£) I-H (e) +1/(n-s + 1) .

Предположим, что источник в находится в е-окрестности источника в^, в.0 е = (s), тогда предыдущее неравенство можно переписать в виде:

r (n, в, ()< log = (е) / (n - s +1) - H (в)-1/(n - s +1) £ Pe( u) log Pe. (u) +1/(n - s +1) -

l0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

u=n (11)

-1/ (n - s +1) £ Pe( u) log f 1 +£==gPQi (u) / Pe (u)].

u=n ^ '

Так как £==1^1 Pe. (u) / Pg. (u)> 0, то имеем неравенство Поэтому из (11) и определения H (в) получаем:

log I1 + IiX1^Pi (u)/ p.i0 (u)l < 0.

log Q( с) 1 к

r (n, в, +—— - jpoa I eai(log вЦ - log eai).

n - s +1 n - s +1 a i=1

Воспользовавшись леммой из (11), имеем:

ч log Q(e) 2 1 r(n, в, v£)< / ; + Ce2 + ■

п - $ +1 п - $ + 1

Отсюда и из определения Я (п, О) вытекает справедливость утверждения теоремы. □ Из доказанной теоремы вытекает:

Следствие 1. Для избыточности г(п, в) универсального кодирования марковских источников справедливо неравенство:

г (п, в, ы< +Св.

пп

Доказательство. Для фиксированного марковского источника существует 8 , такое что в а > 8> 0, а е А$ , г =1, к. Отсюда и из теоремы вытекает справедливость следствия при £ = 1/>/й . □ Следствие 2. Для избыточности Я(п, 5(8)) универсального кодирования произвольного множества марковских источников 5(8), удовлетворяющих условию в а > 8 > 0, аа е А'$, г = 1, к, выполняется неравенство, где X не зависит от источника:

Я(п, 5(8)) < ^ (5(8))+А.

п п

Доказательство. Справедливость утверждения вытекает из теоремы и следствия 1 при £ = 1/л/Й . □

4. Заключение

В настоящей работе было доказано существование универсального кодирования, зависящего от массивности множества марковских источников с конечной памятью. Получены оценки избыточности кодирования в зависимости от мощности множества. В частности, если

источников конечное число, то избыточность убывает со скоростью —, если же кодируется

n

всё множество источников, то избыточность убывает со скоростью (ks (к — 1)log n) / n, а при s = 0 получаем известный результат Кричевского.

Литература

1. Трофимов В. К. универсальное кодирование произвольного множества источников без памяти // Вестник СибГУТИ. 2018. № 4. С. 30-34.

2. Кричевский Р. Е. Длина блока, необходимая для получения заданной избыточности // Доклады АН СССР. 1965. Т. 171, № 1. С. 37-40.

3. Штарьков Ю. М. Кодирование сообщений конечной длины на выходе источника с неизвестной статистикой // Труды V конференции по теории кодирования и передачи информации, 1972. Кн. 1. С. 147-152.

4. Трофимов В. К. Избыточность универсального кодирования произвольных марковских источников // Проблемы передачи информации. 1974. Т. Х, № 4. С. 16-24.

5. Галлагер Р. Г. Теория информации и надежная связь. М.: Советское радио, 1974. 719 с.

6. Шеннон К. Математическая теория связи. Работы по теории информации и кибернетике. 1963. С. 243-332.

7. Кричевский Р. Е. Связь между избыточностью кодирования и достоверностью сведений об источнике // Проблемы передачи информации. 1968. Т. 4, № 3. С. 48-57.

8. Krichevsky R. E., Trofimov V. K. The performance of universal encoding // IEEE Transactions on Information Theory. 1981. V. 27, № 2. P. 199-207.

9. Витрушкин А. Г. оценка сложности задачи табулирования. М.: Гос. изд. физ.-мат. лит. С. 195-228.

Трофимов Виктор Куприянович

доктор технических наук, профессор, профессор кафедры высшей математики СибГУТИ (630102, Новосибирск, ул.Кирова 86), e-mail: trofimov@sibguti . ru.

Автор прочитал и одобрил окончательный вариант рукописи. Автор заявляет об отсутствии конфликта интересов.

Encoding of Messages Generated by an Arbitrary Markov Source with Unknown Message Statistics

Viktor K. Trofimov

Siberian State University of Telecommunications and Information Science (SibSUTIS)

Abstract: The method of universal coding of an arbitrary set of Markov sources with finite memory is proposed. An estimation of the universal coding is obtained depending on the £-en-tropy of the set of sources describing the massive of this set.

Keywords: coding, redundancy, Markov sources, entropy, storage and processing of information, the source of messages.

For citation: Trofimov V. K. Encoding of messages generated by an arbitrary Markov source with unknown message statistics (in Russian). Vestnik SibGUTI, 2023, vol. 17, no. 4, pp. 109115. https://doi.org/10.5564 8/19 98-6 92 0-2 023-17-4-10 9-115.

Content is available under the license Creative Commons Attribution 4.0 License

© Trofimov V. K., 2023

The article was submitted: 20.05.2023; accepted for publication 25.07.2023.

References

1. Trofimov V. K. Universal'noe kodirovanie proizvol'nogo mnozhestva istochnikov bez pamyati [universal memoryless encoding of an arbitrary set of sources]. Vestnik SibGUTI, 2018, no.4, pp.30-34.

2. Krichevskii R. E. Dlina bloka, neobkhodimaya dlya polucheniya zadannoi izbytochnosti [Universal memoryless encoding of an arbitrary set of sources]. Doklady akademii nauk SSSR, 1965, vol.171, no. 1, pp.37-40.

3. Shtar'kov Yu. M. Kodirovanie soobshchenii konechnoi dliny na vykhode istochnika s neizvestnoi statis-tikoi [Encoding messages of finite length at the output of a source with unknown statistics]. V konferentsiya po teorii kodirovaniya iperedachi informatsii, 1972, Moscow, book 1, pp. 147-152.

4. Trofimov V. K. Izbytochnost' universal'nogo kodirovaniya proizvol'nykh markovskikh istochnikov [Redundancy of universal coding of arbitrary Markov sources]. Problemy peredachi informatsii, 1974, vol. X, no. 4, pp.16-24.

5. Gallager R. G. Teoriya informatsii i nadezhnaya svyaz' [Information Theory and Reliable Communication]. Moscow, Sovetskoe radio, 1974. p.719.

6. Shennon K. Matematicheskaya teoriya svyazi [Mathematical communication theory]. Raboty po teorii informatsii i kibernetike, 1963, Moscow, pp.243-332.

7. Krichevskii R. E. Svyaz' mezhdu izbytochnost'yu kodirovaniya i dostovernost'yu svedenii ob istochnike [The Relationship Between Coding Redundancy and Source Credibility]. Problemy peredachi informatsii, 1968, vol. 4, no. 3, pp.48-57.

8. Krichevsky R. E., Trofimov V. K. The performance of universal encoding. IEEE Transactions On Information Theory, 1981, v. 27, no. 2, pp.199-207.

9. Vitrushkin A. G. Otsenka slozhnosti zadachi tabulirovaniya [Otsenka slozhnosti zadachi tabulirovaniya]. Moscow, Fizmatlit, pp.195-228.

Trofimov Viktor Kupriyanovich

Dr. of Sci. (Engineering), Professor, Professor of the Department of Higher Mathematics, Siberian State University of Telecommunications and Information Science (SibSUTIS, Russia, 630102, Novosibirsk, Kirov St. 86), e-mail: trofimov@sibguti . ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.