Научная статья на тему 'КОДИРОВАНИЕ НЕИЗВЕСТНОГО СТАЦИОНАРНОГО ИСТОЧНИКА СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ'

КОДИРОВАНИЕ НЕИЗВЕСТНОГО СТАЦИОНАРНОГО ИСТОЧНИКА СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ Текст научной статьи по специальности «Математика»

CC BY
12
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Ползуновский вестник
ВАК
RSCI
Область наук
Ключевые слова
КОДИРОВАНИЕ / ИЗБЫТОЧНОСТЬ КОДИРОВАНИЯ / ЭНТРОПИЯ

Аннотация научной статьи по математике, автор научной работы — Трофимов В.К., Храмова Т.В.

Предложен метод слабо универсального кодирования множества стационарных источников при условии, что символы кодового алфавита имеют неравные длительности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «КОДИРОВАНИЕ НЕИЗВЕСТНОГО СТАЦИОНАРНОГО ИСТОЧНИКА СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ»

IEEE Trans. Inf. Th. - 1981, v. 27, № 2. - P.199-207.

4. 4. Кнут Д. Искусство программирования для ЭВМ, сортировка и поиск [Текст] / Д. Кнут. - М.: Мир. - 1978.

Научный сотрудник, к.ф.-м.н. Бакулина М.П. тел. 8-961-215-79-36, marina@rav.sscc.ru - Институт Вычислительной Математики и Математической Геофизики СО РАН .

УДК 621.391

КОДИРОВАНИЕ НЕИЗВЕСТНОГО СТАЦИОНАРНОГО ИСТОЧНИКА СИМВОЛАМИ НЕРАВНОЙ ДЛИТЕЛЬНОСТИ

В.К. Трофимов, Т.В. Храмова

Предложен метод слабо универсального кодирования множества стационарных источников при условии, что символы кодового алфавита имеют неравные длительности.

Ключевые слова: кодирование, избыточность кодирования, энтропия

Изучение методов кодирования информации, с целью уменьшения занимаемого ею объема является актуальной задачей информатики. Данная работа посвящена изучению оптимальных методов сжатия информации, порожденной неизвестным дискретным стационарным источником.

Рассмотрим источник сообщений 0 , генерирующий последовательность из букв некоторого конечного алфавита

X = х2,...,хк} .

Последовательность должна быть закодирована и передана по каналу связи. Для решения нашей задачи оптимального кодирования, разобьем исходящую последовательность букв источника на блоки (слова) фиксированной длины N . Процедура кодирования источника заключается в том, что каждому блоку w е X1 ставится в соответствие некоторое кодовое слово р(^) е У * из букв кодового алфавита

У = {У1, У 2 ,..., Ут}

(здесь У * обозначает множество всевозможных последовательностей из элементов множества У). Кодирование, при котором блокам источника ставится в соответствие кодовое слов нефиксированной длины называется равномерным по входу. Разные буквы кодового алфавита имеют разную длительность или, другими словами, стоимость передачи:

I. = t(у ) , ] = 1,т . Таким образом, каждому

кодовому алфавиту можно поставить в соответствие вектор длительностей букв

t=(ч,ь,-,^), (t] = ^), 7=1т).

В частности, длительности кодовых символов могут быть одинаковы, в этом случае соответствующий алфавиту вектор обозначим 7[ = (1Д...Д).

4-V-'

т

Самым популярным примером кода с неравными длительностями является код Морзе, актуальность которого не теряется и в наше время — на основе кода Морзе созданы широко используемые штрих-коды.

Длительностью кодового слова будем считать величину, равную сумме длительностей входящих в слово букв:

/Ш0= X <У).

Стоимость кодирования определяется как отношение средней длительности кодового слова к средней длительности слова источника, и, в рассматриваемом случае, принимает вид:

1(1,0,р,г) =1 XР0№(<р№'). (1)

1 wеXN

Эффективность метода кодирования р : X1 ^ У определяется избыточностью

Я (1,0, р, г ) = Ь (1,0, р, г) - Н (&)/ С (I), (2)

где Н(0) — энтропия источника, определяемая законом распределения вероятностей появления букв алфавита X на выходе источника 0 , С(I) — пропускная способность канала передачи информации, зависящая только от кодового алфавита У .

Изучению эффективных методов кодирования посвящено множество работ. В случае известного источника, при равных

РАЗДЕЛ 1. МОДЕЛИРОВАНИЕ, РАСЧЕТ И ОБРАБОТКА ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ длительностях букв кодового алфавита, оптимальным является метод кодирования Хаффмена [1], а эффективный метод кодирования при неравнозначных длительностях кодовых символов предложен в работах Г. Катоны [2].

В данной работе мы решаем задачу кодирования в предположении, что статистика источника неизвестна, т.е. речь идет об универсальном кодировании. В работе Р.Е. Кричевского [3] дана постановка задачи универсального кодирования, как кодирования, на котором достигается наименьшее значение избыточности для наихудшего источника. Избыточность универсального кодирования я(м,,1)

множества источников О определяется равенством

лами различных длительностей, что является обобщением результатов, полученных в работе Ю.М. Штарькова и В.Ф.Бабкина [7]. В настоящей работе доказано, что избыточность предлагаемого метода кодирования может быть сколь угодно мала.

Энтропия Н (©о,) стационарного источника вычисляется по формуле [12]

H (0j = lim H(0, ) ,

(4)

R(N, Q, p0, t) = inf sup R(N, 0, p, t). (3)

p 0eQ

Асимптотическая оценка избыточности универсального кодирования R(N, Q0 ,p0, ^ ) для множества бернуллиевских источников Q0 при равных длительностях кодовых символов была получена Р.Е. Кричевским [4], а для множества марковских источников порядка s Q , оценка избыточности

R(N, Q ,p0, tY) получена В.К. Трофимовым

и Ю.М. Штарьковым [5,6]. Универсальное кодирование множества стационарных источников Q^ при равных длительностях символов

кодового алфавита изучалось в работе Ю.М. Штарькова и В.Ф. Бабкина [7]. В работах авторов данной статьи [8—10] получены асимптотические оценки избыточности универсального равномерного по входу кодирования множества бернуллиевских источников Q0 и марковских источников Q .

Рассмотрим множество всех стационарных источников Q^. Если с ростом длины

кодируемого блока избыточность универсального кодирования (3), сходится к 0 равномерно по 0eQ , то кодирование называется сильно универсальным на множестве Q, а если сходимость не равномерная, то кодирование называется слабо универсальным на множестве Q.

В данной работе доказано существование равномерного по входу слабо универсального кодирования стационарного источника для случая кодового алфавита с симво-

где Н (©) — энтропия марковского источника порядка 5 (источника, для которого вероятность появления любой буквы в сообщении является условной и зависит от 5 предыдущих).

Для избыточности марковских источников в работе [11] был получен следующий асимптотический результат:

(к -1)к5 1о§(# - 5 )

(5)

R(N, Qs, t ) = ■ v ' ' 2C(t ) N

(здесь и далее log л = log2 л ).

Для стоимости предложенного в работе

[11] метода кодирования имеет место

верхняя оценка:

L ( N, ер, Г u H®+kKHzH logi^zf)+

V » >го> } с (г) 2 C ( T ) N ks (k -1) T*(k,s) + loge(1+a(N,k,s)) Г (6)

+ 2 с ( t ) N +N '

**

где t — максимальная длительность кодового символа, и величины T (k, s) и a( N, k, s) не зависят от длины кодируемого блока и определяются равенствами

T*(k, s) = 2 log k/ks (k -1) + Vks + l/(k -1) -

-(l -1/ ks) log (же) - ( log ( k - l))/ks, (7)

a(N, k, s) = (k -1)/2 (N - s ) (8)

Упомянутые результаты позволяют сформулировать и доказать следующую теорему.

Теорема. Для множества всех стационарных источников Qœ существует

слабо универсальное кодирование в алфавит с неравнозначными символами.

Доказательство. Докажем, что для произвольного источника 0eQœ имеет место неравенство

lim R (N, 0, T)= lim inf R (N, 0œ ,р, T) = 0. (9)

N^œ ' N^œ р

62

ПОЛЗУНОВСКИИ ВЕСТНИК № 2, 2014

Каждый стационарный источник можно рассматривать как предел

последовательности марковских источников

0 , которые задаются условными

Д-Ч+1 --V-Л. )■

вероятностями р&(хг

Для каждого фиксированного s

существует универсальное кодирование [11]

для которого имеет место оценка (6). Преобразуем правую часть (6):

lip, SM t + HiS)+

v ' C(t) C(t)

ks (к -1) log - N - s ) + 2 C(t)N +

ks (к -1) T\к, s) + loge(l+a(N,к, s)) t** 2 ' C(t)N N'

Согласно (4), lim(h(&s) -Н(©да)) = 0, следовательно, с ростом N , поведение правой части (6) определяется слагаемым

(ks (к -1) log N2N, которое стремится к нулю при выборе

s = O (log log N/log к) ■ Действительно, пусть s = (c loglog N)/log к, c = const. Тогда

c log log N

Ит Г (к -1)log NMim к (к - 1)log N _

N^x

2N

= lim

N^x

к -1 logc+1 N

N^x 2

N

2N

= 0.

Заключение

Полученный в данной работе результат утверждает существование слабо универсального кодирования при кодировании произвольного стационарного источника неравнозначными символами, т.е. сходимость избыточности предлагаемого метода кодирования не является равномерной.

СПИСОК ЛИТЕРАТУРЫ

1. Хаффман, Д.А. Метод построения кодов с минимальной избыточностью [Текст] / Д.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хаффман. - Кибернетический сборник. - 1961, Вып.3. - С.79 - 87.

2. Katona, G. General theory of noiseless channels. // G. Katona. - UDINE, Courses and lectures -1970, №.31. - P.69.

3. Кричевский, Р.Е., Длина блока, необходимая для получения заданной избыточности [Текст] / Р.Е. Кричевский. - Доклад АНСССР. - 1966, Т171, №1.11. - С.37-40.

4. Кричевский, Р.Е. Связь между избыточностью кодирования и достоверностью сведений об источнике [Текст] / Р.Е. Кричевский. -Проблемы передачи информации. - 1968, Т.4, № 3. - С.48-57.

5. Трофимов, В. К. Избыточность универсального кодирования произвольных марковских источников [Текст] / В.К. Трофимов. - Проблемы передачи информации. - 1974, Т. 10, № 4. - С.16-24.

6. Штарьков, Ю. М. Кодирование сообщений конечной длины на выходе источника с неизвестной статистикой [Текст] / Ю.М. Штарьков. - Материалы V конф. по теории кодирования и передачи информации, Москва-Горький. — 1972, Ч. 1. - С. 147-152.

7. Штарьков, Ю.М. Кодирование длин серий в условиях априорной неизвестности [Текст] / Ю.М. Штарьков, В.Ф. Бабкин. - Тематический выпуск «Аппаратура для космических исследований» ИКИ АН СССР. -1973. - С. 3-9.

8. Трофимов, В.К. Сжатие неравнозначными символами информации, порожденной неизвестным источником без памяти [Текст] /

B.К. Трофимов, Т.В. Храмова. - Автометрия. -2012, Т.48, №1. - С.30- 44.

9. Трофимов, В.К. Сжатие информации порожденной неизвестным источником [Текст] / В.К. Трофимов, Т.В. Храмова. -Электросвязь. - 2012, №4. - С.41-44.

10. Trofimov, V. K. Compression of information generated by an unknown memoryless source by nonequivalent symbols / V. K. Trofimov, T. V. Khramova. - Optoelectronics, Instrumentation and Data Processing. New York. - February 2012, V.48, Is. 1. - P. 24-36.

11. Трофимов, В.К. Универсальное кодирование марковских источников неравнозначными символами [Текст] / В.К. Трофимов, Т.В. Храмова. - Дискретный анализ и исследование операций. - Май—июнь 2013, Т. 20, № 3. —

C. 71 -83.

12. Фано, Р. Передача информации. Статистическая теория связи [Текст] / Р. Фано. - М.: Мир, 1965..

д.т.н., профессор каф. ВМ СибГУТИ Трофимов В.К- trofimov@sibsutis.ru .к.т.н., доцент

каф. ВМ СибГУТИ Храмова Т.В. tvkhramova@gmail. com.

i Надоели баннеры? Вы всегда можете отключить рекламу.