Элементы теории недоопределенной информации

Шоломов Лев Абрамович

ПРИЛОЖЕНИЕ Ноябрь 2009

УДК 519.728

ЭЛЕМЕНТЫ ТЕОРИИ НЕДООПРЕДЕЛЕННОЙ ИНФОРМАЦИИ1

Л. А. Шоломов Институт системного анализа РАН, г. Москва, Россия E-mail: sholomov@isa.ru

Изложены результаты, относящиеся к информационным свойствам недоопределен-ных данных. Введены и изучены их информационные характеристики, для них получено обобщение ряда результатов классической теории информации, рассмотрены некоторые свойства, специфичные только для недоопределенных данных.

Ключевые слова: недоопределенный источник, доопределение, энтропия, W-энтропия, принцип Шеннона, теорема кодирования, эффект Нечипорука, правило сложения энтропий.

Введение

Методы эффективного использования недоопределенной информации важны для многих разделов информатики. С недоопределенными данными имеют дело в задачах распознавания, управления, принятия решений, логического синтеза схем, сжатия и передачи данных, криптографии, генетики. Разнообразные применения указывают на целесообразность изучения недоопределенных данных в качестве самостоятельного объекта подобно тому, как это делается в теории информации для полностью определенных данных. Это предполагает создание единой системы понятий, введение и исследование информационных характеристик недоопределенных данных, развитие и модификацию применительно к ним принципов, методов и результатов классической теории информации, выявление закономерностей, характерных только для недоопределенных данных, создание исчисления для формального преобразования выражений с участием разных информационных характеристик, изучение эквивалентных преобразований недоопределенных данных, разработку теоретически обоснованных алгоритмов обращения с ними.

Ниже приводятся результаты, полученные в этих направлениях. Как будет видно, некоторые результаты и методы теории информации переносятся на недоопределен-ные данные, некоторые модифицируются соответствующим образом, а в некоторых случаях возникают новые эффекты. Установленные факты оказались полезными при исследовании задач, связанных с синтезом схем [12], процедурами голосования [14], распознаванием текстов [15].

1. Недоопределенные данные и их энтропия

Под недоопределенными данными будем понимать последовательности недоопреде-ленных символов. Каждому из них соответствует некоторое множество символов основного алфавита, одним из которых он может быть замещен (доопределен). Дадим формальные определения.

1 Работа выполнена при поддержке Отделения нанотехнологий и информационных технологий РАН по программе фундаментальных исследований (проект «Теория и методы эффективного использования недоопределенных данных»).

Пусть М = {0,1,... ,т — 1} — некоторое множество и каждому непустому подмножеству Т С М сопоставлен символ ат. Алфавит всех символов ат обозначим через А, а его подалфавит {а0, а1,... , ат— 1}, символы которого соответствуют элементам множества М,—через А0. Символы из А0 будем называть основными, из А — недо-определенными. Доопределением символа ат £ А назовем всякий основной символ аг, г £ Т, а доопределением последовательности в алфавите А — любую последовательность в алфавите А0, полученную из исходной заменой всех ее символов некоторыми доопределениями. Символ ам, доопределимый любым основным символом, играет особую роль. Его будем называть неопределенным и обозначать *.

Пусть имеется источник X, порождающий символы ат £ А независимо с вероятностями р(ат) ^ 0, £тр(ат) = 1. Набор вероятностей (р(ат), Т С М) обозначим через Р и для источника X будем использовать обозначение (А,Р). Такой источник будем называть недоопределенным, а при выполнении условия р(ат) = 0 для ат £ А0 — полностью определенным. В случае р(ат) = 0 для ат £ А0 и {*} источник называется частично определенным. Подчеркнем, что мы различаем термины «недоопределен-ный» и «частично определенный». Иногда вместо обозначения (А, Р) источника X будем использовать (А', Р'), где алфавит А' получен из А удалением всех или некоторых символов ат с р(ат) = 0, а Р' образован из Р удалением соответствующих нулевых компонент. В этих обозначениях полностью определенный источник может быть записан как (А0, (р0,... , рт-1)), а частично определенный — как (А0 и {*}, (р0,... , рт-1, р*)), где обозначения рг и р* использованы вместо р(аг) и р(*) = р(ам).

Зададимся некоторым набором вероятностей Q = (дг, г £ М) символов аг £ А0 (дг ^ 0, д0 + ... + дт-1 = 1) и введем функцию

H(P,Q) = - Е P(aT)log Е Qi. (1)

T CM itT

Здесь и дальше логарифмы двоичные. Энтропией источника X назовем величину

H(P) = min H(P,Q). (2)

Q

Наряду с H(P) будем использовать обозначение H(X). Указанная формула энтропии была предложена М. М. Бонгардом [1, с. 92] из некоторых эвристических соображений в качестве меры неопределенности задач с несколькими ответами.

Для полностью определенного источника (A0, (p0,... , pm-1)), в силу известного соотношения

, min S-Y1 PilogQi) = — EPilogPi, (3)

(qo,...,qm-l)

ii

величина H(P) совпадает с энтропией Шеннона H(P) = — i pi logpi. Вместо источников можно говорить об энтропии случайных опытов с недоопределенными исходами.

2. Вычисление энтропии

Энтропия недоопределенного источника задана неявно, как минимум по Q функции (1). Для нахождения точек минимума полезен следующий критерий.

Теорема 1. Набор вероятностей Q минимизирует функцию H(P, Q) тогда и только тогда, когда при каждом i, i £ M, выполнено

Е ^ 1 (4)

T: ieT Qj

jtT

где строгое неравенство может иметь место лишь при тех i, для которых qi = 0.

Доказательство. Вогнутая по Q функция —H(P, Q) удовлетворяет условиям теоремы 4.4.1 из [3]. По этой теореме необходимым и достаточным условием ее максимума в точке Q является существование такого Л, что —дH(P, Q)/dqi ^ Л, i Е M, где строгие неравенства могут соответствовать лишь нулевым значениям qi. В нашем случае эти соотношения приобретают вид

log e £ ^ « Л, i Е M. (5)

T: ieT/_^ qj jeT

Поскольку равенства могут нарушаться лишь при нулевых qi, домножив на qi, получаем равенства

P(aT)qi Л • Л/Г fr\

У — = i-----qi, i Е M- (6)

áer £ qj loge

jer

Просуммировав их по i Е M с учетом t р(ат) = Еi qi = 1 и того, что

£ qi

£ £ pM* = £ Piar) = £ р(ат),

ieM T: ier qj T qj T

jeT jer

находим, что Л = log e. Подставив значение Л в (5), получаем требуемое утверждение.^

На базе этой теоремы может быть указан численный метод нахождения H(P) [9]. Введем оператор Q' = U(Q), сопоставляющий набору Q = (q0, qi,... , qm-1) набор

Q/ = (q0,qi,...,q'm-iX где

¿г = ^ , г = 0,1т — 1.

г Е ъ

1 . гы jeт

Нетрудно проверить непосредственно, что оператор и переводит наборы вероятностей в наборы вероятностей. Домножив обе части (4) на и учитывая, что строгое неравенство в (4) может иметь место лишь при = 0, получаем равенства

^ р(ат)Ъ ■ ^ П/Г ^

2^ ^ г £ M, (7) т: гет qj

jеT

означающие, что минимизирующий набор Q является неподвижной точкой оператора и. Приведем без доказательства утверждение из [9], дающее алгоритм вычисления Н(Р).

Теорема 2. Если Q(0) = (¿^,...,¿0^) — произвольный набор вероятностей с положительными компонентами и Q(v) = и ^-1)), V = 1, 2,..., то при V ^ то последо-

P(ar )qi

вательность Н(Р, Q(v)) сходится к Н(Р).

Таким образом, нахождение численного значения энтропии трудностей не вызывает. В некоторых содержательно важных случаях может быть получено явное выражение энтропии. Это относится, например, к частично определенным источникам, энтропия которых может быть найдена на основе следующего утверждения.

Теорема 3. Имеет место равенство

H(P ) = (1 - p(*))H(P'),

где P' = (p;(aT), T С M) (включение строгое) — набор, полученный из P = (p(aT), T С M) отбрасыванием компоненты р(ам) = p(*) и пересчетом вероятностей р'(ат) = = Р(ат)/(1 - Р(*))-

Доказательство. Для любого набора вероятностей Q = (q^ i G M) выполнено log EieM qi = 0, поэтому

- £ p(aT)log £ qi = -(1 - p(*)) £ £ qi'

TCM i£T TCM p( ) i£T

Взяв минимум по Q, получаем нужное утверждение. ■

Следствие 1. Энтропия частично определенного источника X = (A0U{*}, (p0, - - - , pm-i,P*)) задается выражением

H(X) = (1 - p*)Mp0 , - - -, 1pm 1 ) = (1 - Р*)log(1 - P*) - £ Pi logPi'

V 1 P* 1 P* / ...

0<i<m— 1

Это вытекает из теоремы, поскольку в рассматриваемом случае набор вероятностей P' соответствует всюду определенному источнику с вероятностями символов p(ai)

1 - p(*).

Теорема 3 обобщается на случай, когда неопределенные символы не устраняются полностью, а понижается их вероятность .

Утверждение 1. Для любого г, 0 ^ г ^ p*, справедливо равенство

H(P) = (1 - r)H(P(r)),

где P(r) = (p(r)(aT), T С M), p(r)(aT) = p(aT) для T = M, p*r) = p(*) - Г.

1 - r 1 - r

Доказательство. С учетом того, что для набора вероятностей Q = (qi, i G M) выполнено r log i M qi = 0, имеем

£ p(aT) log £ q = - (1 - г) { £ pM log £ q + p1i^ log £ q

TCM ieT TCM ieT ieM

Остается взять минимум по Q. ■

3. Связь с принципом Шеннона

Задача сжатия недоопределенных данных состоит в том, чтобы каждой недоопреде-ленной последовательности сопоставить двоичный код по возможности малой длины, позволяющий восстановить какое-либо ее доопределение (но не саму последовательность). Точная постановка задачи и результаты будут приведены в последующих разделах.

Эта задача может быть описана в терминах более общей задачи кодирования источников при заданной точности воспроизведения. Приведем соответствующие понятия [3, 18] применительно к дискретным (конечным) источникам. Пусть некоторый

источник X порождает символы Ь конечного алфавита В независимо с вероятностями р(Ь), и они должны быть представлены у адресата символами с конечного алфавита С. Условия на точность воспроизведения задаются указанием множества Ш допустимых совместных распределений (р(Ь,с), Ь Е В, с Е С). Теоретико-информационной мерой неопределенности источника X при точности воспроизведения Ш считают Ш-энтропию [2]

Она обобщает понятие е-энтропии (скорости создания сообщений в терминологии К. Шеннона [3, 18]). Согласно принципу Шеннона, Ш-энтропия характеризует степень сжимаемости сообщений источника X с точностью Ш. Это содержательный принцип, который для многих типов источников и мер точности доказан. Формулировку, обоснование и обсуждение этого принципа (применительно к задачам квантования сообщений) можно найти в [4].

Для недоопределенных данных алфавитам В и С соответствуют А и А0, а допустимое множество, которое в этом случае будем обозначать через Д, состоит из совместных распределений (р(ат, а%), Т С М, г Е М), Е%Р(ат, а%) = р(ат), удовлетворяющих условию р(ат,а%) = 0 для г Е Т. Соответствующую Д-энтропию для недоопределенных данных будем обозначать через Н(Р). Поскольку Д — компакт, вместо инфинума можно использовать минимум:

нии (p0(aT,ai)) G D. Положим qi = Tp0(aT,ai).

При заданном T, воспользовавшись для выпуклой функции f (x) = x log x неравенством Иенсена Y,i «if (xi) ^ f (Ei «iXi) при a = qi ^jeT qj , Xi = p0(aT, ai) /(p(aT)qi),

и

Следующая теорема [9] показывает, что Н(Р) и Н(Р) являются различными представлениями одной и той же функции.

Теорема 4. Имеет место равенство

H(P) = H(P).

Доказательство. Пусть значение H(P) достигается на совместном распределе-

получаем с учетом р0(ат, a) = 0, i ^ T,

р(ат)

і

j£T

Просуммировав эти неравенства по T, заключаем, что 7H(P) ^ H(P).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

j£T

Обратно, пусть величина H(P) в (2) достигается на наборе Q0 = (q°, q0,... , qj^-i). Положим p(aT, ai) = p(aT)q0 jEjeT q0 при i G T и p(aT, ai) = 0 при i G T. Учитывая равенства p(aT, ai) = q0, вытекающие из (6), получаем

H(P) ^ ^p(aT,ai)log^ p(aT^-------Г =

T,i 2^p(aT,aj) z_^p(au,ai)

j U

= ^p(aT, ai) log p(aTla0 = ^p(aT, ai) log ^"0 = H(P).

^ p(aT )qi ^ ^qj1

jeT

Теорема доказана. ■

Из нее и теоремы 5 (см. дальше) будет следовать справедливость принципа Шеннона для недоопределенных данных.

4. Комбинаторная энтропия

Будем рассматривать последовательности длины n в алфавите A. Для набора натуральных чисел l = (Zt, T С M), такого, что t It = n, обозначим через Kn(l) множество всех последовательностей, в которых символ aT, T С M, встречается 1т раз. Скажем, что некоторое множество последовательностей в алфавите А0 доопределяет класс Kn(l), если в нем найдется доопределение для каждой последовательности из Kn(l). Обозначим через Nn(l) минимальную мощность множества, доопределяющего Kn(l). Величину logNn(l) назовем комбинаторной энтропией класса Kn(l). Она указывает наименьшее число двоичных символов, достаточное для кодирования последовательностей класса Kn(l), позволяющего восстанавливать некоторое их доопределение.

Теорема 5. Существует константа c = c(m), такая, что комбинаторная энтропия класса Kn(l) заключена в пределах

nH(l/n) — clog n ^ log Nn(l) ^ nH(l/n) + clog n.

Доказательство. Верхняя оценка. Воспользуемся методом случайного кодирования. Для этого зададимся некоторым набором вероятностей Q = (q0,..., qm-1) и возьмем N ^ 1 случайных последовательностей длины n в алфавите A0, компоненты которых независимо с вероятностями qi принимают значения ai (i = 0,..., m — 1). Вероятность того, что случайная последовательность доопределяет фиксированную последовательность из Kn(l), составляет ]^[T^ZieT q^^, а вероятность того, что ни одна из N случайных последовательностей не является ее доопределением, равна It \ N

1 — П т (Ei€T qi)) . Вероятность p(N) отсутствия доопределения хотя бы у одной последовательности из Kn(l) не превосходит

, \ N / , \ N

1T \ / / \1T

iKn(i}| (i — nfeq^ 1 < 2mn (1 — nfeq

\ T \ieT/ \ T \ieT

(| • | означает мощность множества). Непосредственный подсчет с учетом соотношения ln(1 — x) ^ —x показывает, что при всяком N, удовлетворяющем условию

log N ^ log n + log ln m — E Zt log E qi = log n + logln m + nH(l/n, Q),

T ieT

выполнено р(Ж) < 1 и потому существует доопределяющее множество мощности N. Это справедливо для любого и в частности, для которого Н(1/п, ^) = Н(1/п).

Н ижняя оценка. Обозначим через ¿(1) максимальное число последовательностей из Кп(1), которое может быть доопределено одной последовательностью. Рассмотрим последовательность у, являющуюся доопределением некоторой последовательности х Е Кп(1). Пусть у имеет параметры в0, ^1,... , вт-1 (в0 +... + вт-1 = п). Обозначим через /ШТ1 число символов ат последовательности х, доопределенных в у символом аг. Числа ттг удовлетворяют условиям

ттг = вг (г Е М), ттг = 1т (Т С М), ттг = 0 для г Е Т. (9)

Т г

При фиксированных ттг последовательность у доопределяет

П вг!

в т!

^0* &т—1* г

П^т°! Hwt ,m-1! п WTi!

T T T,i

последовательностей из Kn(l), а всего она доопределяет

П

i

¿80...8т_1 (1) ^ ^ Т—г

(9) Ц ттг

Т,г

последовательностей из этого класса, где сумма берется по всем наборам неотрицательных чисел ттг, удовлетворяющих условиям (9). В силу 0 ^ ттг ^ п и того, что количества индексов г и множеств Т ограничены константами (зависящими от т), имеем

П

¿so...sm-i(l) ^ nCl maX

Si!

i

wTi,(9) Д wTi!

T,i

где c1 = ci(m) —константа. Отсюда

t(l) = max max ts0...sm-1 (w) ^

S0 Sm-l WTi,(9)

П Si! ПЁ

WTi

^ nCl max max —i--------------- ^ nCl max-^—--------------—, (10)

s°,...,sm-1 WTi,(9) Д wTi! WTi JJ_ wTi!

T,i T,i

где для целых неотрицательных WTi выполнены условия

^ wTi = lT (T С M), wTi = 0 для i </ T. (11)

Класс К„(1) содержит п! /Пт 1т! последовательностей. Отсюда и из (10) заключаем, что минимальная мощность N„(1) доопределяющего множества для класса К„(1) удовлетворяет оценке

n!

П^тг!

T,i

T \ i

i \ T

Из формулы Стирлинга следует, что для любых целых г, г1, ¿1 + ... + гк = г) выполнено

log

Z!

П

zj!

: log z — Zj log Zj + 9 log;

Zk (z ^ 2,

где —c2 ^ в ^ c2, c2 = c2(k) —константа. С учетом этого получаем

log Nn (l) ^ min (n log n —

('wTi),(11)

E (e wt^ log (E wTij E (E w«) log (E w«) + E

i \ T / \ T / T,i

+ у wTi log wTi — c log n.

Минимизируемое выражение может быть преобразовано к виду

n

EE

T

wTi

n

log(E т)—E(E Т) ‘og (E w? )

+E v 'og E v) = n E

T,i T,i J T,i

wTi

n

n log E n ) n 4^ n log y^ wui y^ wTj

n

nn

U j

+

В силу (11) выполнено wTi/n = 0, i E T, и Ei(wTi/n) = It/n, поэтому

log Nn(l) ^ nH(l/n) — clog n.

Остается воспользоваться теоремой 4, по которой 7i(l/n) = H(l/n). ■

Для указания параметров класса Kn(l) (и даже просто для задания n) требуется порядка log n единиц информации. Будем рассматривать случай, когда энтропия logNn(l) класса Kn(l) существенно больше logn; тогда logNn(l) ~ nH(l/n). Этот результат, записанный с учетом теоремы 4 в виде logNn(l) ~ n7H(l/n), означает, что для частично определенных данных справедлив принцип Шеннона.

С классом Kn(l) свяжем функционал hn(l) = nH(l/n). Оценки теоремы 5 могут быть переписаны в виде

hn(l) — clog n ^ log Nn(l) ^ hn(l) + clog n.

f12)

5. Эффект Нечипорука

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пусть Kn(l), l ^ n, — класс всех последовательностей длины n с l булевыми символами (0 и 1) и n — l неопределенными символами *, а Nn(l) — минимальная мощность множества, содержащего для каждой последовательности из Kn(l) некоторое доопределение. Э. И. Нечипорук [7] установил, что

l ^ log Nn(l) ^ l + clog n. (13)

Этот факт допускает следующую интерпретацию, которую будем использовать и в более общих ситуациях и называть эффектом Нечипорука. Если рассматривать двоичное кодирование недоопределенных последовательностей, при котором по коду восстанавливается какое-либо доопределение, то недоопределенные последовательности и последовательности меньшей длины, полученные из них удалением неопределенных символов, могут быть представлены кодами одинаковой с точностью до O(log n) длины.

Теорема 5 позволяет распространить этот эффект на произвольные недоопределен-ные последовательности. Рассмотрим класс Kn(l). Класс, полученный из Kn(l) путем удаления из его последовательностей всех символов *, обозначим Kn/ (l'), где n' = n — l*, l' — результат отбрасывания в l компоненты l*. Следующий факт обобщает (13) на случай недоопределенных данных общего вида и означает справедливость для них эффекта Нечипорука.

Теорема 6. Комбинаторная энтропия классов Kn(l) и Kn/ (l') удовлетворяет соотношениям

log N,n' (l') ^ log Nn(l) ^ log N,n'(l') + clog n, (14)

где c = c(m) — константа.

Доказательство. Применив теорему 3 при p(aT) = lT/n, p(*) = l*/n, p'T = lT/n' и домножив обе части на n, приходим к равенству nH(l/n) = n'H(l'/n'), означающему hn(l) = hn/(l'). Отсюда в силу (12)

log Nn(l) ^ hn(l) + c' log n = hn/ (l') + c' log n ^ log N,n/ (l') + clog n.

Чтобы убедиться в справедливости нижней оценки, достаточно заметить, что если взять доопределяющее множество для последовательностей класса Kn(l), содержащих символы * в l* последних позициях, и удалить в доопределениях l* последних символов, получится доопределяющее множество для Kn/ (l'). Это дает Nn/ (l') ^ Nn(l). ■

Эффект Нечипорука распространяется также на кодирование с заданным критерием верности. Пусть последовательности в конечном алфавите B = {bi, i E I} должны быть представлены последовательностями (той же длины n) в конечном алфавите C = {cj, j E J} при выполненении некоторых условий верности воспроизведения. В общем случае можно считать, что на Bn х Cn задано отношение допустимости ш и huic означает допустимость воспроизведения последовательности c E Cn вместо b E Bn. Будем полагать, что отношение ш не зависит от нумерации разрядов последовательностей: если а — некоторая перестановка разрядов 1,... , n, а ab и ас образованы из b и с соответствующей перестановкой символов, то Ьшс ^ (аЬ)ш(ас). Для заданных b и с обозначим через wij (b, с) число позиций последовательностей, в которых вместо символа bi воспроизводится cj, и положим w(b, с) = (wij(b, с), i E I, j E J). Отношение ш может быть задано множеством W допустимых наборов w = (wij, i E I, j J)

соотношением bwc w(b, с) G W. При выполнении условия w(b, c) G W последова-

тельность с будем называть W-допустимой для b, а если необходимо указать значение w = w(b, с), то w-допустимой.

Пусть задан набор натуральных чисел l = (l%, i G I), ^2% h = n, и ему соответствует класс Kn (l) всех последовательностей длины n в алфавите B, в которых символ b%, i G I, встречается l% раз. Пусть, кроме того, задано некоторое множество W допустимых наборов w = (w%j, i G I,j G J), согласованных с классом Kn(l), т. е. удовлетворяющих условиям j w%j = l%. Обозначим через Nn,w(l) минимальную мощность множества последовательностей длины n в алфавите C, в котором для каждой последовательности из Kn(l) имеется W-допустимая последовательность. Величину logNn,W(l) назовем комбинаторной W-энтропией класса Kn(l).

Для заданных l = (l%, i G I) и w = (wj, i G I, j G J), Ej w%j = l%, положим

Ml w) = ^ wij log

■ ■ н 2_^ wi' j

i,j

С классом Kn (l) и заданным множеством W допустимых наборов для этого класса свяжем функционал

hn,w(l) = min hn(l, w). (15)

■weW

Нетрудно видеть, что он может быть записан в терминах W-энтропии в виде

hn,w (l) = nHw/n(l/n), (16)

где множество допустимых распределений W/n образовано всеми w/n, w G W. Теорема 7. Комбинаторная W-энтропия класса Kn(l) удовлетворяет оценкам

hn,w(l) - c log n ^ log Nn.w(l) ^ hn,w(l) + c log n, где c = c(|11, | J|) — константа.

Доказательство. Верхняяоценка. Пусть минимум в (15) достигается на наборе w = (wij, i G I, j G J). Положим Sj = wij, s = (sj, j G J) и занумеруем после-

i

n! n!

довательности b G Kn(l) и c G Kn(s) индексами r = 1, 2,... , и q =1, 2

пу пвз •

* 3

соответственно. Образуем таблицу \\аягЦ, строки которой соответствуют последовательностям сд, столбцы — последовательностям Ьг, положив

1, если сд w-допустима для Ьг,

0, в противном случае.

В матрице из 0 и 1 с и строками и V столбцами, имеющей в единиц в каждом

столбце, можно выделить множество из не более — (1п------+1 ) + 1 строк, содержащих 1

в \ и )

в каждом столбце [8]. Применив этот результат при

п! п! *

и = =—т, V = „ , ., в =

!’ П^’ П wij!’

j i i,j

получаем оценку

п!П w%j!

Nn,w(l) ^ c'n

г,]

П^П sj

г j

Из нее преобразованиями, подобными использованным при доказательстве нижней оценки теоремы 5, приходим к неравенству

log Nn,w(l) ^ Ml, w) + clog n,

из которого с учетом того, что на w достигается (15), получаем требуемую оценку.

Нижняя оценка доказывается аналогично нижней оценке теоремы 5 с тем отличием, что вместо доопределяющих последовательностей следует рассматривать допустимые. ■

Распространим понятие «неопределенного символа» на кодирование с заданным критерием верности, связывая с этим понятием несущественность (для отношения допустимости) того, какими символами алфавита C воспроизводятся неопределенные символы. Символ bs G B назовем неопределенным (при отношении допустимости w), если для любых b, с и с, таких, что с и с отличаются лишь в разрядах, где b содержит символы bs, выполнено Ь^с ^ Ь^с. Поскольку разные неопределенные символы можно не различать, считаем, что такой символ в B единствен, и для его обозначения будем использовать *. Укороченным для набора w = (w%j, i G I, j G J) назовем набор w', образованный из w удалением всех компонент w*j = wsj . Легко видеть, что допустимость последовательностей с и наборов w полностью определяется укороченными наборами: если w'(bi, с!) = w'(b2, с2), то bi^i ^ b2^с2 и w(bi, с!) G W ^ w(b2, с2) G W.

Рассмотрим класс Kn> (l'), последовательности которого получены из последовательностей класса Kn(l) удалением символов *. Для него n' = n — l*, набор l' образован из l устранением компоненты l*. Множеством W' допустимых наборов для Kn/ (l') считаем множество всех укороченных наборов w' для w G W, где W — множество допустимых наборов для Kn(l). Следующая теорема, обобщающая (13) и (14), означает справедливость эффекта Нечипорука при кодировании с произвольным отношением допустимости, не зависящим от нумерации разрядов.

Теорема 8. Комбинаторная W-энтропия класса Kn(l) и комбинаторная W'-эн-тропия класса Kn/ (l') связаны соотношениями

log Nn',w' (l') ^ log Nn,w(l) ^ log Nn',w' (l') + c log n, (17)

где c = c(|I|, | J|) — константа.

Доказательство. В последующих выкладках считаем, что i G I, j G J, u G I \ {s}, где bs = *.

Пусть значение hn/,w/(l') достигается на наборе w', т. е. hn/,w/(l') = hn/ (l', w'), w' = (wuj). Положим mj = u wuj и образуем набор w = (w%j), дополнив набор

l*mj п

w компонентами w* j =-------. Для него

гП/

n'

l*m' m' n

n'

^^ ^^ , l*mj

mj = 2^ w%j = wuj + w*j = mj + -nr

j

С учетом этого вычислим кп (1, w), игнорируя тот факт, что значения w*j могут быть нецелыми:

/*ш3

п'Шу. /*т' ~п

nWij nwuj ST' t*mj i n-

hn(l, w) = у Wij log -------------= у Wuj log--------------------+ у —— log------------------—.

L—/ J ° /-m • ' J m-.n ^' r)- m-.n

b%Hbj . itUjtV'itj nVj.

%,j J u,j J j J

J J lu . J l* .

n' n'

Это выражение преобразуется к виду

V“^V n'wuj V“^V l*mj 7/1/ /4

2] W + 2] —j log 1 = hn>(l', w'), lum'j n'

u j J

откуда hn(l, w) = hn(l', w') = hn',w' (l').

Округлим компоненты w*j набора w до ближайших целых (больших или меньших) w*j с соблюдением условия j w*j = l*, в результате чего w переходит в допустимый набор w. Выражение для hn (l, w) может быть представлено как сумма и разность ограниченного числа членов вида v log v, v ^ n (см. доказательство нижней оценки в теореме 5). При переходе от w к w величины v изменятся не более чем на константу, а значение vlog v — не более чем на c1 log v ^ c1 logn. Отсюда hn(l, \v) ^ hn(l, w)) + +c2 log n. С учетом полученных соотношений, используя теорему 7, находим

log Nn,w(l) ^ hn,w(l) + сз log n ^ hn(l, w) + C3 log n ^ hn(l, w) + C4 log n =

= hn',w' (l') + C4 log n ^ log Nn',w (l') + C5 log n.

Это дает верхнюю оценку теоремы.

Нижняя доказывается аналогично нижней оценке в (14). ■

Теорему 3 можно рассматривать как теоретико-информационный аналог теоремы 6. Подобный аналог имеется и у теоремы 8.

Пусть источник X порождает символы b% конечного алфавита B = {b%,i G I} независимо с вероятностями p(b%), и они должны быть представлены у адресата символами Cj конечного алфавита C = {cj, j G J}. Условия точности задаются указанием множества W допустимых совместных распределений p(b%, cj), i G I, j G J. Пусть в алфавите B имеется неопределенный символ bs = *. Наряду с X рассмотрим источник X' = (B', P'), порождающий символы bu алфавита B' = B \ {*} с вероятностями p( b )

p'(bu) = -----, u G I \ {s}. В качестве W' для него возьмем множество распределе-

1 — И*)

p(b с ■)

ний p-(bu,Cj) = ----, U Є I \ {s}, j Є J, соответствующих распределениям p(bi,Cj),

1 - p(*)

і Є I, ^ Є 3, из множества Ш.

Для Ш-энтропии имеет место соотношение

Нщ (р ) = (1 - р(*))Нщ/ (Р'), (18)

доказательство которого опускаем. Оно является теоретико-информационным аналогом теоремы 8, ибо влечет равенство кп,щ(1) = кп/,щ/ (1'). Эффект Нечипорука проявляется и для более сложных информационных характеристик (см. дальше утверждение 6).

6. Свойства энтропии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рассмотрим некоторые свойства энтропии Н(Р) и сравним их со свойствами энтропии Шеннона Н(Р).

Теорема 9. Энтропия Н(Р) неотрицательна, причем Н(Р) = 0 тогда и только тогда, когда пересечение всех Т, для которых р(ат) > 0, непусто.

Доказательство. Неотрицательность очевидна. Пусть минимум Н(Р, ^) в (2) достигается на наборе ^0. Положим Т0 = (г £ М | д0 > 0}. Если Н(Р) = Н(Р, ^0) = 0, то для любого Т с р(ат) > 0 выполнено = 1, а потому Т содержит Т0 и

пересечение всех таких Т непусто. Обратно, если пересечение непусто, то, назначив ^ = 1 для некоторого г из этого пересечения и qj = 0 для всех ] = г, получим набор Q, для которого Н(Р, Q) = 0. ■

Таким образом, энтропия Н(Х) недоопределенного источника X равна 0, лишь если порождаемые им последовательности могут быть доопределены до последовательностей из одинаковых символов. Этот факт обобщает известный результат для полностью определенного источника, энтропия которого равна 0, лишь если он порождает последовательности, образованные одинаковыми символами.

Укажем верхнюю границу энтропии источника X = (А, Р) в функции от распределения (р(£), 1 ^ ^ т) числа £ доопределений символов источника:

Доказательство. Эту оценку получим, вычислив H(P, Q) на наборе Q = = (1/m,..., 1/m),

Оценка достигается на наборе P, в котором всем t-элементным множествам T со-

рии [3] следует, что в этом случае H(P, Q) минимизируется набором вероятностей qo = ... = qm-i = 1/m. ■

Если источник полностью определен, то p(1) = 1, p(t) = 0 для t ^ 2, и оценка теоремы превращается в известную оценку H(P) ^ log m.

Теорема 11. Функция H(P) вогнута, т. е. для любых P = (p(aT), T С M), P' = = (p'(aT), T С M) и числа а, 0 ^ а ^ 1, выполнено

T: |T|=t

Теорема 10. Справедлива оценка

H(P) ^ log m — Е P(t)log і

1<t<m

достижимая для любого распределения (p(t), 1 ^ t ^ m).

log m — p(aT) log і = log m — p(t) log і.

t it|=t

ответствуют равные

соображений симмет-

H(aP + (1 — a)P-) ^ aH(P) + (1 — a)H(P-).

Доказательство. Пусть минимум функции H(aP + (1 — a)P',Q) достигается на наборе Q. Тогда

H(aP + (1 — a)P') = —а ^р(от) log ^ q* — (1 — а) ^р'(от) log ^ q* ^

Т ieT Т ieT

^ aH(P) + (1 — a)H(P'),

что и требовалось. ■

В отличие от обычной энтропии H(P), функция H(P) не является строго вогнутой. Из доказательства видно, что при а = 0,1 равенство в утверждении теоремы имеет место лишь тогда, когда существует Q, минимизирующее H(P, Q) и H(P',Q) одновременно. Поскольку минимум в (3) достигается только при Q = P, для полностью определенных источников условием равенства является P = P' и функция H (P) строго вогнута.

Произведение XX' недоопределенных источников X = (A, P) и X = (A', P') представляет собой источник, порождающий пары (от, оТ/) с некоторыми вероятностями p(aT ,o't> ). При этом выполнены условия согласования

^р(от ,о'Т/ )= р(от ), ^р(от ,о'Т/ )= р(оТ /). (19)

Т' т

Доопределением символа (от, оТ/) источника XX' считается всякий символ (о*, о*/), i G T, i' G T'. Источники статистически независимы, если р(оТ, оТ/) = р(оТ)р(оТ/). Энтропия H(XX') определяется аналогично (1)-(2)

H(XX') = min| - X p(aT, о!Т,) log X дй/

Т,Т/ ieT,i/eT/

где Q = (qii/, i el.i'e M'), qii, ^ 0, ^ii, q^/ = 1.

Теорема 12. Для любых недоопределенных источников X и X'

H(XX') ^ H(X) + H(X'),

а если X и X' статистически независимы, то

H(XX') = H(X) + H(X').

Доказательство. Пусть величины H(X) и H(X') в (2) достигаются на наборах Q = (qi, i Є M) и Q' = (q',, i' Є M'). Для всех i и i' положим qii, = qiqi,. Тогда

h(xx') ^ - x р(от, оТ,) iog ( X] qiq'O = - X p(or, °T,) log (X q^ X q',

T,T/ \ieT,i/eT/ / T,T/ VieT i/ єт/ ,

= - X p(°T )log X qi- X p(oT / log X qi/ = H(X)+H(X'). (20)

(ат

Т геТ 1' г'еТ'

Если X и X; статистически независимы, то р(ат, аТ') = Р(ат)р(аТ'), и в силу теоремы 1, примененной к X и X', для всех пар (г, г;) выполнено

ул р(ат,аТ') = у^ р(ат)р(аТ') = у^ р(ат) у^ р(аТ') < ,

ТЭг,Т'Эг' 3 ТЭг,Т'Эг' ^3 ТЭг Т'Эг' У?'

зетует' зет,з'ет' зет з'еТ'

Строгое неравенство имеет место, лишь когда оно справедливо для хотя бы одного сомножителя. В этом случае ^ = 0 либо = 0, а потому яіі, = 0. По теореме 1, примененной к источнику XX', заключаем, что

Н(ХХ') = - X Р(ат,а'т,) log X ^' ,

т,т' іет,і'ет'

и неравенство (20) обращается в равенство. ■

В отличие от обычной энтропии Н, независимость источников не является необходимой для равенства Н(ХХ;) = Н(Х) + Н(Х;). В частности, оно справедливо, когда области определения источников X и X' не пересекаются, т. е. р(ат, а^) > 0, лишь если ат = * или а'т, = * [10].

7. Теорема кодирования

Существенное место в теории информации отводится результатам о сжатии данных, формулируемым в терминах кодирования последовательностей, порождаемых источниками. Согласно им, нельзя добиться, чтобы средняя длина кода, приходящаяся на символ источника, была меньше энтропии, и возможно закодировать так, чтобы средняя длина на символ превосходила энтропию сколь угодно мало [3]. Аналогичный факт оказывается верным и для недоопределенных источников рассматриваемого вида. Напомним, что в случае недоопределенных последовательностей требуется по коду восстановить не саму последовательность, а какое-либо ее доопределение.

Последовательности длины п будем называть п-блоками (либо просто блоками) и обозначать символом В. Будем рассматривать следующий способ кодирования недо-определенного источника X = (А, Р). Возьмем некоторое множество Р С (А0)п, содержащее доопределения всех блоков из Ап, и каждому блоку В Є Ап сопоставим некоторое его доопределение О = Ов из Р (разным В могут соответствовать одинаковые Ов). Закодируем блоки множества Р двоичными наборами с соблюдением условия однозначного декодирования (разделимости кода) [17]. Кодом блока В будем считать код его доопределения Ов. Последовательность, порождаемая источником X, кодируется путем разбиения ее на п-блоки и приписывания друг к другу кодов полученных п-блоков. Кодирование источника X = (А, Р) называется универсальным, если оно не зависит от набора вероятностей Р.

Обозначим через 1в длину слова, кодирующего блок В. Качество кодирования будем характеризовать средним числом кодовых символов на символ источника

1п = 1 X Р(В)1в, п в

где р(В) = р(ат1 )р(ат2).. .р(атп) — вероятность блока В = ат1 ат2 ... атп, а сумма берется по всем п-блокам. Ставится задача оценки минимального значения 1п по всем кодированиям источника X.

Следующий результат обобщает на недоопределенные источники теорему кодирования полностью определенных источников.

Теорема 13.

1. При любом п и любом способе кодирования

2. Существует универсальное кодирование, для которого

log n'

In ^ H(X) + O

n

Из результата Р. Е. Кричевского [6] следует, что при универсальном кодировании понизить порядок остаточного члена в п. 2 нельзя.

Доказательство. Нижняя оценка. Блоки (п-блоки) а^ ... аіп в алфавите А0 будем обозначать через Ді, і = (¿і,... , іп), а блоки ат1 ... атп в алфавите А — через Дт, Т = Т1 х • • • х Тп. Для вероятности блока Дт будем использовать обозначение рт.

Каждому блоку Дт соответствует единственный блок Ді(т), взятый в качестве его доопределения. Положим для і Є Мп и Т С Мп

и введем величины

Для них выполнено

qi

1, i = i(T), 0, i = i(T)

1 = £PT^Ti, i Є Mn. (22)

£<i = £Pt£¿Ti = £Pt = 1. (23)

i T i T

Пусть I = {i | qi > 0}, тогда

£ q =1. (24)

iei

Через li обозначим длину кода для Di. Согласно определению и (21),

lDT = ¿i(T) = X/ ^Ti/i-ieT

Отсюда и из (22) с учетом введенных обозначений получаем

nln = XPt/dt = XPt X ^Ti/i = X qi/i- (25)

T T iei iei

Набор длин li, i G I, удовлетворяет неравенству Макмиллана — Крафта [17] ^21 2-li ^ 1, и по свойству (3) энтропийной функции выполнено

X qili = _ X qilog 2-li ^ “ X qilog qi = “ X pt^ i°g qi =

iei iei iei T,ieI

= “XPtlogqi(T) ^ “XPtlo^Xqi- (26)

T T ieT

Используя определение энтропии применительно к источнику Xn и утверждение 2, заключаем, что правая часть в (26) не превосходит H(Xn) = nH(X). Отсюда, из (25) и (26) получаем утверждение п. 1 теоремы.

Верхняя оценка. Для каждого класса Kn(l) возьмем доопределяющее множество мощности Nn(l) и в соответствии с теоремой 5 занумеруем входящие в него блоки двоичными наборами а длины nH(l/n) + O(log n). Сами классы Kn также занумеруем

двоичными наборами в одинаковой длины, которую можно взять равной 0(1с^ п). Блоку В припишем кодовое слово /За, где в соответствует классу Кп(1), содержащему В, а а — номер некоторого доопределения блока В. Тогда

¡в = ¡(ва) ^ пН(1/п) + 0(к^п). (27)

Нетрудно видеть, что построенное кодовое множество является префиксным и, следовательно, разделимым [17].

Обозначим через р(Р, 1, п) суммарную вероятность блоков класса Кп(1), равную (п! / П т ¡т!) ПтРт. Поскольку 1 р(Р, 1,п) = 1, из (27) получаем

= 1 Ер(В)/в < Ер(Р, 1,п)н(-) + а(1^) . (28)

пв\ \п/ \ п /

По свойству полиномиального распределения [2] выполнено

Ур(Р, 1, п) — = Рт, (Т с М), (29)

п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где ¡т и рт - компоненты наборов 1 и Р. Применив к вогнутой функции Н (теорема 11) неравенство Иенсена, получим с учетом (29)

Е p(p, u)«( П)« h (Е 1,n> n) = W(P)-

Отсюда и из (28) следует утверждение п. 2. ■

8. Лучшее доопределение

Доопределение X источника X представляет собой полностью определенный источник, который строится по X применением операции доопределения (см. ниже). Чтобы различать символы источников X и X, символ в доопределении X будем обозначать через а¿. Операция доопределения задается набором переходных вероятностей р(а^ат), T С M, i £ M, где р(а^ат) = 0 для i £ T .Ее применение к X дает

источник Xi, порождающий символы äj с вероятностями р(а^) = ^р(ат)p(<ii|ат). Пара

т

(ат, (äj) имеет в XX вероятность р(ат, а^) = р(ат)р(а^ат). Дальше считаем p(äj) > 0, ибо символы (jj с р(аj) = 0 не участвуют в доопределении и их можно исключить из рассмотрения.

Функция H из (8) может быть записана в виде

H(X) = min 1 (X, XX),

где

1 (X,X) = Е р(ат )log р(а/|ат)

^ р(<2г)

тл

— величина взаимной информации [3], а минимум берется по всем доопределениям XX источника X. Отсюда и из теоремы 4 следует

Утверждение 2. Для любого доопределения Х источника Х

I(Х,Х) ^ Н(Х),

и существует доопределение X, для которого

I (Х,Х) = Н(Х).

(30)

Доопределение Х, удовлетворяющее условию (30), назовем лучшим. Этот термин возник из следующей сложностной интерпретации. Пусть недоопределенный источник Х имеет единственное лучшее доопределение X (такая ситуация типична — см. дальше). Рассмотрим кодирование «достаточно длинных» последовательностей в алфавите А, содержащих символы ат с частотами р(ат). Можно доказать, что если средняя длина кода асимптотически минимальна, то для почти всех последовательностей символы ат замещаются в доопределениях символами а» с частотами, асимптотически равными вероятностям пар (ат, а») в произведении ХХ.

Следующая теорема указывает параметры лучшего доопределения.

Теорема 14. Доопределение Х является лучшим тогда и только тогда, когда оно задается переходными вероятностями

р(а;|ат) =

Qi

Е Qj

jeT

і Є T,

(31)

где <5 = (^, г Е М) — один из наборов, на которых достигается Н(Х).

Доказательство. Рассмотрим произвольное доопределение ХХ. Положим Р = = (р(а^),] Е М) и 3+ = | р(а!-) > 0}. При заданном Т введем для г Е Т П 3+

величины

а.

(т)

p(a i)

Е p(aj),

зет

(T) = P(a i|aT)

Xi p(a) '

Поскольку p(<ii) = ^ p(®i), выполнено аг = 1. Воспользуемся для

i€TnJ+ ieT ieTnJ+

пуклой функции f (x) = x log ж неравенством Иенсена

E

ieT nJ+

a(T)f (x(T)) > f ( E “(T)x!T)

ieT nJ+

(32)

вы-

(33)

Учитывая, что

находим

ieT nJ+

E

ieTnJ+

(T) (T)

a x

E

ieTnJ+

ieT

p(a il«T) E p(a з)

jeT

Подстановка этого значения в (33) дает неравенство

1

Е

ieTnJ+

p(ail«T) і p(ai|«T) ^

Ep(«j) 0g p(«i) "

jeT jeT

1

E p(a j) ’

jeT

1

Ep(« j )‘°gE p(a j)

jeT

1

Принимая во внимание, что р(а»|ат) = 0 для г Е 3 + , заменим в этом неравенстве

суммирование по г Е Т П 3 + суммированием по г Е Т. После этого, домножив обе

части на р(ат) Е Р(а^) и просуммировав по Т, получим ,?ет

I(Х,Х ^ н(р,р) ^ н(Х).

Отсюда видно, что равенство (30) возможно, лишь если на наборе Р, соответствующем доопределению Х, достигается энтропия Н(Х). Пусть 5 — произвольная точка минимума функции Н(Р, 5), 3 + = {^ | С-,- > 0} и доопределение Х таково, что Р = <5. В этом случае равенство (30) имеет место тогда и только тогда, когда при каждом Т

неравенство (33) обращается в равенство. Поскольку для г Е Т П 3+ все а(т) поло-

(т)

жительны, условием равенства является совпадение всех 1, г Е Т П 3 +. Обозначив

их величину через 7т, получаем р(а»|ат) = 7т<?». Это равенство справедливо для всех

г Е Т, ибо при г Е 3 + обе части обращаются в 0. Отсюда и из ^ р(а |ат) = 1 находим

,?ет

7т = , что приводит к (31). Чтобы можно было назначить р(а»|ат) указанным

Е а

,?ет

образом, необходимо выполнение равенств У]р(ат)р(а»|ат) = р(а»), г Е М. Их справед-

т

ливость следует из того, что при условиях (31) они совпадают с (7). ■

Недоопределенный источник назовем категоричным, если он имеет единственное лучшее доопределение.

Следствие 2. Источник категоричен тогда и только тогда, когда его энтропия достигается в единственной точке.

Частично определенный источник (А0 и {*},Р), Р = (р0,... ,рт-1,р*) назовем нетривиальным, если р* < 1.

Следствие 3. Всякий нетривиальный частично определенный источник категоричен и для него <5 = Р/(1 — р*).

Действительно, с учетом Со + ... + ст-1 = 1 неравенства (4) в рассматриваемом случае имеют вид р»/д» + р* ^ 1. Если р» = 0, то имеет место строгое неравенство и с» = 0. В случае р» > 0 выполнено д» ^ р»/(1 — р*) > 0, неравенство заменяется равенством и дает с» = р»/ (1 — р*). В

Приведем без доказательства достаточные условия для того, чтобы энтропия Н(Х) недоопределенного источника Х достигалась в единственной точке. Обозначим через Т систему множеств, состояющую из всех Т с р(ат) > 0 и множества М. Положим Х»,т равным 1 при г Е Т и равным 0 при г Е Т и образуем наборы х» = (х»,т, Те Т), г Е М. Рассмотрим выпуклый многогранник У ^»х», 0 ^ ^ 1, Е ^ = 1, натяну-

»еМ г

тый на точки х». Пусть М; — множество всех г, для которых х» принадлежат границе многогранника.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Утверждение 3. Если х», г Е М', линейно независимы, то энтропия Н(Р) достигается на единственном наборе 5.

«Типичным» следует считать случай, когда лежащие на границе многогранника не более т точек х» (размерность которых может доходить до 2т) линейно независимы. Это обеспечивает единственность набора 5, на котором достигается энтропия Н(Х),

и, следовательно, — категоричность источника Х.

9. Условная энтропия недоопределенных данных

Пусть произведение ХУ недоопределенных источников с алфавитами А = {ау, Т С М} и В = {6и, и С Ь}, Ь = {0,1,..., / — 1}, задано совместным распределением

Если, как обычно, считать меру информации I(X, У) в X о У связанной с условной энтропией Н(У |Х) соотношением

то для введения меры информации достаточно дать определение условной энтропии. В теории информации важную роль играет правило сложения энтропий Н (ХУ) = = Н(X) + Н(У|Х). Оно (в более слабом варианте) включено К. Шенноном в число свойств, аксиоматически определяющих вид энтропийной функции. Поэтому при введении условной энтропии Н(У |Х) будем существенное внимание уделять этому свойству.

Рассмотрим вначале случай, когда Х полностью определен, т. е. совместное распределение имеет вид р(а^,6и), г £ М, и С Ь. Тогда

(считаемр(а^) > 0, ибо прир(а^) = 0 символ а^ может быть исключен из рассмотрения). Условную энтропию введем обычным равенством [3]

где величины Н(У|а^) находятся подобно (1)-(2) с заменой вероятностей условными вероятностями

Теорема 15. В случае полностью определенного источника Х введенная указанным образом условная энтропия удовлетворяет правилу сложения энтропий

(р(ат,6и), Т С М,и С Ь).

I (Х, У) = Н(У) — Н(У |Х),

и

(34)

Н(У |Х) = £ рМИ(У |а,),

(35)

Я = (?^ 3 £ Ь), ^ ^ 0, Е^ ^ = 1. Применительно к набору Я(г), на котором достигается минимум, условия (4) теоремы 1 приобретают вид

(36)

«еи

Н(Х)+ Н(У |Х) = Н(ХУ).

Доказательство. Положим = р(аг)д]г) и Я = (д^, г £ М, 3 £ Ь). Выполнено

Убедимся, что набор Q удовлетворяет аналогам неравенств (4) для XY. Имеем для i G M, j G L с учетом (36)

y^ p(ai,bu) _ y^ p(ai)p(bu|ai) _ y^ p(buЮ < !

uju ^ q™ uju E p(ai)qii} uju E qU? < ’ ueu «eu «eu

Если выполнено строгое неравенство, то строгим является и неравенство (36), а потому qj^ _ 0 и qj _ p(ai)qji} _ 0.

Это означает, что H(XY) достигается в точке Q и

H(XY ) _ - X p(ai,bu )iog X qj _ - X p(ai,bu )iog X p(ai)qji) _

i,u jeu i,u jeu

_ -X p(ai,bu )iog p(ai) - x p(bu k)logX qji) _

i,u i u jeu

_ - X p( ai) logp(ai) + Xp(ai)H(Y|ai) _ H(X) + H(Y|X).

i i

Теорема доказана. ■

Введенное понятие H(Y|X) для полностью определенного X оказывается согласованным с колмогоровской интерпретацией [5] условной энтропии в терминах относительной сложности (подробнее см. в [11, 13]). Оно служит основой для определения условной энтропии в общем случае.

Если опыт X, участвующий в произведении XY, недоопределен, применим к X некоторое преобразование доопределения. Переходные вероятности р(с^|ат), задающие доопределение X, позволяют найти совместные вероятности p(ài, bu) _

_ E t р(ат, bu )p(a i|aT ) пар (a i,bu ) в произведении X Y. Поскольку Xi полностью определен, может быть вычислена условная энтропия H(Y|X). Эта величина зависит от доопределения X. Выделим содержательно важный случай, когда такой зависимости нет.

Будем говорить, что символ ат конкретней bu, если ат является основным (т. е. принадлежит A0) либо bu является неопределенным (т. е. совпадает с * _ b^), и что опыт X конкретней Y, если p(aT, bu) > 0, лишь когда aT конкретней bu. В частности, полностью определенный опыт X конкретней (нестрого) любого опыта Y. Имеет место следующий факт.

Утверждение 4. Если опыт X конкретней Y, то величина H(Y|X) не зависит от выбора доопределения X.

Доказательство. Пусть X конкретней Y. Учитывая лишь компоненты p(ai, bu) набора совместных вероятностей для XY, соответствующие одноэлементным множествам {T}, введем p(bu|ai) и H(Y|ai) теми же выражениями (34), (35), что и для опыта X с полностью определенными исходами, и положим

Hx(Y)_ Xp(ai)H(Y|ai).

i

Отметим, что Hx(Y) не является математическим ожиданием величин H(Y|ai), поскольку i p(ai), вообще говоря, меньше 1. Покажем, что при любом доопределении X имеет место равенство H(Y|Х) _ Hx(Y). Этим утверждение будет доказано.

Так как X конкретней У, то р(а*,6и) = ^(¿*,6^) при и = Ь и р(а*, *) = р(а*, *) +

+р(а*) — р(а*). С учетом этого, введя обозначение г = 1 — Р( *. , получаем р(6и |¿¿) =

р(<2 *)

Р(6и Ы „ . т , , , — г*

= -------- при и = Ь и р(*|а*) = ------------. По утверждению 3 заключаем, что

1 — г* 1 — г*

(1 —г*)Н(У |а*) = Н(У |а*). Это эквивалентно соотношению р(а*)Н(У |а*) = р(а*)Н(У |а*), суммированием которого по г получаем требуемое равенство. ■

Поскольку в рассматриваемом случае величина Н(У X) не зависит от доопределения X, под условной энтропией Н(У|Х) можно понимать Н(У X) при произвольном X. Явное выражение Н(У|Х) через параметры произведения ХУ исходных источников задается формулой для Нх (У).

Имеет место следующий факт, доказательство которого приведено в [11, 13].

Утверждение 5. Если источник X конкретней У, справедливо правило сложения энтропий

Н^У ) = НХ)+ Н(У X).

Отметим также, что если источник X конкретней У, то условная энтропия Н(У X) допускает колмогоровскую интерпретацию [5] (модифицированную применительно к недоопределенным данным) в терминах относительной сложности [11, 13].

В общем случае величина Н(У X) зависит от X. Будем считать, что источник X категоричен , т. е. имеет единственное лучшее доопределение X (такая ситуация «типична» — см. утверждение 3). Положим по определению Н(УX) = Н(У|Х).

Содержательные соображения в пользу выбора лучшего доопределения для вычисления условной энтропии поясним на простом примере. Пусть в произведении XY источников с алфавитами {0,1, *} и {0,1} пары (0, 0) и (*, 1) порождаются с ненулевыми вероятностями, а вероятности остальных пар равны 0. Энтропия НХ) = 0 достигается на лучшем доопределении X, в котором все * заменены символом 0. Для него Н(У |Х) = Н(У). Если же доопределить все * символом 1, получим источник X, совпадающий с У .В этом случае Н(У |Х) = 0. Таким образом, существует возможность уменьшения величины Н(У X) за счет «усложнения» доопределения X. Правило сложения энтропий имеет дело с суммой НХ) + Н(У X) и вычисление слагаемых на основе разных доопределений может привести к «искусственному» занижению суммы (в данном примере можно получить нулевую сумму). Поскольку НХ) вычисляется на основе лучшего доопределения, то и в Н(У X) следует использовать лучшее доопределение.

10. Обобщенное правило сложения энтропий

Продолжением доопределения X на XY называется полностью определенный источник XУ', построенный по XУX применением некоторого набора переходных вероятностей р(6'|ат, , ¿*) и порождающий пары (а*, 6') с вероятностями

р(а*, 6') = XР(ат, Ьи, а*)р(6' |ат, Ьи, а*).

т,и

Подчеркнем разницу между доопределением источника XУ и продолжением доопределения X на XY. Доопределение строится по XУ и не использует информацию о X, в то время как продолжение строится по XYX и тем самым предоставляет более широкие возможности.

Величину

7H(XY) = min I(XY; XY'),

X Y'

где I(•, •) — величина взаимной информации и минимум берется по продолжениям XY' лучшего доопределения X, назовем энтропией произведения XY при лучшем доопределении источника X. В общем случае недоопределенных данных правило сложения энтропий заменяется более сложным соотношением [16].

Теорема 16. Имеет место следующее обобщенное правило сложения энтропий

H(X) + H(Y |X) = H(XY). (37)

Из теоремы 14 следует, что

H(XY) = min I (XY; X 'Y'),

где минимум по всем доопределениям X'Y' произведения XY. В случае, когда минимум по X' Y' = XiY' совпадает с минимумом по всем доопределениям X' Y', обобщенное правило сложения энтропий превращается в обычное. Это имеет место, например, если X конкретней Y.

Величины, входящие в обобщенное правило, заданы неявно как минимумы некоторых выражений, в связи с чем его доказательство в общем виде требует громоздких выкладок (эскиз доказательства имеется в [16]). Но в содержательно важном случае — для частично определенных данных (когда используются лишь полностью определенные и неопределенные символы) — эти величины представимы в явном виде, что позволяет дать для этого случая более простое прямое доказательство. Ограничимся доказательством обобщенного правила для частично определенных данных.

Пусть произведение XY частично определенных источников X и Y с алфавитами {а0,... , am-i, *} и {6o,...,6i-b *} задано совместным распределением p(ai,bj) = pj, p(*,bj) = p*j, р(а4, *) = Pi* и p(*, *) = p**. Тогда p(a) = Pij = Pi, p(*) = p*j =

= p*. В силу следствия 3 H(X) достигается на единственном наборе Q = (qi, i G M), pi

“ и

1 — p*

H(X) = — X pi l0g qi = (1 - p*)log(1 - p*) - X pi l0gpi. (38)

По теореме 14 лучшее доопределение X задается переходными вероятностями р(а*|а*) = 1, р(а*|*) = С*, и произведению XІY соответствует совместное распределение р(а*, 6?) = р*? + І*p*j = п*?, р(а*, *) = р** + С*р** = п**. С учетом того, что р(6?|а*) = п*?/С* и источник У |а* частично определен, используя следствие 1, находим

Н(У |X) = £ 9<М(У |о1) = — £ ^ =?■ = — £ п„ . (З9)

V < т 9‘ Е п” тГ Е п”

и V V

Для вычисления Н^У) понадобится утверждение, которое возникает как более сложное проявление эффекта Нечипорука, рассмотренного в разд. 13 (ср. с теоремой 3 и соотношением (18)). Оно справедливо для недоопределенных источников общего вида. Пусть в произведении XY пара (*, *) встречается с вероятностью р(*, *) > 0.

Рассмотрим произведение X0У0, в котором р0(*, *) = 0 и р0(ат, 6^) = р т, и

1 — p(*, *)

Утверждение 6. Имеют место равенства

Н(Х) = (1 - р(*, *))Н(Х°), Н(У|Х) = (1 - р(*, *))Н(У°|Х0),

Н(ХУ) = (1 - р(*, *))Й(Х°У°).

В силу этих соотношений, при доказательстве обобщенного правила сложения энтропий можно ограничиться случаем, когда неопределенных пар (*, *) нет. Вернемся к частично определенным источникам и будем считать, что р** = 0.

Рассмотрим продолжение XУ' лучшего доопределения X на ХУ. Пусть оно соответствует переходным вероятностям р(67|аг, *,аг) = Хгу. Тогда р(аг,67-, Йг,67) = ру,

р(аг, *, Й*, 67) = Рг*Хг,^-, р(*, 67 , а*, 67) = ^*7 , р(Йг, 67) = р*7 + Рг*Х*,7 + Йр*7 = Пу + Рг*Х*,7 .

Отметим, что ^27'е7 Хг,у = 1.

Вычислим

I(XY,XY') = £(p(a„bj,a„b')log p(( b )’ ’ b)) +

7 p(a*,bj )p(aj,b7)

i,7

p(*,bj-,ai,67) д ^ p(a*, *,ai,bj)

+p(*, b,, a*, bj) log — 7 + p(a*, *, a*, bj) log

p(*,bj- )p(aj,b') 7 p(a*, *)p(aj,b')

Подставив указанные значения и осуществив сокращения, получаем I(XY, XY;) =

= Ei Fi> гДе

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

F* = X (W log---------Г“------+ p**x*,7 log--------------+ a*p*7 log---- --------) =

7 \ njj + pj*xi,7 njj + pi*xi,7 njj + pi*xi,7 '

У (- (ni, + pj*Xj,7) log(ni7 + pi*Xi,j) + pi*Xj,7 log Xj,^ + aip*7 log q*.

7

Для разных i функции F* зависят от разных переменных, поэтому минимум I (XY, XY;) достигается минимизацией каждой из функций F*. Отметим, что декомпозиция задачи стала возможной благодаря сведению к случаю p** = 0 применением утверждения 6.

При x ^ 0 рассмотрим функцию f (x) = -(a + bx) log(a + bx) + bxlogx, a,b ^ 0. Она

ab log e

выпукла, ибо f "(x) = —-:—- > 0 при a, b, x > 0, а при a = 0 или b = 0 функция

x(a + bx)

f (x) линейна. Следовательно, функция F* от переменных x*,7, j E J, также выпукла. Осуществив ее дифференцирование и выполнив ряд преобразований, находим

dFi i x*,7

^ p»* log

дхг,7 Пгу + рг*Хг,7

тэ Пг7 ^¿(а(г))

Рассмотрим точку а(г) = (ау, ^ Е ,]), где ау = =-----------, и вычислим — ---------. После

/ Пга дХг,7

некоторых преобразований имеем

д^(а(г))

дХг,7

Это значение не зависит от ]; обозначим его через Аг. Поскольку У ^ + рг* =

= а < 1, выполнено Аг > 0. Отсюда в силу теоремы 4.4.1 из [2] заключаем, что

= -pi* log (X n»v + p**).

минимум выпуклой функции F на множестве векторов вероятностей (xij, j G J) достигается в точке a(i). Учитывая, что в этой точке

+ pi*xij v “ ^ niv + pi*) Çi ^—\ “ ,

¿^v niv v Z^v niv

после некоторых преобразований приводим Fi(a(i)) к виду

Fi(a(i)) = X(-qY^j + qiP*j) log Ç - X nij log •

j Ev niv j Z^v niv

Преобразовав первую сумму к — (Ç — Çi EjP*j) logÇ = — pi log Çi, получаем Fi(a(i)) =

= —pi log Çi — Ej-nij log П j • Это в силу (38) и (39) дает H(XY) = Fi(a(i)) =

v iv

= H(X) + H(Y|X). Тем самым обобщенное правило сложения энтропий для частично

определенных источников доказано.

ЛИТЕРАТУРА

1. Бонгард М. М. О понятии «полезная информация» // Проблемы кибернетики. Вып. 9. М.: Физматгиз, 1963. С. 71-102.

2. Вероятность и математическая статистика. Энциклопедия. М.: Большая Российская Энциклопедия, 1999.

3. Галлагер Р. Теория информации и надежная связь. М.: Сов. радио, 1974.

4. Добрушин Р. Л. Единые способы оптимального квантования сообщений // Проблемы кибернетики. Вып. 22. М.: Наука, 1970. С. 107-156.

5. Колмогоров А. Н. Алгоритм, информация, сложность. М.: Знание, 1991.

6. Кричевский Р. Е. Сжатие и поиск информации. М.: Радио и связь, 1989.

7. Нечипорук Э. И. О сложности вентильных схем, реализующих булевские матрицы с неопределенными элементами // ДАН СССР. 1965. Т. 163. №1. С. 40-42.

8. Сапоженко А. А., Асратян А. С., КузюринН.Н. Обзор некоторых результатов по задачам о покрытии // Методы дискретного анализа в решении комбинаторных задач. Вып. 30. Новосибирск: ИМ СО АН СССР, 1977. С. 46-75.

9. Шоломов Л. А. Информационные свойства функционалов сложности для систем недо-определенных булевых функций // Проблемы кибернетики. Вып. 34. М.: Наука, 1978. С.133-150.

10. Шоломов Л. А. Сжатие частично определенной информации // Нелинейная динамика и управление. Вып. 4. М.: Физматлит, 2004. С. 385-399.

11. Шоломов Л. А. О мере информации нечетких и частично-определенных данных // Докл. Академии наук. 2006. Т. 410. №1. С. 321-325.

12. Шоломов Л. А. О сложности последовательной реализации частичных булевых функций схемами // Дискрет. анализ и исслед. опер. Сер. 1. 2007. Т. 12. №3. С. 110-139.

13. Шоломов Л. А. Информационные свойства недоопределенных данных // Дискретная математика и ее приложения: сб. лекций молодежных научных школ. Вып. IV. М.: ИПМ РАН, 2007. С. 26-50.

14. Шоломов Л. А. Исследование одного класса динамических процедур коллективного выбора // Нелинейная динамика и управление. Вып. 5. М.: Физматлит, 2007. С. 287-308.

15. Шоломов Л. А. О собственной информации нечетких текстов // Нелинейная динамика и управление. Вып. 6. М.: Физматлит, 2008. C. 305-314.

16. Шоломов Л. А. Обобщенное правило сложения энтропий для недопределенных данных // Докл. Академии наук. 2009. Т. 427. №1. С. 28-31.

17. Яблонский С. В. Введение в дискретную математику. М.: Высшая школа, 2006.

18. Berger T. Rate distortion theory. A mathtmatical basis for data compression. New Jersey: Prentice-Hall, 1971.

Элементы теории недоопределенной информации Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Шоломов Лев Абрамович

Похожие темы научных работ по математике , автор научной работы — Шоломов Лев Абрамович

Elements of underdetermined information theory

Текст научной работы на тему «Элементы теории недоопределенной информации»