К вопросу создания высокодостоверного кода, основанного на мерах информации, введенных Е. П. Селивановым

Квятковский Юрий Григорьевич; Селиванов Евгений Павлович

УДК 004.056.5

К ВОПРОСУ СОЗДАНИЯ ВЫСОКОДОСТОВЕРНОГО КОДА, ОСНОВАННОГО НА МЕРАХ ИНФОРМАЦИИ, ВВЕДЕННЫХ Е. П. СЕЛИВАНОВЫМ

Ю. Г. Квятковский, Е. П. Селиванов

THE QUESTION OF CREATING HIGHLY RELIABLE CODE, BASED ON MEASURES OF INTRODUCED BY E. P. SELIVANOV

Ju. G. Kvyatkowski, E. P. Selivanov

Аннотация. Актуальность и цели. Существующая теория информации в основном оперирует с мерой информации, введенной К. Э. Шенноном. Однако она имеет ряд недостатков, ограничивающих ее применение. Цель данного исследования - выявление достоинств и недостатков меры информации К. Э. Шеннона, введение в практику новой меры информации, которая отличается своей обоснованностью, возможностью применения в различных по своей природе системах. Материалы и методы. При разработке предлагаемой меры информации использованы результаты теоретических (математических) исследований, имитационного моделирования, позволяющие получить новые теоретические и практические результаты для определения меры информации Q, позволяющей исследовать различные законы распределения непрерывных случайных величин (НСВ) и случайных дискретных величин (СДВ). Результаты. В работе подробно исследован комплекс свойств меры информации К. Э. Шеннона, вводится мера информации, отличающаяся зависимостью от значений вероятностей, плотностями вероятностей, положительностью и аддитивностью в интервале значений от нуля до единицы, позволяющая идентифицировать виды распределения НСВ и СДВ. Рассматривается возможность использования предложенной меры для создания высокодостоверного кода. Выводы. Предложенная мера обладает рядом положительных свойств и может быть использована в практических целях, в частности, для создания высокодостоверного кода.

Ключевые слова: информация, энтропия, достоверность, код, пропускная способность, избыточность.

Abstract. Background. The existing theory of information basically deals with the measure of information, introduced by C. E. Shannon. However, it has several disadvantages that limit its application. The aim of this study identify the advantages and disadvantages of measures of information C. E. Shannon, the introduction of a new measure of information, which is characterized by its validity, applicability for different systems. Materials and methods. In developing the proposed measures of information used results of theoretical (mathematical) research, simulation modelling, allowing us to obtain new theoretical and practical results to determine measures Q information needed for research of various laws of distribution of continuous random variables (NSV) and discrete random variables (SDV). Results. In the work we investigated in detail the complex properties of measures of information C. E. Shannon introduced a measure of information, wherein the dependency probability values of probability densities, the positivity and the additivity of in the interval from zero to unity, allowing to identify the types of the distribution of NSV and SDV. The possibility of using the proposed measures to create a highly reliable code. Conclusions. The proposed measure has a number of positive properties and can be used for practical purposes in particular for the development of highly reliable code.

Key words: information, entropy, reliability, code, bandwidth, redundancy.

Высокодостоверный код - это код, достоверность (Д) которого близка к единице. Существующая теория информации оперирует с мерами информации, введенными К. Э. Шенноном [1], а именно: энтропией (Н), количеством информации (I), скоростями выдачи информации (R), пропускными способностями (С), избыточностями различных типов (фг), кодовыми расстояниями (d) и т.п. Мерам Шеннона свойственны свои достоинства и недостатки.

1. Энтропия дискретных случайных величин (ДСВ) H(X) измеряется и в целых, и в дробных битах, т.е. 1 бит, 3 бита, 035 бита, 1/6 бита и т.д., при этом Н(Х) лежит в пределах -да < Н(Х) < +да. Отрицательное значение Н(Х) соответствует отрицательной (лже-) информации, т.е. она является недостоверной. Достоверная информация меняется в пределах

0 < H(X) < ю,

т.е. она может обнаруживать и исправлять (контролировать) все аддитивные и мультипликативные ошибки во всех разрядах кода.

2. Не обеспечивается однозначное соответствие между разрядами исследуемого помехоустойчивого кода (ПК) и значениями контролируемой ошибки, т.е., например, искажен первый разряд ПК, а ошибка оказалась в четвертом разряде, поэтому подсчитанные значения энтропий ошибок оказываются различными. Таким образом, мы получаем, что закон распределения ДСВ нарушается; ту же картину мы можем получить, когда имеем непрерывную случайную величину (НСВ) со своей энтропией Нн (Х).

3. Нн (Х) может быть и отрицательной величиной, что в принципе противоречит понятию энтропии как положительной величины, изменяющейся от 0 до да. В самом деле, Нн (Х) для нормального закона распределения есть

Нн (Х) = log2A/2rö о*,

и оно может быть и отрицательным, если ox << 1. Поэтому понятием энтропии НСВ нужно пользоваться с огромным напряжением, не забывая, что Нн может быть и меньше нуля.

4. Нн (Х) измеряется в битах, или нитах, или дитах, в зависимости от основания выбранного показателя логарифма; переход от одного основания к другому осуществляется очень просто - через модули перехода, например:

log2X = 1,44lnx; lnx = 0,69log2x; M = lne = 1,44; — ln2 = 0,69; lne = 0,43;

M1

ln10 = 2,3 и т.д. (log2x соответствует биту; lnx соответствует ниту; lgx соответствует деситу).

5. Нн (Х) измеряется непонятно в каких единицах, так как из формулы

log^n (Х) = - J f (x) log2/(x) dx

следует, что $х)ёх - безразмерная величина, но остается 1о§„, который измеряется непонятно в каких единицах, поскольку единицы измерения Нн остаются неизвестными [2].

Понятие бита в информатике, к сожалению, не совпадает с понятием бита в вычислительной технике (ВТ). В последней бит - это один разряд дво-

ичного числа, он может быть только целым числом, но не может быть дробным битом.

6. У Нн(Х) и Н(Х) нет однозначно соответствия между законом распределения ДСВХ и НСВХ и значением Qд(X) и Qн(X), последние изменяются в пределах от 0 до 1, энтропии же меняются от -да до +да .

7. В случае использования значений Qд(X) и Qн(X) мы можем найти граничные значения Qд(X) и QU(X); одно равняется нулю (минимальное значение), а второе равняется единице (максимальное значение). Каждое из них соответствует определенным законам распределения: в случае ДСВ - это равномерный дискретный закон и закон Пуассона [3], в случае НСВ - это прямоугольный непрерывный закон и закон Коши. В математической записи это выглядит как

Qд(X) = 1о& 2 - 1с82р, (1)

1=1 '=1

Qн(X) = 1082 | / 2(х)Л - | /(х)1о8:^(х)ёх, (2)

-<*>

где Qд(X), Qн(X) - количество информации в ДСВХ и НСВХ; п - количество значений ДСВХ; _Дх) - плотность вероятности НСВХ.

Естественно, что введенные меры информации удовлетворяют всем известным свойствам ДСВХ и НСВХ. ДСВХ представляет собой [4] решетчатую функцию, положительную, так как ДСВХ лежит в пределах 0 < р' < 1, удовле-

п

творяющую условиям нормировки = 1, имеющую дискретное преобра-

'=1

зование Фурье; может подчиняться любым дискретным алфавитам; может составлять дискретные сообщения (ДС); может быть помехоустойчивым относительно разного вида помех (аддитивной и мультипликативной); может быть использован в качестве дискретного шифра разной степени стойкости; может быть использован в качестве кода дешифровки; может быть построен высокоэффективный код [5]; может быть построен код с любой степенью достоверности Д от нуля до единицы; может быть построен код с любым значением кодового расстояния й0; может быть построен код с любым значением арифметического расстояния йА; может быть построен код с любыми другими информационными (энтропийными) характеристиками; может быть построен код с любым числом контролируемых ошибок.

НСВХ представляет собой непрерывную (плавную) кривую; она может располагаться в любых октантах цифрового поля; нет однозначного соответствия между значением Нн(Х) и значением стандарта для НСВХ, например:

Нн = - | / (х)1о82Дх)<яХ и Нн(Х) = Ъ&^гкё Ох, (3)

где ох - стандарт (среднеквадратичное отклонение НСВХ), это значение может быть любым, и тогда Нн(Х) также может быть любым. Н(Х) также может быть принимать любые значения, соответствующие значению о.

Полученное значение дифференциальной (непрерывной) энтропии соответствует не только одному конкретному закону распределения, но и может быть другим, что вполне объяснимо; она может принимать и отрицательные значения, что очень трудно истолковать физически. Понятие максимального значения дифференциальной энтропии также трудно истолковать физически - в разных случаях можно получить различные значения максимума дифференциальной энтропии.

К. Э. Шенноном доказано [1], что информационно-статистические характеристики (ИСХ) обладают различными свойствами. Например, условные энтропии Н(Х/У), Н(У/Х) всегда меньше или равны своим безусловным энтропиям т.е.

Н (Х > Н (Х/У), Н (У) > Н (У/Х). (4)

Кроме того,

Н (Х) = Н (Х/У) + Н (Х- У), (5)

Н (У) = Н (У/Х) + Н (Х- У), (6)

где Н (ХУ) - взаимная энтропия.

Совместная энтропия Н (Х,У) = Н (УХ) и равна, соответственно,

Н (Х,У) = Н (Х)+ Н (У/Х) = Н (У)+ Н (Х/У) = Н (Х) - Н (У) - Н (Х У). (7)

Взаимная энтропия

Н (Х У) = Н (УХ) ^ Н (Х) - Н (Х/У) = Н (У) - Н (У/Х) - Н (Х,У) =

= Н (Х/У) - Н (У/Х). (8)

Все приведенные выше формулы имеют простой физический смысл и могут быть проиллюстрированы диаграммами Венна[4]; им же было введено понятие избыточности ф1 [5] и изменения избыточности Дф.

Дф1 = Н(Х)т1П - Н(Х). (9)

ф1 = Н(Х)тах -н(Х) _ (10)

Н (X )тах

Кроме понятия избыточности существуют частные виды избыточности: - избыточность, обусловленная неравномерным распределением символов в сообщении:

фи = 1 -

( "Хр, 1о§Л ^

1°ё2 и

(11)

- избыточность, вызванная статистической связью между символами сообщения:

( у. \

( "X, X/ (Х )Р ~ 10§2 Р (уу )( Х/))

фа = 1[--]; (12)

" ХР, 1о§ р,

- полная информационная избыточность ф:

ф = фи + фа - фи ■ фа. (13)

В работе [4] было введено понятие корректирующей способности У. Кроме понятия избыточности, вводится понятие корректирующей способности (У)кода

у = ш! = 1 - к, (14)

и и

где к - количество корректирующих (добавочных) символов; и - общее количество символов в коде.

Избыточность, которая заложена в природе данного кода, получается в результате неравномерного распределения в сообщениях качественных признаков этого кода и не может быть задана одной цифрой на основании статистических испытаний.

При передаче десятичных цифр двоичным кодом максимально загруженными бывают только те символы вторичного алфавита, которые имеют значения, являющиеся целочисленными степенями двойки. В остальных случаях тем же количеством символов может быть передано большее количество цифр (сообщений). Например, тремя двоичными разрядами мы можем передать и цифру 5, и цифру 8, т.е. на передачу пяти сообщений тратится столько же символов, сколько тратится и на восемь сообщений [5].

Фактически для передачи сообщения достаточно иметь длину кодовой комбинации (КК), равную

* = ^, (15)

1о82 и

где N - количество передаваемых сообщений; и - длина всех КК.

Ь = ^, (16)

1о82 и2

где иг и и2 - соответственно, качественные признаки двоичного и вторичного алфавитов. Поэтому для цифры 5 в двоичном коде можно записать

Ь > ^ = 2,32 (17)

и симв.

Однако полученную цифру необходимо округлить до ближайшего целого числа, так как длина кода не может быть выражена дробным числом. Округление, естественно, производится в большую сторону (следовательно, Ь = 3 разрядам).

В общем случае избыточность от округления есть

фо = ^, (18)

к

где ф = о§2—к ; к - округленное до ближайшего целого числа значение ф. 1о82 и2 Имеем

3 " 2 32

фо = « 0,227. (19)

Избыточность может быть заложена как в первичном алфавите, так и в природе кода, составленного во вторичном алфавите. Например, при передаче русских текстов в двоичном неравномерном коде избыточность будет как за счет неравномерной статистики появления букв алфавита в текстах, так и за счет избыточности, заложенной в двоичном коде, суть которой заключается в том, что в двоичном коде вероятность появления 0 больше вероятности появления 1 (максимальная нагрузка на символ может быть лишь при равновероятном появлении символов). Таким образом, существует избыточность, вызванная неравной вероятностью появления 0 и 1 в двоичном безызбыточном коде, и длина кода при этом будет уменьшаться по мере увеличения значимости, т.е. длины кода Ь.

Избыточность не всегда нежелательное явление. Для повышения помехоустойчивости кодов избыточность вводят искусственно в виде добавочных К символов. Если в коде всего п разрядов и т ждут информационную нагрузку, то к = п - т характеризует абсолютную корректирующую способность (АКС), а величина

у = П-к. = -к (20)

т т

характеризует относительную корректирующую способность (ОКС).

Информационная избыточность - обычно явление естественное, заложена она в кодах, представленных во вторичном алфавите. Корректирующая способность - явление искусственное, заложена она в кодах, представленных во вторичном алфавите.

Коды без избыточности обнаруживать, а тем более исправлять ошибки не могут. Минимальное количество символов, в которых любые две КК отличаются друг от друга, называется кодовым расстоянием (расстоянием по Хеммингу). Для того, чтобы его вычислить, практически нужно сложить по mod2 поразрядно две соседние КК и подсчитать количество единиц в полученной сумме. Это и будет значение ¿0.

Рассмотрим пример определения ¿0. Пусть даны две КК двоичного кода. Сложим их по модулю 2.

10101

Ф

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

-21111. (21)

11010

Получаем, что й0 = 3.

Делаем вывод о том, что данный код обнаруживает и исправляет одну ошибку, поскольку [5] доказывается, что

ё0 = r+s+1, (22)

где г - количество обнаруживаемых ошибок; 5 - количество исправленных ошибок.

Если код только обнаруживает или исправляет ошибки, справедливы формулы:

¿0 = г + 1, (23)

¿0 = 25 + 1. (24)

Для обнаружения и исправления одиночной ошибки имеем

2к > п + 1, (25)

2п

2т < —. (26) п +1

Естественно, что

п = т + к. (27)

Для практических расчетов при определении числа контрольных разрядов к с минимальным кодовым расстоянием й0 = 3 имеем

к(2) = ]1082]п + 1[ [, (28)

где ][ - означает, что округление идет в большую сторону, если известны длина ложной ККп и

к:(2) = ] 1о82]]т + 1[+]1о82]т + 1[[[, (29)

если при расчетах удобнее исходить из заданного числа информационных символов т.

Для кодов, обнаруживающих все трехкратные ошибки й0 = 4:

кг(3) >1 + 1о82]п + 1[ (30)

или

к](3) >1 + 1о§2] т + 1) + ^2] т + 1[. (31)

Для кодов длиной в п символов, исправляющих одну или две ошибки (¿0 = 5):

к(2) > 1о82]Сп2+ с„1 + 1[. (32)

Для практических расчетов можно воспользоваться выражением

к(2) = ] 1о82п 2 + п + 1 [. (33)

8

Для кодов, исправляющих 3 ошибки (¿0 = 7):

к(3) = ] 1о§2 п3 + п2 + п +1 [. (34)

8

Для кодов, исправляющих ошибок (¿0 = 25 + 1):

1о82(с„5 + с„5+1 +... 1)< к(5) < 1о82(си-125-1+ с«-!25-2 + ... + 1). (35)

Выражение слева известно как нижняя граница Хемминга, а выражение справа - как верхняя граница Плоткина - Гильберта.

Для приближенных расчетов можно пользоваться выражением

к(5) = ] 1о82 п + п + ••• + 1 [. (36)

5!

Приведенные формулы позволяют определять количество ошибок при разных моделях помех.

Список литературы

1. Шеннон К. Э. Работы по теории информации и кибернетике / К. Э. Шеннон. - М. : Инлит, 1963. - 720 с.

2. Квятковский Ю. Г., Мандриков В. И., Селиванов Е. П. Подход к определению меры информации в дискретных сообщениях при проектировании авиационных тренажеров / Ю. Г. Квятковский, В. И. Мандриков, Е. П. Селиванов // Труды Международного симпозиума «Надежность и качество». - Пенза, 2005. -С. 168-170.

3. Селиванов Е. П. Определение и исследование количества знаний р для различных законов распределения случайных величин (СВ) и случайных процессов (СП) / Е. П. Селиванов. - Пенза : ПензГТУ, 2014. - 80 с.

4. Темников, Ф. Е.Теоретические основы информационной техники / Ф. Е. Темников, В. И. Афонин, В. И. Дмитриев. - М. : Энергия, 1979. - 512 с.

5. Цымбал В. П. Теория информации и кодирования / В. П. Цымбал. - Киев : Выща школа, 2010. - 273 с.

Квятковский Юрий Григорьевич

кандидат технических наук, доцент, кафедра прикладной информатики, Пензенский государственный технологический университет E-mail: [email protected]

Селиванов Евгений Павлович доктор технических наук, профессор, кафедра прикладной информатики, Пензенский государственный технологический университет E-mail: [email protected]

Kvyatkovskiy Yuri Grigoryevich candidate of technical sciences, associate professor, sub-department of applied informatics, Penza State Technological University

Selivanov Evgeniy Pavlovich doctor of technical sciences, professor, sub-department of applied informatics, Penza State Technological University

УДК 004.056.5 Квятковский, Ю. Г.

К вопросу создания высокодостоверного кода, основанного на мерах информации, введенных Е. П. Селивановым / Ю. Г. Квятковский, Е. П. Селиванов // Модели, системы, сети в экономике, технике, природе и обществе. - 2016. - № 2 (18). -С. 178-185.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Квятковский Юрий Григорьевич, Селиванов Евгений Павлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Квятковский Юрий Григорьевич, Селиванов Евгений Павлович

THE QUESTION OF CREATING HIGHLY RELIABLE CODE, BASED ON MEASURES OF INTRODUCED BY E. P. SELIVANOV

Текст научной работы на тему «К вопросу создания высокодостоверного кода, основанного на мерах информации, введенных Е. П. Селивановым»