Алгоритмы генетического кодирования при различных конфигурациях пространства источника

Баталов Алексей Эдуардович; Синева Ирина Сергеевна

АЛГОРИТМЫ ГЕНЕТИЧЕСКОГО КОДИРОВАНИЯ ПРИ РАЗЛИЧНЫХ КОНФИГУРАЦИЯХ ПРОСТРАНСТВА ИСТОЧНИКА

Баталов Алексей Эдуардович,

аспирант, МТУСИ, Россия, Москва, i.alexey.batalov@gmail.com

Синева Ирина Сергеевна,

профессор, МТУСИ, Россия, Москва, iss@mtuci.ru

Ключевые слова: генетические алгоритмы, помехоустойчивое кодирование, размерность пространства, конфигурация пространства, распределение Коши, нормальное распределение, равномерное распределение.

Помехоустойчивость всегда являлась одним из главных аспектов передачи сообщений. Важно не только передать сообщений, но и обезопасить его от влияния шумов и искажений. Для чувствительных к задержкам случаев были разработаны различные классы алгоритмов, которые позволяют снизить вред от искажений, не привнося при этом дополнительной избыточности [1, 2]. Один из таких классов - генетические алгоритмы (ГА) безызбыточного кодирования источника сообщений. Такие алгоритмы применяются на этапе предварительного кодирования. Вопрос, который рассматривается в данной работе -исследование эффективности алгоритма в зависимости от конфигурации исходного пространства источника сообщений. Алгоритм генетического кодирования позволяет закодировать поля точек произвольной формы и размерности. Для тестирования рассматривались пространства источника различной размерности и конфигурации, имеющие до 214 точек. При увеличении количества точек эффективность алгоритма только возрастает. А именно, среднее расстояние между комбинациями, которые расположены на единичном расстоянии в кодовом пространстве, становится в два раза меньше аналогичного, полученного при различной реализации случайного кодирования. Это составляет порядка 100-200 сигма. Зависимость эффективности генетического алгоритма как функции размерности пространства также является предметом исследования. В целом она не является монотонной. Для поля из 212 точек эффективность составляет 200 сигма, для некоторой размерности порядка 300 сигма. Помимо этого были рассмотрены различные распределения, которые могу описывать источник сообщений: Гаусса, Коши, равномерное [3]. Эти модели соответствуют сильной, слабой локализации и отсутствию локализации. При этом, чем сильнее локализация, тем более эффективным оказывается алгоритм генетического кодирования. При нормальном распределении выигрыш составляет порядка 200 сигма, при равномерном около 180 сигма, при распределении Коши более 130 гамма для полей из 212 точек. Исследуется зависимость эффективности ГА для источников в эвклидовых пространствах разных размерностей и при линейных деформациях пространства источника, меняющем количество значимых главных компонент распределения. В двух последних случаях получены обратнопропорциональные зависимости, доказано существование асимптотических эффективностей и найдены их значения, которые составили от 80 до 200 сигма для гауссовских полей источника. Для каждого исследованного варианта генетические алгоритмы смогли закодировать источник сообщений существенно более эффективно, чем алгоритм случайного (произвольного) кодирования.

Для цитирования:

Баталов А.Э., Синева И.С. Алгоритмы генетического кодирования при различных конфигурациях пространства источника // T-Comm:

Телекоммуникации и транспорт. - 2015. - Том 9. - №7. - С. 53-59.

For citation:

Batalov A.E., Sineva I.S. Genetic coding algorithms for various configurations of source spaces. T-Comm. 2015. Vol 9. No.7, рр. 53-59.

(in Russian).

Поля источников сообщений с нормальным распределением.

Введение

Рассматриваются ансамбли источника, смоделированные как случайные поля с различными распределениями в многомерных пространствах. Количество точек может варьироваться от 21 до 2', при этом будут рассмотрены только поля, количества точек, которых кратно 2". Генетическое кодирование точек проводится на основе матрицы расстояний между точками [4, 9]. В общем случае это мера Махалонобиса, для удобства будет использован частный случай в виде меры Евклида. Размерность исходного пространства может быть произвольной. Отсутствие ограничений связано с тем, что алгоритм работает с матрицей попарных расстояний и опирается на ее размерность, т.е. на число точек, а не конкретный способ метризации пространства и подсчета матрицы расстояний. Визуализация результатов будет приведена для пространств Я1 и К". Основным результатом работы алгоритма являются кодовые комбинации для каждой точки. Кодовые комбинации имеют длину N и все возможные комбинации должны быть использованы. В данной работе рассмотрен только этап предварительного кодирования. Более подробно анализ последующих этапов кодирования, дополненных предварительным генетическим кодированием, был проведен в работах [5, 6, 7].

Для оценки эффективности кодирования будут введены несколько дополнительных метрик. Основная мера -это среднее расстояние в исходном кодовом пространстве источника между всем точками, которые находятся на единичном расстоянии в пространстве кодовых комбинаций. Далее это будет среднее единичное расстояние, при этом - среднее единичное расстояние для результата

алгоритма генетического кодирования, цг - состоятельная

несмещенная и эффективная оценка математического ожидания средних единичных расстояний среди 1000 реализаций алгоритма случайного кодирования при фиксированной конфигурации пространства источника сообщений, а — состоятельная несмещенная асимптотически эффективная оценка среднеквадратического отклонения средних единичных расстояний по той же выборке. Мерой эффективности будет величина

0-,

Дело в том, что для оценки преимуществ ГА необходим «масштаб», роль которого в (I) играет оценка среднеквадратического отклонения. Результат е$ показывает, на сколько сигма отклоняется результат генетического кодирования от результатов средних значений. Результаты показывают, что знаменитое инженерное правило «трех сигма» перекрывается ГА многократно и отклонения лучше средних значений на сотни сигма. Стоит отметить, что несмотря на близость к кодам Грея, это разные алгоритмы и их сравнение приведено в работе [8].

Эти поля представляют собой пример полей с сильной локализацией. Это должно способствовать эффективной работе алгоритма генетического кодирования. Кодирование производилось для полей точек, описываемых нормальным распределением с центром рассеяния в начале координат и единичной матрицей ковариации. Результаты работы алгоритмов кодирования и оценка эффективности представлены в табл. I. На рисунке I показан пример работы генетического и случайного алгоритма кодирования для одного и того же поля 64 точек. На рисунке хорошо заметно, что при случайном кодировании на единичном расстоянии в кодовом пространстве находятся точки, которые в исходном пространстве часто располагаются достаточно далеко. В то время как в случае генетического алгоритма кодирования, таких случаев гораздо меньше и близкие точки в кодовом пространстве также являются близкими в исходном пространстве источника сообщений. На этом же рисунке представлена гистограмма распределения средних единичных расстояний для 1000 реализаций случайного кодирования. Значения на гистограмме расположены в пределах [1.65, 2.0], в то время как среднее единичное расстояния для генетического алгоритма кодирования равно 1.26, что значительно меньше левой границы варьирования. Положительные значения eff в табл. I показывают, что во всех случаях ГА эффективнее произвольных равномерных кодировок исходных массивов.

Таблица I

Сравнение алгоритмов кодирования в зависимости от количества точек. Нормальное распределение

Число точек поля 2" А* Я еЦ

21 1,6491 1,7956 0,1540 0.95 [ 1

Г 1,6367 1.7402 0,1276 0,8110

Г 1,6850 1,8978 0,1002 2,1614

Г 1,4142 1,8172 0,0662 6,0857

Г 1,4859 1,9415 0,0489 9,3128

2' 1,0810 1,7161 0,0293 21,6299

2е 1.1341 1,8236 0,0215 32,056

Г 1,0000 1,7384 0,0972 54,6197

Г 0,9676 1,7430 0,0091 84,9599

2" 0,9171 1,7322 0,0061 131,5047

211 0,9222 [,7977 0,0044 195,3083

2" 0,8472 1,7750 0,0032 289,3315

2й 0,8496 1,7708 0,0019 475,2575

Как следует из таблицы I, эффективность генетического кодирования стремительно возрастает с ростом числа точек и с коэффициентом детерминации 99,98% описывается уравнением регрессии

ф = 0.9059 - е*л™ * - 0.6969 (2)

8 то же время модель (5) имеет низкий коэффициент детерминации 35,35%, что хорошо заметно на рис. 7. Зависимость эффективности от размерности пространства в этом случае немонотонна, что само по себе является ценным и неожиданным результатом. При 5 <£<100 лучший результат дает аппроксимация вида

е# = 192.523+ 912.389 * ' (6)

Коэффициент детерминации для модели (6) достаточно высокий и составляет 95,3%.

штаба у для распределения Коши) одной из координат. Первый параметр в каждом случае равен нулю. Для другой координаты распределение остается неизменным и в каждом случае имеет параметры {0, I) . Количество точек в пространстве для каждого случая также одинаково и равно 2 : Графически зависимость в случае нормального распределения представлена на рис. 8.

Таблица 4

Сравнение эффективностей алгоритмов кодирования в зависимости от конфигурации пространства

Параметр 1 2 4 6 10 50 100

Равномерное 126.8353 ! 10.70М 84,39219 85,03305 88.19276 81.59522 83,58135

Нормальное 142,0917 122,5112 1 14,1741 93,79139 88,3212 81.25111 90,03037

Коши 103,3529 106,1 184 91.49021 95.66898 92.34861 80.31918 82.91202

Рис. 7. Зависимость эффективности от размерности пространства источника

Необходимо отметить, что на рис. 7 минимальное значение эффективности составляет 80. Для высоких размерностей эффективность несколько снижается по сравнению с максимумом, но все еще остается достаточно большой в сравнении с алгоритмами случайного кодирования. Асимптотическая эффективность при увеличении количества точек, как это следует из уравнения (6). составляет около 200 сигма, что свидетельствует в пользу предварительного генетического кодирования двоичного источника в пространствах высокой размерности.

Анализ эффективности кодирования при линейных деформациях пространства источника

В данном разделе были рассмотрены случаи, когда в к-мерном пространстве конфигурация источника отлична от сферически симметричной. На языке статистического анализа это означает, что среди главных компонент поля точек можно выделить стандартными критериями (например, критериями Кайзера или Кеттла) некоторое число главных компонент г, причем г<к. Здесь будут представлены результаты для двухмерного случая. Изначально сферически симметричное распределение будет «вытягиваться» по одному из направлений переходя в практически одномерное. В качестве моделей распределения будут рассмотрены те же распределения, что были проанализированы выше. Выражаем отдельную благодарность Анне Ботт за помощь в подготовке данных результатов. Далее в табл. 4 представлена оценка эффективности в зависимости от второго параметра распределения (<т для Нормального распределения, Ь для равномерного и коэффициент мас-

Рис. 8. Зависимость эффективности от распределения одной из координат при нормальном распределении

Независимо от распределения результаты являются очень похожими и имеют обратную зависимость от коэффициента масштаба одной переменной. Полученные регрессии и коэффициенты детерминации представпены в табл. 5.

Уравнения регрессии

Таблица 5

Параметр Уравнение К1

Равномерное 47.4166-ж"' + 80.4693 92.68%

Нормальное 59.5547. л-"1 + 87.1831 90.23%

Коши 21.5398-х"' + 86.8750 63.30%

Обращает на себя внимание тот факт, что асимптотические значения эффективности близки и составляют около 80у для равномерного распределения и 87удля распределения Гаусса. Значение асимптотической эффективности для распределения Коши приведено для справки, оно не может быть корректно выражено по аналогии с двумя другими, поскольку дисперсия этого распределения не существует. Полученные значения асимптотических эффективностей совпадают с аналогичными значениями для соответствующего одномерного распределения.

Т-Сотт Уо!.9. #7-2015

Выводы

1. При увеличении количества точек эффективность генетического алгоритма только возрастает. При удвоении числа точек эффективность увеличивается примерно в 1,725 раза и измеряется сотнями сигма.

2. Получены регрессионные зависимости с высоким коэффициентом детерминации, позволяющие оценить относительную эффективность ГА по сравнению с произвольными присвоениями равномерных кодовых комбинаций для больших источников и источников в пространствах высоких размерностей.

3. Для полей с сильной локализацией генетические алгоритмы показали более высокую эффективность, чем для полей без локализации и полей со средней локализация, В то же время даже для плохо локализующихся полей эффективность генетического кодирования составляет более 100 сигма.

4. Для высоких размерностей пространства источника эффективность составляет асимптотически примерно 200 сигма.

5. Деформация пространства источника типа сжатия-растяжения по отдельным координатам приводит к асимптотическим эффективностям, которые совпадают с эф-фективностями кодирования в соответствующих подпространствах меньшей размерности. Скорость сходимости к эффективностей к этим асимптотическим значениям обратно пропорционально зависит от параметра, отвечающего за растяжение.

Литература

I. Аджемов A.C., Горбунов Н.В., Синева И.С. Оценка эффективности генетического алгоритма кодирования сообщений при различных распределениях источников и их разнообразных мет-ризациях II В кн.: Научная конференция профессорско-

преподавательского, научного и инженерно-технического состава, - М.: МТУСИ, 2002. - С. 106-107.

2. Синева И.С. Улучшение качества передачи кодами, опирающимися на топологию источника сообщений II В кн.: Технологии информационного общества: Тезисы докладов московской отраслевой научно-технической конференции. - М.: Инсвязьиздат, 2007. - С. 169-170.

3. Баталов А.Э. Морфизмы пространств кодов и источников с согласованными топологиями II В кн.: Сборник тезисов участников VI Международного молодежного форума и IX Международной научно-технической конференции студентов и молодых специалистов из стран участников Регионального содружества в области связи «Информационные технологии в мире коммуникаций». - Москва. - 2013. - С.10-11

4. Баталов А.Э., Синева И.С. Оптимизация алгоритма генетического кодирования источника сообщений II T-Comm - Телекоммуникации и транспорт. - 2014. - №12. - С. 6-9.

5. Фенчук ММ., Синева И.С. Анализ помехоустойчивости генетического кодирования с применением циклического избыточного кода II T-Comm - Телекоммуникации и транспорт. -2014. - №11. - С. I08-U2.

6. Синева И.С., Баталов А.Э. Повышение устойчивости совершенного кода Хэмминга к воздействию импульсных помех с использованием генетического кодирования источника II Фундаментальные проблемы радиоэлектронного приборостроения. -М.: Энергоатом из дат, 2013, часть 4. - С. 150-154.

7. Фенчук ММ, Баталов А.Э,, Синева И.С. Повышение помехоустойчивости кодов CRC при помощи предварительного генетического кодирования метризованного источника сообщений II Фундаментальные проблемы радиоэлектронного приборостроения. - М.: Энергоатомиздат, 2013, часть 4. - С. 65-70.

8. Фенчук ММ., Баталов А.Э., Синева И.С. Сравнительная помехоустойчивость кодов Грея и алгоритмов генетического типа II Фундаментальные проблемы радиоэлектронного приборостроения. - М.: Энергоатомиздат, 20! 4, часть 5. - С. 44-47.

9. Яковлев Д.А., Синева И.С. Применение параллельных вычислений в генетических алгоритмах поиска П Фундаментальные проблемы радиоэлектронного приборостроения. - М.: Энергоатомиздат, 2014, часть 5. - С. 214-219.

GENETIC CODING ALGORITHMS FOR VARIOUS CONFIGURATIONS OF SOURCE SPACES

Alexey Batalov, Moscow Technical University of Communications and Informatics, Postrgaduate student, Moscow, Russia,

i.alexey.batalov@gmail.com Irina Sineva, Moscow Technical University of Communications and Informatics, Professor, Moscow, Russia, iss@mtuci.ru

Abstract

Noise immunity has always been one of the main aspects of messaging. It is important not only to convey messages, but also protect it from the effects of noise and distortion. For delay-sensitive cases were developed various classes of algorithms that reduce the harm caused by distortions, not at the same time introducing additional redundancy. One these classes - genetic algorithms (GA) of breakeven coding message sources. Such algorithms are applied for pre-coding. This article focuses on study of the algorithm effectiveness depending on the of the original message source space configuration. Genetic coding algorithm allows us to encode points field of an arbitrary shape and dimension. Sources of various dimensions and configurations were tested. Increasing the number of points leads to the increased efficiency of the algorithm. Namely, the average distance between the combinations which are situated at unit distance in the code space, it is twice less than that obtained by the implementation of different random coding. This is about 100-200 sigma. Dependence of the genetic algorithm efficiency as a function of the space dimension is also a subject of study. In general, it is not monotonic. For different random field efficiency from 200 to 300 sigma were obtained. In addition we have discussed various distributions which can describe the source of messages: Gauss, Cauchy, uniform. These distributions simulates sources with strong localization, weak localization and lack of localization. At the same time the stronger localization entails the more effectiveness of the genetic coding algorithm. For a normal distribution the gain is about 200 sigma, for uniform about 180 sigma, for the Cauchy distribution - more than 130 gamma. The dependence of the GA efficiency for the sources in Euclidean spaces of different dimensions and linear deformation of the source that changes the number of significant principal components was anylized. In the last two cases was obtained inverse proportional relationship, proved the existence of asymptotic efficiency and found its values that ranged from 80 to 200 sigma for Gaussian source fields. For each tested variant genetic algorithms were able to encode the source of messages much more effective than any random coding algorithm.

Keywords: genetic algorithms, noiseless coding, dimensions of space, Cauchy distribution, normal distribution, uniform distribution. References

1. Adzhemov A.S., Gorbunov N.V., Sineva I.S. (2002) 'Evaluating the effectiveness of the genetic encoding algorithm for different distributions of sources and a variety of metrization', Scientific Conference of faculty, scientific and technical staff, materials; MTUCI, pp. 106-107. [in Russian]

2. Sineva I.S. (2007) 'Improving the quality of the transmission codes, based on the topology of the message source', Proceedings of the Moscow branch scientific and technical conference; Insvyazizdat, pp. 169-170. [in Russian]

3. Batalov A.E. (2011), 'Morphisms of spaces codes and sources with agreed topologies', Abstracts of the VI International Youth Forum and the IX International scientific and technical conference of students and young professionals from countries participating in the Regional Commonwealth in the field of communication "Information technology in the world of communications"; Moscow, pp.10-11. [in Russian]

4. Batalov A.E., Sineva I.S. (2014) 'Optimization of genetic algorithms of message source coding', T-Comm, (12), pp. 6-9. [in Russian]

5. Fenchuk M.M., Sineva I.S. (2014), Immunity Analysis of genetic code using a cyclic redundancy code, T-Comm, (11), pp. 108-1 12. [in Russian]

6. Sineva I.S., Batalov A.E. (2013) 'Enhancing the stability of the perfect Hamming code to the effects of impulse noise using a genetic source coding', Fundamental problems of radio-electronic instrument; Proceedings of the International Scientific and Technical Conference INTER-MATIC-2013; Energoatomizdat, (4), pp. 150-154. [in Russian]

7. Fenchuk M.M., Batalov A.E., Sineva I.S. (2013) 'Increase noise immunity of CRC codes using preliminary genetic coding of a metrized messages source', Fundamental problems of radio-electronic instrument; Proceedings of the International Scientific and Technical Conference INTERMATIC-2013; Energoatomizdat, (4), pp. 65-70. [in Russian]

8. Fenchuk M.M., Batalov A.E., Sineva I.S. (2014) 'Comparative noise immunity analysis of Gray codes and genetic algorithms', Fundamental problems of radio-electronic instrument; Energoatomizdat, (5), pp. 44-47. [in Russian]

9. Yakovlev D.A., Sineva I.S. (2014) 'Parallel computing in genetic search algorithms', Fundamental problems of radioelectronic instrument; Energoatomizdat, (5), pp. 214-219. [in Russian]

Алгоритмы генетического кодирования при различных конфигурациях пространства источника Текст научной статьи по специальности «Физика»

Аннотация научной статьи по физике, автор научной работы — Баталов Алексей Эдуардович, Синева Ирина Сергеевна

Похожие темы научных работ по физике , автор научной работы — Баталов Алексей Эдуардович, Синева Ирина Сергеевна

Текст научной работы на тему «Алгоритмы генетического кодирования при различных конфигурациях пространства источника»