Научная статья на тему 'МАСШТАБИРУЕМОСТЬ БИОЭВРИСТИК ДЛЯ ЗАДАЧ МНОГОМЕРНОЙ ОПТИМИЗАЦИИ'

МАСШТАБИРУЕМОСТЬ БИОЭВРИСТИК ДЛЯ ЗАДАЧ МНОГОМЕРНОЙ ОПТИМИЗАЦИИ Текст научной статьи по специальности «Математика»

CC BY
22
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИОЭВРИСТИКА / МАСШТАБИРУЕМОСТЬ / МНОГОЭКСТРЕМАЛЬНЫЕ ФУНКЦИИ / ОПТИМИЗАЦИЯ

Аннотация научной статьи по математике, автор научной работы — Родзина Ольга Николаевна, Родзин Сергей Иванович

Предлагается масштабируемый биоэвристический алгоритм способный решать многомерные оптимизационные задачи. Используются специальные операторы для поддержки разнообразия популяции решений, расширения области поиска решений за счет менее перспективных решений. Оценка эффективности предложенного алгоритма проводится на наборе многомерных функций Гриванка, Растригина, Розенброка, Швефеля. Показатели разработанного алгоритма сравнивают с показателями конкурирующих алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Родзина Ольга Николаевна, Родзин Сергей Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SCALABILITY OF BIO-HEURISTICS FOR MULTIDIMENSIONAL OPTIMIZATION PROBLEMS

A scalable bio-heuristic algorithm capable of solving multidimensional optimization problems is proposed. Special operators are used to support the diversity of the solution population, to expand the search area for solutions at the expense of less promising solutions. The efficiency of the proposed algorithm is evaluated on a set of multidimensional functions of Grivank, Rastrigin, Rosenbrock, and Schwefel. The indicators of the developed algorithm are compared with those of competing algorithms.

Текст научной работы на тему «МАСШТАБИРУЕМОСТЬ БИОЭВРИСТИК ДЛЯ ЗАДАЧ МНОГОМЕРНОЙ ОПТИМИЗАЦИИ»

2. Инфраструктура Сибири, Дальнего Востока и Арктики. Состояние и три этапа развития до 2050 года / Под ред. члена-корреспондента РАН Макоско А. А. - СПб.: ИПТ РАН. 2019. 468 с.

3. Цыганов В. В. Инфраструктурная политика Мегапроекта «Единая Евразия: ТЕПР-ИЕТС» // Информационные технологии в науке, образовании и управлении. 2019. № 2 (12). С. 58-62.

4. Цыганов В. В. Основы управления развитием инфраструктуры Сибири, Дальнего Востока и Арктики // Информационные технологии в науке, образовании и управлении. 2019. № 4 (14). С. 49-53.

5. Цыганов В. В. Когнитивное прогнозирование комплексной инфраструктуры крупномасштабного региона // Информационные технологии в науке, образовании и управлении. 2020. № 1. С. 18-23.

6. Цыганов В. В. Механизмы развития транспортной инфраструктуры в сложных климато-географических условиях // Информационные технологии в науке, образовании и управлении. 2020. № 2 (16). С. 3-7.

Сведения об авторе Владимир Викторович Цыганов

д-р техн. наук, проф., зав. отд. Институт проблем управления им. В.А.Трапезникова РАН Москва, Россия Эл. почта: [email protected]

Information about author

Vladimir Victorovich Tsyganov

Doctor of Science (Tech.), Prof., head of division V.A. Trapeznikov Institute of management problems of the RAS Moscow, Russian Federation E-mail: [email protected]

УДК 004.832.23 С.И. Родзин, О.Н. Родзина

ГРНТИ 28.23.19 Южный федеральный университет

DOI: 10.47501/ITNOU.2021.1.08-14

МАСШТАБИРУЕМОСТЬ БИОЭВРИСТИК ДЛЯ ЗАДАЧ МНОГОМЕРНОЙ ОПТИМИЗАЦИИ

Предлагается масштабируемый биоэвристический алгоритм способный решать многомерные оптимизационные задачи. Используются специальные операторы для поддержки разнообразия популяции решений, расширения области поиска решений за счет менее перспективных решений. Оценка эффективности предложенного алгоритма проводится на наборе многомерных функций Гриванка, Растригина, Розенбро-ка, Швефеля. Показатели разработанного алгоритма сравнивают с показателями конкурирующих алгоритмов.

Ключевые слова: биоэвристика, масштабируемость, многоэкстремальные функции, оптимизация.

S. Rodzin, О. Rodzina

Southern Federal University

SCALABILITY OF BIO-HEURISTICS FOR MULTIDIMENSIONAL OPTIMIZATION PROBLEMS

A scalable bio-heuristic algorithm capable of solving multidimensional optimization problems is proposed. Special operators are used to support the diversity of the solution population, to expand the search area for solutions at the expense of less promising solutions. The efficiency of the proposed algorithm is evaluated on a set of multidimensional functions of Grivank, Rastrigin, Rosenbrock, and Schwefel. The indicators of the developed algorithm are compared with those of competing algorithms.

Keywords: bio-heuristics, scalability, multi-extreme functions, optimization.

Введение

Задач поиска оптимальных решений в условиях различных ограничений бесчисленное множество. Каждый процесс в науке и технике, экономике и бизнесе имеет потенциал для оптимизации и может быть сформулирован как оптимизационная задача. Большинство реальных задач оптимизации сложны, их трудно точно решить в течение разумного времени. Альтернативой для решения этих задач являются приближенные методы, в частности, биоэвристики, которые могут быть адаптированы для решения NP-сложных оптимизационных задач, обеспечив достаточно хорошее решение. Биоэвристики исследуют пространство поиска, синтезируя решения, являющиеся точками этого пространства и запрашивая оценку их качества, или «приспособленность», которая используется для осуществления «естественного отбора» популяции решений. Тем самым биоэвристики обучаются тому, какие области пространства поиска содержат наилучшие решения. В этом смысле они являются одной из ветвей машинного обучения [1]. При решении задач многомерной оптимизации, а также при анализе больших данных и в машинном обучении, где объем обучающих данных может быть очень велик, особенно важным является свойство масштабируемости алгоритмов, используемых при решении этих задач. Масштабируемость алгоритма предполагает, что прямо пропорционально увеличению объема обрабатываемых данных растут его вычислительные затраты и способность при этом выдать наилучшее по его настоящим возможностям решение в любое время вычисления, даже если процесс вычислений не завершен естественным остановом. Масштабируемость также предполагает возможность проводить вычисления в пределах ограниченного объема памяти используемого компьютера. Особенно остро вопрос масштабируемости алгоритма стоит при решении многомерных оптимизационных задач и задач обработки больших объемов данных. Актуальной является задача разработки масштабируемой биоэвристического алгоритма, способного поддерживать разнообразие популяций решений и находить баланс между скоростью сходимости алгоритма и диверсификацией поиска в пространстве решений.

В этой статье рассматривается масштабируемый биоэвристический алгоритм для задач многомерной оптимизации.

Масштабируемый биоэвристический алгоритм для задач многомерной оптимизации

В биоэвристическом алгоритме вначале фиксируется популяция Р решений, обладающих некоторыми параметрами и связанных друг с другом посредством определенной структуры. Среди всего множества решений необходимо выбрать

наилучшие в смысле некоторого критерия оптимальности F (фитнесс-функция). Поскольку фенотипическая природа исследуемого множества решений произвольна, необходимо построить кодированное представление исходного множества решений в другом, конечном множестве, обладающем структурой, например, векторного пространства G (генотип).

Отображение вида ф: Р ^ G описывает связь между исследуемыми решениями, манипулирование которыми осуществляет алгоритм. Существует обратное отображение вида ф': G ^ Р, где каждому вновь сгенерированному элементу представления g е G соответствует элемент во множестве Р.

Тогда, например, процесс оптимизации с помощью биоэвристики состоит в построении множества решений Popt еР, для которых выполняются следующие условия:

Popt = аг^ах F [ф'1(^)], g е G.

Таким образом, в процессе оптимизации множество Р развивается и эволюционирует к оптимальному состоянию, изменяя свой состав и параметры входящих в него решений. Способ построения множества решений g е G определяется алгоритмом.

Особенность биоэвристик - в качестве множества G строится множество представлений решений в виде кодов (хромосом). Эволюция множества Р задается эволюцией представления G. На множестве G определяется подмножество Ро - случайная начальная популяция. Решение на каждом шаге эволюции определяется следующей разностной вычислительной схемой: Pt+l = 0Р), где 0- композиция различных популяционных операторов. Критерий оптимальности вычисляется на каждом шаге в процессе отбора решений по критерию, реализуемому в композиции операторов 0.

Предлагается следующий подход к решению проблемы высокой размерности при разумной поддержке разнообразия популяции биоэвристического алгоритма. Известно, что биоинспирированные алгоритмы имеют различные тенденции. Во-первых, сходиться к локальному, а не к глобальному оптимуму для многомерных задач. Во-вторых, с возрастанием размерности задачи увеличивается вероятность мутационных разрушение найденных наилучших решений. В-третьих, теряется разнообразие популяции решений. При этом в существующих на данный момент исследованиях недостаточное освещение получили вопросы, как бороться с преждевременной сходимостью биоэвристик, поддерживать разнообразие популяции и находить баланс между скоростью сходимости алгоритма и диверсификацией поиска решений. Для решения указанных вопросов предлагается вначале определять тенденцию к локальной сходимости алгоритма, а затем поддерживать разнообразие популяции путем замены избыточных особей из локальных кластеров на особи из неисследованных областей пространства решений. При этом с увеличением размерности задачи не происходит существенного роста размеров популяции и поддерживается ее разнообразие.

Идея предлагаемого масштабируемого биоинспирированного алгоритма (МБА) заключается в объединении преимуществ иерархической структуры популяции и когнитивного оператора мутации для поддержки разнообразия популяции и использованию перспективных областей поискового пространства. Схема МБА включает следующие шаги:

1. Инициализация популяции решений Р(0.

2. Оценка фитнесс-функции решений, входящих в P(t).

3. Выполнение procedure (построение иерархической структуры популяций).

4. Выполнение procedure (выполнение когнитивного оператора мутации).

5. Создание новой популяции P(t + 1) с помощью механизма поддержки разнообразия популяции, и когнитивного оператора мутации.

6. Оценка фитнесс-функции решений, входящих в P(t + 1). Проверка условий остановки.

7. Миграция особей из основной популяции. Переход к п.3.

Согласно процедуре построения иерархической структуры популяций, в процессе поиска оптимального решения отдельные наименее приспособленные особи перемещаются из основной популяции в иерархические субпопуляции, эволюционируют в них и имеют определенные шансы вернуться в основную популяцию. В многоуровневой иерархической структуре множество субпопуляций существует наряду с основной популяцией, а особи перемещаются между ними согласно их фитнесс-функциям. Когнитивный оператор мутации поддерживает разнообразие популяции и применяется только к особям основной популяции. Решение о применении когнитивного оператора мутации принимается, если наблюдается сходимость к локальному оптимуму. Наименее приспособленные особи из основной популяции заменяются на перспективные особи из субпопуляций.

Результаты экспериментов на многомерных функциях-бенчмарках

Чтобы продемонстрировать эффективность, а также вычислительные характеристики предложенного алгоритма, создана программная среда на языке программирования C#. Отладку и тестирование проводили на ЭВМ типа IBM PC с процессором Core i7 с ОЗУ 8 Гбайт.

Для тестирования производительности МБА использовали набор многомерных (размерность от 20 до 1000) оптимизационных функций-бенчмарков.

Вначале была оценена эффективность МБА для задач размерности n=20 переменных. Далее, алгоритм тестируется на функциях размерности n=50, n=100 и т.д. переменных. Показатели МБА будем сравнивали с показателями тестирования программных реализаций следующих конкурирующих алгоритмов: стандартным эволюционным алгоритм (SEA), самоорганизующимся эволюционным алгоритмом (SOCEA), клеточным эволюционным алгоритмом (CEA), эволюционным алгоритмом с управляемым разнообразием популяции (DGEA), подробное описание которых представлено в [2, 3].

В качестве тестовых функций использовались следующие многомерные функции-бенчмарки [4, 5, 6]:

40000

• Растригина

• Розенброка

Здесь n - число переменных, от которых зависит функция.

Бенчмарки выбрались по следующим принципам: оптимизируемые функции должны быть непохожими друг на друга; функции должны вызывать затруднения у известных точных методов оптимизации; функции должны быть нелинейными, несепара-бельными, масштабируемыми.

Все отмеченные выше функции удовлетворяют этим принципам. Глобальный минимум Этих функций: Fgri(X = 0) = 0, Frtg(X = 0) = 0, Fros(X=1) = 0, Fsch(X = 0) = 0.

В экспериментах использовались следующие настройки параметров: размер основной популяции N = 250, вероятность мутации рт = 0.05, вероятность кроссинговера рс = 0.9. Полученные результаты усреднялись по 30 независимым прогонам. Максимальное число поколений в каждом прогоне составляет 500, 1000 и 2000 для числа переменных п=20, п=50 и п=100.

Эмпирические результаты, полученные алгоритмом МБА на четырех функциях-бенчмарках, представлены в табл. 1. В таблице указаны значения ошибок (Е(.X) -F(X)*), где F(X)* - значение глобального минимума функции. Каждый столбец соответствует функциям Гриванка, Растригина, Розенброка и Швефеля.

Таблица 1. Значения ошибки алгоритма МБА на функциях Гриванка, Растригина, Розенброка и Швефеля

Функция Fgri(X) Frtg(X) Fros(X) Fsch(X)

п=20

лучшее 4.00Е-62 1.01Е-61 0.50Е-60 1.05Е-50

среднее 4.91Е-62 1.95Е-61 1.11Е-60 1.15Е-50

худшее 8.11Е-62 3.00Е-61 1.92Е-60 2.29Е-50

п=50

лучшее 4.73Е-40 1.10Е-40 1.11Е-40 1.03Е-30

среднее 4.81Е-40 1.10Е-40 1.14Е-40 1.04Е-30

худшее 5.10Е-40 1.30Е-40 1.20Е-40 1.19Е-30

п=100

лучшее 8.92Е-21 1.21Е-20 1.20Е-20 1.09Е-15

среднее 8.93Е-21 1.21Е-20 1.20Е-20 1.09Е-15

худшее 8.95Е-21 1.22Е-20 1.21Е-20 1.68Е-15

Значения ошибок за 30 прогонов в порядке возрастания (лучшее, среднее, худшее) представлены для n=20, n=50 и n=100. Видно, что алгоритм МБА показывает устойчивые результаты при разной размерности в различных прогонах моделирования. Это показатель надежности работы алгоритма.

В таблице 2 представлены лучшие результаты (полученное минимальное значение функции) конкурирующих алгоритмов SEA, SOCEA, CEA, DGEA и алгоритма МБА. Результаты свидетельствуют в пользу алгоритма МБА.

С помощью í-критерия Стьюдента (уровень значимости 0.05, достоверность 95%) проведена проверка того, являются ли различия в результатах (значения оптимизируемой функции) для алгоритма МБА статистически значимыми по сравнению с конкурирующими алгоритмами.

Сравнение показало, что рассчитанные значения ¿-критерия превышают соответствующие критические значения, указанные в специальных таблицах. Следовательно, наблюдаемые различия являются статистически значимыми. Статистически значимые различия свидетельствуют в пользу алгоритма МБА для всех рассмотренных функций-бенчмарок, особенно с возрастанием размерности задачи.

Таблица 1. Сравнение лучших результатов конкурирующих алгоритмов SEA, SOCEA, CEA, DGEA и алгоритма МБА

Алгоритм SEA SOCEA CEA DGEA МБА

FAX 1.171 0.930 0.642 7.88Е-8 4.00Е-62

о (N Frtg(X) 11.12 2.875 1.250 3.37Е-8 1.01Е-61

II К Frosi(X) 8292.32 406.490 149.056 8.127 0.50Е-60

Fsch(X) - - - - 1.50Е-50

Fgr,(X) 1.616 1.147 1.032 1.19Е-3 1.11Е-40

О «ч Frtg(X 44.674 22.460 14.224 1.97Е-6 1.00Е-40

II к Fros(X) 41425.7 4783.25 1160.08 59.789 1.00Е-40

Fsch(X) - - - - 1.90Е-30

Fgn(X 2.250 1.629 1.179 3.24Е-3 1.01Е-21

о Frtg(X) 106.212 86.364 58.380 6.56Е-5 1.01Е-20

II Fros(X) 91251.3 30427.6 6053.87 880.324 1.00Е-20

Fsch(X) - - - - 1.00Е-15

Заключение

Разработан эволюционный масштабируемый алгоритм, использующий иерархический мультипопуляционный подход и специальные операторы для поддержки разнообразия популяции решений, расширения области поиска решений за счет менее перспективных решений. Алгоритм применим для решения задач многомерной оптимизации со сложными мултимодальными пространствами решений и большими данными. Оценка эффективности предложенного алгоритма проводилась на наборе многомерных функций-бенчмарков Гриванка, Растригина, Розенброка, Швефеля. Показатели разработанного алгоритма сравнивались с показателями конкурирующих алгоритмов. Эксперименты свидетельствуют в пользу МБА, представленного в данной статье. При этом различия в значениях оптимизируемых функций для МБА являются статистически значимыми по сравнению с конкурирующими алгоритмами, особенно с возрастанием размерности задачи. На взгляд авторов, это объясняется возможностями МБА поддерживать разнообразие популяции и находить баланс между скоростью сходимости алгоритма и диверсификацией поиска.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00570, № 19-01-00412, № 18-29-220019.

Литература

1. Родзин С.И., Скобцов Ю.А., Эль-Хатиб С.А. Биоэвристики: теория алгоритмы и приложения: монография. - Чебоксары: ИД "Среда", 2019. 224 с.

2. Garcia-Pedrajas N., et. al. A cooperative coevolutionary algorithm for instance selection for instance-based learning // Machine Learning. 2010. vol. 78. No. 3. P. 381-420.

3. Rodzin S., Rodzina O. New computational models for big data and optimization // Proc. 9th IEEE Int. Conf. on Application of Information and Communication Technologies. 2015. С. 3-7.

4. Сергиенко А.Б. Тестовые функции для глобальной оптимизации. Красноярск: Изд-во СГАУ, 2015. 112 с.

5. Курейчик В.М., Родзин С.И. Компьютерный синтез программных агентов и артефактов // Программные продукты и системы. 2004. № 1. С. 23-27.

6. Родзин С.И., Родзина О.Н. Сравнение программных реализаций эволюционных вычислений для задач многомерной оптимизации // Программная инженерия. 2019. т. 10. № 11-12. С. 451-456.

Сведения об авторах Сергей Иванович Родзин

канд. техн. наук, профессор

Южный федеральный университет

Таганрог, Россия

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Эл. почта: [email protected]

Ольга Николаевна Родзина

старший преподаватель

Южный федеральный университет

Таганрог, Россия

Эл. почта: [email protected]

Information about authors

Sergey Rodzin

PhD, Professor

Southern Federal University, http://www.sfedu.ru/

Taganrog, Russian Federation

E-mail: [email protected]

Olga Rodzina

Senior Teacher

Southern Federal University

Taganrog, Russian Federation

E-mail: [email protected]

УДК 004.822 К.Х.Т. Зыонг, А.Г.Кравец, Т.В. Нгуен, И.В. Струкова

ГРНТИ 20.23.17 Волгоградский государственный технический университет

DOI: 10.47501/ITNOU.2021.1.14-19

АНАЛИЗ МЕТРИКИ ВЛИЯТЕЛЬНОСТИ РАЗРАБОТЧИКОВ НА ЯЗЫКЕ R В ССП GITHUB

Сайты социального программирования (ССП) - это службы социальных сетей для обмена проектами разработки программного обеспечения в Интернете. Многие проекты с открытым исходным кодом в настоящее время разрабатываются на ССП. Одной из характеристик ССП является то, что они предоставляют платформу в социальных сетях, которая поощряет сотрудничество между разработчиками с одинаковыми интересами и целями. В статье предложен подход к формированию графа ССП Github как гетерогенной сети. На основе этого подхода исследована метрика определения разработчиков наиболее используемых пакетов R

Ключевые слова: Сайты социального программирования, Социальные сети, Анализ данных, GitHub, влиятельные разработчики.

Q.H.T.Duong, A.G. Kravets, T.V.Nguyen, I.V. Strukova

Volgograd State Technical University

ANALYSIS OF THE INFLUENCE METRIC OF DEVELOPERS IN THE R LANGUAGE IN THE GITHUB

Social Programming Sites (SPSs) are social networking services for sharing software development projects on the Internet. Many open source projects are currently being developed on the SPSs. One of the characteristics of SPSs is that they provide a social media platform that encourages collaboration between developers with similar interests and goals. The article proposes an approach to the formation of a Github SPSs graph as a heterogeneous network. On the basis of this approach, the metric of determining the developers of the most used R packages is investigated.

Keywwork: Social Coding Sites, Social networks, Data analysis, GitHub, influential developers. 14 HTHOY. 2021. № 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.