Научная статья на тему 'Биоинспирированный алгоритм приобретения новых знаний на основе классификации информационных ресурсов'

Биоинспирированный алгоритм приобретения новых знаний на основе классификации информационных ресурсов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
321
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / БИОИНСПИРИРОВАННЫЙ АЛГОРИТМ / СВЕТЛЯЧКОВЫЙ АЛГОРИТМ / БЭГГИНГ / ОНТОЛОГИИ / СЕМАНТИЧЕСКАЯ БЛИЗОСТЬ / CLASSIFICATION / BIOINSPIRED ALGORITHM / FIREFLY ALGORITHM / BAGGING / ONTOLOGIES / SEMATIC SIMILARITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кравченко Юрий Алексеевич, Курситыс Илона Олеговна

Статья посвящена решению задачи приобретения новых знаний, выявления новых закономерностей на основе классификации и последующей интеграции информационных ресурсов с целью повышения эффективности информационных процессов. Актуальность задачи обоснована значительным ростом генерируемой, передаваемой и обрабатываемой информации в сферах науки и бизнеса, и их влиянием на развитие общества в целом. В статье рассмотрены основные проблемы эффективного использования информационных ресурсов и обработки информации для выявления направления решения проблемы. Проанализированы аспекты интеграции информации в информационных системах и современное состояние исследований на тему решения задачи классификации и существующие алгоритмы: пчелиного роя, муравьиной колонии, иммунной системы, роя частиц и т.д. Предложено решать задачу классификации информационных ресурсов для более эффективной их интеграции. В качестве информационных ресурсов в данной статье используются их онтологические модели. В статье приводится абстрактная модель решения задачи классификации информационных ресурсов на основе представления интеграции как отображения онтологий. Предложено два критерия для классификации в соответствии с семантической близостью онтологий: критерий эквивалентности и критерий иерархичности. Приведена постановка задачи классификации и целевые функции. Для решения задачи классификации по двум критериям разработана двухуровневая архитектура композиции (бэггинга) биоинспирированных алгоритмов. Решения задачи проводится с параллельным использованием нескольких алгоритмов. Для работы в архитектуре бэггинга разработан биоинспирированный алгоритм, основанный на модели поведения светлячков в природе. В статье приведены схемы и правила кодирования решений в светлячковом алгоритме на двух уровнях архитектуры бэггинга. Для оценки эффективности предложенного подхода разработан программный продукт и проведены эксперименты, основанные на разном количестве объектов информационных ресурсов. Критерием эффективности предложенного подхода является степень семантической близости концептов в онтологиях, классифицированных как эквивалентные и подобные. Исследования проводились в сравнении с жадным алгоритмом, работающим напрямую с разработанными правилами решения. Эксперименты показали, что предложенный алгоритм дает эффективное решение с полиномиальной временной сложностью O(tn2).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кравченко Юрий Алексеевич, Курситыс Илона Олеговна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BIOINSPIRED ALGORITHM FOR ACQUIRING NEW KNOWLEDGE ON THE BASIS OF THE INFORMATION RESOURCES CLASSIFICATION

The paper is devoted to solving the task of acquiring new knowledge and revealing new dependencies on the basis of classification and further integration of information resources for the purpose of improving the effectiveness of the information processes. The relevance is justified by the significant growth of generated, transferred and processed information in business, science and the society development. The paper considers the main problems of the effective using of information resources and information processing to determine the direction of problem solving. The authors analyzed the main aspects of integrating of information in the information systems, the present state of art in the field of classification and the application of such bioinspired algorithms as artificial bee colony, ant colony, artificial immune system, particle swarm, etc. The paper proposes to perform the preliminary classification of the information resources to improve the process of their integration. The authors used the ontological models to represent the information resources. The paper presents the abstract model of solving the task of the information resources classification on the basis of representing the integration as mapping of the ontologies. To classify the ontologies, we propose two criteria of semantic similarity between the ontologies: equivalence and hierarchy. The paper describes the problem statement and the fitness functions. To solve the classification task in accordance with two criteria, we developed a two-level bagging architecture of bioinspired algorithms composition. The task is solved in terms of parallel using of several algorithms simultaneously. The authors developed a bioinspired algorithm based on the firefly swarm behavior in nature to be used in the two-level bagging architecture. The paper presents the schemes and the rules of encoding the decisions for bioinspired algorithm in terms of two levels of bagging. To estimate the effectiveness of the proposed approach, we developed a software and carried out a set of experiments on the basis of different number of the object of information resources. The criteria of effectiveness is the degree of semantic similarity between the concepts of ontologies, classified as equivalent and similar. The experiments were to compare the firefly algorithm with the greedy algorithm, which works directly with the developed rules. The results have shown that the proposed algorithm can give the effective decisions with the time complexity of O(tn2).

Текст научной работы на тему «Биоинспирированный алгоритм приобретения новых знаний на основе классификации информационных ресурсов»

15. Rodzin S.I., Kureychik V.V. Teoreticheskie voprosy i sovremennye problemy razvitiya kognitivnykh bioinspirirovannykh algoritmov optimizatsii (obzor) [Theoretical questions and contemporary problems of the development of cognitive bio-inspired optimization algorithms (review)], Kibernetika i programmirovanie [Cybernetics and programming], 2017, No. 3, pp. 51-79.

16. Rodzin S.I., Kureychik V.V. Sostoyanie, problemy i perspektivy razvitiya bioevristik [Status, problems and prospects of bio-heuristics], Programmnye sistemy i vychislitel'nye metody [Software systems and computational methods], 2016, No. 2, pp. 158-172.

17. Kurejchik V.V., Kurejchik V.M. On genetic-based control, Avtomatika i telemekhanika [Automation and remote control], 2001, No. 10, pp. 174-187.

18. Holland John H. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Application to Biology, Control, and Artificial Intelligence. USA: University of Michigan, 1975.

19. Kureychik Vl.Vl., Kureychik L.V. Programmnaya realizatsiya gibridnogo podkhoda dlya resheniya zadachi razmeshcheniya fragmentov SBIS [Software implementation of a hybrid approach to solve the problem of placement of fragments of VLSI], IV Vserossiyskaya nauchno-tekhnicheskaya konferentsiya molodykh uchenykh, aspirantov i studentov «Fundamental'nye i prikladnye aspekty komp'yuternykh tekhnologiy i informatsionnoy bezopasnosti» [IV all-Russian scientific and technical conference of young scientists, postgraduates and students "Fundamental and applied aspects of computer technology and information security"]. Rostov-on-Don - Taganrog: Izd-vo YuFU, 2018, pp. 301-305.

20. IBM-PLACE 2.0 benchmark suits. Available at: http://er.cs.ucla.edu/benchmarks/ibm-place2/bookshelf/ibm-place2-all-bookshelf-nopad.tar.gz.

21. Alpert C.J. The ISPD-98 Circuit Beanchmark Suit, in Proc. ACM/IEEE International Symposium on Physical Design, April 1998, pp. 80-85.

Статью рекомендовала к опубликованию д.т.н., профессор Л.С. Лисицына.

Курейчик Владимир Викторович - Южный федеральный университет; e-mail: vkur@sfedu.ru; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371651; кафедра систем автоматизированного проектирования; зав. кафедрой САПР; д.т.н.; профессор.

Заруба Дарья Викторовна - e-mail: dvzaruba@sfedu.ru; кафедра систем автоматизированного проектирования.

Kureichik VladimirVictorovich - Southern Federal University; e-mail: vkur@sfedu.ru; 44, Nekrasovskiy, Taganrog, 347928, Russia; phone: +78634371651; the department of computer aided design; head of department; dr. of eng. sc.; professor.

Zaruba Daria Victorovna - e-mail: dvzaruba@sfedu.ru; the department of computer aided design.

УДК 004.023 DOI 10.23683/2311-3103-2019-2-15-26

Ю.А. Кравченко, И.О. Курситыс

БИОИНСПИРИРОВАННЫЙ АЛГОРИТМ ПРИОБРЕТЕНИЯ НОВЫХ ЗНАНИЙ НА ОСНОВЕ КЛАССИФИКАЦИИ ИНФОРМАЦИОННЫХ

РЕСУРСОВ*

Статья посвящена решению задачи приобретения новых знаний, выявления новых закономерностей на основе классификации и последующей интеграции информационных ресурсов с целью повышения эффективности информационных процессов. Актуальность задачи обоснована значительным ростом генерируемой, передаваемой и обрабатываемой

*

Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов №№ 17-07-00446 и 18-07-00050.

информации в сферах науки и бизнеса, и их влиянием на развитие общества в целом. В статье рассмотрены основные проблемы эффективного использования информационных ресурсов и обработки информации для выявления направления решения проблемы. Проанализированы аспекты интеграции информации в информационных системах и современное состояние исследований на тему решения задачи классификации и существующие алгоритмы: пчелиного роя, муравьиной колонии, иммунной системы, роя частиц и т.д. Предложено решать задачу классификации информационных ресурсов для более эффективной их интеграции. В качестве информационных ресурсов в данной статье используются их онтологические модели. В статье приводится абстрактная модель решения задачи классификации информационных ресурсов на основе представления интеграции как отображения онтологий. Предложено два критерия для классификации в соответствии с семантической близостью онтологий: критерий эквивалентности и критерий иерархичности. Приведена постановка задачи классификации и целевые функции. Для решения задачи классификации по двум критериям разработана двухуровневая архитектура композиции (бэггин-га) биоинспирированных алгоритмов. Решения задачи проводится с параллельным использованием нескольких алгоритмов. Для работы в архитектуре бэггинга разработан биоин-спирированный алгоритм, основанный на модели поведения светлячков в природе. В статье приведены схемы и правила кодирования решений в светлячковом алгоритме на двух уровнях архитектуры бэггинга. Для оценки эффективности предложенного подхода разработан программный продукт и проведены эксперименты, основанные на разном количестве объектов информационных ресурсов. Критерием эффективности предложенного подхода является степень семантической близости концептов в онтологиях, классифицированных как эквивалентные и подобные. Исследования проводились в сравнении с жадным алгоритмом, работающим напрямую с разработанными правилами решения. Эксперименты показали, что предложенный алгоритм дает эффективное решение с полиномиальной временной сложностью O(tn2).

Классификация; биоинспирированный алгоритм; светлячковый алгоритм; бэггинг; онтологии; семантическая близость.

Yu.A. Kravchenko, I.O. Kursitys

BIOINSPIRED ALGORITHM FOR ACQUIRING NEW KNOWLEDGE ON THE BASIS OF THE INFORMATION RESOURCES CLASSIFICATION

The paper is devoted to solving the task of acquiring new knowledge and revealing new dependencies on the basis of classification and further integration of information resources for the purpose of improving the effectiveness of the information processes. The relevance is justified by the significant growth of generated, transferred and processed information in business, science and the society development. The paper considers the main problems of the effective using of information resources and information processing to determine the direction of problem solving. The authors analyzed the main aspects of integrating of information in the information systems, the present state of art in the field of classification and the application of such bioinspired algorithms as artificial bee colony, ant colony, artificial immune system, particle swarm, etc. The paper proposes to perform the preliminary classification of the information resources to improve the process of their integration. The authors used the ontological models to represent the information resources. The paper presents the abstract model of solving the task of the information resources classification on the basis of representing the integration as mapping of the ontologies. To classify the ontologies, we propose two criteria of semantic similarity between the ontologies: equivalence and hierarchy. The paper describes the problem statement and the fitness functions. To solve the classification task in accordance with two criteria, we developed a two-level bagging architecture of bioinspired algorithms composition. The task is solved in terms of parallel using of several algorithms simultaneously. The authors developed a bioinspired algorithm based on the firefly swarm behavior in nature to be used in the two-level bagging architecture. The paper presents the schemes and the rules of encoding the decisions for bioinspired algorithm in terms of two levels of bagging. To estimate the effectiveness of the proposed approach, we developed a software and carried out a set of experiments on the basis of different number of the object of information resources. The criteria of effectiveness is the degree of semantic similarity between the concepts of ontologies, classified as

equivalent and similar. The experiments were to compare the firefly algorithm with the greedy algorithm, which works directly with the developed rules. The results have shown that the proposed algorithm can give the effective decisions with the time complexity of O(tn2).

Classification; bioinspired algorithm; firefly algorithm; bagging; ontologies; sematic similarity.

Введение. За последнее десятилетие произошел настоящий взрыв как структурированной, так и неструктурированной информации. По некоторым оценкам, в мире суммарно производится около 1.5 млн Гигабайт информации в минуту. Обеспечение доступа к большому количеству разнообразных данных является одной из главных проблем эффективного использования информационных ресурсов [1].

В рамках указанной проблемы эффективного использования информационных ресурсов можно выделить интеграцию информационных ресурсов с целью увеличения скорости и качества обработки информации.

Актуальность работы обусловлена проблемами эффективного использования разнородных информационных ресурсов. Одной из проблем является большая размерность используемых данных, что влечет за собой необходимость разработки быстрых и эффективных методов для их обработки. Другой проблемой является семантическая несовместимость элементов информационных ресурсов, что можно рассматривать как отсутствие корректного формата или семантического слоя для слияния двух и более несопоставимых наборов данных [2-4].

Существует несколько факторов, влияющих на скорость и эффективность интеграции информационных ресурсов. Среди них можно выделить [2-4] :

♦ динамичность изменения информационных систем в организациях, и как следствие - изменение интегрируемых данных;

♦ распределенность данных - логическая, географическая и организационная;

♦ наследственность данных - следует учитывать отношения между элементами данных, в том числе и иерархичные;

♦ безопасность - с появлением беспроводных технологий и «облачных» вычислений повышаются требования к обеспечению конфиденциальности информации;

♦ непрерывность цикла работы - интеграция данные должна проводиться без прерывания доступа к ним.

Для повышения эффективности процессов интеграции информационных ресурсов предлагается решить проблему их предварительной классификации.

Существует множество исследований в области применения биоинспириро-ванных алгоритмов для решения задач классификации и кластеризации. Это, например, поисковые методы на основе пчелиной колонии [5], муравьиный алгоритм [6, 7], методы роя частиц [8], генетические алгоритмы [9], методы искусственной иммунной системы [10], светлячковые алгоритмы [11] и т.д.

Постановка задачи. В общем случае информационные ресурсы в системе можно представить в виде множества I = {¿1( i2,..., im}, где i - элемент информационных ресурсов, m - общее количество информационных ресурсов в системе. Задача классификации информационных ресурсов состоит в объединении схожих информационных ресурсов в группы (классы). Схожесть при этом оценивается по нескольким критериям (признакам), представляемым множеством F = {f1, f2,..., fn}.

В качестве информационных ресурсов в данной работе используются онтологии. Модель онтологии представляет собой кортеж <C,I,A,R>, где C - множество понятий (концептов); I - множество экземпляров понятий; A - множество предикатов - атрибутов понятий; R - множество отношений, которые задают следующие виды связи между сущностями [12-15]:

♦ частичный порядок на множествах С и I, задающий отношения < — а > - «подкласс-надкласс».

♦ отношение между понятиями, которое представляет собой триплет вида < сг — аг — с2 > , где съ с2 ЕС; а1 Е А.

♦ отношение между экземплярами, которое представляет собой триплет вида , где ; .

♦ отношение между атрибутами, которое представляет собой триплет вида

, где .

Рассмотрим три класса, по которым будут классифицироваться онтологии:

♦ эквивалентные онтологии - онтологии, компоненты которых имеют максимальное пересечение множеств атрибутов онтологий £ П= 1£™= 1И1 П И2 = тах (семантическое отношение эквивалентности);

♦ схожие онтологии - онтологии, компоненты которых имеют сходное значение по разделяющей составляющей семантической близости;

♦ различные онтологии - онтологии, компоненты которых не имеют семантического сходства.

Для классификации онтологий предлагается использовать два критерия, являющиеся компонентами модели семантической близости из предыдущей главы. Первым критерием является эквивалентность - совпадение всех предикатов понятия С I первой онтологии 01 со всеми предикатами понятия С] второй онтологии 02 (эквивалентность множеств А1, А2 ). Вторым критерием является разделение (отношение «часть-целое») - ненулевое пересечение предикатов понятий и ( А2 Ф 0), указывающее на наличие общих атрибутов, что подтверждает существование понятия С, которое является классом верхнего уровня для понятий С1 и С2.

Постановка задачи классификации онтологий выглядит следующим образом. Имеется множество онтологий для интеграции 0 = { 01,02, .. .,0п}, включающие множества понятий и множества атрибутов понятий

А = {А 1,А2,..,,Ап}. Требуется найти такие две онтологии, для которых будет максимальным пересечение множеств атрибутов и (эквивалентные онтологии) и оптимальной разделяющая мера близости , причем ,

где - пороговое значение меры семантической близости , при котором

строится отображение концепта С1 в онтологию 02; ц - пороговое значение подобия, указывающее на отсутствие эквивалентности понятий. Для существования разделяющей меры семантической близости необходимо наличие общего понятия С, которое будет являться понятием верхнего уровня для обоих понятий.

Задача сводится к оптимизации двух целевых функций, соответствующих двум критериям подобия онтологий:

Максимизация суммарного пересечения атрибутов понятий

А (А 1. А 2) = Щ= 1А ¡ПА] . (1)

(2)

Максимизация количества совпадающих последовательностей вершин (понятий) в иерархии онтологий O1 и O2

/2 (С1, С2) — тах. (3)

Для наглядной демонстрации решения задачи классификации рассмотрим абстрактную модель решения задачи на рис. 1.

о,

Рис. 1. Абстрактная модель классификации онтологии: (а) начальное состояние информационных ресурсов; (Ь) информационные ресурсы после выполнения

классификации

Как показано на рис. 1, онтологии Ог и 02 объединены в класс К, а онтологии 05 и 06 объединены в класс К2. Онтологии 03 и 04 признаны не эквивалентными и не подобными друг другу или любым другим онтологиям.

Кодирование решений для биоинсмирированного алгоритма. Для решения задачи классификации онтологий по критерию эквивалентности предлагается использовать следующие правила представления.

1) Множества атрибутов и Д2 онтологий 01 и 02 соответственно представляются в качестве последовательностей элементов множеств (атрибутов), как показано в табл. 1 и 2.

Таблица 1

Представление атрибутов онтологии 01

с

о

о

о

о

о

о

о

о

о

о

о

к! и к! XI Я." 'о.

Р1 Р1 Р1 "(¿+1)... Р1 (¿+1)/1

Р1 Р1 (п)7 Р1 С") в

Таблица 2

Представление атрибутов онтологии 02

щ ]2 щ

Р2 "0+1)1 Р2 "0+1)2 Р2 к2 "а+1).

Р2 Р2 "(т), р2

2) Для каждого понятия онтологии 0± производится поиск эквивалентного понятия 02 в окрестности вершины онтологии, отображающей понятие. Данная процедура выполняется для каждого понятия онтологии 01.

3) Для первого шага поиска эквивалентных понятий используется понятие онтологии 0Х с наибольшей мощностью окрестности г. Под мощностью окрестности подразумевается локальная связанность понятия с другими понятиями, т.е. количество ребер, исходящих из вершины в графе понятий.

4) Для поиска эквивалентных понятий задается параметр глубины поиска X. Параметр X=1 на первом шаге поиска и увеличивается последовательно с каждой итерацией. X<Q, где Q - максимальная глубина поиска, определяемая опытным путем.

5) Если существуют такие i и j, при которых £ f= ^™= iR\ П Rj > d, тогда можно говорить об отношении эквивалентности онтологий Ох и 02 и оптимальное решение существует.

После завершения работы алгоритма по поиску эквивалентных понятий, найденное оптимальное решение записывается следующим образом.

Создается массив m размерностью [x,y], где у = 1 ,2 ; х = 1,1; l - количество эквивалентных понятий двух онтологий. В первый столбец массива записываются порядковые номера вершин онтологии О а во второй столбец - порядковые номера вершин онтологии , эквивалентные вершинам из первого столбца.

На основании полученного решения задачи классификации онтологий по первому критерию эквивалентности, производится классификация онтологий по второму критерию - критерию иерархичности.

Второй шаг классификации онтологий состоит в поиске таких цепочек номеров вершин в построенном массиве эквивалентных вершин (понятий) онтологий, при которой имелось бы совпадение порядка номеров понятий онтологий О х и 02.

Двухуровневая архитектура бэггинга биоинспирированных алгоритмов. Рассмотрим предлагаемую двухуровневую архитектуру бэггинга биоинспирированных алгоритмов (рис. 2).

Рис. 2. Двухуровневая архитектура бэггинга для решения задачи классификации

онтологий

На рис. 1 приведена двухуровневая архитектура бэггинга алгоритмов для решения задачи классификации онтологий. Рассмотрим подробнее шаги решения задачи согласно разработанной архитектуре.

Шаг 1. Входными данными для работы архитектуры является начальная выборка атрибутов двух онтологий и , представленная множествами и соответственно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Шаг 2. Производится выбор количества алгоритмов для участия в решении задачи. На данном шаге также выбираются конкретные биоинспирированные алгоритмы для решения задачи классификации онтологий. На рисунке 2 алгоритмы классификации обозначены как Агде / - номер алгоритма в архитектуре, к - номер критерия, согласно которому проводится классификация. В нашем случае это критерий эквивалентности понятий онтологий к=1 и критерий разделения понятий онтологий к=2. На первом уровне производится решение задачи по критерию эквивалентности.

Шаг 3. По результатам работы алгоритмов строятся решения Р1, где / - номер алгоритма. Решения, полученные с помощью классификаторов, выходят на голосование, результатом которого является агрегированное решение Р 1 по критерию эквивалентности.

Шаг 4. На основании решения, полученного алгоритмами по критерию эквивалентности, алгоритмы классификации получают решения по критерию разделения.

Шаг 5. Заключительным этапом архитектуры двухуровнего бэггинга является принятие окончательного решения методом простого большинства - объекту (онтологии) присваивается метка того класса (эквивалентные, подобные, различные), который определило для него большинство элементарных классификаторов по двум критериям.

Для двухуровневой архитектуры бэггинга предлагается использовать биоин-спирированные алгоритмы, поскольку они являются эффективными для решения задач большой размерности за приемлемое время.

Биоинсмирированный алгоритм на основе модели поведения светлячков. За последние годы широкое распространение в решении оптимизационных задач получили биоинспирированные алгоритмы, основанные на поведении живых организмов в природе. В частности, активно изучаются поисковые методы, основанные на модели роя светлячков. Данные методы успешно показали себя в решении таких задач, как планирование, кластеризация, классификация, обучение нейронных сетей и т.д. [16-19].

Светлячковый алгоритм основан на поведении агентов-светлячков, ритмично испускающих свет. В большинстве случаев, параметры излучения света для каждой особи уникальны и включают в себя: частоту испускания света, степень яркости и время, на которое появляется свет. Каждый из этих параметров образует особый паттерн поведения светлячка, привлекающий других особей (данное правило действует для светлячков обоих полов). При этом на определенном расстоянии г, интенсивность свечения определяется по закону обратной квадратичной зависимости, т.е. с увеличением расстояния г интенсивность света I будет уменьшаться в соответствии с I ос 1/ 2. Кроме того, интенсивность света зависит от состояния среды, в которой находятся особи. Этот параметр называется поглощением света. Комбинация этих двух параметров определяет значение оптимального расстояния, на котором светлячки смогут видеть друг друга и передавать информацию. Как правило, в живой природе это расстояние составляет несколько сотен метров.

Светлячковый алгоритм разработан согласно следующим правилам [20-22]:

1) Агенты-светлячки не имеют пола, т.е. любой агент может привлекать любых других агентов и наоборот.

2) Привлекательность светлячков пропорциональна яркости их свечения. Это значит, что для любых двух светлячков менее яркий агент будет притягиваться и двигаться в сторону более яркого. С увеличением расстояния между агентами, яркость их свечения уменьшается, как и степень их привлекательности. Если рядом нет более яркого светлячка, то агенты двигаются случайным образом.

3) Для определения яркости светлячков используется целевая функция. Чем выше значение целевой функции светлячка, тем интенсивнее его свечение.

Агенты-светлячки представляют собой векторы х(^ = х®,.. отра-

жающие значения атрибутов онтологий из табл. 1 и 2. Начальное значение агентов рассчитывается по следующей формуле:

х-f = (ubi — lbi) ■ rand (0 , 1 ) + lbь (4)

где ubi и lbi - верхняя и нижняя границы соответственно.

Параметры светлячков вычисляются согласно следующим формулам. Коэффициент привлекательности в зависит от степени поглощаемости света воздухом и расстояния между светлячками:

Р (r) = f30e-rr 2, (5)

где - коэффициент привлекательности на нулевом расстоянии между светлячками (r=0), у - коэффициент поглощения света средой (воздухом), r - расстояние между i-м и j-м светлячком. В большинстве случаев (30 принимается равным 1.

Расстояние между i-м и j-м светлячком определяется с помощью вычисления Евклидова расстояния между ними по формуле:

ri] = \ \ xi — х] \ \ = J % к=i (xi, к — х], ^ 2 > (6) где d - размерность задачи, хi k- к-й компонент позиции г-го светлячка, х] к - к-й компонент позиции j-го светлячка

Если яркость г-го светлячка меньше, чем у j-го, то г-й светлячок будет двигаться в сторону j-го светлячка и наоборот. Движение i-го светлячка будет происходить согласно следующему выражению:

х\+1 = х\ + /30еугЬ ■ (х ] — х[) + а ■ (rand — 1 / 2 ), (7)

где t - номер итерации, а - коэффициент, определяющий случайное движение (принимает случайное число), rand - случайное число из интервала (0,1). Выражение состоит из трех составляющих, где первое слагаемое - текущая позиция i-го светлячка, второе - степень привлекательности j -м светлячком, третье - случайное движение i-го светлячка в пространстве поиска. Коэффициент а определяется по следующей формуле:

а(t+1 = 1—A^at, (8)

где Д - шаг изменения параметра а, который рассчитывается следующим образом:

Д =1 — 10 ~А / 0 . 9 1/tmaX_ (9)

Отметим, что параметр а последовательно уменьшается с ростом числа итераций t.

Схема алгоритма роя светлячков приведена на рис. 3.

Эффективность предложенного подхода исследована с помощью вычислительных экспериментов, описанных в следующей части.

Экспериментальные исследования. Для оценки эффективности разработанного биоинспирированного алгоритма, был разработан программные продукт и проведен ракяд экспериментов на основе нескольких онтологий с разным количе-

ством объектов и отношений между ними. Вычислительные эксперименты показали, что временная сложность алгоритма может быть оценена как , где £ - количество итераций, п количество элементов. Как показано на рис. 4, временная сложность разработанного алгоритма полиномиальная.

^ Конец ^

Рис 3. Схема светлячкового алгоритма для решения задачи классификации информационных ресурсов

4000

0 50000 100000 150000

Количество элементов

Рис. 4. График временной сложности алгоритма

В табл. 3 приводятся результаты сравнения качества решений, получаемых с помощью разработанного алгоритма, и решений, полученных с помощью жадного алгоритма, работающего непосредственно с правилами, приведенными в одной из предыдущих частей статьи. Критерием сравнения работы алгоритмов принята семантическая близость между элементами онтологий, классифицированных как эквивалентные и подобные. Расчеты семантической близости проводились по формулам, приведенным в [23].

Таблица 3

Сравнение эффективности алгоритмов

Количество объектов Количество отношений Светлячковый алгоритм Жадный алгоритм

100 70 0,000045 0,000028

200 90 0,0000075 0,0000042

300 110 0,00000082 0,00000045

400 130 0,000000025 0,000000011

500 150 0,00000000053 0,00000000026

600 170 0,000000000068 0,00000000000025

700 190 0,000000000000958 0,00000000000000569

0,00005 0,00004 0,00003 0,00002 0,00001 О

^^^^ Жадный Светлячковый

алгоритм алгоритм

Рис. 5. График эффективности полученных решений

Как показано в табл. 3 и на рис. 5, разработанный алгоритм классификации информационных ресурсов на 18 % более точен и эффективен, чем жадный алгоритм. Предложенный светлячковый алгоритм дает эффективные решения за полиномиальное время, что делает его перспективным условиях большой размерности задачи классификации информационных ресурсов.

Заключение. В связи со стремительным ростом производимой, передаваемой и обрабатываемой информации, актуальной задачей является разработка новых быстрых эффективных методов для ее обработки и рационального использования. Эффективное использование информационных ресурсов включает к себя их интеграцию в различных информационных системах. В данной статье предложено решить задачу предварительной классификации информационных ресурсов в соответствии с двумя критериями семантической близости для повышения эффективности их интеграции.

В статье приведена модель онтологий для использования в качестве информационных ресурсов при решении задачи классификации. Авторами приведена постановка задачи и два критерия классификации, используемые в качестве целевой функции. Правила кодирования решений для биоинспирированных алгорит-

V_

100 Z00 300 400 500 600 700

мов включают несколько шагов для представления решений в виде последовательности атрибутов онтологий и последовательности понятий онтологий, классифицированных как эквивалентные.

Разработана двухуровневая архитектура бэггинга алгоритмов для классификации онтологий в соответствии с предложенными критериями (критерий эквивалентности и критерий разделения). Бэггинг работает параллельно с несколькими алгоритмами и определяется лучшее из полученных решений по двум критериям.

Для решения задачи классификации в соответствии с приведенными правилами, разработан биоинспирированный алгоритм на основе поведеня роя светлячков в природе. Эксперименты, проведенные с разным количеством элементов он-тологий и отношений между ними, показали, что разработанный алгоритм дает более эффективные решения, чем жадный алгоритм, работающий с правилами решения напрямую. Кроме того, временная разработанного алгоритма определена как полиномиальная, что делает его применение перспективным для решения задач большой размерности, которые можно классифицировать как NP-полные.

Дальнейшие исследования будут связаны с кластеризацией информационных ресурсов с целью нахождения связей между элементами онтологий между разными классами онтологий. Также планируется разработка и исследование новых биоинспирированных алгоритмов, в том числе, алгоритмы бактериальной оптимизации, обезьяньего поиска, алгоритма кукушки для решения задачи классификации и кластеризации информационных ресурсов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Almeida F. and Calistru C. The main challenges and issues of big data management, International Journal of Research Studies in Computing, 2013, Vol. 2 (1).

2. Kureychik V. and Semenova A. Combined method for integration of heterogeneous ontology models for big data processing and analysis, Advances in Intelligent Systems and Computing, 2017, Vol. 573, pp. 302-311.

3. Norshidah M., Batiah M., Suraya M., Hanif H. and Hafizuddin M.A. Information System Integration: A Review of Literature and a Case Analysis, Mathematics and Computers in Contemporary Science. World Scientific and Engineering Academy and Society, 2013, pp. 68-77.

4. Chromiak M. and Stencel K. A data model for heterogeneous data integration architecture, Communications in Computer and Information Science, 2014, Vol. 424, pp. 547-556.

5. Shukran M.A.M., Chung Y.Y., Yeh W.C., Wahid N., and Zaidi A.M.A. Artificial Bee Colony based Data Mining Algorithms for Classification Tasks, Mod. Appl. Sci., 2011, Vol. 5, pp. 217-231.

6. Martens D., De Backer M., Haesen R., Vanthienen J., SnoeckM. and Baesens B. Classification With Ant Colony Optimization, in IEEE Transactions on Evolutionary Computation, 2007, Vol. 11, No. 5, pp. 651-665.

7. Karnan M., Thangavel K., and Ezhilarasu P. Ant Colony Optimization and a New Particle Swarm Optimization algorithm for Classification of Microcalcifications in Mammograms, 16th International Conference on Advanced Computing and Communication, 2008.

8. I. De Falco, A. Della Cioppa, and E. Tarantino. Evaluation of particle swarm optimization effectiveness in classification, LNAI3849, 2006, pp. 164-171.

9. Dr. Chandrika J., Dr. Ramesh B., Dr.K.R. Ananda kumar, and Cunha R.D. Genetic Algorithm Based Hybrid Approach for Clustering Time Series Financial Data, CSE, 2014, pp. 39-52.

10. Soliman O.S. and Adly A. Bio-inspired algorithm for classification association rules, 8th International Conference on Informatics and Systems (INFOS), Cairo, 2012, pp. 154-160.

11. Saraq E. and Ozel S.A. Web page classification using firefly optimization, 2013 IEEE INISTA, Albena, 2013, pp. 1-5.

12. Bova V., Zaporozhets D., and Kureichik V. Integration and processing of problem-oriented knowledge based on evolutionary procedures, Advances in Intelligent Systems and Computing, 2016, Vol. 450, pp. 239-249.

13. Semenova A.V. and Kureichik V.M. Ensemble of classifiers for ontology enrichment, Journal of Physics: Conference Series, 2018, Vol. 1015, Issue 3, article id. 032123.

14. Kureychik V.M. Overview and problem state of ontology models development, 9th International Conference on Application of Information and Communication Technologies, AICT

2015 - Proceedings 9, 2015, pp. 558-564.

15. Semenova A. and Kureychik V. Application of swarm intelligence for domain ontology alignment, Proceedings of the First International Scientific Conference "Intelligent Information Technologies for Industry" (IITI'16), 2016, Vol. 1, pp. 261-270.

16. Bova V., Kureichik V. and Zaruba D. Heuristic approach to model of corporate knowledge construction in information and analytical systems, 2016 IEEE 10th International Conference on Application of Information and Communication Technologies (AICT), Baku, 2016, pp. 1-5.

17. Kureichik V., Zaporozhets D., and Zaruba D. Generation of bioinspired search procedures for optimization problems, Application of Information and Communication Technologies, AICT

2016 - Conference Proceedings, 2016, Vol. 10.

18. Kar K. Bio inspired computing - A review of algorithms and scope of applications, Expert Systems with Applications, 2016, Vol. 59, pp. 20-32.

19. Zaporozhets D., Zaruba D., and Kulieva N. Parallel approach for bioinspired algorithms, Journal of Physics: Conference Series Ser. "International Conference Information Technologies in Business and Industry 2018 - Enterprise Information Systems ", 2018.

20. Fister I., Fister I.Jr, X.S. Yang and J. Brest. A comprehensive review of firefly algorithms, Swarm and Evolutionary Computation, Elsevier, 2013, Vol. 13, pp. 34-46.

21. Fister I., Fister I.Jr., Brest J. and Yang X.S. Memetic firefly algorithm for combinatorial optimization, Bio Inspired Optimisation Methods and Their Applications, 2012, Vol. 2, pp. 75-86.

22. Pal S.K., Rai C.S. and Singh A.P. Comparative study of firefly algorithm and particle swarm optimization for noisy non-linear optimization problems, I J Intelligent Systems and Applications, l, Mecs press, 2012, pp. 50-57.

23. Bova V.V., NuzhnovE.V., Kureichik V.V. The combined method of semantic similarity estimation of problem oriented knowledge on the basis of evolutionary procedures, Advances in Intelligent Systems and Computing, 2017, Vol. 573, pp. 74-83.

Статью рекомендовал к опубликованию к.т.н., доцент С.Г. Буланов.

Кравченко Юрий Алексеевич - Южный федеральный университет; e-mail: yakravchenko@sfedu.ru; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371651; кафедра систем автоматизированного проектирования; доцент.

Курситыс Илона Олеговна - e-mail: i.kursitys@mail.ru; кафедра систем автоматизированного проектирования, аспирант; ассистент.

Kravchenko Yury Alekseevich - Southern Federal University; e-mail: yakravchenko@sfedu.ru; 44, Nekrasovskiy, Taganrog, 347928, Russia; phone: +78634371651; the department of computer aided design; associate professor.

Kursitys Bona Olegovna - e-mail: i.kursitys@mail.ru; the department of computer aided design; graduate student.

УДК 658.512 DOI 10.23683/2311-3103-2019-2-26-34

В.М. Курейчик, В.И. Данильченко ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ПЛАНИРОВАНИЯ РАЗМЕЩЕНИЯ СБИС

Рассмотрена проблема решения задачи размещения при проектировании радиоэлектронной аппаратуры. Поставленная задача относится к классу МР-полных и для нее не существует точного полиномиального алгоритма. Цель данной работы заключается в нахождении путей оптимизации планирования размещения СБИС с применением модифицированного генетического алгоритма. Актуальность работы состоит в том, что используемый модифицированный генетический алгоритм позволяет повысить качество планирования размещения. Научная новизна заключается в разработке модифицированного генетического алгоритма. Модифицированный генетический алгоритм использует знания о решающейся задаче, что позволяет быстрее получать эффективные локальные ре-

i Надоели баннеры? Вы всегда можете отключить рекламу.