14. Barmpalexis P.,Kachrimanis K., Tsakonas A., Georgarakis E. Symbolic regression via genetic programming in the optimization of a controlled release pharmaceutical formulation, Chemometrics and Intelligent Laboratory Systems, 2011, Vol. 107, No. 1, pp. 75-82.
15. Colin G. Johnson. Artificial Immune Systems Programming for Symbolic Regression, Genetic Programming: 6th European Conference, 2003, pp. 345-353. ISBN=3-540- 00971-X.
16. Ushakov S.A. Ispol'zovanie raspredelennykh iskusstvennykh immunnykh sistem dlya re-sheniya zadachi simvol'noy regressii [The use of distributed artificial immune system for solving symbolic regression], Innovatika. Nauchnyy elektronnyy zhurnal [Innovation. Scientific electronic journal], 2014, No. 1. Certificate of registration EL № FS 77-5722.
17. Lebedev O.B. Modeli adaptivnogo povedeniya murav'inoy kolonii v zadachakh proektirovaniya [Models of adaptive behavior, ant colony in the task of designing]. Taganrog: Izd-vo YuFU, 2013, 199 p.
18. Lebedev B.K., Lebedev V.B. Optimizatsiya metodom kristallizatsii rossypi al'ternativ (KRA) [Optimization by the crystallization of alternatives field (CAF) method], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2013, No. 7 (144), pp. 11-17.
19. Lebedev B.K., Lebedev O.B. Modelirovanie adaptivnogo povedeniya murav'inoy kolonii pri poiske resheniy, interpretiruemykh derev'yami [Modelling of an ant colony adaptive behaviour by search of the decisions interpreted by trees], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2012, No. 7 (132), pp. 27-35.
20. Lebedev V.B., Lebedev O.B. Roevoy intellekt na osnove integratsii modeley adaptivnogo povedeniya murav'inoy i pchelinoy koloniy [Swarm intelligence on the basis of the adaptive behaviour models integration of the ant and beer colonies], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2013, No. 7 (144), pp. 41-47.
21. Kureichik V.M., Lebedev B.K., Lebedev O.B. A hybrid partitioning algorithm based on natural mechansms of decision making, Scientific and Technical Information Processing, 2012, No. 39 (6), pp. 317-327.
Статью рекомендовал к опубликованию д.т.н., профессор Ю.А. Гатчин.
Лебедев Борис Константинович - Южный федеральный университет; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 89282897933; кафедра систем автоматизированного проектирования; профессор.
Лебедев Олег Борисович - e -mail: [email protected]; тел.: 89085135512; кафедра систем автоматизированного проектирования; доцент.
Lebedev Boris Konstantinovich - Southern Federal University; e-mail: [email protected]; 44, Nekrasovsky, Taganrog, 347928, Russia; phone: +79282897933; the department of computer aided design; professor.
Lebedev Oleg Borisovich - e-mail: [email protected]; phone: +79085135512; the department of computer aided design; associate professor.
УДК 004.822
В.В. Бова, Д.В. Заруба, В.В. Курейчик
ЭВОЛЮЦИОННЫЙ ПОДХОД К РЕШЕНИЮ ЗАДАЧИ ИНТЕГРАЦИИ
ОНТОЛОГИЙ*
В настоящее время интеграция данных и знаний является одной из наиболее важных задач обеспечения интероперабельности информационных систем на структурном и семантическом уровне. Рассматривается технология интеграции онтологий, предполагающая проведение автоматического сопоставления понятий интегрируемых онтологий с помощью составной семантической метрики (названий и значений понятий или их контекстов), множеств атрибутов и их
* Работа выполнена при поддержке Министерства образования и науки РФ. Проект № 8.823.2014.
положения в структуре исходных онтологий. Предлагается эволюционный подход к решению задачи интеграции множественных онтологий для обеспечения совместимости и репрезентации данных и знаний в интеллектуальных информационных системах. Такой подход позволяет определить семантически приоритетные объекты данных и знаний для их представления в модели интеграции, а также устранить дублирование и противоречия сущностей и связей на уровне предметной области и объектов данных из областей интеграции. Задачи интеграции знаний относятся к классу NP-трудных задач оптимизации, и могут быть реализованы с помощью алгоритмов генетического поиска оптимальных решений. С математической точки зрения процесс параметрической оптимизации сводится к решению задачи оценки семантической близости объектов знаний неоднородных онтологий, основанной на согласовании атрибутивной, таксономической и реляционной меры подобия. Предложенный генетический алгоритм основывается на использовании аналогов с эволюционными процессами репродукции, кроссинговера, мутации и естественного отбора. Для анализа разработанного подхода была проведена серия экспериментов. Полученные данные подтвердили теоретическую значимость и перспективность применения такого подхода, а также позволили установить оптимальные значения параметров алгоритма.
Интеграция данных и знаний; семантическая близость; онтологии; генетический алгоритм; генетические операторы; реляционная; таксономическая и атрибутивная меры подобия.
V.V. Bova, D.V. Zaruba, V.V.Kureichik
THE EVOLUTIONARY APPROACH FOR ONTOLOGIES INTEGRATION
PROBLEM
Currently, the integration of data and knowledge is one of the most important problems of information systems interoperability maintenance at the structural and semantic level. The article discusses the technology of ontologies integration, involves a comparison of automatic ontology concepts via the composite semantic metric (names and meanings of concepts or its contexts), sets of attributes and their position in the structure of the original ontology. The authors proposed an evolutionary approach to the problem of integrating multiple ontologies for interoperability and representation of data and knowledge in intelligent information systems. This approach allows us to define semantically priority data and knowledge objects to represent them in the model of integration as well as to eliminate duplication and contradictions of entities and relationships at the level of the domain and data objects from the integration. Knowledge integration problems belong to the class of NP-hard optimization problems, and can be implemented using genetic algorithms to find optimal solutions. From a mathematical point of view the process ofparametric optimization comes down to the task of evaluating the semantic proximity of knowledge objects of heterogeneous ontologies based on the harmonization of the attribute, the taxonomic and relational similarity measure. The proposed genetic algorithm is based on the use of analogues to the evolutionary processes of reproduction, crossover, mutation and natural selection. For the analysis of the developed approach, a series of experiments. The findings confirmed the theoretical significance and application prospects of this approach, as well as possible to establish the optimal parameters of the algorithm. For the analysis of the developed approach, a series of experiments. The findings confirmed the theoretical significance and application prospects of this approach, as well as possible to establish the optimal parameters of the algorithm.
Data and knowledge integration; semantic proximity; ontology; genetic algorithm; genetic operators; relational; taxonomic and attribute similarity measure.
Введение. Разработка новых подходов и методов представления и интеграции знаний является основным направлением развития современных интеллектуальных информационных систем (ИИС) [1-3]. В структуру ИИС входят разнородные базы знаний, имеющие собственные локальные информационные модели с различными стандартами описания и представления данных и знаний. При слиянии их в глобальную модель порождается множество конфликтов: использование различной терминологии при обозначении схожих понятий предметной области ИИС; неоднородность спецификаций на уровне модельной и понятийной семантики; идентификация и преобразование неоднородных структур данных и знаний [4-6].
Все это делает проблему интеграции довольно сложной и многоуровневой, для решения которой следует принимать во внимание как структурные и синтаксические различия моделей данных и знаний, порождающие схематическую гетерогенность, так и семантические свойства объектов данных для обеспечения смысловой интероперабельности данных и разрешения семантических конфликтов. Именно по этой причине интеграция онтологий для установления последующего взаимодействия информационных моделей ИИС является актуальной задачей.
В статье предлагается эволюционный подход к решению задачи интеграции множественных онтологий для обеспечения совместимости и репрезентации данных и знаний в ИИС. Такой подход позволит определить семантически приоритетные объекты данных и знаний для их представления в модели интеграции, а также устранить дублирование и противоречия сущностей и связей на уровне предметной области и объектов данных из областей интеграции.
Задачи интеграции знаний относятся к классу МР-трудных задач оптимизации и могут быть реализованы с помощью алгоритмов генетического поиска оптимальных решений. Предложенный генетический алгоритм основывается на использовании аналогов с эволюционными процессами репродукции, кроссинговера, мутации и естественного отбора.
1. Проблема интеграции и отображения онтологий. Проблема интеграции данных и знаний характеризуется большим разнообразием постановок задач, подходов и методов, используемых для их решения [2-7]. В общем случае задача интеграции заключается в таком логическом объединении данных, принадлежащих разнородным источникам, которое обеспечивает единое представление и оперирование этими данными.
На сегодняшний день можно выделить три основные составляющие проблемы интеграции данных и знаний: разработка схем интеграции, обеспечивающих унифицированное представление данных различных источников на основе единой онтологической модели; выработка отображений между онтологическими моделями; разработка способов манипулирования, суть которых раскрывается в работе [7].
При интеграции онтологий для согласования прикладных контекстов необходимо решить следующие задачи:
♦ связывание спецификаций информационных источников со спецификациями предметной области для отражения их подразумеваемой семантики;
♦ приведение формализмов различных онтологий к одному для возможности сравнения представлений о предметной области;
♦ отображение онтологических контекстов в одном формализме с целью их согласования;
♦ семантическое связывание элементов объектных схем информационных источников и решаемой над ними задачи на основе связи онтологических понятий.
В предыдущих работах авторов были освещены методы и средства решения вышеуказанных задач. В [7] определена онтологическая модель, выразительная мощность которой достаточна для представления различных видов онтологий, от вербальных до формальных. В [8] описана методика расширения онтологической модели при отображении онтологических формализмов в каноническую модель для представления в ней произвольных онтологий. В [5] и [6] представлены подходы отображения онтологических контекстов на основе эвристических вербальных методов и точного формального вывода.
С наиболее общей точки зрения важность задачи отображения онтологий обусловлена тем фактом, что мощность знаний, заключенных в онтологиях, проявляется в полной мере только в том случае, когда удается учесть взаимосвязи независимых онтологий - установление факта подобия сущностей в разных онтоло-
гиях означает извлечение из этих онтологий дополнительных знаний [5]. Проблема отображения онтологий является актуальной с самого начала использования онтологий при создании информационных систем. Анализ состояния исследований соответствующих методов показал, что эта тема исследована до сих пор недостаточно глубоко [4-6, 9, 10]. Разрабатываемые методы, в основном, неформальны и имеют множество открытых вопросов. Наименее исследованы методы отображения онтологий, разработанных в неоднородных онтологических моделях. Говоря о неоднородных онтологиях, мы подразумеваем, что две (или более) онтологии по-разному описывают одну и ту же предметную область или близкие предметные области с точки зрения разных сообществ.
Отображение онтологий является неотъемлемой частью большинства задач согласования онтологий, таких как слияние, выравнивание онтологий, модификация одной онтологии для достижения однородности с другой [11]. Отображение (mapping) онтологии заключается в нахождении семантических связей подобных элементов из разных онтологий. Выравнивание (alignment) онтологий состоит в том, чтобы установить различные виды соответствия (или связи) между двумя он-тологиями, а затем повторно сохранить исходные онтологии и таким образом в дальнейшем использовать информацию друг друга. Объединение (merging) онтологий - генерация одной согласованной онтологии из двух исходных.
В работе задача интеграции определяется как процесс установления отображения неоднородных онтологий на уровне соответствия с возможностью расширения множества операций (способов манипулирования) над ними на семантически значимом уровне. Такой подход позволит определить семантически приоритетные объекты данных и знаний для их представления в модели интеграции, а также устранить дублирование и противоречия сущностей и связей на уровне предметной области и объектов данных из областей интеграции.
Для реализации подхода предложен алгоритм, который включает в себя 6 операций, выполняющихся последовательно, для отображения онтологии (рис. 1).
Рис. 1. Процесс отображения
1. Feature Engineering - функция трансляции онтологий (анализ элементов онтологии), т.е. преобразование к одному формату начального представления онтологий, обычно приводят к формату RDF(S), т.к. он считается стандартным при работе с онтологиями.
2. Selection of Next Search Steps. - выбор следующего шага поиска кандидатов. Выбор экспертом алгоритма поиска семантической близости и семантического расстояния между парами концептов, в зависимости от поставленной цели.
3. Similarity Computation - вычисление подобия (сходства), определение сходств между парами понятий онтологий, вычисляется на этапе сопоставления онтологий.
4. Similarity Aggregation - агрегация сходств, т.е. объединение сущностей в одно итоговое значение, подтверждение отображения связей. Среди пар совпавших сущностей выбирается та, у которой мера семантической близости больше, порог подобия выбирается эвристически.
5. Interpretation - интерпретация, формирование отображения между элементами онтологий на основании сходств. Сопоставление названий понятий, присвоение выбранному классу синтезированного имени от двух других.
6. Iteration - итерация (повторение нескольких шагов алгоритма), проходит в несколько этапов и останавливается, когда не может найти новых отображений.
Основными критериями алгоритма отображения элементов интегрируемых онтологий являются близость и непротиворечивость подразумеваемой понятийной семантики.
2. Оценка семантической близости. Существующие подходы семантической интеграции на основе онтологии, как правило, базируются на оценках концептуальной близости между элементами онтологии. Недостатком большинства мер, основанных на онтологических структурах, является симметричность. Экспертные оценки показывают, что мера близости не всегда симметрична как для иерархических отношений, так и для ассоциативных [7-9, 12]. Актуальной задачей является определение семантической близости элементов онтологии, не связанных иерархически, однако имеющих определенную проблемно-специфическую («горизонтальную», ассоциативную) связь.
Для численной оценки семантической близости концептов онтологий предлагается эволюционный подход, основанный на представлении различных мер близости и их анализа с помощью генетического алгоритма, который позволяет эффективно находить квазиоптимальные решения за полиномиальное время.
В предложенном подходе мера близости содержит оценку критериев подобия понятий онтологии, состоящую из трех частей: атрибутивная мера (сопоставление атрибутов концептов и значений атрибутов), таксономическая мера (определение степени подобия концептов онтологии на основании их взаимного расположения, рассчитывается длина кратчайшего пути как число концептов в иерархии между двумя рассматриваемыми концептами в онтологии, чем меньше длина пути, тем они ближе) и реляционная мера (учитывает отношения с другими концептами) [13, 14].
Данный подход был адаптирован для расчета гибридной меры семантической близости концептов двух неоднородных онтологий. Гибридные меры являются свертками перечисленных мер оценки критериев подобия концептов интегрируемых онтологий и используются при автоматической обработке результатов отображения для получения данных большей точности и непротиворечивости [11-13].
Для численной оценки семантической близости концептов онтологий предлагается следующее формализованное представление:
С (ki,kj)= Ц=lWqC(ki.kj) , (1)
где Cq - q-я мера близости по определенному критерию; вес для каждой меры сходства mq определяет относительную важность критерия; сумма весов равна единице; n - количество мер близости.
Определим CTac(k,kJ), С^1(к,к;), CAtr(k,;ky) соответственно как меру близости двух концептов на основе их положения, на основе сопоставления их отношений, на основе сопоставления атрибутов и значений атрибутов концептов.
Таксономическая мера близости рассчитывается с учетом всех иерархических характеристик двух понятий C?ac(k ¡,ky): сравниваются множества элементов данных двух концептов PLp(k) и PLp(k), находятся общие и различные элементы:
!1, if kt = kj
\ PLp(ftt)ПPLp(kj)\,if ki±kj , (2)
|PLp (kt) U PLp(kj) |
где PLp(ki) = (LieL\Pk(k) =L} - множество элементов концепта ki.
Оценка реляционной близости основана на предположении о том, что если два концепта имеют одинаковые отношения Д ;,Д2,Д 3 с третьим концептом, то они более похожи, чем два концепта, которые имеют разные отношения. Кг(к1) = (к/ЕК\д?1(к1;ку) УД2(к,к) УД3(кьк) Vку = к/ - множество, содержащее концепты, у которых существуют отношения Д ьД2,Д 3.
Определим отношение ассоциативности концептов как
ЯА(к) = {ki: к, ЕКг (к)}. (3)
Тогда сумма ассоциативной меры близости для концептов множества ЯА(к ) и ЯА(Ц) имеет вид
С,
Ra (RA (fci),RA (kj)) = YkieRA{kù JcjeR^ CTaX (ki,kj). (4)
Реляционная мера близости CRl(kikJ позволяет оценить подобие двух концептов, основываясь на схожести концептов из множества K r (к).
( 1, if ki = kj
CRel (kitkj) = \ Cr A ( R A ( к i) ,R A (fcj) ),jf ki^kj. (5)
( | R A ( к j) и R A ( к i) |
Атрибутивная мера близости С* (к к) концептов к, и ky определяется соответствием их общих атрибутов: /F1' П /fy и удовлетворяет аксиомам независимости, разрешимости и определяется формулой
C a tr ( k i,kj)= L_l, (6)
1 I A kiUA jl
где /F1' и /Fy - множество атрибутов концептов к, и ку соответственно.
На основании согласования атрибутивной, таксономической и реляционной меры подобия предлагается следующий формализм для оценки семантической близости С(к1,к/) объектов знаний к,и к/неоднородных онтологий ONT и ONT':
С(к,к) = (t■ С^кк) + r■ С^1(к,к) + а ■ С/Г(к,к), (7)
где t, r, а - коэффициенты, определяющие важность мер близости Сгас (к^ку), СRl (к ¿,ку), С/г (к ¿ку) соответственно.
3. Обобщенная архитектура генетического поиска. Гибридная мера учитывает расхождения между сравниваемыми объектами по различным признакам и определяется доминирующим значением (мера Евклида), которое позволяет повысить веса мер, имеющих большие значения, и практически пренебречь мерами с малыми значениями. В связи с этим наиболее перспективным подходом для определения качественной меры близости является автоматическое определение весовых коэффициентов с помощью генетического алгоритма (ГА), который позволяет эффективно находить квазиоптимальные решения за полиномиальное время [15]. Обобщенная структура генетического поиска весовых коэффициентов приведена на рис. 2.
Процесс генетического поиска заключается в последовательном преобразовании одного конечного множества альтернативных решений в другое, используя для этого механизмы и принципы генетики и эволюции живой природы [16-18].
Весовые коэффициенты t, r, а позволяют регулировать процесс вычисления семантической близости двух концептов. Согласно формуле (7) задача оценки семантической близости концептов онтологии имеет ряд ограничений:
minftra (х), х = (t, г, а) £ F £ 5 t,r,ae [0; 1] t + r + a = 1 ,
где х - допустимое решение, F - область допустимых значений, S - область поиска.
Рис. 2. Обобщенная архитектура генетического поиска
Целевая функция (ЦФ), основанная на поиске Евклидова расстояния, имеет вид: ft,r,a = £ fc¡ео bkjeо2 (t * СТах(ki.kj) + г * CRе 1 (ki.kj) + а * CAtr(ki.kj) - 1 ) 2. (8)
Таким образом, поиск весовых коэффициентов заключается в выполнении четырех этапов.
На первом этапе производится оценка мер подобия данных и знаний интегрируемых онтологий. Метод вычисления семантической близости концептов позволяет количественно оценить сходство между понятиями [7, 12]. Для каждого концепта одной онтологии формируется множество релевантных семантических концептов другой онтологии. С целью ранжирования элементов результирующего множества необходимо определить пороговые значения меры близости.
На следующем этапе определяются значения минимального и максимального порога семантической близости (рис. 3). Рассматривается вопрос поиска минимального порога семантической близости, при которой концепты принимаются эквивалентными.
Ъ=max(C(ki,kj) | VkеONT, VkjеONT') xp/100, где р 1 - процент, при котором Ъ принимается порогом подобия для установления эквивалентности и корректного отображения k и kj.
Параметр Ъ - минимальный порог, определяющий значение, при котором имеется возможность полного отображения элементов онтологий. Пороговое значение, при котором концепты принимаются частично эквивалентными, вычисляется следующим образом:
q=max (C(kk) | V k еONT, V kjеONT') x р^/100, где 2 - процент, при котором принимается порогом подобия для установления частичной эквивалентности концептов.
Концепты различны в том случае, когда значение меры семантической близости не превышает порог q.
Далее инициализируется выполнение ГА для поиска весовых коэффициентов и их сопоставление с пороговыми значениями.
Для осуществления обратной связи в архитектуре поиска введен блок эволюционной адаптации (БЭА), который на основе взаимодействия с внешней средой (лицом, принимающим решение) управляет процессом поиска и настройкой параметров ГА [19, 20]. Он оказывает влияние на переформирование текущей популяции альтернативных решений и создание новой популяции.
Неопределенность
._А_
шшш
л\у\УАУУАУ>.\У\У\УУ\У\У
Уточнение или обобщение
Частичная эквивалентность
Эквивалентность
_А_
¡¡ilihli],!!],!,],!!],!!],!,],!!],!!],!,],!! /¡¡¡¡¡¡¡/¡¡¡/¡¡¡¡¡¡¡/¡¡¡/¡¡¡¡¡¡¡/¡¡¡/¡¡¡¡Щ/
'iliii/iiiliiiliiiliiiliiiliiiliiiliiiliiiliii
0 q Ь 1
Рис. 3. Уровни пороговых значений мер семантической близости
4. Структурная схема генетического алгоритма. Структурная схема генетического алгоритма приведена на рис. 4.
Ввод весовых коэффициентов wl{tl,rl,al}
БЭА
Конец
Рис. 4. Структурная схема генетического алгоритма
На первом этапе предполагается ввод весовых коэффициентов wi {^ г, а}, которые определяют важность мер близости С7ас(к,ку), Сде1(к,к/), С^г(к1,к).
Далее генерируется начальная популяция альтернативных решений Р таких, что £, г, а Е [0 ; 1 ] , £ + г + а = 1 . Каждое альтернативное решение соответствует хромосоме, представляющей собой кортеж wi = <ЛЬ г, а> (рис. 5). N - число хромосом в популяции.
Г1 31
\«2 12 Г2 Э2
Гп 3п
Рис. 5. Модель популяции альтернативных решений
Далее вычисляется значение ЦФ каждой хромосомы по формуле (8). На основе полученных данных производится выбор пар хромосом для последующего скрещивания. Такой выбор производится согласно принципу естественного отбора, по которому наибольшие шансы на участие в создании новых особей имеют хромосомы с наибольшими значениями ЦФ.
Для реализации оператора селекции был выбран метод колеса рулетки [15]. Несмотря на случайный характер данной процедуры, родительские особи выбираются пропорционально значениям их ЦФ: каждой хромосоме сопоставлен сектор колеса рулетки, величина которого устанавливается пропорционально значению ЦФ данной хромосомы, поэтому, чем больше значение ЦФ, тем больше сектор на колесе рулетки. Отсюда вытекает, что чем больше сектор на колесе рулетки, тем выше шанс, что для последующего скрещивания будет выбрана именно эта хромосома.
Следующим этапом ГА является выполнение оператора кроссинговера. Каждый участок хромосомы особи заключает в себе определенную информационную нагрузку. Целью кроссинговера является получение такой комбинации промежутков хромосом, при которой особь будет представлять собой наилучшее из решений, возможное при текущем генетическом материале [15-18]. В итоге основной задачей операции кроссинговера является получение в конечном итоге наиболее функциональных признаков, которые присутствовали в наборах исходных решений.
Кроссинговер является наиболее важным оператором ГА, так как именно с помощью данного оператора осуществляется обмен информацией между решениями. Потомки содержат в себе комбинацию специфических особенностей обоих родителей. Эффективность работы любого ГА находится в прямой пропорциональной зависимости от эффективности операции кроссинговера. Кроме того, производительность ГА зависит от успешности работы кроссинговера в первую очередь.
В рамках решаемой задачи реализован упорядоченный оператор кроссинговера. Упорядоченный кроссинговер осуществляет поэтапное преобразование генетического материала и позволяет получать только реальные решения [15]. Пример работы упорядоченного оператора кроссинговера приведен на рис. 6.
Точка разреза выбирается случайным образом. Затем производится копирование левого сегмента родительской хромосомы Р1 в левый сегмент хромосомы-потомка Р1'. Остальные гены Р1' берутся из второй родительской хромосомы Р2 слева направо в упорядоченном виде. Второй потомок Р2' формируется аналогичным образом.
| 0,65 | 0,54 | 0,89 | 0,25 | 0,76 0,12 | 0,34 | 0,66 |
| 0,66 | 0,76 | 0,65 | 0,12 | 0,54 0,34 | 0,89 | 0,25 |
P1' 0,65 0,54 0,89 0,25 0,76 0,66 0,12 0,34
Р2' | 0,66 | 0,76 | 0,65 | 0,12 | 0,54 | 0,89 | 0,25 | 0,34 |
Рис. 6. Пример работы упорядоченного оператора кроссинговера
Следующим этапом ГА является мутация. Мутация есть изменение, которое приводит к проявлению качественно новых свойств генетического материала. Мутации происходят случайным образом и вызывают скачкообразные изменения в структуре генотипа [15-17].
В рамках решения поставленной задачи наибольшее значение имеют генные мутации, которые в большинстве случаев затрагивают один или несколько генов. Мутация может выглядеть любым образом, будь то обмен генов своими позициями или копирование значения другого гена и т.д. В разработанном ГА гены содержат в себе вещественные числа от 0 до 1. Согласно этому оператор мутации должен вносить конкретные изменения в генетический материал, т.е. изменять значения определенных генов, не опираясь на уже существующие гены.
Суть разработанного оператора мутации состоит в следующем. В исследуемой хромосоме случайным образом выделяют случайное количество генов. Коэффициент мутации определяет интенсивность мутаций. Он определяет долю генов, подвергнутых мутации на текущей итерации, в расчете на их общее количество. Если коэффициент мутации слишком мал, то получится ситуация, при которой множество полезных генов просто не будут существовать в популяции. В то же время использование большого значения коэффициента мутации приведет к множеству случайных возмущений и значительно увеличит время поиска. Потомки перестанут походить на родителей, алгоритм больше не будет иметь возможности обучаться на основе сохранения наследственных признаков. К выбранным генам применяют преобразование, которое вызывает изменение значения текущего гена на некоторую небольшую величину. Величина выбирается с таким учетом, чтобы после изменения значения /-го гена он находился в отрезке [0; 1].
Приведем пример работы модифицированного оператора мутации на основе приращения. Задана хромосома длины 8. Интенсивность мутации, т.е. количество мутирующих генов, задается случайно и равняется 3. Также случайным образом задают номера этих генов: 1, 3 и 6. Приращение задается с помощью генератора случайных величин в отрезке [0; 1]. В данном случае приращение Д = 0,18.
На рис. 7 приведен пример выполнения модифицированного оператора мутации. Гены с номерами 1 и 6 успешно получили новое значение, что привело к изменению значения ЦФ мутирующей хромосомы. Третий ген не изменил своего значения, т.к. его функциональное значение не входит в область допустимых значений. Иными словами, мутация третьего гена неприемлема и будет проигнорирована.
| 0,65 | 0,54 | 0,89 | 0,25 0,76 | 0,12 | 0,34 0,66
| 0,83 | 0,54 | 0,89 | 0,25 0,76 | 0,30 | 0,34 0,66
Рис. 7. Пример работы модифицированного оператора мутации
Использование данной стратегии выполнения оператора приводит к увеличению пространства поиска, что является необходимым условием для нахождения оптимального решения задачи [20, 21].
Результат вычисления ЦФ приводит к различным операциям над концептами онтологий [7, 14].
1. Если концепты эквивалентны, то они представляют одно и то же понятие в онтологии, следовательно, должны быть объединены.
2. Если концепт одной онтологии является обобщением соответствующего концепта другой онтологии, то они должны представляться как концепт и подкласс соответственно (отношение «класс-подкласс» является отношением частичного порядка). Совпадающие атрибуты удаляются из подкласса, так как они наследуют характеристики от надкласса. На рис. 8 приводится схема сравнения концептов на основе обобщения.
°т ',"/'' К
« «
К'
Рис. 8. Схема сравнения и преобразования концепта в группу концептов
3. Возможна ситуация, при которой один концепт интегрируемой онтологии соответствует нескольким объектам знаний главной онтологии (рис. 9). В данном случае производится корректировка результирующей онтологии на структурном уровне [11]. Концепт одной онтологии является уточнением соответствующего концепта другой онтологии, такие концепты должны представляться как подкласс и класс соответственно. Совпадающие атрибуты удаляются из подкласса, так как они будут унаследованы от надкласса. Здесь необходимо учитывать все существующие отношения этих концептов.
°т с/'' К
к,' Ч
С' V
К,'
Рис. 9. Схема сравнения и преобразования группы концептов в один концепт
4. Если концепты двух онтологий частично эквивалентны, то они представляют собой схожие понятия, то есть имеют общий надкласс, являющийся их обобщением. При этом совпадающие атрибуты удаляются из подкласса, так как они наследуют характеристики от обобщающего концепта. На рис. 10 приводится схема установления отображения на уровне частичной эквивалентности.
°м оК'' д
К,' К, К'
Добавление
и 5 X и X ео из 0 Создание нового К52 концепта - Ф атрибутов к новому концепту из исходных ф Установление отображения
ег надкласса концептов К' И К''
°м К
К'
I 1
КоКо
Рис. 10. Схема установления отображения при частичной эквивалентности
концептов
В данной работе в качестве критерия останова предложено использовать определенное количество итераций. До тех пор, пока не достигнут критерий останова при переходе на следующую итерацию, выполняется эволюционная адаптация.
4. Экспериментальные исследования. Задача интеграции онтологий, как и отображение онтологических понятий, включает поиск общностей и различий в спецификациях множественных онтологий для последующего обеспечения совместимости и репрезентации данных и знаний в ИИС [22].
Онтологии интегрируемых ИИС изначально никак не связаны, следовательно, необходимо найти семантически близкие элементы онтологий и подтвердить корректность семантики установленных отношений между онтологическими понятиями. Поэтому с целью анализа алгоритмов оценки мер подобия были рассмотрены проекты, реализующие методы вычисления семантической близости концептов интегрируемых онтологий.
Для оценки разработанного алгоритма был проведен сравнительный анализ с такими системами, как Anchor-PROMPT [23, 24] и QOM [25], поддерживающими процессы объединения и отображения онтологий.
Система Anchor-PROMPT реализована как дополнительный модуль к распространённому редактору онтологий Protege и служит для объединения онтологий. Данная система выбирает пары релевантных терминов из исходных онтологий и устанавливает семантические связи (пути) между такими парами. После этого происходит сравнение терминов в полученных путях и генерируются новые пары семантически близких терминов.
В проекте QOM на время работы алгоритма поиска отображения непосредственно влияет количество вероятных пар. Здесь применяется эвристический метод оценки структуры онтологий, позволяющий уменьшить количество кандидатов на отображение. На этапе оценки близости QOM избегает полной попарной оценки деревьев онтологии и ограничивает число дорогостоящих сравнений. Там, где используются итерации, ограничивается их количество, утверждая на тестах, что дальнейшие итерации не оказывают сильного влияния на результат. Констатируется, что оптимизация операций уменьшает качество отображения, а использование комбинации подходов его увеличивает [8].
Для проведения экспериментальных исследований работы предложенного ГА была разработана программная среда для поиска весовых коэффициентов t, r, a, которые позволяют регулировать процесс вычисления семантической близости двух концептов. Данная задача сводится к решению системы линейных алгебраических уравнений.
Результаты экспериментальных исследований позволили определить зависимость времени работы алгоритма от входных параметров (весовых коэффициентов).
Графики зависимости времени работы разработанного алгоритма, а также Anchor-PROMPT и QOM, от количества входных данных, представлены на рис. 11.
Количество входных параметров, п
Рис. 11. Графики зависимости времени решения от числа входных параметров
Временная сложность разработанного алгоритма ориентировочно составляет О(п2).
Предложенный подход представляет оригинальный механизм к отображению и интеграции онтологий, использующий генетический алгоритм для определения близости элементов онтологий по данным (весовым коэффициентам) экземплярам понятий. Онтологии определяются как таксономии понятий с атрибутами. Во время поискового процесса ГА применяются правила сопоставления элементов онтологий. Точность выполнения зависит от качества полученных на каждой итерации эффективных решений ГА, взвешивающего результаты определения критериев подобия понятий интегрируемых онтологий.
Заключение. Основные преимущества эволюционного подхода к решению задачи интеграции знаний заключаются в выявлении ключевых концептов для построения результирующей онтологии, а также устранения субъективности описаний понятий онтологии и зависимости от точек зрения разработчиков онтологий. Для решения проблемы семантических конфликтов предложена модель оценки семантической близости, основанная на согласовании атрибутивной, таксономической и реляционной меры подобия. Разработан генетический алгоритм определения критерия подобия концептов для классификации отображений в следующие группы: эквивалентность, частичная эквивалентность, обобщение, уточнение, неопределенность. Предложенный подход позволяет находить эффективное решение проблемы интеграции данных и знаний благодаря использованию модифицированных генетических операторов и процесса эволюционной адаптации. Данный подход адаптирован для задачи определения комплексной оценки семантической близости концептов неоднородных онтоло-гий, отличительной особенностью которого является автоматическое вычисление весовых коэффициентов с использованием генетического алгоритма.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Запорожец Д.Ю., Кравченко Ю.А., Лежебоков А.А. Способы интеллектуального анализа данных в сложных системах // Известия КБНЦ РАН. - 2013. - № 3. - С. 52-56.
2. Бова В.В. Концептуальная модель представления знаний при построении интеллектуальных информационных систем // Известия ЮФУ. Технические науки. - 2014. - № 7 (156). - С. 109-117.
3. Кравченко Ю.А. Бова В.В. Нечеткое моделирование разнородных знаний в интеллектуальных обучающих системах // Открытое образование. - 2013. - № 4 (99). - С. 70-74.
4. Родзина Л.С., Родзин С.И. Мобильные обучающие системы и онтологии // Онтология проектирования. - 2013. - № 3 (9). - С. 70-81.
5. Гаврилова Т.А. Онтологический подход к управлению знаниями при разработке корпоративных информационных систем // Новости искусственного интеллекта. - 2003. - № 1 (55). - С. 24-30.
6. Бова В.В., Лещанов Д.В. О вопросе интеграции ресурсов знаний на основе анализа и синтеза онтологий // Информатика, вычислительная техника и инженерное образование. - 2014. - № 3 (18). - С. 14-22.
7. Бова В.В. Онтологическая модель интеграции данных и знаний в интеллектуальных информационных системах // Известия ЮФУ. Технические науки. - 2015. - № 4 (165). - С. 225-237.
8. Скворцов Н.А. Вопросы согласования неоднородных онтологических моделей и онтологических контекстов // Онтологическое моделирование. - М.: ИПИ РАН, 2008. - С. 149-166.
9. Лис К.П. Онтологическая интеграция данных моделирования для управления сервисно-ориентированной ИТ-инфраструктурой // Материалы 6-й Международной конференции СпбГУЭФ. - СПб.: Изд-во СпбГУЭФ. 2010. - С. 62-67.
10. Ландэ Д.В. Основы интеграции информационных потоков: Монография. - Киев: Инжиниринг, 2006. - 240 с.
11. Бова В.В., Лещанов Д.В., Кравченко Д.Ю., Новиков А.А. Компьютерная онтология: задачи и методология построения // Информатика, вычислительная техника и инженерное образование. - 2014. - № 4 (19). - С. 18-24.
12. Вагин В.Н., Михайлов И.С. Разработка метода интеграции информационных систем на основе метамоделирования и онтологии предметной области // Программные продукты и системы. - 2008. - С. 22-26.
13. Тузовский А.Ф. Работа с онтологиями в системе управления знаниями организации // Сборник тезисов докладов второй международной конференция по когнитивной науке CogSci-2006. - СПб.: СПбГУ, 2006. - Т. 2. - C. 581-583.
14. Батоврин В.К., Когаловский М.Р., Королев А.С., Петров А.Б. Разработка понятийной схемы (онтологии) для обеспечения единой семантики в среде открытой системы интеграции разнородных данных // Телематика'2006: материалы Всероссийской научно-методической конференции. - СПб.: Изд-во СПбГУ ИТМ0,2006. - С. 90-91.
15. Гладков Л.А., Курейчик В.В., Курейчик В.М. Генетические алгоритмы. - М.: Физматлит, 2010. - 368 с.
16. Kravchenko Y.A., Kureichik V.V. Bioinspired algorithm applied to solve the travelling salesman problem // World Applied Sciences Journal. - 2013. - № 22 (12). - P. 1789-1797.
17. Kravchenko Y.A., Kureichik V.V., GladkovL.A. Evolutionary Algorithm for Extremal Subsets Comprehension in Graphs // World Applied Sciences Journal. - 2013. - № 27 (9). - P. 1212-1217.
18. Zaporozhets D.U., Zaruba, D.V., Kureichik, V.V.: Representation of solutions in genetic VLSI placement algorithms, IEEE East-West Design & Test Symposium - (EWDTS'2014) Kiev, Ukraine, 2014. - P. 1-4.
19. Zaporozhets, D.Yu., Zaruba, D.V., Kureichik, V.V. Hybrid bionic algorithms for solving problems of parametric optimization // J. World Applied Sciences Journal. - 2013. - № 23. - Р. 1032-1036.
20. Бова В.В., Заммоев А.У., Дуккардт А.Н. Эволюционная модель интеллектуального анализа разнородных знаний // Известия КБНЦ РАН. 2013. - № 4 (54). - С. 7-13.
21. Кулиев Э.В., Лежебоков А.А., Дуккардт А.Н. Подход к исследованию окрестностей в роевых алгоритмах для решения оптимизационных задач // Известия ЮФУ. Технические науки. - 2014. - № 7 (156). - С. 15-25.
22. Bova V.V., Kureychik V.V., Legebokov A.A. The integrated model of representation model of representation oriented knowledge in information systems // Conference proceedings. 8th IEEE International Conference «Application of Information and Communication Technologies -AICT 2014». - 15-17 October 2014, Astana, Kazakhstan. - Р. 111-115.
23. Noy N., Musen M. The PROMPT Suite: Interactive Tools For Ontology Merging And Mapping. Stanford Medical Informatics, Stanford University, 2003.
24. Noy N., Musen M. Anchor-PROMPT: Using NonLocal Context for Semantic Matching. In Proceedings of the Workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001.
25. Ehrig, Marc and Staab, Steffen QOM - Quick Ontology Mapping. in S.A. McIlraith et al. (Eds.): ISWC 2004, LNCS 3298. - 2004. - Р. 683-697.
REFERENCES
1. Zaporozhets D.Yu., Kravchenko Yu.A., Lezhebokov A.A. Sposoby intellektual'nogo analiza dannykh v slozhnykh sistemakh [Methods data mining in complex systems], Izvestiya KBNTs RAN [Izvestija Kabardino-Balkarskogo Nauchnogo Centra RAN], 2013, No. 3, pp. 52-56.
2. Bova V.V. Kontseptual'naya model' predstavleniya znaniy pri postroenii intellektual'nykh informatsionnykh sistem [Conceptual model of knowledge representation in the constructing intelligent information systems], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2014, No. 7 (156), pp. 109-117.
3. Kravchenko Yu.A. Bova V.V. Nechetkoe modelirovanie raznorodnykh znaniy v intellektu-al'nykh obuchayushchikh sistemakh [Fuzzy modeling of heterogeneous knowledge in intelligent tutoring systems], Otkrytoe obrazovanie [Open Education], 2013, No. 4 (99), pp. 70-74.
4. Rodzina L.S., Rodzin S.I. Mobil'nye obuchayushchie sistemy i ontologii [Mobile learning systems and ontologies], Ontologiyaproektirovaniya [Ontology of Designing], 2013, No. 3 (9), pp. 70-81.
5. Gavrilova T.A. Ontologicheskiy podkhod k upravleniyu znaniyami pri razrabotke korporativnykh informatsionnykh sistem [The ontological approach to knowledge management in the development of corporate information systems], Novosti iskusstvennogo intellekta [News of Artificial Intelligence], 2003, No. 1 (55), pp. 24-30.
6. Bova V.V., Leshchanov D.V. O voprose integratsii resursov znaniy na osnove analiza i sinteza ontologiy [On the issue of integration of knowledge resources based on the analysis and synthesis of ontologies], Informatika, vychislitel'naya tekhnika i inzhenernoe obrazovanie [Information, Computing and Engineering Education], 2014, No. 3 (18). pp. 14-22.
7. Bova V.V. Ontologicheskaya model' integratsii dannykh i znaniy v intellektual'nykh informatsionnykh sistemakh [Ontological model of data integration and knowledge in intelligent information systems], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2015, No. 4 (165), pp. 225-237.
8. Skvortsov N.A. Voprosy soglasovaniya neodnorodnykh ontologicheskikh modeley i ontologicheskikh kontekstov [The alignment of heterogeneous ontological models and ontological contexts], Ontologicheskoe modelirovanie [Ontological Modeling]. Moscow: IPI RAN, 2008, pp. 149-166.
9. Lis K.P. Ontologicheskaya integratsiya dannykh modelirovaniya dlya upravleniya servisno-orientirovannoy IT-infrastrukturoy [Ontological integration of data modeling for management of service-oriented it infrastructure], Materialy 6-y Mezhdunarodnoy konferentsii SpbGUEF [Materials of the 6th International conference of Economics]. St. Petersburg: Izd-vo SpbGUEF. 2010, pp. 62-67.
10. Lande D.V. Osnovy integratsii informatsionnykh potokov: Monografiya [Principles of integration of information flows: a Monograph]. Kiev: Inzhiniring, 2006, 240 p.
11. Bova V.V., Leshchanov D.V., Kravchenko D.Yu., Novikov A.A. Komp'yuternaya ontologiya: zadachi i metodologiya postroeniya [Computer ontology: objectives and methodology], Informatika, vychislitel'naya tekhnika i inzhenernoe obrazovanie [Information, Computing and Engineering Education], 2014, No. 4 (19), pp. 18-24.
12. Vagin V.N., Mikhaylov I.S. Razrabotka metoda integratsii informatsionnykh sistem na osnove metamodelirovaniya i ontologii predmetnoy oblasti [Development of a method of integration of information systems based on a metamodeling and ontology], Programmnye produkty i sistemy [Software & Systems], 2008, pp. 22-26.
13. Tuzovskiy A.F. Rabota s ontologiyami v sisteme upravleniya znaniyami organizatsii [Working with ontologies in the knowledge management system of the organization], Sbornik tezisov dokladov vtoroy mezhdunarodnoy konferentsiya po kognitivnoy nauke CogSci-2006 [The book of abstracts second international conference on cognitive science CogSci-2006], St. Petersburg: SPbGU, 2006, Vol. 2, pp. 581-583.
14. Batovrin V.K., Kogalovskiy M.R., Korolev A.S., Petrov A.B. Razrabotka ponyatiynoy skhemy (ontologii) dlya obespecheniya edinoy semantiki v srede otkrytoy sistemy integratsii raznorodnykh dannykh [Development of the conceptual schema (ontology) to provide a uniform semantics in the environment of an open system for the integration of heterogeneous data], Telematika'2006: materialy Vserossiyskoy nauchno-metodicheskoy konferentsii [Telemat-ics'2006: proceedings of all-Russian scientific-methodical conference]. St. Petersburg: Izd-vo SPbGU ITMO, 2006, pp. 90-91.
15. Gladkov L.A., Kureychik V.V., Kureychik V.M. Geneticheskie algoritmy [Genetic algorithms]. Moscow: Fizmatlit, 2010, 368 p.
16. Kravchenko Y.A., Kureichik V.V. Bioinspired algorithm applied to solve the travelling salesman problem, World Applied Sciences Journal, 2013, No. 22 (12), pp. 1789-1797.
17. Kravchenko Y.A., Kureichik V.V., GladkovL.A. Evolutionary Algorithm for Extremal Subsets Comprehension in Graphs, World Applied Sciences Journal, 2013, No. 27 (9), pp. 1212-1217.
18. Zaporozhets D.U., Zaruba, D.V., Kureichik, V.V. Representation of solutions in genetic VLSI placement algorithms, IEEE East-West Design & Test Symposium - (EWDTS'2014) Kiev, Ukraine, 2014, pp. 1-4.
19. Zaporozhets, D. Yu., Zaruba, D. V., Kureichik, V. V. Hybrid bionic algorithms for solving problems of parametric optimization, J. World Applied Sciences Journal, 2013, No. 23, pp. 1032-1036.
20. Bova V.V., Zammoev A.U., Dukkardt A.N. Evolyutsionnaya model' intellektual'nogo analiza raznorodnykh znaniy [An evolutionary model of mining heterogeneous knowledge], Izvestiya KBNTs RAN [Izvestija Kabardino-Balkarskogo Nauchnogo Centra RAN], 2013, No. 4 (54), pp. 7-13.
21. Kuliev E.V., Lezhebokov A.A., Dukkardt A.N. Podkhod k issledovaniyu okrestnostey v roevykh algoritmakh dlya resheniya optimizatsionnykh zadach [Approach to research environs in swarms algorithm for solution of optimizing problems], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2014, No. 7 (156), pp. 15-25.
22. Bova V.V., Kureychik V.V., Legebokov A.A. The integrated model of representation model of representation oriented knowledge in information systems, Conference proceedings. 8th IEEE International Conference «Application of Information and Communication Technologies -AICT 2014». - 15-17 October 2014, Astana, Kazakhstan, pp. 111-115.
23. Noy N., Musen M. The PROMPT Suite: Interactive Tools For Ontology Merging And Mapping. Stanford Medical Informatics, Stanford University, 2003.
24. Noy N., Musen M. Anchor-PROMPT: Using NonLocal Context for Semantic Matching. In Proceedings of the Workshop on Ontologies and Information Sharing at the International Joint Conference on Artificial Intelligence (IJCAI), 2001.
25. Ehrig, Marc and Staab, Steffen QOM - Quick Ontology Mapping. in S.A. McIlraith et al. (Eds.): ISWC 2004, LNCS 3298, 2004, pp. 683-697.
Статью рекомендовал к опубликованию д.т.н., профессор Ю.А. Гатчин.
Бова Виктория Викторовна - Южный федеральный университет, e-mail: [email protected]; 347928, г. Таганрог, Некрасовский, 44; тел.: 88634371651; кафедра систем автоматизированного проектирования; доцент.
Заруба Дарья Викторовна - e-mail: [email protected]; кафедра систем автоматизированного проектирования; аспирант.
Курейчик Владимир Викторович - e-mail: [email protected]; кафедра систем автоматизированного проектирования; зав. кафедрой; д.т.н.; профессор.
Bova Victoria Victorovna - Southern Federal University; e-mail: [email protected]; 44, Nekrasovskiy, Taganrog, 347928, Russia; phone: +78634371651; the department of computer aided design; associate professor.
Zaruba Daria Victorovna - e-mail: [email protected]; the department of computer aided design; post-graduate student.
Kureichik Vladimir Victorovich - e-mail: [email protected]; the department of computer aided design; head the department; dr. of eng. sc.; professor.