Научная статья на тему 'Разработка интеллектуальной системы поиска аналогов решений в электронном архиве проектной документации с применением иммунного алгоритма мультимодального поиска'

Разработка интеллектуальной системы поиска аналогов решений в электронном архиве проектной документации с применением иммунного алгоритма мультимодального поиска Текст научной статьи по специальности «Математика»

CC BY
179
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Мельникова Ирина Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка интеллектуальной системы поиска аналогов решений в электронном архиве проектной документации с применением иммунного алгоритма мультимодального поиска»

системы можно охарактеризовать следующим образом. Она имеет интегрированную среду разработки, обеспечивает реальный многопользовательский режим, позволяет выбирать подход к проектированию системы управления, настраивать технологию разработки, программировать механизмы автоматического проектирования и обладает рядом других особенностей.

Системы, разработанные на базе ТРЕЙС МОУД, работают в энергетике, металлургии, нефтяной, газовой, химической и других отраслях промышленности и в коммунальном хозяйстве России. По числу внедрений в России ТРЕЙС МОУД значительно опережает зарубежные пакеты подобного класса.

К тенденциям развития распределенных систем управления можно отнести системный подход к построению системы с учетом стандартизации и унификации оборудования и программного обеспечения, единого подхода к многоуровневой структуре систем управления.

В заключение необходимо подчеркнуть, что проектирование или модернизация современных распределенных систем управления должны выполняться с учетом максимального удовлетворения требований на разработку системы управления, в том числе функциональных, технических, экологических, требований надежности; использования программно-аппаратных средств, отвечающих всем международным стандартам, гарантирующим соблюдение принципа открытости систем; экономической эффективности системы управления с учетом всего жизненного цикла системы и др. требований, определяемых спецификой и характером технологического процесса.

Литература

1. Андреев Е.Б. и др. Программные средства систем управления технологическими процессами в нефтяной и газовой промышленности / Андреев Е.Б., Попадько В.Е. - М.: Издательство РГУ нефти и газа им. И.М. Губкина, 2005. - 266 с.

2. Подьяпольский С.В., Родионов А.В., Соркин Л.Р. Распределенная система управления нового поколения Experion PKS компании Honeywell // Промышленные АСУ и контроллеры. -2005.-№9. 1-6 с.

3. Синенко О.В. Анализ производственных процессов и подход к созданию комплексных систем управления производством / Синенко О.В. // Нефтяное хозяйство. - 2002. - №210. - С. 25-29.

4. Якобовский М.В. Распределенные системы и сети. М.: МГТУ "Станкин", 2000 г. - 118 с.

5. TDC 3000 System. System Technical Data: Honeywell Inc. 1990 - 22 p.

6. TRACE MODE, http://www.adastra.ru/

УДК 519.688

РАЗРАБОТКА ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОИСКА АНАЛОГОВ РЕШЕНИЙ В ЭЛЕКТРОННОМ АРХИВЕ ПРОЕКТНОЙ ДОКУМЕНТАЦИИ С ПРИМЕНЕНИЕМ ИММУННОГО АЛГОРИТМА МУЛЬТИМОДАЛЬНОГО ПОИСКА

Мельникова Ирина Владимировна, доцент, Старооскольский технологический институт, Национальный исследовательский технологический университет «МИСиС», Россия, Старый Оскол,

[email protected]

Введение

Электронные архивы являются современным решением для повышения эффективности работы с информационными ресурсами [1]. Имеется большое количество как коммерческих, так и индивидуальных разработок систем работы с документацией и систем поиска документальной информации [2]. Однако, все предлагаемые, в том числе в научных публикациях, подходы базируются на гипертекстовом поиске. Несколько особняком стоят в этой области архивы проектно-конструкторской документации. В них хранятся разнородные по формам представления документы, однако подавляющее большинство составляет

18

документация в формате Autocad, что делает все виды гипертекстового поиска малоэффективными. Кроме того, очень часто возникает необходимость поиска похожих проектов, поскольку часто новые проекты представляют собой комбинацию ранее разработанных типовых решений.

Задача обработки накопленной в ходе деятельности предприятия документации и извлечения из нее знаний является классической задачей Data Mining. К числу методов исследования данных в Data Mining можно также отнести бурно развивающийся в последнее время аппарат иммунных сетей.

Иммунные сети являются естественным продолжением практики применения механизмов биологических систем для решения множества задач в широкой области приложений. Перспективы применения имунных алгоритмов в системах Data Mining рассматривались еще в базовых работах L. N. De Castro и Тиммиса [3]. Процессы, происходящие при обработке информации естественными системами и принципы их функционирования, поражают своей эффективностью, экономичностью и быстродействием. Разработка высокоэффективных ИИС находится на начальном этапе, поэтому они недостаточно распространены, но имеют огромный потенциал развития [4].

1. Постановка задачи исследования

Постановка задачи исследования формулируется следующим образом: необходимо разработать интеллектуальную информационно-поисковую систему, решающую задачу поиска аналогичных проектов в архиве проектной организаци на основе биологического подхода ИИС.

Для классификации проектов предлагается поставить в соответствие каждому проекту бинарную последовательность, в которой каждой позиции соответствует какое-либо проектное решение, согласно разработанному для данной тематики перечню видов проектов и входящих в их состав отдельных решений. Тогда новому проекту будет соответствовать некоторая известная бинарная последовательность, где наличию или отсутствию какого-либо решения будут соответствовать 0 или 1. При этом задача сводится к поиску в полученном после сериализации файле сигнатур проектов, наиболее соответствующих заданной. Так как идентичные проектные решения могут встречаться в разных проектах, то результат поиска предполагает несколько вариантов наиболее схожих проектов.

Традиционными методами подобные задачи решаются плохо. В связи с этим актуально применение биологического подхода Искусственных Иммунных Систем (ИИС), построенных на принципах обработки информации молекулами белков [5].

Для решения данной задачи наиболее подходящим представляется иммунный алгоритм мультимодального параллельного поиска [6]. Существует несколько разновидностей алгоритма мультимодальной оптимизации - основные это aiNet и модифицированный алгоритм CLONALG.

2. Разработка теоретических основ и алгоритма построения ИПС

Естественная иммунная система имеет уникальную способность вырабатывать новые типы антител и отбирать наиболее подходящие из них для взаимодействия с попавшими в организм антигенами. Методом проб и ошибок иммунная система вырабатывает огромное количество антител против бесчисленного множества неизвестных антигенов. Важной характеристикой процесса адаптации системы иммунитета при ее взаимодействии с поступающими из внешней среды вирусами и бактериями является обеспечение разнообразия типов антител. С математической точки зрения поддержание разнообразия в иммунной системе можно трактовать как задачу оптимизации мультимодальной функции, имеющую кратное (не единственное) решение.

Предлагаемый алгоритм обеспечивает возможность одновременного хранения нескольких векторов поиска для нахождения кратных решений. Для этого вводится индекс

19

разнообразия, а вектор приближений сохраняется, аналогично механизму поддержания клеток памяти в иммунной системе.

Будем считать, что имунная система является аналогом имунного алгоритма.

Рассмотрим имеющийся набор сигнатур проектов как антитела, а бинарную последовательность нового проекта - как антиген.

Антиген x представляет собой совокупность проектных решений, сформированных пользователем.

Аффиности axv и ayv,w— это степень схожести как имеющихся проектов в базе между собой, так и сформированного пользователем с ними.

В-лимфоциты cv— массив значений, участвующий в процессе удаления из рассмотрения неподходящих проектных решений.

Ожидаемый масштаб выработки ev - значение, указывающее, какие проекты не удовлетворяют результатам запроса, и собственно удаляются, а какие остаются.

Тогда алгоритм поиска можно представить в следующем виде:

1. Распознавание антигена, т.е. получение бинарной последовательности, для которой

необходимо найти аналоги. Данный шаг соответствует определению вида задачи оптимизации, а бинарная последовательность нового проекта (антиген) представляет собой критерий, по которому будет осуществляться оптимизация.

2. Выработка антител, т.е. извлечение из памяти имеющихся бинарных последовательностей-антигенов. Этот шаг соответствует «вспоминанию» полученного в прошлом успешного решения, а для нашей задачи- выполненных ранее проектов.

3. Вычисление аффинитета, т.е. определение набора B—лимфоцитов, индуцирующих наиболее подходящие антитела. Для этого вычисляются функции аффинитета: аффинность антител для каждой пары антител

M

ъ

ayv,w =

ъъ p«

(1)

j=1 i=1

где M — количество бит в бинарной последовательности, S — количество готовых проектов-антител, st —вероятность равенства i—того бита (отдельной работы выполняемой в проекте) текущего антигена единице, т.е ; pfj. — вероятность равенства

i—того бита текущего антигена i—тому биту j—того антигена; и аффинность антитела к антигену

axv = optv, (2)

где величина optv характеризует силу связи между возможным решением-антителом

и искомым проектом — антигеном и вычисляется посредством логического умножения соответствующих бинарных последовательностей с последующим подсчетом количества ненулевых бит результата, т.е. заданными к поиску видами отдельных проектных решений. Кроме того, сохраняются номера единичных бит антигена, соответствующих единичным битам антитела, т.е. найденными аналогами искомых работ входящих в состав проекта. Собственно, на этом шаге происходит поиск оптимального решения

4. Дифференцировка лимфоцитов, т.е. сохранение подходящего решения для следующего шага поиска. На данном шаге некоторые В—лимфоциты становятся клетками памяти, а также супрессорными клетками. Супрессорные клетки необходимы для удаления избытка кандидатов на решение. Выбор таких В—лимфоцитов происходит по следующей формуле:

20

c

v

1 N

— E acvw > Tc , , где

N w=1

ac

0

если ayvw > Tad,

иначе ayvw < ^

(3)

Tc - пороговое значение для В-лимфоцита; Tacl - пороговое значение для антигена.

5. Размножение и подавление антител. Ожидаемый масштаб ev выработки антител задается формулой

e

v

S

axv Ш1 - asvs )

s=1____________

N

cv E axi

где asv,s

ayv s если ayv s > Tac2;

О иначе ayv s < Tac2

(4)

i=1

Соотношение (4) регулирует концентрацию и разнообразие проектов-аналогов (антител) в популяции лимфоцитов. Если антитело приобретает более высокий аффинитет к искомому проекту-антигену, то оно размножается, но при этом размножение антител, концентрация которых слишком велика, подавляется. Наряду с отслеживанием локальных максимумов это соответствует поддержанию разнообразия направлений поиска. Данный механизм поиска полностью соответствует решаемой задаче, т.к. отдельные проектные решения могут содержаться в локальных максимумах, а также в слабо релевантных решениях. Это определяется спецификой проектирования, так как однозначно отнести проект к той или иной категории часто невозможно.

6. Размножение антител. Для ответа на ранее не встречавшиеся антигены, т.е. новый проект, происходит образование новых лимфоцитов вместо антител (проектов найденных ранее), удаляемых на предыдущем шаге. В рамках иммунного алгоритма это позволяет генерировать разнообразие антител на основе генетических операторов репродукции, например, под действием операторов мутаций или скрещивания. Необходимым условием этого является более высокая эффективность таких операторов по сравнению с генерацией антител на чисто случайной основе.

Данный алгоритм строится на понятии формального белка (ФБ) [7], в котором закодированы бинарные последовательности уже выполненных и содержащихся в каталоге организации проектов, одна последовательность - один проект в каждом белке. Новый проект при поступлении на разработку кодируется аналогичнвм образом, впоследствии, при занесении в категорию выполненных, его бинарная последовательность может быть откорректирована по факту выполненных работ. Описание формального белка проистекает из попытки описания его геометрической структуры посредством аппарата кватернионов [8].

Формальный белок представляет собой упорядоченную пятерку, образованную следующими компонентами: P={n, U,Q,V,v},

1.

2.

3.

4.

5.

Количеством связей п>0, равным количеству бит бинарной последовательности описываемого проекта;

Множеством углов и = {<рк$к},к = 1, где -к < <pk < п, -к < фк < л. В нашем случае углы вращения представляют собой биты бинарной последовательности;

Множеством единичных кватернионов Q={Qo,Qk}, где кватернионы Qk = Qk (<рк-фк) определяются формулами (5) и (6), и результирующий кватернион формального белка Q0 определяется как их произведение:

Q0=Q1Q2... Qn;

Множеством коэффициентов V={vij}, i=1,2,3,4, j>i;

Функцией v (без индекса), определенной над элементами результирующего кватерниона Q0 посредством следующей квадратичной формы:

v = ~I.j>ivij4i4j О)

21

Антитело, т.е. задание на проектирование, представляется в виде формального белка. В-лимфоцит представляет собой более сложную структуру, способную генерировать формальные белки-антитела с тем, чтобы они связывались с антигенами, т.е. с имеющимися в нашем распоряжении проектами.

Формальный В-лимфоцит - упорядоченная четверка В — cell (P,Ip, Is, Im), где

P - рецептор лимфоцита, представляющий собой ФБ; Ip - индикатор состояния рецептора; Is - индикатор состояния лимфоцита; Im - индикатор мутации.

Поведение В-лимфоцита определяется следующими правилами:

1. В-лимфоцит может находиться только в следующих состояниях: Is = {0,1,2}

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Is=0 обозначает смерть, когда 5-лимфоцит уничтожен;

Is=1 обозначает распознание, когда рецептор p 5-лимфоцита может связываться с другим ФБ;

Is=2 обозначает размножение лимфоцита, когда 5-лимфоцит делится на две одинаковые копии, состояние которых устанавливается в Is=1, а состояние их рецепторов определяется индикатором мутации Im;

Переход из состояния Is=1 в состояние Is=2 может происходить только в результате связывания рецептора P с другим ФБ.

2. Индикатор мутации Im={0,1} родительского лимфоцита определяет состояние рецепторов его копий следующим образом:

Im=0 рецепторы наследуются от родительского В-лимфоцита (без мутации);

Im=1 рецепторы изменяются (с мутацией).

Другими словами, главным свойством формального В-лимфоцита является его размножение (или смерть) в результате свободного связывания (или не связывания) с некоторым ФБ.

Рис. 1 - Диаграмма классов

Реализация данного алгоритма выполнялась с использованием объектноориентированного подхода (ООП). Одним из наиболее важных понятий ООП является класс. Класс представляет собой дальнейшее развитие концепции типа и объединяет в себе задание не только структуры и размера переменных, но и выполняемых над ними операций. Разработка производилась в среде программирования Microsoft Visual C# 2008 Express Edition Функциональная схема поисковой системы реализованной на базе предложенного алгоритма представлена на рис.1 и состоит из 3 классов:

1) Класс Mainform обеспечивает связь с пользователем, подключение к базе данных и работу остальных модулей.

22

2) Класс Antibody описывает свойства антитела, а также методГМА:йш1у для нахождения аффинности для пары антител.

Модуль FindAfinity реализует алгоритм для нахождения аффинности как между парами анитител так и антитела с антигеном.

3) Класс1 aController реализует алгоритм параллельного поиска и вспомогательные методы.

Модуль Calcaffinity Iterations реализует алгоритм параллельного поиска.

Модуль Delete Dublicate предназначен для отсеивания одинаковых антител, которые образовались на шаге клонирования метода.

Модуль Result Filter объединяет части результатов в один результирующий массив,

блок-схема модуля приведена на рис 2.

Рис. 2 - Блок-схема модуля Result Filter

Было проведено тестирование на каталоге электронного архива проектной организации, специализирующейся в области электротехнических решений, содержащем около 1000 проектов. Оценка эффективности поисковой системы производилась по следующей методике [9].

Степень релевантности пары (d,s): ?/(d,, s') = YJjLi Vj(d, s) (g>

Коэффициент полноты: Коэффициент точнности:

h (s) =

Z „.Mr („ ’s €(„ ,s)

Z r ( d, s )

Z-t„.M v ’ ’

( ) Z„.Mr(d-s)€(d,s) ■()" IdM^ s)

(9), (10)

d - проект из множества проектов; s -запрос проекта; (d,s) - релевантная пара4 r(d,s) - отношение релевантности; M - множество проектов; r(d,s) = 1, если проект d релевантен запросу s

0, если проект d не релевантен запросу s (11)

23

9(d,s) - отношение выдачи, где

9(d,s) = 1, если ИС выдает проект d на запрос s

0, если ИС не выдает проект d на запрос s (12)

кт

1.2

1

0.8

0.6

0.4

0,2

О

L

<0,8;0,81

т

-" # 1» '

3 О 2 0 4 О 6 0 8 1

■ ki=ft кп>

кп

Рис. 3 - Кривая оптимальных характеристик качества поиска

Выводы

В данной работе обосновано применение искусственных иммунных сетей к задаче мультимодальной оптимизации для решения задачи поиска в электронном архиве проектной документации. Предлагается оригинальная система классификации и кодирования проектов, позволяющая полностью описать все проектные решения, входящие в состав проекта, сведя их в конечном итоге к файлу сигнатур проектов.

Литература

1. И.В. Мельникова «Анализ существующих проблем хранения проектной документации в архивах предприятий и организаций. Международная научно-практическая конференция «Образование, наука, производство», г.Ст.Оскол 20-21 ноября 2008г.

2. И.В. Мельникова «Обзор некоторых подходов к организации электронных архивов проектных организаций. Международная научно-практическая конференция «Образование, наука, производство и управление», г.Ст.Оскол 20-21 ноября 2008г.

3. de Castro L.N., Timmis J. Artificial Immune Systems. A New Computational Intelligence Paradigm. -N.-Y.: Springer, 2002.

4. Julie Greensmith New Frontiers For An Artificial Immune System Digital Media Systems Laboratory, HP Laboratories Bristol, HPL-2003-204, October 7th , 2003*.

5. Tarakanov A.O. Formal peptide as a basic of agent of immune networks: from natural prototype to mathematical theory and applications. Proceeding of the I Int. workshop of central and Eastern Europe on Multi. - Agent Systems, 1999.

6. L. de Castro and J. Timmis. An artificial immune network for multimodal function optimization. In Proc. of the Congress on Evolutionary Computation (CEC), volume 1, pages 699-704, Los Alamitos, CA, USA, 2002. IEEE Computer Society.

7. Goldberg D. Genetic algorithms in search, optimization, and machine learning. N.Y.: Addison-Wesley, 1989.

8. Cantor C., Schimmel P. Biophysical Chemistry. Part I. The conformation of biological macromolecules. San Francisco: W.H. Freeman & Co. 1980

9. Соколов А.В.«Методика оценки максимально возможных значений показателей эффективности поиска текстовой информации», Информационные технологии, - 2009. №5, стр. 18-24

24

i Надоели баннеры? Вы всегда можете отключить рекламу.