Отбор информативных признаков на основе модифицированного метода муравьиных колоний

Субботин Сергей Александрович; Олейник Алексей Александрович; Яценко Виктор Кузьмич

Науко ва цінніст ь роботи полягає у модифікації тр анс-лятора простої мови програмування відповідно до вимог сучасних систем програмування і стандарту мови програмування Сі.

Практична значущість результатів роботи полягає у скороченні часу розробки нових мов програмування і можливості реалізації власних трансляторів вже існуючих мов.

Наступним завданням авторів є розробка інтерпретатора мови Пролог, який забезпечить подання знань системи керування інтелектуальним роботом для машинобудівного виробництва (на базі промислового робота РМ-01).

Література: 1. Гордеев А.В., Молчанов А.Ю. Системное программное обеспечение. СПб.: Питер, 2002. 736 с. 2.

УДК519.6:004.93 ’

ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ НА ОСНОВЕ МОДИФИЦИРОВАННОГО МЕТОДА МУРАВЬИНЫХ КОЛОНИЙ

СУББОТИН С. А., ОЛЕЙНИК А.А., ЯЦЕНКО В.К.

Впервые предлагается метод отбора признаков для построения распознающих и прогнозирующих моделей на основе модификации метода муравьиных колоний. С помощью разработанного метода проводится анализ информативности признаков для построения моделей коэффициента упрочнения деталей авиадвигателей.

Введение

Выбор информативной системы признаков является одной из наиболее важных задач теории распознавания образов. Однако удовлетворительного решения, определяющего порядок автоматического отыскания признаков посредством переработки информации, получаемой на уровне абсолютного описания объекта, пока не найдено [1].

Необходимость определения информативных признаков из имеющейся совокупности обусловлена также тем, что качество распознавания и прогноза не инвариантно к системе используемых признаков. В практических случаях характеристики классов и прогнозирующие правила определяются по экспериментальным данным ограниченного объема, поэтому добавление неинформативных признаков приводит к более сильному пересечению представителей классов в пространстве признаков, что может ухудшить качество прогноза [2, 3].

Задачу отбора информативных признаков можно сформулировать следующим образом.

Пусть имеетсяК результатов экспериментов, отображающих значения изучаемого отклика у в зависимости от изменения n признаков x1, x2, ...., x„. Требуется определить те признаки, которые влияют на интересующий нас отклик у наиболее сильно - информативные признаки. РИ, 2006, № 1

Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. 536 с. 4. Проценко В.С., Чаленко П.Й., Ставровський А.Б. Техніка програмування мовою Сі. К.: Либідь, 1993. 224 с.

Надійшла до редколегії 11.01.2006

Рецензент: д-р техн. наук, професор Кривуля Г.Ф.

Цимбал Олександр Михайлович, канд. техн. наук, докторант ХНУРЕ. Наукові інтереси: мови програмування, системи штучного інтелекту. Адреса: Україна, 61166, Харків, пр. Леніна, 14, тел. (057) 70-21-486.

Цехмістро Роман Іванович, канд. фіз. - мат. наук, старший викладач ХНУРЕ. Наукові інтереси: системи телекомун-ікацій, мови програмування. Адреса: Україна, 61166, Харків, пр. Леніна, 14, тел. (057) 70-21-486.

В настоящее время существуют различные подходы к построению информативной системы признаков. Среди них можно выделить методы полного перебора, эвристические, информационные, статистические, вероятностные и нейросетевые методы [2, 3].

Традиционные методы перебора [3] являются высоко -итеративными, что обусловлено необходимостью комбинаторного поиска приемлемого сочетания признаков, и характеризуются большими затратами машинного времени, а также для задач с большой размерностью оказываются малопригодными.

Одним из наиболее эффективных методов решения поисковых задач комбинаторной природы является метод муравьиных колоний [4], который позволяет находить оптимальное решение быстрее многих традиционных методов перебора, поскольку в его основе лежит вероятностный подход, и он не требует перебора всех возможных решений. Особенностью данного метода также является отсутствие необходимости вычисления производных. В то же время классический метод муравьиных колоний ориентирован преимущественно на решение задачи коммивояжёра.

Цель данной работы - создание метода отбора информативных признаков на основе модификации метода муравьиных колоний.

1. Метод муравьиных колоний

Метод муравьиных колоний основан на взаимодействии нескольких муравьёв (программных агентов, являющихся членами большой колонии) и используется для решения оптимизационной проблемы. Моделируемые агенты совместно решают проблему и помогают другим агентам в дальнейшей оптимизации решения.

Базовая идея метода муравьиных колоний состоит в решении оптимизационной задачи путем применения непрямой связи между автономными агентами [4, 5].

В методе муравьиных колоний предполагается, что окружающая среда представляет собой закрытую двумерную сеть - это группа узлов, соединенных посредством граней. Каждая грань имеет вес, кото-

65

рый обозначается как расстояние между двумя узлами, соединенными нею. Граф - двунаправленный, поэтому агент может путешествовать по грани в любом направлении.

Агент снабжается набором простых правил, которые позволяют ему выбирать путь в графе. Он поддерживает список табу tList - список узлов, которые он уже посетил. Таким образом, агент должен проходить через каждый узел только один раз.

Переменная k представляет грани, которые еще не были посещены.

4. Путь считается пройденным до конца, когда агент посетит все узлы сети. Циклы запрещены, поскольку в метод включен список табу tList. После завершения определяется длина пути - она равна сумме всех граней, по которым путешествовал агент. Формула (2) определяет количество фермента, которое было оставлено на каждой грани пути для агента k:

Узлы в списке текущего путешествия tList р асполага-ются в том порядке, в котором агент посещал их. Позже список используется для определения протяженности пути между узлами.

Настоящий муравей во время перемещения по пути оставляет за собой некоторое количество фермента. В методе муравьиных колоний агент оставляет фермент на гранях сети после завершения путешествия [6].

Метод муравьиных колоний предполагает выполнение следующих этапов:

1. Задание параметров метода: а - коэффициент, определяющий относительную значимость пути (количество фермента на пути); в - параметр, означающий приоритет расстояния над количеством фермента; с -коэффициент количества фермента, которое агент оставляет на пути, где (1-с) показывает коэффициент испарения фермента на пути после его завершения; Q - константа, относящаяся к количеству фермента, которое было оставлено на пути.

2. Инициализация. Создание популяции агентов. После создания популяция агентов поровну распределяется по всем узлам сети. Необходимо равное разделение агентов между узлами, чтобы все узлы имели одинаковые шансы стать отправной точкой. Если все агенты начнут движение из одной точки, это будет означать, что она считается оптимальной для старта, а на самом деле она таковой может не являться.

3. Движение агентов. Если агент еще не закончил путь, т.е. не посетил все узлы сети, для определения следующей грани пути используется формула

P =

2kТу -л

Р ,

У

(1)

где Р - вероятность того, что муравей для продолжения пути выберет грань между узлами i и j; т^ -интенсивность фермента на гр ани между узлами i и j,

Лу - функция, которая представляет измерение обратного расстояния для грани, а - вес фермента, а Р - коэффициент эвристики. Параметры а и Р определяют относительную значимость двух параметров.

Агент путешествует только по узлам, которые еще не были посещены (как указано списком табу tList). Поэтому вероятность рассчитывается только для граней, которые ведут к еще не посещенным узлам.

где Lk(t)

Ат k(t)

Q

Lk (t) ,

длина пути k-го агента.

(2)

Результат формулы (2) является средством измерения пути: короткий путь характеризуется высокой концентрацией фермента, а длинный путь - более низкой.

Затем Axjj используется в формуле (3), чтобы увеличить количество фермента вдоль каждой грани пройденного агентом пути:

jt) = Дтij (t) + (xk(t) -р). (3)

Данная формула применяется ко всему пути, при этом каждая гр ань помечается ферментом пропорционально длине пути. Поэтому следует дождаться, пока агент закончит путешествие и только потом обновить уровни фермента, в противном случае истинная длина пути останется неизвестной. Константа с принимает значение между 0 и 1.

В начале пути у каждой грани есть шанс быть выбранной. Чтобы постепенно удалить грани, которые входят в худшие пути в сети, ко всем граням применяется процедура испарения фермента. Используя константу р из (3), можно составить формулу

Tij(t) =Tij(t) • (1-р). (4)

Поэтому для испарения фермента используется обратный коэффициент обновления пути (1-с).

5. Проверка на достижение оптимального результата. Проверка может выполняться для постоянного количества путей или до момента, когда на протяжении нескольких запусков не было отмечено повторных изменений в выборе наилучшего пути. Если проверка дала положительный результат, то происходит окончание работы метода (переход к этапу 7), в противном случае - переход к этапу 6.

6. Повторный запуск. После того как путь агента завершен, грани обновлены в соответствии с длиной пути и произошло испарение фермента на всех гранях, метод выполняется повторно. Список табу очищается, и длина пути обнуляется. Агентам разрешается перемещаться по сети, основывая выбор грани на (1). Переход к этапу 3.

7. Останов. Определяется лучший путь, который является решением.

66

РИ, 2006, № 1

2. Модификация метода муравьиных колоний для отбора признаков

Задачей отбора признаков является нахождение из полного набора признаков сокращённого набора наиболее информативных признаков с количеством элементов outCF, которое задаётся. При этом вывод об информативности делается на основании построенной определённым образом модели на основании анализируемого набора признаков. Таким образом, задачей модификации метода муравьиных колоний является нахождение такого набора признаков Но, при котором будет достигаться заданная ошибка модели, строящейся на основании полученного набора.

Основная идея использования метода муравьиных колоний в аспекте решения задачи отбора признаков заключается в следующем: предполагается, что агент должен совершить путь по заданному количеству пунктов назначения n, при этом каждому пункту ставится в соответствие признак х;, i=1, n; тогда путь, пройденный агентом, составляет набор признаков Н, который предлагается использовать для построения модели. При этом данные хранятся не в битовом виде, а в виде

номеров признаков j=1, n, которые следует оставить. При получении итогового результата это позволяет получать оценку степени влияния каждого признака.

Основные отличия предлагаемого метода от традиционного метода муравьиных колоний:

1. На этапе 1 задания начальных параметров задаются те же константы, что и в базовом методе, с добавлением количества признаков в исходном наборе inCF и количества признаков, которое следует оставить в сокращённом наборе outCF.

2. Количество фермента в модифицированном мето -де соответствует не грани между узлами, а самим узлам, следовательно, меняется формула (1) выбора следующего пункта в пути агента, который предлагается осуществлять на основе формулы

x(k)

P =-

j(i) +T(k)

(5)

где k - номер пункта, который предлагается включить в путь j—го агента, который ещё не посетил nj пунктов;

x(i) — количество фермента в i-м пункте.

Т акже рекомендуется начальное количество фермента initPh (ещё до посещения каким-либо агентом) выбирать достаточно большим в связи с тем, что в формуле (6) количество фермента предлагается увеличивать обратно пропорционально ошибке модели, построенной на основании набора признаков, к которому относится данный пункт. А если ошибка будет достаточно малой (но не наименьшей из возможных), то может возникнуть ситуация, что один путь будет намного более выгодно отличаться для агента по сравнению с другими, вследствие чего может произойти зацикливание агентов на такой последовательности признаков.

3. Вместо формулы (2) предлагается использовать формулу

At(j)=-2

8 ■ ’

(6)

где Ax(j) — количество ферментов, которое надо добавить каждому пункту, входящему в путь j-го агента; Q — параметр, понижающий степень влияния ошибки модели є j, построенной на основании признаков, входящих в путь j-го агента.

4. Модель строится на основании пунктов, посещённых агентом, и для неё определяется ошибка

N I У — V- I

Zl J i J і расч I —

i=1

Vi

где Vi — исходные значения выходной переменной; Урасч — расчётное значение выходной переменной по построенной модели; N—количество экспериментов. Данный этап выполняется перед этапом проверки на останов и состоит из следующих основных шагов:

4.1. Последовательность номеров узлов, посещённых агентом, переводится в битовую строку Н по следующей формуле:

ai =

0, если i £ LJ,

1, если i є LJ,

(7)

где ai — i-й бит в битовой строке; i — номер узла; L — путь j-го агента.

4.2. На основании полученной битовой строки Hj и экспериментальных данных строится модель (например, на основе регрессии или нейронной сети).

4.3. Рассчитывается ошибка є j для полученной модели.

5. После останова и выбора наилучшего пути строится финальная модель, что позволяет обеспечить требуемую точность при меньшем количестве признаков, чем в исходном наборе [2].

Остальные шаги и действия аналогичны классическому методу муравьиных колоний.

3. Эксперименты и результаты

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Классический метод муравьиных колоний, а также метод отбора признаков на основе его модификации, предложенной в данной работе, были программно реализованы на языке пакета Matlab в виде модуля, содержащего функции:

— CalculateDivergence, которая рассчитывает ошибку полученной модели. Данная функция является целевой;

— AntOpt, которая выполняет поиск оптимальной комбинации информативных признаков с помощью мето -да муравьиных колоний. В качестве целевой функции используется CalculateDivergence. На основании найденной комбинации информативных признаков строится нейросетевая или регрессионная модель исследуемой зависимости.

РИ, 2006, № 1

67

+0,0925m + + 0,11309^G - 0,000197bctb --0,00037352^ ct 0.2 - 0,08054 а£ехн -+0,21402^Ra2 - 0,29589^ + +0,00050572^Py,

Схема взаимодействия разработанных функций между собой, а также со средой Matlab изображена на рисунке.

Схема взаимодействия разработанных функций со средой MatLab

С помощью разработанного программного компонента решалась задача прогнозирования коэффициента упрочнения деталей авиадвигателей после алмазного выглаживания [7].

где Рр мурав - расчетное значение коэффициента упрочнения.

Среднее значение относительной ошибки, полученной в данной работе регрессионной модели, составляет 0,058, что существенно меньше ошибки модели, полученной в [7].

Впервые предложен метод отбора признаков для построения распознающих и прогнозирующих моделей на основе модификации метода муравьиных колоний, позволяющий существенно сократить размерность моделей и выделить наиболее информативное сочетание признаков минимального размера.

По результатам проведенного экспериментального исследования метод может быть рекомендован для широкого внедрения на практике при решении задач технической и биомедицинской диагностики.

Выводы

В качестве факторов, наиболее полно отражающих процесс алмазного выглаживания деталей, в [7] предлагается использовать: х1 - твердость материала, HB, МПа; х2 - среднее контактное давление в зоне деформирования, qmax, МПа; х3 - полуось эллипса касания в зоне упругого контакта, а, мм; х4 - подача при выглаживании, s, мм/об, х5 - предел прочности, a B, МПа; хб - предел текучести материала, ст 0 2, МПа; х7 - показатель деформационного упрочнения, n; х8 -теоретический коэффициент концентрации напряжений от следов обработки, а^™; х9 - параметр исходной шероховатости детали, R a1, мкм; х10 - сила выглаживания, Py, Н; х11 - радиус сферы алмазного инструмента, R^, мм; х12 - параметр шероховатости после выглаживания детали, Ra2, мкм; х13 - теоретический коэффициент концентрации напряжений натурной детали (образца), аа; х14 - диаметр образца в опасном сечении, d, мм; х15 - радиус скругления галтели или надреза, r, мм; х16 - относительный градиент первого главного напряжения, G , мм-1.

На основе экспериментальных данных [7] с помощью программной реализации предложенного метода была построена модель для коэффициента упрочнения деталей после алмазного выглаживания. Разработанный метод позволил разделить исходную совокупность признаков на значимые и малозначимые (таблица: i -номер признака, ai - качественная оценка информативности i-го признака).

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

ai 0 1 1 0 1 1 1 1 0 1 1 1 0 0 0 1

Получено уравнение линейной регрессии:

Ррмурав -2,677 + 0,000038181•qmax + 0,6993•а +

Литература: 1. Васильев В.И. Распознающие системы (Справочник). К.: Наукова думка, 1983.422 с. 2. Дубровин В.И., Субботин С.А., Богуслаев А.В., Яценко В.К. Интеллектуальные средства диагностики и прогнозирования надежности авиадвигателей: Монография. Запорожье: ОАО “Мотор-Сич”, 2003. 279 с. 3. БиргерИ.А. Техническая диагностика. М.: Машиностроение, 1978. 240 с.

4. Colorni, A., Dorigo M., Theraulaz G. Distributed optimization by ant colonies // Proceedings of the First European Conference on Artificial Life, Cambridge. MA: MIT Press, 1991. 142 p. 5. Dorigo M., Di Caro G., Gambardella L.M. Ant Algorithms for Discrete Optimization. Artificial Life, 1999. P. 137-172. 6.ДжонсМ.Т. Программирование искусственного интеллекта в приложениях : Пер. с англ. А.И. Осипов. М.: ДМК Пресс, 2004. 312 с. 7. Богуслаев В.А., Яценко В.К., Притченко В.Ф. Технологическое обеспечение и прогнозирование несущей способности деталей ГТД. К.: Манускрипт, 1993. 333 с.

Поступила в редколлегию 27.12.2005

Рецензент: д-р техн. наук, проф. Бодянский Е.В.

Субботин Сергей Александрович, канд. техн. наук, лауреат премии Президента Украины, старший преподаватель кафедры программных средств Запорожского национального технического университета. Научные интересы: интеллектуальные системы поддержки принятия решений. Адрес: Украина, 69063, Запорожье, ул. Жуковского, 64, тел.: (0612) 69-84-82.

Олейник Алексей Александрович, студент факультета информатики и вычислительной техники Запорожского национального технического университета. Научные интересы: интеллектуальные системы поддержки принятия решений. Адрес: Украина, 69063, Запорожье, ул. Жуковского, 64.

Яценко Виктор Кузьмич, д-р техн. наук, профессор, заведующий кафедрой технологии машиностроения Запорожского национального технического университета. Научные интересы: моделирование сложных объектов и процессов в машиностроении. Адрес: Украина, 69063, Запорожье, ул. Жуковского, 64, тел.: (0612) 64-54-60.

68

РИ, 2006, № 1

The feature selection method based on the modified ant colony optimization method

Текст научной работы на тему «Отбор информативных признаков на основе модифицированного метода муравьиных колоний»