Научная статья на тему 'О применении генетических алгоритмов в интеллектуальных распознающих системах'

О применении генетических алгоритмов в интеллектуальных распознающих системах Текст научной статьи по специальности «Математика»

CC BY
43
7
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Янковская А.Е., Цой Ю.Р.

В работе рассматривается применение генетического алгоритма для решения задачи формирования оптимального подмножества безусловных безызбыточных диагностических тестов. Представленные результаты экспериментов для псевдослучайных матриц диагностических тестов показывают высокую сходимость используемого подхода и его вычислительную эффективность.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Янковская А.Е., Цой Ю.Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper concerns use of genetic algorithm to solve the problem of optimal selection of the subset of irredundant unconditional diagnostic tests. The presented experimental results obtained for the case of pseudorandom diagnostic tests matrices show high convergence and efficiency of the proposed approach.

Текст научной работы на тему «О применении генетических алгоритмов в интеллектуальных распознающих системах»

УДК 004.83; 004.89:004.4

О ПРИМЕНЕНИИ ГЕНЕТИЧЕСКИХ АЛГОРИТМОВ В ИНТЕЛЛЕКТУАЛЬНЫХ РАСПОЗНАЮЩИХ СИСТЕМАХ © 'Янковская А.Е., 2Цой Ю.Р.

1 Томский государственный архитектурно-строительный университет

пл. Соляная, 2, г. Томск, 634003, Россия e-mail: ayyankov@gmail.com

2томский политехнический университет

пр. Ленина, 30, г. Томск, 634050, Россия e-mail: qai@mail.ru

Abstract. The paper concerns use of genetic algorithm to solve the problem of optimal selection of the subset of irredundant unconditional diagnostic tests. The presented experimental results obtained for the case of pseudorandom diagnostic tests matrices show high convergence and efficiency of the proposed approach.

Введение

Формирование и выбор «хороших» [1] безусловных безызбыточных диагностических тестов (ББДТ) является одним из наиболее важных при принятии решений в интеллектуальных системах, поскольку от свойств используемых тестов существенно зависит качество получаемых решений. Идея использования генетических алгоритмов (ГА) для построения ББДТ при большом признаковом пространстве предложена в статьях [2, 3, 4]. Первые алгоритмы построения ББДТ, описанные в [2, 3], программно реализованы и развиты в плане оптимизации построения в последующих работах Янковской А.Е. и Янковской А.Е. с Блейхер А.М [5, 6].

Однако, выбор «хороших» ББДТ не всегда приводит к оптимальному решению, поскольку общее количество признаков в выбранном множестве тестов, может быть слишком большим, также как временные и стоимостные затраты или ущерб (риск) [8], наносимый в результате выявления значений признаков исследуемого объекта, например, в медицине. В связи с этим предложено применение ГА для построения ББДТ, а также и для формирования оптимального подмножества ББДТ.

1. Определения и обозначения

Воспользуемся определениями и обозначениями, необходимыми для постановки задачи и при дальнейшем изложении [9, 10].

Тестом называется совокупность признаков, различающих любые пары объектов, принадлежащих разным образам (классам). Тест называется безызбыточным, если при удалении любого 11 р и ш н км тост перестает быть тестом. Признак называется обязательным, если он содержится во всех безызбыточных тестах. Признак называется псевдообязательным, если он не является обязательным и входит во множество используемых при принятии решений безызбыточных тестов.

Пусть Т = {tij,i 1.....n. j 1.....in } - матрица ББДТ, п - количество ББДТ,

in - количество характеристических признаков, строкой Т,; представлен /-П ББДТ. Обозначим через z = {zj : j = 1,..., т} - множество характеристических признаков,

причем /1 < > ) (г Т,> Для каждого признака зададим весовой коэффициент ч\! и коэффициенты стоимости и ущерба (риска) ь)" [8]. Далее для краткости будем использовать термины «вес», «стоимость» и «ущерб» признака вместо соответственно «весовой коэффициент», «коэффициент стоимости» и «коэффициент ущерба».

Будем рассматривать случай бинарной матрицы Т и определим вес г-го теста: 11= У^ ч\,1-кг Аналогично определяются значения стоимости и ущерба теста.

2. Постановка задачи

Дана матрица тестов Т с заданными весами, стоимостью и ущербами признаков. Необходимо выделить такую подматрицу То, содержащую по строк, чтобы соответствующее ей множество тестов № обеспечивало выполнение следующих критериев в порядке их следования:

1. В выбранном множестве тестов № мощности щ должно содержаться максимальное число псевдообязательных признаков.

2. Выбранное множество тестов № должно содержать минимальное общее число признаков.

3. Выбранное множество тестов № должно иметь максимальный суммарный вес.

4. Множество выбранных тестов № должно иметь наименьшую суммарную стоимость.

5. Множество выбранных тестов № должно иметь наименьший суммарный ущерб.

3. Генетический алгоритм

Для решения поставленной задачи предлагается использовать ГА, представляющий итерационный вероятностный эвристический алгоритм поиска. Отличительной особенностью ГА является одновременная работа со множеством точек (популяцией) из пространства потенциальных решений. Каждое возможное решение представлено бинарной хромосомой (строкой) длины п, каждый г-ш символ которой кодирует включение г-го диагностического теста в итоговое подмножество.

Будем вычислять приспособленность к-й особи Д с хромосомой к путем оценки качества соответствующей подматрицы Т(Н) в соответствии с выражением [8]:

5

/к = с^р + 100(г7(Л) - По)2, / тпгп, ¿=1

где г>& - весовой коэффициент к-то критерия, соответствующий его значимости; и(ф) - количество единичных разрядов в бинарной строке фр; е^ - функция штрафа за невыполнение к-то критерия:

(1) _ т^Цс(Т0(Н)) (2) _ Ца(То(/0)

ек ~ ' ек ~ ' т т

(3) = .ЫТ) - 5У(То(/г.)) (4) = ау (ТоМ)

4 ЗУ(Т) ' 4 %(Т) '

(5) = £и/(То(/^))

где ¿^/(Ф), и - соответственно суммарный вес, стоимость и ущерб

по всем тестам множества, соответствующего матрице Ф: I~,(Ф) = I *(Л'-'<) и

г

I ",/(Ф) = I (У I ';) - соответственно количество единичных разрядов в конъюнкции

г

и дизъюнкции по всем строкам бинарной матрицы Ф.

Отметим, что выбор значений штрафов зависит от рассматриваемой прикладной задачи.

4. Результаты экспериментов

Исследование особенностей использования ГА для решения поставленной задачи проведено с использованием псевдослучайных матриц тестов размерностями 1000x50, 1000x100, 1000x200, 1000x300, 1000x400, 1000x500 и 2000x500. Элементы матриц определяются псевдослучайным образом, после чего производится удаление поглощающих строк. Значения весов, стоимостей и ущербов признаков также определяются как псевдослучайные величины, равномерно распределенные в интервале [0; 1]. Мощность п0 искомого подмножества тестов для всех экспериментов равна 300.

Отметим, что псевдослучайное заполнение матриц тестов соответствует отсутствию корреляции между характеристическими признаками, что приводит к минимизации числа возможных закономерностей в исходной матрице тестов. В силу этого использование псевдослучайных матриц тестов представляет более сложную по сравнению с реальной задачу.

Значения штрафов установлены следующим образом: г>1 = 40, «2 = 30, = 15, '04 = 10, «5 = 5. Рассматривается ГА с турнирной селекцией с размером турнира равным 6, двухточечным оператором кроссинговера, битовой мутацией и 1 элитной особью. По итогам 100 независимых запусков для каждой из рассматриваемых матриц будем оценивать результаты как по полученному лучшему значению функции приспособленности, так и по следующим критериям, сформулированным в [11] и характеризующим стабильность решений, полученных в различных запусках:

1. Критерий стабильности, учитывающий частоту ¡>; встречаемости г-го теста во всех решениях, полученных по результатам 100 запусков ГА. Чем больше количество тестов, для которых значение равно или близко к 1, тем выше сходимость алгоритма.

2. Суммарное количество О ББДТ, не вошедших в полученные решения. Чем больше О, тем выше сходимость алгоритма.

Полученные лучшие значения целевой функции, усредненные по 100 запускам, для различных матриц ББДТ в зависимости от размера популяции показаны на рис. 1. Поскольку рассматривается задача минимизация целевой функции, то можно отметить улучшение результатов при увеличении размера г популяции, однако это улучшение весьма незначительно, в большинстве случаев, порядка 10 2.

Отметим, что время работы ГА в зависимости от размера популяции зависит линейно (рис. 2). Исходя из этого, при решении рассматриваемой задачи повышение

Рис. 1. Результаты решения поставленной задачи в зависимости от размера популяции для псевдослучайных матриц различной размерности

размера популяции во многих случаях приводит к неоправданному росту вычислительной сложности.

Зависимость количества тестов от частоты их встречаемости для матриц 1000x50 и 1000x500 в полученных решениях представлена на рис. 3, г обозначает размер популяции. По оси абсцисс отложен процент встречаемости тестов, а по оси ординат -соответствующее количество тестов. Видно, что с ростом размера популяции сходимость увеличивается, так как растет количество тестов, встречающихся во всех решениях.

Отметим, что в случаях, когда количество тестов, встречающихся в большинстве решений, существенно меньше мощности ??,0 искомого подмножества тестов, размер популяции является недостаточным. Примером является случай использования популяции из 20 особей при исходной матрице 1000x500, график для которого показан на рис. 36. Также заметим, что с увеличением количества признаков в исходной матрице тестов сложность задачи увеличивается, что видно из сравнения графиков на рис. За и 36.

Зависимости количества тестов от их встречаемости для матрицы ББДТ размерностью 2000x500 представлены па рис. 4. Увеличение количества тестов существенно усложняет задачу для ГА, поскольку только для популяции из 200 особей количество тестов со встречаемостью не менее 50

На рис. 5 показана зависимость количества Г2 неиспользуемых тестов от размерности матрицы тестов. Также видно, что с ростом размера популяции сходимость работы алгоритма улучшается.

250

0 -1-1-1-1-

О 50 100 150 200 250

Размер популяции

Рис. 2. Зависимость времени работы запуска ГА от размера популяции

Анализ решений, полученных при различных настройках ГА, показал, что сформированные по 100 запускам подмножества тестов, соответствующие различным параметрам ГА, отличаются незначительно. Например, для матрицы тестов 1000x500 при размерах популяции 50 и 200 особей полученные подмножества тестов отличались только па 35 тестов, что позволяет сделать вывод о достаточно высокой степе-пи сходимости алгоритма. Однако значительное количество тестов, встречающихся менее чем в 50возможпости повышения эффективности работы ГА и сходимости результатов.

Также было проведено исследование зависимости состава подмножества тестов, сформированного по результатам нескольких запусков ГА, от количества запусков. При использовании матрицы тестов размерностью 1000x500 результаты ГА с популяцией размером 50 особей для 10, 20, 30, 40, 50, 60, 70, 80, 90 и 100 запусков совпадают для 245 тестов (из 300 искомых). Совпадение с результатами ГА с популяцией 200 особей составляет 244 теста. Другими словами, 245 и 244 теста присутствуют в большинстве найденных решений, несмотря па различное количество запусков и размер популяции.

Распределение количества тестов в зависимости от частоты их встречаемости для ГА с популяцией 50 особей показано на рис. 6, шкала ординат - логарифмическая. Рост количества тестов, встречающихся во всех решениях, с уменьшением числа запусков можно объяснить усилением роли случайности при малом числе запусков, по которым проводится анализ результатов.

а) результаты для матрицы тестов размерностью 1000x50

900 еоо

700 600 / \

/ \

/ \\

400 ' г/ \\

300 '

200 '

100 ■

о ■ 100% >=95% >=90% >=80% >=70%; >=60%; >=50%; <50% 0%

—*-Г = 20 0 0 0 0 13 92 196 804 0

—■-г 4 50 3 56 94 1 56 207 245 296 702 242

Г= 100 55 140 170 216 246 266 300 700 414

-**-Г - 200 145 .207 .233 254 274 290 300 700 538

Встречаемость тестое

б) результаты для матрицы тестов размерностью 1000x500

Рис. 3. Зависимость количества тестов от частоты их встречаемости в полученных решениях

2500

В стреч а е м о с ть те сто в

Рис. 4. Зависимость количества тестов от частоты их встречаемости в полученных решениях для матрицы 2000x500

1200 1000 800 600 400 200 0

_

Jhн Ti i J

1000x50 1000x100 1000x200 1000x300 1000x400 1000x500 2000x500

П = 20

29

44

51

I Г = 50

174

220

25 Э

250

221

242

334

□ г = 100

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

290

389

417

392

396

414

752

□ Г = 200

377

493

530

526

536

538

1051

Размерность матрицы тестов

Рис. 5. Зависимость количества Í2 неиспользованных тестов от размерности матрицы тестов

□ 100%

□ >=95%

□ >=90%

□ >=80% П >=70% □ >=60%

□ >=50%

□ <50% П 0%

Количество запусков

Рис. 6. Распределения количества тестов по частоте их встречаемости в полученных решениях для различного количества запусков ГА для матрицы размерностью 1000x500

Таким образом, па основании результатов исследования можно сделать следующий вывод:

Несмотря па то. что увеличение размера популяции способствует повышению сходимости ГА по критериям из работы [11], получены результаты, Свидетельствующие о том, что для матриц тестов, имеющим не больше 1000 строк, анализ решений, полученных при использовании сравнительно небольшого размера популяции и малого количества запусков, позволяет сформировать подмножество тестов, близкое к оптимальному.

Данный вывод представляется авторам статьи весьма важным, так как показывает, что возможно эффективное решение поставленной задачи с использованием сравнительно небольших вычислительных затрат. Однако данный вывод необходимо проверить па реальных данных.

В силу приведенного выше анализа результатов сокращение количества особей в популяции в о,'] раз и количества запусков ГА в а-2 раз, позволяет уменьшить вычислительные затраты и время поиска решения пропорционально произведению с^а'а.

Заключение

В докладе рассматривалось применение ГА для решения задачи формирования оптимального подмножества ББДТ. Представленные результаты экспериментов показывают достаточно высокую сходимость ГА при решении поставленной задачи.

На основании полученных результатов и их анализа сделан вывод о возможности существенного уменьшения вычислительной сложности ГА при решении рассматриваемой задачи путем уменьшения размера популяции, а также количества запусков. Отметим, что остается неясным вопрос о зависимости минимального допустимого размера популяции и количества запусков от размера и характеристик матрицы тестов, при которых возможно получение решения, близкого к оптимальному.

Дальнейшие исследования будут направлены на разработку более эффективных процедур эволюционного поиска оптимального подмножества ББДТ для решения задач принятия решений на основе тестового распознавания образов.

Работа выполнена при поддержке РФФИ (проект № 07-01-00452) и РГНФ (проект № 06-06-12603В).

список литературы

1. Naidenova R.A., Plaksin M.V., Shagalov V.L. Inductive inferring all good classification test // Знание-Диалог-Решение. Сб. науч. тр. междунар.конф., том 1, Ялта, 1995. с. 79-84.

2. Янковском А.Е. Тестовое распознавание образов с использованием генетических алгоритмов // Распознавание образов и анализ изображений: новые информационные технологии (РОАИ-4-98). Труды IV Всероссийской с международным участием конференции. Часть I. - Новосибирск, 1998. - С. 195-199.

3. Yankovskaya А.Е. Test Pattern Recognition with the Use of Genetic Algorithms // Pattern Recognition and Image Analysis, vol. 9, no. 1, 1999, p. 121-123.

4. Yankovskaya A.E. The Test Pattern Recognition with Genetic Algorithms Use // Proceedings of the Pattern Recognition and Image Understanding. 5th Open German-Russian Workshop. - Germany, Herrshing, 1999. - P. 47-54.

5. Янковская A.E., Блейхер A.M. Оптимизация синтеза безызбыточных диагностических тестов с использованием генетических алгоритмов и реализация ее в интеллектуальной системе // Искусственный интеллект. Научно-теоретический журнал. ISSN 1561-535. Донецк, № 2, 2000, с. 272-278.

6. Yankovskaya А.Е., Bleikher A.M. Genetic Algorithms for the Synthesis Optimization of a Set of Irredundant Diagnostic Tests in the Intelligent System // Computer Science Journal of Moldova, vol. 9, no. 3(27), 2001, p. 336-349.

7. Yankovskaya A.E. Bleikher A.M. Optimization of tests synthesis on the base of descent algorithms with the use of genetic transformations // Radioelectronics & Informatics, no. 3(24), 2003, p. 51-55.

8. Yankovskaya A.E., Tsoy Y.R. Optimization of a set of tests selection satisfying the criteria prescribed using compensatory genetic algorithm // Proc. of IEEE EWDTW'05. - Kharkov: SPD FL Stepanov V.V., 2005. - P. 123-126.

9. Журавлев ЮЖ., Гуревич И.Б. Распознавание образов и анализ изображений // Искусственный интеллект: В 3-х кн. Кн.2. Модели и методы: Справ. / Под ред. Д.А.Поспелова. М.: Радио и связь, 1990. - С. 149-191.

10. Yankovskaya А.Е., Tsoy Y.R. Построение логических тестов с заданными свойствами и логико-комбинаторное распознавание на них // ИОИ-2002. Тез. докл. межд. науч. конф. - Симферополь, 2002. - С. 100-102.

11. Янковская А.Е., Цой Ю.Р. Исследование эффективности генетического поиска оптимального подмножества безызбыточных тестов для принятия решений // Искусственный интеллект. Научно-теоретический журнал, 2006, с. 257-260.

Статья поступила в редакцию 08.05.2008

i Надоели баннеры? Вы всегда можете отключить рекламу.