Автоматическое генерирование нейросетевых классификаторов эволюционными алгоритмами в задачах идентификации пользователя

Хритоненко Д.И.; Семенкин Е.С.

Актуальные проблемы авиации и космонавтики - 2014. Информационные технологии

Последний показатель рассчитывается на основе расстояния Хэмминга между лучшей и худшей хромосомой на уровне генотипа:

а

с' - C'

max,/ min,/

I' = -

I3

CL

Cm ax, Cmin - лучшая и худшая хромосомы, представленные в виде битовых строк, CL - длина хромосомы. Формулы были взяты из [3] (с небольшими изменениями).

Используемый нечеткий контроллер (НК) Мамда-ни состоит из трех этапов: фазификации показателей разнообразия популяции, логического вывода на основе эмпирически найденной базы правил и дефази-фикации выходной величины (вероятности мутации). Одно из нечетких правил управления можно записать следующим образом: ЕСЛИ все показатели имеют большие значения, ТО вероятность мутации маленькая. Условие соответствует ситуации, когда популяция весьма разнообразна, поэтому нужно использовать имеющийся генетический материал, а не получать новый с помощью мутации.

Проверим работоспособность предложенного подхода на задачах условной оптимизации:

Е1(х) = 3 • (x - 4)2 + 4 • (x - 4)(х2 - 4) + +3 • (х2 - 4)2 ^ min, х + х2 - 0;

F2 (х) = 3 • (х - 6)2 + (х - 6)(х2 - 6) + [-3 - х - 3, -3 - х2 - 3'

+3 • (х2 - 6) ^ min,

2

F3(х) = ^(0.1 • х2 -4cos(0.8• х) + 4) ^ min,

| х2 + 9 • х22 < 36, [ 9 • х2 + х22 < 36 '

Для каждой задачи был выбран интервал варьирования переменных [-10, 10] с шагом дискретизации, равным 0.01. Число индивидов и поколений для пер-

вой задачи равнялось 100 и 400 соответственно, для второй 75 и 75, а для третьей 40 и 40. Усреднение производилось по 50 прогонам. Часть полученных результатов (при одноточечном скрещивании, турнирной селекции и динамических штрафах, как методе учета ограничений) приведена в таблице.

Надежность нахождения решения

№ функции Слабая мутация Средняя мутация Сильная мутация Мутация, настраиваемая НК

1 0.22 1 0.06 0.82

2 0.96 0.7 0.1 0.62

3 0.96 0.98 0.1 0.9

Полученные результаты показали, что надежность ГА, настраиваемого НК меньше, чем у лучшего стандартного генетического алгоритма, но всегда больше, чем надежность среднего алгоритма, что говорит о его конкурентоспособности. В приведенной таблице алгоритм со средней мутацией всегда выигрывает у настраиваемого НК, но при использовании метода смертельных штрафов для учета ограничений, практически всегда оказывается лучшим алгоритм с сильной мутацией или с настраиваемой. В дальнейшем предполагается избавиться от необходимости выбора остальных настроек алгоритма и разработать эффективную систему поддержки принятия решений.

Библиографические ссылки

1. Рутковская Д., Пилиньский М., Рутковский, Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М. : Горячая линия - Телеком, 2006. 452 с.

2. Тарасенко Ф. П. Прикладной системный анализ : учеб. пособие. М. : КНОРУС, 2010. 224 с.

3. M. Jalali Varnamkhasti, L. S. Lee, M. R. Abu Bakar, and W. J. Leong, "A genetic algorithm with fuzzy crossover operator and probability," Advances in Operations Research, vol. 2012, Article ID 956498, 16 pages, 2012.

i=1

УДК 519.87

Д. И. Хритоненко Научный руководитель - Е. С. Семенкин Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

АВТОМАТИЧЕСКОЕ ГЕНЕРИРОВАНИЕ НЕЙРОСЕТЕВЫХ КЛАССИФИКАТОРОВ ЭВОЛЮЦИОННЫМИ АЛГОРИТМАМИ В ЗАДАЧАХ ИДЕНТИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ

Рассматривается решение задачи идентификации пользователя и его персональных характеристик при помощи коллективов искусственных нейронных сетей. Описывается метод автоматического генерирования таких коллективов. Эффективность предложенного подхода сравнивается с базовым алгоритмом, а также с альтернативными методами.

Одним из источников передачи информации человеком является речь. С ее помощью человек передает своему собеседнику сформулированные им мысли. Однако в самой речи кроется большое количество

персональной информации говорящего, а именно: пол, возраст, эмоциональное состояние, заболевания, отклонения и т. д. Используя речь, человек может идентифицировать своего собеседника без визуально-

Секция «Математические методы моделирования, управления и анализа данных»

го контакта. К сожалению, современные технические системы не обладают такими свойствами. Решение задач идентификации и выявления персональных характеристик говорящего позволит повысить эффективность современных средств контроля и охраны, интеллектуальных диалоговых систем, повысит точность речевых моделей.

Речь характеризуется десятками и сотнями различных характеристик (амплитуда, частота, спектральные, кепстральные характеристики и т. д.). При этом неизвестно, какие именно из них и как влияют на результат идентификации. Кроме того, не исключается и их взаимное влияние друг на друга. Один из подходящих инструментов для решения таких задач -использование искусственных нейронных сетей (ИНС) [1]. Однако эффективность такого подхода нередко бывает недостаточной. Она может быть повышена за счет одновременного использования нескольких ИНС (коллектив ИНС).

Для формирования и обучения ИНС в работе используются самоконфигурируемые эволюционные алгоритмы, а именно: генетический алгоритм (ГА) и алгоритм генетического программирования (ГП) [1]. При этом ГА используется для обучения ИНС, ГП -для выбора ее структуры. Такой подход на сегодняшний день описан во множестве источников. В случае формирования коллективов необходимо решать следующие задачи: выбор ИНС в коллектив, учет «мнений» каждого члена коллектива.

Первая из описанных задач решается следующим образом:

1. Генерируется к нейросетей при помощи ГА и ГП.

2. Каждой из к нейросетей сопоставляется булев вектор X. Значения данного вектора на /-ой позиции показывают, правильно ли был классифицирован /-й объект выборки (1 - правильно, 0 - нет).

3. Выбирается ИНС с максимальной суммой по вектору X.

4. Далее при помощи метрики Хемминга d (X/, Xj) и максиминного критерия выбираются остальные ИНС, участвующие в коллективе:

max min d (X/, X j)

5. Пункт 4 выполняется до тех пор, пока не превышено число необходимых ИНС, или критерий

d (X/, Xj) не стал равен нулю для любых i иj.

Вторая из описанных задач также может решаться при помощи алгоритма ГП. При этом функциональное множество алгоритма ГП, используемого для формирования коллектива будет включать в себя различные математические операции и функции (умножение, синус и т. д.). Терминальное - все предварительно отобранные ИНС, а также ряд параметров, настраиваемых в ходе эволюционного поиска алгоритмом. Таким образом, полученный алгоритм будет являться некоторым обобщением существующих стандартных методов учета мнения коллектива (среднее, взвешенное среднее и т. д.). За счет ввода в терминальное множество настраиваемых параметров

алгоритм не может получить решение хуже, чем лучший член коллектива ИНС.

Рассмотренный подход был реализован в виде программной системы и протестирован на ряде тестовых задач [2]. Эффективность такого подхода на этих задачах с точки зрения непараметрического критерия Уиллкоксена оказалась выше, чем у базовой модели (лучшая из ИНС входящая в коллектив). Кроме того, данный алгоритм был протестирован на задаче распознавания эмоций человека по звуковому сигналу [3]. Данная задача содержит 37 атрибутов, и 7 классов. Сравнение итогового алгоритма (Б_АМЫ_ОР) с базовой моделью (АМЫ_вР) и аналогами представлено ниже.

Результаты тестирования

Алгоритм Критерий эффективности

Naive Bayes 0,608

Logistic Regression 0,67

K-FuzzyRules 0,61

Decision Tree 0,42

W-M5P 0,61

W-MultilayerPerceptron 0,66

ANN GP 0,7

E ANN GP 0,73

Критерий эффективности алгоритма - доля верно классифицированных объектов. Для получения данного критерия исходная выборка разбивалась на тестовую и обучающую в соотношении 30 % на 70 % случайным образом. При этом проводилась серия из ста независимых запусков.

Из представленных результатов видно, что предложенный подход выигрывает у ряда аналогов, а также у своей базовой модели. Следовательно, предложенную модификацию можно считать эффективной. Использование ИНС и их коллективов позволяет решать поставленную задачу лучше предложенных аналогов, однако ошибка классификации все еще остается большой (порядка 27 %). Она может быть уменьшена при помощи дальнейших модификаций алгоритма, а именно:

• применение альтернативного генетическому программированию метода проектирования ИНС;

• вовлечение других интеллектуальных информационных технологий (нечеткие системы, символьные выражения, нейронечеткие системы и т. д.);

• замена алгоритма обучения.

Библиографические ссылки

1. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы: пер. с польск. И. Д. Рудинского. М. : Горячая линия. Телеком, 2006. - 383 с.

2. Machine Learning Repository UCI [Electronic resource]. URL: http://archive.ics.uci.edu/ml/datasets.html.

3. Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter F Sendlmeier, and Benjamin Weiss. A database of german emotional speech. In Interspeech. P. 1517-1520, 2005.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хритоненко Д. И., Семенкин Е. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хритоненко Д. И., Семенкин Е. С.

Текст научной работы на тему «Автоматическое генерирование нейросетевых классификаторов эволюционными алгоритмами в задачах идентификации пользователя»