Гибридный метод восстановления пропущенных данных с адаптивным управлением на основе нечеткой логики и нейронных сетей

Карлов Иван Александрович; Кошур Владимир Дмитриевич

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

И.А. Карлов, В.Д. Кошур

ГИБРИДНЫЙ МЕТОД ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ДАННЫХ С АДАПТИВНЫМ УПРАВЛЕНИЕМ НА ОСНОВЕ НЕЧЕТКОЙ ЛОГИКИ И НЕЙРОННЫХ СЕТЕЙ

Гибридный метод, восстановление данных, адаптивное управление, нейронные сети, нечеткая

логика.

Рассматривается задача восстановления пропущенных значений в массивах данных. Предложен гибридный метод, использующий преимущества отдельных методов восстановления. Рассмотрена адаптивная модель управления работой метода, основанная на использовании нечеткой логики и искусственных нейронных сетей.

I.A. Karlov, V.D. Koshur

Hybrid method of reconstruction of missing data with adaptive

CONTROL ON THE BASIS OF FUZZY LOGIC AND NEURAL NETWORKS

Hybrid method, data reconstruction, adaptive control, neural networks, fuzzy logic.

The problem of the reconstruction of the missed data in databases is considered. A hybrid method implementing the advantages of some peculiar techniques of the reconstruction is suggested. The adaptive model of the control of the method work based on fussy logics and artificial neural networks is described.

Рассмотрим двухмерный массив данных, представляемый в виде таблицы, столбцы которой соответствуют параметрам объекта или процесса, описываемого массивом, а строки — отдельным измерениям значений параметров (экземплярам).

На практике часто возникает ситуация, когда отдельные ячейки массива содержат пропуски. Пропущенные данные создают сложности для применения методов обработки информации, снижают эффективность методов прогнозирования и сказываются на качестве принимаемых управленческих решений.

На настоящий момент существует несколько подходов к работе с массивами данных, содержащих пропущенные значения.

Первый подход, наиболее простой в реализации, - это удаление экземпляров, содержащих пропущенные значения, из массива и работа только с полными дан-

ными [Литтл, 1991]. Использование данного подхода выглядит целесообразным, когда пропуски данных носят единичный характер. Но даже в этом случае есть серьезная опасность при удалении «потерять» важные закономерности в данных. В том же случае, когда количество пропусков велико, удаление соответствующих экземпляров может привести к дефициту данных и даже невозможности дальнейшей обработки.

Еще одним подходом является использование специальных модификаций методов обработки данных, допускающих наличие пропусков в массиве.

Наиболее распространенным подходом является использование методов оценки значений пропущенных элементов. Эти методы помогают заполнить пропуски в массивах, основываясь на некоторых предположениях о значении отсутствующих данных. В настоящее время существует множество различных методов, отличающихся своей вычислительной сложностью, универсальностью и точностью работы.

Наиболее простыми являются метод оценки, использующий для подстановки среднее значение, вычисленное по всем известным [Литтл, 1991], и метод ближайших соседей [Злоба, Яцкив, 2002]. Широкое распространение получили локальные алгоритмы [Загоруйко, 1999], регрессионные методы [Злоба, Яцкив, 2002; Россиев, 1998] и методы максимального правдоподобия [Литтл, 1991].

Особого внимания заслуживают нелинейные методы, использующие искусственные нейронные сети, генетические алгоритмы и методы нечеткой логики. Среди них можно выделить алгоритмы, осуществляющие непосредственное предсказание пропущенного значения [Gupta, Lam, 1996], и алгоритмы, основанные на минимизации ошибки работы системы [Yoon, Lee, 1999; Mohamed, et al., 2007; Nelwamondo, et al., 2007].

В [Карлов, 2011a; Карлов, 20116] был представлен сравнительный анализ эффективности работы ряда методов на различных массивах данных. В ходе проведенного анализа было замечено, что эффективность работы методов существенно варьируется не только на разных массивах, но и для одного массива на разных пропусках. В связи с этим возникла идея создания гибридного метода, который смог бы объединить сильные стороны каждого из методов.

Все результаты, представленные в этой работе, получены и проверены на десяти массивах данных, различных по объемам, описывающих разные предметные области, полученных из открытого хранилища массивов данных [Frank, Asuncion, 2010] и собранных авторами в ходе работы по другим научным проектам. Данная работа является развитием исследований [Карлов, 2011а; Карлов, 20116; Карлов, Кошур, 2012 а; Карлов, Кошур, 2012 б].

Подходы к построению гибридной модели. По результатам проведенного анализа для построения гибридной модели были выбраны методы, показавшие существенные различия в точности работы: метод замены средними значениями [Литтл, 1991], метод ближайших соседей [Злоба, Яцкив, 2007], двушаговый ЕМ-алгоритм [Литтл, 1991], метод на основе автоассоциативных систем [Mohamed et al., 2007; Nelwamondo et al., 2007].

Был предложен общий подход к построению гибридной модели. Для построения модели используется часть исходного массива, содержащая только полные данные. Случайным образом из нее удаляется некоторое количество элементов. Используя каждый из методов, получаем оценку значения каждого из искусственно исключенных элементов. В итоге для каждого элемента получаем набор значений, восстановленных с применением различных методов. Данный набор используется

в качестве входного вектора для построения адаптационной модели. В качества выхода используется известное значение удаленного элемента:

{щ ,42,110,1^^}, (1)

где ш- значение, полученное в результате работы одного из методов, a v — исходное значение элемента. Полученная обучающая выборка (1) используется для построения и настройки адаптационной модели.

Для оценки значения пропущенного элемента в исходном массиве сначала используется каждый из четырех методов. Результаты их работы подставляются в модель, и на выходе получается итоговая оценка значения пропущенного элемента.

Важнейшим аспектом построения модели является выбор архитектуры. Были рассмотрены линейная модель вида v = + w2u2 + w3щ + w4u4 +w0,a также раз-

личные нелинейные модели на основе искусственных нейронных сетей, реализующих функцию вида v = /(ц у U £ у 1/^ у 1/^ ). По результатам ни одна из рассматриваемых моделей не показала повышения точности по сравнению с отдельными методами, входящими в модель.

С целью построения более сложной модели был проведен кластерный анализ обучающих выборок (1) для всех используемых массивов данных. В качестве инструмента анализа использовался метод нечетких К-средних (Fuzzy C-means) с использованием критерия Кси-Бени (Xie-Beni) для оценки количества кластеров [Halkidi et al,, 2003]. Для проведения кластеризации использовались модифицированные выборки, содержащие не результаты работы методов, а абсолютные погрешности их работы:

|e% -v\. |щ -v\, |щ - v\, \щ - v|}. (2)

Проведенный анализ позволил выделить несколько основных групп элементов исходных массивов, в которых наблюдается схожая картина относительно точности работы оригинальных методов.

Построение для каждой из таких групп отдельной гибридной модели на основе искусственной нейронной сети прямого распространения сигнала позволило существенно повысить точность гибридного метода по сравнению с оригинальными. На рис. 1 приведены относительные погрешности работы каждого из методов на массиве значений физико-химических показателей различных образцов белого вина марки «Vinho Verde» из Северной Португалии [Cortez et, аЦ 2009; Frank, Asuncion, 2010].

30,00%

26,39%

средними соседей системы

Рис. 1. Погрешность работы отдельных методов и гибридной модели

Алгоритм с адаптивным управлением. Разработанный гибридный метод на первых испытаниях показал хорошие результаты, однако его применение на практике осложняется тем, что полученный алгоритм недостаточно формализован и на

отдельных этапах требует участие эксперта. В частности, речь идет об этапе разделения элементов массива на группы со схожей точностью работы методов и принятия решения о том, какую из построенных нейронных сетей использовать в конкретном случае.

На рис. 2 представлена разработанная схема метода с управлением на основе искусственных нейронных сетей и нечетких алгоритмов.

Рис. 2. Схема гибридного метода

На основе данной схемы был разработан следующий алгоритм.

Этап 1. Формирование обучающей выборки

1.1. Выделяем часть массива, содержащую данные без пропусков.

1.2. Случайным образом удаляем некоторое количество элементов.

1.3. Получаем оценку значения пропущенных элементов, используя каждый из методов.

1.4. Используя полученные оценки и известное значение пропущенного элемента, формируем обучающую выборку (1).

1.5. Повторяем шаги 1.2—1.4 до тех пор, пока объем обучающей выборки не будет достаточный (число экземпляров больше некоторого заданного числа).

Этап 2. Создание управляющего элемента

2.1. Используя один из методов кластеризации, определяем группы элементов массива со схожей точностью работы методов.

2.2. Строим и обучаем управляющий элемент — классификатор пропущенных элементов.

Основная идея классификатора заключается в том, чтобы по известной части экземпляра, содержащего пропуски, определить ту группу элементов (2.1), к которой принадлежит пропуск в данном случае. Для обучения используем экземпляры массива со случайно удаленными элементами (1.2).

Этап 3. Обучение гибридных моделей

Для каждой из групп строим гибридную модель на основе искусственной нейронной сети прямого распространения сигнала. Для обучения используем часть выборки, сформированной на этапе 1 и соответствующей данной группе элементов.

Этап 4. Восстановление пропущенных значений

Экземпляр, содержащий пропущенные значения, подается на управляющий элемент, реализованный на основе классификатора. Управляющий элемент при-

нимает решение о том, какую из гибридных моделей использовать для данного экземпляра.

В ходе проведенных экспериментов были реализованы и протестированы отдельные элементы гибридного метода. При их реализации использовались следующие инструменты:

— метод нечетких К-средних (Fuzzy C-means) с использованием критерия Кси-Бени (Xie-Beni) [Halkidi et al., 2003] для кластеризации обучающей выборки и разделения пропущенных элементов на группы;

— искусственные нейронные сети прямого распространения сигнала (FFNN — Feed Forward Neural Networks) с нелинейной функцией активации и системы нейронечеткого вывода (ANFIS - Adaptive Network Based Fuzzy Inference System) [Jang, 1993] для построения управляющего элемента;

— двуслойные FFNN с нелинейной функцией активации для построения гибридных моделей.

Проведенные испытания показали принципиальную работоспособность отдельных элементов гибридного метода, и в частности управляющей подсистемы.

Выводы. Предложен гибридный метод восстановления значений пропущенных элементов в массивах данных. Метод позволяет повысить точность оценки значения пропущенного элемента за счет использования механизма выбора наиболее оптимальной для данного случая гибридной модели.

В рамках дальнейших исследований планируется выделить основные управляющие параметры гибридного метода, определить оптимальные диапазоны их значений, подобрать наиболее подходящие архитектуры нейронных сетей и систем нейронечеткого вывода, используемых в методе. Также планируется изучение поведения метода на массивах, содержащих значительное количество пропусков.

Библиографический список

4. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Института математики, 1999.

5. Злоба Е., Яцкив И. Статистические методы восстановления пропущенных данных // Computer Modelling and New Technologies. 2002. Vol. 6, № 1. P. 51-61.

6. Карлов И.А., Кошур В.Д. Гибридная адаптационная модель восстановления пропущенных значений в массивах данных // Системний аналіз. Інформатика. Управління (САІУ-2012): матеріали III Міжнародної науково-практичноі конференції, 14-16 березня 2012 року. Запоріжжя: КПУ, 2012а. С. 138-139.

7. Карлов И.А. Использование искусственных нейронных сетей и генетических алгоритмов для восстановления пропущенных значений в массивах данных // Нейроинформатика, ее приложения и анализ данных: материалы XIX Всероссийского семинара, 1—3 октября 2011 г. / под ред. А.Н. Горбаня, Е.М. Миркеса. Красноярск: Сибирский федеральный университет, 2011а. С. 59—65.

8. Карлов И.А. Методы восстановления пропущенных значений с использованием инструментария Data mining // Вестник Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнёва. Красноярск, 20116. № 7(40). С. 29-33.

9. Карлов И.А., Кошур В.Д. Подходы к построению гибридной модели для оценки значений пропущенных элементов в массивах данных // Нейроинформатика, ее приложения и анализ данных: материалы XX Всероссийского семинара, 28—30 сентября 2012 г. / под ред. А.Н. Горбаня, Е.М. Миркеса. Красноярск: Сибирский федеральный университет, 20126. С. 174-179.

10. Литтл Р. Дж. А., Рубин Д.Б. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1991. 167 с.

Н.Россиев А.А. Моделирование данных при помощи кривых для восстановления пробелов в таблицах // Методы нейроинформатики / под. ред. А.Н. Горбаня; КГТУ. Красноярск, 1998. 205 с.

12. Cortez P., CerdeiraA., Almeida F., Matos Т., Reis J. Modeling wine preferences by data mining from physicochemical properties // Decision Support Systems, Elsevier. 2009. 47(4). P. 547-553.

13. Frank A., Asuncion A. UCI Machine Learning Repository // Irvine, CA: University of California, School of Information and Computer Science. 2010. URL: http://archive, ics. uci. edu/ml

14. Gupta A., Lam M. S. Estimation Missing Values using Neural Networks // Journal of Operational Research Society. 1996. Vol. 47, № 2. P. 229-239.

15.Halkidi М., Batistakis Y., Vazirgiannis M. On Clustering Validation Techniques // Journal of Intelligent Information Systems. 2003. 17:2/3. P. 107-145

16. Jang J.-S. R. ANFIS: adaptive-network-based fuzzy inference system // Systems, Man and Cybernetics, IEEE Transactions on 1993. Vol. 23. Issue: 3. P. 665-685.

17. Mohamed A.K., Nelwamondo F.V., Marwala T. Estimating Missing Data Using Neural Network Techniques, Principal Component Analysis and Genetic Algorithms. URL: www. prasa.org/proceedings/2007/prasa07-04.pdf

18. Nelwamondo F.V., Mohamed S., Marwala T. Missing Data: A comparison of neural network and expectation maximization techniques // Current Science. 2007. Vol. 93, № 11. P. 1467-1473.

19. Yoon S.-Y., Lee S.-Y. Training Algorithm with Incomplete Data for Feed-Forward Neural Networks // Neural Processing Letters. 1999. 10. P. 171-179.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карлов Иван Александрович, Кошур Владимир Дмитриевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карлов Иван Александрович, Кошур Владимир Дмитриевич

HYBRID METHOD OF RECONSTRUCTION OF MISSING DATA WITH ADAPTIVE CONTROL ON THE BASIS OF FUZZY LOGIC AND NEURAL NETWORKS

Текст научной работы на тему «Гибридный метод восстановления пропущенных данных с адаптивным управлением на основе нечеткой логики и нейронных сетей»