УДК 519.85
ИДЕНТИФИКАЦИЯ НЕЙРО-НЕЧЕТКИХ МОДЕЛЕЙ ДЛЯ ДАННЫХ БОЛЬШИХ ОБЪЕМОВ
А.К. Погодаев, П.В. Сараев
Статья посвящена проблеме идентификации нейро-нечетких моделей структуры А№К. Исследуется применение алгоритма параметрической идентификации нейро-нечетких моделей на основе псевдообращения и линейно-нелинейного соотношения. Анализируются вопросы построения моделей для обучающих множеств, содержащих большой объем данных
Ключевые слова: нейро-нечеткое моделирование, нейроструктурные модели, большие объемы данных
В последнее время актуальной задачей является обработка и анализ больших объемов данных. Появившийся в работе [1] термин «большие данные» («Big Data») может быть определен как «огромный объем неструктурированных данных» [1, 2]. Это понятие является объектом многих научных исследований и разработок в области информационных технологий. Существенными особенностями понятия «большие данные» являются их неструктурированный, часто очень разреженный характер.
В данной работе в отличие от «больших данных» речь идет о структурированных данных, представимых в табличном виде, где строки соответствуют экспериментам, а столбцы -входным и выходным переменным. В случае, когда такие таблицы содержат от нескольких тысяч до сотен тысяч строк, а также описываются десятками или сотнями атрибутов, часто будут занимать не меньший объем данных, чем «большие данные». Такие объемы информации получаются в ходе деятельности крупных промышленных предприятиях, сложных технических систем, на предприятиях телекоммуникационной отрасли [3].
Важной является задача обнаружения сложных, как правило, нелинейных, зависимостей в таких объемах данных. В последние годы эти вопросы обычно рассматриваются в разделах Data Mining, Knowledge Discovery in Databases. Более обще подобные задачи относятся к разделу анализа данных [4]. В широком смысле поиск зависимостей на основе входной и выходной информации, представленной во множестве данных, можно отнести к разделу математического моделирования, а именно - к идентификации математических моделей.
Одним из эффективных методов математического моделирования является моделирова-
Погодаев Анатолий Кирьянович - ЛГТУ, д-р техн. наук, профессор, e-mail: [email protected]; Сараев Павел Викторович - ЛГТУ, д-р техн. наук, доцент, e-mail: [email protected]
ние с использованием нейронных сетей прямого распространения [5]. В построении таких моделей задача структурной идентификации является частично решенной. Развитием нейронных сетей прямого распространения является подход на основе нейроструктурных моделей (НСМ) [6, 7]. Это позволяет применять большинство методов работы и идентификации нейронных сетей на класс НСМ без существенных изменений. При этом может быть эффективно учтена структура конкретного класса моделей из НСМ.
НСМ представляет совокупность связанных между собой нейроноподобных элементов (НПЭ). НПЭ - обобщение понятия искусственного нейрона. Как и нейрон, НПЭ в общем случае преобразует векторный вход в скалярный выход. В нейроне сначала производится взвешенное суммирование входных сигналов, а затем применяется некоторая, как правило, нелинейная, функция активации. НПЭ в отличие от обычного нейрона может реализовывать произвольную зависимость.
НСМ содержат не только нейронные сети прямого распространения, но и нейронные сети с неклассическими функциями активации, вероятностные нейронные сети, нейронные сети с радиальными базисными функциями, нечеткие модели Такаги-Суджено с дифференцируемыми операциями логического вывода, нейро-нечеткие модели типа ANFIS. Цель данной работы - построение алгоритмов идентификации специального класса нейро-нечетких моделей структуры ANFIS, учитывающих специфику задачи обучения.
Модели структуры ANFIS - один из способов комбинирования нечеткой логики [8-11] и НСПР [8, 12]. Она относится к классу гибридных нейро-нечетких систем (Neuro-Fuzzy Systems, NFS). Гибридные модели позволяют скомбинировать достоинства нечетких систем логического вывода с достоинствами НСПР. особенностью нейро-нечетких систем ANFIS является то, что они могут быть рассмотрены
как системы нечетких правил и как нейронные сети, способные к обучению. Таким образом, при построении модели могут использоваться как объективные, так и экспертные знания о структуре и характере правил вывода. Гибридные модели также легко могут быть интерпретированы как модели представления нечетких знаний.
Рассмотрим способ конструирования ней-ро-нечетких архитектур ANFIS на примере систем, функционально эквивалентных системам Такаги-Суджено. Структура ANFIS имеет следующий общий вид:
Я1: если х1 есть А11({а11}) и ... и если хп есть
А1п({а1п}), то У1 = /1(хЬ - {Ъ}),
Я2: если х2 есть А21({а21}) и ... и если хп есть
А2п({а2п}), то У2 = /2(хЬ -
Ъ}),
Ят: если хт есть Ат1({ат1}) и ... и если хп есть
Amn({amn}), то ут = Ут(хЬ---,хп; {Ът}),
где х3еЯ, ]=1,...,п, - входы системы; у7еЯ, 1=1,...,т, - индивидуальные выходы правил; Ау - функции принадлежности, зависящие от параметров {а} /7 - функции, зависящие от входов системы и параметров {Ъ7}. Модели структуры ANFIS представляют комбинацию лингвистической и аналитической моделей. Входные величины и выход являются вещественными значениями. Наиболее часто аналитические функции в заключениях правил имеют линейную по параметрам структуру:
ут = Ът0 + Ът1х1 +Ъ т2х2+ .■■ + Ъ тп^п-
Система АОТК реализует функцию вида
т
XагУг
У = ^РгУг =
Z
а.
(
г=1
г=1
Л
Z П A X)
I j=
Уг
m f n \
Z ПА(Xj)
г=1
j=1
где Ау(х) - значение функции принадлежности Ау в точке х;-.
Модель ANFIS может быть представлена в виде пятислойной нейроподобной структур. Данная система может быть реализована в виде нейроподобной структуры из пяти слоев [12].
В первом слое выходы НПЭ представляют собой значения степеней принадлежностей для входных сигналов. Обычно в НПЭ этого слоя
применяются гауссовские функции принадлежности
Aj (x) = exp
ix - aj
b.
где atj и by - некоторые параметр. Конкретные значения указанных выше параметров определяются на основе множества данных в процессе обучения. Вместо гауссовской могут быть использованы другие непрерывные функции.
Во втором слое модели ANFIS НПЭ вычисляют уровни истинности (firing levels) предпосылок правил:
n
а = a Av(xj),
где в качестве a может применяться любая дифференцируемая t-норма [8]. Обычно используется t-норма вида
а
= П А( ^).
В НПЭ третьего слоя производится нормализация уровней истинности предпосылок каждого правила:
Р> =
а,.
П А( ^)
]=1
Значения этого слоя показывают относительную значимость уровней истинностей правил.
НПЭ четвертого слоя вычисляют произведение нормализованных значений уровней истинности на соответствующие выходы правил:
У> =Д Л Хп ) .
Таким образом, выходное значение 7-го правила вычисляется в соответствии с его «весом» в итоговый результат.
В НПЭ последнего, пятого, слоя, вычисляется адаптивное суммирование выходов НПЭ четвертого слоя:
т
У = Х У' .
I=1
Характер вычислений носит также суперпозиционный характер. Если функции в заключениях правил являются линейными, структура А^ FIS может быть также охарактеризована как линейно-нелинейная по параметрам [13].
Параметры модели могут быть определены на основе обучающего множества входных и выходных данных {х7, у7}, ¡=1,...^, с помощью методов локальной оптимизации, использующих информацию, содержащуюся в градиенте функции ошибки по вектору параметров модели. В данном случае существенно учитывается суперпозиционный характер моделей [13].
2
n
n
i =1
i =1
n
m
Для обучения нейро-нечетких систем АКБК могут быть применены и более эффективные методы, использующие линейно-нелинейную по параметрам структуру в функциях заключений [14, 15]. Далее будет рассматриваться ситуация, когда функции в заключениях правил являются линейными относительно своих параметров, однако, не обязательно линейными относительно входных переменных:
п
К =ХСЩч(х1>->хп),
]=1
где щ -базисные функции. Тогда нейро-нечеткая модель АКБК реализует функцию вида
т п
у=т@> (р)Е сЩу(Ъ'—' хп) =
1=1 ]=1 т п
с
1=1 ]=1
=т т (рщ(х1'—' хп)'
где р - вектор, состоящий из всех параметров функций принадлежностей Лу. Последнее выражение можно переписать в виде
у = у( х!.....хп; р,с) =
= ^СЯФЯ (х1' —' хп ; Р)'
9=1
где Сд и
Ф (х1'—' хп; р) = А( р)щ (х1'—' хп) получаются при соответствующих значениях индексов / и у; с - вектор, который состоит из параметров су. Требующие идентификации в процессе обучения параметры модели структуры АКБК условно могут быть разделены на два вектора: линейно входящие параметрами с и нелинейно входящие р. Данная модель будет иметь не только суперпозиционный, но и линейно-нелинейный по параметрам характер. Для обучения НСМ может применяться подход, основанный на использовании линейно-нелинейного соотношения [14, 15].
Из значений базисных функций фд на обучающем множестве формируется матрица Ф(Р) еЯкк(т"), которая позволяет записать соотношение
с* =Ф+ (р')у,
где Ф+ - псевдообратная к Ф матрица; (р ,с ) -оптимальные значения параметров НСМ, ~ е Як - вектор указаний учителя. Данное выражение называется линейно-нелинейным соотношением (ЛНС). С его помощью можно вычислить оптимальные значения линейно вхо-
дящих в модель параметров с при фиксированных значениях нелинейно входящих параметров р. С учетом ЛНС задачу обучения можно представить в виде минимизации функционала качества, зависящего только от вектор нелинейно входящих весов р:
1 II ||2
0(а) = - |Ф(р)Ф+ (р)~ - ~|| ,
где ||-|| - евклидова норма вектора. Для данного функционала может быть рассчитан градиент по вектору параметров р. Далее в обучении могут применяться различные методы оптимизации. В частности, алгоритм Гаусса-Ньютона с псевдообращением, может быть представлен в форме:
р('+« = р 1 + д + (р ())Ь(р <1))у,
где
Ь(р ()) = I - Ф(р(0 )Ф+ (р ()),
д р(1))=Ь(а 1) (I ® Ф+ (р(1^+
др
+ Ф+Т (ра)). дФ' (р°)) . (10Цр(О) , др
где I - единичные матрицы соответствующих порядков, I - номер итерации, ® - тензорное произведение матриц.
Особенность данного подхода заключается в необходимости итерационной оптимизации только параметров р, которые входят в модель нелинейно. Линейные параметры с находятся с помощью ЛНС. Предлагаемый метод может быть применен для обучения многовыходных систем АКБК, а также в случае, когда функции щ тоже нелинейно зависят от некоторых параметров с.
Исследование эффективности алгоритмов обучения НСМ [15] показало, что высокая скорость работы достигается при небольших объемах обучающих множеств. Это связано с достаточной вычислительной сложностью алгоритмов и ее возрастанию при увеличении объемов данных в обучающем множестве.
Для данных большого объема возможен подход, заключающийся в последовательной кластеризации исходного обучающего множества. При последовательном обучении обучающее множество разбивается на малое количество кластеров. Далее количество кластеров увеличивается, и производится уточнение модели. Эффективность обучения нейронных сетей на основе кластеризации методом к-средних исследована в [16]. Выбор репрезентативных подвыборок производился с помощью критерия Хотеллинга, позволяющего проверять
гипотезу об однородности двух многомерных выборок.
Предложенный подход в данной работе метод обучения на основе ЛНС может эффективно применяться для нейро-нечетких моделей ANFIS на начальных этапах, когда объем выборки становится малым. В этом случае будут получены достаточно грубые моделей и их последовательного уточнения [17-19].
Заключение
В работе было описано применение метода обучения нейро-нечетких моделей структуры ANFIS на основе подхода, учитывающего квадратичный характер функционала качества обучения и ЛНС. Предложено применение метода обучения при построении моделей для данных большого объема при последовательной кластеризации исходных данных для эффективного построения грубых моделей.
Исследование выполнено при финансовой поддержке РФФИ и Администрации Липецкой области в рамках научного проекта N 14-47-03611-рцентра.
Литература
1. Новиков Д.А. Большие данные: от Браге к Ньютону [Текст] / Д.А. Новиков Д.А. // Проблемы управления,
2013.- Вып. 6.- С. 15-23.
2. Napoletani, D. Is Big Data Enough? A Reflection on the Changing Role of Mathematics in Applications [Text] / D. Napoletani, M. Panza, D.C. Struppa // Notices of the AMS,
2014.- Vol. 61.- N 5.- P. 485-490.
3. Liu, B. Managing large collections of data mining models [Text] / Liu B., Tuzhilin A. // Communications of the ACM, 2008.- V. 51.- № 2.- P. 85-89.
4. Загоруйко, Н.Г. Прикладные методы анализа данных и знаний [Текст] / Н.Г. Загоруйко.- Новосибирск: ИМ СО РАН, 1999.- 270 с.
5. Хайкин С. Нейронные сети: полный курс [Текст] / С. М.Хайкин. - М.:Вильямс, 2008.- 1103 с.
6. Сараев, П.В. Развитие нейросетевого моделирования сложных систем на основе нейроструктурного подхода [Текст] / П.В. Сараев // Вести ВУЗов Черноземья. -2012.- № 2(28).- С.30-35.
7. Погодаев, А.К. Нейроструктурное моделирование: некоторые результаты и направления развития Липецкий государственный технический универ
[Текст] / А.К. Погодаев, С.Л. Блюмин, П.В.Сараев // Вести ВУЗов Черноземья, 2012.- № 4(30).- С.30-37.
8. Fuller R. Neural Fuzzy Systems.- [Электронный ресурс] : Режим доступа : World Wide Web. URL : http ://www. abo. fi/~rfuller/robert.html.
9. Применение эволюционного алгоритма для идентификации нечеткой модели [Текст] / Ю.И. Кудинов, Н.А. Архипов и др. // Системы управления и информационные технологии. - 2004.- Т. 14.- № 2.- С. 15-18.
10. Кудинов, Ю.И. Построение адаптивного нечеткого комбинированного регулятора в многосвязных системах [Текст] / Кудинов Ю.И., Кудинов И.Ю. // Проблемы управления. - 2006.- № 5.- С. 12-18.
11. Блюмин, С.Л. Нечеткие сети Петри как окрест-ностные системы [Текст] / С.Л. Блюмин, А.М. Шмырин, И.А. Седых // Системы управления и информационные технологии. - 2008.- Т. 33.- № 3.2.- С. 233-238.
12. Блюмин, С.Л. Суперпозиционная регрессия С.Л. Блюмин, А.К. Погодаев // Журнал вычислительной математики и математической физики. - 1995.- Т. 35.- № 10.- С. 1576-1581.
13. Нечеткая логика: алгебраические основы и приложения [Текст]: монография / С.Л. Блюмин, И.А. Шуйкова, П.В. Сараев, И.В. Черпаков Монография.- Липецк: ЛЭГИ, 2002.- 111 с.
14. Сараев П.В. Использование псевдообращения в задачах обучения искусственных нейронных сетей -[Электронный ресурс] : Режим доступа : World Wide Web. URL : http://zhurnal.ape.relarn.ru/articles/2001/029.pdf // Электронный журнал "Исследовано в России".- 2001.- № 29.- С. 308-317
15. Сараев П.В. Обучение нейронных сетей прямого распространения на основе декомпозиции вектора весов и псевдообращения [Текст] / П.В. Сараев // Нейрокомпьютеры: разработка, применение - 2010.- № 1.- С. 65-74.
16. Кластеризация обучающих выборок большого объема для обучения нейронных сетей на репрезентативных подвыборках [Текст] / М.Г. Журавлёва, П.В. Сараев, О.А. Назаркин, П.А. Домашнев // Вести ВУЗов Черноземья. - 2015.- №1.- С. 54-61.
17. Podval'ny, S.L. Intelligent modeling systems: design principles [Text] / S.L. Podval'ny, T.M. Ledeneva // Automation and Remote Control. - 2013. V. 74. - № 7. - P. 12011210.
18. Barabanov, A.V. Structural modeling of continuous multi-center polymerization processes [Text] / A.V. Bara-banov, S.L. Podval'nyi // Automation and Remote Control. -2012. T. 73. - № 7. C. 1265-1268.
19. Скользящее усреднение на основе минимизации невязки в формуле Эйлера-Маклорена [Текст] / Ю.Я. Агранович, Н.В. Концевая, С.Л. Подвальный, В.Л. Хацке-вич // Вестник Воронежского государственного технического университета. - 2011. - Т. 7. - № 12.1. - С. 4-6.
IDENTIFICATION OF NEURO-FUZZY MODELS FOR DATA OF LARGE AMOUNTS
A. K. Pogodaev, P.V. Saraev
The article is devoted to problem of identification of neuro-fuzzy models with ANFIS structure. Application of the algorithm based on linear-nonlinear correlation for parameters identification of neuro-fuzzy models is investigated. Issues of models building for training datasets of large amounts are analyzed
Key words: neuro-fuzzy modeling, neurostructural models, data of large amounts