УДК 519.237.07
Факторное моделирование с помощью нейронной сети
© В. А. Шовин, В.В. Гольтяпин
Омский филиал ФГБУН Института математики им. С. Л. Соболева Сибирского отделения РАН, Омск, 644099, Россия
Проведено факторное моделирование артериальной гипертензии начальной стадии с помощью метода факторизации на базе нейронной сети и алгоритма обратного распространения ошибки. Этот метод факторизации является альтернативой классическому факторному анализу. Алгоритм построения факторной структуры на базе нейронной сети был реализован программно. Данный метод был усовершенствован для проведения факторного вращения и получения интерпретируемого решения. Факторная структура артериальной гипертензии, полученная с помощью данного метода факторизации, находится в соответствии с результатами факторного моделирования посредством других методов.
Ключевые слова: артериальная гипертензия, факторный анализ, нейронные сети, обратное распространение ошибки
Введение. Классический факторный анализ [1] позволяет на базе выборки различных показателей сформировать факторные показатели, с необходимой точностью описывающие исходный объект и уменьшающие размерность задачи путем перехода к ним. Факторные показатели являются линейной комбинацией исходных показателей. Тем самым факторные модели носят линейный характер.
Нейронная сеть позволяет аппроксимировать отображения между исходными и целевыми показателями. При этом аппроксимируемые отображения могут иметь нелинейный характер. Двухслойный персеп-трон позволяет аппроксимировать любую булеву функцию булевых переменных [2]. А двухуровневая нейронная сеть способна аппроксимировать в равномерной метрике с любой заданной погрешностью 8 > 0 любую непрерывную функцию /(х1,..., хп), а в среднеквад-
ратической метрике — любую измеримую функцию, определенную на ограниченном множестве [3-6].
Для восстановления закономерностей между параметрами используется специальный алгоритм обучения нейронной сети — алгоритм обратного распространения ошибки [7]. Этот алгоритм с математической точки зрения представляет собой градиентный метод оптимизации.
Суть данного метода для построения факторных моделей заключается в том, что для выявления закономерностей между параметрами используется математическая модель нейронной сети с линейной передаточной функцией. Значения факторных переменных определяются равными значениями выходных сигналов нейронов скрытого
слоя нейронной сети. Тем самым нейронная сеть осуществляет классический факторный анализ, т. е. строит линейные комбинации исходных параметров [8-10].
В данной работе предлагается усовершенствованный алгоритм обратного распространения ошибки посредством введения дополнительного слагаемого в функцию ошибки для построения интерпретируемой факторной структуры и решения задачи факторного вращения на базе нейронной сети.
Математическая модель нейрона. Состояние нейрона описывается набором переменных:
• весами входных сигналов (ч,1, ..., п,т), где т — количество входных сигналов х{;
• свободным членом Wо в вычислении выходного сигнала. Сигнал на выходе нейрона вычисляется по формуле
2 = °( V),
где V = ^ м>х + ^о — взвешенная сумма сигналов на входах нейрона;
г
о — передаточная функция нейрона, например сигмоидальная функция а^ ) =-1-.
V ; 1 + exp(-v)
Нейронная сеть. Отдельные нейроны объединяются в слои. Выходные сигналы нейронов из одного слоя поступают на вход нейронам
следующего слоя, модель так называемого многослойного персептрона (рис. 1). В программной реализации авторской нейронной сети вводится понятие нейронов потомков и нейронов предков. Все нейроны, имеющие входной сигнал от этого нейрона являются его потомками или пассивными нейронами
или аксонами. Все нейроны, образующие Рис. 1. Схема простой
входные сигналы данного нейрона, являют-нейронной сети (входные „
нейроны, скрытые нейроны, ся его предками или активными нейронами выходной нейрон) или дендритами.
Алгоритм обратного распространения ошибки. Алгоритм обратного распространения ошибки для обучения нейронной сети соответствует минимизации функции ошибки В качестве такой функции ошибки может быть использована сумма квадратов отклонений выходных сигналов сети от требуемых:
т
Е = £(2 -^)2,
г=1
где — выходное значение г-го нейрона выходного слоя; — требуемое значение г-го нейрона выходного слоя.
В данном алгоритме итерация обучения состоит из трех процедур:
1) распространение сигнала и вычисление сигналов на выходе каждого нейрона;
2) вычисление ошибки для каждого нейрона;
3) изменение весов связей.
Путем многократного цикличного подставления наборов сигналов на входе и выходе и обратного распространения ошибки производится обучение нейронной сети. Для многослойного персептрона и определенного вида передаточной функции нейрона при определенном виде функции ошибки доказана сходимость этого метода [11].
Вычисление ошибок. Если передаточная функция нейронов является сигмоидальной, то ошибки для нейронов различных слоев вычисляют по определенным формулам.
Вычисления ошибок для нейронов выходного слоя проводят по формуле
где г у — желаемое значение на выходе у-го нейрона выходного слоя Ь; 2 у — сигнал на выходе у-го нейрона выходного слоя Ь; Ь — глубина нейронной сети.
Ошибки для нейронов остальных слоев рассчитывают по формуле
где г — индексы нейронов-потомков данного нейрона; у у — сигнал на выходе у-го нейрона слоя /; ^^ — связь между у-м нейроном
1-го слоя и г-м нейроном (/+1)-го слоя.
Изменение пороговых уровней нейронов и весов связей. Для
изменения весов связей используют следующие формулы:
&м>у (п +1) := r\(aAwij (п) + (1 - а) еуу), (п +1) := ^(п) + ДЩу(п +1),
Дw0 (п +1) := r(аЛw0 (п) + (1 - а) еу),
w0 (п +1) := Wo (п) + Дwo (п +1),
где г — индекс активного нейрона (нейрона источника входных сигналов пассивных нейронов); у — индекс пассивного нейрона; п — номер итерации обучения; а — коэффициент инерциальности для сглажива-
е'Ь = (- 2у )2у (1 - 2у ),
Г
ния резких скачков при перемещении по поверхности целевой функции; 0 1 — множитель, задающий скорость «движения».
Метод построения факторной модели. Факторный анализ основан на следующей линейной модели, связывающей исходные показатели и факторы р1 :
1 = ап Р1 + а 2 Р2 + ••• + ащР% + ,
где m — число переменных; g — число факторов; — исходные
переменные; pi — общие факторы; щ — специфичные факторы.
В матричном виде линейная модель факторного анализа записывается в виде
7 = AP + DU,
где 7 о — матрица размерности т х п значений т параметров у п
тхп
объектов; Р о ру — матрица размерности g х п значений g факто-
gхn
ров у п объектов; и о % — матрица размерности т х п значений т
тхп
специфичных факторов у п объектов; А о а у — матрица факторного
mхg
отображения размерности т х g весовых коэффициентов; D о ¿у —
тхт
диагональная матрица размерности т х т весовых коэффициентов специфичных факторов.
В этом методе построения факторной модели латентные характеристики ставятся в соответствие нейронам скрытого слоя. При этом число нейронов скрытого слоя полагают меньшим числа нейронов входного слоя для осуществления факторного сжатия входной информации. Для оценки числа нейронов скрытого слоя можно применять правило классического факторного анализа Кайзера. Нейронам входного и выходного слоя ставятся в соответствие исходные характеристики объектов исследования. Когда передаточная функция нейронов линейна, такая конфигурация нейронной сети соответствует классическому факторному анализу. Тогда число нейронов входного слоя равно числу нейронов выходного слоя, число нейронов скрытого слоя меньше числа нейронов входного слоя (рис. 2).
С помощью обучения нейронной сети вычисляются веса входных связей нейро-
Рис. 2. Схема нейронной сети
классического факторного ана- нов скрытого и выходного слоя кото-лиза рые соответствуют элементам обратного
и прямого факторного отображения aij. Веса нейронов ищутся в интервале [-1, 1]. Наполнение факторов исходными переменными определяется с помощью значений элементов факторного отображения и выбранного порогового уровня значимости p е( 0,1). Переменная i входит в фактор j, если aiJ-1 е [p,l].
Для раскрытия взаимосвязи факторной модели и нейронной сети применим формулы получения выходного сигнала нейронов скрытого слоя.
Обозначим выходной сигнал j-го нейрона скрытого слоя Pj. Выходной сигнал i-го нейрона входного слоя обозначим zi. В качестве передаточной функции будем использовать линейную функцию out = f (х) = х.
В результате
pj = f
f m m
(1,2) z + t(2) j '
У w(U) z. +1(2) =y w(U) z + t( V i=1
1=1
где т — число нейронов входного слоя; ! — связь между г-м
нейроном 5-го слоя и '-м нейроном ¿-го слоя; ' ^ — пороговый уровень у'-го нейрона 5-го слоя.
Аналогично для выходного слоя:
z J = f
f g Л
,(2,3) p + t(3)
У +j =У wf3) Pi +1( 3)
V i=1 J i=1
где — выходное значение '-го нейрона выходного слоя; g — число
нейронов скрытого слоя.
Полученная линейная взаимосвязь переменных соответствует классической модели факторного анализа, в которой факторы являются линейными комбинациями исходных переменных. Задача поиска факторного отображения и значений факторов сводится к поиску весов связей и пороговых уровней нейронной сети. Поскольку факторное отображение и значения факторов являются неизвестными, необходима сеть с промежуточным слоем. Сеть в целом осуществляет тождественное преобразование, т. е. выходной сигнал на г-м нейроне входного слоя равен выходному сигналу г-го нейрона выходного слоя. Отдельные части сети (входная и выходная часть) соответствуют прямому и обратному факторному отображению.
Теорема 1. Пусть ^г/2,3) и ^г(1,2) — веса входных сигналов выходного и скрытого слоя нейронной сети с линейной передаточной
функцией. Число нейронов на выходном слое равно числу нейронов входного слоя. Нейронная сеть состоит из входного, скрытого и выходного слоя и осуществляет тождественное преобразование для любого входного сигнала (вектор входных сигналов сети равен вектору выходных сигналов).
Тогда выполняется следующее равенство:
(1,2^,(2,3) _
Е
= 1,
к=1
) . .
где — связь между г-м нейроном ¡-го слоя и у-м нейроном
¿-го слоя; g — число нейронов скрытого слоя.
Доказательство. Обозначим — выходной сигнал г-го нейрона к-го слоя, — г-й выходной сигнал нейронов первого слоя.
Для поиска весов нейронной сети необходимо выполнение условия Гц = Узг, выходной сигнал на г-м нейроне входного слоя должен быть равен выходному сигналу г-го нейрона выходного слоя. Из этого условия следует вспомогательное условие Ду^- = ДУзг, изменение г-го входного сигнала сети равно изменению г-го выходного сигнала. При этом справедливы следующие равенства:
у1г = 4 +Ду1г, у3г = 4 +Ду3г,
где V0 и у30г — входной и выходной сигнал до изменения, у0г = .
Допустим, что производилось изменение только г-го входного сигнала.
Из этих условий следует:
у3г
=Е
+<?} =
I=1
g ( т
Е Ч2'3) [е
1=1 [ к=1
+ 42)
Л
+¿г(3) =
g
Е
I=1
= Е Ч2'3
т
Е
к=1 к Фг
(1,2)
у1к + Чи
(1,2Ч + ¿Р
+^=
(
=Е
Ч
(2,3)
I=1
Е
к=1 к Фг
ЧР У1к + ЧР V0 + ЩР Дуг + ¿Р
+ ^ =
+ =
= 1 Е «Гй+«Рл^ + ,<2>
/=1 V к=1
¿«?3) +^ V ,р>
V к=1 ^
/=1
/=1
=>3+Е «Г1 «Г ■
/=1
/=1
Поскольку Лгц =Л>3г-. то Е «/г' = 1 должно выполняться
/=1
для всех г, поскольку выбор г-го входного сигнала был произволен. Теорема доказана ■•
Веса «г(2'3) и «г(1'2') входных сигналов выходного и скрытого слоя
нейронной сети с линейной передаточной функцией соответствуют коэффициентам прямого и обратного факторного отображения. Чем точнее нейронная сеть с факторным сжатием информации осуществляет тождественное преобразование, тем точнее будет выполняться равенство теоремы, соответствующее тому, что композиция прямого и обратного факторного преобразования должна давать тождественное преобразование. Докажем соответствующую теорему.
Теорема 2. Пусть «г(2,3) и «г(1,2) — веса входных сигналов выходного и скрытого слоя нейронной сети с линейной передаточной функцией. Число нейронов на выходном слое равно числу нейронов входного слоя. Нейронная сеть состоит из входного, скрытого и выходного слоя. Введем следующие величины:
Л> — средняя невязка сигнала между входом и выходом сети,
приходящаяся на один входной (выходной) нейрон;
g
Л« — невязка равенства Е «Ц'2 «ы^ = 1, т. е. Л« =
к=1
=Е»Г «2'3) -1.
к=1
где ) — связь между г-м нейроном 5-го слоя и к-м нейроном
¿-го слоя; g — число нейронов скрытого слоя. Тогда чем меньше Л>, тем меньше Л«.
Доказательство. В предыдущей теореме доказано следующее равенство значения сигнала по одной переменной на выходе v3i от
приращения сигнала по той же переменной на входе Av^:
V3i = 4 WP Avii.
i=1
Поскольку Av = v3i - vii = v3i - v0i - Avii = v3i - v30i - Avii + v30i - v0 =
= v3, - v°j - Av^ + Av0, где Av0 — начальная невязка сигналов между входом и выходом сети до изменения 1-го входного сигнала, то
Aw = fwPV/'2) -1 = ^^ -1 = ^ - 4 -Avii =Av-Av 0 . Это озна-i=i 1 1 Avb. Avb. Avb.
чает монотонную зависимость между Aw и Av. Теорема доказана ■.
Для построения нелинейных главных компонент в качестве передаточной функции может быть выбрана антисимметричная сигмои-дальная функция:
g(x ) =-2--1.
1 + exp(-x)
В любом случае независимо от вида передаточной функции для получения интерпретируемого факторного отображения вводится дополнительное слагаемое в общую целевую функцию квадратов невязок. Оно соответствует критерию «варимакс» классического факторного анализа — это максимизация дисперсии нагрузок переменной, приходящихся на все факторы:
g / \ 2 Dwf3 =Е(w™ -Ew^) ^ max, 1 i=1 V ' '
1
> min.
i
Учет «варимакс» критерия приводит к появлению дополнительных слагаемых при изменении весов нейронной сети на выходном слое:
= -у дЕ _ = у-1-(„,<?Л _ )
' ^ ' - ' )■
Другим вариантом получения интерпретируемого факторного отображения может быть использование специального критерия ин-
терпретируемости [12]. Данный критерий заключается в том, что только одна факторная нагрузка для фиксированной переменной должна быть близкой к единице, тогда как остальные должны быть близкими к нулю. Учет эмпирического критерия интерпретируемости предлагается осуществить следующим образом: среди факторных нагрузок для фиксированной переменной выбирается максимальная по модулю. Все факторные нагрузки, отличные от максимальной, уменьшаются по модулю на у, тогда как максимальная увеличивается на у.
Аналогичный учет главных условий факторного анализа на сумму квадратов факторных нагрузок переменной, приходящихся на все факторы, Е(«г(2'3 ) -1 и поиск факторных нагрузок в допустимом интер-
г=1
вале «г(2,3) е [-1, 1] приводит к поправкам на изменение весов нейронной сети для выходного слоя. В случае нарушения этих условий
предлагается использовать штрафную функцию Е(w(2,3)) ^ min.
i =1
соответствующую минимизации весов нейронов. Тогда Aw(2'3) =
У
Для стандартизации входных значений нейронной сети используется линейное преобразование
y = ax + ß,
переводящее диапазон исходных величин x из [min, max] в [s, t].
_ t - s _ s max -1 min
Тогда a =-, ß =-.
max - min max - min
Для обратного преобразования выходных значений нейронной
сети из диапазона [s, t] в [min, max] используется преобразование
1 ß
x = — y--.
aa
В качестве интервала [s, t] для антисимметричной сигмоидальной / \ 2
функции a(x) =--1 может быть выбран интервал [-0,85,
1 + exp(-x)
0,85].
1 7
Тогда a =---, ß = -0,85.
max - min
Численный эксперимент. В качестве исходных параметров были взяты 15 биофизических показателей для 131 пациента с артериальной гипертензией начальной стадии:
1) вес;
2) индекс массы тела (ИМТ);
3) частота дыхания (ЧД);
4) сегментоядерные нейтрофилы (С);
5) лимфоциты (Л);
6) конечно-систолический размер левого желудочка (КСР);
7) конечно-систолический объем левого желудочка (КСО);
8) конечно-диастолический размер левого желудочка (КДР);
9) конечно-диастолический объем левого желудочка (КДО);
10) ударный объем (УО);
11) минутный объем сердца (МОС);
12) общее периферическое сосудистое сопротивление (ОПСС);
13) индекс Хильдебранта (ИХ);
14) фракция выброса левого желудочка (ФВ);
15) фракция укорочения левого желудочка (ФУ).
При обучении нейронной сети на данных артериальной гипертен-зии начальной стадии ошибка, приходящаяся на одну переменную, составляла не более 10 % от диапазона значений переменной по выборке. Эти данные содержали 131 паттерн и 15 переменных с антисимметричной сигмоидальной передаточной функцией и пятью нейронами на скрытом слое. График сходимости процесса обучения представлен на рис. 3. Под итерацией обучения понимается одна эпоха обучения, когда в сеть подставляют весь набор паттернов обучения. Под суммарной ошибкой на обучающей выборке понимается сумма ошибок для всех паттернов обучающего множества на одной итерации обучения.
700 г
ев 500
м
ю
300
100
25 50 75 100 Число итераций
125 150
Рис. 3. График изменения суммарной ошибки на обучающей выборке (131 паттерн, 15 переменных)
Для проверки эффективности обучения нейронной сети исходное множество входных-выходных значений было разделено на два независимых подмножества: обучающее и тестовое. Обучение проводилось на обучающем множестве, а верификация — на тестовом.
Ошибка нейронной сети на тестовом множестве является показателем того, насколько точно обучилась нейронная сеть. Относительный объем тестового множества был оценен [7] по формуле
у!2Ж -1 -1
Гор1 ~ '
2 (Ж -1)
количество входных параметров. го
где Ж -
При Ж = 15, гор1 « 0,15. При 131 паттерне на тестовое множество
приходится 20 паттернов.
График изменения суммарной ошибки для паттернов тестового множества при верификации на каждой эпохе процесса обучения представлен на рис. 4. Под суммарной ошибкой на тестовом множестве понимается сумма ошибок для 20 паттернов тестового множества при процессе верификации на каждой эпохе обучения, т. е. когда для обучения был использован полный набор паттернов обучающего множества, но тестовое множество не участвовало в обучении. На каждой эпохе относительная ошибка для тестового множества больше относительной ошибки для обучающего множества. В пределе, когда ошибка для обучающего множества начинает сходиться, возможен эффект переобучения, т. е. значение ошибки при верификации на тестовом множестве начинает не уменьшаться, а возрастать. Это связано с тем, что промежуточные точки между точками обучающего множества в многомерном пространстве плохо аппроксимируются восстанавливаемой зависимостью нейронной сети. Данные графика изменения ошибки на тестовом множестве (рис. 4) показывают, что эффекта переобучения нет, и объем обучающего множества достаточен для количества исходных показателей, равного 15. На графике заметны лишь незначительные флуктуации ошибки на обучающем множестве в процессе сходимости ошибки для обучающего множества.
юо г
80
ю к
в о
60
40
20
25 50 75 100
Число итераций
125
150
Рис. 4. График изменения суммарной ошибки на тестовом множестве (20 паттернов, 15 переменных)
Из данных графика видно, что эффекта переобучения не наблюдается, дальнейшее обучение приводит лишь к небольшой флуктуации суммарной ошибки на тестовом множестве.
Средние ошибки, приходящиеся на 15 переменных для одного паттерна на обучающем и тестовом множестве, равны 1,28 и 1,54. При исходном диапазоне изменения параметров [-0,85, 0,85] ошибки, приходящиеся на одну переменную, для обучающего и тестового множества равны 5 и 6 %. Например, для параметра «вес» наибольшее значение было равно 116 кг, наименьшее — 45 кг, при диапазоне в 71 кг, ошибка в 6% соответствует 4,26 кг. Это свидетельствует о хорошей способности нейронной сети к обобщению. Ошибка в 6 % для 15 входных параметров и 131 примера для обучения меньше теоретической оценки ошибки в 10 %. Когда требуется 15-10 примеров для обучения, можно говорить о достаточности обучающего множества. Известно, что между действительно достаточным размером множества обучения и теоретическими оценками может существовать большой разрыв [7].
Число нейронов на скрытом слое было выбрано согласно правилу факторного анализа Кайзера, когда число факторов должно быть не больше количества собственных значений корреляционной матрицы переменных больше единицы. График собственных значений исходных переменных приведен на рис. 5.
Номер собственного значения Рис. 5. Собственные значения исходных переменных
В ходе численного эксперимента с данными артериальной гипер-тензии было установлено, что хорошая обучаемость нейронной сети достигается при числе нейронов в скрытом слое, который не меньше верхней границы числа собственных значений исходных переменных по правилу Кайзера. При меньшем числе нейронов в скрытом слое наблюдались значительные ошибки на обучающей выборке, и наоборот: чем больше нейронов выбиралось на скрытом слое, тем меньше была ошибка на тестовом и обучающем множестве. Это связано с факторным сжатием и потерей информации на скрытом слое.
Факторное отображение, полученное с помощью нейронной сети, незначительно отличается от факторного отображения, получаемого методом главных компонент с последующим «варимакс» вращением, и имеет тот же интерпретационный характер. Все значимые факторные нагрузки двух матриц факторных отображений близки друг к другу. Соответствующие факторные структуры приведены в табл. 1-3.
С точки зрения совпадения факторных структур ошибка прогноза входного паттерна менее 10 % оказалась некритичной, и нейронная сеть является достаточно обученной для проведения факторного анализа. Данные факторные структуры подтверждаются работой [11].
Таблица 1
Факторная структура «варимакс» (метод главных компонент + «варимакс» вращение)
Показатели Р2 Р3 Р4 Рь
Вес 0,135 0,078 -0,073 —0,07 0,861
ИМТ 0,085 0,095 -0,147 —0,07 0,858
ЧД 0,087 0,043 -0,078 -0,849 0,087
С -0,07 -0,913 -0,051 0,06 -0,108
Л 0,012 0,923 0,029 -0,017 0,065
КСР 0,739 0,015 -0,637 -0,093 0,151
КСО 0,73 -0,005 -0,628 -0,083 0,137
КДР 0,943 0,048 -0,256 -0,011 0,119
КДО 0,932 0,016 -0,299 -0,034 0,132
УО 0,947 0,053 0,07 -0,001 0,107
МОС 0,93 0,017 0,046 0,011 0,039
ОПСС -0,776 -0,022 -0,117 0,072 0,027
ИХ 0,005 -0,028 0,039 0,858 -0,044
ФВ -0,025 0,005 0,845 0,024 -0,113
ФУ -0,028 0,072 0,743 0,062 -0,052
Таблица 2
Факторная структура на базе нейронной сети («варимакс» критерий)
Показатели Р1 р2 Р3 Р4 Р5
Вес 0,483 —0,116 -0,024 0,127 0,846
ИМТ 0,409 —0,062 -0,165 0,132 0,888
ЧД -0,27 -0,442 -0,071 0,852 -0,019
С 0,02 0,876 0,18 0,393 -0,269
Л -0,08 -0,786 -0,276 -0,503 0,214
КСР 0,759 -0,155 -0,575 0,217 -0,169
Окончание табл. 2
Показатели Fl ^4
КСО 0,805 —0,137 —0,525 0,187 —0,193
КДР 0,864 —0,296 —0,145 0,098 —0,237
КДО 0,899 —0,288 —0,176 0,157 —0,234
УО 0,838 —0,402 0,251 0,077 —0,261
МОС 0,835 —0,331 0,242 0,061 —0,352
ОПСС -0,697 0,441 —0,401 —0,197 0,44
ИХ 0,287 0,35 —0,015 -0,596 —0,061
ФВ -0,192 —0,22 0,955 —0,08 —0,056
ФУ -0,152 —0,175 0,973 —0,212 —0,076
Таблица 3
Факторная структура на базе нейронной сети (критерий интерпретируемости)
Показатели Fl ^4
Вес —0,01 0 —0,017 0,006 0,996
ИМТ 0,002 —0,011 0,015 —0,002 0,989
ЧД —0,001 0,035 0,012 -0,996 0,016
С —0,013 -0,997 0,016 0,006 0,004
Л 0,001 1,000 —0,006 —0,005 0,001
КСР 0,869 0,002 0,49 —0,009 0,015
КСО 0,864 —0,02 0,502 —0,037 0,009
КДР 0,99 0,005 0,004 0,009 0,004
КДО 0,994 0,002 0,081 0,005 —0,002
УО 0,964 0,004 —0,253 0,024 —0,02
МОС 0,974 0,003 —0,211 —0,016 —0,01
ОПСС -0,985 0,008 0,267 0,035 0,113
ИХ 0,036 0,024 —0,001 0,817 —0,023
ФВ 0,001 —0,018 -0,994 —0,026 0,002
ФУ —0,01 0,009 -0,99 0,034 0,02
Специальный критерий интерпретируемости оказался более эффективным, чем «варимакс» критерий. Разделение исходных переменных на факторы более мощное: незначимые факторные нагрузки близки к нулю, тогда как значимые близки к единице. Незначимые факторные нагрузки отдают свою долю дисперсии переменных (приходятся на факторы) значимым факторным нагрузкам, тем самым повышая эффективность разбиения исходных параметров на факторы. На конечном этапе факторного моделирования осуществляется интерпретация наполнения факторов переменными и более эффектив-
ное разбиение исходных переменных на факторы, соответствующее целям классического факторного вращения. Это является плюсом факторного моделирования на базе нейронной сети со специальным критерием интерпретируемости. Расхождение величин незначимых факторных нагрузок матриц факторного отображения до и после факторного вращения является обычным эффектом. Его целью является повышение эффективности интерпретационного разделения исходных переменных на факторы.
Матрица корреляций факторов немного отличается от ортогональной, что соответствует общему косоугольному факторному анализу (табл. 4).
Таблица 4
Корреляции факторов, полученных на базе нейронной сети с использованием критерия интерпретируемости
Факторы Fl ^2 ^3 ^4 ^5
Fl 1,000 0,089 0,146 —0,108 0,217
0,089 1,000 -0,057 —0,065 0,157
0,146 -0,057 1,000 -0,149 0,217
-0,108 -0,065 -0,149 1,000 -0,143
0,217 0,157 0,217 -0,143 1,000
Факторное моделирование позволяет выделить группы взаимосвязанных параметров, формирующих факторы заболевания артериальной гипертензии. Факторы проинтерпретированы в ранних работах [13, 14]. Рассмотрим некоторые из них.
Гемодинамический фактор включает параметры, описывающие центральную и периферическую гемодинамику, и его можно назвать главным. Переменные УО, МОС, ОПСС определяют уровень артериального давления. В норме изменениям минутного объема циркуляции должна соответствовать адекватная по величине и направлению реакция прекапиллярного русла, которая бы нивелировала эти изменения и сохраняла среднее давление на нормальном уровне. Например, если МОС снижен, то артериолы должны сузиться. Если МОС увеличен, то артериолы должны расшириться. Нарушения взаимосвязи этих показателей лежат в основе изменений уровня артериального давления. Вместе с тем изменение уровня артериального давления взаимосвязано с модуляцией сердца, за которую отвечают параметры КСР, КСО, КДР, КДО.
Фактор, составленный из параметров «фракция выброса левого желудочка» и «фракция укорочения левого желудочка». Его можно считать важным для непосредственной оценки контрактильной (сократительной, нагнетательной) функции левого желудочка. Этот
фактор определяет объемную ресурсоемкость левого желудочка. Он показывает, насколько использованы объемные резервы самого сердца для поддержания уровня артериального давления.
Кроме того, были выделены фактор, отвечающий за соответствие массы и роста, и фактор, характеризующий уровень слаженности работы сердца и легких (он определяется через частоту дыхания и индекс Хильдебранта).
Также был рассмотрен иммунологический фактор, который может отражать психосоматическое состояние индивида, поскольку этот фактор активируется в стрессовых состояниях. Основной вклад в формирование этого фактора вносят сегментоядерные нейтрофилы и лимфоциты.
Выделенные факторы являются различными аспектами заболевания. Например, такой фактор риска, как ожирение, соответствует нарушению фактора, отвечающего за соответствие массы и роста. Иммунологический и фактор, характеризующий уровень слаженности работы сердца и легких, могут быть объединены в один общий фактор, соответствующий стрессовой восприимчивости. Все выделенные факторы подтверждены независимыми медицинскими исследованиями.
В ранней работе [13] даны рекомендации по нормализации выделенных факторов. Эти пять факторов позволяют указать группу параметров, на которую нужно воздействовать, чтобы получить максимальный эффект от лечения. Например, для стабилизации уровня артериального давления следует воздействовать на всю группу признаков, описывающих гемодинамический фактор. При этом следует учитывать ремоделирование сердца (структурно-геометрическое состояние) при формировании патофизиологических взаимоотношений в системе кровообращения у пациентов с гипертонической болезнью. Поскольку ожирение является одним из факторов риска, то снижение веса позволит нормализовать фактор, отвечающий за соответствие массы и роста. Исключение стрессовых ситуаций пациентом позволит улучшить показатели, формирующие иммунологический фактор, а также нормализовать фактор, характеризующий уровень слаженности работы сердца и легких.
Заключение. Рассмотрен известный альтернативный метод построения факторной модели на основе нейронной сети и алгоритма обратного распространения ошибки. Данный метод был усовершенствован для проведения факторного вращения и получения интерпретируемого решения. Преимущество данного метода заключается в том, что он объединяет в себе все этапы классического факторного анализа: поиск факторного отображения, факторное вращение и вычисление значений факторов. Этот метод осуществляет косоугольный факторный анализ, тем самым имеет максимальную степень общности для линейной модели.
На базе нейронной сети с нелинейной передаточной функцией получен вариант нелинейного факторного анализа. Факторная структура артериальной гипертензии, полученная с помощью нейронной сети и критериев интерпретируемости, незначительно отличается от факторной структуры, полученной методом главных компонент с последующим «варимакс» вращением, и имеет тот же интерпретационный характер.
Представляется актуальным улучшить алгоритм факторного вращения на базе нейронной сети с помощью методов распараллеливания [15].
ЛИТЕРАТУРА
[1] Иберла К. Факторный анализ. Пер. с нем. В.М. Ивановой; предисл. А.М. Дуброва. Москва, Статистика, 1980.
[2] Гаврилкевич М. Введение в нейроматематику. Обозрение прикладной и промышленной математики, 1994, т. 1, вып. 3.
[3] Hornik K., Stinchcombe M., White H. Multilayer Feedforward Networks are Universal Approximators. Neural Networks, 1989, vol. 2, no. 5, pp. 359-366.
[4] Cybenko G. Approximation by Superpositions of a Sigmoidal Function. Mathematics of Control, Signals and Systems, 1989, vol. 2, pp. 303-314.
[5] Funahashi K. On the Approximate Realization of Continuous Mappings by Neural Networks. Neural Networks, 1989, vol. 2, no. 3, issue 4.
[6] Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей. Сибирский журнал вычислительной математики, 1998, т. 1, № 1, с. 11-24.
[7] Хайкин C. Нейронные сети: Полный курс. 2-е изд., испр. Москва, Виль-ямс, 2008, 1103 с.
[8] Осовский С. Нейронные сети для обработки информации. Москва, Финансы и статистика, 2002, 344 с.
[9] Gorban A., Kegl B., Wunsch D., Zinovyev A. Principal Manifolds for Data Visualisation and Dimension Reduction. Berlin, Heidelberg, New York, Springer, 2007.
[10] Kruger U., Antory D., Hahn J., Irwin G.W., McCullough G. Introduction of a nonlinearity measure for principal component models. Computers&Chemical Engineering, 2005, no. 29 (11), pp. 2355-2362.
[11] Jain A.K., Mao J., Mohiuddin K.M. Artificial Neural Networks: A Tutorial. Computer, 1996, vol. 29, no. 3, pp. 31-44.
[12] Шовин В.А., Гольтяпин В.В. Методы вращения факторных структур. Математические структуры и моделирование, 2015, № 2, с. 75-84.
[13] Гольтяпин В.В., Шовин В.А. Косоугольная факторная модель артериальной гипертензии первой стадии. Вестник Омского университета, 2010, № 4, c. 120-128.
[14] Шовин В.А. Конфирматорная факторная модель артериальной гипертензии. Компьютерные исследования и моделирование, 2012, т. 4, № 4, c. 885-894.
[15] Мартыненко С.И. О построении параллельных многосеточных алгоритмов.
Математическое моделирование и численные методы, 2015, № 2 (6), c. 105-120.
Статья поступила в редакцию 18.05.2016
Ссылку на эту статью просим оформлять следующим образом: Шовин В.А., Гольтяпин В.В. Факторное моделирование с помощью нейронной сети. Математическое моделирование и численные методы, 2016, № 2(10), с. 85-103.
Шовин Владимир Алексеевич — научный сотрудник Омского филиала Федерального государственного бюджетного учреждения науки Института математики им. С.Л. Соболева Сибирского отделения РАН. e-mail: v.shovin@mail.ru
Гольтяпин Виктор Викторович — канд. физ.-мат. наук, доцент, старший научный сотрудник Омского филиала Федерального государственного бюджетного учреждения науки Института математики им. С.Л. Соболева Сибирского отделения РАН. e-mail: goltyapin@mail.ru
Factorial modeling using neural network
© V.A. Shovin, V.V. Goltyapin
Sobolev Institute of Mathematics, Omsk branch, Siberian Branch of the Russian Academy of Sciences, Omsk, 644099, Russia
The paper deals with the factorial modeling of the initial stage arterial hypertension. The modeling was carried out by the factorization method based on the neural network and the back propagation of error algorithm. This factorization method is an alternative to the classical factor analysis. We implemented an algorithm for constructing the factorial structure based on the neural network in software. This method has been improved for the factor rotation and obtaining an interpretable solution. The hypertension factorial structure obtained by this factorization method is in accordance with the results of the factorial modeling by other methods.
Keywords: arterial hypertension, factor analysis, neural networks, back propagation of error.
REFERENCES
[1] Iberla K Faktornyy analiz [Factor analysis]. Transl. from German by V.M. Ivanova; Preface A.M. Dubrov. Moscow, Statistika Publ., 1980.
[2] Gavrilkevich M. Vvedenie v neiromatematiku [Introduction to neuro mathematics]. Obozrenie prikladnoy i promyshlennoy matematiki. Review of applied and industrial mathematics, vol. 1, iss. 3.
[3] Hornik K., Stinchcombe M., White H. Neural Networks, 1989, vol. 2, no. 5, pp. 359-366.
[4] Cybenko G. Mathematics of Control, Signals and Systems, 1989, vol. 2, pp. 303-314.
[5] Funahashi K. Neural Networks, 1989, vol. 2, no. 3, iss. 4.
[6] Gorban A.N. Sibirskiy zhurnal vychislitelnoy matematiki — Siberian Journal of Numerical Mathematics, 1998, vol. 1, no. 1, pp. 11-24.
[7] Haykin S. Neironnye seti: Polnyy kurs [Neural networks: A Comprehensive Foundation]. 2nd ed., corr. Moscow, Vilyams Publ., 2008, 1103 p.
[8] Osovskiy S. Neironnye seti dlya obrabotki informatsii [Neural networks for information processing]. Moscow, Finansy i statistika Publ., 2002, 344 p.
[9] Gorban A., Kegl B., Wunsch D., Zinovyev A., Principal Manifolds for Data Visualisation and Dimension Reduction. Berlin, Heidelberg, New York, Springer, 2007.
[10] Kruger U., Antory D., Hahn J., Irwin G.W., McCullough G. Computers & Chemical Engineering, 2005, no. 29 (11), pp. 2355-2362.
[11] Jain A.K., Mao J., Mohiuddin K.M. Computer, 1996, vol. 29, no. 3, pp. 31-44.
[12] Shovin V.A., Goltyapin V.V. Matematicheskie struktury i modelirovanie — Mathematical Structures and Modeling, 2015, no. 2, pp. 75-84.
[13] Goltyapin V.V., Shovin V.A. Vestnik Omskogo universiteta — Herald of Omsk University, 2010, no. 4, pp. 120-128.
[14] Shovin V.A. Kompyuternye issledovaniya i modelirovanie — Computer Research and Modeling, 2012, vol. 4, no. 4, pp. 885-894.
[15] Martynenko S.I. Matematicheskoe modelirovanie i chislennye metody — Mathematical Modeling and Computational Methods, 2015, no. 2 (6), pp. 105-120.
Shovin V.A., Research Scientist of Sobolev Institute of Mathematics, Omsk branch, Siberian Branch of the Russian Academy of Sciences. e-mail: v.shovin@mail.ru
Goltyapin V.V., Cand. Sci. (Phys. & Math.), Assoc. Professor, Senior Research Scientist of Sobolev Institute of Mathematics, Omsk branch, Siberian Branch of the Russian Academy of Sciences. e-mail: goltyapin@mail.ru