УДК 556.555.6 : 504.064.36
В.С. Валиев, Д.В. Иванов, Р.Р. Хасанов, Д.Е. Шамаев, И.И. Зиганшин,
А.А. Марасов, В.В. Маланин, Э.Е. Паймикина
Институт проблем экологии и недропользования АН РТ, г. Казань, water-rf@mail.ru
ВОЗМОЖНОСТИ НЕЙРОСЕТЕВОГО МОДЕЛИРОВАНИЯ ПРИ ОЦЕНКЕ ВЗАИМОСВЯЗЕЙ ПОКАЗАТЕЛЕЙ СОСТАВА И СВОЙСТВ
ДОННЫХ ОТЛОЖЕНИЙ
На значительном фактическом материале продемонстрирована высокая эффективность ней-росетевых методов при моделировании ряда параметров донных отложений. Используя многопараметрическую задачу нелинейной оптимизации, рассматриваемый подход позволяет прогнозировать изменчивость одних показателей состава и свойств донных отложений под воздействием других. Разработанный и апробированный в результате проведенного эксперимента алгоритм проектирования нейронных сетей с обратным распространением ошибки может быть использован для решения множества прикладных задач, возникающих при исследовании качества среды.
Ключевые слова: донные отложения; гранулометрический состав, органическое вещество; нейросетевой метод.
Введение
Являясь сложной многокомпонентной системой, имеющей важнейшее значение для функционирования водных экосистем, донные отложения водоемов представляют интерес в первую очередь, в роли биогеохимического барьера, регулирующего в водоемах обмен вещества и энергии. Эта роль обусловлена тем, что, являясь хранилищем значительных запасов различных соединений, донные отложения могут при определенных условиях поставлять их обратно в толщу воды. Изучение процессов, протекающих в донных отложениях, их структуры, состава и функциональных взаимосвязей, обеспечивающих динамическое равновесие водных систем, современными методами исследования позволяет формировать значительные массивы данных, включать в оценку состояния водных объектов множество параметров и вплотную приблизиться к построению математических моделей в реальном времени (real-time modeling) (Jahanian, Mok, 1986).
В таких моделях исходные данные о состоянии объекта формируют входной вектор, который часто называют «датчиком событий» (sensor events), а на выходе рассчитываются параметры, отражающие интересующее качественное состояние объекта. Часть этих параметров являются триггерами состояния ряда переменных из исходного набора, являясь с ними функционально взаимосвязанными. Такие выходные данные модели называют «приводом событий» (actuator events). Они используются для регрессивного пересчета
взаимосвязанных с ними переменных, подтверждая смоделированное состояние, либо сигнализируя о необходимости коррекции модели (обучении) (Real-time ..., 1991).
Возможность одномоментного получения большого объема фактических данных, представленных огромным количеством переменных, реализация моделей в реальном времени заставляет искать новые подходы к обработке и структурированию информации. Стандартные статистические решения часто оказываются либо недостаточно робастными к неоднородностям выборок переменных, либо недостаточно точными при оценке нелинейных зависимостей. Весьма актуальной является и проблема мультиколлинеарно-сти факторов.
Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких предикторов, которая может проявляться в функциональной или стохастической форме. Существуют различные приемы выявления мультиколлинеарности и исключения из модели вызывающих ее переменных. Это и поочередное включение (исключение) предикторов в методах пошаговой регрессии, и метод главных компонент, и специальные преобразования рядов данных (Дрейпер, Смит, 2007). Проблема мультиколлинеарности является общей для многих методов корреляционного анализа. Если между предикторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются не
интерпретированными.
Однако следует отметить, что мультиколлине-арность факторов далеко не всегда явна и очевидна, чаще всего она представлена стохастической формой. Корреляционные взаимосвязи между предикторами, особенно при небольших выборках или в определенных диапазонах значений, могут носить случайный характер, а данных для проверки этого не всегда бывает достаточно. В таких случаях регрессионная модель будет ошибочно лишена важного предиктора, а результаты ее расчетов будут неточными, особенно при экстраполяции (Дрейпер, Смит, 2007).
В общем случае, модель множественной линейной регрессии имеет вид:
У, =в + в2X21 +... + РкХк +е>, / = 1,..., п,
где Y - зависимая переменная, в - коэффициенты регрессии, X - независимые переменные, е -случайная составляющая, п - число наблюдений.
Для нахождения оценок параметров используется метод наименьших квадратов (МНК), при этом линия регрессии строится так, чтобы минимизировать квадраты отклонений этой линии от наблюдаемых значений, и предполагается, что связь между переменными является линейной:
х(Y-в-вX2 -...-вкхк)2
На практике это предположение практически никогда не проявляется, подтверждаясь лишь в определенных диапазонах значений предикторов.
Подобных недостатков лишена математическая модель, получившая название нейронная сеть. Свое название она получила потому, что построена по принципу организации и функционирования биологических нейронных сетей и реализует многопараметрическую задачу нелинейной оптимизации.
Базовой структурной единицей нейронной сети является нейрон - простейший математический процессор, определенным образом преобразующий поступающий на его входы сигналы и отправляющий этот преобразованный сигнал на входы других нейронов, а функциональной архитектурой является перцептрон (НеЬЬ, 2002). По сути, перцептрон представляет классический вариант модели в реальном времени, имеющий сенсоры и способность к обучению.
Каждый элемент сети строит взвешенную сумму своих входов с поправкой в виде слагаемого, а затем пропускает эту величину активации через передаточную функцию, и таким образом получается выходное значение этого элемента. Элемен-
ты организованы в послойную топологию с прямой передачей сигнала. Такую сеть легко можно интерпретировать как модель вход-выход, в которой веса и пороговые значения (смещения) являются свободными параметрами модели. Такая сеть может моделировать функцию практически любой степени сложности, причем число слоев и число элементов в каждом слое определяют сложность функции.
Обучение перцептрона включает три стадии: 1) подача на входы обучающих данных; 2) обратное распространение ошибки; 3) корректировка весов ^ашей, 1994).
Активационная функция в алгоритме обратного распространения ошибки должна обладать непрерывностью, дифференцируемостью и являться монотонно неубывающей. Одной из наиболее часто используемых активационных функций является сигмоидальная функция:
OUT =
1
1 + ехр(-аУ)
где а - параметр наклона сигмоиды, изменяя который, можно построить функции с различной крутизной.
Функционирование многослойного пер-цептрона можно представить следующими формулами:
•I'
NETn = у wt]lxt]l
OUTfl = F(NETji - вп) xi](i+1) = OUTtl
где i - номер входа, j - номер нейрона в слое, l - номер слоя, xijl - i-й входной сигнал j-го нейрона в слое l, wijl - весовой коэффициент i-го входа нейрона j, номера слоя l, NETjl - сигнал нейрона j-го номера в слое l.
Главной проблемой, при правильно подобранной топологии и параметров сети, является так называемая проблема общности, которая проявляется в том, что сеть как бы «привыкает» к тому набору данных, по которому учится и возникает ее переобучение. Решением этой проблемы является перекрестная проверка градиентов ошибок между обучающей и контрольной выборками, а также возможность калибровки сети с помощью гребневой регрессии (ridge regression) (Бухарин, Навоев, 2015).
Обращаясь к проблеме оценки состояния донных отложений, следует особо отметить, что одним из основных параметров, дающих возможность судить о механизме процесса седиментации
4
российский журннл ииой экологии
Рис. 1. Топология спроектированной нейросети
0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0
-0,05
"Модель А -Модель В
Наблюдаемые значения
Рис. 2. Сходимость рядов, рассчитанных регрессионными моделями, и наблюдаемых значений ППП, представленных в долях единицы
-Наблюдаемые значения
-Нейросеть
Рис. 3. Сходимость рядов рассчитанных нейросетью и наблюдаемых значений ППП, представленных в долях единицы
и динамике водной среды, является гранулометрический состав седиментов. Он не только предопределяет их структурное состояние, но и оказывает влияние на депонирующую способность в отношении различных веществ, а также на формирование тех или иных окислительно-восстановительных условий самих осадков (Шерышева, Ракитина, Поветкина, 2009).
Другой важной характеристикой донных отложений является содержание органического вещества (ОВ), которое оценивается по содержанию
органического углерода или опосредованно, по потерям при прокаливании образца (ППП, t=550 °С). Учитывая, что диапазон содержания ОВ в минеральных и органических отложениях разнотипных водных объектов достаточно широк и может отличаться на 1-2 порядка, для объективного сравнения получаемых количественных данных, а также с целью классификации седиментов по составу, определение величины ППП имеет широкую исследовательскую практику.
Чаще всего при исследовании донных отложений водных объектов исследователи отмечают наличие корреляционной связи между показателем дисперсности осадка (содержанием частиц определенной размерности) и его органической составляющей. Как правило, более глинистые осадки рек, озер и водохранилищ содержат больше, ОВ, чем, например, песчаные отложения.
На первый взгляд, представляется возможным построить эффективную модель множественной регрессии, в которой в качестве предикторов будут представлены доли фракций гранулометрического состава, а в качестве зависимой переменной - соответствующие значения ОВ (ППП). Однако величины долей разных размерных фракций отложений сами находятся в функциональной зависимости, являясь долями одного целого (100%), соответственно, проявляют мультиколлинеар-ность и использовать их в качестве предикторов в этой модели нельзя. В то же время, линейная взаимосвязь между долями отдельных фракций наблюдается далеко не всегда и может сильно варьировать в разных слоях, а гранулометрический состав как фактор четко проявляется лишь при сопоставлении долей грубо- и тонкодисперсных фракций.
Методика исследования
С целью решения возможных проблем мульти-коллинеарности при оценке гранулометрического состава осадков, а также для апробации и внедрения современных подходов к оценке состояния донных отложений, нами был поставлен вычислительный эксперимент, сутью которого явилась сравнительная оценка точности прогнозирования двух моделей: традиционной линейной модели множественной регрессии и нейросетевой модели (многослойный перцептрон Румельхарта). Обе модели реализуют прогноз значений ППП в зависимости от гранулометрического состава образца донных отложений.
В качестве исходных данных при моделировании использовались количественные данные по составу 615 образцов донных отложений водоемов Республики Татарстан. Выборка данных
была рандомизировано разбита на две группы: первая использовалась для построения (обучения) моделей (565 образцов), а вторая - для оценки их точности (50 образцов).
Модели множественной регрессии были рассчитаны с помощью соответствующего модуля программного комплекса «Statistica 6» (StatSoft Inc.). При этом использовался метод пошагового включения переменных (forward stepwise) - Модель B, результаты которого дополнительно сравнивались со стандартной моделью, включающей все переменные по умолчанию,- Модель A.
Модель нейронной сети реализована в виде отдельной программы, написанной в среде Delphi 10. За основу нейросетевой архитектуры взят многослойный перцептрон Румельхарта (Fausett, 1994), обучение которого осуществлялось методом обратного распространения ошибки (back propagation) (Хайкин, 2006). Топология используемой сети подбиралась эмпирически, по наименьшей ошибке на контрольной выборке (рис. 1). Обучение и контроль сети осуществлялись на разных выборках исходных данных, при этом обучение продолжалось до тех пор, пока отмечалось снижение ошибок сети и на обучающем и на контрольном массиве данных. Для того чтобы избежать переобучения сети, осуществлялось сопоставление градиента ошибок: если ошибка сети на контрольном наборе снижалась, а на обучающем нет, то обучение прерывалось.
Значения долей фракций гранулометрического состава, используемые в качестве предикторов, перед построением моделей были приведены к долям единицы. В результате проведенных расчетов построены три модели прогноза значений ППП: 1) модель A - стандартная модель множественной регрессии с включением 5 фракций (0.25-0.05 мм, 0.05-0.01 мм, 0.01-0.005 мм, 0.0050.001 мм, <0.001 мм); 2) модель B - регрессионная модель с пошаговым включением переменных, в которую вошли 3 фракции: 0.25-0.05 мм, 0.0050.001 мм и <0.001 мм; 3) модель нейронной сети с двумя скрытыми слоями и 11 нейронами, пятью входами и одним выходом.
Результаты и их обсуждение
Регрессионная модель A. Коэффициент корреляции r=0.40; коэффициент детерминации R2=0.16; F-критерий=12.8; уровень значимости p=0.002, стандартная ошибка оценки 0.11.
При проверке модели на контрольной выборке коэффициент корреляции между рассчитанными и наблюдаемыми значениями составил r=0.25, p=0.02.
Члены уравнения Коэффициенты регрессии (B)
Свободный член 0.18
0.25-0.05 мм -0.23
0.05-0.01 мм 0.07
0.01-0.005 мм -0.17
0.005-0.001 мм 0.33
<0.001 мм -0.32
Регрессионная модель B. Коэффициент корреляции г=0.39; коэффициент детерминации Я2=0.16; F-критерий=20.9; уровень значимости р=0.001, стандартная ошибка оценки 0.11.
Члены уравнения Коэффициенты регрессии (B)
Свободный член 0.19
0.25-0.05 мм -0.24
0.005-0.001 мм 0.30
<0.001 мм -0.33
При проверке модели на контрольной выборке коэффициент корреляции между рассчитанными и наблюдаемыми значениями составил г=0.24, р=0.13.
Следует отметить, что сходимость обеих моделей весьма велика, коэффициент корреляции между рассчитанными ими значениями ППП составил г=0.98, р=0.00015.
Соответствие спрогнозированных моделями значений наблюдаемым значениям ППП в контрольной выборке представлено на рисунке 2.
Нейросетевая модель. Использовался 4-слой-ный перцептрон (два скрытых слоя с 11 нейронами; рис. 1). Крутизна сигмоида а=1.0; коэффициент импульса 0.9; скорость обучения 0.01, использовался также добавочный нейрон (сдвиг сети). Локальные минимумы на профиле ошибок обходили перераспределением весовых коэффициентов нейронов. Ошибка нейросети на обучающей выборке не превышала 0.001. Обучение продолжалось до тех пор, пока отмечалось совпадение снижения ошибок сети и на обучающем, и на контрольном массиве данных.
В результате, при оценке с помощью обученной сети контрольной выборки, получен высокий коэффициент корреляции между рассчитанными и наблюдаемыми значениями г=0.71; р=0.0001 (рис. 3). F-критерий Фишера составил 47.0; Я2=0.5. Стандартная ошибка оценки 0.069.
Заключение
Таким образом, полученные результаты свидетельствуют о низкой эффективности линейных моделей множественной регрессии при прогнозе влияния изменчивости гранулометрического
6
российский журнал прииной экологии
состава донных отложений на показатели, которые демонстрируют с ним корреляционную взаимосвязь. Разнонаправленность корреляционных связей разных фракций и мультиколлинеарность приводят к низкой сходимости спрогнозированных значений предиктанта с реально наблюдаемыми, даже при достаточно высоких характеристиках регрессионной модели.
В отличие от линейных регрессионных моделей, нейросетевая модель демонстрирует значительно более высокую эффективность, которая проявляется не только в виде лучшей сходимости рассчитанных и наблюдаемых значений, но и лучшим охватом всего их диапазона, робастностью и, что очень важно для моделей в реальном времени, обучаемостью. Нейронные сети, реализуя многопараметрическую задачу нелинейной оптимизации, позволяют не только решать задачи классификации, но и, как было нами показано, прогнозировать изменчивость одних показателей состава и свойств донных отложений под воздействием других. Разработанный и апробированный в результате проведенного эксперимента алгоритм проектирования нейронных сетей с обратным распространением ошибки может быть использован для построения сетей, позволяющих решать множество других задач.
Список литературы
1. Бухарин С.В., Навоев В.В. Методы теории нейронных сетей в экспертизе технических и экономических объектов: монография. Воронеж: Научная книга, 2015. 274 с.
2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия. М.: Диалектика, 2007. 912 с.
3. Хайкин С. Нейронные сети: полный курс. М.: Ви-
льямс, 2006. 1104 с.
4. Шерышева Н.Г., Ракитина Т.А., Поветкина Л.П. Условия формирования гранулометрического состава иловых отложений на территории национального парка «Самарская лука» // Самарская Лука: проблемы региональной и глобальной экологии. 2009. Т. 18, № 3. С. 104-113.
5. Fausett L.V. Fundamentals of neural networks: architectures, algorithms and applications. Prentice-Hall, 1994. 461 p.
6. Hebb D.O. The Organization of Behavior: A neuropsychological theory. Lawrence Erlbaum Associates, 2002. 335 p.
7. Real-time: theory in practice // REX Workshop / Proceeding. Mook, The Netherlands, 1991. 723 p.
8. Jahanian F., Mok K. Safety analysis of timing properties in real-time systems /// IEEE Transactions of Timing Properties in a real-time systems. 1986. V. 12, № 9. P. 890-904.
V.S. Valiev, D.V. Ivanov, R.R. Khasanov, D.E. Shamaev, I.I. Ziganshin, A.A. Marasov, V.V. Mala-nin, EE. Paimikina. Possibilities of neural network modeling in assessing of the sediments composition and properties relationship.
The significant factual material demonstrated the high efficiency of neural network methods in modeling a number of parameters of sediments. Using the multiparameter problem of nonlinear optimization, this approach allows us to predict the variability of some indicators of the composition and properties of sediments under the influence of others. The algorithm for designing neural networks with back propagation of error, developed and tested as a result of the experiment, can be used to solve many applied problems arising in the study of the quality of the environment.
Keywords: sediments; particle size distribution, organic matter; neural network method.
Информация об авторах
Валиев Всеволод Сергеевич, старший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г Казань, ул. Даурская, 28, E-mail: podrost@mail.ru.
Иванов Дмитрий Владимирович, кандидат биологических наук, зам. директора по научной работе, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: water-rf@mail.ru.
Хасанов Рустам Равилевич, младший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г Казань, ул. Даурская, 28, E-mail: rustamkhasanov88@gmail.com.
Шамаев Денис Евгеньевич, младший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: ds1991n@gmail.com.
Зиганшин Ирек Ильгизарович, кандидат географических наук, доцент, старший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: irek_ziganshin@mail.ru.
Марасов Антон Александрович, младший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: OwlTravolta@yandex.ru.
Маланин Виталий Викторович, научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: wizzle13@yandex.ru.
Паймикина Эльвина Eвгеньевна, младший научный сотрудник, Институт проблем экологии и недропользования АН РТ, 420087, Россия, г. Казань, ул. Даурская, 28, E-mail: elvinapaimikina@yandex.ru.
Information about the authors
Vsevolod S. Valiev, Senior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya st., Kazan, Russia, 420087, E-mail: podrost@mail.ru.
Dmitrii V. Ivanov, Ph.D. in Biology, Deputy Director, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya st., Kazan, Russia, 420087, E-mail: water-rf@mail.ru.
Rustam R. Khasanov, Junior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya St., Kazan, Russia, 420087, E-mail: rustamkhasanov88@gmail.com.
Denis E. Shamaev, Junior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya St., Kazan, Russia, 420087, E-mail: ds1991n@gmail.com.
Irek I. Ziganshin, Ph.D. in Geography, Senior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya st., Kazan, Russia, 420087, E-mail: irek_ziganshin@mail.ru.
Anton A. Marasov, Junior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya St., Kazan, Russia, 420087, E-mail: OwlTravolta@yandex.ru.
Vitalii V. Malanin, Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya st., Kazan, Russia, 420087, E-mail: wizzle13@yandex.ru.
Elvina E. Paymikina, Junior Researcher, Research Institute for Problems of Ecology and Mineral Wealth Use of Tatarstan Academy of Sciences, 28, Daurskaya st., Kazan, Russia, 420087, E-mail: elvinapaimikina@yandex.ru.
8
российский журннл приклиой экологии