Научная статья на тему 'ИССЛЕДОВАНИЕ ПРИМЕНИМОСТИ МОДЕЛЕЙ РАЗЛИЧНОЙ СТРУКТУРЫ ДЛЯ РЕШЕНИЯ ОБРАТНЫХ ЗАДАЧ ОПРЕДЕЛЕНИЯ ПОРОГОВЫХ КОНЦЕНТРАЦИЙ МЕТАЛЛОВ В ПИТЬЕВОЙ ВОДЕ, БЕЗОПАСНЫХ ДЛЯ НАСЕЛЕНИЯ'

ИССЛЕДОВАНИЕ ПРИМЕНИМОСТИ МОДЕЛЕЙ РАЗЛИЧНОЙ СТРУКТУРЫ ДЛЯ РЕШЕНИЯ ОБРАТНЫХ ЗАДАЧ ОПРЕДЕЛЕНИЯ ПОРОГОВЫХ КОНЦЕНТРАЦИЙ МЕТАЛЛОВ В ПИТЬЕВОЙ ВОДЕ, БЕЗОПАСНЫХ ДЛЯ НАСЕЛЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
21
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАТНЫЕ ЗАДАЧИ / ПРЯМЫЕ ЗАДАЧИ / РЕГРЕССИОННЫЕ МОДЕЛИ / НЕЙРОННЫЕ СЕТИ / ОПТИМИЗАЦИЯ / МЕТАЛЛЫ В ПИТЬЕВОЙ ВОДЕ / МЕТАЛЛЫ В КРОВИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Гатин Р.Р., Новикова С.В., Моисеев Г.В.

ЦЕЛЬ. Описываемый в статье материал ставит своей целью изучить сравнительную эффективность различных моделей, в частности, линейных и нелинейных регрессионных, а также нейросетевых, для моделирования и решения обратных задач. В качестве практического примера приводится задача определения максимально допустимого уровня металлов в питьевой воде, безопасного для населения конкретной территории. Для построения прямой задачи в распоряжении исследователей имеется набор экспериментальных данных по содержанию металлов в питьевой воде в сочетании с уровнем соответствующих металлов в крови жителей, проживающих в данной местности. Также данные содержат информацию о физиологических характеристиках обследуемых. Обратная задача строится как задача минимизации квадратичного функционала - разности между искомым и безопасным уровнем металла в крови, где варьируемым параметром выступает уровень металла в воде. В данной статье рассматривается первый этап построения модели, а именно методы для построения прямой зависимости «металл в воде-металл в крови», наиболее пригодные для последующего составления оптимизационной обратной задачи. МЕТОДЫ. Для построения и исследования моделей прямой задачи определения уровня металла в крови применяются методы линейного и нелинейного регрессионного анализа, оптимизации, нейросетевого моделирования, анализа влияющих факторов. Для анализа эффективности полученных моделей применяются методы структурного анализа, теория глобальной оптимизации, численные методы расчетов ошибок моделей. РЕЗУЛЬТАТЫ. Исследования показали, что нейросетевые модели обеспечивают более высокую точность по сравнению с регрессионными. При этом набор входных характеристик для расчетов должен включать, помимо информации о содержании металла в воде и крови, информацию о росте и весе конкретного человека. Наивысшую точность в 94% продемонстрировала сеть типа «многослойный персептрон» с тремя нейронами во входном слое (рост, вес, уровень металла в питьевой воде), одним выходным нейроном (уровень металла в крови) и десятью скрытыми слоями по пять нейронов в каждом. ЗАКЛЮЧЕНИЕ. Структура выделенной модели, являясь, по сути, «черным ящиком», слабо пригодна для последующей формулировки обратной задачи в виде минимизируемого функционала, так как имеет множество локальных аттракторов и не гарантирует нахождение глобального минимума известными численными методами. В качестве направления дальнейших исследований определен способ предварительной кластеризации исходных данных с построением упрощенных моделей в каждом кластере, структурно более пригодных для построения обратной оптимизационной задачи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Гатин Р.Р., Новикова С.В., Моисеев Г.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INVESTIGATION OF THE APPLICABILITY OF MODELS OF VARIOUS STRUCTURES FOR SOLVING INVERSE PROBLEMS OF DETERMINING THRESHOLD CONCENTRATIONS OF METALS IN DRINKING WATER THAT ARE SAFE FOR THE POPULATION

THE PURPOSE. The material described in the article aims to study the comparative effectiveness of various models, in particular, linear and nonlinear regression, as well as neural networks, for modeling and solving inverse problems. As a practical example, the problem of determining the maximum allowable level of metals in drinking water that is safe for the population of a particular territory is given. To build a direct problem, researchers have at their disposal a set of experimental data on the content of metals in drinking water in combination with the level of the corresponding metals in the blood of residents living in a given area. The data also contain information about the physiological characteristics of the subjects. The inverse problem is constructed as a problem of minimizing the quadratic functional - the difference between the desired and safe levels of the metal in the blood, where the variable parameter is the level of the metal in the water. This article discusses the first stage of building a model, namely, methods for constructing a direct relationship "metal in water-metal in blood", which are most suitable for the subsequent compilation of an optimization inverse problem. METHODS. To build and study models of the direct problem of determining the level of metal in the blood, the methods of linear and nonlinear regression analysis, optimization, neural network modeling, and analysis of influencing factors are used. To analyze the efficiency of the obtained models, methods of structural analysis, the theory of global optimization, and numerical methods for calculating model errors are used. RESULTS. Studies have shown that neural network models provide higher accuracy than regression models. At the same time, the set of input characteristics for calculations should include, in addition to information about the metal content in water and blood, information about the height and weight of a particular person. The highest accuracy of 94% was demonstrated by a “multilayer perceptron” network with three neurons in the input layer (height, weight, metal level in drinking water), one output neuron (metal level in the blood) and ten hidden layers of five neurons each. in everyone. CONCLUSION. However, the structure of the selected model, being, in fact, a "black box", is poorly suitable for the subsequent formulation of the inverse problem in the form of a minimized functional, since it has many local attractors and does not guarantee finding the global minimum by known numerical methods. As a direction for further research, a method for preliminary clustering of initial data with the construction of simplified models in each cluster, structurally more suitable for constructing an inverse optimization problem, was determined.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ПРИМЕНИМОСТИ МОДЕЛЕЙ РАЗЛИЧНОЙ СТРУКТУРЫ ДЛЯ РЕШЕНИЯ ОБРАТНЫХ ЗАДАЧ ОПРЕДЕЛЕНИЯ ПОРОГОВЫХ КОНЦЕНТРАЦИЙ МЕТАЛЛОВ В ПИТЬЕВОЙ ВОДЕ, БЕЗОПАСНЫХ ДЛЯ НАСЕЛЕНИЯ»

системный анализ,

управление и обработка информации

УДК 004.032.26

ИССЛЕДОВАНИЕ ПРИМЕНИМОСТИ МОДЕЛЕЙ РАЗЛИЧНОЙ СТРУКТУРЫ ДЛЯ РЕШЕНИЯ ОБРАТНЫХ ЗАДАЧ ОПРЕДЕЛЕНИЯ ПОРОГОВЫХ КОНЦЕНТРАЦИЙ

МЕТАЛЛОВ В ПИТЬЕВОЙ ВОДЕ, БЕЗОПАСНЫХ ДЛЯ НАСЕЛЕНИЯ

Гатин1 Р.Р., Новикова1 С.В., Моисеев2 Г.В.

казанский национальный исследовательский технический университет

им. А.Н. Туполева, г. Казань, Россия 2Финансовый университет при Правительстве Российской Федерации,

г. Москва, Россия

RRGatin@kai. ru

Резюме: ЦЕЛЬ. Описываемый в статье материал ставит своей целью изучить сравнительную эффективность различных моделей, в частности, линейных и нелинейных регрессионных, а также нейросетевых, для моделирования и решения обратных задач. В качестве практического примера приводится задача определения максимально допустимого уровня металлов в питьевой воде, безопасного для населения конкретной территории. Для построения прямой задачи в распоряжении исследователей имеется набор экспериментальных данных по содержанию металлов в питьевой воде в сочетании с уровнем соответствующих металлов в крови жителей, проживающих в данной местности. Также данные содержат информацию о физиологических характеристиках обследуемых. Обратная задача строится как задача минимизации квадратичного функционала - разности между искомым и безопасным уровнем металла в крови, где варьируемым параметром выступает уровень металла в воде. В данной статье рассматривается первый этап построения модели, а именно методы для построения прямой зависимости «металл в воде-металл в крови», наиболее пригодные для последующего составления оптимизационной обратной задачи.

МЕТОДЫ. Для построения и исследования моделей прямой задачи определения уровня металла в крови применяются методы линейного и нелинейного регрессионного анализа, оптимизации, нейросетевого моделирования, анализа влияющих факторов. Для анализа эффективности полученных моделей применяются методы структурного анализа, теория глобальной оптимизации, численные методы расчетов ошибок моделей. РЕЗУЛЬТАТЫ. Исследования показали, что нейросетевые модели обеспечивают более высокую точность по сравнению с регрессионными. При этом набор входных характеристик для расчетов должен включать, помимо информации о содержании металла в воде и крови, информацию о росте и весе конкретного человека. Наивысшую точность в 94% продемонстрировала сеть типа «многослойный персептрон» с тремя нейронами во входном слое (рост, вес, уровень металла в питьевой воде), одним выходным нейроном (уровень металла в крови) и десятью скрытыми слоями по пять нейронов в каждом.

ЗАКЛЮЧЕНИЕ. Структура выделенной модели, являясь, по сути, «черным ящиком», слабо пригодна для последующей формулировки обратной задачи в виде минимизируемого функционала, так как имеет множество локальных аттракторов и не гарантирует нахождение глобального минимума известными численными методами. В качестве направления дальнейших исследований определен способ предварительной кластеризации исходных данных с построением упрощенных моделей в каждом кластере, структурно более пригодных для построения обратной оптимизационной задачи.

Ключевые слова: обратные задачи, прямые задачи, регрессионные модели, нейронные сети, оптимизация, металлы в питьевой воде, металлы в крови.

Для цитирования: Гатин Р.Р., Новикова С.В., Моисеев Г.В. Исследование применимости моделей различной структуры для решения обратных задач определения пороговых

концентраций металлов в питьевой воде, безопасных для населения // Вестник Казанского государственного энергетического университета. 2022. Т. 14. №2 (54). С. 71-81.

INVESTIGATION OF THE APPLICABILITY OF MODELS OF VARIOUS STRUCTURES FOR SOLVING INVERSE PROBLEMS OF DETERMINING THRESHOLD CONCENTRATIONS OF METALS IN DRINKING WATER THAT ARE

SAFE FOR THE POPULATION

RR. Gatin1, SV. Novikova1, GV. Moiseev2

1Kazan National Research Technical University named after A.N. Tupolev, Kazan, Russia 2Financial University under the Government of the Russian Federation,

Moscow, Russia

RRGatin@kai.ru

Abstract: THE PURPOSE. The material described in the article aims to study the comparative effectiveness of various models, in particular, linear and nonlinear regression, as well as neural networks, for modeling and solving inverse problems. As a practical example, the problem of determining the maximum allowable level of metals in drinking water that is safe for the population of a particular territory is given. To build a direct problem, researchers have at their disposal a set of experimental data on the content of metals in drinking water in combination with the level of the corresponding metals in the blood of residents living in a given area. The data also contain information about the physiological characteristics of the subjects. The inverse problem is constructed as a problem of minimizing the quadratic functional - the difference between the desired and safe levels of the metal in the blood, where the variable parameter is the level of the metal in the water. This article discusses the first stage of building a model, namely, methods for constructing a direct relationship "metal in water-metal in blood", which are most suitable for the subsequent compilation of an optimization inverse problem.

METHODS. To build and study models of the direct problem of determining the level of metal in the blood, the methods of linear and nonlinear regression analysis, optimization, neural network modeling, and analysis of influencing factors are used. To analyze the efficiency of the obtained models, methods of structural analysis, the theory of global optimization, and numerical methods for calculating model errors are used.

RESULTS. Studies have shown that neural network models provide higher accuracy than regression models. At the same time, the set of input characteristics for calculations should include, in addition to information about the metal content in water and blood, information about the height and weight of a particular person. The highest accuracy of 94% was demonstrated by a "multilayer perceptron " network with three neurons in the input layer (height, weight, metal level in drinking water), one output neuron (metal level in the blood) and ten hidden layers of five neurons each. in everyone.

CONCLUSION. However, the structure of the selected model, being, in fact, a "black box", is poorly suitable for the subsequent formulation of the inverse problem in the form of a minimized functional, since it has many local attractors and does not guarantee finding the global minimum by known numerical methods. As a direction for further research, a method for preliminary clustering of initial data with the construction of simplified models in each cluster, structurally more suitable for constructing an inverse optimization problem, was determined.

Keywords: inverse problems, direct problems, regression models, neural networks, optimization, metals in drinking water, metals in blood

For citation: Gatin RR., Novikova SV., Moiseev GV. Investigation of the applicability of models of various structures for solving inverse problems of determining threshold concentrations of metals in drinking water that are safe for the population. KAZAN STATE POWER ENGINEERING UNIVERSITY BULLETIN. 2022;14;2(54):71-81.

Введение

Вопросы безопасности окружающей среды в контексте сохранения здоровья человека является одной из ключевых задач современной России [1-2]. Для урбанизированной территории с развитой тяжелой и нефтедобывающей промышленностью, каковой является Республика Татарстан, характерно комплексное полиметаллическое загрязнение, в первую очередь почвы и воды [3-4]. Основной мерой защиты от

неблагоприятного воздействия окружающей среды для подобных территорий становится ограничение поступления токсических веществ в организм человека с пищей, питьевой водой и вдыхаемым атмосферным воздухом.

Согласно литературе [5-8] основным фактором поступления в организм металлов является питьевая вода. Несмотря на то, что существуют специально разработанные нормы содержания металлов в воде [9], теоретически гарантирующие отсутствие токсического эффекта, - предельно допустимые концентрации, или ПДК, - в реальных условиях и для каждой конкретной территории данное значение может существенно отличаться от норматива [10-12]. Это связано с эффектом накопления металлов в организме при общей «нагруженности» локального участка металлическими загрязнениями, специфическим влиянием сочетаний токсических веществ, поступающих в организм, и другими трудноформализуемыми факторами, определяющими особенность восприимчивости населения к металлическому загрязнению на данной территории.

Поэтому для регионов с высокой степенью промышленной нагрузки на окружающую среду целесообразно корректировать имеющиеся нормативы ПДК исходя из реальных данных содержания токсических металлов в организме местного населения.

Таким образом, становится актуальной задача разработки способа расчета рекомендуемой предельной концентрации металлов в питьевой воде конкретного региона исходя из особенностей ответа организма людей, населяющих данную местность. Наиболее информативным в этом случае является уровень содержания металла в крови, так как, во-первых кровь достаточно быстро реагирует на поступление металлов в организм, а во-вторых получение данных из анализа крови является относительно простой процедурой.

Материалы и методы

В качестве исходных данных рассматриваются данные экспериментальных замеров уровня металлов в питьевой воде по различным районам г. Казани с одновременным определением у лиц, проживающих в данном районе, уровня тех же металлов в сыворотке крови. Проводится анализ состава факторов, в наибольшей степени влияющих на содержание металлов в крови.

Исходные данные для исследования

На основании изучения литературы [13-14], были выявлены основные факторы, влияющие на уровень металла в крови здорового человека:

1. Количество металла, потребляемого с питьевой водой (МкГ/л)

2. Возраст (лет)

3. Рост (см)

4. Вес (кг)

Основным параметром, определяющим степень благополучия каждого индивидуума в плане металлического загрязнения организма, предложено использовать нормативы [15], регламентирующие безопасные уровни металлов в крови по возрастным группам. Например, для цинка применимы следующие нормы содержания:

• 0 - 1 Лет: 0,65 мкг/л (условная группа «младенцы»)

• 1-9 Лет: 0,85 мкг/л (условная группа «дети»)

• 9-14 Лет: 0,98 мкг/л (условная группа «подростки»)

• 14 и старше: 1,1 мкг/л (условная группа «взрослые»)

Для каждой возрастной группы необходимо разработать метод расчета уровня концентрации металла в питьевой воде так, чтобы при этом не был превышен норматив [15-16].

Разрабатываемый метод будет опираться непосредственно на экспериментальные данные следующей структуры:

• Возраст (а1)

• Рост (а2)

• Вес (а3)

• Металл в воде (результаты анализа) (а4)

• Металл в крови (результаты анализа) (а5)

• Металл в крови (норматив) (а6)

Перечисленные данные были получены экспериментальным путем у 393 человек по таким металлам, как: цинк (2п), хром (Сг), железо ^е), стронций ^г), медь (Си) и свинец

Результаты занесены в таблицы в виде обезличенных кортежей с идентификационными номерами.

Постановка задачи

Так как с физической точки зрения имеется прямая зависимость между уровнем металла в потребляемой питьевой воде и уровнем металла в крови, а не наоборот, целесообразно сначала сформулировать прямую модель вида:

/(аь аа аз, &) = аз (1)

А затем решить обратную задачу определения допустимого уровня металла в воде:

р(/, а&)= а4 (2)

Прямая зависимость вида (1) представляет собой непрерывную аппроксимацию таблично заданной функции, описанной в разделе «Исходные данные». Обратную задачу (2) можно рассматривать как оптимизационную задачу вида:

а = а^шт(/ (а, а, а, а)_ а )2 (3)

Построение прямой модели вида (1) является нетривиальной задачей, так как аппроксимирующая функция / должна, кроме стандартных условий достаточной точности, быть максимально «пригодной» для решения обратной задачи вида (3), например, обладать условием Липшицевости [17].

Задачей данной работы является сравнительное исследование методов построения прямой аппроксимирующей модели вида (1) по имеющимся наборам экспериментальных данных заданной структуры.

Для упрощения моделирования используется свертка двух параметров - веса и роста человека - в единый параметр «площадь поверхности тела», вычисляемый по формуле [18]:

С1 =

тела

вес ■ рост 3600

Корреляционный анализ выявил независимость уровней содержания металлов в крови человека между собой. Поэтому было принято решение строить отдельные модели для каждого металла. Также возраст человека сильно коррелирует с площадью поверхности тела, и может быть исключен из модели как зависимый фактор.

Таким образом, в качестве входных и выходных параметров прямой модели вида (1) были выделены:

Входные параметры:

• х1 - уровень металла в питьевой воде (мкг/л),

• х2 - площадь поверхности тела человека (м2)

Выходной параметр:

• у - уровень металла в крови (мкг/л),

Требуется построить несколькими способами зависимость вида:

/(.Х1,-Х2)=у (4)

по имеющейся таблице данных (табл. 1) (на примере цинка, данные нормированы):

Таблица 1

Экспериментальные данные по содержанию цинка (фрагмент)

Содержание металла (7и) Площадь тела (Х1) Zn в воде Zn в крови

№ п/п (х2) (У)

1 0,6896 0,023 0,959

2 0,7987 0,023 0,959

3 0,8768 0,018 0,959

393 0,8770 0,019 0,771

Сравнительный анализ разрабатываемых моделей проводился по точности (разница модельных и экспериментальных значений в узлах - данных из таблицы 1) и адекватности (способность модели к обобщению данных в точках, не совпадающих с узлами). Также учитывалась степень сложности применения моделей для последующего решения оптимизационной задачи вида (3) (качественная оценка).

Результаты

Для проведения исследования были разработаны модели двух типов: на основе регрессионного подхода, и на основе нейросетевого подхода. Для каждого из двух подходов было построено несколько моделей с последующим выбором оптимальной в смысле минимума функции квадратичной ошибки со стандартным численным расчетом. Анализ и сравнение моделей проводились не только по достигнутой точности, но и по структуре

модели, так как модель должна быть применима для последующего определения ее глобальных экстремумов.

Регрессионный подход

Построение регрессионной модели (4) классическим методом наименьших квадратов [19] является стандартным подходом для решения поставленной задачи. Преимуществом такого подхода в свете общей задачи нахождения функции, пригодной в последующем для оптимизации (3), является возможность заранее выбрать такую функцию регрессии, которая обладала бы требуемыми свойствами, например, выпуклости, липшицевости либо даже унимодальности. Для оценки точности регрессионных моделей используется среднеквадратичная ошибка, выраженная в процентах. Для оценки адекватности - коэффициент детерминации. Моделирование реализовано в пакете Origin Pro версии 8.0.

Было построено шесть множественных регрессионных полиномиальных зависимостей со степенью полинома от 1 до 6. Эксперименты показали, что увеличение степени полинома практически не сказывается на точности модели. Так, линейная модель:

y = 0,652 + 0,035^+2,652x (5)

показала точность 24% с коэффициентом детерминации R2=0,01248.

Для квадратичной модели:

y= 0,373 + 0,538x - 0,19^!2 - 1,23-х2 + 76,19bx22 (6)

те же характеристики составили 23,6% и R2=0,01691 соответственно. Тот же порядок точности и значения R2 получен и для зависимостей более высоких степеней. Максимальное значение коэффициента детерминации R2=0,05164 получено для модели шестой степени, при этом разница с данным показателем у модели пятого порядка (R2=0,05060) составляет менее 0,1%.

На основании полученных результатов можно сделать вывод, что дальнейшее увеличение степени аппроксимирующего полинома не приводит к значимому увеличению точности. Все полученные характеристики регрессионных моделей признаны, таким образом, неудовлетворительными.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для увеличения точности было принято решение исследовать возможности нейросетевого моделирования для построения функции (4).

Нейросетевой подход

Нейросетевой подход к решению задачи аппроксимации функций в настоящее время широко распространен, что обусловлено как широкими возможностями самих нейронных сетей, так и наличием множества инструментов для их программной реализации [20-23]

Было построено и исследовано три нейронные сети с парадигмой MLP различной архитектуры. Анализ осуществлялся путем исследования средней квадратической ошибки аппроксимации на тестовом множестве. Объем тестового множества составлял 10% от всех имеющихся кортежей данных. Моделирование реализовано в пакете Deductor Academic версии 4.0.

Для обучения нейронной сети вектора обучающего и валидационного множества подавались на вход модели в случайном порядке, реализованном при помощи генератора Галуа. Использование данного генератора позволило исключить повторяющиеся элементы из списка случайных чисел, необходимых для перемешивания входных элементов сети [2425].

Исследована тенденция изменения погрешности нейросетевой модели в зависимости от количества скрытых слоев и нейронов в них:

• архитектура №1: два входных нейрона (значения x1 и x2), три скрытых слоя, один выходной нейрон (значение y),

• архитектура №2: два входных нейрона, пять скрытых слоев, один выходной нейрон,

• архитектура №3: два входных нейрона, десять скрытых слоев, один выходной нейрон.

Выбор количества скрытых слоев обусловлен предположением о количестве последовательных этапов усвоения металлов из питьевой воды организмом. В литературе можно встретить описание усвоения металлов как 3-хэтапный (начальный захват в кишечнике, внутриклеточный транспорт, освобождение из слизистой оболочки кишечника в кровь) [26] и 5-тиэтапный (всасывание в кишечнике, транспорт в организме, депонирование, утилизация и экскреция) [27] процесс. Архитектура с десятью скрытыми слоями приведена в исследовании как заведомо избыточная, в качестве модели

произвольного числа этапов процесса усвоения металла в организме. Количество нейронов

в скрытых слоях варьировалось от трех до десяти в каждой из трех архитектур (рис. 1).

Рис. 1. Пример строения нейронной сети для Fig. 1. An example of the structure of a neural архитектуры №3 network for architecture No. 3

Обучение с параллельной проверкой точности для тестового множества проводилось для каждой сети в течение 100, 500 и 100 эпох.

Значения точности аппроксимации сетей различной архитектуры с числом эпох обучения, равным 500, приведены в табл. 2.

Таблица 2

Точность нейросетевых моделей в зависимости от архитектуры на тестовом множестве

——К-во нейронов в скрытом слое

3 5 10

К-во скрытых слоев ——____

3 74% 74% 84%

5 71% 66% 74%

10 66% 69% 53%

Таким образом, при равном количестве эпох обучения наилучший результат показали сети с архитектурой (3-10), (5-10) и (10-5). Исследование зависимости точности от количества эпох обучения далее проводилось для трех отобранных структур (табл.3).

Таблица 3

Точность нейросетевых моделей в зависимости от числа эпох обучения на тестовом

множестве

Количество эпох

100 500 1000

Архитектура сети ^—__

(3-10) 58% 84% 71%

(5-10) 79% 74% 71%

(10-5) 64% 69% 71%

В результате как наиболее адекватная отобрана нейросетевая модель с тремя скрытыми слоями, с десятью нейронами в каждом, обучающаяся на экспериментальных данных в течение 500 эпох.

Нейросетевой подход на расширенном наборе данных

Точность отобранной как наиболее адекватная нейросетевой модели, хотя и значительно превосходит регрессионный подход (84% против 24%), все же недостаточна для однозначной рекомендации ее в качестве прямой модели для решения поставленной задачи (2-4).

При выбранном способе представления исходных данных, где три таких параметра, как «возраст», «вес» и «рост» представлены одним параметром-сверткой «площадь тела», значение выходного параметра «металл в крови» становится неоднозначным и хаотичным, что наглядно показывает рисунок 2.

Весьма вероятно, что при увеличении размерности пространства входных признаков зависимость металла в крови от входных параметров будет выражена более четко.

Рис. 2. Представление выходного параметра «Цинк в крови» над двумерным пространством входных параметров «Площадь тела» - «Цинк в воде»

Fig. 2. Representation of the output parameter "Zinc in the blood" over the two—dimensional space of the input parameters "Body surface area" - "Zinc in water"

Поэтому для увеличения точности аппроксимирующей нейросетевой модели было принято решение расширить количество входных параметров сети до трех, отказавшись от свертки пары «вес-рост» в одно значение. Таким образом, входными и выходными параметрами модели являются:

Входные параметры:

• xi - уровень металла в питьевой воде (мкг/л),

• х2 - рост человека (м)

• х2 - вес человека (кг)

Выходной параметр:

• у - уровень металла в крови (мкг/л),

Для расширенного набора данных также было построено три базовых архитектуры нейромодели:

• архитектура №1: три входных нейрона, три скрытых слоя, один выходной нейрон,

• архитектура №2: три входных нейрона, пять скрытых слоев, один выходной нейрон,

• архитектура №3: три входных нейрона, десять скрытых слоев, один выходной нейрон.

Количество нейронов в скрытых слоях вновь варьировалось от трех до десяти в каждой из трех архитектур.

Так же, как и для первоначального нейросетевого подхода, была проведена серия экспериментов по варьированию количества слоев, нейронов в скрытых слоях и количеству эпох обучения. В результате при фиксированном количестве эпох обучения (равным 500), оптимальными с точки зрения точности на тестовом множестве, оказались:

• для трех скрытых слоев - с десятью нейронами в каждом слое (архитектура (3-10),

точность 89%),

• для пяти скрытых слоев - с пятью нейронами в каждом слое (архитектура (5-5),

точность 89%),

• для десяти скрытых слоев - с пятью нейронами в каждом слое (архитектура (10-5),

точность 94%).

Последняя из указанных нейронных сетей показала также наилучший по точности результат при варьировании количества эпох обучения. Таким образом, за счет увеличения размерности вектора входных данных удалось повысить точность нейросетевой аппроксимирующей модели до 94%.

Заключение

В результате проведённых вычислительных экспериментов можно сделать однозначный вывод о предпочтительности нейросетевых моделей перед регрессионными в задаче построения прямой аппроксимирующей зависимости вида (1). При этом в качестве входных параметров целесообразно использовать тройку «рост- вес- концентрация металла в питьевой воде». Наивысшую точность в 94% при этом продемонстрировала сеть MLP с десятью скрытыми слоями по пять нейронов в каждом. Использование нейросетевых моделей данной структуры, в отличие от методов, предложенных в [3], позволяет снизить

ошибки расчетов, а также получить данные об уровне металлов в крови, в отличие от [4-7], без непосредственного исследования биоматериала

В отличие от [10-12], определение порогового уровня металла в питьевой воде, безопасного для человека, предлагается определять решением обратной задачи вида (3). В практическом плане нейросетевая модель слабо пригодна для решения обратной задачи вида (3): оптимизационная проблема вида (3) с нейросетевым представлением прямой аппроксимирующей функции f не будет допускать аналитического решения, а при использовании численных методов сходимость к глобальному минимуму в итерационном процессе оптимизации не гарантирована. В случае непрерывных функций активации нейронов, типа гиперболического тангенса или сигмоиды, можно применять методы, основанные на е-липшицевости [28], так как в таком случае минимизируемый функционал F является непрерывным [29]. Однако такие алгоритмы довольно сложны в вычислительном плане, и их практическое использование для подобных задач ограничивается всего несколькими примерами из литературы.

В качестве альтернативы можно предложить использовать методы поэтапной предварительной обработки данных, в частности, методы группировок или кластеризации, что теоретически позволит строить отдельные модели упрощенного вида не для всего множества обучающих примеров, а для некоего упорядоченного подмножества, допускающего аппроксимацию функций с заданными свойствами и с достаточной степенью точности и адекватности. Примером таких моделей может являться метод .K-ближайших соседей и метод адаптивно-резонансной теории.

Указанный подход может служить в качестве направления дальнейших исследований по определению допустимых уровней металлов в питьевой воде, безопасных для здоровья все возрастных групп населения.

Литература

1. Статья 42 «Право на благоприятную окружающую среду», Конституция Российской Федерации [Электронный ресурс]: принята всенародным голосование 12 декабря 1993 года. : (с учетом поправок, внесенных Законами Российской Федерации о поправках к Конституции Российской Федерации от 30.12.2008 N 6-ФКЗ, от 30.12.2008 N 7-ФКЗ, от 05.02.2014 N 2-ФКЗ, от 21.07.2014 N 11-ФКЗ30 декабря 2008 № 6-ФКЗ и № 8 -ФКЗ), // СПС «Консультант плюс». Режим доступа: http://www.consultant.ru/

2. Федеральный закон от 10 января 2002 года № 7-ФЗ «Об охране окружающей среды» //СПС «Консультант плюс». Режим доступа: http://www.consultant.ru/

3. Тунакова Ю.А., Новикова С.В., Шагидуллин А.Р., и др. Расчет пороговых концентраций металлов в почвах и снежном покрове на основе их региональных референсных значений в биосредах человека // Российский журнал прикладной экологии. 2019. № 3 (19). С. 56-60.

4. Новикова С.В., Тунакова Ю.А., Габдрахманова Г.Н., Кузнецова О.Н. Кластерный анализ данных для интегральной характеристики безопасности питьевых вод для потребителей на территории г.Казани // Министерство образования и науки РФ. Казань. Вестник Казанского технологического университета. 2016. Т.19. №19. С.164-167

5. Горбунов А.В., Ляпунов С.М., Окина О.И., Серегина И.Ф. Роль питьевой воды в обеспечении организма человека микроэлементами // Экология человека. 2012. Т. 19. №2. C. 3-8. doi: 10.33396/1728-0869-2012-2-3-8

6. Tunakova Y.A., Novikova S.V., Ivanov D.V., et al. Approaches for establishing threshold concentrations of priority pollutants in urban ecosystem components // Theoretical and Applied Ecology, 2020, 2020(3). с. 23-28.

7. Тунакова Ю.А., Файзуллин Р.И., Валиев В.С. Новикова С.В. Моделирование процессов формирования микроэлементного статуса организма детей с учетом водного пути поступления // Министерство образования и науки РФ. Казань. Вестник Казанского технологического университета. 2014, Т.17,№16. С.145-147.

8. Новикова С.В., Файзуллин Р.И., Габдрахманова Г.Н. Разработка интегрального показателя, характеризующего безопасность питьевых вод для потребителей Сборник научных трудов молодых ученых (по материалам II Республиканской молодежной экологической научной конференции, г. Казань, 7-8 апреля 2016 г.). Казань: Издательство Академии наук Республики Татарстан. 2016. С. 58-65.

9. Федеральный закон Российской Федерации «О санитарно-эпидемиологическом благополучии населения» № 52-ФЗ от 30 марта 1999 г. // СПС «Консультант плюс». Режим доступа: http://www.consultant.ru/

10. Соромотин А.В., Кудрявцев А.А., Ефимова А.А., Гертер О.В., Фефилов Н.Н. Фоновое содержание тяжелых металлов в воде малых рек Надым-Пуровского междуречья // Геоэкология. Инженерная геология. Гидрогеология. Геокриология. 2019. №2. C. 48-55. doi: 10.31857/S0869-78092019248-55

11. Тулемисова Г.Б., Амангосова А.Г., Абдинов Р.Ш. Исследование содержание тяжелых металлов в воде водоемов Урало-Каспийского бассейна. Северо-восточный Каспий // Международный журнал прикладных и фундаментальных исследований. 2015. № 12-10. С. 1900-1903.

12. Липунова Е.А., Оценка и нормирование качества природных вод: критерии, методы, существующие проблемы: сост. О.В. Гагарина. Ижевск: Издательство: Удмуртский университет. 2012. 199 с.

13. Липунова Е.А., Скоркина М.Ю. Физиология крови: моногр. исслед. Белгород: Изд-во БелГУ, 2007. 324 с.

14. Tunakova Y.A., Novikova S.V., Gabdrakhmanova G.N., et al. Integral assessment of safety of potable waters in a finishing point of consumption. 10th International Conference Environmental Engineering Vilnius Gediminas Technical University Lithuania, 27-28 April 2017, doi: https://doi.org/10.3846/enviro.2017.056.

15. Tunakova Yu.A., Novikova S.V., Baibakova E.V., et al. Methodology for determining regional thresholds for the calculation of standards for the permissible discharge of liquid industrial waste into surface waters. Theoretical and Applied Ecology, 2021(4), с. 28-33 doi: 10.25750/1995-4301-2021-4-028-033.

16. Тиц Н.У. Энциклопедия клинических лабораторных тестов. М.: Лабинформ, 1997.

960с.

17. Мальцев С.В., Зигангареева Г.Г., Валиев В.С. Региональные различия содержания микроэлементов в биосредах подростков // Современные проблемы геохимической экологии болезней. Чебоксары. 2001. С. 71.

18. Заботин В.И., Чернышевский П.А. Алгоритм вычисления минимальной оценки постоянной Липшица непрерывной функции // Вестник КГТУ им. А.Н. Туполева. 2018. № 2. С. 127-132.

19. DuBois D and DuBois DF. A Formula to Estimate Surface Area if Height and Weight Be Known. Arch In Med, 1916. Т.17. С. 63-71.

20. Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений. М.: Физматгиз, 1958. 334 с.

21. Катасёв А.С., Катасёва Д.В. Нейросетевая модель распознавания рукописных символов для построения систем биометрической аутентификации // Вестник Казанского государственного энергетического университета. 2016. № 2 (30). С. 52-65.

22. Ширшова Д.В., Долгов Д.В., Гатин Р.Р., и др. Свидетельство № 2019661476 о государственной регистрации программы для ЭВМ. Нечеткая Система Мамдани для распознавания небинарных образов. Зарег. в Реестре программ для ЭВМ 02.09.2019.

23. Ширшова Д.В., Гатин Р.Р., Бикмухаметов Р.Р., Баязитова А.Э. Программа для ЭВМ номер 2019619391 от 2019 года. Нейронная сеть Хопфилда для распознавания закодированных небинарных образов.

24. Ширшова Д.В., Гатин Р.Р., Бикмухаметов Р.Р., Баязитова А.Э. Программа для ЭВМ номер 2019619393 от 2019. Нейронная сеть Хэмминга для распознавания закодированных небинарных образов.

25. Pesoshin V.A., Kuznetsov V.M., Shirshova D.V. Generators of the equiprobable pseudorandom nonmaximal-length sequences based on linear-feedback shift registers / V.M. Kuznetsov, D.V. Shirshova //Automation and remote control. 2016. V. 77. No 9. pp. 1622-1632.

26. Аникин И.В., Альнаджар Х.Х. Выбор примитивных полиномов для генератора псевдослучайных чисел, основанного на нечеткой логике // Вестник КГЭУ. 2016. №2 (30).

27. Колосова Н.Г., Баяндина Г.Н.,.Машукова Н.Г., Геппе Н.А. Обмен железа в организме и пути коррекции его нарушений [Электронный ресурс]: Трудный пациент, 2011, №8-9. URL: https://t-pacient.ru/articles/6701/

28. Третьякова О.С. Обмен железа в организме человека и его особенности у детей // Детский врач, № 2 (23)' 2013 стр. 50-55.

29. Vanderbei R.J. Extension of Piyavskii's Algorithm to Continuous Global Optimization // Journal of Global Optimization. 1999. V. 14. Pp. 205-216.

30. Заботин В.И., Чернышевский П.А. Две модификации обобщенного метода Пиявского поиска глобального минимума непрерывной на отрезке функции и их сходимость // Вестник Тверского государственного университета. Серия: Прикладная математика. 2021. № 3. С. 70-85.

Авторы публикации:

Р.Р. Гатин - аспирант, Казанского национального исследовательского технического универ-ситета им. А.Н. Туполева - КАИ (КНИТУ-КАИ). E-mail: RRGatin@kai.ru.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С.В. Новикова - д.т.н.; профессор кафедры прикладной математики и информатики Казанского национального исследовательского технического университета им. А.Н. Туполева - КАИ (КНИТУ-КАИ). e-mail: SVNovikova@kai.ru.

Г.В. Моисеев - к.т.н., доцент, доцент департамента анализа данных и машинного обучения, Финансовый университет при Правительстве РФ, e-mail: GVMoiseev@fa.ru.

References

1. Article 42 «The right to the environment», the Constitution of the Russian Federation [Electronic resource]: adopted by popular vote on December 12, 1993.: (taking into account the amendments made by the Laws of the Russian Federation on amendments to the Constitution of the Russian Federation of December 30, 2008 N 6-FKZ, of December 30, 2008 N 7-FKZ, of February 5, 2014 N 2-FKZ, of July 21, 2014 N 11- FKZ December 30, 2008 No. 6-FKZ and No. 8 - FKZ), ATP «Consultant Plus». Access mode: http://www.consultant.ru/

2. Federal Law of January 10, 2002 No. 7-FZ On Environmental Protection. ATP «Consultant Plus». Access mode: http ://www. consultant.ru/

3. Tunakova YuA, Novikova SV, Shagidullin AR, et al. Calculation of threshold concentrations of metals in soils and snow cover based on their regional reference values in human bioenvironments. Russian Journal of Applied Ecology. 2019;3 (19):56-60.

4. Novikova SV, Tunakova YuA, Gabdrakhmanova GN, et al. Cluster analysis of data for the integral characteristics of the safety of drinking water for consumers in the city of Kazan. Ministry of Education and Science of the Russian Federation. Kazan. Bulletin of the Kazan Technological University. 2016;19:164-167.

5. Gorbunov AV, Lyapunov SM, Okina OI, et al.The role of drinking water in providing the human body with microelements. Human Ecology. 2012;19(2):3-8. doi: 10.33396/1728-08692012-2-3-8.

6. Tunakova YA, Novikova SV, Ivanov DV, et al. Approaches for establishing threshold concentrations of priority pollutants in urban ecosystem components. Theoretical and Applied Ecology. 2020(3):23-28.

7. Tunakova YuA, Faizullin RI, Valiev VS. Novikova S.V. Modeling the processes of formation of the microelement status of the organism of children, taking into account the waterway of entry. Ministry of Education and Science of the Russian Federation. Kazan. Bulletin of the Kazan Technological University. 2014;17(16):145-147.

8. Novikova SV, Faizullin RI, Gabdrakhmanova GN. Development of an integral indicator characterizing the safety of drinking water for consumers. Collection of scientific papers of young scientists (based on the materials of the II Republican Youth Ecological Scientific Conference, Kazan, April 7-8, 2016). Kazan: Publishing House of the Academy of Sciences of the Republic of Tatarstan, 2016. P. 58-65.

9. Federal Law of the Russian Federation On the sanitary and epidemiological well-being of the population. No. 52-FZ of March 30, 1999. ATP «Consultant Plus». Access mode: http://www.consultant.ru/

10. Soromotin AV, Kudryavtsev AA, Efimova AA, et al. Background content of heavy metals in the water of small rivers of the Nadym-Purovsky interfluve. Geoecology. Engineering geology. Hydrogeology. Geocryology. 2019;2:48-55. doi:10.31857/S0869-78092019248-55.

11. Tulemisova GB, Amangosova AG, Abdinov RSh. Study of the content of heavy metals in the water of the reservoirs of the Ural-Caspian basin. North-Eastern Caspian. International Journal of Applied and Fundamental Research. 2015;12-10:1900-1903.

12. Gagarin O.V. Assessment and regulation of the quality of natural waters: criteria, methods, existing problems: Educational and methodological manual. Izhevsk: Udmurt University Publishing House. 2012. 199 p.

13. Lipunova EA. Physiology of blood: monograph. Research. Belgorod: Publishing House of BelSU, 2007. 24 p.

14. Tunakova YA, Novikova SV, Gabdrakhmanova GN, et al. Integral assessment of safety of potable waters in a finishing point of consumption. 10th International Conference „Environmental Engineering Vilnius Gediminas Technical University Lithuania, 27-28 April 2017, doi: https://doi.org/10.3846/enviro.2017.056.

15. Tunakova YuA, Novikova SV, Baibakova EV, et al. Methodology for determining regional thresholds for the calculation of standards for the permissible discharge of liquid industrial waste into surface waters. Theoretical and Applied Ecology, 2021(4):28-33. doi: 10.25750/1995-4301-2021-4-028-033.

16. N. Titz Encyclopedia of Clinical Laboratory Tests. M.: Labinform, 1997. 960 P.

17. Maltsev SV, Zigangareeva GG, Valiev VS. Regional differences in the content of microelements in the bioenvironments of adolescents. Modern problems of geochemical ecology of diseases. Cheboksary. 2001, p. 71.

18. Zabotin VI, Chernyshevsky PA. Algorithm for calculating the minimum estimate of the Lipschitz constant of a continuous function. Vestnik KSTU im. A.N. Tupolev. 2018;2:127-132.

19. DuBois D and DuBois DF. A Formula to Estimate Surface Area if Height and Weight Be Known. Arch In Med, 1916;17:863-71.

20. Linnik YuV. The method of least squares and the foundations of the mathematical-statistical theory of observation processing. M.: Fizmatgiz, 1958. 334 p.

21. Katasev AS, Kataseva DV. Neural network model of handwriting recognition for building biometric authentication systems. Bulletin of the Kazan State Energy University. 2016. No. 2 (30):52-65.

22. . Shirshova V, Dolgov DV, Gatin RR. Certificate No. 2019661476 on state registration of the computer program. Fuzzy Mamdani system for recognition of non-binary patterns. Register of computer programs on 09/02/2019.

23. Shirshova DV, Gatin RR, Bikmukhametov RR, Bayazitova AE. Computer program number 2019619391 from 2019. Hopfield neural network for recognition of encoded non-binary patterns.

24. Shirshova DV, Gatin RR, Bikmukhametov RR., Bayazitova AE. Computer program number 2019619393 dated 2019. Hamming neural network for recognition of encoded non-binary patterns.

25. Pesoshin VA, Kuznetsov VM., Shirshova DV. Generators of the equiprobable pseudorandom nonmaximal-length sequences based on linear-feedback shift registers. Automation and remote control.2016;77(9):1622-1632.

26. Anikin IV, Alnajjar KH. Selection of primitive polinomials for pseudo-random number generator based on fuzzy logic. Bulletin of KSEU. 2016;2 (30).

27. Kolosova NG, Bayandina GN, Mashukova NG, Geppe NA. Iron exchange in the body and ways of correction of its abnormalities [Electronic resource]:Difficult patient, 2011, No. 8-9.

28. Tretyakova OS. Iron metabolism in the human body and its features in children. Children's doctor. 2013;2 (23):50-55.

29. Vanderbei RJ. Extension of Piyavskii's Algorithm to Continuous Global Optimization. Journal of Global Optimization. 1999;14:205-216.

30. Zabotin Vladislav Ivanovich1, Chernyshevskij Pavel Andreevich Two modifications of extension of piyavskii's global optimization algorithm to a function continuous on a compact interval and its convergence. Bulletin of the Tver State University. Series: Applied Mathematics. 2021;3:70-85.

Authors of the publication

Ruslan R. Gatin - graduate student of Kazan National Research Technical University named after A.N. Tupolev - KAI (KNRTU-KAI), e-mail: RRGatin@kai.ru.

Svetlana V. Novikova -Professor of the Department of Applied Mathematics and Informatics of Kazan National Research Technical University named after A.N. Tupolev - KAI (KNRTU-KAI). e-mail: SVNovikova@kai.ru.

Georgy V. Moiseev - PhD, associate professor, Big Data Analysis and Machine Learning department, Financial University, e-mail: GVMoiseev@fa.ru.

Получено 16.03.2022г.

Отредактировано 21.03.2022г.

Принято 25.03.2022г.

i Надоели баннеры? Вы всегда можете отключить рекламу.