Принципы иейроподобиого моделирования геофизических объектов и процессов
Ю.П. Драница
Судоводительский факультет МГТУ, кафедра высшей математики и программного обеспечения ЭВМ
Аннотация. В работе рассмотрена задача применения искусственных нейронных сетей (ИНС) для моделирования геофизических объектов и процессов. Показано, что эта проблема имеет ряд особенностей, связанных с возможной некорректной постановкой задачи, шумом в данных наблюдений и ограниченностью экспериментального материала. Предложены способы адаптации классической теории ИНС для решения геофизических задач. Некоторые решения продемонстрированы на конкретных геофизических материалах.
Abstract. In the work the task of the synthetic neurowise nets (SNN) application for modelling of geophysical objects and processes has been considered. It has been shown that this problem has a number of peculiarities caused by possible incorrect formulation of a task, noise in the observational data and shortage of experimental material. The methods of the SNN classic theory adaptation for geophysical tasks have been proposed. Some solutions have been shown for specific geophysical data.
1. Введение
В последние годы исследование сложных систем и процессов обязательно включает элементы математического моделирования. Математическое моделирование своими истоками обязано физическим наукам. Законы Кеплера, а впоследствии и ньютоновская механика явились блестящими образцами математических моделей, соответствующих экспериментальным данным.
В физике Земли наиболее часто моделирование связано с использованием уравнений математической физики (волнового, теплопроводности, диффузии и т.п.), согласованных в рамках отдельных геофизических методов по какому-либо одному физическому параметру, связанному со средой (Голидзе, 1970). Этот подход относится к так называемому имитационному моделированию (ИМ), которое основывается на использовании моделей математической физики, являющихся имитацией реального объекта исследования. Подчеркнем, что под физическими моделями здесь понимаются не макеты среды, изготовленные из различных материалов, а численные модели, основанные на уравнениях математической физики.
При исследовании объекта с помощью ИМ традиционно имеют дело с полями одной природы, однородными данными с малой зашумленностью, известными и заранее определенными математическими моделями. Достоинством этого подхода является его относительная простота, легкость интерпретации используемых подходов и полученных результатов. В то же время применение ИМ в других дисциплинах, таких, как социология, экономика, биология, психология и т.п., не имеет таких значимых успехов, как в физических науках. Это связано с тем, что в ряде случаев бывает трудно, а иногда и невозможно построить более или менее точную модель исследуемого объекта. Эти затруднения имеют принципиальный характер и объясняются ограниченностью наших знаний относительно механизмов протекающих процессов, невозможностью получения исчерпывающей информации об их состоянии, ошибками наблюдений и т.д. В этих случаях прибегают к построению более простых моделей, неизбежно нарушающих адекватность между моделью и натурой, что, в свою очередь, снижает достоверность получаемых решений.
В ответ на принципиальные затруднения, возникающие при ИМ, для описания сложных, плохо изученных объектов в последнее десятилетие все большое распространение получили так называемые нефизические методы моделирования. К таким подходам в первую очередь относятся методы, имитирующие нейроподобные сети, иначе говоря нейроподобные алгоритмы. Под нефизической моделью (НФМ) здесь понимается математическая модель, которая не опирается на какие-либо конкретные законы физики, например, уравнение теплопроводности или волновое. Данная работа посвящена исследованию особенностей применения НФМ для сложных геофизических процессов и объектов.
2. Общие принципы 2.1. Физические модели
Основная проблема физического моделирования заключается в следующем. Будем моделировать объект (или процесс), состоящий из некоторого числа компонент (явлений). Поведение каждой из компонент объекта определяется ее свойствами и зависит от собственного состояния и внешних условий. Если все
возможные проявления системы сводятся к сумме проявлений ее компонент, то такая система является простой, несмотря на то, что число ее компонент может быть велико. Основой изучения таких систем является имитационное моделирование - численные модели, полученные из уравнений математической физики, геометрической оптики и т.п. Эти уравнения совместно с граничными и начальными условиями полностью определяют поведение системы или процесса. Таким образом, применение этих методов предполагает, что основные закономерности изучаемого объекта известны и назначаются исследователем.
С другой стороны, имеются объекты (или процессы) такого уровня сложности, что их наблюдаемое поведение и свойства не сводятся к простой сумме свойств отдельных компонент. При объединении компонент в систему возникают качественно новые свойства, которые не могут быть установлены посредством анализа характеристик отдельных компонент. Такие объекты, в которых при вычленении компонент могут быть потеряны принципиальные свойства, а при добавлении компонент возникают качественно новые свойства, назовем сложными.
Модель сложной системы, основанная на принципах анализа, будет неустранимо неадекватной изучаемой системе, поскольку при разбиении на составляющие компоненты теряются ее качественные особенности. С математической точки зрения для простых объектов справедлив принцип линейной суперпозиции свойств и решений. В сложных объектах между его отдельными компонентами возникают нелинейные взаимодействия, которые нарушают принцип линейной суперпозиции. Во многих случаях закономерности этих нелинейных эффектов известны приближенно, либо вообще неизвестны. К этому стоит добавить проблемы полноты и качества информации, описывающей объект исследования. Таким образом, для сложных систем не выполняется ряд основных постулатов, на которых базируется ИМ.
2.2. Нефизические модели
Этот путь был в свое время заложен в основные понятия кибернетики, предполагающей моделирование по наблюдению входов и выходов объектов исследования, по так называемому принципу "черного ящика". В противоположность методу ИМ, при котором моделируется внутренняя структура объекта, в методе "черного ящика" моделируется внешнее функционирование системы. С точки зрения пользователя модели, структура объекта спрятана в "черном ящике", который имитирует его поведенческие особенности.
Кибернетический принцип "черного ящика" был предложен И. Винером (Винер, 1968) в рамках теории идентификации систем, в которой для построения модели системы предлагается широкий параметрический класс базисных функций или уравнений, а сама модель синтезируется путем выбора параметров из условия наилучшего, по заданному критерию, соответствия решений уравнений поведению объекта. При этом структура системы никак не отражается в получаемых уравнениях модели.
Объект в рамках НФМ описывается чисто информационно, на основе данных экспериментов или наблюдений над реальным объектом. Как правило, такие модели проигрывают формальным имитационным моделям по степени "объяснимости" выдаваемых результатов, однако отсутствие ограничений на сложность моделируемых систем определяет их ценность.
Основой применения этого подхода в геофизике является постулат о том, что исследуемые параметры среды тем или иным образом отображаются на измеряемой информации. Закономерности такого отображения в большинстве случаев нам неизвестны. Зато имеется таблица данных (Д X), связывающая интересующие исследователя параметры. Тогда в случае задача построения модели формально может быть определена следующим образом. Допустим, что требуется построить модель, позволяющую связать некоторую измеряемую функцию / (выходы) с непосредственно измеряемыми другими величинами X(входы). Эта связь может быть отображена следующим операторным уравнением
Дх, а) = А(х) + п, (1)
где а - вектор параметров модели, А - оператор отображения, п - вектор ошибок наблюдений и моделирования.
Требуется найти такое функциональное преобразование А, принадлежащее априорно выбранному классу ¥, чтобы оптимизировать некоторый критерий (В) соответствия модели и исследуемого объекта.
В ситуации, когда оператор А уравнения (1) априорно известен, или известен алгоритм его вычисления при произвольных значениях аргументов, машина фон Неймана является наилучшим средством для моделирования, и необходимость в НФМ отпадает.
При моделировании реальных геофизических объектов оценки А* оператора А получают на основе экспериментов или наблюдений, которые проводятся лишь для конечного множества Д, Хк), называемого обучающим. При этом значения как/к, так и Ок измеряются приближенно и подвержены ошибкам различной
Вестник МГТУ, том 5, №2, 2002 г.
стр.241-252
природы. Целью моделирования является получение значений системных откликов при произвольном изменении X. Другими словами, найденное отображение должно обладать свойствами обобщения, т.е. выдавать правильные решения по любым данным О (не только по обучающему множеству).
Указанная выше постановка порождает целый ряд специфических проблем. Во-первых, требуется определить класс F функций, в котором будет производиться поиск будущей модели. Очевидно, что выбор оптимальной модели должен осуществляться в процессе оптимизирующей процедуры и, следовательно, необходимо, чтобы этот класс функций обеспечивал сходимость итераций. Другими словами, выбранный класс структур должен обеспечивать достаточно точную аппроксимацию наблюдаемой зависимости. Во-вторых, требуется определить критерий отбора лучшей модели и принцип останова работы алгоритма. В простейших случаях все эти задачи решается без труда. Для сложных задач это выполнить не так просто.
Вторая проблема заключается в том, что выбранное множество входных параметров в той или иной мере должно отображать интересующие исследователя параметры среды. Степень этого отображения обычно не известна. Более того, на объект обычно воздействует большое количество неконтролируемых факторов, которые не измеряются и в модели не могут быть учтены, следовательно, поиск оптимума неизбежно происходит на фоне информационного шума. Кроме того, вследствие некорректности задачи, K экспериментальных точек можно аппроксимировать множеством функций F = (Fj, F2, ..., Fn} с. Fa, по точности не уступающим аппроксимации истинной зависимости, и заранее не известен критерий отбора истинной закономерности. С другой стороны, в оптимальной модели каждый существенный фактор может быть заменен другим, достаточно тесно с ним коррелируемым.
3. Задача нефизического моделирования
3.1. О возможности представления функций нейронными сетями
Проблема сходимости алгоритма и возможность аппроксимации зависимостей с требуемой точностью является чрезвычайно важной с точки зрения практической реализации метода ИНС. Эта проблема имеет длительную историю и ее решение, с точки зрения ИНС, кратко можно описать следующим образом.
Рассмотрим вначале приближение функций многочленами. Знаменитая теорема Вейерштрасса утверждает, что непрерывную функцию многих переменных fxbx2,..., xn) на замкнутом ограниченном множестве Q можно равномерно приблизить последовательностью полиномов. Другими словами, для любого s > 0 существует такой многочлен P(xj, x2, ..., xn), что максимум его отклонения отf(xj, x2, ..., xn) на Q не превосходит данного s:
max |f(xj, x2, ...xn) - P(xj, x2, ..., xn| < s.
Q
Выводы этой теоремы могут быть значительно обобщены и усилены. Для этого введем некоторые достаточно абстрактные понятия. Рассмотрим компактное пространство О и множество МО) непрерывных на О функций с вещественными значениями. Если произведение этих функций на число, их суммы и произведения также принадлежат МО), то это множество образует алгебру.
Если О - n-мерный прямоугольный параллелепипед, то теорема Вейерштрасса о равномерном приближении функции многочленами может быть сформулирована следующим образом. Пусть E с МО) - некоторая подалгебра в МО), такая, что 1 и координатные функции (f = x) принадлежат А. Тогда А плотно в N(O), другими словами, любая непрерывная функция на О может быть сколь угодно точно равномерно приближена элементами из А.
Действительно, являясь подалгеброй, А содержит произведения и суммы произведений координатных функций, т.е. все многочлены принадлежат А. По теореме Вейерштрасса подалгебра А плотна в МО).
Стоуном (Stone, 1948) эта теорема была значительно усилена за счет ее распространения на произвольные компактные множества О и на кольцо любых многочленов от любого набора функций, разделяющих точки. Кроме того, теорема Стоуна дает рецепт конструирования конкретных обобщений теоремы Вейерштрасса: входы синапсы нужно взять любой набор функций, разделяющий точки, построить все многочлены от них и получить плотное в МО) множество функций.
Нейронную сеть можно рассматривать как способ приближения функции многих переменных с помощью линейных операций и суперпозиций функций одного переменного. Более подробно структуру нейронных сетей мы будем рассматривать ниже, здесь же рассмотрим основную идеологию этого метода. Каждый выходной сигнал нейронной сети рассматривается как
Рис. 1. Искусственный нейрон
результат нелинейного преобразования суммы ее входов (рис. 1).
Множество вычисляемых сетью функций обладает следующими свойствами: оно является линейным пространством, содержит константы и координатные функции, а также вместе с любой функцией f и суперпозицию <p(f). Пусть À œ N(Ô) - линейное пространство, N(R) - пространство непрерывных функций на действительной оси R, f œ C(R) - нелинейная функция, и для любого g £ À выполнено fg) œ À. В этом случае À замкнуто относительно нелинейной унарной операции f. Тогда имеет место обобщенная аппроксимационная теорема Стоуна.
Пусть À œ N(Ô) - линейное пространство в N(Ô), на котором определена 1, функции из À разделяют точки в À, и Ô замкнуто относительно нелинейной унарной операции f œ C(R). Тогда À плотно в N(Ô).
Из этой теоремы следует, что с помощью линейных операций и последовательного соединения можно из произвольных нелинейных элементов получить любой требуемый результат с любой наперед заданной точностью (Aîôâàiu, 1998).
Таким образом, из теории следует, что хотя истинная структура оператора А выражения (1) нам неизвестна, она может быть аппроксимирована с любой наперед заданной точностью другой структурой с заданными свойствами. Следовательно, имеется принципиальная возможность сходимости алгоритма аппроксимации на основе нейронной сети. Однако практическое воплощение приведенной выше теории наталкивается на ряд принципиальных затруднений, к обсуждению которых мы и приступим.
3.2. Оценка моделирования
Таким образом, с помощью нейронной сети можно сколь угодно точно приблизить любую наперед заданную функцию. Из этого следует, что имеется механизм, позволяющий с требуемой точностью аппроксимировать неизвестную структуру функционального преобразования А модели (1). Однако сразу же возникает вопрос: будет ли это формальное приближение хорошим. Можно привести много примеров, когда это будет не так. Например, интерполяционный полином, построенный по функции, заданной в виде таблицы, если функция однозначна, проходит через все экспериментальные точки, отвечает всем формальным требованиям, предъявляемым к модели. Но является ли эта модель хорошей? Наверняка она очень плоха. Дело в том, что при нулевой дисперсии ошибки наблюдения выходной величины интерполяционный полином не обладает никакой предсказательной способностью, кроме того, он обладает плохими интерполяционными свойствами на промежуточных точках. Таким образом, точность аппроксимации выборки не может быть критерием качества модели и, следовательно, рассмотренная выше теория о приближении функции нейронными сетями еще не гарантирует получение требуемого решения.
Можно, конечно, построить более грубое приближение, не обладающее столь катастрофическими свойствами. Но и плохая аппроксимация исходных данных также нас мало устраивает, т.к. с точки зрения потребителя модели главным ее свойством является возможность экстраполировать результаты наблюдений с достаточной точностью. Другими словами, кроме точности, получаемое приближение должно обладать еще целым рядом свойств, к важнейшим из которых можно отнести: однозначность, устойчивость, адекватные экстраполяционные и прогностические свойства.
Кроме того, рассмотренная выше задача приближения исходит из слишком идеализированных предпосылок, например, не учитывает ошибок наблюдений, конечной точности представления данных и арифметических операций, выполняемых на ЭВМ. Последнее означает, что неизвестна не только структура модели, но и наблюденные зависимости измерены только приближенно. Другими словами, речь в данном случае может идти только о приближенном представлении аппроксимируемой зависимости в пределах точности представления информации и вычислений.
Следующей особенностью решаемой задачи является то, что аппроксимация осуществляется по конечной выборке. Задачу восстановления зависимости (1) можно рассмотреть несколько с иных позиций. Если множество Ô бесконечно, то подтвердить утверждение (1) можно только проверив бесконечное число утверждений. Очевидно, что по ограниченной выборке и без привлечения дополнительной информации это сделать невозможно. В этом случае соотношение (1) следует рассматривать как некоторую рабочую гипотезу, для которой никакие вероятностные оценки качества экстраполяции или прогноза без дополнительных предпосылок принципиально не могут быть получены.
Кроме того, при использовании ограниченных выборок часто возникают проблемы вырождения решений, т.е. по мере усложнения генерируемой модели, решение становится плохо обусловленным. Следовательно, по ограниченной информации можно получить лишь ограниченные по сложности модели. Другими словами, полученная модель не может быть более информативной, чем совокупность данных по которым она построена.
Таким образом, по зашумленным данным и ограниченной информации можно построить только ограниченную по точности модель. С одной стороны, теорема Стоуна гарантирует построение
аппроксимации с нулевой погрешностью, с другой - реальные условия ограничивают эту возможность. Следовательно, должна существовать некоторая оптимальная модель, являющаяся компромиссом между этими двумя взаимно исключающими тенденциями. Определение этой оптимальной модели и является главной задачей НФМ.
Традиционно механизм оценивания строился на основе классической математической статистики, которая базируется на вероятностной природе данных. В классической теории оценок к последним предъявляется ряд требований: состоятельность, эффективность, несмещенность и др. (Липцер, Ширяев, 1974; Справочник по прикладной статистике, 1979). Им в полной мере удовлетворяют оценки метода наименьших квадратов (МНК). Однако механический перенос методологии классических оценок на задачу идентификации модели не всегда корректен. В частности, согласно требованию несмещенности, математическое ожидание оценки должно быть равно истинному значению параметра. Однако найденная структура модели почти наверное не соответствует истинной (Качала, 1992а), т.е. говорить о несмещенности бессмысленно - любые оценки нетождественной структуры будут смещены.
Все критерии оценки качества моделирования можно разбить на две группы: внутренние и внешние (Еаад1тё1, 1982). Внутренние критерии вычисляются на основании данных, участвующих в построении модели. К ним, в первую очередь, следует отнести остаточную ошибку модели, коэффициент детерминации и другие.
Более надежным, чем классический подход, представляется использование нескольких выборок данных: по одним выборкам строится модель, по другим - оценивается ее качество. Идея использования дополнительных точек для оценки качества моделей высказывалась давно и кажется даже очевидной (Бпвв, 1977). Такой подход долго не интересовал математиков из-за его некоторой эвристичности. Однако в последние годы все чаще стали появляться работы, в которых предлагается использовать внешние критерии. Необходимость контрольных точек, в частности, обусловлена неустойчивостью процесса структурной идентификации, заключающейся в монотонном возрастании с первых же шагов алгоритма ошибки в промежутках между точками, по которым строится модель (Качала, 19926). Характерной особенностью всех внешних критериев является то, что все они в том или ином смысле являются оценкой неоправдываемости предсказания. Следовательно, внешние критерии позволяют контролировать самое важное свойство модели - ее прогностические (или обобщающие) свойства.
Успех моделирования обеспечивается главным образом тем, что принятый подход гарантирует получение объективных и непротиворечивых систем уравнений, оптимальных по структуре и множеству учитываемых переменных. Пользуясь представлениями теории связи, мы можем говорить об истинном сигнале сложного объекта моделирования, отягощенного погрешностями измерений или отсутствием полной информации. Минимум критерия говорит о том, что вся доступная информация учтена в рамках действующих помех, и дальнейшее ее усложнение может привести только к ее ухудшению.
4. Элементы схемотехники нейронных сетей
Элементарной составляющей нейронной сети является формальный нейрон (рис. 1), который получает на входе вектор сигналов х, вычисляет его скалярное произведение с вектором весов w и осуществляет далее некоторое нелинейное преобразование функции одного переменного У(х^). Полученный результат передается на входы других нейронов или на выход сети. Типы обычно применяемых нелинейных преобразований (активационных функций) изображены на рис. 2.
Отметим, что для устранения смещения пороговой функции обычно первый синапс имеет фиксированный вес, равный единице. Одной из наиболее распространенных является нелинейная функция с насыщением, так называемая логистическая функция, или сигмоид (т.е. функция ^-образного вида)
= 1 / (1 + е_ш). (3)
— Рис. 2.
а) функция единичного скачка;
— б) линейный порог (гистерезис); в) сигмоид - гиперболический тангенс;
г) сигмоид - формула (3)
X
При уменьшении а сигмоид становится более пологим, в пределе при а = 0 вырождаясь в горизонтальную линию на уровне 0.5, при увеличении а сигмоид приближается по внешнему виду к функции единичного скачка с порогом Т в точке х = 0. Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне [0,1]. Одно из ценных свойств сигмоидной функции -простое выражение для ее производной.
Дх) = а-№ • (1 -Дх)). (4)
Сигмоидная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон. Область возможных значений выходов нейрона во многом зависит от решаемой задачи и является вопросом реализации принятого алгоритма, так как манипуляции с ним влияют на различные показатели качества сети, зачастую не изменяя общую логику ее работы.
Рассмотрим задачу составления сетей из базовых элементов. Строго говоря, любое их соединение, при котором они получают какие-либо сигналы, можно считать сетью. Обычно, однако, используют несколько стандартных архитектур, из которых и строят большинство сетей. В настоящее время наибольшее распространение получили две базовых структуры.
Слоистые сети. Нейроны расположены в несколько слоев. Первый слой получает сигналы непосредственно от внешней среды. После преобразования информации первым слоем полученные сигналы через устройства ветвления передаются второму слою, который производит аналогичную обработку и передает информацию третьему слою, и т.д. до к-го слоя. Число нейронов в каждом слое не оговорено, т.е. может быть произвольным. Обычно предполагается, что каждый выходной сигнал /-го слоя поступает на каждый нейрон (/+1)-го слоя. Впрочем, могут быть и другие ситуации. Пример двуслойной сети изображен на рис. 3.
х й/111
Рис. 3. Двухслойная нейронная сеть
Полносвязанные сети. Каждый нейрон передает свой выходной сигнал всем другим нейронам, включая самого себя. Выходными сигналами такой сети могут быть все выходные сигналы нейронов или только их некоторой группы после нескольких тактов работы сети. Входные сигналы внешней среды также подаются сразу всем нейронам.
Приведенная выше идеальная схемотехника по сути дела представляет собой только некоторый язык для представления нейронных сетей и их обсуждения. В реальной практике вовсе необязательно, чтобы она была реализована в виде отдельных частей или блоков. При программной реализации описания, выполненные на этом языке, переводятся на язык другого уровня, более пригодный для этих целей.
4.1. Обучение сети
Целью обучения сети является такая подстройка ее весов, при которой множество входов обучающей выборки наиболее согласовано с выходами этого же множества по некоторому критерию. Для настройки сети предложено много методик, однако наиболее распространенной и эффективной в вычислительном аспекте является методика обратного распространения ошибки (А1дааш, 1998; Уоссермен, 1992).
Перед началом обучения всем весам сети присваиваются некоторые начальные значения. Затем на вход сети последовательно подаются образцы из обучающего множества. Эти сигналы проходят через сеть, формируя выход сети. Полученный сигнал сравнивается с идеальным, взятым из обучающего множества и формирует невязку между прогнозом и фактом. Полученная невязка далее используется для корректировки весов сети с целью уменьшения ошибок прогноза. Этот процесс повторяется до тех пор, пока невязка по выходам сети продолжает убывать, или пока не будет выполнено заданное число итераций.
5. Практические результаты моделирования ИНС
5.1. Имитация линейных зависимостей
Для исследования работы ИНС использовалась двухслойная ИНС с несколькими входами и одним выходом с алгоритмом обучения, основанным на методе обратного распространения ошибки (МОРО). Для моделирования генерировались псевдорегрессии вида
Уг = Т,какх/к + а0, / = 1,2,...,п; к = 1,2,...,т. (5)
где п - число реализаций зависимости; т - число независимых переменных.
Коэффициенты регрессии ак выбирались произвольно. Для генерации значений независимых переменных использовался датчик случайных чисел. Соответствующие выходы регрессии рассчитывались алгоритмически по формуле (5). В результате формировались: матрица входов X (п строк и т столбцов) и вектор-столбец выходов У длиной п элементов. Из данного набора далее случайным образом формировалось обучающее и тестовое множества. Первое использовалось для обучения сети, а второе - для контроля качества ее работы.
Были проведены эксперименты с разными наборами данных, имитирующих различные регрессии. Для сравнения получаемых ИНС результатов над этими же данными выполнялся обычный многомерный регрессионный анализ. Проведенные эксперименты позволяют сделать следующие выводы.
Точность и временные затраты на аппроксимации зависимости (5) на несколько порядков хуже результатов, полученных по регрессионному анализу. Такой результат можно было ожидать априорно по следующим соображениям. Согласно методологии ИНС, при прохождении сигнала по сети производится его нелинейное преобразование. Полученные нелинейные сигналы далее используются для восстановления чисто линейной зависимости. Ясно, что приблизить линейные зависимости нелинейными средствами -задача такой же трудности, как и аппроксимация нелинейных связей линейными приближениями.
Этот эффект в практике применения сетей хорошо известен, и для его оправдания положен тезис: ИНС предназначена для анализа сильно нелинейных связей. Для устранения линейности в данных рекомендуется использовать традиционные методы статистики. Однако этот тезис вряд ли оправдан, т.к. существует следующее фундаментальное утверждение: правила, построенные для объяснения сложных явлений, тем более должны хорошо объяснять простые факты.
Следует, однако, заметить, что точность работы сети при нелинейных функциях активации возрастает при увеличении ее мощности (числа подстраиваемых весов). Высокая степень свободы сети позволяет размазывать информацию по большому множеству малых по модулю весов, работа которых сосредотачивается в области линейности функции активации. Однако мощность сети накладывает определенные ограничения на число обучающих примеров.
Следующим крупным недостатком современной методологии ИНС является неоднозначность результатов ее работы (разные наборы весов, точность аппроксимации), полученных по одним и тем же данным. В частности, результаты работы сети существенным образом зависят от первоначальной установки весов. При неудачном выборе начальных весов может происходить зацикливание алгоритма, переполнение при арифметических операциях, очень низкая точность аппроксимации или паралич сети. Каких-либо указаний по решению этой проблемы в литературе не встречается.
Причина такого поведения алгоритма также достаточно проста. МОРО базируется на методологии градиентного спуска, т.е. вычислении частных производных (теории бесконечно малых). При реальных вычислениях мы имеем конечную точность арифметики ЭВМ, конечные приращения и т.д. Следовательно, возникает ситуация, когда безупречная теория реализуется не совсем адекватными способами.
Кроме того, функция ошибки аппроксимации может быть многоэкстремальной, следовательно, возникает проблема попадания алгоритма в локальный минимум. В теории и практике ИНС имеется решение этой проблемы в виде стохастических алгоритмов обучения (Уоссермен, 1992). Недостатком стохастических алгоритмов является существенное увеличение временных затрат на обучение сети.
Таким образом, практическое использование методологии ИНС представляет во многом эмпирическую процедуру с неопределенным временем обучения.
5.2. Предложения по усовершенствованию идеологии ИНС
5.2.1. Особенности используемой геофизической информации и постановки задачи интерпретации
Решаемая задача интерпретации имеет два типа информации. Не вдаваясь в детали ее получения, которые достаточно сложны, отметим только наиболее важные черты этих данных. Первый тип данных связан с так называемым геофизическим исследованием скважин (ГИС). Эта информация получается непосредственным измерением по стволу скважин некоторых параметров среды, а также в результате
обработки этих данных. Эти данные являются достаточно дорогими, т.к. связаны с бурением скважин, специальными измерениями, в том числе и лабораторными.
Другим типом данных является информация, полученная в результате сейсмических исследований. Не вдаваясь в подробности проведения этих работ, отметим, что она получается в результате эхолокации недр Земли. Эти данные являются относительно дешевыми и могут охватывать значительные по площади поверхности Земли. Исследуемые глубины при типичной сейсмической разведке составляют несколько километров.
Задача моделирования заключается в установлении связей между данными ГИС и пространственно сопряженными (полученными вблизи скважин и согласованными по глубине скважины) с ними данными сейсмической разведки. В рассматриваемой постановке входами модели являются те или иные параметры сейсмических измерений, а выходами - все или некоторые геофизические параметры, которые могут быть получены или рассчитаны по ГИС. Таким образом, сейсмическая информация является опорной. Затем полученная модель связей экстраполируется от скважины по пространству только на основе доступной сейсмической информации.
5.2.2. Структурная организация сети
Как видно из приведенных выше характеристик классической ИНС, организация ее обучения является скорее искусством, чем формальным применением тех или иных правил. Следовательно, возникает задача более глубокой формализации как структуры ИНС, так и процесса ее обучения с целью получения более адекватных результатов и "прозрачности" выполняемых операций.
Альтернативой традиционным многослойным ИНС является переход к нейросетям с усложненными процессорными элементами и с другими принципами организации структуры ИНС. В частности, можно рассматривать нейроны, выходом которых являются полиномы следующего вида
У = ™то + wmlxk + ™т2ХкХ\ + ™тз/(хк) + wm4f(xkx^), (6)
где - /-ый подстроечный коэффициент модели на т итерационном шаге компиляции; х/ - /-ый входной вектор;/- функция активации нейрона.
Так как модель (6) линейна относительно весов сети не требуется длительного
итерационного обучения, а оптимальные веса получаются из решения уравнений регрессии. Достоинством модели (6) нейрона является то, что он имеет как линейный, так и нелинейный относительно входов компоненты выхода. Следовательно, модель (6) должна автоматически учитывать все линейные связи в данных. Отметим, что модель (6) допускает как скалярный, так и векторный выход. В последнем случае весовые коэффициенты модели будут представлять собой матрицы.
Построение нейронной сети с моделью нейрона (6) выполняется последовательными итерациями, при этом предполагается, что полученный на данном шаге выход нейрона может использоваться на следующем шаге итерации. Таким образом, предлагаемая ИНС является архитектурой с обратными связями. Следовательно, на первом шаге итерации модель (6) представляет, относительно входных переменных, полином 2-ой степени (и нелинейные преобразования над корреляционными функциями для 2-х переменных), на втором шаге - кубический полином. На ё-ом шаге итерации выход нейрона будет представлять полином (ё+1)-ой степени. Таким образом, структура ИНС не назначается априорно, а последовательно генерируется по мере обработки имеющейся информации.
При такой организации вычислительного подхода отпадает необходимость в начальной установке весов сети. Кроме того, автоматически решается проблема возможной многоэкстремальности внешних критериев.
Мощность классической многослойной ИНС ограничивается неравенством Ж < £> (где Ж - число подстроечных коэффициентов сети; £> - число примеров, подаваемых на ее вход при обучении). В рассматриваемом классе геофизических задач число примеров О обычно определяется измерениями по скважине и составляет десятки и первые сотни отсчетов. По этим данным обычно приходится строить несколько моделей из-за вертикальной дифференциации среды по ее геофизическим свойствам. Практика показывает, что такого числа данных не хватает для построения достаточно гибкой ИНС, отображающей сложные связи, существующие между геофизическими параметрами среды.
Важным достоинством предлагаемого алгоритма является то, что на любом шаге итерации определение весовых коэффициентов всегда сводится к решению системы линейных уравнений пятого порядка. Следовательно, старт метода может начинаться при наличии 6 измерений (5 точек используется на обучение и 1 - на контроль). При этом сложность генерируемой модели может быть произвольной, т.к. она лимитируется только поведением используемых внешних критериев. Таким образом ликвидируется одно из важнейших ограничений, присущих классическим многослойным ИНС.
Другой особенностью данного подхода является возможность более объективного контроля генерируемых моделей ИНС. Дело в том, что по мере усложнения структуры ИНС ухудшается обусловленность решения уравнения (6). Степень ухудшения обусловленности решения может быть оценена численно, например, сингулярным анализом. При этом можно повысить робастность решений за счет фильтрации компонент с малыми сингулярными числами.
5.2.3. Внешние критерии оценки обобщающих свойств ИНС
Классическая теория обучением с Учителем многослойных ИНС базируется на минимизации среднеквадратической невязки между выходом сети и эталонными значениями по обучающей выборке. Процедура обучения сети обычно заканчивается при росте указанной невязки на тестовых данных. Опыт использования такого критерия для моделирования сложных геофизических зависимостей показал его недостаточную эффективность. Это связано с тем, что такой критерий является слишком формальным и не учитывает целый ряд требований, которые обычно предъявляются к модели.
Другой подход заключается в построении множества критериев, которые характеризуют модель с различных точек зрения. Ниже рассмотрены основные принципы конструирования таких критериев. Будем характеризовать текущую 5-ую модель ИНС набором чисел
1(81,82,..., 80,ё1,ё2,.,ё,1), (7)
где 8\,82,...,8а - некоторые числа, полученные на обучающем и контрольном множестве; ёьё2,...ё -некоторый набор заключений о качестве аппроксимации ИНС.
Пусть число точек экстраполяции по модели будет N. Обозначим физически обоснованную вариацию прогнозируемого параметра бп двумя числами [бпмса, бпмин] и введем два параметра
Д = £>_= Е(0И - о^т, Ё2 = Б+ = Е(0И - б^/М (8)
Суммирование для первого параметра ведется для тех оценок модели бп, для которых справедливо бп < бпмин, а для второго - бп > б^^. Таким образом, параметры (8) являются мерой того, насколько модель может давать оценки параметра, выходящие за физически обоснованный допуск. Оценки рассчитываются для каждой модели по каждой последовательности данных. Хорошая модель должна иметь, при прочих одинаковых условиях, малое значение параметров (8).
Для данного набора регрессоров будем строить две или более моделей (6), получаемых по разным последовательностям данных. Для этих целей используется генератор случайных чисел. Для определенности будем считать, что генерируется две последовательности данных. Обозначим через №лт/, №2т/ - коэффициенты модели (6), полученные по первой и второй последовательностям. Для оценки структурной устойчивости модели рассчитаем следующий параметр
Ъу = Ш'тг - №2т)2, / = 1,2,.,4. (9)
Полезное свойство оценки (9) заключается в том, что для структурно устойчивых моделей этот параметр должен быть мал. Большое значение дисперсии (9) говорит о том, что модель критична к конкретному набору данных. Адекватная модель должна отображать наиболее общие свойства анализируемых данных и фильтровать шум. Таким образом, критерий (9) является мерой, отображающей способности модели к обобщению информации.
В основу информационно устойчивых оценок положена следующая гипотеза. Хорошая модель должна обеспечивать статистически обоснованное качество прогноза для разных наборов данных. Для этих целей предлагается использовать аппарат проверки статистических гипотез. Например, гипотез о равенстве средних дисперсий по обучающей и контрольной (одной или нескольким) выборкам, или равенстве этих параметров по фактической и прогнозной информации. За нулевую принимается гипотеза о том, что эти статистики равны. Фактические значения соответствующих параметров (Стьюдента, Фишера и др.) являются количественной мерой оценки этого предположения.
Обобщенной мерой качества модели сети может быть, например, средневзвешенная сумма отдельных критериев с весами, определяемыми пользователем, критерий Парето и другие процедуры объединения критериев. Другой подход заключается в использовании пороговых процедур следующего типа: модель отбрасывается и далее не рассматривается, если один или несколько критериев превышают заданный порог. В контексте разработанной методики такие модели не подаются в цепь обратной связи сети.
5.3. Результаты апробации методики на реальном материале
Проверка работоспособности методики осуществлялась по данным сейсмических наблюдений и одному ГИС. Сейсмические данные представлялись числовыми матрицами (разрезами параметра) с
размером 116 отсчетов по горизонтальной координате и 201 - по вертикальной (примерно 26 км по горизонтали и 2 км по глубине). Всего имелось 20 таких матриц (так называемых динамических параметров). Соответствующие столбцы этих матриц имели одинаковые географические координаты. ГИС представляли замеры различных геофизических параметров (общим числом 8) в 135 точках скважины. В каждой из 20 матриц динамических параметров выбирался вертикальный вектор (трасса) длиной 201 отсчет с координатой, наиболее близкой к устью скважины, и наиболее совмещенный по вертикали с данными ГИС. Эти данные и параметры ГИС использовались для построения нейросетевой модели и оценки ее качества
Особенностью имеющихся данных являются низкие попарные связи между параметрами ГИС и сейсмическими данными. Кроме того, информация содержала значительный уровень помех наблюдений типа слабо коррелированного белого шума, оценка которого и фильтрация были проведены по методике (Драница, 2001).
Типичные результаты расчетов по данной методике представлены на рис. 4. Коэффициент корреляции между фактическими и модельными данными составляет «0.975. Хорошо выполнена аппроксимация тренда параметра, удовлетворительно выявлен и его скачок. Экстраполяция параметра по полученной модели на весь сейсмический разрез представлена на рис. 5. Полученная экстраполяция хорошо согласуется с независимыми исследованиями о геологической структуре данного района.
Рис. 4. Прогноз скорости (А - область интерполяции, Б - область экстраполяции): 1 - фактические
данные, 2 - прогнозные значения
Рис. 5. Прогноз временного разреза скорости
Рис. 6. Прогноз меры ширины спектра: слева - исходные данные, справа - модельные данные
Рис. 7. Прогноз меры ширины спектра по трассе, ближайшей к скважине (А - область интерполяции, Б - область экстраполяции): 1 - фактические данные, 2 - прогнозные значения
Приведенные выше результаты тестирования позволяют сделать количественные оценки модели только непосредственно по стволу скважины (в одной точке разреза). Намного важнее было бы сделать подобные оценки для всей площади, только в этом случае модель будет иметь практическую значимость. Для решения этой задачи был выполнен еще один тест, сущность которого заключалась в прогнозе априорно известной как по скважине, так и по разрезу информации. В качестве такой информации естественно принять один или несколько динамических параметров (или их комбинацию), исключив их из списка регрессоров модели. Далее принималось, что при обучении эти параметры известны только по стволу скважины (своего рода данные ГИС), а остальные динамические параметры использовались для прогноза этих искусственных данных. Полученная таким образом модель экстраполировалась на весь разрез, позволяя сделать площадные оценки качества прогноза, его точности и устойчивости.
Результаты такого моделирования изображены на рис. 6,7 (рис. 7 - для ствола скважины, а на рис. 6 - для всей площади). Проанализируем полученные результаты прогноза по стволу скважины. Визуально видно хорошее совпадение между фактическими и модельными данными с коэффициентом корреляции гс = 0.94. Аналогичные расчеты, выполненные раздельно для области интерполяции и экстраполяции, дают близкие результаты. Статистически близки дисперсии невязок между прогнозом и фактом по этим же областям. Следовательно, полученная модель, по крайней мере, для трассы, обладает хорошими интерполяционными и экстраполирующими свойствами.
Проанализируем прогноз по всему разрезу рис. 6. Визуальное сравнение полученной экстраполяции с реальным разрезом параметра показывает, что модель правильно отображает все его пространственные особенности. В частности, наблюдается правильное отображение областей с экстремальными значениями параметра, их ориентации и степени интенсивности. В основном правильно представлены формы наблюденных аномалий и довольно тонкие детали их текстуры. Визуально видно, что основные несоответствия проявляются в некотором рассогласовании размеров наблюденных аномалий, а также в фильтрации моделью некоторых мелких объектов исходного изображения. Коэффициенты корреляции между прогнозом и фактом по стволу скважины составляет 0.94, а по всему изображению - 0.92.
6. Заключение
Не смотря на настоящий бум, связанный с использованием ИНС для различных приложений, они в настоящее время при геофизических исследованиях применяются довольно редко. Это связано с разномасштабностью имеющейся информации, низкими связями между прогнозируемыми данными и предикторами, большим уровнем информационных шумов, разнообразием геологических свойств среды
и т.п. Большой проблемой является полуэмпирическая процедура классической схемы построения и обучения ИНС, основанного на МОРО. Все эти причины обуславливают некоторую сдержанность геофизиков в применении ИНС на практике. Проведенное исследование показывает, что многие проблемы конструирования ИНС для геофизических приложений могут быть преодолены. В результате появляется возможность разработки системы интерпретации с уникальными свойствами, которые недоступны другим методам обработки информации.
Литература
Snee R.D. Validation of regression models: Methods and examples. Technometrics, v.19, N 4, p.415-429, 1977. Stone M.N. The generalized Weierstrass approximation theorem. Math. Mag, v.21, p.167-183, 237-254, 1948. Винер H. Кибернетика, или Управление и связь в животном и машине. М., Наука, 68 с., 1968. Голидзе Г.Л. О формулировке задач комплексной интерпретации гравитационного поля и сейсмических
наблюдений. Физика Земли, №7, с.91-98, 1970. Âîôâàfu À.I. Функции многих переменных и нейронные сети. Соросовский образовательный журнал, №12, с.105-112, 1998.
Драница Ю.П. Моделирование одномерных динамических процессов с целью предварительной
обработки результатов. Вестник МГТУ, т.4, №1, с.97-114, 2001. Èâàôfâfêî À.Â. Индуктивный метод самоорганизации моделей сложных систем. Киев, Наук. Думка, 296 е., 1982.
Качала В.В. Гребневая регрессия и выбор структуры модели. Сб.: Хранение и обработка
экспериментальных данных. Математическое моделирование. Апатиты, РАН, с.28-47, 19926. Качала В.В. Проблема выбора структуры регрессионных моделей. Том же, с.12-28, 1992а. Липцер Р.Ш., Ширяев А.Н. Статистика случайных процессов. М., Наука, 696 е., 1974. Справочник по прикладной статистике. М., Финансы и статистика, т.1, 510 е., 1979. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М., Мир, 184 е., 1992.