Научная статья на тему 'Применение метода деревьев решений для экспресс интерпретации результатов геофизических исследований скважин'

Применение метода деревьев решений для экспресс интерпретации результатов геофизических исследований скважин Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
325
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ворончак В. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение метода деревьев решений для экспресс интерпретации результатов геофизических исследований скважин»

Ворончак В.И. ПРИМЕНЕНИЕ МЕТОДА ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ЭКСПРЕСС - ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ ГЕОФИЗИЧЕСКИХ ИССЛЕДОВАНИЙ СКВАЖИН

Для интерпретации данных геофизических исследований скважин применяются автоматизированные системы обработки [1,2]. При геологической разведке месторождений важной является предварительная экспресс-оценка продуктивности скважины. При наличии некоторой эмпирической базы данных возможно использование методов извлечения знаний из данных и применение обучающихся информационных систем.

Литологическая классификация и выделение коллекторов основаны на различии физических и геофизических параметров горных пород. Нахождение значений физических и геофизических параметров в некоторых диапазонах дает возможность прогнозирования литологии пласта. Так как диапазоны перекрываются для различных пород, то необходима идентификация литологии пород по набору коллекторских, физических и геофизических параметров.

Для проведения геофизических исследований скважин применяются разнообразные группы методов: электрометрические, акустические, радиометрические, термометрические и др. Для обработки будем использовать результаты измерений полученные пятью методами.

1. Боковой каротаж (БК - метод) - основан на измерении зондом электрического сопротивления пласта.

2. Акустический метод - измерение интервального времени пробега DT продольной звуковой волны.

3. Гамма - метод заключается в регистрации кривой изменения интенсивности естественного гамма-излучения пород в разрезе скважины при перемещении в ней радиометра.

4. Нейтронный гамма-метод, основанный на измерении поглощения и рассеяния нейтронов.

5. Метод кавернометрии, заключающийся в измерении фактического диаметра необсаженной скважины

DC.

В системах обработки и интерпретации данных геофизических исследований скважин для решения задач качественной интерпретации применяются математические методы классификации [3]. Для решения указанной задачи в работе [3] рассмотрена возможность применения для распознавания пластов-коллекторов и для определения их продуктивности нейросетевых алгоритмов, метода нечеткого вывода, многомерного шкалирования.

К группе методов, получивших в последнее время широкое применение в самых разных областях, относятся алгоритмы деревьев решений [4] . Эти алгоритмы применяются для решения задач классификации. Метод деревьев решений может применяться для целевой переменной, имеющей булев или категориальный тип. Такие переменные содержат значения, принадлежащие некоторому конечному множеству без определенного отношения порядка на нем.

Пусть целевая переменная соответствует некоторым классам, на которые разбито множество данных. Требуется отыскать некоторое классифицирующее правило, позволяющее разбить множество данных на эти классы. В процессе поиска классифицирующего правила проводится перебор всех независимых переменных и отыскивается наиболее представительное правило на данном этапе. В обычных деревьях решений применяются предикаты вида x< w, x> w . Данные разбиваются на две группы в соответствии со значением этого предиката. После этого

процесс повторяется для каждой из этих групп до тех пор, пока получающиеся подгруппы содержат в себе представителей классов и включают в себя достаточно большое количество точек для того, чтобы статистически значимо быть разбитыми на меньшие подгруппы. В результате, окончательное классифицирующее правило, построенное этим процессом, может быть представлено в виде бинарного дерева. Каждый узел этого дерева соответствует некоторому подмножеству данных и содержит найденное классифицирующее правило для этого подмножества.

Удобным для анализа свойством деревьев решений является представление данных в виде иерархической структуры. Компактное дерево проявляет картину влияния различных факторов, независимых переменных.

Метод классификации, основанный на деревьях решений, имеет в качестве преимуществ следующие свойства: быстрый процесс обучения; генерация правил в областях, где эксперту трудно формализовать свои знания; извлечение правил на естественном языке; интуитивно понятная классификационная модель; достаточно высокая точность прогноза, сопоставимая с другими методами; построение непараметрических моделей.

Эти положительные свойства приближают методологию деревьев решений к системам, основанным на нечеткой логике, выигрывая у них в быстроте процесса обучения.

Деревья решений - один из методов извлечения знаний из данных. Введем основные понятия из теории деревьев решений: объект - пример, шаблон, наблюдение, точка в пространстве атрибутов; атрибут - признак, независимая переменная, свойство; метка класса - зависимая переменная, целевая переменная, признак, определяющий класс объекта; узел - внутренний узел дерева, узел проверки; лист - конечный узел дерева, узел решения; проверка - условие в узле.

Деревья решений - это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде if A then B (A ^B) .

Пусть задано некоторое обучающее множество X , содержащее объекты, каждый из которых характеризуется m атрибутами и один из них указывает на принадлежность объекта к определенному классу. Это

множество обозначим X = |xj,CJj J, j = 1,p;k = 1,K , где каждый элемент этого множества описывается атрибутами x = ),i = 1,m — 1 и принадлежит одному из классов Ск . Количество примеров в множестве равно

p является мощностью этого множества |х| . Через } обозначается множество классов.

Каждое множество X на любом этапе разбиения характеризуется следующими показателями: 1) множество X содержит несколько объектов, относящихся к одному классу C . В этом случае множество X является листом, определяющим класс Ср. . 2) - множество X не содержит ни одного объекта (X = 0) . В данной ситуации

необходимо возвратиться к предыдущему этапу разбиения. 3) - множество X содержит объекты, относящиеся к

разным классам. Такое множество является пригодным для разбиения на некоторые подмножества. Для этого выбирается одна из переменных и в соответствии с правилами x < w, x>w множество X разбивается на два подмножества. Этот процесс рекурсивно продолжается до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.

Данная процедура лежит в основе многих алгоритмов построения деревьев решений (метод разделения и захвата). Построение дерева решений происходит сверху вниз. Сначала создается корень дерева, затем потомки корня и т.д.

Поскольку все объекты были заранее отнесены к известным классам, такой процесс построения дерева решений называется обучением с учителем.

При построении деревьев решений необходимо решить следующие задачи: а) выбор критерия атрибута, по которому пойдет разбиение; б) остановка обучения; в) отсечение ветвей.

Выбор критерия атрибута.

Для построения дерева на каждом внутреннем узле необходимо найти такое условие, которое бы разбивало множество, ассоциированное с этим узлом на подмножества. В качестве такой проверки должен быть выбран один из атрибутов. Выбранный атрибут должен разбить множество так, чтобы получаемые в итоге подмножества состояли из объектов, принадлежащих к одному классу, или были максимально приближены к этому, т.е. количество объектов из других классов в каждом из этих множеств было как можно меньше.

Одним из способов выбора наиболее подходящего атрибута является применение теоретикоинформационного критерия.

Задача заключается в построении иерархической классификационной модели в виде дерева из множества

объектов X = jxj,CJj J, j = 1,p;k = 1,K . На первом шаге имеется только корень и исходное множество, ассоциированное с корнем.

Требуется разбить исходное множество на подмножества. Это можно сделать, выбрав один из атрибутов в качестве проверки. Тогда в результате разбиения получаются n (по числу значений атрибута) подмножеств и соответственно создаются n потомков корня, каждому из которых поставлено в соответствие свое подмножество, полученное при разбиении множества X = jxj,Cjj,j = 1,p;k = 1,K . Затем эта процедура рекурсивно применяется ко всем подмножествам (потомкам корня) и т.д. Любой из атрибутов можно использовать неограниченное количество раз при построении дерева.

Определим в качестве проверки t какой-либо атрибут, принимающий значения xt = (w^ ),i = 1, m; j = 1, n.

Тогда разбиение X по проверке t дает соответствующие подмножества X-,j = 1,n . Критерий выбора определяется Единственная информацией о том, каким образом классы распределены в множестве X и его подмножествах, получаемых при разбиении по t .

Обозначим Pj, k = 1, K;i = 1, m; q = 1, n вероятность принадлежности классу k по атрибуту i и q -му пороговому значению xt =(wij),i = 1,m;j = 1,n , а Pk - вероятность попадания в класс k . В качестве меры

среднего количества информации, необходимого для определения класса примера из множества X берется

K

энтропия Шеннона Нх = —£Pk log2 Pk .

k=1

K

Разбиению множества X по проверке t соответствует выражение для энтропии Н.д = —х pqq iog2 pqq.

k=1

Критерием выбора является выражение Нх — Hiq ^ max или Н iq ^ min . Минимальное значение энтропии

Н, ответствует максимуму вероятности появления одного из классов. Выбранный атрибут и пороговое

, минимизирующие Hq , (i, q) = ArgMin Hq используются для проверки значения по этому атрибу-

ту и дальнейшее движение по дереву производится в зависимости от полученного результата.

Данный алгоритм применяется к полученным подмножествам и позволяет продолжить рекурсивно процесс построения дерева, до тех пор, пока в узле не окажутся примеры из одного класса. Если в процессе работы алгоритма получен узел, ассоциированный с пустым множеством (т.е. ни один пример не попал в данный узел), то он помечается как лист, и в качестве решения листа выбирается наиболее часто встречающийся класс у непосредственного предка данного листа.

Для нахождения пороговых величин для числового атрибута значения xj,i = 1,m; j = 1,p сортируются по возрас-

iq

значение

: = (xj + xj+x )/2,i = 1, m; j = 1, p — 1

определяют порог, с которым должны сравниваться все значения

атрибута. Следует отметить, что все числовые тесты являются бинарными, т.е. делят узел дерева на две ветви.

Правила остановки разбиения узла.

1) Использование статистических методов для оценки целесообразности дальнейшего разбиения.

2) Ограничение глубины дерева. Остановить дальнейшее построение, если разбиение ведет к дереву с глубиной, превышающей заданное значение.

3) Разбиение должно быть нетривиальным, т.е. получившиеся в результате узлы должны содержать не менее заданного количества примеров.

Правило отсечения ветвей дерева.

Предназначено для предотвращения сложных деревьев, трудных для понимания, которые имеют много узлов и ветвей.

Примем за точность распознавания дерева решений отношение правильно классифицированных объектов при обучении к общему количеству объектов из обучающего множества, а под ошибкой - количество неправильно классифицированных. Предположим, что известен способ оценки ошибки дерева, ветвей и листьев. Тогда, возможно использовать следующее правило: 1 - построить дерево; 2 - отсечь или заменить поддеревом те ветви, которые не приведут к возрастанию ошибки.

Отсечение ветвей происходит снизу вверх, двигаясь с листьев дерева, отмечая узлы как листья, либо заменяя их поддеревом.

Рассмотрим задачу распознавания образов при разделении пластов на продуктивные и водоносные. Будем учитывать три класса: углеводород, углеводород-вода, вода. Объектами каждого класса являются

соответствующие пласты. Показания геофизических методов образуют вектор признаков X = хт). Будем использовать результаты измерений, полученные электрометрическим, акустическим, радиометриче-

скими методами, метод кавернометрии (т = 5) . Для анализа использовались результаты геофизических

исследований для десяти скважин сеноманской залежи Уренгойского месторождения (всего 324 пласта-коллектора). Пять скважин (162 точки) образовывали обучающую выборку, пять других скважин принадлежат тестовой выборке.

Тестирование изложенного метода построения деревьев решений проведено в работе [4] показало хорошие классификационные свойства алгоритма при малых временных затратах.

Оптимизированное дерево решений для рассматриваемого варианта показано на рис.1. Дерево содержит

23 узла. Переменные, соответствующие вектору признаков, обозначены следующим образом:

электрометрический метод (ВК) - Х[0]; акустический метод (АК) - Х[1]; гамма - каротаж (0К) - Х[2]; нейтронный гамма-каротаж (ЫОК) - Х[2]; метод кавернометрии - Х[4].

Показания методов являются нормированными XИ е[0,1],I = 1,5 .

~ ^ ^ Рис.1. ^Дере ^решений для классификации продуктивных пластов

Три класса пластов коллекторов имеют обозначения: вода -0; углеводород + вода - 1; углеводород -

2. Номер класса в дереве является цифрой в строке.

Построенному дереву соответствует набор из следующих 12 правил.

0 if X[0] >= 0.60 then Y= 2

1 if X[0] < 0.60 AND X[4] >= 0.80 then Y= 0

2 if X[0] < 0.60 AND X[4] < 0.80 AND X[0] >= 0.12 AND X[4] >= 0.16 AND X[1] 0.20 AND X[2] >=

0. 80 then Y= 0

3 if X[0] < 0.60 AND X[4] < 0.80 AND X[0] >= 0.12 AND X[4] >= 0.16 AND X[1] >= 0.20 AND X[2] <

0. 80 AND X[3] >= 0.59 then Y= 0

4 if X[0] < 0.60 AND X[4] < 0.80 AND X[0] >= 0.12 AND X[1] >= 0.20 AND X[2] < D 0 8 0. X[3] <

0. 59 AND X[4] >= 0.66 then Y= 0

5 if X[0] < 0.60 MID X[0] > = 0.12 AND X[4] >= 0.16 AND X[2] < 0.80 AND X[3] < D 9 5 0. X[4] <

0. 66 AND X[1] >= 0.84 then Y= 1

6 if X[0] < 0.60 AND X[0] >= 0.12 AND X[4] >= 0.16 AND X[1] >= 0.20 AND X[2] < D 0 8 0. X[3] <

0. 59 AND X[4] < 0.66 AND X[1] < 0.84 then Y= 0

7 if X[0] < 0.60 AND X[4] < 0 0.80 AND X[0] >= 0.12 AND X[4] >= 0.16 AND X[1] < 0. 20 then Y= 0

8 if X[0] < 0.60 AND X[0] >= 0.12 AND X[4] < 0.16 AND X[1] >= 0.41 then Y= 1

9 if X[0] < 0.60 AND X[0] >= 0.12 AND X[4] < 0.16 AND X[1] >= 0.18 AND X[1] < 0. 41 then Y= 0

10 if X[0] < 0.60 AND X[0] >= 0.12 AND X[4] < 0.16 AND X[1] < 0.18 then Y= 2

11 if X[4] < 0.80 AND X[0] < 0.12 then Y= 0

На обучающей выборке количество правильно классифицированных пластов составляет 89.5%, а на тестовой - 88.9%. Эти результаты сопоставимы с данными, приведенными в работе [3] и полученными с применением систем нечеткого вывода. Системы нечеткого вывода, как известно, требуют значительных временных затрат при обучении.

Другая задача интерпретации геофизических исследований скважин заключается в определении границ пластов-коллекторов, что требует поточечного анализа. Для систем нечеткого вывода большое количество точек (2 - 3 тысячи) является значительным препятствием при обучении. Хотя нейросетевые методы требуют меньших затраты времени, все равно обучение сети является продолжительным. Будем решать эту задачу с использованием метода деревьев решения. Геофизические методы являются прежними. Классы обозначены: 1 - пласт-коллектор; 0 - прослойка.

Фрагмент каротажной диаграммы показан на рис.2. При построении дерева показания метода кавернометрии оказались не представительными и в дальнейшем анализе не участвовали. Это свойство игнорировать незначащие факторы также является положительным качеством метода деревьев решений.

Рис.2. Фрагмент каротажной диаграммы

Сложность создаваемых деревьев определяется количеством узлов и ветвей. Простое дерево имеет более наглядный вид. Одним из факторов, влияющих на сложность дерева, является минимальное количество объектов (точек) в конечном узле - .^п . Данные каротажа характеризуются высокой степенью зашумленности и значение .^п должно быть достаточно большим. Для установления наилучшего значения .^п проведена серия расчетов, выявившая зависимость сложности построенных деревьев от минимального количества объектов в конечном узле. Сложность характеризуется количеством полученных правил. На рис.3 приведены результаты этих расчетов. Количество правил при малом < 10 велико (более 100).

Рис.3. Зависимость количества полученных правил в дереве от минимального количества объектов в конечном узле

Сложность построенного дерева определяет меру способности к правильной классификации. На рис.4 приведена доля правильно классифицированных объектовЦ от всех рассматриваемых, выраженная в процентах .

Рис.4. Зависимость доли правильно классифицированных объектов при изменении минимального количества точек в конечном узле (дискретная классификация)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Жирной линией на рис.4 показана способность дерева к классификации на проверочной выборке, а тонкой - на тренировочной. Большое количество правил при малом Р^п увеличивают величину Ц на тренировочной выборке, а на тестовой уменьшают. Это объясняется тем, что большое количество правил охватывает большее число возможных ситуаций, в том числе, нетипичных и редко встречающихся. Способность к обобщению при этом снижается, что и проявляется в более низких значениях Ц на тестовой выборке, не

участвовавшей в построении дерева. С увеличением Р^п количество правил снижается до 14 и величина Ц возрастает до 80%. Дальнейшее увеличение Р^п не оказывает заметного влияния на построение дерева. Таким образом, для задач классификации пластов (коллектор - не коллектор) по результатам геофизических измерений минимальное количество объектов в конечном узле принимается .^п =100 .

Применение для задачи классификации непрерывного нечеткого вывода на основе полученных правил [4] не привело к улучшению результатов. На рис.5 приведены данные, аналогичные рисунку 4, полученные на основе непрерывного вывода.

Рис.5. Зависимость доли правильно классифицированных объектов от минимального количества точек в конечном узле (непрерывный вывод)

Видно, что доля правильно классифицированных объектов в случае непрерывного вывода меньше, чем для дискретного. В дальнейшем для задач интерпретации результатов ГИС с позиции выделения коллекторов целесообразно применять дискретную классификацию.

Исследован также способ разделения экспериментальных данных на обучающую и проверочную выборки. На рис.6 показано влияние размера тренировочной выборки V (в процентах от всего объема данных) на количество получаемых правил.

Рис.6. Зависимость количества правил от разбиения обучающей выборки

Увеличению количества объектов в тренировочной выборке соответствует появление новых правил и к возрастает. Доля правильно классифицированных объектов для тренировочной выборки также возрастает (рис.7). Для тестовой выборки изменение величины Ц не имеет монотонного поведения.

Рис.7. Зависимость доли правильно классифицированных объектов от разбиения обучающей выборки

Это означает, что при малом количестве точек не все закономерности выявляются при построении правил. При неравномерном распределении данных (больше в тренировочную выборку, меньше в проверочную) снижается способность дерева к обобщению. Оптимальное сочетание объемов выборок для данного класса задач 50:50.

Ниже приведены 13 правил, характерные для изучаемого набора экспериментальных данных.

0 if X[1] >= 0.80 then Y= 0

1 if X[1] < 0.80 AND X[3] >= 0.80 then Y= 0

2 if X[1] < 0.80 AND X[3] < 0.80 AND X[3] >= 0.47 then Y= 0

3 if X[1] < 0.80 AND X[3] < 0.47 AND X[0] >= 0.42 then Y= 1

4 if X[1] < 0.80 AND X[3] < 0.47 AND X[0] < 0.42 AND X[2] >= 0.20 then Y= 0

5 if X[1] < 0.80 AND X[3] < 0.47 AND X[0] < 0.42 AND X[2] < 0.20 AND X[3] >= 0.28 AND X[2] >= 0.12 then Y= 0

6 if X[1] < 0.80 AND X[3] < 0.47 AND X[0] < 0.42 AND X[3] >= 0.28 AND X[2] < 0.12 AND X[1] >=

0.56 then Y= 0

7 if X[3] < 0.47 AND X[0] < 0.42 AND X[2] < 0.12 AND X[1] < 0.56 AND X[3] >

0.02 AND X[1] >= 0.31 then Y= 1

8 if X[3] < 0.47 AND X[0] < 0.42 AND X[2] < 0.12 AND X[1] >= 0.13 AND X[3]

0.02 AND X[1] < 0.31 then Y= 0

9 if X[3] < 0.47 AND X[0] < 0.42 AND X[1] >= 0.13 AND X[1] < 0.56 AND X[3]

0.02 then Y= 1

10 if X[0] < 0.42 AND X[3] >= 0.28 AND X[2] < 0.12 AND X[1] >= 0.13 AND X[1] < 0.56 AND X[3] <

0.32 then Y= 1

11 if X[3] < 0.47 AND X[0] < 0.42 AND X[3] >= 0.28 AND X[2] < 0.12 AND X[1] < 0.13 then Y= 1

12 if X[1] < 0.80 AND X[0] < 0.42 AND X[2] < 0.20 AND X[3] < 0.28 then Y= 1

Результаты выделения пластов по алгоритму деревьев решений приведены на рис.8 (сплошная линия) для

проверочных данных (новая скважина). Здесь же показаны результаты экспертной интерпретации (пунктирная

линия с крестиками).

0.32 AND X[2] >= 0.32 AND X[2] >= 0.32 AND X[2] <

1020 1030 1040 1050 1060 1070 1080 1090 1100 1110 Ь,М

Рис.8. Сравнение результатов классификации с экспертной интерпретацией

Доля правильно классифицированных точек составила 82%. Можно отметить наличие тонких пластов, выделенных алгоритмом деревьев решения, и их отсутствие у интерпретаторов. Это связано с тем, что при интерпретации обычно ставится условие: не учитывать тонкие пласты. Введение этого условия в

алгоритм классификации также убирает тонкие пласты.

На основании проведенных исследований можно сделать вывод, что метод деревьев решений является перспективным при разработке систем экспресс - интерпретации результатов геофизических исследований скважин.

ЛИТЕРАТУРА

1. Дьяконова Т.Ф. Применение ЭВМ при интерпретации данных геофизических исследований скважин. -М.: Недра, 1991.220с.

2. Латышова М.Г., Вендельштейн Б.Ю., Тузов В.П. Обработка и интерпретация материалов геофизических исследований скважин. - М.: Недра, 1990.309с.

3. Сенилов М.А., Тененев В.А. Интеллектуальные алгоритмы интерпретации геофизических исследований скважин. СПб: Изд-во СПбГЭТУ «ЛЭТИ»,2 0 0 4.12 8с.

4. Тененев В.А., Ворончак В.И.Решение задач классификации и аппроксимации с применением нечетких деревьев решений./ Интеллектуальные системы в производстве, №2, 2 0 05.с.-46-69.

i Надоели баннеры? Вы всегда можете отключить рекламу.