Костиков Д.В., Ларюхин А.И., Лялин В.Е. СРАВНЕНИЕ МЕТОДОВ УМЕНЬШЕНИЯ ОБУЧАЮЩЕЙ ВЫБОРКИ ПРИ ИНТЕРПРЕТАЦИИ ДАННЫХ ГЕОФИЗИЧЕСКИХ ИССЛЕДОВАНИЙ СКВАЖИН С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ
Промысловая геофизика решает задачи поисков и разведки месторождений полезных ископаемых и входит в состав геологоразведочных работ, проводимых для выявления и оценки запасов минерального сырья. В процессе геологоразведочных работ бурятся поисковые и разведочные скважины, из которых получают образцы горных пород (керн) для изучения состава, структуры и различных петрофизических характеристик геологического разреза. Во многих случаях отбор керна из скважин технически невозможен или экономически невыгоден, тогда применяется другой метод получения геологической информации, без необходимости отбора керна, - с использованием геофизических исследований скважин (ГИС). Основой ГИС является каротаж, который заключается в измерении вдоль ствола скважины при помощи каротажного зонда или наземных датчиков какой-либо величины, характеризующей физические, химические или другие свойства горных пород, вскрытых скважиной. Полученный комплекс каротажных диаграмм поступает на обработку геофизику, который при помощи специальных программных средств и на основе собственного опыта производит их расшифровку (геологическую интерпретацию).
В настоящее время бурение любой скважины обязательно сопровождается комплексом ГИС. Фрагмент каротажных диаграмм приводится на рисунке 1.
Рис. 1 Фрагмент нормированных каротажных кривых
Опишем методы каротажа, которые часто входят в комплекс ГИС, и были использованы при написании работы: 1. ВК - боковой каротаж. Измерение удельного электрического сопротивления горных пород. 2.DS - ка-
вернометрия. Измерение фактического диаметра необсаженной скважины. 3.БТ - акустический каротаж. Измерение интервального времени пробега продольной звуковой волны. 4. GR - гамма-метод. Регистрация интенсивности естественного гамма-излучения горных пород. 5.NGR - нейтронный гамма-метод. Измерение поглощения и рассеяния нейтронов горными породами.
Каротажные диаграммы представляют собой одномерные функции, которые устанавливают связь между глубиной и каким-либо измеряемым параметром пород (в зависимости от рассматриваемого типа каротажа)
и = / (Л) + % ,
где и - значение метода каротажа; 3 - глубина; £ - случайная компонента (шум или помеха).
Для решения задачи интерпретации данных ГИС можно воспользоваться аппаратом нейронных сетей (НС) . Применение НС позволяет повысить эффективность работы интерпретатора за счет того, что обученная однажды сеть может быстро давать оценки уже без участия высококвалифицированного персонала. При подготовке НС для экспресс интерпретации данных ГИС основными целями являются: увеличение точности распознавания пластов и повышение скорости процесса обучения нейронной сети. Целью данной работы является поиск методов ускорения процесса обучения при распознавании литологической структуры скважины по данным геофизических исследований скважин.
Обычно на практике мало времени уделяется подготовке данных, в то время как подготовка данных - важный и критичный шаг в нейросетевом моделировании. От того насколько хорошо подготовлены данные, во многом может зависеть результат использования нейронной сети. Правильная подготовка данных позволяет нейронной сети быстрее и качественнее обучатся и функционировать. Неправильная подготовка данных может сделать анализ сложным или даже не возможным. Работая с данными ГИС, можно столкнуться с ситуацией, когда обучающие множество содержит большое количество примеров, часть, из которых являются однотипными. Такое обучающие множество будет увеличивать время необходимое на обучение НС, не давая улучшения качества интерпретации. Таким образом, одним из способов повышения скорости процесса обучения нейронных сетей является уменьшение количества примеров в обучающей выборке (ОВ). Для того чтобы убрать наименее информативные примеры из обучающей выборки воспользуемся методами кластеризации.
При использовании аппарата нейронных сетей для интерпретации данных ГИС используются окна данных. Таким образом, входной вектор будет иметь следующий вид:
х,.
+к>л1-к>
А|:+к>
л1-к ■
хг+к
N \
Ъ+к ) '
где 2к +1 - размер окна данных, N - количество используемых каротажных сигналов.
Решением задачи литологического расчленения разреза скважины будет являться определение принадлежности к классу коллектор/не коллектор, а также определение типа флюида (нефть, вода, нефть-вода). Поэтому выход НС для отсчета 1 будет представлять вектор:
г,- = (к О > Щ ,0Щ)
2
2
N — 1
где к.- вероятность того, что пласт на отсчете глубины 1 является коллектором; й. - вероятность того, что пласт на отсчете глубины 1 нефтенасыщен; Щ - вероятность того, что пласт на отсчете глубины 1 водонасыщен; й*1 - вероятность того, что пласт на отсчете глубины 1 нефте-водонасыщен;
Рассмотрим два варианта уменьшения объема ОВ: группировка на основе расстояния Евклида и метод кластеризации ^-средних.
Для того чтобы получить подмножество меньшего объема можно объединить примеры исходного множества в отдельные группы сходных примеров. И далее оставить по одному примеру из каждой группы. Для реализации предложенного метода необходимо выяснить, каким образом определять степень сходства.
Существует множество подходов к определению степени сходства входных сигналов. Обычно степень подобия определяется на основе расстояния Евклида.
Расстояние Евклида между парой т -мерных векторов х1 и х. :
а, х-) = ||х - х-1| = хк - хк)2 .
где х$ и Хд — к -е элементы векторов Ху и Xj соответственно.
Отсюда следует, что степень сходства между входными сигналами, представленными векторами х( , и х• , является величиной, обратной Евклидову расстоянию между ними а(х1,х^-) . Таким образом, оценку степени сходства двух т -мерных векторов можно записать в следующем виде:
1 1
Р( X,х<) =
7 II 1 і'II
То есть чем ближе друг к другу отдельные элементы векторов X и X. , тем меньше расстояние Евклида
d(хі,X •) и тем выше сходство между векторами X. и X. . Если векторы хі и X. схожи (т.е. оценка степени
сходства принимает значение больше некоторого заданного Р ), то они должны быть отнесены к одной группе.
Таким образом, при разбиении исходного множества на группы, в одну группу схожих примеров попадут те примеры, коэффициент степени сходства которых больше Р . Это можно записать в следующем виде:
Кі = {Ук : Р(Ук’У)) ^Р} ' к = Ъ-Н ' і = 1,-м •
где N - количество примеров в множестве; М - количество групп.
То есть, в группу К . (с центром в точке уj ) попадают те примеры ук , для которых Р(Ук > У і ) > Р • Переходя от коэффициента сходства к расстоянию между векторами можно записать:
Кі = {Ук : d (Ук=У і) ^ а} = {Ук :\Ук - Уі|| ^ а}, к = , і = 1,..М •
где а - число, определяющее размер группы.
Таким образом, все исходное множество А покрывается объединением множеств К., как показано на ри-
сунке 2.
Рис.2. Пример разбиения исходных данных на группы сходных примеров
То есть можно записать: м
•
3=1
Получив, таким образом, М групп схожих примеров, переходим от исходной обучающей выборки к уменьшенной ОВ, оставляя по одному примеру из каждой группы. Получаем, что уменьшенная обучающая выборка содержит М примеров и это значение зависит от выбора параметра а .
К достоинствам алгоритма группировки на основе расстояния Евклида можно отнести высокую скорость работы, к недостаткам не высокую точность.
Для снижения количества примеров обучающего множества можно воспользоваться алгоритмами кластеризации. Наиболее распространенным среди методов кластеризации является алгоритм к -средних (к — теаш ), также называемый быстрым кластерным анализом. При использовании этого метода заранее определяется количество классов ( к ), на которое будет разбито исходное множество. Выбор числа к может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Суть алгоритма к -средних определяется следующим образом: выбирается к векторов-строк, которые
определяются как центроиды (наиболее типичные представители, центры кластеров) кластеров. Выбор начальных центроидов может осуществляться различными способами. Например могут выбираться к наблюдений так, чтобы расстояния между ними были максимальными, или к наблюдений могут выбираться случайно, также можно выбрать к первых наблюдений.
Затем к кластеров наполняются — для каждого из оставшихся векторов-строк определяется близость к центроиду соответствующего кластера. После этого вектор-строка приписывается к тому кластеру, к центроиду которого он наиболее близок. Затем строки-векторы группируются и перенумеровываются.
Для каждого из новых кластеров заново вычисляется центроид — вектор-строка, наиболее близкая ко всем векторам из данного кластера (в качестве меры близости векторов может использоваться, например, расстояние Евклида).
После этого заново выполняется процесс наполнения кластеров, затем вычисление новых центроидов и т.д., пока процесс формирования кластеров не стабилизируется (или набор центроидов не повторится).
После получений результатов кластерного анализа методом к -средних можно проверить правильность кластеризации (т.е. оценить, насколько кластеры отличаются друг от друга). Для этого рассчитываются средние значения для каждого кластера. При хорошей кластеризации должны быть получены сильно отличающиеся средние для всех измерений или хотя бы большей их части.
Достоинствами алгоритма k-средних являются простота использования, быстрота использования, понятность и прозрачность алгоритма. К недостаткам алгоритма k-средних можно отнести то, что алгоритм слишком чувствителен к выбросам, которые могут искажать среднее, а также алгоритм может медленно работать на больших базах данных. Решением последнего недостатка может быть ранний останов алгоритма, в том случае, когда не требуется большой точности нахождения центров.
После применения алгоритма k-средних, получаем к центроидов, которые и будут составлять уменьшенное обучающее множество.
Результаты эксперимента по применению метода снижение количества входных примеров с помощью группировки на основе расстояния Евклида приведены ниже. В качестве оценок качества интерпретации используются среднеквадратическое отклонение (СКО) и коэффициент корреляции.
Применив данный метод для уменьшения избыточности данных обучающей выборки, получим следующие результаты (табл. 1).
Таблица 1
Сравнительная таблица объемов ОВ
Обучающая выборка Объем ОВ Часть от всей ОВ, %
Без уменьшения объема 6110 100,00%
Классы при а = 0,1 377 9 61,85%
Классы при а = 0,15 1943 31,80%
Классы при а = 0,2 1004 16,43%
Классы при а = 0,3 360 5,89%
Уменьшив объем обучающей выборки, проведем обучение сети и сравним результаты. В данном эксперименте количество нейронов в скрытом слое равно 21 для всех нейронных сетей. Все нейронные сети обучались 10 000 эпох. Результаты интерпретации представлены в таблице 2. Фрагменты результатов распознавания коллекторов приведены на рисунке 3.
Таблица 2
Сравнительная таблица результатов интерпретации на основе уменьшенных обучающих выборках
№ скв. Входные данные Коллектор Нефть Вода Нефть- вода
СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел.
13089 Без уменьш а = 0,1 а = 0,15 а = 0,2 а = 0,3 0,011 0,011 0,011 0,011 0,012 0,748 0,750 0,754 0,745 0,736 0,012 0,012 0,012 0,012 0,013 0,584 0,566 0,582 0,579 0,533 0,009 0,009 0,008 0,008 0,008 0,456 0,463 0,551 0,593 0,610 0,007 0,007 0,007 0,007 0,007 0,266 0,268 0,271 0,268 0,259
13090 Без уменьш а = 0,1 а = 0,15 а = 0,2 а = 0,3 0,012 0,012 0,012 0,013 0,015 0,748 0,760 0,755 0,728 0,650 0,012 0,013 0,012 0,013 0,014 0,588 0,554 0,603 0,582 0,514 0,009 0,008 0,007 0,007 0,007 0,624 0,643 0,687 0,684 0,690 0,009 0,009 0,009 0,009 0,009 0,322 0,310 0,261 0,335 0,341
13093 Без уменьш а = 0,1 а = 0,15 а = 0,2 а = 0,3 0,011 0,011 0,011 0,012 0,015 0,768 0,784 0,781 0,775 0,700 0,012 0,012 0,012 0,012 0,014 0,682 0,682 0,674 0,681 0,631 0,008 0,008 0,008 0,008 0,008 0,125 0,145 0,206 0,249 0,255 0,006 0,006 0,006 0,006 0,006 0,151 0,141 0,136 0,164 0,159
13109 Без уменьш а = 0,1 0,011 0,011 0,738 0,740 0,012 0,012 0,621 0,613 0,006 0,006 0,268 0,280 0,007 0,007 0,254 0,270
а = 0,15 0,011 0,733 0,012 0,623 0,005 0,407 0,007 0,265
сТ II 0,012 0,723 0,012 0,638 0,005 0,496 0,007 0,224
а = 0,3 0,014 0,657 0,014 0,584 0,005 0,525 0,007 0,230
Без уменьш 0,013 0,707 0,013 0,600 0,006 0,270 0,006 0,199
а = 0,1 0,013 0,708 0,013 0,589 0,006 0,283 0,006 0,190
а = 0,15 0,013 0,704 0,014 0,590 0,006 0,331 0,006 0,180
13115 а = 0,2 0,013 0,691 0,014 0,572 0,006 0,369 0,006 0,187
а = 0,3 0,016 0,594 0,015 0,487 0,006 0,383 0,006 0,205
Без уменьш 0,012 0,742 0,012 0,615 0,007 0,349 0,007 0,238
знач. а = 0,1 0,012 0,748 0,013 0,601 0,007 0,363 0,007 0,236
а = 0,15 0,012 0,745 0,012 0,615 0,007 0,436 0,007 0,223
Сред. а = 0,2 0,012 0,732 0,013 0,610 0,007 0,478 0,007 0,235
а = 0,3 0,014 0,667 0,014 0,550 0,007 0,493 0,007 0,239
Таблица 3
Сравнительная таблица времени обучения
Обучающая выборка Время, мин
Без уменьшения объема 24
Классы при а = 0,1 15
Классы при а = 0,15 9
Классы при а = 0,2 5
Классы при а = 0,3 3
Сравнительная таблица времени обучения представлена в таблице 3. Время уменьшения ОВ составило меньше минуты. Все временные оценки получены на компьютере с процессором Реп^иш4-2400 и ОП 512Мб.
Из представленных таблиц видно, что применение методов уменьшения объема обучающей выборки позволяет значительно сократить время обучения нейронной сети и при этом повысить качество распознавания.
а) без уменьшения объема ОВ
б) уменьшение объема ОВ (а = 0,1 );
10 19 Я V « » М П 82 91 100 М)9 И« 127 1» 1*5 1« 1« 172 190 199 20$ 217 2Ж 235 2« 253 2« гп 2*0 289 29в
г) уменьшение объема ОВ (а = 0,2 );
д) уменьшение объема ОВ (а = 0,3 );
Рис. 3. Фрагменты результатов распознавания коллекторов: а) без уменьшения объема ОВ; б) уменьшение объема ОВ (а = 0,1); в) уменьшение объема ОВ (а = 0,15); г) уменьшение объема ОВ (а = 0,2); д) уменьшение объема ОВ ( а = 0,3 )
В отличие от алгоритма основанного на расстоянии Евклида, в котором задается размер группы, в алгоритме ^-средних необходимо задавать количество кластеров. Для того чтобы легче было сравнивать результаты применения этих двух методов, количества кластеров используемых для работы алгоритма ^-средних соответствуют количеству групп предыдущего метода (табл. 4). Результаты эксперимента по применению метода снижение количества входных примеров с помощью метода ^-средних приведены ниже (табл. 5).
Таблица 4
Сравнительная таблица объемов ОВ
Обучающая выборка Объем ОВ Часть от всей ОВ, %
Без уменьшения объема 6110 100,00%
О В 1 377 9 61,85%
О В 2 1943 31,80%
ОВ 3 1004 16,43%
ОВ 4 360 5,89%
Уменьшив объем обучающей выборки, проведем обучение сети. При этом обучающее множество состоит из полученных центров кластеров.
Таблица 5
Сравнительная таблица результатов интерпретации на основе уменьшенных обучающих выборках
№ скв. Входные данные Коллектор Нефть Вода Нефть- вода
СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел. СКО Коэфф. коррел.
Без уменьш 0,011 0,748 0,012 0,584 0,009 0,456 0,007 0,266
ОВ1 0,011 0,753 0,012 0,583 0,009 0,542 0,007 0,267
13089 ОВ2 0,011 0,755 0,012 0,618 0,008 0,636 0,007 0,274
ОВ3 0,011 0,751 0,011 0,645 0,007 0,671 0,007 0,261
ОВ4 0,011 0,741 0,012 0 632 0 007 0,689 0 007 0,249
Без уменьш 0,012 0,748 0,012 0 588 0 009 0,624 0 009 0,322
ОВ1 0,012 0,759 0,012 0 606 0 008 0,686 0 009 0,326
ОВ2 0,012 0,753 0,012 0 628 0 008 0,659 0 009 0,283
13090 ОВ3 0,012 0,738 0,013 0 602 0 008 0,704 0 009 0,294
ОВ4 0,012 0,704 0,013 0 575 0 008 0,693 0 009 0,339
Без уменьш 0,011 0,768 0,012 0 682 0 008 0,125 0 006 0,151
ОВ1 0,011 0,781 0,012 0 662 0 008 0,205 0 006 0,134
ОВ2 0,010 0,784 0,012 0 656 0 008 0,361 0 006 0,111
13093 ОВ3 0,011 0,785 0,012 0 668 0 008 0,489 0 006 0,102
ОВ4 0,011 0,792 0,011 0 696 0 008 0,567 0 006 0,133
Без уменьш 0,011 0,738 0,012 0 621 0 006 0,268 0 007 0,254
ОВ1 0,011 0,730 0,012 0 625 0 005 0,374 0 007 0,250
ОВ2 0,011 0,719 0,012 0 648 0 005 0,464 0 007 0,244
13109 ОВ3 0,012 0,687 0,012 0 627 0 004 0,692 0 007 0,260
ОВ4 0,011 0,709 0,012 0 642 0 004 0,764 0 007 0,254
Без уменьш 0,013 0,707 0,013 0 600 0 006 0,270 0 006 0,199
ОВ1 0,012 0,716 0,013 0 613 0 006 0,329 0 006 0,171
ОВ2 0,012 0,716 0,013 0 626 0 006 0,322 0 006 0,141
13115 ОВ3 0,013 0,700 0,013 0 613 0 006 0,387 0 006 0,148
ОВ4 0,013 0,691 0,013 0 581 0 006 0,369 0 006 0,180
Без уменьш 0,012 0,742 0,012 0 615 0 007 0,349 0 007 0,238
знач. ОВ1 0,011 0,748 0,012 0 618 0 007 0,427 0 007 0,230
ОВ2 0,011 0,746 0,012 0 635 0 007 0,489 0 007 0,211
Сред. ОВ3 0,012 0,732 0,012 0 631 0 007 0,588 0 007 0,213
ОВ4 0,012 0,727 0,012 0 625 0 007 0,616 0 007 0,231
Результаты показывают, что уменьшение объема обучающей выборки не привело к ухудшению результатов, а даже позволило улучшить их.
Фрагменты результатов эксперимента по выделению пластов-коллекторов при использовании нейронных сетей, обученных на различных обучающих выборках, приведены на рисунке рис. 4.
б) ОВ 1
1 10 И 28 37 «8 И 84 П 82 91 100 109 118 177 1» 145 1М 1вЗ 172 1(1 190 199 20в 217 228 23& 244 2S3 262 271 280 2в» 298
д) ОВ 4
Рис. 4. Фрагменты результатов распознавания коллекторов: а) без уменьшения объема ОВ; б) уменьшение
объема ОВ 1; в) уменьшение объема ОВ 2; г) уменьшение объема ОВ 3; д) уменьшение объема ОВ 4
Все нейронные сети обучались 10 000 эпох. Сравнительная таблица времени подготовки данных, времени обучения и суммарного времени представлены ниже (табл. 6).
Таблица 6
Сравнительная таблица времени подготовки данных, времени обучения и суммарного времени представлены
Обучающая выборка Время подготовки, мин Время обучения, мин Суммарное время, мин
Без уменьшения объема 0 24 24
1 В О 2 15 17
2 В О 2 9 11
3 В О 1 5 6
ОВ 4 1 3 4
Из представленных таблиц видно, что применение методов уменьшения объема обучающей выборки позволяет значительно сократить время обучения нейронной сети и при этом повысить качество распознавания.
Полученные результаты показывают, что обучающая выборка, составленная с использованием окон данных для каротажных сигналов, имеет большое количество избыточных данных. Избыточные данные приводят к усложнению архитектуры нейронной сети, а также увеличивают время обучения. Существует возможность уменьшения объема обучающей выборки с помощью исключения схожих примеров.
Сравнивая метод ^-средних и метод группировки, основанный на расстоянии Евклида, можно сказать, что метод ^-средних более точно определяет кластеры (рис. 3д и 4д), но при этом он затрачивает большее количество времени (табл. 3 и 6).
Применив метод сокращения количества схожих примеров, в работе удалось уменьшить объем обучающей выборки (с 6110 примеров до 194 3 примеров), уменьшить время обучения сети (с 24 мин. до 11 мин.) и повысить качество интерпретации данных ГИС.
ЛИТЕРАТУРА
1. Data Mining. Методы кластерного анализа. Итеративные методы.
2. http://www.intuit.ru/department/database/datamining/14/datamining_14.html
3. Сайт BaseGroup Labs Кластеризация // http://www.basegroup.ru/clusterization/
4. Уоссермен Ф. Нейрокомпьютерная техника. М., Мир, 1992.
5. Хайкин С. Нейронные сети: полный курс, 2-е издание. М., Издательский дом «Вильямс», 2006.