Научная статья на тему 'Применение математической модели нейронной сети Хэмминга для контроля качества и восстановления некорректных атрибутов метаданных из заголовков сейсмических файлов'

Применение математической модели нейронной сети Хэмминга для контроля качества и восстановления некорректных атрибутов метаданных из заголовков сейсмических файлов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
247
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНТРОЛЬ КАЧЕСТВА / QUALITY CONTROL / БАНК ДАННЫХ / DATA BANK / СЕЙСМОРАЗВЕДКА / SEISMIC EXPLORATION / НЕЙРОННАЯ СЕТЬ / NEURAL NETWORK / МЕТАДАННЫЕ / METADATA / SEGY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щербич Алексей Юрьевич, Кутрунов Владимир Николаевич

Рассматривается авторский метод оценки качества атрибутов метаданных в заголовках файлов данных сейсморазведки. Авторы в качестве модели банка данных опираются на промышленный стандарт POSC Epicentre. Авторский метод предлагает использовать математическую модель нейронной сети Хэмминга для оценки качества и автоматической корректировки атрибутов, представленных среди метаданных служебных заголовков сейсмических файлов. На основе нейронной сети реализуется механизм ассоциативной памяти, ставящей в соответствие значению атрибута метаданных одну из эталонных записей словаря POSC Epicentre. Рассматривается как классическая структура и схема работы сети, так и механизмы подготовки входных данных и принятия конечного решения. Метод используется в авторском программном комплексе Smart SEGY для автоматизированного потокового контроля качества и корректировки содержимого метаданных в файлах SEGY.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щербич Алексей Юрьевич, Кутрунов Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF HAMMING NEURAL NETWORK MATHEMATICAL MODEL FOR QUALITY CONTROL AND RECOVERY OF INCORRECT METADATA ATTRIBUTES STORED IN SEISMIC EXPLORATION FILE HEADERS

The article describes the authors’ method for the quality control of metadata attributes in the file headers of seismic exploration data. POSC Epicentre industry standard is taken as a data bank model. The authors’ method allows to use the mathematical model of Hamming neural network for quality estimation and automated adjustment of the metadata attributes stored in the control headers of seismic files. An associative memory mechanism is implemented on the basis of a neural network so as it allows establishing correspondence between a determined value of a metadata attribute and one of the reference values stored in POSC Epicentre dictionary. The paper describes the classical structure and operation scheme of Hamming network as well as the input data preparation techniques and final decision-making strategies. The method described is used in author’s software package Smart SEGY designed for automated bulk data quality control and adjustment of metadata attributes in SEGY files.

Текст научной работы на тему «Применение математической модели нейронной сети Хэмминга для контроля качества и восстановления некорректных атрибутов метаданных из заголовков сейсмических файлов»

Таблица 4

Значения коэффициентов c2 статистики

Вход Выход Число степеней свободы Н Число степеней свободы Q

Nfe N02(np') 13 21,9 23 29,47

Nfß N02(np') 12 12,4 25 35,84

Nfr N02(nw 13 15,2 25 35,03

Шб N02 (л') 13 19,8 15 14,07

NfB N02 (л') 13 19,7 15 14,80

Nfr N02 (л') 13 21.9 15 15,74

Диагностическая проверка по автокорреляционным и взаимно-корреляционным функциям с использованием зна-

V» 9 ч/

чении ^статистики [1] не дает основании в сомнении адекватности модели.

В результате проведенных исследовании получены модели, позволяющие оценить влияние частоты вращения питателей сырого угля на содержание кислоро-

да в уходящих газах. При увеличении частоты вращения питателей сырого угля содержание кислорода в уходящих газах уменьшается.

Модели могут быть использованы для прогноза и управления температурным режимом топочного устройства.

Статья поступила 21.12.2015 г.

Библиографический список

1. Бокс Д., Дженкинс Г. Анализ временных рядов. Прогноз и управление. М.: Мир, 1974. 603 с.

2. Серов Е.П., Корольков Б.П. Динамика парогенераторов. М.: Энергоиздат, 1981. 409 с.

3. Хапусов В.Г., Баев А.В. Смешанные авторегрессионные модели и прогнозирование процесса вы-

работки пара // Вестник ИрГТУ. 2014. № 12. С. 2934.

4. Шорохов В.А. Разработка динамической модели многосвязной АСР пылеугольного блока с прямым вдуванием пыли // Теплоэнергетика. 2009. № 10. С. 56-61.

УДК 519.711.3

ПРИМЕНЕНИЕ МАТЕМАТИЧЕСКОЙ МОДЕЛИ НЕЙРОННОЙ СЕТИ ХЭММИНГА ДЛЯ КОНТРОЛЯ КАЧЕСТВА И ВОССТАНОВЛЕНИЯ НЕКОРРЕКТНЫХ АТРИБУТОВ МЕТАДАННЫХ ИЗ ЗАГОЛОВКОВ СЕЙСМИЧЕСКИХ ФАЙЛОВ

© А.Ю. Щербич1, В.Н. Кутрунов2

Филиал компании Halliburton в РФ, 625000, Россия, г. Тюмень, ул. Кирова, 40. Тюменский государственный университет, 625000, Россия, г. Тюмень, ул. Перекопская, 15А.

Рассматривается авторский метод оценки качества атрибутов метаданных в заголовках файлов данных сейсморазведки. Авторы в качестве модели банка данных опираются на промышленный стандарт POSC Epicentre. Авторский метод предлагает использовать математическую модель нейронной сети Хэмминга для оценки качества и автоматической корректировки атрибутов, представленных среди метаданных служебных заголовков сейсмических файлов. На основе нейронной сети реализуется механизм ассоциативной памяти, ставящей в соответствие значению атрибута метаданных одну из эталонных записей словаря POSC Epicentre. Рассматривается как классическая структура и схема работы сети, так и механизмы подготовки входных данных и принятия конечного

1Щербич Алексей Юрьевич, ведущий специалист в области управления данными филиала компании Halliburton в РФ, подразделение Landmark, e-mail: sherbichalex@mail.ru

Shcherbich Aleksei, Leading Data Management Specialist, Halliburton Russian branch, Landmark Department, e-mail: sherbichalex@mail.ru

2Кутрунов Владимир Николаевич, доктор физико-математических наук, профессор, заведующий кафедрой алгебры и математической логики, e-mail: kvnkvnkvn@rambler.ru

Kutrunov Vladimir, Doctor of Physical and Mathematical sciences, Professor, Head of the Department of Algebra and Mathematical Logic, e-mail: kvnkvnkvn@rambler.ru

решения. Метод используется в авторском программном комплексе Smart SEGY для автоматизированного потокового контроля качества и корректировки содержимого метаданных в файлах SEGY. Ключевые слова: контроль качества; банк данных; сейсморазведка; нейронная сеть; метаданные; SEGY.

APPLICATION OF HAMMING NEURAL NETWORK MATHEMATICAL MODEL FOR QUALITY CONTROL AND RECOVERY OF INCORRECT METADATA ATTRIBUTES STORED IN SEISMIC EXPLORATION FILE HEADERS A. Y. Shcherbich, V. N. Kutrunov

Halliburton Russian branch,

40 Kirov St., Tyumen, 625000, Russia.

Tyumen State University,

15A Perekopskaya St., Tyumen, 625000, Russia.

The article describes the authors' method for the quality control of metadata attributes in the file headers of seismic exploration data. POSC Epicentre industry standard is taken as a data bank model. The authors' method allows to use the mathematical model of Hamming neural network for quality estimation and automated adjustment of the metadata attributes stored in the control headers of seismic files. An associative memory mechanism is implemented on the basis of a neural network so as it allows establishing correspondence between a determined value of a metadata attribute and one of the reference values stored in POSC Epicentre dictionary. The paper describes the classical structure and operation scheme of Hamming network as well as the input data preparation techniques and final decision-making strategies. The method described is used in author's software package Smart SEGY designed for automated bulk data quality control and adjustment of metadata attributes in SEGY files.

Keywords: quality control; data bank; seismic exploration; neural network; metadata; SEGY.

Оперативность решения задач разведки и разработки нефтегазовых месторождений сегодня напрямую зависит от современного высокотехнологичного программного обеспечения. Рынок программных продуктов нефтегазовой отрасли насыщен множеством решений как зарубежного, так и отечественного производства. При этом сам по себе программный продукт - это лишь инструмент, призванный помочь эксперту (геологу, геофизику, инженеру-разработчику) выполнить поставленные производственные задачи. Ответственность за результат лежит не на программе обработки или анализа данных, какой бы высокоточной она ни была, а на специалисте, перед которым поставлена задача. На основании этого очевидного факта можно констатировать, что роль человеческого фактора в принятии производственных решений является первичной.

Цифровые данные, представленные результатами проведения полевых разведочных работ, результатами обработки полевых данных, интерпретации и моделирования - первичный материал для загрузки и начала работы в геолого-геофизических программных продуктах. От качества первичного материала во многом зависит результат их обработки компьютерными приложениями и, как следствие, конечное решение, выдаваемое экспертом.

Обратим внимание, что промышленные форматы записи данных геологии и геофизики содержат существенную долю так называемых метаданных, то есть служебной информации, описывающей структуру или характерные особенности основных данных. Так, в файлах данных сейсморазведки, геофизических исследований скважин (ГИС) и других документах всегда присутствует ряд служебных заголовков, содержащих опорные данные для анализа структуры цифрового сигнала. При этом, когда идет речь о качестве первичного материала, то понимается, как правило, качество сигнала, подлежащего дальнейшему анализу, а вопросы качества метаданных остаются, по большей части, без внимания.

В контексте данной статьи предлагается рассмотреть один из авторских методов контроля качества и автоматической коррекции атрибутов метаданных, содержащихся в служебных заголовках файлов сейсморазведки. Предваряя непосредственное описание метода, обратимся к проблематике предметной области, вызвавшей необходимость разработки данного метода. Представим типичный пример работы с данными сейсморазведки на разных стадиях их использования (рис. 1).

На рис. 1 можно проследить три характерных этапа работы с данными сей-смики. На первом этапе материал поступа-

Рис. 1. Многостадайный процесс использования данных сейсморазведки

ет в центр анализа данных от первоисточника, то есть поставщика. Поставщиком может являться компания-подрядчик, сдающая результаты сейсмической разведки, обработки, интерпретации, моделирования и т.д. В центре анализа данных первичный материал проходит ряд проверок на предмет его качества, после чего помещается в долговременное хранилище, так называемый банк данных. Основное требование к информации, содержащейся в банке данных, - это ее качество и достоверность. «Потребителями» материалов из банка данных зачастую являются специалисты, использующие эту информацию в своих предметных программных продуктах (Petrel [11], Decision Space [10], Hampson Russel [8] и др.) для обработки, интерпретации, построения сейсмогеологических моделей и др. Такого рода программные продукты предъявляют зачастую собственные требования к качеству данных, поэтому необходимо вновь анализировать качество данных, предназначенных для передачи из банка данных в проектные приложения. Таким образом, контроль качества - важный этап в процессе работы с данными сейсмической разведки на каждом этапе их жизненного цикла.

Контроль качества данных сейсмической разведки - понятие довольно широкое, требующее осмысления в контексте конкретных решаемых задач. Автор предлагает разделение методов контроля каче-

ства данных сейсморазведки с точки зрения их использования для наполнения банка данных на две категории: экспертные методы и методы технологического контроля качества.

Основной информацией, подлежащей технологическому анализу, автор предлагает считать метаданные, то есть перечень атрибутов, определяющих структуру и описывающих необходимые условия для работы с основными данными. Рассматривая форматы файлов сейсморазведки, основными данными в них считают сам сейсмический сигнал, а метаданными - множество атрибутов, содержащихся в служебных заголовках. Покажем это разделение на примере структуры формата SEGY (рис. 2).

Метаданные представлены в заголовках EBCDIC/ASCII, заголовках сейсмических трасс. Сейсмический сигнал, состоящий из дискретного набора значений, формируется из множества сейсмических трасс, определяя основные данные.

Анализ качества метаданных зачастую не является объектом интереса геофизиков, работающих с данными сейсморазведки. С другой стороны, именно метаданные являются основным содержимым промышленных банков данных, и их достоверность гарантирует то, что геофизик получит из банка данных именно тот материал, который ему необходим для выполнения своих профессиональных обязанностей.

Метаданные

1

Сейсмические данные

1

EBCDIC/ASCII заголовок BINARY-заголовок

Заголовок трассы

Сейсмический сигнал (трассы)

Рис. 2. Распределение структуры формата SEGY на метаданные и основные данные

В частности, именно атрибуты метаданных являются критериями поиска информации в банке данных. Таким образом, актуальность проведения контроля качества метаданных обусловлена необходимостью наиболее точного и полного описания структуры основных данных достоверной информацией.

Авторы в контексте своих исследований опираются на перечень критериев технологического контроля качества, выделенных профессиональным сообществом DAMA [7, с. 296-297]. Из предлагаемого перечня авторы в большей степени обращают внимание на вопросы оценки полноты данных, их достоверности и согласованности. В данной статье авторы ориентируют читателя на оценку качества информации, которая проходит контроль перед загрузкой в БД. На этом тезисе и будет основываться описание предлагаемого далее метода.

Загрузка сейсмики в банк данных осуществляется специалистами-операторами через формы ввода данных. Форма представляет собой набор полей, которые оператор заполняет значениями, описывающими конкретные данные сейсмики. Как правило, большинство значений, которые обязан заполнить оператор, содержится среди множества метаданных служебных заголовков файлов SEGY. Этот факт поз-

воляет автоматизировать процесс загрузки, то есть осуществлять его при минимальном участии оператора. Более того, часто оператор вынужден осуществлять загрузку в банк данных не одного, а нескольких (порой десятков и сотен) файлов, структура служебных заголовков которых практически идентична. Ручной контроль качества каждого вводимого оператором атрибута данных часто влечет непредвиденные ошибки. На рис. 3 показано отображение множества вводимых атрибутов на множество отношений реляционной индустриальной модели POSC Epicentre [9].

Ряд отношений (сущностей, таблиц) в POSC Epicentre являются справочными (в их именах присутствует префикс REF), то есть в процессе загрузки атрибутивной информации в базу данных конкретное значение не поступает в соответствующую физическую таблицу, а лишь ссылается на уже существующую в ней запись. На рис. 3 атрибуты «Местность» и «Формат файла данных» являются ссылочными, что заставляет оператора перед загрузкой проверить соответствие вводимых в эти поля значений одному из значений соответствующего справочника POSC Epicentre.

Напомним, что в случае автоматизированной загрузки (без участия оператора) атрибуты в форму ввода поступают из служебных заголовков файлов SEGY, и

Наименование сейсмосъемки

Идентификатор 2D профиля

Местность

Дата начала съемки

Дата окончания съемки

Заказчик работ

Подрядчик

Идентификатор сейсмопартии Компания-обработчик Баркод полевой ленты Шаг дискретизации (мс) Номер первой записи Номер последней записи Первый ПВ Последний ПВ Шаг по ПВ Первая ОГТ Последняя ОГТ Шаг по ОГТ Число трасс на ПВ Картографическая проекция Формат файла данных Файл первичных данных Обработанный файл

SURVEY_1

Pulkovo Gauss UTM zone 13N

storage/fieId/FILE_1.rode

SURVEY_1_2003_ACQ_001

storage/processed/FILE_1.segy

11

SEISMIC GEOMETRY SET

SEISMIC_GEOMETRY_SET

REF_SURVEY_ENVIRONMENT

SEISMIC_ACQUISITION_ACTIVITY

start_time

BUSINESS_ASSOCIATE

BUSINESS_ASSOCIATE

BUSINESS_ASSOCIATE

BUSINESS_ASSOCIATE

SEISMIC OFFLINE DATA

SEISMOGRAPH FACILITY

GRID_1D_EQUAL

origin

GRID_1D_EQUAL

origin

point_count

REF_DIGITAL_FILE_FORMAT

INVENTORY OBJECT STORAGE

болото

5.01.2003

Company 3

ple_interval

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 3. Отображение загружаемых атрибутов сейсмических данных на множество отношений

реляционной модели POSC Epicentre

контроль на соответствие справочникам POSC Epicentre должен быть проведен в автоматизированном режиме.

Однако часто бывает, что содержащаяся в заголовках SEGY информация содержит ошибки в написании значений атрибутов. Остановимся на типичных ошибках в атрибутах EBCDIC/ASCII заголовка:

- пропущен символ в значении атрибута;

- значение атрибута записано в заголовке SEGY в виде аббревиатуры, а в справочнике базы данных полностью;

- в записях одного и того же значения атрибута в заголовке и в базе данных использованы разные регистры букв и т.д.

Если проводить контроль описанных выше значений на полное соответствие справочникам, то, очевидно, каждый раз будут обнаруживаться несоответствия, и программа не сможет сослаться на нужную справочную запись. Автором предлагается метод, опирающийся на возможности нечеткой логики, который проводит соответ-

ствие между атибутами заголовков и записями в базе данных. Назовем его методом восстановления некорректных атрибутов служебных заголовков SEGY. Рассмотрим суть метода подробнее.

Пусть некоторая форма загрузки файла сейсморазведки в банк данных содержит п полей, т из которых являются обязательными по требованию регламента загрузки в банк данных. Тогда для автоматизации процессов загрузки данных атрибутивный состав должен быть представлен как минимум т атрибутами, содержащимися в служебных заголовках SEGY-файлов. Обозначим данный набор атрибутов как А = [a1,a2, ...,am}. Задача метода состоит в нахождении взаимооднозначного соответствия между значением ссылочного (справочного) атрибута щ е А из EBCDIC/ASCII заголовка SEGY файла и одной из записей соответствующей справочной таблицы модели данных POSC EPICENTRE.

С математической точки зрения обозначенная задача может относиться к нескольким областям исследований. С одной стороны, это задача из области нечеткого поиска, исследующего возможности сопоставления некоторого заданного объекта с одним из образцовых объектов на основании некоторой меры сходства. С другой стороны, решаемая задача хорошо подходит под область исследования, связанную с ассоциативной памятью, моделируемой с помощью нейронных сетей Хопфилда [4, с. 81-97] и Хэмминга [6, с. 164-169]. Ассоциативная память в данном случае решает вопрос похожести тестового образца на один из эталонных образцов. В обеих областях исследования тестовым образцом является значение атрибута а{ из EBCDIC заголовка SEGY файла, а эталонным набором образцов - один из словарей POSC Epicentre. Модель ассоциативной памяти для работы с метаданными из EBCDIC/ASCII заголовка подходит для решения задачи по ряду следующих причин:

1. Набор эталонных объектов хранится в базе данных, построенной на модели POSC Epicentre. Все справочные таблицы в итоге содержат атрибуты с фиксированным максимальным числом символов, что является одним из условий для работы модели нейронной сети Хэмминга.

2. Набор ошибок в EBCDIC заголовках связан часто с неверным написанием латиницей некоторых словарных наименований, а именно опечатками, а не сокращениями, появление которых является критичным для сети Хэмминга.

3. Словари POSC Epicentre не являются громоздкими, то есть содержат в основном сотни (реже тысячи) значений, что позволяет делать скидку на достаточную уникальность (хорошие различия) записей.

4. Ассоциативная память на модели нейронной сети Хэмминга работает с бинарными данными, что в точности соответствует способу хранения информации в EBCDIC/ASCII заголовках в виде бинарных довольно компактных 8-битных кодов EBCDIC или ASCII.

5. Применение модели нейронной сети Хэмминга позволяет использовать атрибуты не только из текстового заголовка EBCDIC/ASCII, но и из бинарного заголовка SEGY, заголовков сейсмических трасс и заголовков SEGD-данных, где атрибуты хранятся исключительно в бинарных представлениях.

При работе только с текстовыми атрибутами, безусловно, за основу модели следовало бы принять более мощные инструменты, учитывающие все варианты ошибок, допускаемых пользователями при работе с текстом. Для нечеткого поиска таковыми инструментами в большинстве случаев являются методы, основанные на измерении расстояния Левенштейна [3] между проверяемым атрибутом и каждым из образцов словаря. Нечеткий поиск с применением нейронной сети Хэмминга принимает за основу измерение расстояния Хэмминга. Расстояние в классическом понимании теории нечеткого поиска считается метрикой и является основной характеристикой алгоритмов нечеткого поиска. В строгом математическом смысле понятие метрики должно удовлетворять аксиомам метрического пространства:

1) d(x,y) > 0;

2) d(x,x) = 0;

3) d(x,y) = d(y,x);

4) d(x,y) < d(x,z) + d(y,z),

x,y,z e X. (1)

Здесь d(x,y) - заданная на пространстве X функция измерения расстояния между элементами х и у.

Для наших целей X является множеством атрибутов, состоящим как из образцов, так и из тестовых данных. Нас будет интересовать расстояние d(x,y) как раз между атрибутами х (образцами) и тестовыми у - атрибутами заголовков SEGY-файла.

Важны два определения:

- Определение 1. Словом будем называть произвольную последовательность символов из данного алфавита.

- Определение 2. Расстояние Хэмминга - число позиций, в которых различны

соответствующие символы двух слов одинаковой длины.

Для двоичных последовательностей (бинарных слов) равной длины расстояние Хэмминга будет определяться числом позиций, в которых они различны. Пусть х = 01010011, у = 11011011, тогда расстояние Хэмминга между этими словами будет равно ¿(01010011,11011011) = 2. Расстояние Хэмминга определено на множестве бинарных слов одинаковой длины и обладает свойствами метрики (1) (что показано в работе [1]).

Рассмотрим классическую структуру искусственной нейронной сети Хэмминга. Сеть состоит из двух слоев нейронов. Каждый слой содержит т нейронов, что соответствует числу эталонных образцов (слов) в словаре. Нейроны первого слоя синапсами (входными связями) соединены с элементами входного вектора, элементы которого соответствуют символам тестируемого слова. Тестируемый образец (слово) представляет собой вектор X =< хьх2,..,хп >, х{ е {-1,1}. Если тестируемый образец (слово) состоит из п символов, то каждый нейрон первого слоя имеет по п синапсов, соединенных с каждым символом тестируемого слова. Нейроны второго слоя связаны между собой отрицательными синапти-ческими связями. Единственный положительный синапс нейрона соединен обратной связью с его же аксоном. Выходом сети является вектор У =< у1,у2,..,ут >, все элементы которого являются нулями, кроме единственного элемента у{ > 0. Номер I ненулевого элемента вектора У указывает

на номер образца из словаря, с которым сеть ассоциировала входной вектор X (рис. 4).

Механизм работы сети следующий. После того как на вход сети поступает входной сигнал X, сеть измеряет расстояние Хэмминга от тестируемого слова X до каждого из словарных слов. За этот процесс отвечают нейроны первого слоя. Более подробно математически этот процесс опишем позднее. Далее полученными выходными значениями от нейронов первого слоя инициализируются начальные выходные состояния соответствующих нейронов второго слоя. То есть аксонам нейронов второго слоя присваиваются значения от аксонов соответствующих нейронов первого слоя. В дальнейшем процессе участвуют только нейроны второго слоя. Как было ранее замечено, нейроны второго слоя соединены между собой отрицательными си-наптическими связями, при этом каждый нейрон имеет единственную положительную связь, соединяющую его же аксон с еще одним собственным синапсом. Так как задачей сети является активация на выходе только одного нейрона, номер которого укажет на схожесть с соответствующим образцом в словаре, то нейроны на данном этапе вступают между собой в «конкурентную борьбу» за право максимального сходства. Для этого применяется принцип WTA (Winner Takes All) [2, с. 254-258]. За счет наличия отрицательных связей каждый нейрон получает «тормозящее» воздействие со стороны всех других нейронов слоя, в то время как

испытывает положительное (возбуждающее) воздействие от самого себя за счет положительной связи. Для реализации принципа МТА на втором слое сети применяется рекуррентный процесс, который на каждой итерации уменьшает значение начального состояния каждого из нейронов слоя. В результате после выполнения £ итераций для всех нейронов, кроме одного, значение аргумента функции, определяющей выход нейрона, становится отраца-тельным, что обращает их активность у{ в нуль. Единственный активный нейрон считается победителем и таким образом указывает на номер соответствующего образца из словаря, максимально схожего с входным тестовым словом X.

Опишем процесс работы сети математически. Для того чтобы сеть приступила к своей работе, она должна быть обучена. В случае с сетью Хэмминга обучение фактически сводится к запоминанию словарных образцов. Пусть - весовой коэффициент /-го синапса -го нейрона первого слоя, I = 0..п- 1,к = 1..т - 1, а х? - это ¿-й элемент к-го образца из словаря. Тогда обучение в данном случае выглядит как присваивание весам синапсов нейронов первого слоя значений элементов словарных образцов. Каждый нейрон первого слоя таким образом «запоминает» соответствующий образец словаря. Весовые коэффициенты синапсам первого слоя присваиваются так:

ы1к=^Л = 0..п-1,к = 0..т-1. (2)

Напомним, что нейрон обладает еще двумя свойствами, которые используются сетью в процессе работы:

1. Состояние нейрона, которое определяется взвешенной суммой его входов:

« _

1иЩХ1+Т],] = 0..т-1. (3)

Верхний индекс в скобках указывает на номер слоя сети. 1) - порог активацион-ной функции для -го нейрона сети .

2. Выход нейрона, то есть значение аксона, которое определяется функцией его состояния (активационной функцией):

У,

(к)

= т

(4)

В теории искусственных нейронных сетей в качестве активационных функций могут быть выбраны очень разнообразные нелинейные функции /. Одной из наиболее распространенных является так называемая нелинейная логистическая функция с насыщением, или сигмоид, следующего вида:

Г(х) =

1+е-

(5)

Рис. 5. Активационные функции: а - функция единичного скачка; б - линейный порог; в - гиперболический тангенс; г - формула (5)

к

1

ах

Особенностью выбора сигмоидаль-ных функций является их свойство усиливать слабые сигналы лучше, чем большие, предотвращая этим насыщение от больших сигналов.

В качестве активационной функции для нейронной сети Хэмминга выбирается функция линейного порога, прототип которой представлен на рис. 5, б):

0,х < 0, f(x) = \х,0<х <F, F,x > F.

(6)

Значение Р в сети Хэмминга является порогом активационной функции и выбирается на практике достаточно большим, чтобы любое возможное значение аргумента х не приводило к насыщению. Например, часто используемым значением является ¥ = п, то есть количество элементов входного вектора X.

Обученная сеть с весами на синапсах первого слоя теперь может принимать на вход тестовые образцы, то есть те, которые необходимо сопоставить с эталонными образцами, использованными для обучения сети.

На вход сети подается тестовый образец X =< х1,х2,..,хп>, XI е {-1,1}. Состояние нейронов первого слоя определяется формулой (3), то есть

Zn

WijXi + TjJ = О..т-ljj =-.

S? = ^ WijXi + i=1

Для первого слоя значения состояний нейронов одновременно являются значениями их аксонов, то есть уР = .

Больше в процессе работы сети первый слой нейронов не участвует. Полученными

значениями б^1-1 инициализируются начальные значения аксонов для нейронов второго слоя:

(2) (1) у} - = у} ■

Далее вступает в силу механизм WTA. Так как в данном процессе задачей

каждого нейрона является усиление собственного состояния и ослабление состояния других нейронов, то логика присваивания весов для синапсов нейрона 2-го слоя следующая:

- синапс нейрона, связанный с его же аксоном, получает вес, равный +1;

- тормозящие синапсы, то есть связанные с другими нейронами, получают вес, равный

-£, 0 < £ <-.

т

Расчет нового состояния нейронов второго слоя протекает рекуррентно на основе текущих значений его аксонов. Применяется следующая формула:

з(2)(р + 1) = у(2\р) - е * Ж-1 у®, к * ],] =

0..т - 1,

(7)

где р - номер текущей итерации.

Применяем активационную функцию (6) для вычисления новых значений аксонов:

yf(p + 1) = f[s(2\p + 1) j = 0. .т - 1.

(8)

Итерационный процесс прекращается, когда на выходе нейронов второго слоя значения перестанут меняться, то есть все значения аксонов, кроме одного, окажутся нулевыми.

Разработанный автором программный комплекс Smart SEGY содержит реализацию описанной модели сети, адаптированную для применения к распознаванию ключевых атрибутов заголовка EBCDIC/ASCII сейсмических файлов формата SEGY. Графический интерфейс дает возможность пользователю «разметить» атрибуты, требующие проверки, и поставить в соответствие каждому атрибуту словарную сущность из БД POSC Epicentre, откуда далее берутся эталонные значения. Некоторые элементы графического интерфейса представлены на рис. 6. На рис. 6 пользователем выделено для анализа 2 атрибута (подсвечены в левом окне модуля). В правом окне обозначенным атрибу-

п

там поставлены в соответствие словарные таблицы SEIS_GEOM_SET и DATUMS расширенной физической модели POSC Epicentre. Колонка Result в правом окне указывает подобранные нейронными сетями Хэмминга записи словарной таблицы, наиболее близкие к заданным атрибутам. Если специалист согласен с предложенными сетью значениями атрибутов, то модуль автоматически корректирует выделенные для анализа атрибуты, подставляя вместо них те, которые были вычислены сетью.

Сеть в Smart SEGY строится динамически, то есть число нейронов т первого и второго слоев и число элементов п входного вектора X определяются индивидуально для каждого словаря. Такой подход имеет смысл, так как, во-первых, каждый словарь содержит определенное число записей, во-вторых, максимальная длина значений в каждом словаре индивидуальна именно для этого словаря.

Опишем алгоритм работы модуля Smart SEGY для выполнения метода контроля качества и восстановления некор-

ректных атрибутов метаданных из EBCDIC/ASCII заголовка SEGY:

Шаг 1. Выбор атрибутов EBCDIC/ASCII заголовка и их «маппинг» на физические таблицы модели POSC Epicentre.

Шаг 2. Построение нейронных сетей Хэмминга для каждого выбранного атрибута:

• число нейронов т соответствует количеству записей в соответствующем словаре POSC Epicentre;

• число элементов п входного вектора X, равное числу синапсов каждого нейрона первого слоя, вычисляется так:

п

rmax * 8>

где гт

- максимальная длина записи

(слова), регламентированная соответствующим словарем, а 8 - число бит, используемых кодировками EBCDIC и ASCII для кодирования одного символа EBCDIC/ASCII заголовка SEGY файла.

Рис. 6. Элементы графического интерфейса программного модуля Smart SEGY

Шаг 3. Обучение сетей эталонными образцами из заданных словарей:

• Выравнивание всех образцов (слов словаря) до максимальной длины гтах: если г < гтах, то в конец слова добавляется (гтах - г) символов -1, где г - длина текущего образца словаря (данное действие необходимо для дальнейшей работы сети Хэмминга, требующей, чтобы словарные образцы и входной вектор X были одинаковой длины);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Обучение по стандартной методике сети Хэмминга.

Шаг 4. Выполнение на созданных сетях механизма подбора корректных значений заданных пользователем атрибутов:

• Выравнивание входного вектора X до длины гтах по принципу, описанному на Шаге 3.

• Выполнение алгоритма работы сети по стандартной схеме;

Шаг 5. Окончательное принятие решения.

Специалист оценивает результат работы сети и определяет те атрибуты, которые модуль Smart SEGY должен заменить в EBCDIC/ASCII заголовке SEGY файла.

Таким образом, автором предложен алгоритм, позволяющий корректировать пользовательские ошибки, допущенные при формировании служебных заголовков SEGY файлов в автоматизированном режиме. При идентичном расположении атрибутов в заголовках нескольких SEGY файлов Smart SEGY может проводить анализ метаданных файлов сейсморазведки сразу на всех таких файлах, что существенно экономит время работы операторов, осуществляющих контроль качества и загрузку материалов в банк данных.

Разработанный программный комплекс Smart SEGY зарегистрирован [5] и внедрен в программные продукты, используемые нефтегазовыми компаниями PTTEP, Total, ReMASA.

Статья поступила 12.01.2016 г.

Библиографической список

1. Галатенко А.В., Галатенко В.В. О расстоянии Хэмминга между почти всеми функциями алгебры логики // Фундамент. и прикл. матем. 2009. Т. 15:5. C. 43-47.

2. Кохонен Т. Самоорганизующиеся карты / пер. 3-го англ. изд. М.: БИНОМ. Лаборатория знаний, 2008. 655 с.

3. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. 163.4. C. 845848.

4. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика / пер. с англ. М: Мир, 1992. 118 с.

5. Щербич А.Ю. Свидетельство о государственной регистрации программы для ЭВМ № 2015614190 «Программа контроля качества метаинформации сейсмических файлов на основе нейронной сети Хемминга Smart SEGY» от 08.04.2015.

6. Fausett L. Fundamentals of Neural Networks. Architectures, Algorithms and Applications / L. Fausett. New Jersey: Prentice Hall Int., Inc., 1994. 461 p.

7. Mosley M., Brackett M. The DAMA Guide to The Data Management Body of Knowledge. First Edition. Technical Publications, LLC, 2009. 406 p.

8. CGG. Официальный сайт. [Электронный ресурс]. URL: http://www.cgg.com/hampson-russell. aspx?cid=3609 (01.12.2015).

9. Energistics. Официаьный сайт. [Электронный ресурс]. URL: http://w3.energistics.org/archive/ Epicen-tre/Epicentre_v3.0/ (01.12.2015).

10. Halliburton|Landmark. Официальный сайт. [Электронный ресурс]. URL:

https://www.landmark.solutions/DecisionSpace-Geosciences-10 (01.12.2015).

11. Software Integrated Solutions. Официальный сайт. [Электронный ресурс]. URL: http://www.sis.slb.ru/petrel/ (01.12.2015).

i Надоели баннеры? Вы всегда можете отключить рекламу.