Научная статья на тему 'МЕТОДЫ ГРУППОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ТЕОРИИ МУЛЬТИМНОЖЕСТВ В ЗАДАЧЕ ЛОКАЛИЗАЦИИ ЗОН С РАЗЛИЧНЫМ УРОВНЕМ СЕЙСМИЧЕСКОЙ АКТИВНОСТИ ПРИ ВЕДЕНИИ ГОРНЫХ РАБОТ'

МЕТОДЫ ГРУППОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ТЕОРИИ МУЛЬТИМНОЖЕСТВ В ЗАДАЧЕ ЛОКАЛИЗАЦИИ ЗОН С РАЗЛИЧНЫМ УРОВНЕМ СЕЙСМИЧЕСКОЙ АКТИВНОСТИ ПРИ ВЕДЕНИИ ГОРНЫХ РАБОТ Текст научной статьи по специальности «Математика»

CC BY
61
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕОРИЯ МЕТРИЧЕСКИХ ПРОСТРАНСТВ МУЛЬТИМНОЖЕСТВ / КЛАСТЕРНЫЙ АНАЛИЗ / ТЕХНОГЕННАЯ СЕЙСМИЧНОСТЬ / THEORY OF MULTISETS METRIC SPACES / MINING-INDUCED SEISMICITY / CLUSTER ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Зуенко А.А., Фридман О.В., Журавлева О.Г., Жукова С.А.

Работа посвящена оценке применимости методов групповой классификации с учителем, разработанных на основе теории мультимножеств, для решения задачи выявления зон с различной степенью сейсмической активности (на примере одного из участков высоконапряженного массива горных пород Кукисвумчоррского апатит-нефелинового месторождения). В качестве исходных объектов для процедур классификации выступают пространственные ячейки, на которые разбит участок месторождения. Каждая пространственная ячейка описывается определенным набором факторов, оказывающих, по мнению экспертов, влияние на возникновение сейсмических событий в данной ячейке. Предложено оригинальное представление пространственных ячеек (их групп) в виде совокупности мультимножеств. Проведены исследования, направленные на выявление влияния различных вариантов представления исходных данных на результат процедур классификции. Представление объектов, описываемых количественными и/или качественными признаками и существующих в нескольких версиях (экземплярах), в виде мультимножеств дает возможность не трансформировать качественные признаки в числовые при выполнении процедур кластеризации и использовать методы групповой классификации объектов. Получены обобщенные решающие правила групповой классификации для отнесения объектов (пространственных ячеек) к четырем классам сейсмической опасности. В отличие от широко применяемых в настоящее время технологий на основе нейросетевого подхода, в настоящей работе результатом обучения является не “черный ящик” в виде обученной нейронной сети, а набор правил, которые могут быть легко проинтерпретированы, что повышает доверие конечных пользователей к процедурам принятия решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Зуенко А.А., Фридман О.В., Журавлева О.Г., Жукова С.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF GROUP CLASSIFICATION BASED ON THE THEORY OF MULTISETS IN THE PROBLEM OF LOCALIZING ZONES WITH DIFFERENT LEVELS OF SEISMIC ACTIVITY DURING MINING

The work is dedicated to assessing the applicability of supervised group classification methods developed on the basis of multiset theory for solving the problem of identifying zones with different degrees of seismic activity (using the example of one of the sections of the highly stressed rock massif of the Kukisvumchorr apatite-nepheline deposit). The initial objects for classification procedures are spatial cells into which the field is divided. Each spatial cell is described by a certain set of factors that, according to experts, have an impact on the occurrence of seismic events in a given cell. An original representation of spatial cells (their groups) as a set of multisets is proposed. Studies have been carried out aimed at identifying the influence of various options for presenting the initial data on the result of classification procedures. Representation of objects described by quantitative and / or qualitative features and existing in several versions (copies) in the form of multisets makes it possible not to transform qualitative features into numerical ones when performing clustering procedures and use methods of group classification of objects. Generalized decision rules of group classification for assigning objects (spatial cells) to four classes of seismic hazard are obtained. In contrast to the currently widely used technologies based on the neural network approach, in this work, the training result is not a “black box” in the form of a trained neural network, but a set of rules that can be easily interpreted, which increases the confidence of end users in decision-making procedures.

Текст научной работы на тему «МЕТОДЫ ГРУППОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ТЕОРИИ МУЛЬТИМНОЖЕСТВ В ЗАДАЧЕ ЛОКАЛИЗАЦИИ ЗОН С РАЗЛИЧНЫМ УРОВНЕМ СЕЙСМИЧЕСКОЙ АКТИВНОСТИ ПРИ ВЕДЕНИИ ГОРНЫХ РАБОТ»

систем : учебное пособие // Томск : ТПУ, 2015. — 136 с. — ISBN 978-5-43870574-1

16. ГОСТ Р ИСО/МЭК 12207-2010. «Информационная технология. Системная и программная инженерия. Процессы жизненного цикла программных средств» - Режим доступа http://protectgostru/documentaspx?control=7&id=176990 (дата обращения 06.11.2020)

17.Андреев В.Ю., Базлов А.Ф. Динамическое конфигурирование системы имитационного моделирования морской обстановки // Программные продукты и системы - 2004 - №4 - С.44-46

DOI: 10.37614/2307-5252.2020.8.11.002 УДК 004.832, 550.34

А.А. Зуенко1, О.В. Фридман1, О.Г. Журавлева2, С.А. Жукова2

1 Институт информатики и математического моделирования ФИЦ КНЦ РАН

2 Горный институт ФИЦ КНЦ РАН

МЕТОДЫ ГРУППОВОЙ КЛАССИФИКАЦИИ НА ОСНОВЕ ТЕОРИИ МУЛЬТИМНОЖЕСТВ В ЗАДАЧЕ ЛОКАЛИЗАЦИИ ЗОН С РАЗЛИЧНЫМ УРОВНЕМ СЕЙСМИЧЕСКОЙ АКТИВНОСТИ ПРИ ВЕДЕНИИ ГОРНЫХ РАБОТ*

Аннотация

Работа посвящена оценке применимости методов групповой классификации с учителем, разработанных на основе теории мультимножеств, для решения задачи выявления зон с различной степенью сейсмической активности (на примере одного из участков высоконапряженного массива горных пород Кукисвумчоррского апатит-нефелинового месторождения). В качестве исходных объектов для процедур классификации выступают пространственные ячейки, на которые разбит участок месторождения. Каждая пространственная ячейка описывается определенным набором факторов, оказывающих, по мнению экспертов, влияние на возникновение сейсмических событий в данной ячейке. Предложено оригинальное представление пространственных ячеек (их групп) в виде совокупности мультимножеств. Проведены исследования, направленные на выявление влияния различных вариантов представления исходных данных на результат процедур классификции. Представление объектов, описываемых количественными и/или качественными признаками и существующих в нескольких версиях (экземплярах), в виде мультимножеств дает возможность не трансформировать качественные признаки в числовые при выполнении процедур кластеризации и использовать методы групповой классификации объектов. Получены обобщенные решающие правила групповой классификации для отнесения объектов (пространственных ячеек) к четырем классам сейсмической опасности. В отличие от широко применяемых в настоящее время технологий на основе нейросетевого подхода, в настоящей работе результатом обучения является не "черный ящик" в виде обученной нейронной сети, а набор правил, которые могут быть легко проинтерпретированы, что повышает доверие конечных пользователей к процедурам принятия решений.

* Исследование выполнено при финансовой поддержке РФФИ в рамках научных проектов №№ 18-07-00615-а, 20-07-00708^

Ключевые слова:

теория метрических пространств мультимножеств, кластерный анализ, техногенная сейсмичность.

A.A. Zuenko, O.V. Fridman, O.G. Zhuravleva, S.A. Zhukova

1 Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS

2 Apatity, Mining Institute, KSC RAS

METHODS OF GROUP CLASSIFICATION BASED ON THE THEORY OF MULTISETS IN THE PROBLEM OF LOCALIZING ZONES WITH DIFFERENT LEVELS OF SEISMIC ACTIVITY DURING MINING

Abstract

The work is dedicated to assessing the applicability of supervised group classification methods developed on the basis of multiset theory for solving the problem of identifying zones with different degrees of seismic activity (using the example of one of the sections of the highly stressed rock massif of the Kukisvumchorr apatite-nepheline deposit). The initial objects for classification procedures are spatial cells into which the field is divided. Each spatial cell is described by a certain set of factors that, according to experts, have an impact on the occurrence of seismic events in a given cell. An original representation of spatial cells (their groups) as a set of multisets is proposed. Studies have been carried out aimed at identifying the influence of various options for presenting the initial data on the result of classification procedures. Representation of objects described by quantitative and / or qualitative features and existing in several versions (copies) in the form of multisets makes it possible not to transform qualitative features into numerical ones when performing clustering procedures and use methods of group classification of objects. Generalized decision rules of group classification for assigning objects (spatial cells) to four classes of seismic hazard are obtained. In contrast to the currently widely used technologies based on the neural network approach, in this work, the training result is not a "black box" in the form of a trained neural network, but a set of rules that can be easily interpreted, which increases the confidence of end users in decision-making procedures.

Keywords:

theory of multisets metric spaces, mining-induced seismicity, cluster analysis Введение

Исследуемые в работе задачи групповой классификации можно разделить на два вида: 1) задачи классификации без учителя (или задача кластеризации), 2) задачи классификации с учителем. В первом случае результат процедур классификации - это нахождение оптимального (или субоптимального) разбиения исходного множества на кластеры при заданной функции расстояния. Во втором случае, результатом служат правила классификации, которые получаются на основе анализа обучающей выборки, где для каждого объекта указана его принадлежность тому или иному классу (кластеру). В качестве исходной информации для рассматриваемых процедур классификации служат таблицы, где эксперты определяют для каждого объекта значения признаков по своему усмотрению. При этом мнения различных экспертов могут совпадать, а могут и кардинально отличаться.

Основное внимание в работе уделено оценке применимости методов групповой классификации с учителем, разработанных на основе теории мультимножеств, для решения задачи выявления зон с различной степенью сейсмической активности на примере одного из участков высоконапряженного массива горных пород Кукисвумчоррского апатит-нефелинового месторождения.

Подробное описание объекта исследований приведено в работе [1].

В настоящей работе предложено оригинальное представление групп сейсмособытий в виде совокупности мультимножеств [2]. Представление объектов, описываемых количественными и/или качественными признаками и существующих в нескольких версиях (экземплярах), в виде мультимножеств дает возможность не трансформировать качественные признаки в числовые и использовать методы групповой классификации объектов при наличии нескольких учителей (задачу групповой многокритериальной сортировки).

1. Способы представления сейсмособытий в виде мультимножеств

Как показали исследования, выполненные авторами, на конечный результат классификации сильно влияет то, каким именно способом представлены исходные сейсмические события с помощью мультимножеств. Для иллюстрации этой мысли в настоящем разделе для различных способов представления исходных сейсмособытий в виде мультимножеств приводятся результаты расчетов, полученных при решении задачи классификации без учителя (задачи кластеризации).

Кратко рассмотрим исходное объектно-признаковое представление

В качестве объектов кластеризации выступали 14 условных ячеек, на которые разбит один из участков Кукисвумчоррского месторождения. Цель кластеризации состояла в выявлении зон с различной степенью сейсмической активности и определении степени влияния стационарных и условно-стационарных факторов на происходящие сейсмособытия. Такими факторами являются геология и тектоника месторождения и прилегающего к нему района, геометрия и динамика горных работ. Каждое сейсмическое событие, отнесенное к некоторой пространственной ячейке, описывалось определенным набором признаков, каждый из которых был сопоставлен некоторому фактору, оказывающему, по мнению экспертов, влияние на возникновение сейсмических событий.

В качестве признаков использовались: Р1 - разлом 1; Р2 - разлом 2; ОП -границы очистного пространства; ОПв - границы очистного пространства вышележащего горизонта; В - выработки; РТ - рудное тело; ВП - вмещающие породы; РТ/ВП - рудное тело/вмещающие породы; ВБ - висячий бок рудной залежи; ЛБ - лежачий бок рудной залежи.

В таблице 1 приведены примеры представления данных. В блоке (а) таблицы 1 каждая пространственная ячейка охарактеризована с точки зрения наличия в ней некоторой совокупности признаков, также в отдельном столбце таблицы записано количество сейсмособытий N соотнесенное с данной ячейкой. Фактически в блоке (я) каждая строка соответсвует некоторой пространственной ячейке и описывает набор признаков, свойственных данной ячейке. Каждая строка блока (Ь) таблицы 1 получена домножением соответствующей строки блока (я) на количество сейсмособытий, произошедших в данной пространственной ячейке. В блоке (с) таблицы 1 в каждой ячейке представлены два элемента мультимножества. Например, для признака Р1 в первой строке запись «2 0» означает, что значение кратности оценки «признак отсутствует» (0) равно 2, а значение кратности оценки «признак присутствует» (1) равно 0. Каждая строка блоков (Ь) и (с) таблицы 1 представляет собой мультимножество [2]. Фактически, эти блоки таблицы соответствуют двум альтернативным способам представления сейсмических событий в виде мультимножеств.

Проведена кластеризация сейсмособытий согласно алгоритму иерархической кластеризации, предложенному в теории мультимножеств и подробно описанному в [2]. Изначально каждый кластер состоит и единственного объекта, затем вычисляются расстояния между парами мультимножеств, представляющих кластеры, находится пара наиболее близких кластеров относительно используемой метрики и формируется новый кластер, который представляется суммой соответствующих мультимножеств и т.д. Процедура может быть также прервана на некотором шаге, например, когда величина индекса различия между объектами превысит некоторый пороговый уровень.

Таблица 1.

Варианты представления исходных данных для иерархической кластеризации

(а)

(Ь)

(с)

Номер ячейки Р1 Р2 ОП ОПв РТ ВП РТ/ВП В ВБ ЛБ N

1 0 0 0 0 0 1 0 0 1 0 2

2 1 0 0 0 0 1 0 0 1 0 2

3 0 0 0 0 0 1 0 0 1 0 6

1 0 0 0 0 0 2 0 0 2 0 2

2 2 0 0 0 0 2 0 0 2 0 2

3 0 0 0 0 0 6 0 0 6 0 6

1 2 0 2 0 2 0 2 0 2 0 0 2 2 0 2 0 0 2 2 0 2

2 0 2 2 0 2 0 2 0 2 0 0 2 2 0 2 0 0 2 2 0 2

3 6 0 6 0 6 0 6 0 6 0 0 6 6 0 6 0 0 6 6 0 6

Вычисляя последовательно шаг за шагом расстояния между всеми парами объектов/кластеров и выбирая на каждом шаге наиболее близкие пары (с минимальным расстоянием), получаем разбиение на итоговые кластеры. На рисунке 1 представлены результаты кластеризации для различных вариантов представления исходных данных.

Сравнение различных вариантов результатов кластеризации позволяет сделать вывод, что результаты зависят от исходного представления данных -меняется как ход кластеризации, так и состав результирующих кластеров. По экспертным оценкам, кластеризацию следует остановить при получении числа кластеров большего, чем два во всех случаях, так как последнее объединение кластеров, приводящее к получению двух итоговых кластеров, производится при значительном превышении расстояния между кластерами на предыдущем шаге.

Наиболее близким к экспертным оценкам является вариант "Ь" на рисунке 1. В дальнейших исследованиях использовалось именно это представление исходных данных.

1 ни

2

3 -

4 -

5 -

6 -

7 -

8

9 -1011121314-

1

2

3

4

5

—1_ 6

1-4,8, 7

10-14 8

9

5,6,7,9 10

11

12

13

14

±1

5,6

1-4, 7-14

ь

Рис. 1. Результаты кластеризации для различных вариантов представления исходных данных в виде совокупности мультимножеств: а - соответствует блоку (Ь) таблицы 1; Ь - соответствует блоку (с) таблицы 1.

2. Задача групповой многокритериальной сортировки многопризнаковых объектов при наличии нескольких учителей

Найти обобщенное решающее правило для отбора объектов для их многокритериальных оценок можно с помощью разных методов [3-7]. Методов решения задачи групповой классификации объектов существенно меньше [8]. Кроме того, все они ориентированы на количественные данные. При данных качественного характера их агрегирование тем или иным способом представляет самостоятельную, сложную задачу, так как вырабатывая классифицирующее решение необходимо учесть все, в том числе не совпадающие заключения экспертов. Необходимо сформулировать объединенное правило для отнесения объекта к классу, которое базировалось бы на характеристиках объектов и соответствовало бы индивидуальным экспертным правилам сортировки.

В самом общем смысле правила классификации представляют собой совокупность требований, которые состоят из логических утверждений следующего вида: ^{условия}, ТНЕЩрешение}. Здесь терм {условия} определяет требования, которым должны удовлетворять выбираемые объекты. Это могут быть имена объектов; значения или комбинации значений признаков, описывающих объекты; ограничения на значения признаков; отношения между объектами; правила сравнения объектов друг с другом или с некоторыми выделенными элементами классов. Терм {решение} обозначает имя формируемого класса и/или принадлежность объекта к заранее определенному классу при выполнении требуемых условий [9].

Для решения задачи групповой многокритериальной сортировки сейсмособытий при наличии нескольких учителей объект исследований представлен в виде 56 условных ячеек, на которые разбит один из участков Кукисвумчоррского месторождения. В предварительной оценке степени

а

сейсмической опасности для каждой ячейки принимали участие два эксперта. Оценки и заключения разных экспертов могут быть схожими, различающимися и противоречивыми. Эта несогласованность выражает субъективность экспертных суждений, которые нельзя рассматривать как случайные ошибки экспертов.

Во всех случаях эксперты проводили оценку на основании имеющихся данных о сейсмичности, а также всей совокупности влияющих факторов. Но эксперты не ограничивались только факторами, описанными в предыдущем разделе. Например, при оценке сейсмичности учитывалось не только число событий в ячейке, но и энергия событий, концентрация событий, расстояние между событиями, возможная зона влияния и др. (каждый эксперт мог использовать свой набор критериев). По факторам могли быть различные оценки степени влияния, например, при оценке влияния разломных структур могли учитываться не только наличие/отсутствие разлома, но удаленность от него, учитывалось также пересечение двух разломов. Или, например, для фактора «фронт работ» эксперт мог учитывать не только направление фронта работ, но и удаленность пространственной ячейки от него. У каждого эксперта был свой подход.

При проведении дальнейших исследований в качестве признаков использовались:

СН - структурные нарушения (например, разломы, окисленные зоны,

дайки);

ГП - типы горных пород в ячейке (например, отбитая порода, рудное тело, вмещающие породы, рудное тело и вмещающие породы);

ОПтг - очистное пространство текущего горизонта;

ОПвг - очистное пространство вышележащего горизонта;

В - выработки (например, сопряжение выработок, вертикальные, горизонтальные, наклонные, целик);

С - сейсмичность (например, отсутствие сейсмичности, фоновый, низкий, средний, высокий уровни);

ВР - взрывные работы (например, проходческие, добычные);

ФР - фронт работ (например, развитие горных работ от центра к флангам, от флангов к центру, ведение горных работ в зоне стыковки (наличие открытых горных работ)).

В рамках данной работы решалась задача определения принципиальной возможности применения такого подхода. Поэтому в первом приближении, значения признаков экспертами определялись в различных диапазонах: от 0 до 5 для признака В (выработки) и от 0 до 3, от 0 до 4 для других признаков, значение 0 - отсутствие признака в ячейке. В дальнейшем возможна корректировка как диапазонов значений признаков, так и набора признаков.

Далее, согласно методу, описанному в [9], исходные данные были преобразованы и представлены в виде мультимножеств. В таблице 2 приведен фрагмент расширенной таблицы решений для данных за 2013 год с учетом оценок двух экспертов при разбиении на два кластера.

Первоначально проведено грубое разбиение на два объединенных класса, которые включали в себя экспертно определенные кластеры по степени опасности: первый класс объединяет экспертные кластеры 1 и 2, а второй - 3 и 4 экспертные кластеры. Пятого кластера с наивысшей степенью опасности в 2013 году не наблюдалось.

Таблица 2.

Фрагмент расширенной таблицы решений для данных за 2013 год

№ СН ГП ОПтг ОПвг С ВР ФР R/С1 R/С2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0-4 0-4 0-3 0-4 0-4 0-3 0-3 1 2

A1 2 0 0 0 0 0 0 0 0 2 2 0 0 0 2 0 0 0 0 1 0 0 1 0 2 0 0 0 2 0 0 0 1 1

A2 0 1 1 0 0 0 0 0 0 2 2 0 0 0 2 0 0 0 0 1 0 0 1 0 2 0 0 0 2 0 0 0 1 1

A3 0 0 1 1 0 0 0 0 0 2 2 0 0 0 2 0 0 0 0 2 0 0 0 0 2 0 0 0 2 0 0 0 1 1

A4 0 2 0 0 0 0 0 0 0 2 2 0 0 0 2 0 0 0 0 2 0 0 0 0 2 0 0 0 2 0 0 0 2 0

В заголовках столбцов, где находятся значения признаков, указаны их диапазоны. Строками таблицы решений служат мультимножества, сортирующие признаки К./С1 и R/С2 отражают индивидуальные заключения экспертов, относивших объекты к классам ^1,2) или ^3,4).

В ячейках таблицы размещены мультимножества, характеризующие значения отдельных признаков. Так для объекта А1 запись значений признака СН {2 0 0 0 0} означает, что оба эксперта считают, что значение этого признака равно 0, т.е. для этого объекта этот признак отсутствует.

Далее, по алгоритму, описанному в [9], была получена агрегированная таблица решений (таблица 3).

Коллективное правило выглядит так: объект включается в класс ^1,2), если за это проголосовало большинство экспертов, в противоположном случае объект включается в класс С(3,4). Мультимножества Y/C(1,2) и Y/C(3,4) соответствуют наборам объектов, входящим в классы С(1,2) и С(3,4). Классифицирующие признаки для каждого критерия ищутся как решение соответствующей оптимизационной задачи.

Таблица 3.

Агрегированная таблица решений для объединенных классов

СН ГП ОПтг ОПвг В

Y/С(1,2) 27 43 17 9 0 0 22 12 13 49 79 8 7 0 70 17 8 1 1 82 1 8 2 3 0

Y/С(3,4) 0 17 10 3 0 0 11 7 5 7 8 2 10 10 11 6 3 6 4 4 0 6 10 10 0

d 126 126 74 103 90

С ВР ФР R/С1 R/С2

Y/С(1,2) 41 125 372 53 13 19 11 85 11 0 0 89 7

Y/С(3,4) 4 5 6 13 2 103 7 10 8 17 5 0 7 23

d 119 126 88 98

Среди всех возможных комбинаций пар содержательных мультимножеств ищутся те, которые находятся на максимальных расстояниях для каждого признака, эти расстояния отображены в строке d таблицы 3, как и расстояние

между категориальными мультимножествами R/C1 и R/C2. Далее в соответствии с полученными расстояниями признаки ранжируются по значимости и формулируются согласованные обобщенные решающие правила для групповой классификации многопризнаковых объектов.

Так, для разбиения на два обобщенных класса получены следующие правила в соответствии с ранжированием признаков (ГП, СН, ВР, С, ОПвг, В, ФР, ОПтг):

ЕСЛИ (значение признака ГП=от 1 до 4) И (значение признака СН=от 1 до 4) И (значение признака ВР= от 0 до 3) И (значение признака С=от 0 до 3) И (значение признака ОПвг=от 0 до 2) И (значение признака В=от 0 до 2) И (значение признака ФР=0) И (значение признака 0птг=0 или 1) ТО объект принадлежит к объединенному классу С(1,2)

Переформулируем полученное правило на языке, понятном эксперту, но на данном этапе работе еще не на естественном языке: ЕСЛИ степень влияния типов горных пород в ячейке - от 1 до 4 И степень влияния структурных нарушений - от 1 до 4 И степень влияния взрывных работ - от 0 до 3 И уровень сейсмичности - от 0 до 3

И степень влияния очистного пространства вышележащего горизонта - от 0 до 2

И наличие выработок в ячейке - от 0 до 2 И степень влияния фронта работ - 0

И степень влияния очистного пространства текущего горизонта - от 0 до 1 ТО объект принадлежит к классу С(1,2) (степень опасности - не опасно или низкая)

Таким образом, в рамках данной работы переформулирование правил происходит на языке, понятном эксперту, а в дальнейшем (после уточнения/расшифровки степеней влияния различных факторов) будет проведена формулировалка правил на естественном языке. ЕСЛИ (значение признака ГП=от1 до 4) И (значение признака СН=от 1 до 4) И (значение признака ВР= от 0 до 3) И (значение признака С=4) И (значение признака ОПвг=3,4) И (значение признака В=3,4) И (значение признака ФР=1,2) И (значение признака Оптг=2,3) ТО объект принадлежит к классу С(3,4)

Переформулируем полученное правило на языке, понятном эксперту: ЕСЛИ степень влияния типов горных пород в ячейке - от 1 до 4 И степень влияния структурных нарушений - от 1 до 4 И степень влияния взрывных работ - от 0 до 3 И уровень сейсмичности - 4

И степень влияния очистного пространства вышележащего горизонта - от 3 до 4

И наличие выработок в ячейке - 3-4 И степень влияния фронта работ - 1-2

И степень влияния очистного пространства текущего горизонта - 2-3 ТО объект принадлежит к классу С(3,4) (степень опасности - средняя или высокая)

После получения двух объединенных классов каждый из них был разбит на два подкласса и было получено четыре класса сейсмической опасности, что соответствует экспертным оценкам. Как уже упоминалось выше, используется пятибалльная шкала оценки опасности, но в 2013 году условных ячеек с пятым, наивысшем уровнем опасности экспертами не выделено, поэтому классификация проводилась для получения четырех результирующих классов опасности. Отметим, что в дальнейшем оценки классов сейсмической опасности для ячеек могут быть пересмотрены по мере обработки данных сейсмических наблюдений с использованием рассматриваемого подхода.

Как и в предыдущем случае, были получены расширенные и агрегированные таблицы решений (табл.4, 5).

Таблица 4.

Агрегированная таблица решений для классов 1 и 2

СН ГП ОПтг ОПвг В

Y/С1 27 21 6 2 0 0 8 4 9 35 56 0 0 0 46 6 2 0 0 56 0 0 0 0 0

Y/С2 0 22 11 7 0 0 14 8 4 14 21 8 11 0 21 11 610 26 1 8 2 3 0

а 42 36 58 41 68

С ВР ФР R/С1 R/С2

Y/С1 29 5 0 22 0 40 8 6 2 54 0 0 0 35 22

Y/С2 11 7 5 15 2 13 5 13 9 29 11 0 0 22 14

а 68 44 72 21

Сформулированы обобщенные решающие правила для классов 1 и 2 в соответствии с ражированием признаков (ФР, В, С, ОПтг, ВР, СН, Опвг, ГП):

ЕСЛИ (значение признака ФР=0) И (значение признака В=0) И (значение признака С=0 ИЛИ С=3) И (значение признака ОПтг=0) И (значение признака ВР= 0 или 1) И (значение признака СН=0) И (значение признака ОПвг=0) И (значение признака ГП=3 ИЛИ ГП=4) ТО объект принадлежит к классу С1

Переформулируем полученное правило на языке, понятном эксперту: ЕСЛИ степень влияния фронта работ - 0 (нет)

И наличие выработки - 0 (нет) И уровень сейсмичности - 0 или 3

И степень влияния очистного пространства текущего горизонта - 0 (нет) И степень влияния взрывных работ - 0 или 1 И степень влияния структурных нарушений - 0 (нет)

И степень влияния очистного пространства вышележащего горизонта - 0 (нет)

И степень влияния типов горных пород в ячейке - 3-4 ТО объект принадлежит к классу С1 (степень опасности - не опасно) ЕСЛИ (значение признака ФР=1) И (значение признака В>0) И (значение признака С=1 ИЛИ С=2 ИЛИ С=4) И (значение признака ОПтг>2) И (значение признака ВР>2) И (значение признака СН>0) И (значение признака 0Пвг>0) И (значение признака ГП=1 ИЛИ ГП=2) ТО объект принадлежит к классу С2

Переформулируем полученное правило на языке, понятном эксперту: ЕСЛИ степень влияния фронта работ - 1

И наличие выработок - >0 (есть выработки) И уровень сейсмичности - 1 или 2 или 4

И степень влияния очистного пространства текущего горизонта - >2 И степень влияния взрывных работ - >2

И степень влияния структурных нарушений - >0 (есть влияние) И степень влияния очистного пространства вышележащего горизонта - >0 (есть влияние)

И степень влияния типов горных пород в ячейке - 1-2 ТО объект принадлежит к классу С2 (степень опасности - низкая)

Таблица 5.

Агрегированная таблица решений для классов 3 и 4

СН ГП ОПтг ОПвг В

Y/С3 0 5 5 2 0 0 7 3 0 2 0 0 6 6 1 4 1 4 2 2 0 0 5 5 0

Y/С4 0 6 2 0 0 0 3 1 1 3 0 0 2 6 2 3 1 1 1 2 0 1 3 2 0

а 6 18 4 14 18

С ВР ФР ЯУО R/С2

Y/С3 0 4 3 4 1 4 0 2 6 2 7 3 0 12 3

Y/С4 0 0 2 4 2 2 1 0 5 0 4 2 0 3 5

а 14 18 18 1

Сформулированы обобщенные решающие правила для классов 3 и 4 в соответствии с ранжированием признаков (ГП, ФР, ВР, В, ОПвг, С, СН, Оптг): ЕСЛИ (значение признака ГП=1,2,4) И (значение признака ФР>0)

И (значение признака ВР=0,2,3) И (значение признака В=0 ИЛИ В=3,4) И (значение признака ОПвг>0) И (значение признака С=1,2,3) И (значение признака СН=1) И (значение признака Оптг=2) ТО объект принадлежит к классу С3

Переформулируем полученное правило на языке, понятном эксперту: ЕСЛИ степень влияния типов горных пород в ячейке - 1,2,4 И степень влияния фронта работ - >0 (есть влияние) И степень влияния взрывных работ - 0, 2, 3 И наличие выработок - 0, 3, 4

И степень влияния очистного пространства вышележащего горизонта - >0 (есть влияние)

И уровень сейсмичности - 1-3 И степень влияния структурных нарушений - 1 И степень влияния очистного пространства текущего горизонта -2 ТО объект принадлежит к классу С3 (степень опасности - средняя) ЕСЛИ (значение признака ГП=3) И (значение признака ФР>0 ) И (значение признака ВР=1) И (значение признака В=2) И (значение признака ОПвг=0) И (значение признака С=4) И (значение признака СН=2,3) И (значение признака Оптг=3) ТО объект принадлежит к классу С4

Переформулируем полученное правило на языке, понятном эксперту: ЕСЛИ степень влияния типов горных пород в ячейке - 3 И степень влияния взрывных работ - 1 И наличие выработок - 2

И степень влияния очистного пространства вышележащего горизонта -0 (нет влияния)

И уровень сейсмичности - 4 И степень влияния структурных нарушений - 2, 3 И степень влияния очистного пространства текущего горизонта - 3 ТО объект принадлежит к классу С4 (степень опасности - высокая)

Отметим, что представленные правила сформулированы в первом приближении с целью определить принципиальную возможность применения предложенного подхода. В дальнейшем будет проведена работа по корректировке правил на основе данных последующих лет (2014, 2015гг и т.д.), после чего, возможно, будет проведено уточнение диапазона значений влияющих факторов, а при необходимости могут быть внесены изменения в число влияющих факторов.

Заключение

Предложено оригинальное представление групп сейсмособытий в виде совокупности мультимножеств. Представление объектов, описываемых количественными и/или качественными признаками и существующих в нескольких версиях (экземплярах), в виде мультимножеств дает возможность не трансформировать качественные признаки в числовые при выполнении процедур кластеризации и использовать методы групповой классификации объектов.

На основе полученных результатов можно оценить степень сейсмической активности в каждом кластере, а значит и в каждой ячейке. Использование метода групповой многокритериальной сортировки объектов, представленных в виде мультимножеств [9], позволило построить несколько обобщенных решающих правил классификации по уровню сейсмической опасности участка массива горных пород.

Применение мультимножеств дает возможность решать традиционные задачи классификации более простым и конструктивным образом. Задача исследования техногенной сейсмичности участков массива горных пород и анализа степени влияния горно-геологических факторов на сейсмоактивность рассматривались как задача групповой сортировки объектов по многим количественным и качественным критериям.

В отличие от широко применяемых в настоящее время технологий на основе нейросетевого подхода, в настоящей работе результатом обучения является не "черный ящик" в виде обученной нейронной сети, а набор правил, которые могут быть легко проинтерпретированы, что повышает доверие конечных пользователей к процедурам принятия решений.

Далее предполагается провести аналогичные исследования для других временных отрезков и рассматривать задачу исследования техногенной сейсмичности участков массива горных пород и анализа степени влияния горногеологических факторов на сейсмоактивность в динамике.

Литература

1. Зуенко, А.А. Применение методов ограниченной кластеризации для исследования техногенной сейсмичности / А.А. Зуенко, О.В. Фридман, О.Г. Журавлева // Вестник Воронежского государственного университета, Сер.: Системный анализ и информационные технологии. -2019, -№ 3. -С. 29-41.

2. Петровский, А.Б. Методы групповой классификации многопризнаковых объектов (часть1) / А.Б. Петровский // Искусственный интеллект и принятие решений. -2009, -№ 3. -С. 3-14.

3. Doumpos M., Zopounidis C. Multicriteria Decision Aid Classification Methods. European Journal of Operational Research, -2002, -№ 138. -p. 229-246.

4. Furems E. Knowledge-based multi-attribute classification problems structuring. // Computational Intelligence in Decision And Control, Int World Scientific Publisher, -2008, -p. 465-470.

5. Greco S., Matarazzo B., Slowinski R. Rough sets methodology for sorting problems in presence of multiple attributes and criteria. // European Journal of Operational Research, 2002, Vol. 138, № 2, p. 247-259.

6. Koksalan M., Ulu C. An interactive approach for placing alternatives in preference classes. // European Journal of Operational Research, 2003, Vol. 144, № 2, p. 429439.

7. Larichev O.I., Olson D.L. Multiple Criteria Analysis in Strategic Siting Problems. Springer, 2013, 216 p.

8. Hwang C.L., Lin M.J. Group Decision Making under Multiple Criteria. SpringerVerlag, 1987.

9. Петровский, А.Б. Методы групповой классификации многопризнаковых объектов (часть 2) / А.Б. Петровский // Искусственный интеллект и принятие решений. -2009, -№ 4. -С. 3-14.

DOI: 10.37614/2307-5252.2020.8.11.003

УДК 004.853

П.А. Ломов1, М.Л. Малоземова1

1 Институт информатики и математического моделирования ФИЦ КНЦ РАН

ОБУЧЕНИЕ И ПРИМЕНЕНИЕ НЕЙРОСЕТЕВОЙ ЯЗЫКОВОЙ МОДЕЛИ ДЛЯ

ПОПОЛНЕНИЯ ОНТОЛОГИИ*

Аннотация

В статье рассмотрена одна из подзадач обучения онтологий - задача пополнения онтологии, которая предполагает включение в существующую онтологию новых экземпляров без изменения ее структуры. Представлен краткий обзор существующих подходов к обучению онтологий, а также их реализаций в виде программных средств. Предложена высокоавтоматизированная технология пополнения онтологии с помощью обучения и последующего применения нейросетевой языковой модели для выявления потенциальных экземпляров классов онтологии из текстов предметной области. Рассматриваются основные этапы применения технологии, результаты ее экспериментальной оценки и основные направления дальнейшего совершенствования.

Ключевые слова:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пополнение онтологии, нейросетевая модель, обучение онтологий.

P.A. Lomov, M.L. Malozemova

1 Apatity, Institute for Informatics and Mathematical Modelling, KSC RAS

TRAINING AND APPLICATION OF NEURAL NETWORK LANGUAGE MODEL FOR

ONTOLOGY POPULATION

Abstract

The article considers one of the subtasks of ontology learning - the ontology population, which implies the extension of existing ontology by new instances without changing the ontology structure. A brief overview of existing ontology learning approaches and their software implementations is presented. A highly automated technology for ontology population based on training and application of the neural network language model to identify and extract potential instances of ontology classes from domain texts is proposed. The main stages of its application, as well as the results of its experimental evaluation and the main directions of its further improvement are considered.

* Работа выполнена при поддержке РФФИ (грант № 20-07-00754 А).

i Надоели баннеры? Вы всегда можете отключить рекламу.