Научная статья на тему 'УПРАВЛЕНИЕ КАЧЕСТВОМ РЕШАЮЩЕГО ПРАВИЛА И МИНИМИЗАЦИЯ ЧИСЛА ПРИЗНАКОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ НА ОСНОВЕ МОДЕЛЕЙ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ'

УПРАВЛЕНИЕ КАЧЕСТВОМ РЕШАЮЩЕГО ПРАВИЛА И МИНИМИЗАЦИЯ ЧИСЛА ПРИЗНАКОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ НА ОСНОВЕ МОДЕЛЕЙ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ Текст научной статьи по специальности «Математика»

CC BY
32
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД КОМИТЕТОВ / МАШИННОЕ ОБУЧЕНИЕ / МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по математике, автор научной работы — Чернавин П.Ф., Чернавин Н.П., Чернавин Ф.П.

Целью работы является показать возможности применения моделей математического программирования для решения задач классификации на примере метода комитетов. Задачи классификации присутствуют во множестве практических задач, поэтому развитие методов классификации является актуальным направлением исследований. При этом вопрос применения математического программирования в таких задачах является мало изученной темой. В работе приведены ограничения и целевые функции для моделей математического программирования, в рамках которых реализованы различные логики комитетных конструкций. Дано описание критериев качества в моделях классификации и их реализации в рамках моделей математического программирования, а также приведены графические интерпретации комитетных логик. Представлена авторская интерпретация условия снижения размерности задачи за счет выбора наиболее информативных признаков в рамках единой модели математического программирования. Предлагаемый подход позволяет достигать высокого качества классификации, минимизировать число признаков и давать геометрическую интерпретацию найденных решений. Описанные модели были протестированы авторами на задачах из таких сфер, как здравоохранение и металлургия.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

QUALITY CONTROL OF THE DECISION RULES AND MINIMIZATION OF THE NUMBER OF FEATURES IN CLASSIFICATION PROBLEMS BASED ON MATHEMATICAL PROGRAMMING MODELS

The aim of this article is to show the possibilities of using mathematical programming models in classification problems using the committee machine method. Classification problems can be found in many practical problems, so the development of classification methods is an important area of research. At the same time, the application of mathematical programming is a little studied topic. The paper presents restrictions and objective functions for mathematical programming models within which various logics of committee constructions are implemented. A description quality metrics in classification models and their implementation in form of mathematical programming, as well as the graphical interpretations of the committee logics. The author's interpretation of the condition for reducing the dimension of the problem by choosing the most informative features within the framework of a unified model of mathematical programming is presented. The proposed method allows to achieve high classification quality, to minimize the number of features in classification problems and to provide a geometric interpretation of the solutions. The described models were tested by the authors in problems from such areas as: the healthcare, metallurgy, bank scoring and stock exchange market.

Текст научной работы на тему «УПРАВЛЕНИЕ КАЧЕСТВОМ РЕШАЮЩЕГО ПРАВИЛА И МИНИМИЗАЦИЯ ЧИСЛА ПРИЗНАКОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ НА ОСНОВЕ МОДЕЛЕЙ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ»

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ЧИСЛЕННЫЕ МЕТОДЫ И КОМПЛЕКСЫ ПРОГРАММ

DOI 10.54398/20741707_2023_1_112 УДК 004.001

УПРАВЛЕНИЕ КАЧЕСТВОМ РЕШАЮЩЕГО ПРАВИЛА И МИНИМИЗАЦИЯ ЧИСЛА ПРИЗНАКОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ НА ОСНОВЕ МОДЕЛЕЙ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ

Статья поступила в редакцию 27.12.2022, в окончательном варианте - 11.01.2023.

Чернавин Павел Федорович, Уральский федеральный университет, 620002, Российская Федерация, г. Екатеринбург, ул. Мира, 19,

кандидат экономических наук, доцент, ORCID: 0000-0003-3214-3906, e-mail: chernavin.p.f @gmail.com

Чернавин Николай Павлович, Уральский федеральный университет, 620002, Российская Федерация, г. Екатеринбург, ул. Мира, 19,

ассистент кафедры, ORCID: 0000-0002-2093-9715, e-mail: ch_k@mail.ru

Чернавин Федор Павлович, Уральский федеральный университет, 620002, Российская Федерация, г. Екатеринбург, ул. Мира, 19,

кандидат экономических наук, доцент, ORCID: 0000-0003-4105-231X, e-mail: chernavin_ fedor@mail.ru

Целью работы является показать возможности применения моделей математического программирования для решения задач классификации на примере метода комитетов. Задачи классификации присутствуют во множестве практических задач, поэтому развитие методов классификации является актуальным направлением исследований. При этом вопрос применения математического программирования в таких задачах является мало изученной темой. В работе приведены ограничения и целевые функции для моделей математического программирования, в рамках которых реализованы различные логики комитетных конструкций. Дано описание критериев качества в моделях классификации и их реализации в рамках моделей математического программирования, а также приведены графические интерпретации комитетных логик. Представлена авторская интерпретация условия снижения размерности задачи за счет выбора наиболее информативных признаков в рамках единой модели математического программирования. Предлагаемый подход позволяет достигать высокого качества классификации, минимизировать число признаков и давать геометрическую интерпретацию найденных решений. Описанные модели были протестированы авторами на задачах из таких сфер, как здравоохранение и металлургия.

Ключевые слова: метод комитетов, машинное обучение, математическое программирование, классификация

QUALITY CONTROL OF THE DECISION RULES AND MINIMIZATION OF THE NUMBER OF FEATURES IN CLASSIFICATION PROBLEMS BASED ON MATHEMATICAL PROGRAMMING MODELS

The article was received by the editorial board on 27.12.2022, in the final version — 11.01.2023.

Chernavin Pavel F., Ural Federal University, 19 Mira St., Ekaterinburg, 620002, Russian Federation, Cand. Sci. (Economics), Associate Professor, ORCID: 0000-0003-3214-3906, e-mail: chernavin.p.f @ gmail.com

Chernavin Nikolai P., Ural Federal University, 19 Mira St., Ekaterinburg, 620002, Russian Federation, Department Assistant, ORCID: 0000-0002-2093-9715, e-mail: ch_k@mail.ru Chernavin Fedor P., Ural Federal University, 19 Mira St., Ekaterinburg, 620002, Russian Federation, Cand. Sci. (Economics), Associate Professor, ORCID: 0000-0003-4105-231X, e-mail: chernavin_ fedor@mail.ru

The aim of this article is to show the possibilities of using mathematical programming models in classification problems using the committee machine method. Classification problems can be found in many practical problems, so the development of classification methods is an important area of research. At the same time, the application of mathematical programming is a little studied topic. The paper presents restrictions and objective functions for mathematical programming models within which various logics of committee constructions are implemented. A description quality metrics in classification models and their implementation in form of mathematical programming, as well as the graphical interpretations of the committee logics. The author's interpretation of the condition for reducing the dimension of the problem by choosing the most informative features within the framework of a unified model of mathematical programming is presented. The proposed method allows to achieve high classification quality, to minimize the number of features in classification problems and to provide a geometric interpretation of the solutions. The described models were tested by the authors in problems from such areas as: the healthcare, metallurgy, bank scoring and stock exchange market.

Keywords: Committee machine method, machine learning, mathematical programming, classification

Graphical annotation (Графическая аннотация)

Введение. В настоящий момент времени одна и та же задача классификации может быть решена различными способами. За каждым таким способом стоит определенная научная школа и математический инструментарий, позволяющий получить решающее правило (РП). Причем сказать заранее, какой из подходов даст наилучшее РП, практически невозможно, так как все подходы научны и конкурентно способны, а понятие «наилучшее решение» имеет много составляющих и зависит от специфики конкретной задачи. Поэтому одна и та же задача обычно решается несколькими способами, полученные решения сравниваются, и заказчик исследования выбирает наиболее ему подходящее. Для получения различных решений обычно используются программы из библиотек программного обеспечения для задач машинного обучения (МО). Однако в этом случае специалист по анализу данных зажат жесткими рамками данных программ и имеет достаточно ограниченные возможности по управлению качеством получаемого решения.

В данной статье авторы хотят поделиться опытом решения задач классификации в двух сильно отличающихся друг от друга предметных областях: медицина и металлургия. Естественно, что практические специалисты из этих областей, предоставляя данные для исследования, формулировали свои требования к РП. Зачастую основные пожелания заказчиков исследования были следующие:

1. Качество РП должно быть не ниже уровня, заданного заказчиком.

2. Выполнение качественных показателей должно достигаться при минимальном количестве используемых признаков.

3. РП и признаки должны быть максимально содержательно интерпретируемы.

Причем по ходу нахождения первых приемлемых решений, кроме появления факультативных пожеланий (например: обосновать, что решение, полученное нашим способом, не хуже, чем другими методами), перечисленная выше триада пожеланий только ужесточалась, то есть заказчик входил во вкус, но мыслил всегда в рамках указанной триады, даже если не имел опыта использования результатов машинного обучения (МО) в научной деятельности или их практическом применении. Кстати, такой подход к оценке РП упрощает разработчику модели сравнение своего РП с РП, полученными другими методами, так как большинству заказчиков не важно, каким методом получено РП, а важно, насколько оно соответствует его пожеланиям.

Естественно, что примерно с такой же триадой пожеланий сталкивается любой специалист по анализу данных, и именно поэтому каждый из пунктов активно обсуждается в различных печатных и электронных публикациях. Например, существует достаточно большое количество формализованных критериев оценки качества классификаторов [1, 2]. Необходимость минимизации числа признаков достаточно хорошо обосновывается различными специалистами по МО [3-6]. При этом все большее внимание уделяется интерпретируемости решений [14, 15].

Авторский подход к решению задач классификации на основе моделей математического программирования сложился из взаимодействия с практическими специалистами и с учетом их пожеланий. Данный подход подробно обоснован в [7] и уже многие годы применяется на практике. Отметим, что по отдельным задачам аналогичные точки зрения высказывались другими авторами. Конечно, первым, кто использовал такой подход, был В. Н. Вапник [8]. Его метод опорных векторов является, по сути, задачей квадратичного программирования, и решение получается на основе теоремы Куна - Такера. Аналогичный подход развивался в работах П. Брэдли, О. Магдасарян, К. Беннет [12, 13]. Однако в их работах не рассматривались вопросы целенаправленного выполнения пунктов триады, а просто показывалась возможность использования такого подхода к решению задач МО. Крупный российский специалист в области МО К. В. Воронцов [5] отмечал, что для решения задачи минимизации числа признаков может быть использовано квадратичное программирование, но практического применения такого подхода найти не удалось.

В основе авторского метода лежит комитетный подход к решению задач классификации. Наиболее полное развитие данный подход получил в научных школах Ю. И. Журавлева и В. Д. Мазурова [9], в которых развивались теоретические основы метода комитетов и оригинальные алгоритмы для решения таких задач. Авторский подход принципиально отличается от перечисленных выше тем тем, что он сводит задачи классификации к моделям линейного программирования с частично целочисленными переменными (mix integer programming - MIP) и использует для их решения стандартные пакеты программ IBM ILOG CPLEX, PULP или MIP, которые за приемлемое время позволяют решать такие задачи достаточно большой размерности (более 10 000 ограничений и переменных). Сведение задач классификации к MIP и использование стандартных пакетов для их решения позволяет учитывать пожелания заказчика в рамках моделей и решать задачи без написания специальных программ. Поэтому чтобы продемонстрировать сказанное, перейдем к конкретным моделям.

Базовая модель для построения РП. Для решения многих задач классификации удобно использовать линейные классификаторы и ансамбли (комитеты) на их основе. Конечно, для разделения можно использовать и нелинейные, желательно сепарабельные функции. Их использование просто приведет к переходу в пространство признаков более высокой размерности, в котором разделение будет все равно осуществляться линейными гиперплоскостями [7, с 83]. Поэтому далее возможность нелинейности разделяющих функций отдельно оговаривать не будем.

Набор классификаторов будем называть комитетом, если РП на его основе правильно позволяет классифицировать объекты обучающей выборки с заданной точностью. Комитеты могут иметь различную логику принятия решения, поэтому существуют комитеты старшинства, большинства и единогласия. Все указанные комитеты могут быть представлены как задачи линейного программирования с частично целочисленными переменными.

Далее будем использовать следующую систему обозначений:

где J\ и J2 - разделяемые множества;

J - множество наблюдений / = Л и/2;

I - множество параметров наблюдений;

T - множество гиперплоскостей (члены комитета);

i, j, t - индексы соответствующих множеств;

Xj - входные параметры наблюдений (константы);

a} - коэффициенты гиперплоскостей (переменные);

b - свободные члены гиперплоскостей (переменные);

L - очень большое число;

E - малое число, используемое для строгости ограничений;

zj - булевы переменные, используемые для фиксации нарушений условий разделения множеств;

V - веса членов комитета (константы).

Условия разграничения множеств гиперплоскостями могут быть записаны следующим образом:

iei

Xij *ati+ Ьь + L*zf > Е j е j1, t е т,

1

(\)

xij*at+ &-ь*г}<- Е jej2, гет.

В практических задачах обычно не требуется построение комитета со 100% разделяющей способностью. Более того, слишком высокая точность РП обычно свидетельствует о переобученности. Поэтому сразу в записи условий комитета предусматриваем возможность их корректировки и использования различных критериев для оптимизации числа корректировок условий комитета. Вся совокупность комитетных конструкций в наиболее общем виде может быть представлена следующими условиями:

+ V*) * ^ ] 6 ]1,

(3)

Iv* * z] - т - 1 + Iv*) * dj jej2.

"] к 'т 1 ■ ) J 6 J■¿. (4)

гбт Ь6Т Ь6Т

Целевая функция: й^ (5)

где m - квалифицированное меньшинство (переменная 0 < m < ^¡¿т V*-1); dj- булевы переменные, фиксирующие нарушения условий комитета. Обратим внимание на то, что:

1. При Vt=2t'1 Vt ET модель является комитетом старшинства, но:

• если в результате решения m = 0, то модель де факто превращается в комитет единогласия относительно множества Ji;

• если в результате решения m='£teTVt-i, то модель де факто превращается в комитет единогласия относительно множества J2.

2. При V =1 Vt ET обладает следующими свойствами:

• если в результате решения m=0, то модель де факто превращается в комитет единогласия относительно множества Ji;

• если в результате решения m=n—i, то модель де факто превращается в комитет единогласия относительно множества J2;

• если в результате решения 0<m<n—i, то модель является комитетом большинства.

Таким образом, можно сказать, что модель способна сама выбирать логику комитета в зависимости от взаимной геометрии множеств и может быть преобразована в любую комитетную конструкцию.

Данная модель была протестирована при решении проблем прогнозирования туберкулезных изменений [5], качества агломерата в металлургии [8].

Настройка модели. Существует достаточно большое количество формализованных показателей качества классификаторов. В научной литературе встречаются разные цифры их количества. В монографии [7] авторами было приведено 15 наиболее часто встречающихся. В общем случае выбор критерия качества РП зависит от специфики конкретной задачи. На практике критерий качества РП обычно формулируют в виде нижних границ вероятности правильного определения по каждому классу. В научной литературе этот показатель имеет разные названия: True Positive Rate (TPR), Recall, Sensitivity, Probability of detection. Отметим, что в различного рода конкурсах по МО тоже все чаще используется данный показатель. Например, в конкурсе «Цифровой прорыв» используется средний Recall по 2 классифицируемым множествам. Зачастую заказчики хотят максимизации площади под ROC-кривой (AUC) или коэффициента Джини (Gini coefficient), который вычисляется на основе ROC (не путать его с критерием Джини в методе деревьев). По нашему мнению, модель для построения РП должна быть достаточно гибкой и иметь возможность быстро перестраиваться на любой критерий качества и пожелания заказчика, так как они обычно вытекают из его опыта и практического смысла.

Если решать задачу классификации программами из различного рода стандартных библиотек, то оценка качества решения будет получена после получения решения, то есть постфактум. Это не всегда удобно. Если же для построения РП будет использоваться модель (1)-(5), то изменением целевой функции легко можно управлять качеством решения. Вообще, практически все показатели качества РП для классификации строятся на основе матрицы ошибок. Данная матрица может быть легко заполнена на основе модели (1)-(5). Для дальнейших пояснений воспользуемся стандартной системой обозначений.

Пусть класс Positive состоит из P объектов, а класс Negative - из N объектов. В модели (1)-(4) будем считать, что J1 - множество Positive и J2 - множество Negative. Тогда матрица ошибок классификации выглядит следующим образом:

Таблица - Матрица ошибок классификации

Оценка классификатора Positive Оценка классификатора Negative Итого реальных объектов в классе

Реальный класс Positive True Positive (TP) False Negative (FN) TP+FN (P)

Реальный класс Negative False Positive (FP) True Negative (TN) FP+TN (N)

Одним из требований к модели может выступать максимизация доли правильных классификаций в общем количестве наблюдений. Данную метрику по-русски лучше всего так и называть правильность или использовать английское обозначение Accuracy, потому что если ее называть точность, то возникнет путаница в названиях, так как есть метрика Precision:

сумма правильных классификаций TP + (6)

Accuracy = —-:---= ———.

общее число классифицируемых объектов Р + N

Сформулируем данную метрику в терминах модели (1)-(4). Так как знаменатель - константа, то его можно не рассматривать и необходимо максимизировать числитель:

ГР + ™ = Р - ^ dj + N - ^ dj. (7)

7 ЕЛ ./'ЕЛ

Очевидно, что метрика Accuracy соответствует критерию (5). Недостаток данной метрики состоит в том, что в случае сильной несбалансированности классов можно просто всегда предсказывать только класс со значительно большим количеством объектов и иметь хороший показатель Accuracy. Аналогичным недостатком обладает и показатель Recall, если он применяется к отдельному классу, как, впрочем, и все остальные показатели, в знаменателе которых стоят константы (FPR, TNR, FNR).

Средний Recall в значительной мере лишен этого недостатка, поэтому сгенерируем целевую функцию, при которой средний Recall по двум классифицируемым множествам будет максимальным. Обозначим коэффициенты Recall как Ri и R2. Очевидно, что в таком случае:

R1~ p иR2~ n ' 2^N ■

Таким образом, заменим целевую функцию (5) на:

min (N + Р (8)

jell jej2

Вообще метрики, используемые для оценки качества классификаторов, можно разбить на 2 большие группы:

1. Вычисляемые только на основе матрицы ошибок.

2. Вычисляемые на основе метрик первой группы.

Из часто встречающихся метрик первой группы максимизация Jaccard index тоже сводится к критерию (5). Некоторые сложности может вызвать максимизация Precision, так как в результате

простых преобразований можно сделать вывод, что это эквивалентно критерию: min ',

LjeJi dj

и, хотя возможности пакета IBM ILOC CPLEX позволяют решать такие задачи, делать этого не следует, так как максимизация Precision тоже сводится к критерию (5).

Из метрик второй группы наиболее часто встречающимися являются AUC и коэффициент Джини. В монографии [7] авторами уже было показано, что их максимизация сводится к критерию (6). В несколько арифметических действий можно доказать, что максимум индекса Юдента тоже сводится к этому критерию.

Все множество метрик не сводится только к критериям (5) или (6). На практике есть более простой и эффективный способ достигать желаемого качества или убеждаться в его недостижимости. Да и не всегда пожелания заказчика можно сразу формализовать конкретной метрикой, потому что сам заказчик в начале исследований либо не может четко сформулировать целевые показатели, либо формулирует что-то нереальное. Поэтому хорошее решение обычно получается в результате постоянного диалога и многих вычислений для учета пожеланий заказчика. Приведем конкретный пример из практики.

При малых туберкулезных изменениях у пациента нет ярко выраженных признаков, свидетельствующих о том, что заболевание перешло в активную форму [15]. Среди пациентов с подозрениями на туберкулез примерно у 20-25 % его в действительности нет. Процедура лечения длительная, дорогостоящая, а главное - тяжело переносимая всеми пациентами, и особенно детьми. Поэтому подход лечить всех при малейшем подозрении не подходит. С другой стороны, невыявление действительно больного гораздо опасней для общества, чем назначение лечения здоровому. Для решения этой задачи использовался следующий прием: система ограничений (1)-(4) дополнялась одним из условий:

min ^ dj при ограничении ^ dj < (9)

jtj2 j£Jl

min ^ dj при ограничении ^ dj < ß2,

(10)

]6]1 ]6]2 где Р1 и р2 - верхние границы суммы нарушений условий комитета для соответствующих множеств (задавались заказчиком).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Минимизация числа признаков. Существуют различные методы анализа информативности признаков. Обычно их разделяют на 3 большие группы: оберточные, фильтровочные и встроенные в модели [4]. Конечно, в работе с практическими задачами используются все группы, но в данной статье акцент будет сделан на методе, который относится к встроенным в модель. Будем считать, что предварительная обработка данных проведена и сильно некачественные признаки (дублирующие, мультиколлинеарные, малодисперсные и т.п.) уже удалены. Далее задача решается в 3 этапа:

1. На основе модели (1)-(4) с различными целевыми функциями (5), (8)-(10) добиваемся максимально возможного выполнения критериев качества РП, сформулированных заказчиком исследования, и фиксируем их в модели в виде дополнительных ограничений к системе (1)-(4). Например, просто дополняем систему ограничений ограничениями на сумму нарушений условий комитета для каждого множества:

^ ^ <

7 ел ^ ¿1 < 02.

7'е/2

2. Дополняем модель новыми переменными, ограничениями и целевой функцией:

-I * w^ < а' < I * Wj I е I ь еТ,

— I

тт

(11) (12)

(13)

(14)

где wi - булева переменная (Wl = 1 - признак информативен, = 0 - признак неинформативен).

3. Решаем задачу М1Р на основе модели (1)-(4), (11)-(14).

Данный подход был протестирован при решении практических задач. Приведем результаты некоторых из них:

1. Определение активности специфического воспаления при минимальных туберкулезных изменениях у детей и подростков. Из 48 признаков выбрано 7 наиболее информативных [10]. Результаты запатентованы.

2. Подбор технологических параметров для получения агломерата с высокими потребительскими свойствами. Из 320 признаков выбрано 43 наиболее информативных [11].

Интерпретация полученных результатов. К сожалению, развитие ИИ движется в сторону неинтерпретируемых методов, и это вызывает серьезную озабоченность как в научном сообществе, так и у практиков [14, 15]. В рамках раздела небольшой статьи сложно рассмотреть различные аспекты данного вопроса. Поэтому начнем с простого замечания, что окончательную интерпретацию решения должен давать специалист в конкретной предметной области. Задача специалиста по анализу данных - создать для этого хорошую базу, обязательной составляющей которой должно быть высокое качество РП при минимальном количестве признаков.

Причем если есть наборы, одинаковые по числу признаков и качеству РП, но разные по составу признаков, то на рассмотрение должны быть представлены все такие наборы. Например, в результате решения задачи определения активности специфического воспаления при минимальных туберкулезных изменениях у детей и подростков были получены два РП из 7 признаков, которые совпадали по 6 признакам и отличались по 1-му. В одном РП информативным признаком было содержание в крови лейкоцитов, в другом - тромбоцитов. Специалистом был сделан содержательный выбор в пользу лейкоцитов и дана содержательная интерпретация каждому признаку [10]. Аналогичные ситуации возникали при решении всех вышеуказанных задач. Более того, на наш взгляд, необходимо сознательно искать и предоставлять практическому специалисту набор вариантов, близких по качеству и количеству признаков, но отличающихся по составу признаков.

Еще одним достоинством нашего подхода является его четкая геометрическая интерпретация РП в пространстве признаков. Человек не может видеть в многомерном пространстве, но может его мысленно представлять. Приведем геометрические интерпретации комитетных конструкций в 2-мерном пространстве и дадим к ним пояснения. На всех рисунках комитеты построены относительно «синих» точек, стрелками указано направление голосования.

Комитет единогласия - это всегда некоторая выпуклая область, окруженная точками другого множества, как показано на рисунке 1.

Рисунок 1 - Геометрическая интерпретация комитета единогласия в 2-мерном пространстве

В случае комитета старшинства выпуклых областей несколько, как на рисунке 2.

Рисунок 2 - Геометрическая интерпретация комитета старшинства в 2-мерном пространстве

В случае комитета большинства, тоже несколько выпуклых областей, но для интерпретации обычно удобней оперировать кусочно-линейной разделяющей поверхностью. Геометрические интерпретации очень удобны для практических специалистов, так как позволяют им представить структуру множеств, и они достаточно быстро осваивают этот инструментарий вне зависимости от размерности пространства. Например, при решении задачи подбора технологических параметров для получения высококачественного агломерата были локализованы две достаточно удаленные друг от друга выпуклые области. Заказчики тут же сообразили и потребовали указать центры этих областей в качестве некоторых эталонных состояний, по одной области достаточно быстро дали содержательную интерпретацию признаков [11], по другой - сказали, что задумались, почему это происходит, и нужно собрать дополнительные данные.

Выводы. Предлагаемый авторами подход обладает следующими достоинствами:

1. Позволяет достигать качественных характеристик РП, сформулированных заказчиком, если это возможно, и предлагает оптимальную коррекцию пожеланий в противном случае.

2. Минимизировать число признаков, необходимых для выполнения 1-го пункта.

3. Давать геометрическую интерпретацию найденных решений, на основе которой практические специалисты могут переходить к содержательной интерпретации.

4. Математические модели достаточно простые, хорошо воспринимаются практическими специалистами, не требуют знания методов МП и навыков программирования на языках высокого уровня.

Считается, что задачи MIP долго решаются, так как они относятся к NP-полным задачам. Конечно, алгоритм с полиномиальной сходимостью для решения NP-полных задач до сих пор не найден, но из этого не следует, что не надо решать задачи MIP. C момента появления пакета MPSX-360, а это начало 80-х прошлого века, задачи MIP большой размерности успешно решаются современными пакетами. При этом, несмотря на то, что время счета задач с сотнями переменных и десятками тысяч наблюдений может составлять несколько часов, можно получить качественное решение.

Библиографический список

1. Брюс, П. Практическая статистика для специалистов Data Science / П. Брюс, Э. Брюс, П. Гедек. -Санкт-Петербург : БХП-Петербург, 2021. - 352 с.

2. Дудченко, П. В. Метрики оценки классификаторов в задачах медицинской диагностики / П. В. Дуд-ченко. - Томск : Изд-во ТПУ, 2019. - С. 164-165.

3. Дятчетко, Д. Отбор признаков в машинном обучении. - Режим доступа: https://tproger.ru/translations /feature-engineering-in-machine-learning/, свободный. - Заглавие с экрана. - Яз. рус. (дата обращения: 01.12.2022).

4. Бурнаков, А. Методические заметки об отборе информативных признаков (feature selection) / А. Бурнаков. - Режим доступа: https://habr.com/en/company/aligntechnology/blog/303750/, свободный. -Заглавие с экрана. - Яз. рус. (дата обращения: 01.12.2022).

5. Воронцов, К. В. Лекции по методам оценивания и выбора моделей / К. В. Воронцов. - Режим доступа: http://www.machinelearning.rU/wiki/images/2/2d/Voron-Ml-Modeling.pdf, свободный. - Заглавие с экрана. -Яз. рус. (дата обращения: 01.12.2022)

6. Федин, Ф. О. Анализ данных / Ф. О. Федин. - Москва : Московский городской педагогический университет, 2012. - 204 с.

7. Чернавин, П. Ф. Машинное обучение на основе задач математического программирования / П. Ф. Чер-навин, Д. Н. Гайнанов, В. Н. Панкращенко, Ф. П. Чернавин, Н. П. Чернавин. - Москва : Наука, 2021. - 128 с.

8. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным / В. Н. Вапник. - Москва : Наука, 1979. - 447 с.

9. Мазуров, В. Д. Экзистенциальные вопросы комитетных конструкций / В. Д. Мазуров, Е. Ю. Полякова // Часть II. Вестник Южно-Уральского государственного университета. - 2019. - Т. 19, № 1. - С. 114-120.

10. Тюлькова, Т. Е. Практическое применение методов машинного обучения на примере определения активности туберкулезного процесса у лиц с минимальными туберкулезными изменениями, выявленными на рентгенограмме органов грудной клетки / Т. Е. Тюлькова, П. Ф. Чернавин, Н. П. Чернавин // Клинический вестник ФМБЦ им. А.И. Бурназяна. - 2022. - № 2. - С. 64-73.

11. Чернавин, П. Ф. Имитационная модель подбора технологических параметров для получения агломерата с высокими потребительскими свойствами на основе метода комитетов / П. Ф. Чернавин, А. Ф. Малыгин, Т. В. Деткова, В. Ю. Кучин // Черные металлы. - 2022. - № 3. - С. 10-14.

12. Bennett, K. Linear Programming Boosting via Column Generation / K. Bennett, A. Demiriz, J. Taylor // Proceedings of Seventeenth Conference on Machine Learning. - 2000. - P. 65-72.

13. Bradley, P. Mathematical Programming for Data Mining Formulation and Challenges / P. Bradley, U. Fay-yad, O. Mangasarian // Journal on Computing. - 1999. - № 11. - P. 217-238.

14. Miller, T. Explanation in Artificial Intelligence Insights from the Social Science / T. Miller // Artificial Intelligence. - 2019. - Vol. 267. - P. 1-38.

15. Roscher, R. Explainable Machine Learning for Scientific Insights and Discoveries / R. Roscher, B. Bohn, M. Duarte // IEEE Access. - 2020. - Vol. 8. - P. 42200-42216.

References

1. Bryus, P., Bryus, E., Gedek, P. Prakticheskaya statistika dlya spetsialistov Data Science [Practical statistics for specialists Data Science]. Saint Petersburg, BHP-Petersburg, 2021. 352 p.

2. Dudchenko, P. V. Metriki otsenki klassifikatorov v zadachakh meditsinskoy diagnostiki [Evaluation metrics for classifiers in medical diagnostic problems]. Tomsk, TPU Publishing House, 2019, pp. 164-165.

3. Dyatchetko, D. Otborpriznakov v mashinnom obuchenii [Selection of characteristics in machine learning]. Available at: https://tproger.ru/translations/feature-engineering-in-machine-learning/ (accessed 01.12.2022).

4. Burnakov, A. Мetodicheskiye zametky ob otbore informativnykh priznakov (feature selection) [Methodological notes on the selection of informative features. (feature selection)]. Available at: https://habr.com/en/company/aligntechnology/blog/303750/ (accessed 01.12.2022).

5. Vorontsov, K. V. Lektsii po metodam otsenivaniya i vybora modeley [Lectures on estimation methods and model selection]. Available at: http://www.machinelearning.ru/wiki/images/2/2d/Voron-Ml-Modeling.pdf (accessed 01.12.2022).

6. Fedin, F. O. Analizdannykh [Data analysis]. Moscow: Moscow City Pedagogical University], 2012, 204 p.

7. Vapnik, V. N. Vosstanovlenie zavisimosteypo empiricheskim dannym [Recovery of dependences on empirical data]. Moscow, Nauka Publ., 1979. 447 p.

8. Chernavin, P. F., Gaynanov, D. N., Pankrashchenko, V. N., Chernavin, F. P., Chernavin, N. P. Mashinnoe obuchenie na osnove zadach matematicheskogo programmirovaniya [Machine learning based on mathematical programming problems]. Moscow, Nauka Publ., 2021. 128 p.

9. Mazurov, V. D., Polyakova, E. Yu. Ekzistentsialnye voprosy komitetnykh konstruktsiy [Existential questions of committee constructions]. Chast II. Vestnik Yuzhno-Uralskogo gosudarstvennogo universiteta [Part II. Bulletin of the South Ural State University], 2019, vol. 19, no. 1, p. 114-120.

10. Tyulkova, T. E., Chernavin, P. F., Chernavin, N. P. Prakticheskoe primenenie metodov mashinnogo obucheniya na primere opredeleniya aktivnosti tuberkuleznogo protsessa u lits s minimalnymi tuberkuleznymi izmeneniyami, vyyavlennymi na rentgenogramme organov grudnoy kletki [Practical application of machine learning methods on the example of determining the activity of the tuberculous process in individuals with minimal tuberculous changes detected on chest X-ray]. Klinicheskiy vestnikFMBC imeni A. I. Burnazyana [Clinical Bulletin of the FMBC named after A. I. Burnazyan], 2022, no. 2, pp. 64-73.

11. Chernavin, P. F., Malygin, A. F., Detkova, T. V., Kuchin, V. Yu. Imitatsionnaya model podbora tekhnolog-icheskih parametrov dlya polucheniya aglomerata s vysokimi potrebitelskimi svoystvami na osnove metoda komitetov [Simulation model for selecting technological parameters for obtaining sinter with high consumer properties based on the committee method]. Chernye metally [Black metals], no. 3, 2022, pp. 10-14.

12. Bennett, K., Demiriz, A., Taylor, J. Linear Programming Boosting via Column Generation. Proceedings of Seventeenth Conference on Machine Learning, 2000, pp. 65-72.

13. Bradley, P., Fayyad, U., Mangasarian, O. Mathematical Programming for Data Mining Formulation and Challenges. Journal on Computing, 1999, no. 11, pp. 217-238.

14. Miller, T. Explanation in Artificial Intelligence Insights from the Social Science. Artificial Intelligence, 2019, vol. 267, pp. 1-38.

15. Roscher, R., Bohn, B., Duarte, M. Explainable Machine Learning for Scientific Insights and Discoveries. IEEE Access, 2020, vol. 8, pp. 42200-42216.

i Надоели баннеры? Вы всегда можете отключить рекламу.