Научная статья на тему 'ПРИМЕНЕНИЕ АЛГОРИТМА НЕЧЕТКОЙ ЛОГИКИ МАМДАНИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА НА ОСНОВЕ ИМЕЮЩИХСЯ ДАННЫХ'

ПРИМЕНЕНИЕ АЛГОРИТМА НЕЧЕТКОЙ ЛОГИКИ МАМДАНИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА НА ОСНОВЕ ИМЕЮЩИХСЯ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
91
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КАЧЕСТВО ДАННЫХ / МЕТОДЫ НЕЧЕТКОЙ ЛОГИКИ / АЛГОРИТМ МАМДАНИ / КРИТЕРИИ ОЦЕНКИ КАЧЕСТВА ДАННЫХ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дусакаева С.Т., Носарев М.П., Хохлов И.А., Нирян П.Л.

В статье рассмотрена актуальная проблема трудоемкости и высокой стоимости разработки систем или моделей искусственного интеллекта в связи с низким качеством используемых данных. Изучены виды и направления корреляционной связи между различными метриками качества данных и точности работы итоговой модели искусственного интеллекта. Отмечено, что в современном мире наблюдается проникновение искусственного интеллекта практически во все области человеческой деятельности: здравоохранение, агропродовольственная сфера, промышленность, творческие направления. Обоснована актуальность поставленной проблемы и проведен краткий обзор современных исследований, связанных с изучением взаимокорреляции качества данных и точности искусственного интеллекта. Указано, что плохие данные приводят к значительным финансовым потерям, повышают трудоемкость разработки систем или моделей искусственного интеллекта. На основе проведенных исследований в различных областях применения искусственного интеллекта выделены пять характеристик больших данных, влияющих на точность разрабатываемого продукта: несогласованность, неполнота, недействительность, зашумленность, размер выборки. Для определения искомых зависимостей выбран алгоритм нечеткой логики Мамдани. Критерии оценки качества данных преобразованы в термы с нечеткими треугольными числами и сформированы правила нечеткого вывода. Построены графики зависимостей и сделаны выводы о наиболее важных критериях качества данных. Высокая зашумленность или несогласованность данных допустима лишь в небольших количествах, но точность моделей резко падает при усилении этих характеристик, неполнота или недействительность менее критично влияют на качество моделей, увеличение размера выборки имеет значимое влияние либо при высокой сложности модели, либо при относительно небольшой исходной выборке.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дусакаева С.Т., Носарев М.П., Хохлов И.А., Нирян П.Л.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF THE MAMDANI FUZZY LOGIC ALGORITHM TO ASSESS THE QUALITY OF ARTIFICIAL INTELLIGENCE MODELS BASED ON AVAILABLE DATA

This paper considers the actual problem of laboriousness and high cost of developing systems or models of artificial intelligence due to the low quality of the data used. The types and directions of the correlation between various metrics of data quality and the accuracy of the final artificial intelligence model are studied. It is noted that in the modern world there is a penetration of artificial intelligence into almost all areas of human activity: healthcare, agri-food, industry, creative areas. The relevance of the problem posed is substantiated and a brief review of modern studies related to the study of the correlation between data quality and artificial intelligence accuracy is carried out. It is noted that bad data lead to significant financial losses, increases the complexity of developing artificial intelligence systems or models. Based on the research conducted in various areas of artificial intelligence application, five characteristics of big data affecting the accuracy of the developed artificial intelligence have been identified: inconsistency, incompleteness, invalidity, noisiness, sample size. To determine the desired dependencies, the Mamdani fuzzy logic algorithm was chosen. Criteria for assessing data quality are converted into terms with fuzzy triangular numbers and fuzzy inference rules are formed. Dependence graphs are constructed and conclusions are drawn about the most important data quality criteria. High noise or data inconsistency are acceptable only in small quantities, but the accuracy of models drops sharply when these characteristics are enhanced, incompleteness or invalidity are less critical for the quality of models, increasing the sample size has a significant impact either with high model complexity or with a relatively small initial sample.

Текст научной работы на тему «ПРИМЕНЕНИЕ АЛГОРИТМА НЕЧЕТКОЙ ЛОГИКИ МАМДАНИ ДЛЯ ОЦЕНКИ КАЧЕСТВА МОДЕЛЕЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА НА ОСНОВЕ ИМЕЮЩИХСЯ ДАННЫХ»

DOI 10.26731/1813-9108.2023.1(77X170-180 УДК 510.644.4:796.015.82:796.332

Применение алгоритма нечеткой логики Мамдани для оценки качества моделей искусственного интеллекта на основе имеющихся данных

С.Т. ДусакаеваИ, М.П. Носарев, И.А. Хохлов, П.Л. Нирян

Оренбургский государственный университет, г. Оренбург, Российская Федерация И slushashdusakaeva@rambler.ru

Резюме

В статье рассмотрена актуальная проблема трудоемкости и высокой стоимости разработки систем или моделей искусственного интеллекта в связи с низким качеством используемых данных. Изучены виды и направления корреляционной связи между различными метриками качества данных и точности работы итоговой модели искусственного интеллекта. Отмечено, что в современном мире наблюдается проникновение искусственного интеллекта практически во все области человеческой деятельности: здравоохранение, агропродовольственная сфера, промышленность, творческие направления. Обоснована актуальность поставленной проблемы и проведен краткий обзор современных исследований, связанных с изучением взаимокорреляции качества данных и точности искусственного интеллекта. Указано, что плохие данные приводят к значительным финансовым потерям, повышают трудоемкость разработки систем или моделей искусственного интеллекта. На основе проведенных исследований в различных областях применения искусственного интеллекта выделены пять характеристик больших данных, влияющих на точность разрабатываемого продукта: несогласованность, неполнота, недействительность, зашумленность, размер выборки. Для определения искомых зависимостей выбран алгоритм нечеткой логики Мамдани. Критерии оценки качества данных преобразованы в термы с нечеткими треугольными числами и сформированы правила нечеткого вывода. Построены графики зависимостей и сделаны выводы о наиболее важных критериях качества данных. Высокая зашумленность или несогласованность данных допустима лишь в небольших количествах, но точность моделей резко падает при усилении этих характеристик, неполнота или недействительность менее критично влияют на качество моделей, увеличение размера выборки имеет значимое влияние либо при высокой сложности модели, либо при относительно небольшой исходной выборке.

Ключевые слова

искусственный интеллект, качество данных, методы нечеткой логики, алгоритм Мамдани, критерии оценки качества данных Для цитирования

Применение алгоритма нечеткой логики Мамдани для оценки качества моделей искусственного интеллекта на основе имеющихся данных / С.Т. Дусакаева, М.П. Носарев, И.А. Хохлов, П.Л. Нирян // Современные технологии. Системный анализ. Моделирование. 2023. № 1 (77). С. 170-180. DOI 10.26731/1813-9108.2023.(77).170-180.

Информация о статье

поступила в редакцию: 26.12.2022 г.; поступила после рецензирования: 13.03.2023 г.; принята к публикации: 14.03.2023 г.

Application of the Mamdani fuzzy logic algorithm to assess the quality of artificial intelligence models based on available data

S.T. DusakaevaS, M.P. Nosarev, I.A. Khokhlov, P.L. Niryan

Orenburg State University, Orenburg, the Russian Federation И slushashdusakaeva@rambler. ru

Abstract

This paper considers the actual problem of laboriousness and high cost of developing systems or models of artificial intelligence due to the low quality of the data used. The types and directions of the correlation between various metrics of data quality and the accuracy of the final artificial intelligence model are studied. It is noted that in the modern world there is a penetration of artificial intelligence into almost all areas of human activity: healthcare, agri-food, industry, creative areas. The relevance of the problem posed is substantiated and a brief review of modern studies related to the study of the correlation between data quality and artificial intelligence accuracy is carried out. It is noted that bad data lead to significant financial losses, increases the complexity of developing artificial intelligence systems or models. Based on the research conducted in various areas of artificial intelligence application, five characteristics of big data affecting the accuracy of the developed artificial intelligence have been identified: inconsistency, incompleteness, invalidity, noisiness, sample size. To determine the desired dependencies, the Mamdani fuzzy logic algorithm was chosen. Criteria for assessing data quality are converted into terms with fuzzy triangular numbers and fuzzy inference rules are formed. Dependence graphs are constructed and conclusions are drawn about the most important data quality criteria. High noise or data inconsistency are acceptable only in small quantities, but the accuracy of models drops sharply when these characteristics are enhanced, incompleteness or invalidity are less critical for the quality of models, increasing the sample size has a significant impact either with high model complexity or with a relatively small initial sample.

Keywords

artificial intelligence, data quality, fuzzy logic methods, Mamdani algorithm, data quality assessment criteria

For citation

Dusakaeva S.T., Nosarev M.P., Khokhlov I.A., Niryan P.L. Primenenie algoritma nechetkoi logiki Mamdani dlya otsenki kachestva modelei iskusstvennogo intellekta na osnove imeyushchikhsya dannykh [Application of the Mamdani fuzzy logic algorithm to assess the quality of artificial intelligence models based on available data]. Sovremennye tekhnologii. Sistemnyi analiz. Modelirovanie [Modern Technologies. System Analysis. Modeling], 2023, no. 1 (77), pp. 170-180. DOI: 10.26731/1813-9108.2023.1(77).170-180.

Article info

Received: December 26, 2022; Revised: March 13, 2023; Accepted: March 14, 2023.

Введение

Проблема разработки и внедрения искусственного интеллекта (ИИ) в повседневную жизнь в последние годы имеет высокую степень актуальности. По исследованию консалтинговой компании АссепШге [1], одной из крупнейших в США, технологии машинного обучения обладают потенциалом повышения показателей прибыльности коммерческих организаций в среднем на 38 %, а также способны в значительной степени повысить уровень производительности труда человека. Отмеченный факт является одной из основных причин, по которой ИИ проникает почти во все сферы повседневной жизни.

Проведено немало исследований, показывающих, что ИИ станет основной частью цифровых систем здравоохранения, которые формируют и поддерживают современную медицину [2]. Например, исследователи из Всеиндийского института медицинских наук пришли к выводу, что ИИ позволит в будущем совершить прорыв в области медицины: эффективнее искать заболевания, учитывать множество факторов, быстрее синтезировать лекарства от заболеваний и др. В агропродовольственной сфере ИИ также будет способствовать развитию: от создания продукта и логистики его доставки до оценки рисков расхода бюджета на рекламу или производства какого-либо товара, причем гораздо быстрее и эффективнее людей [3]. Более того, по мнению департамента бухгалтерского учета Йо-ханнесбургского университета, ИИ многократно ускоряет наступление так называемой четвертой промышленной революции, в которой машина заменит человека почти во всех отраслях производства, что приведет к экономическому процветанию общества [4]. И даже в искусстве модели ИИ начинают находить свое применение, в деятельности, которую раньше считали лишь привилегией человека. Исследования, проведенные департаментом визуальных искусств Кали-

форнийского университета, свидетельствуют о том, что модели ИИ способны к творческой деятельности. Более того, нередко подобные работы выходят за грани человеческой фантазии и поражают воображение, многократно превосходя человека в этой сфере деятельности [5].

Распространение ИИ до сих пор не является столь массовым во многом благодаря трем фундаментальным проблемам:

- трудоемкость;

- дороговизна;

- недостаточность данных.

По оценкам экспертов [6], разработка хорошего ИИ по стоимости может быть дорогой, рискованной, кроме того, это долгий и трудоемкий процесс, включающий в себя сложности внедрения разработанных технологий в эксплуатацию и требующий привлечения высококвалифицированных специалистов.

Но ключевая проблема для любого ИИ -это данные, на которых и будет происходить процесс обучения. От качества используемых данных напрямую зависит качество создаваемого ИИ. Независимо от размеров выделяемого финансирования и высокой квалифицированности команды разработки, плохие данные чаще всего все равно будут приводить к получению отрицательного результата [7]. Разработанные с низкой точностью модели ИИ имеют низкую востребованность и неприменимы в областях, требующих высокой точности, например, в медицине, а также они могут принести многомиллионные убытки компании-разработчику. Это означает, что еще на этапе планирования разработки ИИ можно спрогнозировать итоговый результат, проведя первичный анализ имеющихся для обработки данных.

Таким образом, проблема оценки качества данных, используемых для обучения ИИ, становится особенно актуальной в настоящее время.

Существует явная неопределенность в том, что может пониматься под качеством данных, отсутствуют и четкие критерии методов оценки качества данных и корреляции этой характеристики с точностью ИИ. Для решения этой проблемы изучим современные исследования различных моделей ИИ, для разработки которых использовались данные с явными недостатками, и рассмотрим методы борьбы с этой проблемой.

В связи со сказанным представляется целесообразным при решении задачи оценки качества моделей ИИ на основе имеющихся данных привлечь модели и алгоритмы нечеткой логики.

Целью исследования является выявление с помощью инструментов нечеткой логики степени влияния метрик качества данных на качество ИИ.

Для достижения поставленной цели сформулированы и решены следующие задачи:

1. Провести обзор современных исследований в области экспериментов, сопоставляющих качество данных и качество модели ИИ.

2. На основе изученных работ составить нечеткую модель корреляции качества данных и качества ИИ.

3. Составить нечеткую систему поддержки принятия решений с помощью Matlab Fuzzy Logic Toolbox.

4. Апробировать построенную нечеткую модель и сделать выводы.

Материалы и методы

Качество данных - это оценка полезности и надежности данных для достижения определенной цели. Есть много причин почему данные «портятся»: ошибки в измерениях, ручной ввод, потеря, устаревание данных. Аналитик данных из Google Ш. Шафеи, например, выделял следующие качества данных: полнота; уникальность; согласованность; своевременность; действительность [8].

Во-первых, исключим из предложенного списка уникальность, так как фильтрация повторяющихся данных не является проблемной, и своевременность, оценка которой кажется слишком сложной и спорной задачей. Добавим зашумленность данных и размер выборки, как достаточно очевидные характеристики качества данных.

Изучим каждую из характеристик детально.

Согласованность

Данный параметр будет рассмотрен на примере работы, посвященной роли ИИ в геофизических исследованиях [9].

Авторы изучали методы применения машинного обучения для автоматизации геофизических исследований, требующих для точной интерпретации результатов работы ИИ оценки экспертов.

При анализе интерпретации скважин, проведенных тремя разными экспертами, была сформулирована следующая гипотеза: экспертные оценки часто не согласуются друг с другом, и это в наибольшей степени относится к интерпретации всех типов пород. Несогласованность экспертных оценок оказывает сильное негативное влияние на качество работы классификаторов и ее следует учитывать.

В результате проводилось несколько экспериментов, показывающих действительность данной гипотезы. В эксперименте были задействованы два эксперта: Е и С. Они независимо проводили оценку трудно-отличаемых друг от друга вмещающих уран пород. В итоге было сформировано два неидентичных набора целевых меток для анализируемых участков, потенциально пригодных для добычи урана. В табл. представлено сравнение качества работы модели при обучении на оценках пород эксперта С, эксперта Е, обучение на обоих наборах сразу без информации в виде ГО об эксперте, установившем конкретную метку, и обучение на обоих наборах сразу с информацией о том, кто какую метку установил, в виде ГО эксперта.

Согласно данным (см. табл.), можно сделать некоторые выводы. Если подавать модели идентичные наборы признаков с противоречащими метками, то параметры качества модели резко упадут по сравнению с обучением на наборах с метками только от одного эксперта. Добавление же ГО эксперта разделяет эти наборы меток, что позволяет модели выбирать, какому из экспертов можно доверять, что в большинстве своем усредняет качество модели между случаями обучения на метках только одного из экспертов.

Полнота и действительность

Полноту и действительность будем рассматривать, опираясь на результаты работы [10]. Авторы использовали два набора данных: набор с информацией о трафике транспорта, в котором

хранилась информация о среднесуточных показателях трафика транспорта по дорогам, и набор с информацией о состоянии погоды для предсказывания дождя (влажность, температура, скорость ветра и т.д.).

Авторы для каждого набора данных проводили обучение на модели «дерево принятия решений» и ставили эксперименты в двух разных форматах: неполные объекты и недопустимые объекты. Значения были выбраны таким образом, чтобы отражать различные ситуации повреждения данных - мелкие, средние и крупномасштабные.

В результате проводимых экспериментов с отсутствующими объектами в данных, при низких и средних потерях данных качество моделей незначительно колебалось в пределах 1-2 %, а при преодолении порога потери 20 % данных о трафике машин и потери 30 % данных о темпе-

дель просто не учитывала в вычислениях неполные данные до тех пор, пока пробелы не стали достаточно критическими.

Пример результатов работы можно увидеть на рис. 1. График сравнивает количество верно совершенных моделью прогнозов траф-фика движения автотранспорта в виде атрибута качества accuracy при различных количествах некорректных объектов (от 0 до 15) и различной силе некорректности (от -1 до -10 000 проехавших машин).

Таким образом, очевидно, что достоверность данных более значимый признак данных, чем полнота. Современные модели обучены работать с пробелами в данных и качественно обрабатывать пропуски, однако они все еще не научены отсеивать некорректные данные. Это приводит к тому, что модели совершают много ошибок, доверяя объектам с абсурдными значе-

ратурных условиях качество моделей на тестовой выборке резко ухудшалось. Вероятно, мо-

ниями целевых меток.

Сравнение результатов обучения модели с различными вариациями использования

мнений двух экспертов Comparison of learning outcomes of the model with different variations of using

Methods Train Test Accuracy Precision Recail F1

Expert C 45 12 0.5869 0.6491 0.4751 0.5486

Expert E 35 5 0.4722 0.5409 0.1963 0.2880

Experts C&E w/out ID 77 20 0.4401 0.4078 0.1365 0.2045

Experts C&E with ID 77 20 0.4996 0.5157 0.3529 0.4190

1 -100 -500 -1000 -5000 -10000

0 87 87 87 87 87 87

3 87 80 67 73 67 67

7 80 67 60 60 73 60

10 73 60 53 47 60 67

13 60 47 40 53 53 53

Accuracy on Depth 3 and 20% test size in Different invalid Features for each invalid Value in Traffic Data

100

80 60 40

20 Q

-l -100 -500 -1000 -5000 -10000

— 0 -: 3 -7 - 10 — — 13

Рис. 1. Влияние недействительных признаков на качество модели Fig. 1. Influence of invalid features on the quality of the model

Зашумленность

При изучении влияния зашумленности обучающей выборки на модель ИИ мы опирались на результаты исследования модели ИИ сканов МРТ мозга [11].

Авторы использовали 165 МРТ-сканирований от 88 субъектов туберкулезного склероза (TSC) (рис. 2).

Рис. 2. Пример сканированного изображения мозга с опухолями Fig. 2. Example of brain tumor scans

Опытный аннотатор сегментировал поражения в этих сканированиях. 12 изображений аннотаторы идеально пометили, остальные снимки представляли из себя шумный набор данных.

Далее авторы попытались сравнить базовое обучение нейронных сетей (CNN) и модификации этого метода, более устойчивые к шуму в данных. Исследования проводились на разных уровнях зашумленности данных, разделенных на уровни 1-5, а также отдельный «чистый» набор, заранее проверенный. Краткие результаты проведенных экспериментов представлены на рис. 3.

В результате в зависимости от уровня шума (уровням 1-7 соответствуют равномерно растущие шумы от 2 до 17 % от всех данных), внесенного в обучающие данные, качество мо-

делей падало тем быстрее, чем больше было шума. Очевидно, что модификации CNN справлялись с шумовыми метками лучше, но общая тенденция падения качества моделей сохранялась на каждом усилении уровня шума.

Размер выборки

Исследование данной характеристики проводилось на основе сравнения точности моделей глубокого обучения CNN, Cubist (модификация деревьев решений) и PLSR (частичная регрессионная модель наименьших квадратов) для прогнозирования свойств почвы по данным спектроскопии в ближнем инфракрасном диапазоне [12].

У авторов был набор данных, включающий 12 044 образца почвы с 4 251 уникального участка. Для того чтобы лучше представить распределение почвы, авторы разделили и под-группировали данные на основе участков. Набор данных был сначала случайным образом разделен на 75 % калибровки и 25 % валида-ции.

Из набора калибровочных данных были созданы выборки: 350, 840, 1 400, 2 800, 4 200, 5 600, 7 000, 7 650 образцов почв. Далее для сравнения авторы ввели две модели классического обучения PLSR и Cubist, которые соревновались с CNN. В целом модели PLSR и Cubist, как правило, работали лучше, когда размер выборки был относительно небольшим (< 1 500). Модель CNN начала показывать лучшую производительность по сравнению с моделями PLSR и Cubist на 3 000 образцов и более (рис. 4).

Очевидно, что количество данных имеет свой вес на небольших выборках, и вскоре качество моделей, зависимое от размера выборки, упирается в свой потолок на определенных значениях, после которых почти не растет. Причем этот потолок тем выше, чем сложнее модель.

Clfjrt ÜJ1,I llimc Ictel 1 (Method IWLM! IfVtl 2 1 Meftod iwLs¿ tewl 3 iMílJmd ik>¡se lene] 4 (MlUkhJ nuist 1ечс! 5 [Mettod ii(it4: kiel íi i WHhnd jmist leve! í (Mclbod

1) i) J) I) Ü Л 2)

Avcrjjp LíSC ÍJÍ lliL' Lniiimjj Ijk'J:- ШЮ ш> ш ú,SJ4 Ш) Ш ft.JÍÍ 0.742

iíüwiinc t'NÑ н.Ш (Ш2 0.W6 МИ— Ш Ш Ш

li;L4-íinc Í'MN trjiru.iJ wiih MAL |i>ss Ш1 0.S64 OMi 0.78D (1.74 L II.77H II.7MJ

Dual CNN* wilti hitiIju' Ltlx'l u|nlLik' ll'XNS Ü.IWS 11.Ш IM fí.RlU 0.773 {5.732

Рис. 3. Результаты исследований влияния шума на обучение модели CNN Fig. 3. Results of studies of the influence of noise on the CNN model training

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Формирование нечеткой системы

Нечеткая система зависимости точности модели от качества данных сформирована с

конструированном модели используются ранее обозначенные метрики качества данных. Уровень влияния каждой метрики на качество ито-

помощью инструмента MathLab в интерактивном режиме использования графических средств пакета Fuzzy Logic Toolbox.

Алгоритм Мамдани [13-15], используемый в данном исследовании, реализуется формулой:

ц'(у) = min {ci, ц(у)} (1)

где ci - степень истинности i-го подзаключения; ц(у) - функция принадлежности терма; ц'(у) -«активизированная» функция принадлежности.

В источниках [13, 14] (1) называют min-активацией, поскольку она позволяет вычислять показатель истинности для каждого подза-ключения Ci = di • Fi, где di - i-ое подзаключе-ние, Fi - весовые коэффициенты степени уве-рености в i-ом подзаключении, i = 1 ... q. Далее каждое i-ое подзаключение сопоставляется с соответствующим множеством Di - области определения для di, со своей новой функцией принадлежности. Она вычисляется как минимум из значения функции принадлежности терма подзаключения и ci.

В качестве выходного параметра выбрана абстрактная точность модели ИИ. Под точностью будем понимать универсальный параметр с областью значений, заключенных от 0 до 1, который для каждого конкретного типа модели ИИ может интерпретироваться различно. В качестве опоры для определения нечетких термов

говой модели ИИ оценивается на основе ранее рассмотренных исследований [10-13].

В конструируемой модели точность имеет вид треугольных нечетких чисел, представленных на рис. 5 с термами:

- очень низкая точность (0; 0; 0,4);

- низкая точность (0,2; 0,5; 0,7);

- приемлемая точность (0,4; 0,6; 0,75);

- высокая точность (0,6; 0,8; 0,95);

- очень высокая точность (0,9; 1; 1).

Характеристика согласованности организована со следующими термами: несогласованные данные, несогласованные данные с меткой, согласованные данные. Согласованность можно отразить в процентном совпадении ответов экспертов:

- несогласованность (0; 0; 0,9);

- согласованность (0,9; 1; 1).

Пример терма полноты представлен на рис. 6. Характеристики полноты и действительности организованы со следующими термами:

- отсутствие неполноты или недействительности (0; 0; 0,05);

- низкая неполнота или недействительность (0; 0,08; 0,14);

- средняя неполнота или недействительность (0,07; 0,12; 0,4);

- высокая неполнота или не-

Model Туре о CNN -о- Cubist PLSR

О 25 GO 5000 7500

Average sample size Рис. 4. Влияние размера выборки на качество моделей Fig. 4. Effect of sample size on the quality of models

Рис. 5. Пример реализации треугольной термы точности Fig. 5. An example of the implementation of a triangular accuracy term

Рис. 6. Пример реализации треугольных термов полноты Fig. 6. An example of the implementation of triangular completeness terms

действительность (0,12; 0,4; 0,73);

- критическая неполнота или недействительность (0,6; 1; 1).

Характеристика зашумленности организована со следующими термами:

- чистый набор данных (0; 0; 0,04), уровень шума 1 (0; 0,05; 0,13);

- уровень шума 2 (0,05; 0,09; 0,2);

- уровень шума 3 (0,12; 0,15; 0,33);

- уровень шума 4 (0,2; 0,28; 0,4);

- уровень шума 5 (0,3; 0,45; 0,5).

Характеристика размера выборки организована со следующими термами:

- малая выборка (1 000, 1 500, 2 000);

- средняя выборка (2 000, 4 000, 5 000);

- большая выборка (4 000, 10 000, 10 000).

На рис. 7 показано окно редактора правил, в котором было создано 48 нечетких правил. На рис. 8 изображено окно графического отображения логических правил в Fuzzy Logic Toolbox.

Разработана система поддержки принятия

решений для предсказания точности модели ИИ, создаваемой по имеющимся данным. Она построена на теории нечетких множеств [16-18] и нечеткой логике [19-22], где основой является алгоритм Мамдани. Она позволяет эксперту оценить качество имеющихся данных и заранее предсказать возможный результат разработанного и обученного на этих данных ИИ.

На базе работы созданной системы иссле-

дуем модель по параметрам: согласованность, полнота, действительность, зашумленность, размер выборки.

На рис. 9-11 представлены некоторое гиперплоскости, отражающие нижеприведенные выводы:

- согласованность между данными критически важна (> 0,9), противоречивые данные значительно снижают точность модели ИИ;

1. ^ (Согласованность ¡5 Несогласованность) №еп (Точность ¡5 Низкая_точность) (1)

2. ^(Согласованность ¡б Несогпасованносгь_с_меткой)1Иеп (Точность в Приемлемая_точность) (1)

3. ^(Согласованность ¡з Согласованность) №еп (Точность в Высокая_точность) (1) 4 К (Полнота ¡5 Отсуствие_неполноты) Жеп (Точность ¡5 Высокая_точность) (1)

5. ^(Полнота ¡5 Низкая_неполнота)№еп (Точность в Очень_высокая_точность) (1)

6. ^(Полнота ¡з Средняя_неполнота)й1еп (Точность ¡а Приемлемая_точность) (1)

7. ^(Полнота ¡з Высокая_неполнота)1Иеп (Точность в Низкая_точность) (1)

8. К (Полнота ¡з Критичвская_неполнота)^еп (Точность 13 Низкая_точность) (1)

9 № (Действительность ¡5 Отсуствие_недействительность)1Ьеп (Точность ¡5 Высокая_точность) (1) 10.1Т (Действительность в Низкая_недействительность)№еп (Точность ¡з Приемлемая_точность) (1)

11. № (Действительность ¡з Средняя_недействительность)й1еп (Точность ¡з Приемлемая_точность) (1)

12. № (Действительность ¡з Высокая_недействительносгь)1Ьеп (Точность в Низкая_точность) (1)

13. К (Действительность ¡з Критическая_недействительность)^еп (Точность 13 Очень_низкая_точность) (1)

14. № (Зашумленность ¡5 Чистые_данные) №еп (Точность ¡5 Высокая_точность) (1) 15.1Т (Зашумленность ¡э Уровень_шума_1)^еп (Точность ¡з Высокая_точность) (1)

16. № (Зашумленность ¡з Уровень_шума_2) ^еп (Точность ¡з Высокая_точность) (1)

17. № (Зашумленность & Уровень_шума_3) ^еп (Точность в Приемлемая_точность) (1)

18. К (Зашумленность ¡з Уровень_шума_4) ^еп (Точность ¡з Приемлемая_точность) (1)

19. № (Зашумленность ¡з Уровень_шума_5) ^еп (Точность ¡з Приемлемая_точность) (1) ?П КГРяямйп выАппки в Мяпяп выАпгжяНИйп ПГочнопть ¡я Ниакян тпчнппть"> 1"П

and

and

and

Действительность is

Зашумленность is

Размер_выборки is

Излишество is

Отсустви е_недей ствитет Средняя_н едействител ьн с Крити ческая_недей ствите Н изкая_н едей ствител ьн ос Высокая_недействительнс попе

Чисты е_данные

Уровень_шума_3

Уровень_шума_5

Уровень_шума_1

Уровень_шума_2

Уровень_шума_4

попе

Малая_вы5орка Средняя_вы борка Бол ьшая_вы борка

Н едостач а_дан ных Нормальное_копичество Излишество_данных попе

О ч вн ь_н изкая_точ н ость

Приемп емая_точносгь

Очень_высокая_точность

Низкая_точность

Высокая_точносгь

попе

□ not

□ noi

□ not

□ noi

□ not

Рис. 7. Просмотр окна редактора правил Fig. 7. Viewing the rule editor window

Рис. 8. Просмотр логических правил в редакторе Fig. 8. Viewing logical rules in the editor

Неполнота

Рис. 9. Гиперплоскость «согласованность - неполнота» Fig. 9. Hyperplane «consistency - incompleteness»

Зашумленность

Рис. 10. Гиперплоскость «согласованность - зашумленность» Fig. 10. Hyperplane «consistency - noisiness»

4030 Радмераыбэрки

Рис. 11. Гиперплоскость «зашумленность - размер выборки» Fig. 11. Hyperplane «noisiness - sampling size»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- неполнота не является очень важной характеристикой в оценке качества данных, серьезный ущерб модели наносится при отсутствии примерно более 40 % данных;

- недействительность в небольших объемах (< 0,1) легко распознается моделями, но дальнейший рост процента недействительных данных экспоненциально снижает качество моделей ИИ, приближая к нулевым показателям при более чем 50 % недействительных данных;

- зашумленность данных влияет на модели ИИ абсолютно аналогично недействительности;

- рост размера выборки логарифмически повышает точность модели ИИ, т. е. при достаточно больших объемах данных дальнейшее их увеличение почти не будет оказывать влияния на точность модели ИИ.

Заключение

В результате проведенного исследования

разработана система поддержки принятия решения, позволяющая предварительно оценить качество правильно разработанной системы ИИ на основании имеющихся данных. Основным инструментальным средством выбран алгоритм Мамдани, с помощью которого построена нечеткая система. Для построения этой системы использована среда программирования Matlab Fuzzy Logic Toolbox. Построенная нечеткая модель апробирована. Полученные результаты

могут быть разобраны и учтены компаниями, планирующими вкладываться в развитие ИИ по их направлению.

Примененный в проведенном исследовании подход предварительной оценки качества ИИ, основанный на нечетком алгоритме Мамда-ни, позволит лицам, принимающим решение вкладываться в создание ИИ, более здраво оценивать риски.

Список литературы

1. Purdy M., Daugherty P. How AI Boosts Industry Profits and Innovation. Dublin : Accenture Institute for High Performance, 2017. 28 p.

2. Overview of artificial intelligence in medicine / P. Amisha, M. Malik, Pathania et al. // Journal of Family Medicine and Primary Care. 2019. № 8 (7). Р. 2328-2331. DOI 10.4103/jfmpc.jfmpc_440_19.

3. Baruchelli P., Botto F., Cimatti A. Overview on maturity of AI innovations in manufacturing. URL: https://eit.europa.eu/sites/default/files/overview_on_maturity_of_ai_innovations_in_manufacturing_20529-d11.pdf (Access date 21.10.2022).

4. Mhlanga D. Artificial Intelligence in the Industry 4.0, and Its Impact on Poverty, Innovation, Infrastructure Development, and the Sustainable Development Goals: Lessons from Emerging Economies? URL: https://www.mdpi.com/2071-1050/13/11/5788 (Access date 21.10.2022).

5. Mingyong C. The Creativity of Artificial Intelligence in Art // Proceedings of the 2021 Summit of the International Society for the Study of Information. Sendai, Los Angeles, 2021. Vol. 81, Iss. 1. URL: https://www.mdpi.com/2504-3900/81/1/110 (Access date 21.10.2022).

6. Mun J., Housel T.J., Jones R.D. Acquiring artificial intelligence systems: Development challenges, implementation risks, and cost/benefits opportunities. URL: https://www.researchgate.net/publication/351703250_Acquiring_Artificial_Intelligence_ Sys-tems_Development_Challenges_Implementation_Risks_and_CostBenefits_Opportunities (Access date 21.10.2022).

7. Everyone wants to work with a model, not with data: data cascades in high-stakes AI / N. Sambasivan, S. Kapania, H. Highfill et al. // Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. Yokohama, 2021. URL: https://dl.acm.org/doi/pdf/10.1145/3411764.3445518 (Access date 21.10.2022).

8. Shafei S. Data quality for everyday analysis // Towards Data Science, 2020. URL: https://towardsdatascience.com/data-quality-for-everyday-analysis-d3aa1442c31 (access date 21.10.2022).

9. Assessing the impact of expert labelling of training data on the quality of automatic classification of lithological groups using artificial neural networks / Y. Kuchin, R.I. Mukhamediev, K. Yakunin et al. // Applied Computer Systems. 2020. Vol. 25. № 2. Р. 145-152.

10. Azimi S., Pahl C. The Impact of Data Completeness and Correctness on Explainable Machine Learning Models // Journal of Data Intelligence. 2022. Vol. 3. № 2. Р. 218-231.

11. Deep learning with noisy labels: Exploring techniques and remedies in medical image analysis / D. Karimi, H. Dou, S.K. Warfield et al. // Medical Image Analysis. 2020. Vol. 65. № 5. Р. 101759. DOI: 10.1016/j.media.2020.101759.

12. The influence of training sample size on the accuracy of deep learning models for the prediction of soil properties with near-infrared spectroscopy data / Ng Wartini, B. Minasny, W. de S. Mendes et al. // Soil. 2020. Vol. 6, № 2. Р. 565-578.

13. Болодурина И.П., Дусакаева С.Т. Введение в теорию нечетких множеств и систем. Оренбург : ОГУ, 2021. 172 с.

14. Киселев В.Ю., Калугина Т.Ф. Теория нечетких множеств и нечеткая логика. Задачи и упражнения. Иваново : ИГЭУ, 2019. 72 с.

15. Тихомирова A.H., Клейменова М.Г. Нечеткие модели дискретной математики. М. : НИЯУ МИФИ, 2011. 108 с.

16. Хижняков Ю.Н. Aлгоритмы нечеткого, нейронного и нейро-нечеткого управления в системах реального времени. Пермь : ПНИПУ, 2013. 156 с.

17. Хижняков Ю.Н. Нечеткое, нейронное и гибридное управление. Пермь : ПНИПУ, 2013. 303 с.

18. Бахусова E.A. Элементы теории нечетких множеств. Тольятти : ТГУ, 2013. 116 с.

19. Зак ЮА. Принятие решений в условиях нечетких и размытых данных: Fuzzy-Технологии. М. : Либроком, 2013. 352 с.

20. Frank H. Fuzzy Methoden in der Wirtschaftsmathematik. Braunschweig. Wiesbaden : Vieweg & Sohn Verlag, 2002. 242 p.

21. Friedrich A. Logik und Fuzzy-Logik. Stuttgart : Expert Verlag, 2006. 319 p.

22. Тэрано Т., Aсаи К., Сугэно М. Прикладные нечеткие системы. М. : Мир, 1993. 368 с.

References

1. Purdy M., Daugherty P. How AI Boosts Industry Profits and Innovation. Dublin: Accenture Institute for High Performance, 2017. 28 p.

2. Amisha, Malik P., Pathania M., Rathaur V.K. Overview of artificial intelligence in medicine. Journal of Family Medicine and Primary Care, 2019, no. 8 (7), pp. 2328-2331.

3. Baruchelli P., Botto F., Cimatti A. Overview on maturity of AI innovations in manufacturing (Electronic resource). Available at: https://eit.europa.eu/sites/default/files/overview_on_maturity_of_ai_innovations_in_manufacturing_20529-d11.pdf

(Accessed October 21, 2022).

4. Mhlanga D. Artificial Intelligence in the Industry 4.0, and Its Impact on Poverty, Innovation, Infrastructure Development, and the Sustainable Development Goals: Lessons from Emerging Economies? Available at: https://www.mdpi.com/2071-1050/13/11/5788 (Accessed October 21, 2022).

5. Mingyong C. The Creativity of Artificial Intelligence in Art. Proceedings of the 2021 Summit of the International Society for the Study of Information. Sendai, Los Angeles, 2021, vol. 81, iss. 1. Available at: https://www.mdpi.com/2504-3900/81/1/110 (Accessed October 21, 2022).

6. Mun J., Housel T.J., Jones R.D. Acquiring artificial intelligence systems: Development challenges, implementation risks, and cost/benefits opportunities Available at: https://www.researchgate.net/publication/351703250_Acquiring_Artificial_Intelligence_ Sys-tems_Development_Challenges_Implementation_Risks_and_CostBenefits_Opportunities (Accessed October 21, 2022).

7. Sambasivan N., Kapania S., Highfill H., Akrong D., Paritosh P., Aroyo L.M. «Everyone wants to work with a model, not with data»: data cascades in high-stakes AI. Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems. Yokohama, 2021. Available at: https://dl.acm.org/doi/pdf/10.1145/3411764.3445518 (Accessed October 21, 2022).

8. Shafei S. Data quality for everyday analysis. Towards Data Science, 2020. Available at: https://towardsdatascience.com/data-quality-for-everyday-analysis-d3aa1442c31 (Accessed October 21, 2022).

9. Kuchin Y., Mukhamediev R.I., Yakunin K., Grundspenkis J. Assessing the impact of expert labelling of training data on the quality of automatic classification of lithological groups using artificial neural networks. Applied Computer Systems, 2020, vol. 25, no. 2, pp. 145-152.

10. Azimi S., Pahl C. The Impact of Data Completeness and Correctness on Explainable Machine Learning Models. Journal of Data Intelligence, 2022, vol. 3, no. 2, pp. 218-231.

11. Karimi D., Dou H., Warfield S.K., Gholipour A. Deep learning with noisy labels: Exploring techniques and remedies in medical image analysis. Medical Image Analysis, 2020, vol. 65, no. 5, p. 101759.

12. Wartini Ng, Minasny B., Mendes W. de S., Dematte J. A. M. The influence of training sample size on the accuracy of deep learning models for the prediction of soil properties with near-infrared spectroscopy data. Soil, 2020, vol. 6, no. 2, pp. 565-578.

13. Bolodurina I.P., Dusakaeva S.T. Vvedenie v teoriyu nechetkikh mnozhestv i sistem [Introduction to the theory of fuzzy sets and systems]. Orenburg: OGU Publ., 2021. 172 p.

14. Kiselev V.Yu., Kalugina T.F. Teoriya nechetkikh mnozhestv i nechetkaya logika. Zadachi i uprazhneniya [Fuzzy set theory and fuzzy logic. Tasks and exercises]. Ivanovo: IGEU Publ., 2019. 72 p.

15. Tikhomirova A.N., Kleimenova M.G. Nechetkie modeli diskretnoi matematiki [Fuzzy models of discrete mathematics]. Moscow: NIYAU MIFI Publ., 2011. 108 p.

16. Khizhnyakov Yu.N. Algoritmy nechetkogo, neironnogo i neiro-nechetkogo upravleniya v sistemakh real'nogo vremeni [Algorithms of fuzzy, neural and neuro-fuzzy control in real-time systems]. Perm': PNIPU Publ., 2013. 156 p.

17. Khizhnyakov Yu.N. Nechetkoe, neironnoe i gibridnoe upravlenie [Fuzzy, neural and hybrid control]. Perm': PNIPU Publ., 2013. 303 p.

18. Bakhusova E.A. Eelementy teorii nechetkih mnozhestv [Elements of the theory of fuzzy sets]. Tol'yatti: TGU Publ., 2013. 116 p.

19. Zak Yu.A. Prinyatie reshenii v usloviyakh nechetkikh i razmytykh dannykh [Decision making in conditions of fuzzy and fuzzy data: Fuzzy-Technologies]. Moscow: Librokom Publ., 2013. 352 p.

20. Frank H. Fuzzy Methoden in der Wirtschaftsmathematik. Braunschweig ; Wiesbaden : Vieweg & Sohn Verlag, 2002. 242 p.

21. Friedrich A. Logik und Fuzzy-Logik. Stuttgart : Expert Verlag, 2006. 319 p.

22. Terano T., Asai K., Sugeno M. Prikladnye nechetkie sistemy [Applied fuzzy systems]. Moscow: Mir Publ., 1993. 368 p.

Информация об авторах

Дусакаева Слушаш Тугайбаевна, кандидат технических наук, доцент кафедры прикладной математики, Оренбургский государственный университет, г. Оренбург; e-mail: slushashdusakaeva@rambler.ru.

Носарев Максим Павлович, кафедра прикладной математики, Оренбургский государственный университет, г. Оренбург; e-mail: nosarev11082001@gmail.com. Хохлов Иван Артурович, кафедра прикладной математики, Оренбургский государственный университет, г. Оренбург; e-mail: iv.hohlov-01@yandex.ru. Нирян Павел Леонидович, кафедра прикладной математики, Оренбургский государственный университет, г. Оренбург; e-mail: niran908@gmail.com.

Information about the authors

Slushash T. Dusakaeva, Ph.D. in Engineering Science, Associate Professor of the Department of Applied Mathematics, Orenburg State University, Orenburg; e-mail: slushashdusa-kaeva@rambler.ru.

Maxim P. Nosarev, Department of Applied Mathematics, Orenburg State University, Orenburg; e-mail: nosarev11082001@gmail.com.

Ivan A. Khokhlov, Department of Applied Mathematics, Orenburg State University, Orenburg; e-mail: iv.hohlov-01@yandex.ru.

Pavel L. Niryan, Department of Applied Mathematics, Orenburg State University, Orenburg; e-mail: niran908@gmail.com.

i Надоели баннеры? Вы всегда можете отключить рекламу.