УДК 004.8
01.00.00 Физико-математические науки
НЕЧЕТКОЕ МУЛЬТИКЛАССОВОЕ ОБОБЩЕНИЕ КЛАССИЧЕСКОЙ F-МЕРЫ ДОСТОВЕРНОСТИ МОДЕЛЕЙ ВАН РИЗБЕРГЕНА В АСК-АНАЛИЗЕ И СИСТЕМЕ «ЭЙДОС»
Луценко Евгений Вениаминович, д.э.н., к.т.н., профессор Scopus Author ID: 57191193316 РИНЦ SPIN-код: 9523-7101 prof. lutsenko @gmail. com
Кубанский государственный аграрный университет имени И.Т.Трубилина, Краснодар, Россия
Классическая количественная мера достоверности моделей: F-мера Ван Ризбергена основана на подсчете суммарного количества верно и ошибочно классифицированных и не классифицированных объектов обучающей выборки. В мультиклассовых системах классификации объект может одновременно относится ко многим классам. Соответственно, при синтезе модели его описание используется для формирования обобщенных образов многих классов, к которым он относится. При использовании модели для классификации определяется степень сходства-различия объекта со всеми классами, причем истинно-положительным решением может являться принадлежность объекта сразу к нескольким классам. В результате такой классификации получается, что объект не просто правильно или ошибочно относится или не относится к различным классам, как в классической F-мере, но правильно или ошибочно относится или не относится к ним в различной степени. Однако классическая F-мера не учитывает того, что объект может фактически одновременно относится ко многим классам (мультиклассовость) и того, что в результате классификации может быть получена различная степень сходства-различия объекта с классами (нечеткость). На численных примерах автором установлено, что при истинно-положительных и истинно-отрицательных решениях модуль сходства-различия объекта с классами значительно выше, чем при ложно-положительных и ложно-отрицательных решениях. Поэтому было бы рационально в мере достоверности модели учитывать не просто сам факт истинно или ложно положительного или отрицательного решения, но и учитывать степень уверенности классификатора в этих решениях. В интеллектуальной системе «Эй-дос», которая является программным инструментарием автоматизированного системно-когнитивного анализа (АСК-анализ), изначально используется предложенная их разработчиком мера достоверности моделей, по сути являющаяся нечетким мультиклассовым обобщением классиче-
UDC 004.8
Physics and mathematical sciences
FUZZY MULTICLASS GENERALIZATION OF THE CLASSICAL F-MEASURE OF PLAUSIBILITY MODELS BY VAN RIJSBERGEN IN ASK-THE ANALYSIS AND THE SYSTEM OF "EIDOS"
Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., professor Scopus Author ID: 57191193316 RSCI SPIN-code: 9523-7101 prof. lutsenko@gmail.com
Kuban State Agrarian University, Krasnodar, Russia
Classic quantitative measure of the reliability of the models: F-measure by van Rijsbergen is based on counting the total number of correctly and incorrectly classified and not classified objects in the training sample. In multiclass classification systems, the facility can simultaneously apply to multiple classes. Accordingly, when the synthesis of the model description is used for formation of generalized images of many of the classes it belongs to. When using the model for classification, it is determined by the degree of similarity or divergence of the object with all classes, and a true-positive decision may be the membership of the object to several classes. The result of this classification may be that the object is not just rightly or wrongly relates or does not relate to different classes, both in the classical F-measure, but rightly or wrongly relates or does not relate to them in varying degrees. However, the classic F-measure does not count the fact that the object may in fact simultaneously belongs to multiple classes (multicrossover) and the fact that the classification result can be obtained with a different degree of similarity-differences of object classes (blurring). In the numerical example, the author states that with true-positive and true-negative decisions, the module similarities-differences of the object classes are much higher than for false-positive and false-negative decisions. It would therefore be rational to the extent that the reliability of the model to take into account not just the fact of true or false positive or negative decisions, but also to take into account the degree of confidence of the classifier in these decisions. In the intellectual system called "Eidos", which is a software toolkit for the automated system-cognitive analysis (ASC-analysis), we use initially proposed by its developers measure of the reliability of the models, which is essentially a fuzzy multiclass generalization of the classical F-measure (it is proposed to call it the L-measure). In this article, L-measure is mathematically described and its application is demonstrated on a simple numerical example
ской Г-меры (предлагается называть ее Ь-мерой). В данной статье Ь-мера описана математически и ее применение продемонстрировано на простом численном примере
Ключевые слова: НЕЧЕТКОЕ МУЛЬТИКЛАССОВОЕ ОБОБЩЕНИЕ, КЛАССИЧЕСКАЯ Г-МЕРА ДОСТОВЕРНОСТИ МОДЕЛЕЙ ВАН РИЗБЕРГЕНА, АСК-АНАЛИЗ, ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА «ЭЙДОС»
Бок 10.21515/1990-4665-123-001
Keywords: FUZZY MULTICLASS GENERALIZATION, CLASSICAL F-MEASURE OF PLAUSIBILITY FOR VAN RIJSBERGEN MODELS, ASC-ANALYSIS, "EIDOS" INTELLECTUAL SYSTEM
СОДЕРЖАНИЕ
ВВЕДЕНИЕ..........................................................................................................................................................2
1. ОПИСАНИЕ КЛАССИЧЕСКОЙ F-МЕРЫ ВАН РИЗБЕРГЕНА..........................................................4
1.1. Краткое традиционное описание Г-меры Ван Ризбергена..............................................................4
1.2. Г-мера Ван Ризбергена в обычных математических обозначениях............................................. 5
2. ОПИСАНИЕ Ь-МЕРЫ: НЕЧЕТКОГО МАЛЬТИКЛАССОВОГО ОБОБЩЕНИЯ КЛАССИЧЕСКОЙ F-МЕРЫ ВАН РИЗБЕРГЕНА.......................................................................................8
2.1. Решение проблемы мультиклассовости............................................................................................ 8
2.2. Решение проблемы учета нечеткости................................................................................................. 9
2.3. Асимптотическое выполнение для Ь-меры принципа соответствия с Г-мерой Ван
Ризбергена...................................................................................................................................................... 10
4. ЧИСЛЕННЫЙ ПРИМЕР ПРИМЕНЕНИЯ Ь-МЕРЫ И СРАВНЕНИЕ Ь-МЕРЫ С F-МЕРОЙ .... 11
ВЫВОДЫ...........................................................................................................................................................24
ЛИТЕРАТУРА...................................................................................................................................................26
Введение
Классическая количественная мера достоверности моделей: F-мера Ван Ризбергена [1, 2] основана на подсчете суммарного количества верно и ошибочно классифицированных и не классифицированных объектов обучающей выборки .
В мультиклассовых системах классификации объект может одновременно относится ко многим классам. Соответственно при синтезе модели его описание используется для формирования обобщенных образов многих классов, к которым он относится. При использовании модели для классификации количественно определяется степень сходства-различия объекта со всеми классами, причем истинно-положительным решением
может являться принадлежность объекта сразу к нескольким классам. В результате такой классификации обычно получается, что объект не просто правильно или ошибочно относится или не относится к различным классам, как в классической Г-мере, но правильно или ошибочно относится или не относится к ним в различной степени.
Однако классическая Б-мера не учитывает того, что объект может фактически одновременно относится ко многим классам (мультиклассо-вость) и того, что в результате классификации может быть получена различная степень сходства-различия объекта с классами (нечеткость решений классификатора).
На многочисленных численных примерах из различных предметных областей автором установлено, что при истинно-положительных и истинно-отрицательных решениях модуль сходства-различия объекта с классами как правило значительно выше, чем при ложно-положительных и ложно-отрицательных решениях. Это навело на мысль, что было бы рационально и обоснованно в мере достоверности модели учитывать не просто сам факт истинно или ложно положительного или отрицательного решения, но и учитывать степень уверенности классификатора в этих решениях.
В интеллектуальной системе «Эйдос», которая является программным инструментарием автоматизированного системно-когнитивного анализа (АСК-анализ), изначально [3, 4, 5] используется предложенная их разработчиком проф. Е.В. Луценко мера достоверности моделей, сходная по форме с коэффициентом корреляции Мэтью [6] и по сути являющаяся нечетким мультиклассовым обобщением классической Г-меры (предлагается называть ее Ь-мерой проф. Е.В. Луценко1).
1 Автор делает это без ложной скромности, т.к. у него есть отрицательный опыт, когда предложенные и математически обоснованные им количественные меры уровня системности и степени детерминированности систем были названы им в честь выдающихся ученых, внесших большой вклад в развитие теории информации коэффициентами эмерджентности Хартли, Харкевича и Шеннона [4, 5]. В результате теперь очень многие думают, что эти коэффициенты эмерджентности были предложены этими учеными и часто пишут об этом в своих работах, ссылаясь на них, а не на их автора. Чтобы убедиться в этом достаточно
В данной статье эта L-мера описана математически и ее применение продемонстрировано на простом численном примере.
1. Описание классической F-меры Ван Ризбергена
1.1. Краткое традиционное описание F-меры Ван Ризбергена
Классическая количественная мера достоверности моделей: F-мера Ван Ризбергена вряд ли нуждается в описании в данной статье, т.к. в Internet есть более чем достаточно ее прекрасных описаний из которых автор все же выделил бы работу [2].
Ниже приводится пространная выдержка из этой работы.
«Точность (precision) и полнота (recall) являются метриками которые используются при оценке большей части алгоритмов извлечения информации. Иногда они используются сами по себе, иногда в качестве базиса для производных метрик, таких как F-мера или R-Precision. Суть точности и полноты очень проста.
Точность системы в пределах класса - это доля документов действительно принадлежащих данному классу относительно всех документов которые система отнесла к этому классу.
Полнота системы - это доля найденных классификатором документов принадлежащих классу относительно всех документов этого класса в тестовой выборке.
Эти значения легко рассчитать на основании таблицы контингентно-сти, которая составляется для каждого класса отдельно.
сделать запрос: «коэффициенты эмерджентности Хартли Харкевича» [3]. Коэффицентам эмерджентно-сти предложены в работе автора [5] в 2002 году и им посвящено много других работ [4, 12-18].
Категория i Экспертная оценка
Положительная Отрицательная
Оценка системы Положительная TP FP
Отрицательная FN TN
В таблице содержится информация сколько раз система приняла верное и сколько раз неверное решение по документам заданного класса. А именно:
• ТР - истино-положительное решение;
• ТК - истино-отрицательное решение;
• БР - ложно-положительное решение;
• БК - ложно-отрицательное решение.
Тогда, точность и полнота определяются следующим образом:
ТР _
(1)
Precision : Recall =
TP + FP TP
ТР + БК
Р-мера - характеристика, которая позволяет дать оценку достоверности модели одновременно по точности и полноте:
(2)
2 * Precision * Recall F =-»
Precision * Recall
1.2. F-мера Ван Ризбергена в обычных математических обозначениях
Конечно понятно, что:
• TP - истино-положительное решение;
• TN - истино-отрицательное решение;
• FP - ложно-положительное решение;
• FN - ложно-отрицательное решение.
это не просто истинно и ложно положительные и отрицательные решения, а их количество или суммы при классификации всех объектов тестовой выборки по всем классам с помощью модели. В простейшем случае для
тестирования модели может использоваться обучающая выборка, на основе которой она создана. В более сложных вариантах оценки достоверности модели может быть применен бутстрепный подход или как тестовая выборка использовано подмножество генеральной совокупности, по отношению к которой репрезентативна обучающая выборка.
Запишем это, используя обычные математические обозначения, в т.ч. знаки суммы. Нам это потребуется в последующем для математической записи предлагаемой L-меры.
В обсуждении работы [2] рассматривается два подхода к оценке достоверности модели: «micro-averaging» и «macro-averaging».
Micro-averaging - точность, полнота и F-мера вычисляется для каждого класса, а затем F-мера модели в целом рассчитывается как среднее F-мер по классам.
Macro-aver aging - точность и полнота рассчитываются по всей модели в целом (при классификации всех объектов тестовой выборки по всем классам), а затем на их основе рассчитывается F-мера модели в целом.
Мы будем использовать подход: «macro-averaging», хотя и F-меру и по классам, и даже по объектам по ходу расчета F-меры модели в целом мы также посчитаем.
Введем следующие обозначения:
T - число объектов тестовой выборки;
K - число классов;
i - номер (код) объекта тестовой выборки;
j - номер (код) класса;
A - суммарное по всей модели (по всем классам и всем объектам тестовой выборки) число истино-положительных решений (TP - число объектов, правильно отнесенных к классам, к которым они действительно относятся);
В - суммарное по всей модели (по всем классам и всем объектам тестовой выборки) число истино-отрицательных решений (ТК - число объектов, правильно не отнесенных к классам, к которым они действительно не относятся);
С - суммарное по всей модели (по всем классам и всем объектам тестовой выборки) число ложно-положительных решений (БР - число объектов, неправильно отнесенных к классам, к которым они на самом деле не относятся);
В - суммарное по всей модели (по всем классам и всем объектам тестовой выборки) число ложно-отрицательных решений (БК - число объектов, неправильно не отнесенных к классам, к которым они на самом деле относятся);
Р - точность модели;
Я - полнота модели;
В этих обозначениях точность, полнота и Б-мера модели определяются следующим образом:
Р =-,
А + С
Я =-,
А + В
77 2РЯ р =-.
Р + Я
(3)
Здесь А, С, Б рассчитываются следующим образом:
т к
т к
тк
2. Описание Ь-меры: нечеткого мальтиклассового обобщения классической Р-меры Ван Ризбергена
2.1. Решение проблемы мультиклассовости
Если физический объект обучающей выборки одновременно относится к N классам, то его можно рассматривать как линейную суперпозицию N логических объектов, каждый из которых относится к одному из этих N классов. Здесь используется терминология автоматизированного системно-когнитивного анализа (АСК-анализ).
Так в работе [8] автор еще в 1996 году писал: «Физическая анкета -это анкета, заполненная респондентом. Но этот респондент может относится одновременно ко многим градациям шкал классификации классов распознавания (см. 2.1.1.1, 2.1.1.2), т.е. быть одновременно, например, мужчиной, иметь определенный возраст, определенную национальность, определенную форму занятости и т.д., и т.п. Следовательно одну физическую анкету можно использовать для формирования обобщенных образов каждой из этих категорий, к которым относится заполнявший ее респондент. Это и означает, что одна физическая анкета рассматривается как включающая некоторое количество логических анкет»2.
В настоящее время в АСК-анализе говорится не о физических и логических анкетах, о физических и логических объектах, которые являются более общим понятием, чем анкеты, а анкеты - это частный случай объектов, но суть от этого не меняется, т.к. один мультиклассовый объект, т.е. относящийся одновременно ко многим классам, рассматривается как много моноклассовых объектов, каждый из которых относится к одному из этих классов. При этом моноклассовые объекты наследуют описание на
2 http://lc.kubagro.rU/aidos/aidos96/3.htm
языке признаков от мультиклассового объекта, т.е. описываются ими так же, как он.
2.2. Решение проблемы учета нечеткости
При расчете Ь-меры предлагается рассчитывать А, С, Б следующим образом:
Т к
А = ЕЕ1 Л[и 7 ],
1=1 7=1
Тк
с=ЕЕ № 7 1,
1=1 7=1
Тк
о=Е Е№ 7 1,
1=1 7=1
Тк
|С[/, 71,
¿=1 7=1 ...............................(5)
Тк
/=1 7=1
Т.е. суммировать не единицы, а модули уровня сходства-различия объектов с классами для разных исходов классификации (верных и ошибочных, положительных и отрицательных ):
А[, 71 = уровень сходства-различия 1-го объекта с ]-м классом в соответствии с моделью при истино-положительных решениях;
С\и 71 = уровень сходства-различия 1-го объекта с ]-м классом в соответствии с моделью при истино-отрицательных решениях;
71= уровень сходства-различия I-го объекта с ]-м классом в соответствии с моделью при ложно-отрицательных решениях.
Так как модули уровня сходства-различия объектов с классами при истинных решениях значительно выше, чем при ложных, то Ь-мера на много точнее отражает уровень достоверности модели, чем классическая Б-мера Ван Ризбергена. Более того, если учитывать только те решения, которые по модулю уровня сходства-различия выше, чем ложные, то можно
вообще отфильтровать ложные решения, как положительные, так и отрицательные.
2.3. Асимптотическое выполнение для I-меры принципа соответствия с Р-мерой Ван Ризбергена
Известно, что более общие модели включают в себя частные и в предельном случае асимптотически переходят в них, т.е. удовлетворяют принципу соответствия, и это является обязательным для более общих теорий .
Возникает естественный вопрос о том, выполняется ли этот фундаментальный методологический принцип для Ь-меры и Б-меры.
Ответ на этот вопрос совершенно элементарен и очевиден: «конечно соответствует». Убедиться в этом просто. Для этого достаточно, чтобы уровни сходства-различия 1-го объекта с ]-м классом в соответствии с моделью при истино-положительных, истино-отрицательных и ложно-отрицательных решениях асимптотически стремились к 1:
4", j 1,
с[и j ]® 1, .........................................(6)
£>[/, ] ]® 1.
Тогда выражения (5) асимптотически перейдут в (4), и Ь-мера в Б-меру. Проще говоря, если в некоторой модели считать, что объект относится к классу, если уровень сходства объекта с классом больше нуля, и считать что не относится, если уровень сходства объекта с классом меньше нуля, то Ь-мера переходит в классическую Б-меру Ван Ризбергена.
3 См., например: http://dic.academic.ru/dic.nsf/enc philosophy/7345/СООТВЕТСТВИЯ
4. Численный пример применения Ь-меры и сравнение L-меры с Р-мерой
Кратко рассмотрим простой численный пример, наглядно иллюстрирующий вышеизложенные теоретические положения.
Для численного примера используем лабораторную работу 3.03, встроенную в интеллектуальную систему «Эйдос», которая является программным инструментарием АСК-анализа.
Для этого скачиваем систему «Эйдос» с сайта автора по адресу: http://lc.kubagro.ru/aidos/ Aidos-X.htm и запускаем ее, следуя инструкциям на сайте.
Затем в режиме 1.3 устанавливаем лабораторную работу 3.03, следуя инструкциям системы с параметрами по умолчанию. При этом в приведенной последовательности будут открываться следующие экранные формы, представленные на рисунке 1:
f«) 1.3. Задание лабораторных работ для инсталляции
•Задайте, каким путем устанавливать учебные приложения (лабораторные работы):
С 1. Лаб. работы, устанавливаемые путем КОПИРОВАНИЯ готовых баз данный учебного приложения:
г"" 2. Л аб. работы, устанавливаемые путем РАСЧЕТА исходных баз данных учебного приложения:
(* 3. Л аб. работы, устанавливаемые путем ВВОДА из внешних баз данных с помощью программного интерфейса:
-3. Лаб.работы, устанавливаемые путем ВВОДА из внешних баз данных с помощью программного интерфейса: С Лаб.раб.Мт 3.01: Идентификация слов по входящим в них буквам С Лаб.раб.№ 3.02: Атрибуция анонимных и псевдонимных текстов
<* Лаб.раб.Мт 3.03: Идентификация предметов по их признакам С Лаб.раб.М* 3.04: Оценка автомобилей с пробегом по их характеристикам С Лаб.раб.Мт 3.05: Оценка квартир по параметрам квартиры, дома и района С Лаб.раб.М* 3.06: Прогнозирование и принятие решений в зерновом производстве С Лаб.раб.Мт 3.07: Принятие решений по конфигурированию системы безопасности МЭ \лДпс1от С Лаб.раб.М* 3.08: Управление номенклатурой и объемами реализации продукции (бенчмаркинг) С Лаб.раб.Мт 3.09: Автоматизированный 5\л/0Т-анализ и реинжиниринг бизнес процессов С Лаб.раб.М* 3.10: Прогноз рисков ДТП и страховых выплат в системе 0САГ0 (андеррайтинг)
Теория по Лаб.раб.№ 3.01
Теория по Лаб.раб.№ 3.02
Теория по Лаб.раб.№ 3.03
Теория по Лаб.раб.№ 3.04
Теория по Лаб.раб.№ 3.05
Теория по Лаб.раб.№ 3.0G
Теория по Лаб.раб.№ 3.07
Теория по Лаб.раб.№ 3.08
Теория по Лаб.раб.№ З.ОЭ
Теория по Лаб.раб.М* 3.10
Как задавать лабораторные работы для изучен!.
Задайте, какие лабораторные работы устанавливать. Для каждой лабораторной работы будет создана новая папка с числовым именем в папке с базовой группой приложений AID_DATA, путь на которую задан в БД PathGrAp.DBF, а также новая запись в БД Appls.dbf с названием учебного приложения и путем на него. После завершения установки лабораторных работ необходимо задать одну из них в качестве текущей и выполнить синтез моделей в 3-й подистеме. □ писания лабораторных работ есть на сайте автора: http://lc.kubagro.ru/aidos/aidosOG_lab/, а также по адресу: htlp://www.twirpx.com/file/382GG/
Ok
Cancel
С) 2.3,2,2, Универсальный программный интерфейс импорта данных в систему гЭЙДОС-Х++'1
I = I в I В I
Автоматическая формализация предметной области: генерация классификационных и описательных шкал и градаций, а также обучающей и распознаваемой выборки на основе базы исходных данных: ЧпреЫа"
Задайте параметры:-
Стандарт Х1_8-Файла
-Задайтетип Файла исходных данных: "1пр_с1а1а": ^ЬБ - МБ ЕхсеГ2003 Г Х1-БХ- МБ Ехсе1-2007(2010) С ОВР - РВАБЕ IV (ОВР/ЫТХ) Стандарт РВР-Файла
С СБУ - Сотта-Берага(ес1 Уа!иез Стандарт СБУ-файла
(* Нули и пробелы считать ОТСУТСТВИЕМ данных Г Нули и пробелы считать ЗНАЧЕНИЯМИ данных & Создавать БД средних по классам "1пр_с1а¥г.с1ЬГ? Требования к файлу исходных данных
-Задайте диапазон столбцов классификационных шкал: Начальный столбец классификационных шкал: Конечный столбец классификационных шкал:
— Задайте диапазон столбцов описательных шкал: Начальный столбец описательных шкал: Конечный столбец описательных шкал:
[—Задайте режим:-
(* Формализации предметной области (на основе "1пр_с1а(а") Г" Генерации распознаваемой выборки (на основе "1пр_га5р"]
Задайте способ выбора размера интервалов: (* Равные интервалы с разным числом наблюдений С Разные интервалы с равным числом наблюдений
Задание параметров Формирования сценариев или способа интерпретации текстовых полей "1пр_с1а(а": (* Не применять сценарный метод АСК-анализа и спец.интерпретацию ТХТ-полей
Применить сценарный метод прогнозирования АСК-анализа Пояснения по режиму Р Применить специальную интерпретацию текстовых полей "1пр_с1а1а" _
Не применять сценарный метод АСК-анализа и спец.интерпретацию ТХТ-пояей:
Сценарный метод АСК-анализа:-
Записи Файла исходных данных "1пр_с1а1а" рассматриваются каждая сама по себе независимо друг от друга
Спец. интерпретация ТХТ -полей:
Значения текстовых полей Файла исходных данных
"1пр_с1а1а" рассматриваются как целое
- Какие наименования ГРАДАЦИЙ числовых шкал использовать:
(* Только интервальные числовые значения (например
Г" Только наименования интервальных числовых значений (например
Г" И интервальные числовые значения, и их наименования (например
"1 /3-{59873.0000000,178545.6666667}"] "Минимальное")
"Минимальное: 1 У3-{59873.0000000,178545. БББББ67}")
2.3.2,2. Задание размерности модели системы ~ЭЙДОС-Х-е-+'т
I а-1 В
ЗАДАНИЕ В ДИАЛОГЕ РАЗМЕРНОСТИ МОДЕЛИ
Суммарное количество градаций классификационных и описательных шкал: [14 х 41 ]
Тип шкалы Количество Количество Среднее Количество Количество Среднее
классифи- градаций количества описательных градаций количество
кационных классифи- градаций. шкал описательных градаций!
шкал кационных на класс. Шкалу шкал на опис:шкалу
Текстовые 0 0 0,00 1 3 3,00
2 14 7,00 8 38 4.75
ВСЕГО: 2 14 7,00 9 41 4,56
Задайте число интервалов (градаций) в шкале:
Б описательных шкалах:
Пересчитать шкалы и градации
Ьыиги на создание модели
(С) Универсальная когнитивная аналитицеская система "Э['дос-Х+-"
Ф
Лзб.раб.№ 3.031 " Идентификация предметов по их признакам" успешно установлена!
Для дальнейшего ее изучения и выполнения необходимо
1. Открыть Файл исходных данный: С: np_rista\lnp_data.xls.
2. Прочитать описание данной лабораторной работы в режиме 5.12.
• 3. Выполнить режимы: 2.1, 2.2, 2.3, 3.5, 1.3.Б, '1.1.3.1 и другие в соответствии со схемой преобразования данных в информацию, а ее в знания, приведенной в режиме ё.4. □ к
Рисунок 1. Экранные формы системы «Эйдос», открывающиеся при установке встроенной лабораторной работы 3.03.
Далее следуем инструкциям, представленным на последнем окне.
Таблица 1 - Исходные данные для построения модели
Нали-
Нали- Нали- чие Нали-
Конкрет- Обобщающий Матери- Размер- Раз- чие чие прово- чие
Объект ный класс класс Цвет ал 1 мер-2 экрана кнопок дов Формы ножек
элемент компью- Пласт-
Мышь1 Мышка тера Черный маса под руку 8,00 нет есть есть округлая нет
элемент компью- Пласт-
Мышь2 мышка тера Белый маса под руку 8,00 нет есть есть округлая нет
элемент компью- Пласт-
мышь3 мышка тера серый маса под руку 8,00 нет есть есть округлая нет
клавиату- элемент компью- Пласт- прямоуголь-
клавиатура1 ра тера черная маса средний 30,00 нет есть есть ная нет
клавиату- элемент компью- Пласт- прямоуголь-
клавиатура2 ра тера белая маса средний 32,00 нет есть есть ная нет
сумка1 сумка аксессуар бежевая кожа большой 41,00 нет нет нет прямоугольная нет
сумка2 сумка аксессуар черная силикон средний 42,00 нет нет нет овальная нет
прямоуголь-
сумка3 сумка аксессуар красная кожзам средний 38,00 нет нет нет ная нет
элемент компью- Пласт-
монитор1 монитор тера черный маса средний 40,00 есть есть есть квадратная нет
элемент компью- Пласт-
монитор2 монитор тера серый маса средний 37,00 есть есть есть квадратная нет
стул стул мебель серый метал средний 50,00 нет нет нет сложная есть
стол стол мебель коричневый деревя-ный большой 150,00 нет нет нет прямоугольная есть
вещалка вещалка мебель светло коричневая деревя-ный большая 200,00 нет нет нет сложная нет
Пласт- прямоуголь-
телефон1 телефон средство связи белый маса под руку 7,00 есть есть нет ная нет
Пласт- прямоуголь-
телефон2 телефон средство связи черный маса под руку 7,00 есть есть нет ная нет
Пласт- прямоуголь-
телефон3 телефон средство связи серый маса под руку 8,00 есть есть нет ная нет
мяч пинг- пластма- малень-
понг мяч спорт инвентарь белый са кий 20,00 нет нет нет круглая нет
мяч тенис мяч спорт инвентарь желтый резина средний 25,00 нет нет нет круглая нет
мяч футбол мяч спорт инвентарь черно-белый кожа большой 24,00 нет нет нет круглая нет
мяч баскет-
бол мяч спорт инвентарь оранжевый резина большой 30,00 нет нет нет круглая нет
Структура таблицы исходных данных 1 соответствует требованиям системы «Эйлос», представленным в Help на рисунке 2:
Помощь по режиму 2.3.2.2 для случая Exceü-файлов исходных данных
Режим 2.3.2.2: Универсальный программный интерфейс импорта данных из внешней базы данных ■lnp_data.xls1 в систему 'Эйдос-х++и и формализации предметной области.
- Данный программный интерфейс обеспечивает автоматическое Формирование классификационным и описательных шкал и градаций, а также обучающей и распознаваемой выборки., т. е. Формализацию предметной области, на основе XLS или XLSX-Файла с немодными данными приведенного ниже стандарта.
- Файл исходны:-; данным должен иметь имя: INP_DATA.XLS или IN F'_DATA.XLSX и может бьгть получен в Ехсе1-2003(2007-2010), а Файл распознаваемой выборки имя: INP_RASP.XLS или INP_RASP.XLSX. Файлы INP_DATA.XLS (INP.DATA.XLSX) и INP_RASP.XLS или INP_RASP. XLSX) должны находиться в папке /AlDOS-X/AID_D AT A/lnp_data/ и имеют совершенно одинаковую структуру.
-1 -я строка этого файла должна содержать наименования колонок на любом языке, в т. ч. и русском. Эти наименования должны быть во всех колонкам, при этом объединение ячеек и переносы слов не допускаются. Желательно, чтобы эти наименования были не очень длинными, т.к. к ним еще будут добавляться интервальные числовые или текстовые значения.
- Каждая строка этого Файла, начиная со 2-й, содержит данные об одном объекте обучающей выборки. Если Excel-2003, в листе может быть до 6553Б строк и до 25G колонок. В листе Ехсе1-2007(2010) возможно до 1 048 576 строк и 1G 384 колонок.
- Столбцы, начиная со 2-го, являются классификационными и описательными шкалами и Morjjr быть текстового (номинального) или числового типа (с десятичными знаками после запятой).
- Столбцу присваивается числовой тип.. если все значения его ячеек числового типа. Если хотя бы одно значение является текстовым (не числом, в т.ч. пробелом), то столбцу присваиваетсятекстовый тип. Это означает, что нули должны быть указаны нулями, а не пробелами.
-1 -й столбец содержит наименование источника данных длиной до 255 символов, но желательно, чтобы эти наименования были не очень длинными.
- Столбцы со 2-го по N -й являются классификационными шкалами (выходными параметрами) и содержат данные о классах (будущих состояниях объекта управления], к которым принадлежат объекты обучающей выборки.
- Столбцы с М+1 по последний являются описательными шкалами (факторами) и содержат данные о признаках (значениях Факторов), характеризующих объекты обучающей выборки.
- В результате работы режима Формируется Файл INP_NAME.TXT стандарта MS DOS (кириллица), в котором наименования классификационных и описательных шкал являются СТРОКАМИ. Система Формирует классификационные и описательные шкалы и градации. Для этого в каждом числовом столбце система находит минимальное и максимальное числовые значения и Формирует заданное количество числовых интервалов, после чего числовые значения заменяются их интервальными значениями. В текстовых столбцах система находит уникальные текстовые значения. Каждое УНИКАЛЬНОЕ интервальное числовое или текстовое значение считается градацией классификационной или описательной шкалы, характеризующей объект С их использованием генерируется обучающая выборка, каждый объект которой соответствует одной строке Файла исходных данных NP_DATA и содержит коды классов, соответствующие Фактам совпадения числовых или уникальных текстовых значений классов с градациями классификационных шкал и коды признаков, соответствующие фактам совпадения числовых или уникальных текстовых значений признаков с градациями описательных шкал.
- Распознаваемая выборка формируется на основе файла 1NP_RASP аналогично, за исключением того, что классификационные и опиеэтель-ные шкалы и градации не создаются, а используются ранее созданные в модели, и базы распознаваемой выборки могут не включать коды классов, если столбцы классов в Файле INP_RASP были пустыми. Структура Файла INP_RASP должна быть такая же, как INP_DATA, т.е. они должны ПОЛНОСТЬЮ совпадать по столбцам, но Morijr иметь разное количество строк.
Принцип организации таблицы исходных данных:
Нэп меновзнме объекта обучающей выборки Наименование 1-й классификационной шкалы Наименование 2-й классификационной шкапы Наименование 1-й описательной шкапы Наименование 2-й описательной шкалы
1-й объект обучающей выборки Значение показателя Значвнив показателя Значение показателя Значение показателя
2-й объект обучающей выборки Значение показателя Значение показателя Значение показателя Значение показателя
... ___ ___
Ök J J Cancel
Рисунок 2. Help программного интерфейса ввода данных из внешних баз данных системы «Эйдос»
Каждая строка таблицы 1 содержит информацию об одном физическом объекте обучающей выборки. Классификационные шкалы выделены желтым фоном и представляют собой способы группировки объектов для формирования классов. Классы представляют собой градации классификационных кал. Каждый физический объект обучающей выборки включа-
ет два логических объекта, относящихся к конкретным и обобщающим классам. Поэтому получается, что 20 физических объектов в таблице 1 представлены в форме 40 логических объектов.
На рисунке 3 представлены классификационные шкалы и градации, а на рисунке 4 - описательные шкалы и градации;
Рисунок 3. Классификационные шкалы и градации
II» |П|ТТ1|
Рисунок 4. Описательные шкалы и градации
На рисунке 5 представлена обучающая выборка, представляющая собой нормализованную с помощью справочников классификационных и
описательных шкал и градаций (рисунки 3. 4) таблицу исходных данных (таблица 1);
>!•! " > 4 14 12 17 23 25 29 30 32 37 41 -
" Мышь2 4 14 3 17 23 25 29 30 32 37 41
мышьЗ 4 14 9 17 23 25 29 30 32 37 41
клавиагура1 2 14 10 17 24 25 29 30 32 38 41
клавиатура2 2 14 2 17 24 25 29 30 32 38 41
сумка1 8 10 1 14 21 25 29 31 33 38 41
сумка2 8 10 10 19 24 25 29 31 33 36 41
сумкаЗ 8 10 6 15 24 25 29 31 33 38 41
монитор 1 3 14 12 17 24 25 28 30 32 34 41
монитор2 3 14 9 17 24 25 28 30 32 34 41
стул 7 11 9 16 24 25 29 31 33 39 40
стол 6 11 5 13 21 27 29 31 33 38 40
вешалка 1 11 8 13 20 27 29 31 33 39 41
телеиган1 9 13 3 17 23 25 2 8 30 33 38 41
телеФон2 9 13 12 17 23 25 28 30 33 38 41
телефомЗ 9 13 9 17 23 25 28 30 33 38 41
мяч пинг-понг 5 12 3 17 22 25 29 31 33 35 41
мяч тенис 5 12 4 18 24 25 29 31 33 35 41
мяч Футбол 5 12 11 14 21 25 29 31 33 35 41
мяч баскетбол 5 12 7 1S 21 25 29 31 33 35 41
.1 1»
Рисунок 5. Обучающая выборка
Синтез и верификация моделей осуществляется в режиме 3.5 (рисунок 6);
Рисунок 6. Экранная форма режима 3.5 системы «Эйдос»
На рисунке 7 приведена экранная форма режима 3.5 с отображением стадии исполнения синтеза и верификации моделей;
Рисунок 7. Экранная форма режима 3.5 с отображением стадии исполнения
синтеза и верификации моделей
На рисунке 8 приведена выходная экранная форма с отображением результатов верификации моделей с применением классической Б-меры Ван Ризбергена и Ь-меры проф.Е.В.Луценко, которая представляет собой ее нечеткое мультиклассовое обобщение;
Рисунок 8. Выходная экранная форма с отображением результатов верификации моделей с применением классической Б-меры Ван Ризбергена и Ь-меры проф.Е.В.Луценко, которая представляет собой ее нечеткое мультиклассовое обобщение
Из сравнения значений Б-меры и Ь-меры мы видим, что Ь-мера имеет большие значения. Это обусловлено тем, что при истинных результатах классификации (как идентификации, так и неидентификации), уровень сходства-различия выше, чем при ложных результатах классификации, в классической Б-мере это не учитывается.
Это наглядно видно на форме, представленной на рисунке 9:
ф 4.1.3.9. Част.распр.ур.сх.в модели: 7. iNF4-4acrH.icpHT.: ROI (Return On Investment); вероятности из PRC1
■100 -90 -80 -70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 60 70 80 90 100
- Чаот.распр.ур.ох.ОШИБОЧНО идент.и неиденгиф.объектов - Чаот.раопр.ур ок.ВЕРНО идент.и неидентиф.объектов
............ Среднее модулей ур.сх. ОШ И Б. идент. и неиденг. объектов=15.739 ............ Среднее модулей ур. сх. В Е РН 0 идент. и неидент. обьектов=30.824
Рисунок 9. Частотное распределение уровней сходства верно и ошибочно идентифицированных и неидентифицированных объектов обучающей выборки при их сравннии со всеми классами в наиболее достоверной модели ШЕ4
Из рисунка 9 видно, что:
-в модели Г№Р4 встречаются только положительные ошибочные решения;
- при ошибочных решениях (синий цвет графика) уровень сходства объектов с классами не превосходит 45%, а при истинных он достигает, 100%;
- при отрицательных решениях в модели INF4 уровень различия по модулю значительно выше, чем сходства при положительных.
Поэтому если при положительных решениях игнорировать те из из них, которые с уровнем сходства ниже 45%, то модель вообще не будет иметь ложных решений. При использовании классической F-меры Ван Ризбергена аналогичная возможность вообще отсутствует в принципе.
На рисунке 10 приведен Help режима вывода результатов верификации моделей.
1*) Помощь по режимам: 4,1.3.6,4,1.3.7,4,1.3,8,4.1,3,10: Виды прогнозов и меры достоверности моделей в системе "Эйдос-Х+-'
Помощь по режимам: 4.1.3.6, 4.1.3.7, 4.1.3.8, 4.1.3.10: Виды прогнозов и меры достоверности моделей в системе "Эйдос-х++". ПОЛОЖИТЕЛЬНЫЙ ПСЕВДОПРОГНОЗ.
Предположим, модель дает такой прогноз: выпадет 1, 2, 3, 4, 5 или 6. В этом случае у нее будет 100% достоверность идентификации, т.е. не будет ни одного объекта, не отнесенного к тому классу, к которому он действительно относится, но при этом будет очень большая ошибка ложной идентификации, т.к. огромное количество объектов будет отнесено к классам, к которым они не относятся (и именно за счет этого у модели и будет очень высокая достоверность идентификации), ясно, что такой прогноз бесполезен, поэтому он и назван мной псевдопрогнозом.
ОТРИЦАТЕЛЬНЫЙ ПСЕВДОПРОГНОЗ.
Представим себе, что мы выбрасываем кубик с б гранями, и модель предсказывает, что не выпадет: 1, 2, 3, 4, 5 и б, а что-то из этого естественно выпало. Конечно, модель дает ошибку в прогнозе в том плане, что не предсказала, что выпадет, зато она очень хорошо угадала, что не выпадет, но ясно, что выпадет что-то одно, а не все, что предсказано, поэтому такого рода предсказания хорошо оправдываются в том, что не произошло и плохо в том, что произошло, т.е. в этом случае у модели будет 100% достоверность не идентификации, но очень низкая достоверность идентификации.
ИДЕАЛЬНЫЙ ПРОГНОЗ.
если в случае с кубиком мы прогнозируем, что выпадет, например 1, и соответственно прогнозируем, что не выпадет 2, 3, 4, 5, и б, то это идеальный прогноз, имеющий, если он осуществляется, 100% достоверность идентификации и не идентификации, идеальный прогноз, который полностью снимает неопределенность о будущем состоянии объекта прогнозирования, на практике удается получить крайне редко и обычно мы имеем дело с реальным прогнозом.
РЕАЛЬНЫЙ ПРОГНОЗ.
На практике мы чаще всего сталкиваемся именно с этим видом прогноза. Реальный прогноз уменьшает неопределенность о будущем состоянии объекта прогнозирования, но не полностью, как идеальный прогноз, а оставляет некоторую неопределенность не снятой. Например, для игрального кубика делается такой прогноз: выпадет 1 или 2, и, соответственно, не выпадет 3, 4, 5 или 6. Понятно, что полностью на практике такой прогноз не может осуществиться, т.к. варианты выпадения кубика альтернативны, т.е. не может выпасть одновременно и 1, и 2. Поэтому у реального прогноза всегда будет определенная ошибка идентификации. Соответственно, если не осуществится один или несколько из прогнозируемых вариантов, то возникнет и ошибка не идентификации, т.к. это не прогнозировалось моделью, теперь представите себе, что у вас не 1 кубик и прогноз его поведения, а тысячи, тогда можно посчитать средневзвешенные характеристики всех этих видов прогнозов.
Таким образом, если просуммировать число верно идентифицированных и не идентифицированных объектов и вычесть число ошибочно идентифицированных и не идентифицированных объектов, а затем разделить на число всех объектов то это и будет критерий качества модели (классификатора), учитывающий как ее способность верно относить объекты к классам, которым они относятся, так и ее способность верно не относить объекты к тем классам, к которым они не относятся. Этот критерий предложен и реализован в системе "Эйдос" проф. Е.В.Луценко в 1994 году. Эта мера достоверности модели предполагает два варианта нормировки: {-1, +1} и {0, 1}: L1 = ( тр + tn - fp - fn ) / ( tp + tn + fp + fn ) (нормировка: {-1,+1})
L2 = ( 1 + ( tp + tn - fp - fn ) / ( tp + tn + fp + fn ) ) / 2 (нормировка: { 0, 1})
где: тр - истино-положительное решение; tn - истино-отрицательное решение; fp - ложно-положительное решение; fn - ложно-отрицательное решение;
классическая F-мера достоверности моделей ван ризбергена:
Precision = TP/(TP+FP) - точность модели; Recall = TP/(TP+FN) - полнота модели; F-mera = 2*(Precisiort*Recall)/(PrecÍ5Íom-Recall).
В АСК-анализе и системе "Эйдос" предлагается L-мера, представляющая собой нечеткое мультиклассовое обобщение классической F-меры достоверности моделей Ван Ризбергена:
sprecision = stp/(stp+5fp) - нечеткая мультиклассовая точность модели; SRecall = stp/(stp+sfn) - нечеткая мультиклассовая полнота модели;
L-mera = 2*(sprecision*SReca"n)/(sprecision+SReca"n) - нечеткая мул ьти классовая достоверность модели, где:
5ТР - сумма модулей сходства истино-положительных решений; 5TN - Сумма модулей сходства истино-отрицательных решений; SFP - Сумма модулей сходства ложно-положительных решений; 5FN - Сумма модулей сходства ложно-отрицательных решений.
Рисунок 10. Help режима 4.1.3.6 системы «Эйдос»
В соответствии с порядком преобразования данных в информацию, а ее в знания, в соответствии с которым построена система «Эйдос» (рисунок 11), наиболее достоверная модель делается текущей и в ней решаются все задачи АСК-анализа:
- классификации, прогнозирования, идентификации, диагностики, распознавания;
- поддержки принятия решений;
- исследования моделируемой предметной области путем исследования ее модели:
с
Последовательность обработки данных, информации и знаний в системе «Эйдос-Х++»
Когнитивно-целевая структуризация предметной области (неавтоматизированный в системе «Эйдос-Х++» этап АСК-анализа)
3
Рисунок 11. Порядок преобразования данных в информацию, а ее в знания, в соответствии с которым построена система «Эйдос»
Различные модели отличаются частными критериями знаний [9]. В соответствии с этой схемой и рисунком 8 установим в качестве текущей модель 1№4 (рисунок 12):
■| isl
5,6. Вь/брать модель и сделать ее текущей
Стадии исполнения процесса
ОПЕРАЦИЯ: ПРИСВОЕНИЕ МОДЕ ПИ "INF4" СТАТУСА ТЕКУЩЕЙ МОДЕЛИ
1/7: Копирование в массивы итоговых строк и столбцов текущей модели - Готово
2/7: Перенос информации из текущей модели в базы классов:-' Classes' и Gr_CISc ■ Го тово
3/7: Перенос информации из текущей модели в базы признаков: Attributes и Gr_OpSc - Готово
Щ7: Расчет значимости класс.и опис.шкал-Сброс су ммат оров - Гот обо
Б/7: Расчет значимости класс.и опис.шкал-Накоплонио данных-Готово
6/7: Расчет значимости класс.и опис.шкал-Порасчет - Готово
7/7: Запись информации о текущей модели - Готово
Выбор мидели знаний "INF4" а качестве текущей прошел успешно!!!
■ Прогноз времени исполнеыч
Начало: 23:40:40
Окончание: 23:40:4?
100 %,
Ok
Прошло: 0:0U:02
Осталось: U:B0:Ü0
Рисунок 12. Присвоение наиболее достоверной модели статуса текущей модели
Пакетное распознавание в наиболее достоверной модели ЮТ4 (рисунок 13):
Рисунок 13. Экранная форма, отражающая процесс пакетного распознавания в наиболее достоверной модели ГОТЧ (рисунок 13):
На рисунке 14 приведен фрагмент меню системы «Эйдос», на котором показаны режимы отображения результатов распознавания:
г г
и о
■А Г
Л
о
5
15 С
£ -
£\ Л ч."
О,
I к
Р) -
4.1.3.1 Подробно наглядно. Объект - классы
4.1.3.2. Подробно наглядно. Класс-объекты
4.1.3.3. Итсги наглядно: Объект - класс
4.1.3.4. Итсги наглядно: Класс - объект 4.1.3.Е-. Подробно сжато: Объекты - классы'
4.1.3.£. Обобщ.форма по достое.моделей при разных интегральных крпт. 4.1.3.7. Обобщ.стат.аналиг регультатое идент. по моделям и инт.крпт. 4.1.3.3. Стат.анаппг результ. идент. пс классам, моделям и инт.крпт. 4.1.3.3. ДостоЕерносгь пдент.сбъектон при разных моделях и инт.крпт. 4.1.3.1С.ДсстсЕернссть идент.класссЕ при разных моделях и инт.крпт. 4.1.3.11.Распределения уроЕн.схсдстЕЭ при разных моделях и инт.крпт.
Рисунок 14. Фрагмент меню системы «Эйдос», на котором показаны режимы отображения результатов распознавания
На рисунке 15 мы видим один из этих результатов классификации, отображаемых в режиме 4.1.3.2:
Рисунок 15. Одна из выходных форм система «Эйдос» с отображением результатов классификации в наиболее достоверной модели
На рисунке 15 мы видим три ложно-положительных решения, но мы и видим также, что уровни сходства объектов с классом при этих решениях значительно (в разы) меньше, чем при истино-положительных решениях (отмечены «птичкой»). Из предыдущего изложения ясно, что F-мера не учитывает этого существенного обстоятельства и этот ее недостаток преодолевается предложенной в данной работе L-мерой.
На рисунках 16 выходные формы по результатам классификации с расчетом F-меры и L-меры для классов и объектов тестовой выборки.
Необходимо отметить также, что все выходные экранные формы в системе «Эйдос» просто визуализируют в окнах специально созданные выходные базы данных DBF-стандарта, которые открываются всеми версиями MS Excel и практически готовы для печати.
Код Н а именова ние объекта МАХ распознаваемой выборки досто- Модель с МАХ Иктегр. с MAX ABS. РЕЗОНАНС ЗНАНИЙ PRC1. РЕЗОНАНС Модель: PRC2. Критер.: РЕЗОНАНС .INFI. РЕЗОНАНС ЗНАНИЙ INF2. РЕЗОНАНС 1MF3L INF4. INF5, РЕЗОНАНС РЕЗОНАНС РЕЗОНАНС ЗНАНИЙ ЗНАНИЙ ЗНАНИЙ INF6. РЕЗОНАНС ЗНАНИЙ INF7, РЕЗОНАНС Модель: ABS. критер.: СУММА PRC1. СУММА ЗНАНИЙ PRC2. СУММА INFI. СУММА
а. 571 im ... Резонанс 0.286 0.286 0.286 0 .500 0.500 0.500 0.571 0.571 0.500 0.500 0.250 0.250 0.250 0.308
2 Йшь2 0,55? im Резонанс 0.285 0.285 0.286 0.500 0.500 0.500 0.667 0.557 0.500 0.500 0.250 0.250 4.250 0.257 -
3 мышьЗ 0.571 im Резонанс 0.257 0.257 0.267 Ü .500 0.500 0.500 0.571 0.571 0.500 0.500 0.250 0.250 0.250 0.308
4 клазиатура1 0.500 im Резонанс 0.250 0.250 0.250 0.500 0.500 0.500 0.500 0.500 0.400 0.400 0.250 0.250 0.250 0.308
5 клавиахура2 0.500 INFI ... Резонанс 0.250 0.250 0.250 0.500 0.500 0.500 0.500 0.500 0.400 0.400 0.250 0.250 0.250 0.308
6 сумка1 1.000 ШГ4 ... Резонанс 0.250 0.250 0.250 0.571 0.571 0.571 1.0.00 1.000 0.364 0.364 0.250 0.250 0.250 0.286
7 сумка2 0.800 INFI . . . Резонанс 0.250 0.250 0.250 0.800 0.800 0.500 0.800 0.800 0.500 0.500 0.250 0.250 0.250 0.267
8 сумкаЗ 1.000 ПГГ4 ... Резонанс 0.250 0.250 0.250 0.800 0.800 0.500 1.000 1.000 0.364 0.364 0.250 0.250 0.250 0.267
Э нонитор1 0.500 INFI . . . Резонанс 0.308 0.308 0.308 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.267 0.267 0.267 0.333
10 иониторг 0.500 ПГГЗ ... Резонанс 0.308 0.308 0.308 0.444 0.444 0.500 0.500 0.500 0.444 0.444 0.267 0.267 0.267 0.333
11 стул 1.000 IWF4 . . . Резонанс 0.250 0.250 0.250 0.667 0.667 0.400 1.000 1.000 0.364 0.364 0.250 0.250 0.250 0.250
12 стоп 0.667 im ... Резонанс 0.308 0.308 0.308 0.667 0.667 0.400 0.667 0.667 0.333 0.333 0.267 0.267 0.267 0.286
13 вешалка 0.667 im ... Резонанс 0.286 0.286 0.286 0.667 0.667 0.400 0.667 0.667 0.400 0.400 0.250 0.250 0.250 0.250
14 телефон1 0.667 im ... Резонанс 0.250 0.250 0.250 0.571 0.571 0.500 0.667 0.667 0.500 0.500 0.250 0.250 0.250 0.267
15 телефом2 0.571 im ... Резонанс 0.250 0.250 0.250 0.500 0.500 0.500 0.571 0.571 0.500 0.500 0.250 0.250 0.250 0.308
1« телефонЗ 0.571 im ... Резонанс 0.250 0.250 0.250 0.500 0.500 0.500 0.571 0.571 0.444 0.444 0.250 0.250 0.250 0.308
17 МЛЧ ПИНГ-ПОНР 0.667 im ... Резонанс 0.250 0.250 0.250 0.571 0.571 0.667 0.667 0.667 0.400 0.400 0.250 0.250 0.250 0.267
18 мяч тенис 1.000 im ... Резонанс 0.250 0.250 0.250 1.000 1.000 0.571 1.000 1.000 0.500 0.500 0.250 0.250 0.250 0.267
19 мяч футбол 1.000 im ... Резонанс 0.250 0.250 0.250 0.667 0.667 0.667 1.000 1.000 0.500 0.500 0.250 0.250 0.250 0.267
20 мяч баскетбол 1.000 im ... Резонанс 0.250 0.250 0.250 1.000 1.000 0.667 1.000 1.000 0.500 0.500 0.250 0.250 0.250 0.267
Средневзвешенно 0.672 im ... Резонанс 0.263 0.263 0.263 0.588 0.588 0.506 0.672 0.672 0.437 0.437 0.252 0.252 0.252 0.284
1 '
Рисунок 16. Выходные экранные формы по результатам классификации с расчетом Б-меры и Ь-меры для классов и объектов тестовой выборки
Выводы
Классическая количественная мера достоверности моделей: F-мера Ван Ризбергена основана на подсчете суммарного количества верно и ошибочно классифицированных и не классифицированных объектов обучающей выборки. В мультиклассовых системах классификации объект может одновременно относится ко многим классам. Соответственно при синтезе модели его описание используется для формирования обобщенных
образов многих классов, к которым он относится. При использовании модели для классификации определяется степень сходства-различия объекта со всеми классами, причем истинно-положительным решением может являться принадлежность объекта сразу к нескольким классам. В результате такой классификации получается, что объект не просто правильно или ошибочно относится или не относится к различным классам, как в классической Б-мере, но правильно или ошибочно относится или не относится к ним в различной степени. Однако классическая Б-мера не учитывает того, что объект может фактически одновременно относится ко многим классам (мультиклассовость) и того, что в результате классификации может быть получена различная степень сходства-различия объекта с классами (нечеткость). На численных примерах автором установлено, что при истинно-положительных и истинно-отрицательных решениях модуль сходства-различия объекта с классами значительно выше, чем при ложно-положительных и ложно-отрицательных решениях. Поэтому было бы рационально в мере достоверности модели учитывать не просто сам факт истинно или ложно положительного или отрицательного решения, но и учитывать степень уверенности классификатора в этих решениях. В интеллектуальной системе «Эйдос», которая является программным инструментарием автоматизированного системно-когнитивного анализа (АСК-анализ), изначально используется предложенная их разработчиком мера достоверности моделей, по сути являющаяся нечетким мультиклассовым обобщением классической Б-меры (предлагается называть ее Ь-мерой). В данной статье Ь-мера описана математически и ее применение продемонстрировано на простом численном примере.
Предлагаемые технологии синтеза и верификации моделей могут быть использованы при создании и применении адаптивных интеллектуальных измерительных систем [10], а также разработке нечетких муль-
тиклассовых обобщений других мер достоверности моделей, которые довольно разнообразны и многочисленны [6].
Литература
1. Сайт: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
2. Сайт: https://habrahabr.ru/post/228963/
3. Луценко Е.В. Универсальная когнитивная аналитическая система «Эйдос". Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с. ISBN 978-594672-830-0. http://elibrary.ru/item.asp?id=22401787
4. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с. ISBN 978-5-94672757-0. http://elibrary.ru/item.asp?id=21358220
5. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. -605 с. http://elibrary.ru/item.asp?id=18632909
6. Амелькин С.А. Оценка эффективности рекомендательных систем. http://rcdl.ru/doc/2012Zpaper44.pdf
7. Шевелев О.Г. Методы автоматической классификации текстов на естественном языке: Учебное пособие. Томск: ТМЛ-Пресс, 2007. - 144c.
8. Луценко Е.В. Теоретические основы и технология адаптивного семантического анализа в поддержке принятия решений (на примере универсальной автоматизированной системы распознавания образов "ЭЙДОС-5.1"). - Краснодар: КЮИ МВД РФ, 1996. - 280с. http://elibrary.ru/item.asp?id=21745340
9. Луценко Е.В. Метризация измерительных шкал различных типов и совместная сопоставимая количественная обработка разнородных факторов в системно-когнитивном анализе и системе «Эйдос» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. -№08(092). С. 859 - 883. - IDA [article ID]: 0921308058. - Режим доступа: http://ej.kubagro.ru/2013/08/pdf/58.pdf, 1,562 у.п.л.
10. Луценко Е.В. Синтез адаптивных интеллектуальных измерительных систем с применением АСК-анализа и системы «Эйдос» и системная идентификация в эконометрике, биометрии, экологии, педагогике, психологии и медицине / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2016. - №02(116). С. 1 - 60. - IDA [article ID]: 1161602001. - Режим доступа: http://ej.kubagro.ru/2016/02/pdf/01.pdf, 3,75 у.п.л.
11. https://yandex.ru/search/?msid=1478655999.15495.22884.13159&text=коэффицие нты%20эмерджентности%20Хартли%20%20Харкевича&lr=35
12. Луценко Е.В. Количественные меры возрастания эмерджентности в процессе эволюции систем (в рамках системной теории информации) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2006. - №05(021). С. 355 - 374. - Шифр Информрегистра: 0420600012\0089,
IDA [article ID]: 0210605031. - Режим доступа: http://ej.kubagro.ru/2006/05/pdf/31 .pdf, 1,25 у.п.л.
13. Луценко Е.В. Обобщенный коэффициент эмерджентности Хартли как количественная мера синергетического эффекта объединения булеанов в системном обобщении теории множеств / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2011. - №02(066). С. 535 - 545. - Шифр Информрегистра: 0421100012\0031, IDA [article ID]: 0661102045. - Режим доступа :httpi//ei.kubagro.iu/201L/02/pdfZ45.pdf, 0,688 у.п.л.
14. Луценко Е.В. Исследование влияния подсистем различных уровней иерархии на эмерджентные свойства системы в целом с применением АСК-анализа и интеллектуальной системы "Эйдос" (микроструктура системы как фактор управления ее макросвойствами) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №01(075). С. 638 - 680. - Шифр Информрегистра: 0421200012\0025, IDA [article ID]: 0751201052. - Режим доступа: http://ej.kubagro.ru/2012/01/pdf/52.pdf, 2,688 у.п.л.
15. Луценко Е.В. Количественная оценка уровня системности на основе меры информации К. Шеннона (конструирование коэффициента эмерджентности Шеннона) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №05(079). С. 249 - 304. - IDA [article ID]: 0791205018. - Режим доступа: http://ej.kubagro.ru/2012/05/pdf/18.pdf, 3,5 у.п.л.
16. Луценко Е.В. Коэффициент эмерджентности классических и квантовых статистических систем / Е.В. Луценко, А.П. Трунев // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №06(090). С. 214 - 235. - IDA [article ID]: 0901306014. - Режим доступа: http://ej.kubagro.ru/2013/06/pdf/14.pdf, 1,375 у.п.л.
17. Трунев А.П. Гравитационные волны и коэффициент эмерджентности классических и квантовых систем / А.П. Трунев, Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. -№03(097). С. 1343 - 1366. - IDA [article ID]: 0971403092. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/92.pdf, 1,5 у.п.л.
18. Трунев А.П. Логарифмический закон и коэффициент эмерджентности классических и квантовых систем / А.П. Трунев, Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2016. -№06(120). С. 1659 - 1685. - IDA [article ID]: 1201606110. - Режим доступа: http://ej .kubagro.ru/2016/06/pdf/110.pdf, 1,688 у.п.л.
Literatura
1. Sajt: http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
2. Sajt: https://habrahabr.ru/post/228963/
3. Lucenko E.V. Universal'naja kognitivnaja analiticheskaja sistema «Jejdos". Monografía (nauchnoe izdanie). - Krasnodar, KubGAU. 2014. - 600 s. ISBN 978-5-94672-830-0. http://elibrary.ru/item.asp?id=22401787
4. Orlov A.I., Lucenko E.V. Sistemnaja nechetkaja interval'naja matematika. Mono-grafija (nauchnoe izdanie). - Krasnodar, KubGAU. 2014. - 600 s. ISBN 978-5-94672-757-0. http://elibrary.ru/item.asp?id=213 5 8220
5. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii ak-tivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomich-eskih, social'no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie). - Krasnodar: KubGAU. 2002. - 605 s. http://elibrary.ru/item.asp?id=18632909
6. Amel'kin S.A. Ocenka jeffektivnosti rekomendatel'nyh sistem. http://rcdl.ru/doc/2012/paper44.pdf
7. Shevelev O.G. Metody avtomaticheskoj klassifikacii tekstov na estestvennom jazyke: Uchebnoe posobie. Tomsk: TML-Press, 2007. - 144c.
8. Lucenko E.V. Teoreticheskie osnovy i tehnologija adaptivnogo semanticheskogo analiza v podderzhke prinjatija reshenij (na primere universal'noj avtomatizirovannoj sistemy raspoznavanija obrazov "JeJDOS-5.1"). - Krasnodar: KJul MVD RF, 1996. - 280s. http://elibrary.ru/item.asp?id=21745340
9. Lucenko E.V. Metrizacija izmeritel'nyh shkal razlichnyh tipov i sovmestnaja sopostavimaja kolichestvennaja obrabotka raznorodnyh faktorov v sistemno-kognitivnom an-alize i sisteme «Jejdos» / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №08(092). S. 859 - 883. - IDA [article ID]: 0921308058. - Rezhim dostupa: http://ej.kubagro.ru/2013/08/pdf/58.pdf, 1,562 u.p.l.
10. Lucenko E.V. Sintez adaptivnyh intellektual'nyh izmeritel'nyh sistem s primeneniem ASK-analiza i sistemy «Jejdos» i sistemnaja identifikacija v jekonometrike, biometrii, jekologii, pedagogike, psihologii i medicine / E.V. Lucenko // Politematicheskij setevoj jel-ektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2016. - №02(116). S. 1 -60. - IDA [article ID]: 1161602001. - Rezhim dostupa: http://ej.kubagro.ru/2016/02/pdf/01.pdf, 3,75 u.p.l.
11.
https://yandex.ru/search/?msid=1478655999.15495.22884.13159&text=kojefficienty %20j emerdzhentnosti%20Hartli%20%20Harkevicha&lr=3 5
12. Lucenko E.V. Kolichestvennye mery vozrastanija jemerdzhentnosti v processe jev-oljucii sistem (v ramkah sistemnoj teorii informacii) / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2006. -№05(021). S. 355 - 374. - Shifr Informregistra: 0420600012\0089, IDA [article ID]: 0210605031. - Rezhim dostupa: http://ej.kubagro.ru/2006/05/pdf/31.pdf, 1,25 u.p.l.
13. Lucenko E.V. Obobshhennyj kojefficient jemerdzhentnosti Hartli kak kolichestvennaja mera sinergeticheskogo jeffekta ob#edinenija buleanov v sistemnom obobshhenii teorii mnozhestv / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2011. - №02(066). S. 535 - 545. - Shifr Informregistra: 0421100012\0031, IDA [article ID]: 0661102045. - Rezhim dostu-pa:http://ej.kubagro.ru/2011/02/pdf/45.pdf, 0,688 u.p.l.
14. Lucenko E.V. Issledovanie vlijanija podsistem razlichnyh urovnej ierarhii na jemerdzhentnye svojstva sistemy v celom s primeneniem ASK-analiza i intellektual'noj sistemy "Jejdos" (mikrostruktura sistemy kak faktor upravlenija ee makrosvojstvami) / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar:
KubGAU, 2012. - №01(075). S. 638 - 680. - Shifr Informregistra: 0421200012\0025, IDA [article ID]: 0751201052. - Rezhim dostupa: http://ej.kubagro.ru/2012/01/pdf/52.pdf, 2,688 u.p.l.
15. Lucenko E.V. Kolichestvennaja ocenka urovnja sistemnosti na osnove mery infor-macii K. Shennona (konstruirovanie kojefficienta jemerdzhentnosti Shennona) / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2012. - №05(079). S. 249 - 304. - IDA [article ID]: 0791205018. - Rezhim dostupa: http://ej.kubagro.ru/2012/05/pdf/18.pdf, 3,5 u.p.l.
16. Lucenko E.V. Kojefficient jemerdzhentnosti klassicheskih i kvantovyh statistich-eskih sistem / E.V. Lucenko, A.P. Trunev // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №06(090). S. 214 - 235. - IDA [article ID]: 0901306014. - Rezhim dostupa: http://ej.kubagro.ru/2013/06/pdf/14.pdf, 1,375 u.p.l.
17. Trunev A.P. Gravitacionnye volny i kojefficient jemerdzhentnosti klassicheskih i kvantovyh sistem / A.P. Trunev, E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №03(097). S. 1343 - 1366.
- IDA [article ID]: 0971403092. - Rezhim dostupa: http://ej.kubagro.ru/2014/03/pdf/92.pdf, 1,5 u.p.l.
18. Trunev A.P. Logarifmicheskij zakon i kojefficient jemerdzhentnosti klassicheskih i kvantovyh sistem / A.P. Trunev, E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2016. - №06(120). S. 1659 - 1685.
- IDA [article ID]: 1201606110. - Rezhim dostupa: http://ej.kubagro.ru/2016/06/pdf/110.pdf, 1,688 u.p.l.