УДК 004.8
01.00.00 Физико-математические науки
ИДЕНТИФИКАЦИЯ СОРТОВ ИРИСОВ ПО ВНЕШНИМ ПРИЗНАКАМ С ПРИМЕНЕНИЕМ АСК-АНАЛИЗА И ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ «ЭЙДОС» (ДАННЫЕ РЕПОЗИТОРИЯ UCI )
Луценко Евгений Вениаминович
д.э.н., к.т.н., профессор
Scopus Author ID: 57191193316
РИНЦ SPIN-код: 9523-7101
prof. lutsenko @gmail. com
Кубанский государственный аграрный
университет имени И.Т.Трубилина, Краснодар,
Россия
Муренько Иван Викторович
студент 4-го курса
Кубанский государственный аграрный
университет имени И.Т.Трубилина, Краснодар,
Россия
Создание систем искусственного интеллекта является одним из важных и перспективных направлений развития современных информационных технологий. Так как существует множество альтернатив математических моделей систем искусственного интеллекта, то возникает необходимость оценки качества этих моделей, для чего необходимо их сравнение. Для достижения поставленной цели необходимы свободный доступ к исходным данным и методика, которая позволяет преобразовать эти данные в форму, необходимую для их обработки в системе искусственного интеллекта. Удачным выбором для этих целей является база данных тестовых задач для систем искусственного интеллекта репозитория UCI. В данной работе использована база данных «Iris Data Set» из банка исходных данных по задачам искусственного интеллекта - репозитория UCI, на основе которой решается задачи формализации предметной области (разработки классификационных и описательных шкал и градаций и кодирование исходных данных с их использованием, в результате чего формируется обучающая выборка, по сути представляющая собой нормализованные исходные данные), синтеза и верификации статистических и системно-когнитивных моделей предметной области, идентификации конкретных цветов с классами, в качестве которых выступают сорта Ириса, а также исследования предметной области путем исследования ее модели. Для решения этих задач применяется автоматизированный системно-когнитивный анализ (АСК-анализ) и его программный инструментарий - интеллектуальная
UDC 004.8
Physics and mathematical sciences
IDENTIFICATION OF VARIETIES OF IRISES BY THEIR APPEARANCE WITH THE USE OF ASC-ANALYSIS AND "EIDOS" INTELLECTUAL SYSTEM (REPOSITORY UCI DATA)
Lutsenko Eugeny Veniaminovich
Dr.Sci.Econ., Cand.Tech.Sci., professor
Scopus Author ID: 57191193316
RSCI SPIN-code: 9523-7101
prof. [email protected]
Kuban State Agrarian University, Krasnodar,
Russia
Mureniko Ivan Viktorovich
student of the 4th year
murenkoivan@y andex. ru
Kuban State Agrarian University, Krasnodar,
Russia
The creation of artificial intelligence systems is one of important and perspective directions of development of modern information technology. Since there are many alternatives of mathematical models of systems of artificial intelligence, there is a need to assess the quality of these models, which requires their comparison. To achieve this goal we require free access to the source data and methodology, which allows to convert these data into a form needed for processing in artificial intelligence. A good choice for these purposes is a database of test problems for systems of artificial intelligence of repository of UCI. In this work we used the database "Iris Data Set" from the bank's original task of artificial intelligence - UCI repository, which solved the problem of formalization of the subject area (development of classification and descriptive dials and graduations and the encoding of the source data, resulting training sample, essentially representing a normalized source data), synthesis and verification statistical and system-cognitive models of the subject area, identify colors with classes, which serve varieties of Iris, as well as studies of the subject area by studying its model. To solve these problems we used the automated system-cognitive analysis (ASC-analysis) and its programmatic Toolkit - intellectual system called "Eidos"
система «Эйдос»
Ключевые слова: ИДЕНТИФИКАЦИЯ СОРТОВ ИРИСОВ, ВНЕШНИЕ ПРИЗНАКИ, АСК-АНАЛИЗ, ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА «ЭЙДОС», РЕПОЗИТОРИЙ иС1
Бок 10.21515/1990-4665-123-121
2.1. Решение задачи.......................................
2.2. Когнитивные функции............................
2.3. SWOT и PEST матрицы и диаграммы
ЗАКЛЮЧЕНИЕ.....................................................
ЛИТЕРАТУРА.......................................................
Keywords: IDENTIFICATION OF VARIETIES OF IRISES, OUTWARD SIGNS, ASK-ANALYSIS, INTELLECTUAL SYSTEM, "EIDOS", UCI REPOSITORY
,. 2 ,. 3
.. 3
.. 3 14 16 18
24
24 27 30
32
32
СОДЕРЖАНИЕ
ВВЕДЕНИЕ...................................................................................................................................................
1. СИНТЕЗ И ВЕРИФИКАЦИЯ МОДЕЛЕЙ...........................................................................................
1.1. Описание решения.........................................................................................................................
1.2. Преобразование исходных данных из HTML-формата в файл исходных данных MS Excel..........................................................................................................................................................
1.3. Синтез и верификация статистических и интеллектуальных моделей............................
1.4. Виды моделей системы «Эйдос»...............................................................................................
1.5. Результаты верификации моделей............................................................................................
2. РЕШЕНИЕ ЗАДАЧ ИДЕНТИФИКАЦИИ В НАИБОЛЕЕ ДОСТОВЕРНОЙ МОДЕЛИ.............
ВВЕДЕНИЕ
Создание систем искусственного интеллекта является одним из важных и перспективных направлений развития современных информационных технологий. Так как существует множество альтернатив систем искусственного интеллекта, то возникает необходимость оценки качества математических моделей этих систем. В данной работе рассмотрено решение задачи идентификации классов цветов ириса.
Для достижения поставленной цели необходимы свободный доступ к тестовым исходным данным и методика, которая поможет преобразовать эти данные в форму, которая необходима для работы в системе искусственного интеллекта. Удачным выбором является база данных тестовых задач для систем искусственного интеллекта репозитория иС1.
В данной работе использована база данных «Iris Data Set» из банка исходных данных по задачам искусственного интеллекта - репозитория UCI.
Для решения задачи используем стандартные возможности Microsoft Office Word и Excel, блокнот, а также систему искусственного интеллекта "Эйдос-Х++".
1. СИНТЕЗ И ВЕРИФИКАЦИЯ МОДЕЛЕЙ
1.1. Описание решения
В соответствии с методологией АСК-анализа решение поставленной задачи проведем в четыре этапа:
1. Преобразование исходных данных из HTML-формата в промежуточные файлы MS Excel.
2. Преобразование исходных данных из промежуточных файлов MS Excel в базы данных системы "Эйдос".
3. Синтез и верификация моделей предметной области.
4. Применение моделей для решения задач идентификации, прогнозирования и исследования предметной области.
1.2. Преобразование исходных данных из HTML-формата в файл исходных данных MS Excel
Из банка исходных данных по задачам искусственного интеллекта -репозитория UCI получаем исходную информацию по базе данных «Iris Data Set», которую оставим без изменений.
Общее описание задачи:
Файл «iris.names»:
1. Title: Iris Plants Database
Updated Sept 21 by C.Blake - Added discrepency information
2. Sources:
(a) Creator: R.A. Fisher
(b) Donor: Michael Marshall (MARSHALL%[email protected])
(c) Date: July, 1988
3. Past Usage:
- Publications: too many to mention!!! Here are a few.
1. Fisher,R.A. "The use of multiple measurements in taxonomic problems" Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions to Mathematical Statistics" (John Wiley, NY, 1950) .
2. Duda,R.O., & Hart,P.E. (1973) Pattern Classification and Scene Analysis.
(Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. See page 218.
3. Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New System Structure and Classification Rule for Recognition in Partially
Exposed
Environments". IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71. -- Results:
-- very low misclassification rates (0% for the setosa class)
4. Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions on Information Theory, May 1972, 431-433.
-- Results:
-- very low misclassification rates again
5. See also: 1988 MLC Proceedings, 54-64. Cheeseman et al's AUTOCLASS
II
conceptual clustering system finds 3 classes in the data.
4. Relevant Information:
--- This is perhaps the best known database to be found in the pattern recognition literature. Fisher's paper is a classic in the field and is referenced frequently to this day. (See Duda & Hart, for example.) The data set contains 3 classes of 50 instances each, where each class refers to a type of iris plant. One class is linearly separable from the other 2; the latter are NOT linearly separable from each other.
--- Predicted attribute: class of iris plant.
--- This is an exceedingly simple domain.
--- This data differs from the data presented in Fishers article (identified by Steve Chadwick, [email protected] ) The 35th sample should be: 4.9,3.1,1.5,0.2,"Iris-setosa" where the error is in the fourth feature. The 38th sample: 4.9,3.6,1.4,0.1,"Iris-setosa" where the errors are in the second and third features.
5. Number of Instances: 150 (50 in each of three classes)
6. Number of Attributes: 4 numeric, predictive attributes and the class
7. Attribute Information:
1. sepal length in cm
2. sepal width in cm
3. petal length in cm
4. petal width in cm
5. class:
-- Iris Setosa -- Iris Versicolour -- Iris Virginica
8. Missing Attribute Values: None
Summary Statistics:
Min Max Mean SD Class Correlation
sepal length: 4.3 7 . 9 5 . 84 0 .83 0.7826
sepal width: 2 . 0 4.4 3.05 0 .43 -0.4194
petal length: 1. 0 6 . 9 3.76 1 .76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0 .76 0.9565 (high!)
9. Class Distribution: 33.3% for each of 3 classes.
Обучающая выборка представлена в таблице 1:
Таблица 1 - iris.data
n sepal length sepal width petal length petal width class
1 5,1 3,5 1,4 0,2 Iris-setosa
2 4,9 3,0 1,4 0,2 Iris-setosa
3 4,7 3,2 1,3 0,2 Iris-setosa
4 4,6 3,1 1,5 0,2 Iris-setosa
5 5,0 3,6 1,4 0,2 Iris-setosa
6 5,4 3,9 1,7 0,4 Iris-setosa
7 4,6 3,4 1,4 0,3 Iris-setosa
8 5,0 3,4 1,5 0,2 Iris-setosa
9 4,4 2,9 1,4 0,2 Iris-setosa
10 4,9 3,1 1,5 0,1 Iris-setosa
11 5,4 3,7 1,5 0,2 Iris-setosa
12 4,8 3,4 1,6 0,2 Iris-setosa
13 4,8 3,0 1,4 0,1 Iris-setosa
14 4,3 3,0 1,1 0,1 Iris-setosa
15 5,8 4,0 1,2 0,2 Iris-setosa
16 5,7 4,4 1,5 0,4 Iris-setosa
17 5,4 3,9 1,3 0,4 Iris-setosa
18 5,1 3,5 1,4 0,3 Iris-setosa
19 5,7 3,8 1,7 0,3 Iris-setosa
20 5,1 3,8 1,5 0,3 Iris-setosa
21 5,4 3,4 1,7 0,2 Iris-setosa
22 5,1 3,7 1,5 0,4 Iris-setosa
23 4,6 3,6 1,0 0,2 Iris-setosa
24 5,1 3,3 1,7 0,5 Iris-setosa
25 4,8 3,4 1,9 0,2 Iris-setosa
26 5,0 3,0 1,6 0,2 Iris-setosa
27 5,0 3,4 1,6 0,4 Iris-setosa
28 5,2 3,5 1,5 0,2 Iris-setosa
29 5,2 3,4 1,4 0,2 Iris-setosa
30 4,7 3,2 1,6 0,2 Iris-setosa
31 4,8 3,1 1,6 0,2 Iris-setosa
32 5,4 3,4 1,5 0,4 Iris-setosa
33 5,2 4,1 1,5 0,1 Iris-setosa
34 5,5 4,2 1,4 0,2 Iris-setosa
35 4,9 3,1 1,5 0,1 Iris-setosa
36 5,0 3,2 1,2 0,2 Iris-setosa
37 5,5 3,5 1,3 0,2 Iris-setosa
38 4,9 3,1 1,5 0,1 Iris-setosa
39 4,4 3,0 1,3 0,2 Iris-setosa
40 5,1 3,4 1,5 0,2 Iris-setosa
41 5,0 3,5 1,3 0,3 Iris-setosa
42 4,5 2,3 1,3 0,3 Iris-setosa
43 4,4 3,2 1,3 0,2 Iris-setosa
44 5,0 3,5 1,6 0,6 Iris-setosa
45 5,1 3,8 1,9 0,4 Iris-setosa
46 4,8 3,0 1,4 0,3 Iris-setosa
47 5,1 3,8 1,6 0,2 Iris-setosa
48 4,6 3,2 1,4 0,2 Iris-setosa
49 5,3 3,7 1,5 0,2 Iris-setosa
50 5,0 3,3 1,4 0,2 Iris-setosa
51 7,0 3,2 4,7 1,4 Iris-versicolor
52 6,4 3,2 4,5 1,5 Iris-versicolor
53 6,9 3,1 4,9 1,5 Iris-versicolor
54 5,5 2,3 4,0 1,3 Iris-versicolor
55 6,5 2,8 4,6 1,5 Iris-versicolor
56 5,7 2,8 4,5 1,3 Iris-versicolor
57 6,3 3,3 4,7 1,6 Iris-versicolor
58 4,9 2,4 3,3 1,0 Iris-versicolor
59 6,6 2,9 4,6 1,3 Iris-versicolor
60 5,2 2,7 3,9 1,4 Iris-versicolor
61 5,0 2,0 3,5 1,0 Iris-versicolor
62 5,9 3,0 4,2 1,5 Iris-versicolor
63 6,0 2,2 4,0 1,0 Iris-versicolor
64 6,1 2,9 4,7 1,4 Iris-versicolor
65 5,6 2,9 3,6 1,3 Iris-versicolor
66 6,7 3,1 4,4 1,4 Iris-versicolor
67 5,6 3,0 4,5 1,5 Iris-versicolor
68 5,8 2,7 4,1 1,0 Iris-versicolor
69 6,2 2,2 4,5 1,5 Iris-versicolor
70 5,6 2,5 3,9 1,1 Iris-versicolor
71 5,9 3,2 4,8 1,8 Iris-versicolor
72 6,1 2,8 4,0 1,3 Iris-versicolor
73 6,3 2,5 4,9 1,5 Iris-versicolor
74 6,1 2,8 4,7 1,2 Iris-versicolor
75 6,4 2,9 4,3 1,3 Iris-versicolor
76 6,6 3,0 4,4 1,4 Iris-versicolor
77 6,8 2,8 4,8 1,4 Iris-versicolor
78 6,7 3,0 5,0 1,7 Iris-versicolor
79 6,0 2,9 4,5 1,5 Iris-versicolor
80 5,7 2,6 3,5 1,0 Iris-versicolor
81 5,5 2,4 3,8 1,1 Iris-versicolor
82 5,5 2,4 3,7 1,0 Iris-versicolor
83 5,8 2,7 3,9 1,2 Iris-versicolor
84 6,0 2,7 5,1 1,6 Iris-versicolor
85 5,4 3,0 4,5 1,5 Iris-versicolor
86 6,0 3,4 4,5 1,6 Iris-versicolor
87 6,7 3,1 4,7 1,5 Iris-versicolor
88 6,3 2,3 4,4 1,3 Iris-versicolor
89 5,6 3,0 4,1 1,3 Iris-versicolor
90 5,5 2,5 4,0 1,3 Iris-versicolor
91 5,5 2,6 4,4 1,2 Iris-versicolor
92 6,1 3,0 4,6 1,4 Iris-versicolor
93 5,8 2,6 4,0 1,2 Iris-versicolor
94 5,0 2,3 3,3 1,0 Iris-versicolor
95 5,6 2,7 4,2 1,3 Iris-versicolor
96 5,7 3,0 4,2 1,2 Iris-versicolor
97 5,7 2,9 4,2 1,3 Iris-versicolor
98 6,2 2,9 4,3 1,3 Iris-versicolor
99 5,1 2,5 3,0 1,1 Iris-versicolor
100 5,7 2,8 4,1 1,3 Iris-versicolor
101 6,3 3,3 6,0 2,5 Iris-vi rginica
102 5,8 2,7 5,1 1,9 Iris-virginica
103 7,1 3,0 5,9 2,1 Iris-virginica
104 6,3 2,9 5,6 1,8 Iris-virginica
105 6,5 3,0 5,8 2,2 Iris-virginica
106 7,6 3,0 6,6 2,1 Iris-virginica
107 4,9 2,5 4,5 1,7 Iris-virginica
108 7,3 2,9 6,3 1,8 Iris-virginica
109 6,7 2,5 5,8 1,8 Iris-virginica
110 7,2 3,6 6,1 2,5 Iris-virginica
111 6,5 3,2 5,1 2,0 Iris-virginica
112 6,4 2,7 5,3 1,9 Iris-virginica
113 6,8 3,0 5,5 2,1 Iris-virginica
114 5,7 2,5 5,0 2,0 Iris-virginica
115 5,8 2,8 5,1 2,4 Iris-virginica
116 6,4 3,2 5,3 2,3 Iris-virginica
117 6,5 3,0 5,5 1,8 Iris-virginica
118 7,7 3,8 6,7 2,2 Iris-virginica
119 7,7 2,6 6,9 2,3 Iris-virginica
120 6,0 2,2 5,0 1,5 Iris-virginica
121 6,9 3,2 5,7 2,3 Iris-virginica
122 5,6 2,8 4,9 2,0 Iris-virginica
123 7,7 2,8 6,7 2,0 Iris-virginica
124 6,3 2,7 4,9 1,8 Iris-virginica
125 6,7 3,3 5,7 2,1 Iris-virginica
126 7,2 3,2 6,0 1,8 Iris-virginica
127 6,2 2,8 4,8 1,8 Iris-virginica
128 6,1 3,0 4,9 1,8 Iris-virginica
129 6,4 2,8 5,6 2,1 Iris-virginica
130 7,2 3,0 5,8 1,6 Iris-virginica
131 7,4 2,8 6,1 1,9 Iris-virginica
132 7,9 3,8 6,4 2,0 Iris-virginica
133 6,4 2,8 5,6 2,2 Iris-virginica
134 6,3 2,8 5,1 1,5 Iris-virginica
135 6,1 2,6 5,6 1,4 Iris-virginica
136 7,7 3,0 6,1 2,3 Iris-virginica
137 6,3 3,4 5,6 2,4 Iris-virginica
138 6,4 3,1 5,5 1,8 Iris-virginica
139 6,0 3,0 4,8 1,8 Iris-virginica
140 6,9 3,1 5,4 2,1 Iris-virginica
141 6,7 3,1 5,6 2,4 Iris-virginica
142 6,9 3,1 5,1 2,3 Iris-virginica
143 5,8 2,7 5,1 1,9 Iris-virginica
144 6,8 3,2 5,9 2,3 Iris-virginica
145 6,7 3,3 5,7 2,5 Iris-virginica
146 6,7 3,0 5,2 2,3 Iris-virginica
147 6,3 2,5 5,0 1,9 Iris-virginica
148 6,5 3,0 5,2 2,0 Iris-virginica
149 6,2 3,4 5,4 2,3 Iris-virginica
150 5,9 3,0 5,1 1,8 Iris-virginica
На рисунках 1-3 приведены примеры цветов Ирисов разных классов. Ь«р://д .kubagro.ru/2016/09/pdf/121.pdf
Рисунок 1. Ирис класса setosa
Рисунок 2. Ирис класса versicolor
Рисунок 3. Ирис класса virginica
Поскольку ввод исходных данных в систему «Эйдос» планируется осуществить с помощью ее универсального программного интерфейса импорта данных из внешних баз данных, который работает с файлами MS Excel, то преобразуем данные из html-файла в xls-файл, для чего выполним следующие операции.
Скопируем получившуюся таблицу из MS Word в MS Excel и запишем ее с именем: Inp_data.xls в папку: c:\Aidos-X\AID_DATA\Inp_data\. В файле Inp_data.xls добавим пустую колонку на позиции «A» и автоматически пронумеруем все строки. В результате получим таблицу исходных данных, полностью подготовленную для обработки в системе «Эйдос» и записанную в нужную папку в виде файла нужного типа с нужным именем.
Автоматизированная формализация предметной области путем импорта исходных данных из внешних баз данных в систему "Эйдос".
Для загрузки базы исходных данных в систему «Эйдос» необходимо воспользоваться универсальным программным интерфейсом для ввода данных из внешних баз данных табличного вида, т.е. режимом 2.3.2.2 (рисунок 4):
2.3.2.2. Универсальный программный интерфейс импорта данньи в систему ~ЭЙДОС-Х+ + 'т
Ü
и i- ЕЩ
Автоматическая формализация предметной области: генерация классификационных и описательных шкал и градаций, а также обучающей и распознаваемой выборки на основе базы исходных данных: "1пр_йа*а"
Задайте параметры:
Стандарт XLS-файла
Задайте тип файле исходных данных: "Inp data": с*.' Ч". FiVvt?;* Г XLSK-MS Excel-2CG7(2010) Г DBF DBASE IV (DBh'NTXJ- Стащарт DBF-Файла
CSV - Comma-Separated Values Станщарг CSV-файла
Нули и пробелы считать ОТСУТСТВИЕМ данный Нули и пробелы считать ЗНАЧЕНИЯМИ данных р" Создавать БД средник по классам "!пр_^ауг^ЬГ? Требования к файлу искоднык данных
Задайте диапазон столбцов классификационных шкал: Начальный столбец классификационных шкал: j g
Конечный столбец классификационных шкал: g
Задайте диапазон столбцое описательных шкал Начальный столбец описательных шкал: Конечный столбец описательных шкал:
Задайте режим:—
f* Формализации предметной области (на основе "lnp_daia") Генерации распознаваемой выборки (на основе "lnp_rasp")
Задайте способ выбора размера интервалов: t* Равные интервалы с разным числом наблюдений Разные интервапы с равным числом наблюдений
Задание параметров Формирования сценариев или способа интерпретации текстовых полей "lnp_data":
f* Не применять сценарный метцц АСК-анализа и спец.интерпретацию ТХТ-полей
Применить сценарный метод прогнозирования АСК-анализа С* П рмменить специальную интерпрет ацию текстовых полей "I np_data''
Пояснения по режиму
Не применять сценарный метой АСК-анализа и спец.интерпретацию ТХТ-полей:
Сценарный метод АСК-анализа:
Записи Файла исходных данных 'lnp_data" рассматриваются ка;кдая сама по себе независимо друг от друга
Спец.интерпретация ТХТ-полей:--
Значения текстовых полей Файла исходных данный
"! no data" рассматриваются как целое
Какие наименования ГРАДАЦИЙ числовых шкал использовать:
<• Только интервальные числовые значения (например: "1/3-Й9873.0000000,173545.6666667}")
г1 Только наименования интервальных чнслоеых значений (например: "Миннмальное")
Г" И интервальные чисновые значения, и их наименования (например: "Минимальное: 1/3-{59873.0000000.176545.6666667}")
Пк
Cancel
Рисунок 4. Экранная форма Универсального программного интерфейса импорта данных в систему "Эйдос" (режим 2.3.2.2.)
В экранной форме, приведенной на рисунке 4 необходимо задать настройки, показанные на рисунке:
- "Задайте тип файла исходных данных Inp_data": "XLS - MS Excel-2003";
- "Задайте диапазон столбцов классификационных шкал": "Начальный столбец классификационных шкал" - 6, "Конечный столбец классификационных шкал" - 7 (последний столбец в таблице);
- "Задайте диапазон столбцов описательных шкал": "Начальный столбец описательных шкал" - 2, "Конечный столбец описательных шкал" - 5;
- "Задание параметров формирования сценариев или способа интерпретации текстовых полей": "Не применять сценарный метод АСК-анализа и спец.интерпретацию ТХТ-полей".
После нажать кнопку "ОК". Далее открывается окно, где размещена информация о размерности модели (рисунок 5). В этом окне необходимо нажать кнопку "Выйти на создание модели".
Рисунок 5. Задание размерности модели системы "Эйдос"
Далее открывается окно, отображающее стадию процесса импорта данных из внешней БД "Inp_data.xls" в систему "Эйдос" (рисунок 6), а также прогноз времени завершения этого процесса. В том окне необходимо дождаться завершения формализации предметной области и нажать кнопку "ОК".
(¿1 2.3.2.2. Процесс импорта данных из внешней БД "1пр_е1а1а" в систему тЭЙДОС-Х++"
151I—'
Стадии исполнения процесса
1/3: Формирование классификационных и описательных шкал и градаций на основе БД "1пр_с1а1а" - Готово 2/3: Генерация обучающей выборки и базы событий "Еуеп(5К0" на основе БД "1пр_с1а(а" - Готово 3/3: Переиндексация всех баз данных нового приложения - Готово
ПРОЦЕСС ФОРМАЛИЗАЦИИ ПРЕДМЕТНОЙ ОБЛАСТИ ЗАВЕРШЕН УСПЕШНО !!!
Прогноз времени исполнения
Начало: 08:50:46 Окончание: 8:50:49
т%
0к
Прошло: 0:00:03
□ сталось: 0:00:00
Рисунок 6. Процесс импорта данных из внешней БД "Inp_data.xls"
в систему "Эйдос"
В результате формируются классификационные и описательные шкалы и градации, с применением которых исходные данные кодируются и представляются в форме эвентологических баз данных. Этим самым полностью автоматизировано выполняется 2-й этап АСК-анализа «Формализация предметной области». Для просмотра классификационных шкал и градаций необходимо запустить режим 2.1 (рисунок 7).
Г 2.1. Классификационные шкалы и градации- Текущая мг>л*»лк: "TMF1 L . — ш <1ир4 ^
III
Код шкалы I Наименование классификационной шкалы Кед градации Наименование градации классификационной шкалы -
1 CLASS 2 Iris-setosa -
Iris-versicolor
3 Iris-virginica
« < г
Помощь Доб.шкалу Доб.град.шкалы Копир.шкалу Копир.град.шкалы Копир.шкалу с град. Удал.шкалу с град. Удал.град.шкалы Удаление и перекодирование J
-
Рисунок 7. Классификационные шкалы и градации (фрагмент)
Для просмотра описательных шкал и градаций необходимо запустить режим 2.2 (рисунок 8), а для просмотра обучающей выборки -режим 2.3.1 (рисунок 9):
II
Кед шкалы 1 Наименование описательной шкалы ж Кед градации Наименование градации описательной шкалы
2 SEPAL LENGTH 2 1ЛМ4.3000000, 5.5000000}
SEPAL WIDTH 2/3-{5.5000000, 6 7000000}
3 PETAL LENGTH 3 3/3-{6.7000000, 7 3000000}
4 PETAL WIDTH
<1 14 < 1
Помощь | Доб.шкалу | Доб.град.шкалы | Копир.шкалу | Копир.град.шкалы | Копир.шкалу с град. | Удал.шкалу с град. | Удал.град.шкалы | Перекодировать | Очистить j
Рисунок 8. Описательные шкалы и градации (фрагмент)
Рисунок 9. Обучающая выборка (фрагмент) Ь«р://д .kubagro.ru/2016/09/pdf/121.pdf
Тем самым создаются все необходимые и достаточные предпосылки для выявления силы и направления причинно-следственных связей между значениями факторов и результатами их совместного системного воздействия (с учетом нелинейности системы [11]).
1.3. Синтез и верификация статистических и интеллектуальных моделей
Далее запускаем режим 3.5, в котором задаются модели для синтеза и верификации, а также задается модель, которой по окончании режима присваивается статус текущей (рисунок 10).
Рисунок 10. Выбор моделей для синтеза и верификации, а также текущей модели
В данном режиме имеется много различных методов верификации моделей, в том числе и поддерживающие бутстрепный метод. Но мы используем параметры по умолчанию, приведенные на рисунке 10. Стадия процесса исполнения режима 3.5 и прогноз времени его окончания отображаются на экранной форме, приведенной на рисунке 11.
Рисунок 11. Синтез и верификация статистических моделей
и моделей знаний
Интересно заметить (см. рисунок 11), что синтез и верификация всех 10 моделей на данной задаче заняли 57 секунд. При этом верификация (оценка достоверности моделей) проводилась на всех 150 примерах наблюдения из обучающей выборки. В результате выполнения режима 3.5 созданы все модели, со всеми частными критериями, перечисленные на рисунке 10, но ниже мы приведем лишь некоторые из них (таблицы 2, 3, 4).
1.4. Виды моделей системы «Эйдос»
Рассмотрим решение задачи идентификации на примере модели INF1, в которой рассчитано количество информации по А.Харкевичу, которое мы получаем о принадлежности идентифицируемого объекта к каждому из классов, если знаем, что у этого объекта есть некоторый признак.
По сути, частные критерии представляют собой просто формулы для преобразования матрицы абсолютных частот (таблица 2) в матрицы условных и безусловных процентных распределений, и матрицы знаний (таблицы 3 и 4).
Таблица 2 - Матрица абсолютных частот (модель ABS)
5.5, Модель: "1. ABS - частный критерий: количество встреч сочетаний; "Класс-признак" у объектов рбуч.выборкл ^
¡ jj ¡—Sil
Кед признака Наименование описательной шкалы и градации 1. CLASS IRIS .SETOSA 1 CLASS mis: VERSicO.. 3; CLASS IRIS. VIRGINIÉÍ. С^мма Среднее Средн. квадр.
И SEPAL LENGTH-ÚS$1.3000000, 5.5000000} 47 11 1 59 15.667 24.134
2 SEPAL LENGTH'-i/3-{S,5000000. Б.7000000} 3 36 32 71 23.667 is.009
3 S Е PAL LE N G Т H -3/3-{6 7000000; 7. ЗОГОООО} 3 17 20 6.667 9.074
4 S Е PAL Wl D T Н ЙЗЙООООООО. 2. 6000000} 1 27 19 47 15.667 13.317
5 S Е PAL Wl D T Н -ЗЙЙЖЮООО, 3.6000000} 36 23 29 be 29.333 6.506
G SEPAL WIDTH-ЗЙ-р.еОООООО, 4 4000000} 13 2 15 5.000 7.000
7 PETAL L.ENGT№V3-{1.0000000, 2.3666667} 50 50 16.667 2s.ë6s
3 PETAL LENG [H^afe.9666667;4:33S333} 4e 6 54 ie.000 26.153
3 PETAL LENGTH.-ЗЙ'Й.ЗЗЗЗЗЗЗ; 6:3000000} 2 44 46 15.333 24.e46
1 rj PE TAL wl D T H ■ V3-{0.1000000, 0.3000000} 50 50 16.667 2s.ë6e
11 PE TAL wl D T H -2/3#3000000,1.7000000} 49 5 54 is.000 26.963
Щ PETALWIDTH30-11.7000000, 2.5000000} 1 45 46 15.333 25.697
Сумма чиола признаков 200 200 200 600
Среднее 17 17 17 16.667
Среднеквадратичное отклонение 22 19 17 1е.9ё9
Сумма числа объектов обуч. выборки 50 50 50 150
Помощь MS Excel
_Таблица 3 - Матрица информативностей (модель INFI) в битах_
с) 5.5. Модель: "4. INFI - частный критерий: количество знаний по А.Харкевмчу: вероятности из PRC1"
I - I в Д
Код признака Наименование описательной шкалы и градации 1. CLASS-ims :5ЁТ0ЙА .2. CLASS-IRIS VERSICO.. 3. CLASS IRIS VIRGINICA CijMMa Среднее Среды, квадр С'Ткл:
Я SEPAL LENGTH.-Tä-i4.3000000, 5.5000000} 0.216 -0.144 -0.733 -0.666 -0.222 0.4Ё2
2 SEPAL LENG.TH'-i/3-{5.5000000. 6.7000000} -0.512 0.104 0. 075 -0.333 -0.111 0.347
3 SEPAL LE'N G Т Н -3/3-{6 7000000. 7 3000000} —0.198 D .232 0.034 0.011 0.215
4 S E PAL Wl D T Н-г-ЙЙ 0000000. 2.3000000} -0.632 0.135 D.04B -0.499 -0.166 0.443
5 S E PAL Wl D T U-2&{Z 3000000, 3.6000000} 0.051 -0.060 -0.003 -0.012 -0.004 0.056
6 SEPAL WlDTH-3/3-®.6000000, 4.4000000} 0.237 -0.227 0.010 0.003 0.232
7 PETAL LENGThH-fl-fl .0000000, 2.3666067} 0.272 0.272 0.091 0.157
3 PETAL LENGTH-j&-'C.S666667, Шшш> 0.243 -0.272 -0.029 -0.010 0.258
Э PETAL LENGTH.-3/3-H3333333, 6.3000000} -0.505 0.261 -0.243 -0.021 0.339
10 PE TAL Wl D T H-1Д® 1000000,0.3000000} 0.272 0.272 0.091 0.157
11 PETAL Wl D T H-2/31®. 3000000,1.7000000} 0.243 -0.317 -0.069 -0.023 0.233
Ii PETAL WIDTH-®)3-{1.7000000, 2.5000000} -0.676 0.267 -0.410 -0.137 0.436
Сумма -0.146 -0.353 -0.675 -1.674
Среднее -0.012 -0.071 -0.056 -0.047
Среднеквадратичное отклонение 0.298 0.230 0.291 0.233
Помощь
Таблица 4 - Матрица знаний (модель INF3 )
ЗИ h ¡Г
5,5. Модель: "6. INF3 - частный критерий: Хи-квадрат, разности между фактическими и ожидаемыми абс,*
частотами
Код признака Наименование описательной шкалы и градации 1. CLASS-IRtS :5ЁТ0ЙА .2. CLASS-IRIS VERSICO.. 3. CLASS IRIS VIRGINICA CijMMa Среднее Средн. квадр гакл:
Я SEPAL LENGTH,1.&{4.3000000, 5.5000000} 27.333 -3.667 -18.667 24.194
2 SEPAL LENG.TH'-i/3-{5.5000000. 6.7000000} -20.667 12.333 8.333 18.009
3 SEPAL LE'N G Т Н -3/3-{6 7000000. 7 3000000} -6 .667 -3.667 10. 333 9. 074
4 SEPAL WIDTH-iSfeoOOOOOO, 2.6000000} -14.667 11.333 3.333 13.317
5 SEPAL WlDTН-2Й{2:3000000, 3.6000000} 6.667 -6.333 -0.333 6.506
6 SEPAL WlDTН-ЗЙ-Й.6000000, 4.4000000} е.ooo -5.000 -3.000 7.000
7 PETAL ЦЭДЗЩдаЙ.0000000, 2.3666067} 33.333 -16.667 -16,667 23.868
3 PETAL LENGTH-j&-'C.S666667, ШШ&Ш -18.000 30.000 -12.000 26.153
3 PETAL LE N G T H.-3/3-R3333333, 6.3000000} -15.333 -13.333 28.667 24.846
10 PE TAL Wl D T H-1Д® 1000000,0.3000000} 33.333 -16,667 -16.667 28.868
11 PETAL Wl D T H-2/31®. 3000000,1.7000000} -18.000 31.000 -13.000 26.963
Ш PETAL WIDTH-3)3-'{1.7000000, 2.5000000} -15.3-33 -14.333 29.667 25.697
Сумма
Среднее
Среднеквадратичное отклонение 21.068 17.146 16.829 17.914
Помощь MS Excel
1.5. Результаты верификации моделей
Результаты верификации (оценки достоверности) моделей, отличающихся частными критериями с двумя приведенными выше интегральными критериями приведены на рисунке 12.
fj) 4.1.3.6. Обобщ,форма по достов.моделей при разн.инт,крит„ i екущая модель: INFI" _ ^ __ . в Ii
НаиМеноваНив-МодеЛИ Интегральный критерий Всего Число исгино- Число исгино- Число ложи... Число лоЖн... и частного критерия Логически* положигельн.. отрицательны» положигель... отрицатель... объектов решений (TP) решений (TN| решений (FP) решений (FN| выборки Точность Полноте F-мера Сумма'моду... Сумма'моду... Сумма моду... Сумма МОДу... S-T Ван уровней ско... уровней схо... уровней схо... уровней cío... мол Ризбергена иетино-подо... :истино-отри.„ ложно-поло., лодано-отриц.. решений (ST... решений (ST.... решений (SFP) решений (SF...
150 149 268 32 1 0.823 0.993 0.900 122.076 88,234 6.895 0.396
1.ABS -част гный критерий: количество встреч сочетаний: "клас... Сумма абс.часгот по признак... 150 150 300 0.333 1.000 0.500 123.607 63.082
2. PRC1 ■ час тный критерий: усл. вероятность i-го признака сред... Корреляция услотн.часгот с о... 150 149 268 32 1 0.823 0.993 0.900 122.076 88.234 6.895 0.396
2.PRC1 - час тный критерий:.усл. вероятность 1-го признака сред... Сумма услотн. частот по приз... 150 150 300 0.333 1.000 0.500 123.607 63.082
3. PRC2 • час тный критерий: условная вероятность i-го признака... Корреляция усяотн.частот с о... 150 149 268 32 1 0.823 0.993 0.900 122.071 88.231 6.895 0.396
3. PRC2 ■ час тный критерий: условная вероятностьi-ro признака... Сумма усл.отн. частот по приз... 150 150 300 0.333 1.000 0.500 123.607 63.082
4. NF1 ■ част ный критерий: количество знаний по А.Харкевичу; в... Семантический резонанс зна... 150 148 220 80 2 0.649 0.987 0.783 101.586 118.539 9.274 0.970
4. NF1 -чаа ный критерий: количество знаний по А.Харкевичу; в... Сумма знаний 150 146 276 24 4 0.859 0.973 0.913 65.422 131.641 1.663 1.320
5 NF2 • част ный критерий: количество знаний по А.Харкевичу; в... Семантический резонанс зна... 150 148 220 80 2 0.649 0.987 0.783 101.586 118,539 9.274 0.970
5 NF2 - част ный критерий: количество знаний по А.Харкевичу; в... Сумма знаний 150 14« 27« 24 4 0.859 0.973 0.913 65.422 131.641 1.663 1.320
е. NF3 - част ный критерий: Хи-к.ваараь разности между Фактич... Семантический резонанс зна... 150 149 287 13 1 0.920 0.993 0.955 123.059 127.849 5.135 0.485
е. NF3 • част ный критерий: Хи-квадрэт, разности между фактич... Сумма знаний 150 149 287 13 1 0.920 0.993 0.955 110.513 114.366 4.248 0.395
7. NF4 • част ный критерий: ROI (Return On Inveslmenl); вероятно... Семантический резонанс зна... 150 149 288 12 1 0.925 0.993 0.958 105.655 119.937 3,331 0.612
7. NF4 - част ный критерий: ROI (Return Оп Inveslmenl]; вероятно... Сумма знаний 150 149 252 48 1 0.756 0.993 0.859 97.615 40.567 5.490 0.304
а NF5 ■ част ный критерий; ROI (Return On Inveslmenl); вероятно... Семантический резонанс зна.. 150 149 288 12 1 0.925 0.993 0.958 105,655 119.937 3,331 0.612
б NF5 • част ный критерий: ROI (Return On Investment); вероятно... Сумма знаний 150 149 252 48 1 0.756 0.993 0.859 97.615 40.567 5.490 0.304
а NF6 - част ный критерий: разнусл.и безусдвероятностей; вер- Семантический резонанс зна... 150 149 287 13 1 0.920 0.993 0.955 117.635 125.625 3.982 0.725
а NF6 - част ный критерий: разнусл.и безуслвероягноегей; вер... Сумма знаний 150 149 252 48 1 0.756 0.993 0.859 110.513 50.072 7.565 0.395
10.INF7 - час тный критерий: разнесли безусл.вероятностей;ве... Семантический резонанс зна... 150 149 287 13 1 0.920 0.993 0.955 117,635 125.625 3.982 0.725
10.INF7-4ac тный критерий: разнусли безусл.вероятностей;ве... Сумма знаний 150 149 252 48 1 0.756 0.993 0.859 110.513 50.072 7.565 0.395
i I и
Помощь
Рисунок 12. Оценки достоверности моделей
Наиболее достоверными в данном приложении оказались модели INF4 и INF5 при интегральном критерии «Семантический резонанс знаний». При этом точность модели (F-мера Ван Ризбергена) составляет 0,958. Таким образом, уровень достоверности прогнозирования с применением модели выше, чем экспертных оценок, достоверность которых считается равной примерно 70%. Для оценки достоверности моделей в АСК-анализе и системе «Эйдос» используется F-мера Ван Ризбергена и L-мера, представляющая собой ее нечеткое мультиклассовое обобщение, предложенное профессором Е.В.Луценко [10] (рисунок 13).
(¡) Помощь по режимам: 4,1.3.6,4,1.3.7, 4,1.3,8, 4.1,3.10: Виды прогнозов и меры достоверности
t системе "Эйдос-Х-и
Помощь г
: 4.1.В.6,
.1.3.7, 4.1.3.1
4.1.3.10: Виды прогнс
меры достовернс
I моделей в <
! "эйдос-х++".
16, а что-то из этого естественно выпало, конечно, | не выпадет, но ясно, что выпадет что-то одно, а не что произошло, т.е. в этом случае у модели будет
положительный псевдопрогнов.
Предположим, модель дает такой прогноз: выпадет 1, 2, 3, 4, 5 или 6. В этом случае у нее будет 100% достоверность идентификации, т.е. не будет ни одного объекта, не отнесенного к тому классу, к которому он действительно относится, но при этом будет очень большая ошибка ложной идентификации, т.к. огромное количество объектов будет отнесено к классам, к которым они не относятся (и именно за счет этого у модели и будет очень высокая достоверность идентификации). Ясно, что такой прогноз бесполезен, поэтому он и назван мной псевдопрогнозом.
ОТРИЦАТЕЛЬНЫЙ ПСЕВДОПРОГНОЗ.
представим себе, что мы выбрасываем кубик с 6 гранями, и модель предсказывает, модель дает ошибку в прогнозе в том плане, что не предсказала, что выпадет, зато < что предсказано, поэтому такого рода предсказания хорошо оправдываются в том, что 100% достоверность не идентификации, но очень низкая достоверность идентификации.
ИДЕАЛЬНЫЙ ПРОГНОЗ.
если в случае с кубиком мы прогнозируем, что выпадет, например 1, и соответственно прогнозируем, что не выпадет 2, 3, 4, если он осуществляется, 100% достоверность идентификации и не идентификации. Идеальный прогноз, который полностью снимает прогнозирования, на практике удается получить крайне редко и обычно мы имеем дело с реальным прогнозом.
РЕАЛЬНЫЙ ПРОГНОЗ.
на практике мы чаще всего сталкиваемся именно с этим видом прогноза, реальный прогноз уменьшает неопределенность о будущем состоянии объекта прогнозирования, но не полностью, как идеальный прогноз, а оставляет некоторую неопределенность не снятой, например, для игрального кубика делается такой прогноз: выпадет 1 или 2, и, соответственно, не выпадет 3, 4, 5 или 6. Понятно, что полностью на практике такой прогноз не может осуществиться, т.к. варианты выпадения кубика альтернативны, т.е. может выпасть одновременно и 1, и 2. поэтому у реального прогноза всегда будет определенная ошибка идентификации, соответственно, если не осуществится один или несколько из прогнозируемых вариантов, то возникнет и ошибка не идентификации, т.к. это не прогнозировалось моделью, теперь представите себе, что у вас не 1 кубик и прогноз его поведения, а тысячи, тогда можно посчитать средневзвешенные характеристики всех этих видов прогнозов.
Таким образом, если просуммировать число верно идентифицированных и не идентифицированных объектов и вычесть число ошибочно идентифицированных и не идентифицированных объектов, а затем разделить на число всех объектов то это и будет критерий качества модели (классификатора), учитывающий как ее способность верно относить объекты к классам, которым они относятся, так и ее способность верно не относить объекты к тем классам, к которым они не относятся, этот критерий предложен I реализован в системе "Эйдос" проф. Е.В.Луценко в 1994 году. Эта мера достоверности модели предполагает два варианта нормировки: {-1, +1} и {0, 1}: ы = ( тр + Т1Ч - рр - ры ) / ( тр + ти + рр + Р1Ч ) (нормировка: {-1,+1})
1.2 = ( 1 + ( тр + тм - рр - ры ) / ( тр + тм + рр + рм ) ) / 2 (нормировка: { 0, 1}>
где: ТР - истино-положительное решение; ТЫ - истино-отрицательное решение; РР - ложно-положительное решение; РИ - ложно-отрицательное решение;
F-мера достоверн«
I моделей Ван Ризберп
precision = tp/(tp+fp) - точность модели; Recall = tp/(TP+fn) - полнота модели; F-mera = 2t,(precisionsRecan)/(precisiom-Recan).
В АСК-анализе и системе "Эйдос" предлагается L-мера, представляющая собой
sprecision = stp/(stp+sfp) - нечеткая мультиклассовая точность модели; SRecall = 5TP/(stp+sfn) - нечеткая мультиклассовая полнота модели;
L-mera = 2*(sprecision*5Reca"n)/(sprecisiorH-5Reca"n) - нечеткая мультиклассовая достоверность модели, где:
stp - сумма модулей сходства истино-положительных решений; stn -5FP - Сумма модулей сходства ложно-положительных решений; sfn -
I F-меры достоверности моделей Ван Ризберп
Рисунок 13. Виды прогнозов и принцип определения достоверности моделей по авторскому варианту метрики, сходной с Б-критерием
Также обращает на себя внимание, что статистические модели, как правило, дают более низкую средневзвешенную достоверность идентификации и не идентификации, чем модели знаний, и практически никогда - более высокую. Этим и оправдано применение моделей знаний и интеллектуальных технологий. На рисунке 14 приведены частные распределения уровней сходства и различия для верно и ошибочно идентифицированных и неидентифицированных ситуаций в наиболее достоверной модели Г№Р4.
Рисунок 14. Частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний объекта
моделирования в модели ШЕ4
Из рисунка 14 видно, что:
- наиболее достоверная модель Г№Р4 лучше определяет непринадлежность объекта к классу, чем принадлежность (что видно также из рисунка 9);
- модуль уровня сходства-различия в наиболее достоверной модели Г№Р4 для верно идентифицированных и верно неидентифицированных объектов значительно выше, чем для ошибочно идентифицированных и ошибочно неидентифицированных. Это верно практически для всего диапазона уровней сходства-различия, кроме небольших по модулю значений в диапазоне от 0 до 15% уровня сходства. Для очень больших значений уровней сходства-различия (более 70%) также различие между верно и ошибочно идентифицированными и неидентифицированными ситуациями практически отсутствует.
Любые данные о наблюдениях можно считать суммой истинного значения и шума, причем ни первое, ни второе неизвестны. Поэтому имеет смысл сравнить созданные модели с чисто случайными моделями, совпадающими по основным характеристикам. В системе «Эйдос» есть лабораторная работа № 2.01: «Исследование ЯМО-модели при различных объемах выборки». Если данная работа устанавливается при отсутствии текущего приложения, то все параметры создаваемых моделей задаются вручную, если же текущая модель существует, как в нашем случае, то все основные ее параметры определяются автоматически (рисунок 15):
(+ Определить автоматически на оеноветекущего приложения
Автоматическое определение параметров -модели на основе текущего приложения
Наименование текшего приложения: Приложение, созданное путем ввода даных из БД 1пр_<Йа. Это название можно скорректт
3 <■ Количество классов (градаций классификационно шкал] в ЯМО-модели 123 <- Количество признаков (градаций описательны* шкал) в В№-моде»|
4 <- Оценка среднего количества классов, к которым относится объект обучающей выборки 7 <■ Оценка среднего количества признаков у объекта обдающей выборки
3 <■ Среднее количество градаций в классификационной шкале [округлено до целых)
31 <- Среднее когеччесгео градаций в описательной шкале (округлено до целых]
вИО-модель -это модель, б которой принадлежность объектов обучающей выборки к классам делается случайной, как и признаки объектов. Для генерации случайный котов классов и признаков используется числовой генератор равномерно распределенных случайных чисел. При автоматическом определении параметров НМС.-мс-дели на основе текущей метели количество классов, признаков и объектов обучающей выборки в ИМО-модели будет таким же, как в текущей модели. Среднее количество классов, к которым относится объект обучающей еыборки и среднее количество признаков у него также бухет совпадать с этими характеристиками объектов обуч. выборки текущей модели.
Информацию об объектак обучающей выборки текущей мотели можно считать суммой полезной информации о ник [полезный сигнал) и шума. В РЫО-модели вся информация представляет собой шум Поэтому сравнение этих моделей, не отличающихся перечисленными параметрами, позволяет оценить влияние значимой информации и шума на результаты, в частности убедиться в наличии самой этой значимой информации, т.е закономерностей в предметной области, а также оценить эффективность различны« стат моделей и моделей знаний и интегральных критериев для выявления и исследования этой значимой информации, знаний и закономерностей. При увеличении объема обучающей выборки в ВМО-модели вероятность верной идентификации стремится к вероятности случайного угадывания, а в реальной модели к некоторому пределу, превосходящему вероятность случайного угадывания и характеризующему эффективность модели
Рисунок 15. Экранная форма управления созданием случайных моделей, совпадающих с текущей по размерностям основных баз данных
На рисунке 16 показано частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний в случайной модели INF4.
(*> 1 1.9. Част.ратр.ур.сх.в модели: 7. |'Л 4-чн: ш qjf ROI (Return Ón Investment); вероятности из PRC1 — □ X
15 ; ¡
14 13 I I
12 I 11 10
1 Л ' У S
I \Л1 там) Ц i I Т'УМДААЛ h к I
I
-100 90 -80 70 -60 -50 -40 -30 -20 -10 0 10 20 30 40 50 Б0 70 80 30 100
' Част распр ар ен ОШИБОЧНО паект м неиденшФ объектов ■ ■ Част распр ур.сх ВЕРНО жент и неидентиф объектов ............ Среднее медулей ур.сх.0ШИБ щент ^неийент.обье(<,тоЕ=10.1СЮ Среднее модуяейдо ск.ВЕРНО иаент.мнеидент.обьекто&=20.926
Рисунок 16. Частное распределение сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний в случайной
модели ШБ4
Совершенно очевидное различие частотных распределений уровней сходства-различия верно и ошибочно идентифицированных и неидентифицированных состояний объекта моделирования и случайной модели (рисунки 15 и 16) объясняется тем, что в реальных моделях кроме шума есть также и информация об истинных причинно-следственных взаимосвязях факторов и их значений с одной стороны, и состояниями объекта моделирования, которые ими обуславливаются, с другой стороны. Если же такой информации в модели нет, то и распределение получается типа, приведенного на рисунке 17.
На рисунке 17 приведены данные по достоверности статистических и когнитивных моделей, созданных на основе случайной выборки.
Рисунок 17. Достоверность статистических и когнитивных моделей, созданных на основе случайной выборки
На основе сравнения рисунка 17 с рисунком 12 можно сделать следующие выводы:
- достоверность лучшей модели ЮТ5, отражающей реальный объект моделирования, примерно на 28% выше, чем аналогичной случайной модели;
- различие между достоверностью статистических моделей и моделей знаний, созданных на основе случайной выборки, значительно меньше, чем у моделей, отражающих реальный объект моделирования;
- в реальных моделях кроме шума есть также и информация об истинных причинно-следственных взаимосвязях факторов и их значений с одной стороны, и состояниями объекта моделирования, которые ими обуславливаются, с другой стороны, причем примерно 1/3 достоверности обусловлена отражением в реальных моделях закономерностей предметной области, а 2/3 достоверности обусловлено наличием шума в исходных данных. На основании этого можно предположить, что в исходных данных уровень сигнала о реальных причинно-следственных
связях в моделируемой предметной области примерно в два раза ниже уровня шума.
2. РЕШЕНИЕ ЗАДАЧ ИДЕНТИФИКАЦИИ В НАИБОЛЕЕ ДОСТОВЕРНОЙ МОДЕЛИ
2.1. Решение задачи
В соответствии с технологией АСК-анализа зададим текущей модель ЮТ4 (режим 5.6) (рисунок 18) и проведем пакетное распознавание в режиме 4.2.1 (рисунок 19).
Рисунок 18. Экранные формы режима задания модели в качестве текущей
Рисунок 19. Экранная форма режима пакетного распознавания
в текущей модели
В результате пакетного распознавания в текущей модели создается ряд баз данных, которые визуализируются в выходных экранных формах, отражающих результаты решения задачи идентификации и прогнозирования.
Режим 4.1.3 системы «Эйдос» обеспечивает отображение результатов идентификации и прогнозирования в различных формах:
1. Подробно наглядно: "Объект - классы".
2. Подробно наглядно: "Класс - объекты".
3. Итоги наглядно: "Объект - классы".
4. Итоги наглядно: "Класс - объекты".
5. Подробно сжато: "Объект - классы".
6. Обобщенная форма по достоверности моделей при разных интегральных критериях.
7. Обобщенный статистический анализ результатов идентификации по моделям и интегральным критериям.
8. Статистический анализ результатов идентификации по классам, моделям и интегральным критериям.
9. Распознавание уровня сходства при разных моделях и интегральных критериях.
10.Достоверность идентификации классов при разных моделях и интегральных критериях.
Ниже кратко рассмотрим некоторые из них.
На рисунках 20 и 21 приведены примеры прогнозов высокой и низкой достоверности частоты и классов Ирисов в наиболее достоверной модели ШЕ4 на основе наблюдения предыстории их развития:
Рисунок 20. Пример идентификации классов ириса в модели ШБ4
[ (¿1 4.1.3.1. Визуализация результатов распознавания вотжл иении: "Объект-классы". Текущая модель: 4^4" -И- ¡1
Распознаваемые объекты Интегральный критерий сходства: "Семантический резонанс знаний"
II Код | Наим. объекта Код Наименование класса Сходство Сходство •
87 .87 ■ СЬА5 5-1 гюллгдт ¡са 85.54... у .................IIIIII..........1
88 88 1 Си55-1ге-5Й08а -30.36... ......IIIII
88 89 2 -70,53... ......IIII.......IIIIII......
90 90
91 .91
92 92
93 93
94 94
95 95
96 96 <1 п 1 ►г ■
97 97 Интегральный критерий сходства: "Сумма знаний
98 98 ! Кэд Наименование класса Сходство Ф... Сходство Л
98 99 С1_А5 5-1 гюллгдт ¡са 76,43... у
100 100 1 Си55-1ге-зй08а 3,251... III
101 101 2 СЬА53-1гв^е15ко1ог -36,77... ||||||||||||||||||||||||||||||||||||
102 102
103 103
104 104
105 105
106 106
107 -г
I Ч л н
|| Помощь | 9 классов | Классы с МахМю УрСх| 9 классс >в с МахМ»1 УрСх | ВСЕ классы | ВКЛ. Фильтр по класс.шкале ! | ВЫКЛ.Фильтр п окласс.шкале | ГраФ.диаграмма |
|-И
Рисунок 21. Пример идентификации классов ириса в модели ШБ4
2.2. Когнитивные функции
Рассмотрим режим 4.5, в котором реализована возможность визуализации когнитивных функций для любых моделей и любых сочетаний классификационных и описательных шкал (рисунок 22)
г—;--—;
Ф 4,5. Визуализация когнитивны к функШц
Что такое когнитивная Функция:
Визуализация прямых, обратный, позитивных, негагивных, попностью и частично редуцированных когнитивных Функций Когнитивная Функция представляет собой графическое огображение силы и направления впияния различных значений некоторого Фактора на переходы объекта управления в будущие состояния, соответствующие классам. Когнитивные Функции представляют собой новый перспективный инструмент отражения и наглядной визуализации закономерностей и эмпирических законов. Разработка содержательной научной интерпретации когнитивных Функций представляет собой способ познания природы, общества и челозека. Кошигивные Функции могут быть: прямые, отражающие зависимость классов от признаков, обобщающие информационные портреты признаков; обратные, отражающие зависимость признаков от классов, обобщающие информационные портреты классов; позитивные, показывающие чему способствуют система детерминации; негативные, отражающие чему препятствуют система детерминации; средневзвешенные, отражающие совокупное влияние всех значений Факторов на поведение объекта (причем в качестве весов наблюдений используется количество информации в значении эргуменга о значениях Функции) различной степенью редукции или степенью детерминации, которая отражает в графической Форме (в Форме полосы] количество знаний в аргументе о значении Функции и является аналогом и обобщением доверительного интервала. Если отобразить подматрицу матрицы знания отображая цветом силу и направление влияния каждой градации некоторой описательной шкалы на переход объекта в состояния, соответствующие классам некоторой классиФикационной шкалы то поручим нередуцированную когнитивную Функцию. Когнитивные Функции являются наиболее развитым средством изучения причинно-следственных зависимостей в моделируемой предметной области, предоставляемым системой "Эйдос". Необходимо отметить, ¡ггв на вид функций влияния математической моделью СК-анализа не накладывается никаких ограничений, б частности, они могут быгь и не дифференцируемые. См.. Луценко Е.В. Метод визуализации когнитивных Функций - новый инструмент исследования эмпирических данных большой размерности / Е В. Луценко, А П Трунев. Д.К Бандык // Полктематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ. 2011. -№03(87) С. 240 - 282. - Шифр Информрегистрэ: 0421100012\0077. , 2,888 у.п.л. - Режим доступа. 11Кц://е|. kubagio.ru/2011 ,'03/рсКЛ 8.рс!Г
I Задайте нужный режим:
Визуализации когнитивных функций Скачать подборку публикаций по когнитиеным Функциям
Литератур.ссылки на статьи по когнитивным Функциям Скачать подборку публикаций по управлению знаниями
Рисунок 22. Экранная форма режима 4.5 системы «Эйдос-Х++» «Визуализация когнитивных функций»
Применительно к задаче, рассматриваемой в данной работе, когнитивная функция показывает, какое количество информации содержится в различных значениях факторов о том, что объект моделирования перейдет в те или иные будущие состояния. Когнитивным функциям посвящено много работ автора, но наиболее новой и обобщающей из них является работа [11]. Поэтому здесь не будем
останавливаться на описании того, что представляют собой когнитивные функции в АСК-анализе. На рисунке 23 приведены визуализации всех когнитивных функций данного приложения для модели ЮТ3.
Рисунок 23. Визуализация когнитивных функций для обобщенных классов и всех описательных шкал для модели Г№Р3
2.3. SWOT и PEST матрицы и диаграммы
SWOT-анализ является широко известным и общепризнанным методом стратегического планирования. Однако это не мешает тому, что он подвергается критике, часто вполне справедливой, обоснованной и хорошо аргументированной. В результате критического рассмотрения SWOT-анализа выявлено довольно много его слабых сторон (недостатков), источником которых является необходимость привлечения экспертов, в частности для оценки силы и направления влияния факторов. Ясно, что эксперты это делают неформализуемым путем (интуитивно), на основе своего профессионального опыта и компетенции. Но возможности экспертов имеют свои ограничения и часто по различным причинам они не могут и не хотят это сделать. Таким образом, возникает проблема проведения SWOT- анализа без привлечения экспертов. Эта проблема может решаться путем автоматизации функций экспертов, т. е. путем измерения силы и направления влияния факторов непосредственно на основе эмпирических данных. Подобная технология разработана давно, ей уже около 30 лет, но она малоизвестна - это интеллектуальная система «Эйдос». Данная система всегда обеспечивала возможность проведения количественного автоматизированного SWOT-анализа без использования экспертных оценок непосредственно на основе эмпирических данных. Результаты SWOT-анализа выводились в форме информационных портретов. В версии системы под MS Windows: «Эйдос-Х++» предложено автоматизированное количественное решение прямой и обратной задач SWOT-анализа с построением традиционных SWOT-матриц и диаграмм (рисунок 24).
Рисунок 24. Пример 8ШОТ-матрицы в модели ЮТ3
На рисунке 25 приведены примеры инвертированной 8ШОТ-матрицы и инвертированной 8ШОТ-диаграммы в модели ЮТ3.
Рисунок 25. Пример 8ШОТ-матрицы в модели ЮТ4 ШфУ/д .kubagro.ru/2016/09/pdf/121.pdf
ЗАКЛЮЧЕНИЕ
Так как существует множество систем искусственного интеллекта, то возникает необходимость сопоставимой оценки качества их математических моделей. Одним из вариантов решения этой задачи является тестирование различных системы на общей базе исходных данных, для чего очень удобно использовать общедоступную базу репозитория UCI. В данной работе приводится развернутый пример использования базы данных репозитория UCI для оценки качества математических моделей, применяемых в АСК-анализе и его программном инструментарии системе искусственного интеллекта «Эйдос». При этом наиболее достоверной в данном приложении оказались модели INF4 и INF5 при интегральном критерии «Резонанс знаний». Точность модели составляет 0,968, что заметно выше, чем достоверность экспертных оценок, которая считается равной около 70%. Для оценки достоверности моделей в АСК-анализе и системе «Эйдос» используется F-мера Ван Ризбергена и ее нечеткое мультиклассовое обобщение L-мера, предложенная проф.Е.В.Луценко [10].
На основе базы данных UCI, рассмотренной в данной работе, построить модели прогнозирования не с помощью АСК-анализа и реализующей его системы «Эйдос», а с применением других математических методов и реализующих их программных систем, то можно сопоставимо сравнить их качество.
ЛИТЕРАТУРА
1. Луценко Е.В. Методика использования репозитория иС1 для оценки качества математических моделей систем искусственного интеллекта / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: http://lc.kubagro.ru/My_training_schedule.doc
КубГАУ, 2003. - №02(002). С. 120 - 145. - IDA [article ID]: 0020302012. - Режим доступа: http://ej.kubagro.ru/2003/02/pdf/12.pdf, 1,625 у.п.л.
2. Луценко Е.В. АСК-анализ, моделирование и идентификация живых существ на основе их фенотипических признаков / Е.В. Луценко, Ю.Н. Пенкина // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: Куб- ГАУ, 2014. - №06(100). С. 1346 - 1395. - IDA [article ID]: 1001406090. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/90.pdf, 3,125 у.п.л.
3. Луценко Е.В. Теоретические основы, технология и инструментарий автоматизированного системно-когнитивного анализа и возможности его применения для сопоставимой оценки эффективности вузов / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрно- го университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: Куб- ГАУ, 2013. - №04(088). С. 340 - 359. - IDA [article ID]: 0881304022. - Режим доступа: http://ej.kubagro.ru/2013/04/pdf/22.pdf, 1,25 у.п.л.
4. Луценко Е.В. Автоматизированный системно-когнитивный анализ в управлении активными объектами (системная теория информации и ее применение в исследовании экономических, социально-психологических, технологических и организационно-технических систем): Монография (научное издание). - Краснодар: КубГАУ. 2002. - 605 с.
5. Репозиторий UCI [Электронный ресурс]. Статья "Iris Data Set": http://archive.ics.uci.edu/ml/datasets/Iris, свободный. - Загл. с экрана. Яз. анг.
6. Сайт профессора Е.В.Луценко [Электронный ресурс]. Режим доступа: http://lc.kubagro.ru/, свободный. - Загл. с экрана. Яз. рус.
7. Луценко Е.В. 30 лет системе «Эйдос» - одной из старейших отечественных универсальных систем искусственного интеллекта, широко применяемых и развивающихся и в настоящее время / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2009. -№10(054). С. 48 - 77. - Шифр Информрегистра: 0420900012\0110, IDA [article ID]: 0540910004. - Режим доступа: http://ej.kubagro.ru/2009/10/pdf/04.pdf, 1,875 у.п.л.
8. Луценко Е.В. Универсальная когнитивная аналитическая система «Эйдос-Х++» / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2012. - №09(083). С. 328 - 356. - IDA [article ID]: 0831209025. - Режим доступа: http://ej.kubagro.ru/2012/09/pdf/25.pdf, 1,812 у. п. л.
9. Луценко Е.В., Боровко А.Ю. Прогнозирование количества и классов солнечных вспышек на основе их предыстории по данным репозитория UCI с применением АСК-анализа и интеллектуальной системы «Эйдос» // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - IDA [article ID]: 0831209025. - Режим доступа: http://ej.kubagro.ru/2014/10/pdf/99.pdf
10. Луценко Е.В. Нечеткое мультиклассовое обобщение классической F-меры достоверности моделей Ван Ризбергена в АСК-анализе и системе «Эйдос» / Луценко Е.В. // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2016. - №09(123). - Режим доступа:
http://ej.kubagro.ru/2016/09/pdf/01.pdf, 1,813 у.п.л. - IDA [article ID]: 1221608001. http://dx.doi.org/10.21515/1990-4665-123-001
11. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с. ISBN 978-594672-757-0. http://elibrary.ru/item.asp?id=21358220
LITERATURA
1. Lucenko E.V. Metodika ispol'zovanija repozitorija UCI dlja ocenki kachestva matematicheskih modelej sistem iskusstvennogo intellekta / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: http://lc.kubagro.ru/My_training_schedule.doc
KubGAU, 2003. - №02(002). S. 120 - 145. - IDA [article ID]: 0020302012. -Rezhim dostupa: http://ej.kubagro.ru/2003/02/pdf/12.pdf, 1,625 u.p.l.
2. Lucenko E.V. ASK-analiz, modelirovanie i identifikacija zhivyh sushhestv na osnove ih fenotipicheskih priznakov / E.V. Lucenko, Ju.N. Penkina // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: Kub- GAU, 2014. -№06(100). S. 1346 - 1395. - IDA [article ID]: 1001406090. - Rezhim dostupa: http://ej.kubagro.ru/2014/06/pdf/90.pdf, 3,125 u.p.l.
3. Lucenko E.V. Teoreticheskie osnovy, tehnologija i instrumentarij avtomati-zirovannogo sistemno-kognitivnogo analiza i vozmozhnosti ego primenenija dlja sopostavimoj ocenki jeffektivnosti vuzov / E.V. Lucenko, V.E. Korzhakov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarno- go universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: Kub- GAU, 2013. - №04(088). S. 340 - 359. - IDA [article ID]: 0881304022. - Rezhim dostupa: http://ej.kubagro.ru/2013/04/pdf/22.pdf, 1,25 u.p.l.
4. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social'no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdanie). - Krasnodar: KubGAU. 2002. - 605 s.
5. Repozitorij UCI [Jelektronnyj resurs]. Stat'ja "Iris Data Set": http://archive.ics.uci.edu/ml/datasets/Iris, svobodnyj. - Zagl. s jekrana. Jaz. ang.
6. Sajt professora E.V.Lucenko [Jelektronnyj resurs]. Rezhim dostupa: http://lc.kubagro.ru/, svobodnyj. - Zagl. s jekrana. Jaz. rus.
7. Lucenko E.V. 30 let sisteme «Jejdos» - odnoj iz starejshih otechestvennyh universal'nyh sistem iskusstvennogo intellekta, shiroko primenjaemyh i razvivajushhihsja i v nastojashhee vremja / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2009. - №10(054). S. 48 - 77. - Shifr Informregistra: 0420900012\0110, IDA [article ID]: 0540910004. - Rezhim dostupa: http://ej.kubagro.ru/2009/10/pdf/04.pdf, 1,875 u.p.l.
8. Lucenko E.V. Universal'naja kognitivnaja analiticheskaja sistema «Jejdos- H++» / E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2012. - №09(083). S. 328 - 356. - IDA [article ID]: 0831209025. -Rezhim dostupa: http://ej.kubagro.ru/2012/09/pdf/25.pdf, 1,812 u.p.l.
9. Lucenko E.V., Borovko A.Ju. Prognozirovanie kolichestva i klassov solnechnyh vspyshek na osnove ih predystorii po dannym repozitorija UCI s primeneniem ASK-analiza i intellektual'noj sistemy «Jejdos» // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal
Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - IDA [article ID]: 0831209025. -Rezhim dostupa: http://ej.kubagro.ru/2014/10/pdf/99.pdf
10. Lucenko E.V. Nechetkoe mul'tiklassovoe obobshhenie klassicheskoj F-mery dostovernosti modelej Van Rizbergena v ASK-analize i sisteme «Jejdos» / Lucenko E.V. // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2016. - №09(123). - Rezhim dostupa: http://ej.kubagro.ru/2016/09/pdf/01.pdf, 1,813 u.p.l. - IDA [article ID]: 1221608001. http://dx.doi.org/10.21515/1990-4665-123-001
11. Orlov A.I., Lucenko E.V. Sistemnaja nechetkaja interval'naja matematika. Monografija (nauchnoe izdanie). - Krasnodar, KubGAU. 2014. - 600 s. ISBN 978-5-94672757-0. http://elibrary.ru/item.asp?id=21358220