ISSN 0321-2653 ИЗВЕСТИЯ ВУЗОВ. СЕВЕРО-КАВКАЗСКИЙ РЕГИОН.
ТЕХНИЧЕСКИЕ НАУКИ. 2018. № 2
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE. 2018. No 2
УДК 519.95 DOI: 10.17213/0321-2653-2018-2-14-18
ИСПОЛЬЗОВАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ С ЦЕЛЬЮ РЕДУКЦИИ ПАРАМЕТРОВ ВЫБОРКИ
© 2018 г. О.В. Сташкова
Брянский государственный технический университет, г. Брянск, Россия
USE OF ARTIFICIAL NEURAL NETWORKS FOR REDUCTION OF THE SAMPLE PARAMETERS
O. V. Stashkova
Bryansk State Technical University, Bryansk, Russia
Сташкова Ольга Витальевна - аспирант, Брянский государственный технический университет, г. Брянск, Россия. E-mail: stashkova.ola@mail.ru
Stashkova Olga Vitalievna - post-graduate Student, Bryansk State Technical University, Bryansk, Russia. E-mail: stashkova.ola@mail.ru
Обоснована необходимость в определении информативности факторов с целью последующего сокращения неинформативных. Наряду с классическими методами сокращения факторного пространства рассмотрены современные методы интеллектуального анализа данных, такие как «Дерево решений», «Искусственные нейронные сети» для решения поставленной задачи. Используя возможности пакета прикладных программ Matlab, смоделированы такие искусственные нейронные сети, как сеть радиально базисных функций, обобщенно-регрессионная нейронная сеть, многослойный персептрон. Параллельно описана возможность использования ИНС для восстановления пропущенных значений в наборе исходных данных.
Для определения значимости признаков был выбран метод фиксирования. В работе представлен алгоритм фиксирования и ранжирования признаков для исходного набора данных по N признакам.
Приведены результаты сравнительного анализа работы нескольких ИНС, метода интеллектуального анализа данных «Дерево решений» на наборе тестовых данных: на наборе данных, который был сгенерирован псевдослучайным образом. Представленные результаты доказывают преимущество ней-росетевого моделирования для решения задач сокращения факторного пространства, несмотря на малый размер выборки.
Продемонстрированы результаты апробации предложенного подхода на реальных данных технологического процесса по возделыванию озимых сортов пшеницы, полученных в рамках пассивного эксперимента. Выполнена проверка качества сокращения данных, которая заключается в сравнении полученных результатов с мнением экспертов.
Ключевые слова: сокращение факторного пространства; искусственные нейронные сети; пассивный эксперимент; массив исходных данных.
The article substantiates the need of determining the informative nature of factors following reduction of non-informational factors. Along with classical methods of reducing factor space, modern methods of data mining, such as «Decision tree», «Artificial neural networks», are considered to solve the task. Using the capabilities of the Matlab application software package, such artificial neural networks as a network of radially basic functions, a generalized regression neural network, a multilayer perceptron are modeled. In parallel, the possibility of using ANN to recover missing values in a set of initial data is described.
To determine the significance of the signs, the fixing method was chosen. The algorithm of fixing and ranking characteristics for the initial data set according to N characteristics is presented.
The results of a comparative analysis of the operation of several ANNs, the data mining method "Decision tree" on a set of test data are presented: on a data set that was generated in a pseudo-random manner. The presented results prove the advantage of neural network modeling for solving the problems of factorial space reduction, despite the small sample size.
The results of approbation of the proposed approach on the actual data of the technological process for cultivating winter wheat varieties obtained within the framework of the passive experiment are demonstrated. The quality of the data reduction was checked, which consists in comparing the results with the experts' opinion
Keywords: reduction of factor space; artificial neural networks; passive experiment; an array of initial data.
Введение
Современная наука занимается вопросами анализа сложных процессов и явлений, протекающих в различных предметных областях. Данному анализу предшествует процесс формирования базы экспериментальных данных. Данные, полученные в рамках активного или пассивного эксперимента, составляют следующие группы факторов: факторы, не допускающие их целенаправленного изменения в ходе исследования; управляемые факторы, с помощью которых реализуются заданные условия работы объекта; неконтролируемые входные или независимые факторы. Однако данная совокупность может содержать ряд малозначимых факторов, использование которых отрицательно сказывается на результате исследования: усложняет исследуемый процесс. Поэтому возникает необходимость в определении информативности факторов с целью последующего сокращения неинформативных.
Вопросами редукции данных занимается раздел многомерного статистического анализа -факторный анализ, в частности метод главных компонент. Однако наряду с классическими методами сокращения факторного пространства наибольшую популярность набирают современные методы интеллектуального анализа данных, такие как «Дерево решений», «Искусственные нейронные сети» и др.
Постановка задачи
Пусть дана таблица данных, содержащая результаты контрольных измерений параметров одного типа некоего технологического процесса, причем Par1..Par61 - параметры, которые являются входными факторами (Х1 - Xбl). Такая таблица представляет собой многомерную (^-мерную) выборку. Каждый столбец этой таблицы является одномерной выборкой случайной величины X, полученной в результате N независимых экспериментов.
В данной таблице, естественно, есть искажённые значения, пропуски, а также малоинформативные факторы. Всё это может привести к нерациональному подходу к решению поставленной перед исследователем задачи или искажению результатов исследования в целом.
Необходимо исследовать возможность сокращения неинформативных факторов в исходной таблице данных с использованием искусственной нейронной сети.
Теоретическая часть
В процессе анализа существующих методов сокращения факторного пространства было принято решение попытаться выявить значимые факторы с помощью искусственной нейронной сети (ИНС), которая применяется для решения задач следующего типа [1, 2]:
- классификация образов;
- аппроксимация функций;
- кластеризация;
- ассоциативная память;
- оптимизация;
- управление.
На основе пакета прикладных программ Matlab для решения задачи сокращения факторного пространства были смоделированы следующие искусственные нейронные сети [3]:
1. Сеть радиально базисных функций.
2. Обобщенно-регрессионная нейронная
сеть.
3. Многослойный персептрон.
Для определения значимости признаков был выбран метод фиксирования. Он основан на том, что если признак является избыточным для набора примеров, то фиксация значения соответствующего входа сети не будет существенно ухудшать значение целевой функции обученной нейронной сети по сравнению с реальными значениями данного признака для того же набора примеров.
Эта гипотеза может быть определена по-другому: чем большей значимостью обладает признак при фиксации входа сети для данного признака на уровне среднего, тем больше его негативное воздействие на целевую функцию обученной нейронной сети.
Фиксирование и ранжирование признаков для исходного набора данных по N признакам Х1 - Хб1 с конечным числом выходных классов предлагается осуществлять на основе следующего алгоритма:
1. Обучить искусственную нейронную сеть на обучающем наборе данных;
2. Проверить сеть с помощью тестового набора данных, содержащего экземпляров;
3. Вычислить среднее значение каждого входа сети на наборе данных:
— 1 5 с
х. = - -У х, , г = 1,2,..., N
I О У г ' 5 5 5 5
5 5 =1
4. Фиксировать каждый вход по очереди,
5 _
т.е. заменить х5 на х для всех тестовых дан-
ных, затем подать на вход сети набор тестовых данных и вычислить значения целевой функции;
5. Выполнить симуляцию работы сети на наборе изменённых данных и вычислить значения ошибки работы сети для указанного набора. Вычисление ошибки происходит с помощью специальной функции, которая определяет, насколько выходные значения нейронной сети отличаются от целевых;
6. Упорядочить значение ошибки в порядке убывания. Большее значение ошибки показывает, что признак XI является более значимым и оказывает более сильное воздействие на выход сети.
Практический результат
Данный алгоритм был реализован средствами интерактивной среды программирования МаЛаЪ в виде законченного комплекса программ. Основные функции, выполняемые программным продуктом:
- создание и обучение искусственной нейронной сети;
- восстановление пропущенных значений в данных нейросетевым методом [4];
- вычисление оптимального количества параметров, которые останутся после сокращения на основе критериев Кайзера или Кэттеля, определение их информативности, графическое отображение результатов;
- сокращение факторного пространства.
Доступный пользователям функционал в
виде Е^-диаграммы представлен на рис. 1.
Программный продукт тестировался на наборе данных, который был сгенерирован псевдослучайным образом. Пусть дана линейная функция У(ХЬ Х2, Х3, Х4, Х5) = а1Х1 + а2Х2 + а3Х3 + +а4Х4 +а5Х5, где Х] - величина, полученная случайным образом; а, - массив постоянных величин от 1 до 5. Значение выходного параметра находится как сумма расчётного значения У и приращения Ау, также найденного случайным образом. Фрагмент тестовой выборки представ-
лен в табл. 1, в которую был искусственно добавлен параметр X0, который не влияет на результат Y. Необходимо доказать, что данный параметр обладает минимальной информативностью, т.е. его влияние на результат стремится к нулю.
Таблица 1 / Table 1
Таблица тестовых данных / Test data table
Xo X X X3 X4 X5 Y
1 0,7223731 0,2341 -8,45576 -3,7291 -8,462 -81,8073519
2 -8,863491 4,9187 9,503769 -3,0253 3,8432 36,4349345
3 6,5135655 5,3056 8,63094 9,2279 -3,318 63,0879086
4 -6,320078 -6,697 6,481826 9,1131 9,79 85,602298
5 6,8456069 -5,967 0,561235 -2,7622 6,8145 19,9952239
6 4,0995514 9,6985 4,048891 7,0385 -8,502 20,9023255
50 -0,105289 -5,713 -0,68392 -0,7486 5,4607 10,4799188
Информативность признаков была рассчитана методом «Дерево решений» [5] и с помощью искусственных нейронных сетей. Программным продуктом рекомендовано оптимальное количество параметров, равное трём. Результаты расчёта информативности методом нейро-сетевого моделирования представлены в табл. 2.
Таблица 2 / Table 2
Результаты нейросетевого моделирования / Neural network modeling results
Искусственные нейронные сети
GRNN RBE RB MLP/2
% ин № % № % № %
Х5 22,2958 Х5 43,3975 Х5 43,3975 Х5 30,6307
Х4 18,8248 Х4 24,5274 Х4 24,5274 Х4 29,3825
Х2 16,2130 Х2 9,8255 Х2 9,5282 Х2 11,2952
X 14,8879 X 8,1071 X 8,1071 X 11,0556
Х3 14,0827 Х3 7,8834 Х3 27,8834 Х3 9,6403
13,6957 6,5564 6,5564 7,1199
Рис. 1. Диаграмма прецедентов пользователя / Fig. 1. Diagram of user's precedents
В результате использования алгоритма «Дерево решений» на тестовых данных для выявления информативности установлено, что все параметры Х в том числе искусственно добавленные, обладают одинаковой информативностью 5,6439 %. В свою очередь каждая из нейронных сетей показала минимальный процент информативности параметра параметр X0. Представленные результаты очевидно доказывают преимущество нейросетевого моделирования для решения задач сокращения факторного пространства, несмотря на малый размер выборки.
Полученные результаты были апробированы на реальных данных процесса возделывания озимых сортов пшеницы, представленных в виде матрицы размерности 63 столбца (параметр) на 217 строк (количество экспериментов), полученных в ходе пассивного эксперимента (табл. 3).
Таблица 3 / Table 3 Исходная таблица данных процесса / Initial Process Data Table
Par1 Par2 Par 10 Par39 Par40 Par63 Y
1 269 4 46 38,7 12,5 2
1 275 4 65 33,7 12,6 2,93
2 314 4 64 40,9 15 2,44
3 326 4 61 37 12,4 1,25
4 314 3 58 51 12,5 2,7
5 332 4 84 22,6 7,8 2
6 324 3 84 26,5 10,3 2,6
7 274 3 78 32,5 8,3 2,5
8 285 4 84 35,5 8,6 2,5
8 263 3 83 40,5 0 1,7
Для формирования данной таблицы была проведена работа с архивными документами гидрометеорологических служб Республики Молдова и Приднестровской Молдавской Республики: собраны агрометеорологические сведения по возделыванию озимых культур с 2000 по 2016 гг. Исходная база данных представлена следующими группами факторов: технологические, агроклиматические и почвенные. Сведения были собраны по двадцати агрометеорологическим постам и семнадцати метеорологическим станциям [б]. Полученные в результате обработки архивных документов данные были подвергнуты анализу и корректировке. Во-первых, удалены строки, в которых отсутствовало значение выходного параметра (урожайности, У), а также строки и столбцы, где количество
«пустот» было более 50 %. Во-вторых, данные типа «дата» и «символьные значения» были преобразованы в числовые, которые являются оптимальными для работы ИНС.
По имеющимся данным эксперты выразили своё мнение относительно важности того или иного параметра. Проверка качества сокращения данных заключается в сравнении наиважнейших признаков, которые выдала сеть, с признаками, которые выделили эксперты.
Для начала стоит отметить, что все выбранные для решения поставленной задачи нейронные сети показали результат лучше, чем линейный метод главных компонент. Результатом работы метода главных компонент является совпадение всего лишь 11 из возможных 38 параметров. Данный результат считается неприемлемым, так как это всего лишь 30 % совпадений.
Наихудшие результаты среди использованных нейронных сетей показали сети ОЕКЫ и ЕВЕ: 20 и 25 совпадений из 38 возможных соответственно. Объясняется это тем, что у данных сетей для настройки доступен всего один параметр - распределение. Для сети ОЕЖЫ наилучшим значением распределения для данного набора данных является 0,35, для ЕВЕ - 1,7.
Следующей была протестирована сеть с радиально-базисными элементами. Данная сеть показала более приемлемые результаты, чем предыдущие две, и при правильном указании значения распределения количество совпадений достигало 28-го, что равно 73 %. При этом процесс обучение сети ЕВ длится около минуты.
Последней протестированной сетью был многослойный персептрон с двумя скрытыми слоями. У данной сети имеется большое количество параметров настройки, что делает её более мобильной для любого набора данных. Данная сеть показала наилучший результат среди использованных нейронных сетей - 35 совпадений из возможных 38. Процент совпадений с мнением экспертов в данном случае достигает практически 92 %. В зависимости от выбранных параметров длительность обучения данной сети может превышать 10 мин. Все полученные результаты отображены в табл. 4.
В результате сравнительного анализа было выявлено, что для решения задачи сокращения факторного пространства могут быть использованы алгоритмы, построенные на базе искусственных нейронных сетей, при этом наиболее подходящей сетью является многослойный пер-септрон с двумя скрытыми слоями.
ISSN 0321-2653 ИЗВЕСТИЯ ВУЗОВ. СЕВЕРО-КАВКАЗСКИЙ РЕГИОН.
ТЕХНИЧЕСКИЕ НАУКИ. 2018. № 2
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE. 2018. No 2
Таблица 4 / Table 4 Литература
Сравнительная характеристика моделей / Comparative characteristics of models
Тип НС - модели Ошибка сети Количество совпадений Скрытые слои
PCA (метод главных компонент) - 11 -
GRNN (обобщенная регрессия) 0,4751 20 1
RBE (на базе радиальной функции) 0 25 1
RB (радиально-базисная функция) 0,2546 28 1
MLP (многослойный персептрон) 1,0375 35 2
Заключение
В статье предложен подход к сокращению факторного пространства методом искусственных нейронных сетей. Выполнен сравнительный анализ работы различных ИНС для решения поставленной задачи. Рассмотрен пример реализации подхода на данных технологического процесса, причем с их предварительным анализом и восстановлением пропусков также нейросетевым методом. Необходимо отметить достаточную точность работы ИНС.
1. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Network. 1989. Vol. 2. P. 366.
2. Neural Network Software, About Neuro Solutions. URL: http://www.neuroproject.ru/aboutproduct.php (дата обращения 27.12.2017).
3. Сташкова О.В., Аверченков А.В. Моделирование искусственных нейронных сетей для решения задач факторного анализа // Инновации в промышленности, управлении и образовании. Сб. науч. тр. междунар. науч.-практ. конф. Брянск: БГТУ, 2017. С. 117 - 120.
4. Сташкова О.В., Шестопал О.В. Использование искусственных нейронных сетей для восстановления пропусков в массиве исходных данных // Изв. вузов. Сев.-Кавк. регион. Техн. науки. 2017. № 1 (193). С. 37 - 43.
5. Сташкова О.В., Гарбузняк Е.С. Определение информативности показателей при факторном анализу данных // Прикладная математика и информатика: современные исследования в области естественных и технических наук. Сб. материалов III науч.-практ. всерос. конф. (школы-семинара) молодых ученых. Тольятти: Тольяттинский государственный университет, 2017. С. 550 - 553.
6. Сташкова О.В. Математическое моделирование в сельском хозяйстве: формирование исходной базы данных и её анализ. Математические методы и информационные технологии управления в науке, образовании и правоохранительной сфере: // Сб. мат. Всерос. науч.-техн. конф. / Московский гос. техн. ун-т им. Н.Э. Баумана; Академия ФСИН России, Рязанский гос. ун-т им. С.А. Есенина. 2017. С. 163 - 165.
References
1. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators. Neural Network, 1989, Vol. 2, 366 p.
2. Neural Network Software, About Neuro Solutions. Available at: http://www.neuroproject.ru/aboutproduct.php. (accessed 27.12.2017).
3. Stashkova O.V., Averchenkov A.V. [Modeling of artificial neural networks for solving the problems of factor analysis ]. Sb. Nauch. tr. Mezhdunar. nauch-prakt. konf. "Innovatsii v promyshlennosti, upravlenii i obrazovanii" [Collection of proceedings of the international scientific and practical conference "Innovations in industry, management and education"]. Bryansk: FGBOU VO "BGTU", 2017, pp. 117 - 120. (In Russ.).
4. Stashkova O.V., Shestopal O.V. Ispol'zovanie iskusstvennykh neironnykh setei dlya vosstanovleniya propuskov v massive iskhodnykh dannykh [Use Artificial Neural Networks for Restoration of Initial Data Array]. Izv. vysov. Sev.-Kavk.i region. Tekhn. nauki, 2017, no. 1(193), pp. 37 - 43. (In Russ.).
5. Stashkova O.V., Garbuznyak E.S. [Determining the informative value of indicators for factor analysis of data ] Opredelenie informativnosti pokazatelei pri faktornom analizu dannykh. Sb. materialov III nauch.-prakt. vseros. Konf. (shkoly-seminara) molodykh uchenykh "Prikladnaya matematika i informatika: sovremennye issledovaniya v oblasti estestvennykh i tekhnicheskikh nauk" [Sat. materials of the III scientific-practical All-Russian conference (school-seminar) of young scientists "Applied Mathematics and Informatics: Modern Research in the Field of Natural and Technical Sciences"]. Tol'yatti: Tol'yattinskii gosudarstvennyi universitet, 2017, pp. 550 - 553. (In Russ.).
6. Stashkova O.V. [Mathematical modeling in agriculture: the formation of the original database and its analysis ] Matematicheskoe modelirovanie v sel'skom khozyaistve: formirovanie iskhodnoi bazy dannykh i ee analiz. Sb. mat. Vseros. nauch.-tekhn. konf. "Matematicheskie metody i informatsionnye tekhnologii upravleniya v nauke, obrazovanii ipravookhranitel'noi sfere" [Collection of materials of the All-Russian Scientific and Technical Conference "Mathematical Methods and Information Technologies of Management in Science, Education and Law Enforcement"]. Moskovskii gosudarstvennyi tekhnicheskii universitet imeni N.E. Baumana, Akademiya FSIN Rossii, Ryazanskii gosudarstvennyi universitet imeni S.A. Esenina, 2017, pp. 163 - 165. (In Russ.).
Поступила в редакцию /Receive Q? февраля 2Q1S г. /February Q?, 2Q1S