Научная статья на тему 'Исследование влияния предварительной обработки данных и параметров настройки нейронной сети на эффективность ее работы'

Исследование влияния предварительной обработки данных и параметров настройки нейронной сети на эффективность ее работы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
295
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННАЯ СЕТЬ / ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ / МЕТОДЫ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ / NEURAL NETWORK / DATA PREPROCESSING / DATA PRE-PROCESSING METHODS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шапошникова Н.В., Ганжа Я.С.

Рассматриваются методы предварительной обработки данных, исследуется их влияние на эффективность работы нейронной сети.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шапошникова Н.В., Ганжа Я.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF INFLUENCE OF DATA PREPROCESSING AND NEURAL NETWORK TUNING PARAMETERS ON THE EFFICIENCY OF IT IS WORK

This article describes the methods of data pre-processing, study their impact on the overall performance of the neural network.

Текст научной работы на тему «Исследование влияния предварительной обработки данных и параметров настройки нейронной сети на эффективность ее работы»

УДК 519.711.3

ИССЛЕДОВАНИЕ ВЛИЯНИЯ ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ ДАННЫХ И ПАРАМЕТРОВ НАСТРОЙКИ НЕЙРОННОЙ СЕТИ НА ЭФФЕКТИВНОСТЬ ЕЕ РАБОТЫ

Н. В. Шапошникова1, Я. С. Ганжа2 Научный руководитель - Л. В. Липинский

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-шаЛ: ^ИартпеЩуаМех.ги, 2уапауаю@уаМех.ги

Рассматриваются методы предварительной обработки данных, исследуется их влияние на эффективность работы нейронной сети.

Ключевые слова: нейронная сеть, предварительная обработка данных, методы предварительной обработки данных.

RESEARCH OF INFLUENCE OF DATA PREPROCESSING AND NEURAL NETWORK TUNING PARAMETERS ON THE EFFICIENCY OF IT IS WORK

N. V. Shaposhnikova1, Y. S. Ganzha2 Scientific supervisor - L. V. Lipinskiy

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: 1hapninel@yandex.ru, 2yanavaio@yandex.ru

This article describes the methods of data pre-processing, study their impact on the overall performance of the neural network.

Keywords: neural network, data preprocessing, data pre-processing methods.

Введение. В настоящее время нейросетевые технологии широко применяются в различных областях человеческой деятельности. Нейронная сеть (НС) обладает главным преимуществом: самообучение. Данное свойство позволяет НС справляться со сложные задачи, которые на сегодняшний день считаются трудоемкими.

Однако эффективность ее работы напрямую зависит от формы представления данных, содержания и так далее. Именно для этого существуют методы предварительной обработки, которые позволяют существенно улучшить входные данные и упростить процесс обучения. По этой причине актуально исследовать современные методы, которых часто используются при работе с НС.

Любые методы обработки данных, так или иначе, используются для структурирования и анализа существующей информации [1]. Задач по анализу информации много, однако, мы рассмотрим методы, которые эффективно работают для решения задач по структурированию данных [1].

Метод сглаживания эмпирических данных, то есть замена данной таблицы опытных точек другой таблицей близких точек, лежащих на достаточно гладкой кривой [2]. Сглаживание производится с помощью многочленов, приближающих по методу наименьших квадратов выбранные группы опытных точек [2]. Для нелинейных зависимостей, близких к параболическим

или содержащих отрезки парабол, нелинейное сглаживание гораздо более эффективно, чем линейное. Тем не менее, и здесь гладкость кривой сглаживания невелика [2]. Формулы сглаживания многочленами более высоких степеней почти не применяются, а формулы сглаживания по большему числу точек применяются крайне редко, так как они оставляют плохо сглаженными слишком большое количество точек по краям таблицы [2].

Данный метод имеет следующие недостатки: чувствительность к ошибкам, неустойчивость к выбросам, формулы неудобны для расчетов, с помощью этого метода относительно точный результат достигается медленно и имеет большую погрешность. Достоинства метода: простота и не сложная техническая реализация [2]. В целом сглаживание - эффективный инструмент предварительной обработки исходных данных. Затем можно использовать более тонкие методы их обработки [2].

Метод масштабирования. Масштабирование заключается в умножении передаваемое значение на фактор масштабирования и добавлении некоторого смещения. Механизм ограничения гарантирует то, что результат масштабирования не превысит верхнюю или нижнюю границу. Это ограничение - еще одно дополнение к тем жестким ограничениям, которые накладывает передаточная функция [3]. Масштабирование (нормализация) входных данных - это процесс,

Решетневские чтения. 2018

при котором все входные данные проходят процесс «выравнивания», то есть приведения к интервалу [0,1] или [-1,1] [4]. Если не провести нормализацию, то входные данные будут оказывать дополнительное влияние на нейрон, что приведет к неверным решениям. В общем виде формула нормализации (1) выглядит так [4]:

x — x

max min

где x - значение, подлежащее нормализации; xmax — xmin - интервал значений x; [d2; d1] - интервал, к которому будет приведено значение x.

Метод факторного анализа. В случае наличия большого числа параметров (более 100) имеет смысл сгруппировать параметры и анализировать уже не каждый параметр в отдельности, а группы параметров как единый комплексный параметр (фактор) [5]. В основе факторного анализа лежит идея о том, что за сложными взаимосвязями явно заданных признаков стоит относительно более простая структура, отражающая наиболее существенные черты изучаемого явления, а «внешние» признаки являются функциями скрытых общих факторов, определяющих эту структуру [5].

Применение факторного анализа позволяет: уменьшать (редуцировать) число рассматриваемых параметров, находить осмысленные группы параметров,

каждая из которых будет являться одним самостоятельным параметром. Спецификой этого метода является то, что при объединении параметров в факторы каждый фактор аккумулирует в себе общие закономерности во всех параметрах, отбрасывая особенности каждого параметра в отдельности. Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических корреляций между наблюдаемыми переменными.

Основные цели факторного анализа: определение взаимосвязей между переменными, (классификация переменных), то есть «объективная Я-класси-фикация», сокращение числа переменных необходимых для описания данных [5].

Анализ влияния методов предварительной обработки данных и параметров НС был осуществлен в разработанной программной системе. Для исследования эффективности разработанного подхода использовалась задача классификации Ирисов.

Результаты тестирования методов обработки данных с различными настройками НС для решения задачи классификации представлены в табл. 1.

Результаты тестирования с различными настройками НС для решения задачи классификации представлены в табл. 2.

Таблица 1

Результаты тестирования методов обработки данных с различными настройками НС для решения задачи классификации

Количество нейронов на слое

20 | 60 | 100

Количество слоев НС

Метод 2 | 4 | 8

Метод обучения НС Среднее

ГА Backprop. ГА Backprop. ГА Backprop.

Точность классификации на обучающей выборке | на тестовой выборке, %

Сглаживание 32,8 | 30,1 29,1 | 24,5 30,5 | 28,7 27,8 | 25,5 25,8 | 21,2 23,9 | 19,4 28,3 | 29,98

Факторный анализ 41,5 | 36,9 36,8 | 30,8 50,6 | 47,2 52,7 | 50,7 89,2 | 85,5 88,6 | 81,5 56,9 | 66,72

Масштабирование 74,4 | 68,2 71,4 | 70,4 79,8 | 65,8 78,3 | 70,8 83,4 | 80,7 82,2 | 78,9 78,2 | 86,96

Среднее по алгоритму обучения 49,6 | 45,1 45,8 | 41,9 53,6 | 47,2 52,9 | 59 66,1 | 59,2 64,9 | 59,9

Таблица 2

Результаты тестирования с различными настройками НС для решения задачи классификации

Количество нейронов на слое

20 | 60 100

Метод Количество слоев НС

2 | 4 8

Метод обучения НС Среднее

ГА Backprop. ГА Backprop. ГА Backprop.

Точность классификации на обучающей выбо рке | на тестовой выборке, %

Масштабирование 70,2 | 61,4 69,1 | 65,9 74,2 | 68,7 70,8 | 65,1 77,6 | 77,6 72,1 | 66,4 72,3 | 65,8

Среднее 74 | 69,23 70,7 | 65,46

По результатам, приведенным в табл. 1 и 2, можно судить об эффективности и целесообразности применения в задачах обработки данных. Исследования показали важность и необходимость предварительной обработки для повышения качества обучения НС. Без качественных данных не будет качественных результатов их анализа.

Библиографические ссылки

1. Алексеёнок А. А. Поиск взаимозависимостей и классификация объектов эмпирического социологического исследования // Известия ТулГУ. Гуманитарные науки. 2010. № 1.

2. Метод «сглаживание» [Электронный ресурс]. URL: http://www.mate.oglib.ru/bgl/796/129.html (дата обращения: 05.07.2018).

3. Технология искусственных нейронных сетей [Электронный ресурс]. URL: http://www.uran. donetsk.ua/~masters/2006/ (дата обращения: 05.07.2018).

4. Нейронные сети: От теории к практике [Электронный ресурс]. URL: https://www.mql5.com/ ru/articles/497 (дата обращения: 05.07.2018).

5. Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. СПб. : ООО «ДиаСофтЮП», 2002. 603 с.

References

1. Alekseenok A. A. Search for interdependencies and classification of objects of empirical sociological research // Izvestiya TulGU. Humanitarian sciences. 2010. № 1.

2. The method of "smoothing". Available at: http://www.mate.oglib.ru/bgl/796/129.html (accessed: 05.07.2018).

3. Technology of artificial neural networks. Available at: http://www.uran.donetsk.ua/~masters/2006/ (accessed: 05.07.2018).

4. Neural networks: From theory to practice. Available at: https://www.mql5.com/en/articles/497 (accessed: 05.07.2018).

5. Byyul A., Cefel P. SPSS: The art of information processing. Analysis of statistical data and the restoration of hidden patterns. SPb. : OOO "DiSoftTUP", 2002. 603 p.

© Шапошникова Н. В., Ганжа Я. С., 2018

i Надоели баннеры? Вы всегда можете отключить рекламу.