Использование искусственных нейронных сетей для восстановления пропусков в массиве исходных данных

Сташкова Ольга Витальевна; Шестопал Оксана Викторовна

УДК 519:616-079.4:616.5 DOI: 10.17213/0321-2653-2017-1-37-42

ИСПОЛЬЗОВАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ВОССТАНОВЛЕНИЯ ПРОПУСКОВ В МАССИВЕ

ИСХОДНЫХ ДАННЫХ

USE ARTIFICIAL NEURAL NETWORKS FOR RESTORATION

OF INITIAL DATA ARRAY

Сташкова Ольга Витальевна - аспирант, Брянский государственный технический университет, г. Брянск, Россия. E-mail: [email protected]

Шестопал Оксана Викторовна - аспирант, ЮжноРоссийский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. Email: [email protected]

Stashkova Olga Vitalievna - post-graduate student, Bryansk State Technical University, Bryansk, Russia. E-mail: stashkova. ola@mail. ru

Shestopal Oksana Viktorovna - post-graduate student, Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]

Рассматривается подход к решению проблемы преобразования таблицы с неполными исходными данными или содержащей значения, не соответствующие ожидаемому результату измерений, в репрезентативную выборку. Проанализированы существующие методы восстановления пропусков, представлен алгоритм восстановления пропусков в исходной таблице данных с использованием искусственной нейронной сети GRNN, а также результаты работы алгоритма на тестовых и эмпирических данных. Проведены расчеты относительной погрешности для различных типов данных с различным процентным содержанием пропусков.

Ключевые слова: восстановление пропусков; искусственные нейронные сети; пассивный эксперимент; массив исходных данных; погрешность; MathLab.

An approach to the problem of incomplete conversion table with the original data, or contain values that do not meet the expected results of the measurements in a representative sample. For this were analyzed existing methods for restoration, an algorithm for restoration of the original data table using an artificial neural network GRNN, as well as the results of the algorithm on the test and the empirical data. The calculations of the relative error for different data types with different percentages ofpasses.

Keywords: restoration; artificial neural networks; passive experiment; an array of raw data; error; Mathlab.

Введение

Качество анализируемых данных, полученных в результате пассивного эксперимента, а также достоверность результатов анализа зависят от одного из наиболее важных факторов: наличия в них пропущенных значений. Искажение исходных данных или их неполнота могут привести к искажению результата процесса моделирования в целом. Пропуски в таблице исходных данных могут быть связаны как с полным отсутствием данных (неполнота исходных данных), так и с возникшими противоречиями в данных. Причем такого рода проблемы могут возникать не только со значениями одного признака, но и со значениями некой совокупности признаков,

особенно в тех случаях, когда речь идет о большой размерности факторного пространства.

Постановка задачи

Пусть дана таблица данных, содержащая результаты контрольных измерений параметров одного типа некоего технологического процесса, причем .Pal ... Par61 - параметры, которые являются входными факторами (X1 - X6i). Такая таблица представляет собой многомерную (n-мерную) выборку. Каждый столбец этой таблицы является одномерной выборкой случайной величины X, полученной в результате 5305 независимых экспериментов.

В данной таблице, естественно, есть искажённые значения, а также пропуски, так как ра-

бота экспертов не исключает субъективизма и/или банальной ошибки.

Необходимо исследовать возможность восстановления пропусков в исходной таблице данных с использованием искусственной нейронной сети.

Анализ методов решения проблемы

Можно утверждать, что теория восстановления пропущенных данных постоянно развивается и, соответственно, появляются новые алгоритмы или же модифицируются известные. Наиболее распространенными методами обработки неполной информации в таблицах данных являются [1 - 4]:

1. Изъятие некомплектных строк из таблицы или их замена.

2. Заполнение пропусков средними значениями, без подбора, с (пристрастным) подбором.

3. Метод ближайших соседей.

4. Регрессионный метод.

5. Метод кластерного анализа.

6. Метод максимальной правдоподобности и ЕМ-алгоритм.

7. Алгоритм ZET.

8. Алгоритм ZetBraid.

9. Метод Бартлетта.

10. Resampling.

11. Моделирование неполных данных многообразиями малой размерности.

Теоретическая часть

На основе анализа существующих методов восстановления пропусков было принято решение организовать восстановление пропущенных значений с помощью искусственной нейронной сети (ИНС) [5 - 7]. Для этого была использована особенность нейронных сетей, состоящая в том, что сеть умеет находить зависимости между данными. Другими словами, можно восстановить один параметр, если нам известны несколько других из данного обучающего примера. Для решения задачи по восстановлению пропусков данных нами использовалась обобщенно-регрессионная нейронная (GRNN) сеть, что обусловлено следующими ее преимуществами:

- возможность моделирования нелинейных связей между входными и выходными параметрами;

- архитектура сети фиксирована и не нуждается в определении;

- время обучения сети значительно меньше, чем у других ИНС.

Реализованная GRNN сеть имеет радиаль-но-базисный слой с числом нейронов, равным числу элементов или менее обучающего множества. ИНС представлена следующими слоями: первый промежуточный слой сети, состоящий из радиальных элементов; второй промежуточный слой (линейный), содержащий элементы, которые помогают оценить взвешенное среднее; скрытый слой обобщенно-регрессионной сети, структурная схема которого представлена на рис. 1.

Сеть устанавливает первые веса слоя, равные p, при этом смещение равно 0,8326, деленное на распространение. Чем больше распространение, тем более гладкая функция приближения. Перед созданием сети происходит нормализация входных и целевых данных. Это необходимо для более качественного обучения сети.

Рассмотрим алгоритм восстановления данных (рис. 2) с помощью искусственных нейронных сетей:

1. Проверка исходной таблицы статистических данных на наличие пропусков. В случае их присутствия переходим ко второму шагу алгоритма.

2. Определение строк и столбцов, в которых присутствуют пропущенные значения, разделение данных. Получаем таблицу с полными данными, а также перечень строк и столбцов с пропусками.

3. Реализуем процесс машинного обучения сети с использованием полных данных, т. е. на данных, в которых отсутствуют пропущенные значения.

4. Симулируем работу сети на выборках, в которых есть пропущенные значения.

5. Получаем таблицу восстановленных значений. Заменяем пустые значения в исходной таблице на восстановленные значения.

Рис. 1. Скрытый слой GRNN-сети

Рис. 2. Схема восстановления данных с помощью искусственных нейронных сетей

Однако у этого способа есть и отрицательные стороны: потеря одного обучающего приме-

ра из N возможных. То есть общее значение обучающих выборок сократится на количество примеров с пропущенными данными. Это может плохо сказаться на результате обучения сети в случае, когда обучающих выборок изначально небольшое количество. Вторым недостатком этого решения является то, что обучающий пример удаляется независимо от количества пропущенных параметров в нем: может быть пропущен один параметр из 20, а может и 10 параметров.

Практические результаты

Данный алгоритм был реализован средствами интерактивной среды программирования МайаЬ. Программный продукт тестировался на наборе данных (табл. 1). Работа велась с данными четырёх типов.

В результате тестирования было выявлено, что ИНС не работают с качественными показателями. В этом случае их необходимо преобразовать в числовые значения. Это можно реализовать посредством ассоциативного ряда. Также недостатком работы ИНС является и некорректность обработки значений меньших нуля. Отрицательные значения ИНС воспринимает как абсолютную величину исходного значения, что искажает результаты эксперимента.

Восстановление данных исследовалось на наборе с различным процентом отсутствующих значений. В табл. 2, 3 представлены оценки выборок с различными процентами пропусков различных типов параметров.

Таблица 1

Типы исходных данных тестовой выборки

Наименование выборок Диапазон Описание

Par_real 0 ... 3,5 Диапазон содержит значения вещественного типа

Par_500 0 ... 500 Диапазон содержит целочисленные значения с большим разбросом величин

Par_10 0 ... 10 Диапазон содержит целочисленное значение с незначительным разбросом величин

Par_1_2 1; 2 Диапазон содержит целочисленное бинарное значение.

Таблица 2

Оценки выборок с 5 % содержанием пропусков

Показатель Par_real Par_500 Par_10 Par 1_2

Дисперсия 0,361409 20552,59 6,983383 0,249574

Среднеквадратическое отклонение 0,481966 125,0314 2,3164 0,498648

Среднее значение 0,816566 247,112 5,841; 2 1,474

Доверительный интервал среднего значения 0,030238 7,844416 0,14533 0,031285

Абсолютная погрешность 0,008335 0,746693 0,500457 0,006965

Относительная погрешность, % 1,02 0,30 8,57 0,47

Таблица 3

Оценки выборок с 75 % содержанием пропусков

Показатель Par_real Par_500 Par_10 Par 1_2

Дисперсия 0,361409 20552,59 6,983383 1,474

Среднеквадратическое отклонение 0,493624 124,2855 2,33894 0,494422

Среднее значение 0,813865 245,982 5,835 1,4595

Доверительный интервал среднего значения 0,03097 7,797619 0,146744 0,03102

Абсолютная погрешность 0,011035 0,383307 0,495457 0,021465

Относительная погрешность, % 1,36 0,16 8,49 1,47

Табл. 4 содержит сводные данные относительной погрешности исследуемых значений в зависимости от процента пропусков и типа данных, которые необходимо восстановить.

Таблица 4

Относительная погрешность для исследуемых типов с различным процентным содержанием пропусков, %

Пропуски, % Par_real Par_500 Par_10 Par 1_2

5 1,02 0,30 0,47 8,57

20 0,05 0,09 0,44 8,69

50 0,85 0,51 0,71 7,86

75 1,36 0,16 1,47 8,49

Исследования показали, что при восстановлении пропущенных значений наиболее точно восстановились данные с большим разбросом

значений, наихудший результат был получен при работе с бинарными данными.

Что касается количества восстанавливаемых значений, наиболее точные результаты получены по 20 % отсутствующих данных.

При тестировании представленного выше алгоритма восстановления пропусков на тестовых данных относительная погрешность среднего значения по каждому типу данных не превышала 9 %.

Полученные результаты были апробированы на реальных данных технологического процесса в виде матрицы размерности 61 столбец (параметр) на 5305 строк (количество экспериментов), полученных в ходе пассивного эксперимента (табл. 5). На первом этапе значения параметров были проверены на грубые погрешности (промахи) [8, 9].

Таблица 5

Исходные данные Par1 Par 2 Par5 Par38 Par39 Par57 Par58 Par61

1,00 108,11 14,29 113,70 0,09 0,20 1748,67 202,67 94,00

2,00 113,19 13,40 113,70 0,12 0,20 1746,50 201,17 97,33

3,00 108,91 13,01 112,30 0,10 0,17 1748,83 201,00 91,50

4,00 111,26 17,18 118,00 0,10 0,19 1748,83 209,00 104,00

5,00 113,24 15,60 115,10 0,11 0,25 1749,00 207,50 102,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6,00 115,70 13,77 120,80 0,10 0,17 1747,33 205,83 99,50

7,00 115,93 13,77 119,40 0,11 0,17 1746,50 206,50 100,67

8,00 114,18 15,20 115,10 0,10 0,16 1746,33 206,50 100,83

9,00 111,28 13,40 99,50 0,09 0,17 1748,00 213,00 110,80

10,00 109,84 17,20 125,10 0,10 0,17 1747,60 204,60 97,20

5302,00 98,00 38,90 141,30 0,11 0,20 1749,40 251,60 87,40

5303,00 90,50 47,50 105,50 0,13 0,20 1730,67 244,00 81,17

5304,00 96,70 42,30 118,50 0,13 0,22 1748,50 250,17 85,67

5305,00 93,90 42,90 125,61 0,11 0,22 1748,33 245,17 81,50

Исходная таблица данных технологического процесса

Источниками промахов нередко бывают ошибки, допущенные оператором при измерении. Наиболее характерными из них являются: неправильный отсчет по шкале измерительного устройства, неправильная запись результата наблюдения (описка), неправильная запись значений отдельных мер использованного набора и т. п., ошибки при действиях с приборами, если они повторяются при измерениях. Причинами грубых погрешностей могут быть внезапные или кратковременные изменения условий измерения или незамеченные неисправности в аппаратуре.

Допустим, что результат наблюдения Х не содержит грубой погрешности, т.е. является одним из значений измеряемой величины. Пользуясь определенными статистическими критериями, можно осуществить попытку опровергнуть выдвинутую гипотезу. Если это удаётся, то результат наблюдений должен рассматриваться как содержащий грубую погрешность и его необходимо исключить, или же каким-либо способом ликвидировать. Известен ряд критериев, которые позволяют исключить грубые промахи [10]. К ним, в частности, можно отнести критерии «трех сигм» Греббса (Смирнова), Шарлье, Шовенэ, Диксона, Романовского и др. Эти критерии основаны на статистических оценках параметров распределения, так как в большинстве случаев действительные значения параметров распределения неизвестны.

В данной работе при подготовке исходных данных для обучения ИНС были исключены те значения, которые не соответствуют нормальному закону распределения. На практике считается, что если для какой-либо случайной величины выполняется правило трех сигм, то эта случайная величина имеет нормальное распределение: абсолютная величина её отклонения от математического ожидания не превосходит утроенного среднего квадратного отклонения [10]. Фактически к результатам с грубыми погрешностями отнесены либо такие, которые явно не соответст-

вуют ожидаемому результату измерений, либо не ярко выраженные экстремальные значения, принадлежность которых к данному массиву результатов имеет весьма малую вероятность. Все значения, не соответствующие критерию «трех сигм», были удалены из таблицы, т.е. искусственно были созданы дополнительные пропуски в таблице исходных данных. В результате анализа исходной таблицы данных на «грубые промахи» было выявлено, что общее количество пустых ячеек составило 2,15 %. В табл. 6 представлены также сводные данные относительной погрешности исследуемых значений.

Таблица 6

Относительная погрешность восстановления экспериментальных данных технологического процесса металлургического производства составила 1,31 %.

Вывод

В статье предложен метод заполнения пропусков в таблице исходных данных, полученных в результате пассивного эксперимента на основе искусственных нейронных сетей, в частности сети GRNN. Выполнен сравнительный анализ работы ИНС с данными различных типов, выполнена оценка относительной погрешности исследуемых значений в зависимости от процента пропусков и типа данных. Рассмотрен пример реализации подхода на данных технологического процесса, причем с их предварительным анализом на «грубые промахи». Необходимо отметить достаточную точность работы ИНС: при объёме выборки 323605 значений показатель относительной погрешности составил не более 2 %. На основании полученных результатов исследования можно утверждать, что ИНС могут быть использованы для адекватного восстановления данных.

Литература

1. Абраменкова И.В., Круглое В.В. Методы восстановления пропусков в массивах данных // Программные продукты и системы. 2005. № 2. С. 18 - 22.

Оценки параметров

Данные Par1 Par 2 Par5 Par38 Par39 Par57 Par58 Par61

Среднее значение параметра в исходной таблице 110,948 19,099 117,356 0,114 0,217 1754,264 214,990 99,764

Среднее значение параметра после восстановления пропусков 111,448 18,550 117,167 0,114 0,217 1753,920 214,867 99,870

Относительная погрешность параметра, % 0,449 2,963 0,161 0,001 0,005 0,020 0,057 0,107

2. Ефимов А.С. Решение задачи кластеризации методом конкретного обучения при неполных статистических данных // Вестн. Нижегородского университета им. Н.И. Лобачевского. 2010. № 1. С. 220 - 225.

3. Снитюк В.Е. Эволюционный метод восстановления пропусков в данных // Сб. тр. VI Междунар. конф. «Интеллектуальный анализ информации». Киев, 2006. С. 262 - 271.

4. Мартышенко С.Н. Методы восстановления пропусков в данных, представленных в различных измерительных шкалах // Территория новых возможностей. 2013. № 4 (22) С. 242 - 255.

5. Neural Network Software, About NeuroSolutions. URL: http:// www.neuroproject.ru/aboutproduct.php (дата обращения: 19.04.2016).

6. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural

Network. 1989. Vol. 2. P. 366.

7. Хайкин С. Нейронные сети: полный курс = Neural Networks: A Comprehensive Foundation. 2-е изд. М.: Вильямс, 2006.

8. Stohastic check for control of electronic wares quality // Trans. of 10-th International Symposium on Applied stochastic Models and Data Analysis. Univ. de Techn. de Com-piegne, France. June 12-15. 2001. Vol. 1. P. 387 - 390.

9. Шестопал О.В. Обработка первичных пассивных данных по технологическому процессу выплавки низкоуглеродистой стали // Математическое моделирование в образовании, науке и производстве: материалы VII между-нар. конф. Тирасполь: Изд-во Приднестр. ун-та, 2011. С. 50 - 51.

10. Метрология, стандартизация и сертификация. URL: http://studme.org/11211219/tovarovedenie/grubye_pogreshn osti_promahi (дата обращения: 19.12.2016).

References

1. Abramenkova I.V., Kruglov V.V. Metody vosstanovleniya propuskov v massivakh dannykh [Restore missing data arrays methods]. Programmnyeprodukty i sistemy, 2005, no. 2, pp.18-22. [In Russ.]

2. Efimov A.S. Reshenie zadachi klasterizatsii metodom konkretnogo obucheniya pri nepolnykh statisticheskikh dannykh [Solution of the problem of clustering method specific training with incomplete statistics]. Vestnik Nizhegorodskogo universiteta im. N.I. Lobachevskogo, 2010, no. 1, pp. 220-225. [In Russ.]

3. Snityuk V.E. [The evolutionary method of restoring missing data]. Sbornik trudov VI-i Mezhd. konf. «Intellektual'nyi analiz informatsii» [Proceedings of the VI-th Int. Conf. "Intellectual data analysis"]. Kiev, 2006, pp. 262-271.

4. Martyshenko S.N. Metody vosstanovleniya propuskov v dannykh, predstavlennykh v razlichnykh izmeritel'nykh shkalakh [Methods for restoration of the data presented in the different measuring scales]. Territoriya novykh vozmozhnostei, 2013, no. 4 (22), pp. 242-255. [In Russ.]

5. Metrologiya, standartizatsiya i sertifikatsiya [Metrology, Standardization and Certification]. Available at: http://studme.org/11211219/tovarovedenie/grubye_pogreshnosti_promahi (accessed 12/19/2016)

6. Stohastic check for control of electronic wares quality // Trans. Of 10-th International Symposium on Applied stochastic Models and Data Analysis. Univ. De Techn. De Compiegne, France. June 12-15. 2001. V.1. Pp. 387-390.

7. Neural Network Software, About NeuroSolutions Available at: http://www.neuroproject.ru/aboutproduct.php (accessed 19/04/2016)

8. Hornik K., Stinchcombe M. White H. Multilayer feedforward networks are universal approximators // Neural Network. 1989. Vol. 2. Pp. 366.

9. Khaikin S. Neironnye seti: polnyi kurs = Neural Networks: A Comprehensive Foundation [Neural networks: a complete course = Neural Networks: A Comprehensive Foundation]. Moscow, Vil'yams Publ., 2006.

10. Shestopal O.V. [Processing of primary data for passive technological process of smelting low-carbon steel]. Matematicheskoe modelirovanie v obrazovanii, nauke i proizvodstve: materialy VII mezhdunar. konf. [Mathematical modeling in education, science and industry: materials VII Intern. Conf]. Tiraspol, Izd-vo Pridnestr. un-ta, 2011, pp. 50- 51.

Поступила в редакцию 20 января 2017 г.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сташкова Ольга Витальевна, Шестопал Оксана Викторовна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сташкова Ольга Витальевна, Шестопал Оксана Викторовна

USE ARTIFICIAL NEURAL NETWORKS FOR RESTORATION OF INITIAL DATA ARRAY

Текст научной работы на тему «Использование искусственных нейронных сетей для восстановления пропусков в массиве исходных данных»