Секция «Программные средства и информационные технологии»
УДК 004.032.26
ОБНАРУЖЕНИЕ ВЫБРОСОВ В ДАННЫХ НЕЙРОННОЙ СЕТЬЮ ДЛЯ СППР
А. Ю. Постойко Научный руководитель - Е. П. Моргунов
Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037,г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: postoiko.anastasya@yandex.ru
В данной статье затрагивается проблема предварительной обработки данных, в частности обнаружение выбросов. Применение необработанных данных, содержащих выбросы и пустые значения, в системах поддержки принятия решений (СППР) может оказать значительное влияние на результаты вычислений. Так, для повышения результативности СППР предлагается использование нейронной сети в качестве инструмента обнаружения выбросов в данных.
Ключевые слова: СППР, нейронная сеть, предварительная обработка данных, выбросы в данных.
NEURAL NETWORK AS A TOOL FOR DETECTING DATA OUTLIERS BEFORE
APPLYING THEM IN DSS
A.U. Postoyko Scientific Supervisor - E.P. Morgunov
Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: postoiko.anastasya@yandex.ru
This article deals with the problem of data preprocessing, in particular the outliers' detection. Applying of raw data containing outliers and empty values can have a significant impact on the calculation results in decision support systems (DSS). Thus, a neural network can be a tool for detecting data outliers that will improve the DSS effectiveness.
Key words: DSS, neural network, data preprocessing, data outliers.
Информация является неотъемлемой частью жизни каждого человека. Люди ежедневно используют, передают и принимают огромное количество данных. Именно используемые данные и являются информацией. На сегодняшний день информационные системы обладают такой сложной структурой, что человеку становится трудно, зачастую даже просто невозможно самостоятельно ее проанализировать и принять какое-либо решение.
Поэтому в результате слияния управленческих информационных систем и систем управления базами данных были разработаны системы поддержки принятия решений. Такие системы позволяют выбрать наилучшее решение из множества возможных и обеспечить их ранжирование. СППР предназначены для поддержки многокритериальных решений в сложной информационной среде [1].
Существует большое количество таких систем, но зачастую их применение является неэффективным на большом объеме реальных необработанных данных. Поэтому для
Актуальные проблемы авиации и космонавтики - 2021. Том 2
повышения точности анализа и выработок предположений в СППР необходима обязательная подготовка данных.
Целью данной работы является применение нейронной сети для предварительной обработки данных перед их непосредственным использованием в СППР.
Первым и немаловажным этапом является выбор данных. Они должны отражать реальный мир настолько максимально, насколько это возможно, так как использование большого набора сырых неграмотно собранных данных может привести к неверному или неопределенному решению.
Далее идет этап очистки и стандартизации данных. Последним этапом является приведение данных к нормализованному виду.
Таким образом, для предварительной обработки данных нужно последовательно выполнить следующие этапы [2]:
— считать данные; проверить наличие пропущенных значений; проверить наличие категориальных данных; стандартизировать данные;
— провести анализ главных компонент (Principal Component Analysis) преобразование;
— разделить данные.
Именно в процессе предварительной обработки данных в виде дополнительного шага предлагается применение нейронной сети (рис. 1).
Рис. 1 - Алгоритм предварительной обработки данных с применением нейронной сети
Отсутствие данных является наиболее частой проблемой «грязных» данных. Есть несколько способов решения:
1. Удаление строки, если набор данных достаточно велик, а процент пропущенных значений высок (например, более 50 процентов).
2. Заполнение пропущенных переменных нулями (если числовое значение).
3. Заполнение пропущенных значений средним или наиболее частым значением в столбце.
4. Заполнение недостающих значений любым значением, которое находится непосредственно сразу в том же столбце.
В данном случае по умолчанию предлагается использование среднего значения, но способ можно изменить по желанию пользователя.
Секция «Про граммные средства и информацио иные техно ло гии»
Далее необходимо удалить все, кроме численных параметров, и нормализовать данные (например, в диапазоне от 0 до 1). Это необходимо для того, чтобы признак не получил больший вес из-за большого диапазона изменения.
Также можно учесть категориальные данные, но для этого необходимо провести некоторые преобразования - конвертировать категориальные значения в числовые.
Далее наступает этап применения нейронной сети. Нужно разделить данные на два набора: обучающий и тестовый. Также нужно выделить несколько важных компонентов в данных и указать, какой процент выбросов данных нужно обнаружить.
Анализ главных компонентов в основном используется для уменьшения размера пространства признаков при сохранении максимально возможного количества информации. Таким образом, на обучающем наборе производится данный анализ и также задается классификатор. Затем модель обучается, и в некоторый массив записываются расстояния от объектов обучающей выборки до построенной разделяющей поверхности.
Если объект расположен «внутри» области, ограниченной построенной разделяющей поверхностью, то он является представителем класса, расстояние положительно, а значит, он не является выбросом, в противном случае расстояние будет иметь отрицательное значение, что сигнализирует о выбросе в данных [3].
Таким образом, для эффективного применения СППР был представлен алгоритм обнаружения выбросов в данных с применением нейронной сети. Так, специалист по принятию решений может обнаружить объекты, выделяющиеся из общей выборки, для последующего их анализа и оценки, а также для обеспечения наиболее полного понимания статистических данных и принятия верного решения.
Библиографические ссылки
1. Ларичев О. И., Петровский А. Б. Системы поддержки принятия решений. Современное состояние и перспективы их развития. // Итоги науки и техники. Сер. Техническая кибернетика. — Т.21. М.: ВИНИТИ. - 1987. - С. 131-164. - [Электронный ресурс]. URL: http://www.raai.org/library/papers/Larichev/Larichev Petrovsky 1987.pdf (дата обращения: 19.02.2021).
2. Data Mining [Электронный ресурс]. URL: https://intuit.ru/ studies/courses/6/6/lecture/192?page=3 (дата обращения: 21.02.2021).
3. Ben-Gal I., Outlier detection, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researcher // Kluwer Academic Publishers. - 2005. - P. 9-12. - direct text. - . - [Электронный ресурс]. URL: http://www.eng.tau.ac.il/~bengal/outlier.pdf
© Постойко А. Ю., 2021