Научная статья на тему 'ОБНАРУЖЕНИЕ ВЫБРОСОВ В ДАННЫХ НЕЙРОННОЙ СЕТЬЮ ДЛЯ СППР'

ОБНАРУЖЕНИЕ ВЫБРОСОВ В ДАННЫХ НЕЙРОННОЙ СЕТЬЮ ДЛЯ СППР Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СППР / нейронная сеть / предварительная обработка данных / выбросы в данных / DSS / neural network / data preprocessing / data outliers

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.Ю. Постойко, Е.П. Моргунов

В данной статье затрагивается проблема предварительной обработки данных, в частности обнаружение выбросов. Применение необработанных данных, содержащих выбросы и пустые значения, в системах поддержки принятия решений (СППР) может оказать значительное влияние на результаты вычислений. Так, для повышения результативности СППР предлагается использование нейронной сети в качестве инструмента обнаружения выбросов в данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А.Ю. Постойко, Е.П. Моргунов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NEURAL NETWORK AS A TOOL FOR DETECTING DATA OUTLIERS BEFORE APPLYING THEM IN DSS

This article deals with the problem of data preprocessing, in particular the outliers’ detection. Applying of raw data containing outliers and empty values can have a significant impact on the calculation results in decision support systems (DSS). Thus, a neural network can be a tool for detecting data outliers that will improve the DSS effectiveness.

Текст научной работы на тему «ОБНАРУЖЕНИЕ ВЫБРОСОВ В ДАННЫХ НЕЙРОННОЙ СЕТЬЮ ДЛЯ СППР»

Секция «Программные средства и информационные технологии»

УДК 004.032.26

ОБНАРУЖЕНИЕ ВЫБРОСОВ В ДАННЫХ НЕЙРОННОЙ СЕТЬЮ ДЛЯ СППР

А. Ю. Постойко Научный руководитель - Е. П. Моргунов

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037,г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: postoiko.anastasya@yandex.ru

В данной статье затрагивается проблема предварительной обработки данных, в частности обнаружение выбросов. Применение необработанных данных, содержащих выбросы и пустые значения, в системах поддержки принятия решений (СППР) может оказать значительное влияние на результаты вычислений. Так, для повышения результативности СППР предлагается использование нейронной сети в качестве инструмента обнаружения выбросов в данных.

Ключевые слова: СППР, нейронная сеть, предварительная обработка данных, выбросы в данных.

NEURAL NETWORK AS A TOOL FOR DETECTING DATA OUTLIERS BEFORE

APPLYING THEM IN DSS

A.U. Postoyko Scientific Supervisor - E.P. Morgunov

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: postoiko.anastasya@yandex.ru

This article deals with the problem of data preprocessing, in particular the outliers' detection. Applying of raw data containing outliers and empty values can have a significant impact on the calculation results in decision support systems (DSS). Thus, a neural network can be a tool for detecting data outliers that will improve the DSS effectiveness.

Key words: DSS, neural network, data preprocessing, data outliers.

Информация является неотъемлемой частью жизни каждого человека. Люди ежедневно используют, передают и принимают огромное количество данных. Именно используемые данные и являются информацией. На сегодняшний день информационные системы обладают такой сложной структурой, что человеку становится трудно, зачастую даже просто невозможно самостоятельно ее проанализировать и принять какое-либо решение.

Поэтому в результате слияния управленческих информационных систем и систем управления базами данных были разработаны системы поддержки принятия решений. Такие системы позволяют выбрать наилучшее решение из множества возможных и обеспечить их ранжирование. СППР предназначены для поддержки многокритериальных решений в сложной информационной среде [1].

Существует большое количество таких систем, но зачастую их применение является неэффективным на большом объеме реальных необработанных данных. Поэтому для

Актуальные проблемы авиации и космонавтики - 2021. Том 2

повышения точности анализа и выработок предположений в СППР необходима обязательная подготовка данных.

Целью данной работы является применение нейронной сети для предварительной обработки данных перед их непосредственным использованием в СППР.

Первым и немаловажным этапом является выбор данных. Они должны отражать реальный мир настолько максимально, насколько это возможно, так как использование большого набора сырых неграмотно собранных данных может привести к неверному или неопределенному решению.

Далее идет этап очистки и стандартизации данных. Последним этапом является приведение данных к нормализованному виду.

Таким образом, для предварительной обработки данных нужно последовательно выполнить следующие этапы [2]:

— считать данные; проверить наличие пропущенных значений; проверить наличие категориальных данных; стандартизировать данные;

— провести анализ главных компонент (Principal Component Analysis) преобразование;

— разделить данные.

Именно в процессе предварительной обработки данных в виде дополнительного шага предлагается применение нейронной сети (рис. 1).

Рис. 1 - Алгоритм предварительной обработки данных с применением нейронной сети

Отсутствие данных является наиболее частой проблемой «грязных» данных. Есть несколько способов решения:

1. Удаление строки, если набор данных достаточно велик, а процент пропущенных значений высок (например, более 50 процентов).

2. Заполнение пропущенных переменных нулями (если числовое значение).

3. Заполнение пропущенных значений средним или наиболее частым значением в столбце.

4. Заполнение недостающих значений любым значением, которое находится непосредственно сразу в том же столбце.

В данном случае по умолчанию предлагается использование среднего значения, но способ можно изменить по желанию пользователя.

Секция «Про граммные средства и информацио иные техно ло гии»

Далее необходимо удалить все, кроме численных параметров, и нормализовать данные (например, в диапазоне от 0 до 1). Это необходимо для того, чтобы признак не получил больший вес из-за большого диапазона изменения.

Также можно учесть категориальные данные, но для этого необходимо провести некоторые преобразования - конвертировать категориальные значения в числовые.

Далее наступает этап применения нейронной сети. Нужно разделить данные на два набора: обучающий и тестовый. Также нужно выделить несколько важных компонентов в данных и указать, какой процент выбросов данных нужно обнаружить.

Анализ главных компонентов в основном используется для уменьшения размера пространства признаков при сохранении максимально возможного количества информации. Таким образом, на обучающем наборе производится данный анализ и также задается классификатор. Затем модель обучается, и в некоторый массив записываются расстояния от объектов обучающей выборки до построенной разделяющей поверхности.

Если объект расположен «внутри» области, ограниченной построенной разделяющей поверхностью, то он является представителем класса, расстояние положительно, а значит, он не является выбросом, в противном случае расстояние будет иметь отрицательное значение, что сигнализирует о выбросе в данных [3].

Таким образом, для эффективного применения СППР был представлен алгоритм обнаружения выбросов в данных с применением нейронной сети. Так, специалист по принятию решений может обнаружить объекты, выделяющиеся из общей выборки, для последующего их анализа и оценки, а также для обеспечения наиболее полного понимания статистических данных и принятия верного решения.

Библиографические ссылки

1. Ларичев О. И., Петровский А. Б. Системы поддержки принятия решений. Современное состояние и перспективы их развития. // Итоги науки и техники. Сер. Техническая кибернетика. — Т.21. М.: ВИНИТИ. - 1987. - С. 131-164. - [Электронный ресурс]. URL: http://www.raai.org/library/papers/Larichev/Larichev Petrovsky 1987.pdf (дата обращения: 19.02.2021).

2. Data Mining [Электронный ресурс]. URL: https://intuit.ru/ studies/courses/6/6/lecture/192?page=3 (дата обращения: 21.02.2021).

3. Ben-Gal I., Outlier detection, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researcher // Kluwer Academic Publishers. - 2005. - P. 9-12. - direct text. - . - [Электронный ресурс]. URL: http://www.eng.tau.ac.il/~bengal/outlier.pdf

© Постойко А. Ю., 2021

i Надоели баннеры? Вы всегда можете отключить рекламу.