Научная статья на тему 'Комплексное сокращение размерности данных для построения диагностических и распознающих моделей по прецедентам'

Комплексное сокращение размерности данных для построения диагностических и распознающих моделей по прецедентам Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
118
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
выборка / экземпляр / признак / сокращение размерности данных / формирование выборки / отбор признаков / диагностирование / sample / instance / feature / data dimensionality reduction / sampling / feature selection / diagnosis / вибірка / екземпляр / ознака / скорочення розмірності даних / формування вибірки / відбір ознак / діагностування

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Субботин С. А.

Решена задача сокращения размерности данных при построении диагностических и распознающих моделей. Объектом исследования являлся процесс диагностирования, управляемый данными. Предметом исследования являлись методы редукции данных для построения диагностических моделей по прецедентам. Целью работы являлось создание комплекса показателей, позволяющих количественно характеризовать ценность экземпляров и признаков, а также метода сокращения размерности выборок данных для решения задач диагностирования и распознавания. Разработано математическое обеспечение, позволяющее осуществлять формирование выборок и отбор признаков в рамках единого подхода к оценке их значимости. Предложен комплекс показателей, позволяющих количественно характеризовать индивидуальную ценность экземпляров и признаков в локальной окрестности в пространстве признаков. Получили дальнейшее развитие методы переборного поиска для сокращения размерности выборок данных при решении задач диагностирования и распознавания, которые модифицированы путем учета в поисковых операторах предложенных индивидуальных оценок информативности экземпляров и признаков. Предложенные методы и комплекс показателей программно реализованы и исследованы при решении задач сокращения размерности данных. Проведенные эксперименты подтвердили работоспособность разработанного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач неразрушающего диагностирования и распознавания образов по признакам.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE COMPLEX DATA DIMENSIONALITY REDUCTION FOR DIAGNOSTIC AND RECOGNITION MODEL BUILDING ON PRECEDENTS

The problem of data dimensionality reduction for diagnostic and recognizing model construction is solved. The object of study is the process of data-driven diagnosis. The subject of study is the data reduction methods for diagnostic model construction on precedents. The purpose of work is to create a set of indicators to quantify the importance of instances and features, as well as a method of data sample dimensionality reduction in the diagnosis and pattern recognition and problem solving. The mathematical support for the sample formation and feature selection is developed on the base of common approach to the assessment of their significance. The set of indicators is proposed to quantify the individual informativity of instances and features in the local neighborhood in the feature space. The exhaustive search methods for data sample dimensionality reduction in the solution of recognition and diagnosis problems have been further developed. They are modified by taking into account of the offered individual estimations of informativity of instances and features in the search operators. The proposed methods and indicator complex are implemented as software and studied in the solution of data dimensionality reduction problems. The conducted experiments confirmed the efficiency of the developed mathematical tools and allow to recommend them for use in practice for solving the problems of non-destructive diagnosis and pattern recognition on features.

Текст научной работы на тему «Комплексное сокращение размерности данных для построения диагностических и распознающих моделей по прецедентам»

УДК 004.93

Субботин С. А.

Д-р техн. наук, профессор, заведующий кафедрой программных средств Запорожского национального технического

университета, Запорожье, Украина

КОМПЛЕКСНОЕ СОКРАЩЕНИЕ РАЗМЕРНОСТИ ДАННЫХ ДЛЯ ПОСТРОЕНИЯ ДИАГНОСТИЧЕСКИХ И РАСПОЗНАЮЩИХ МОДЕЛЕЙ _ПО ПРЕЦЕДЕНТАМ_

Решена задача сокращения размерности данных при построении диагностических и распознающих моделей. Объектом исследования являлся процесс диагностирования, управляемый данными. Предметом исследования являлись методы редукции данных для построения диагностических моделей по прецедентам. Целью работы являлось создание комплекса показателей, позволяющих количественно характеризовать ценность экземпляров и признаков, а также метода сокращения размерности выборок данных для решения задач диагностирования и распознавания. Разработано математическое обеспечение, позволяющее осуществлять формирование выборок и отбор признаков в рамках единого подхода к оценке их значимости. Предложен комплекс показателей, позволяющих количественно характеризовать индивидуальную ценность экземпляров и признаков в локальной окрестности в пространстве признаков. Получили дальнейшее развитие методы переборного поиска для сокращения размерности выборок данных при решении задач диагностирования и распознавания, которые модифицированы путем учета в поисковых операторах предложенных индивидуальных оценок информативности экземпляров и признаков. Предложенные методы и комплекс показателей программно реализованы и исследованы при решении задач сокращения размерности данных. Проведенные эксперименты подтвердили работоспособность разработанного математического обеспечения и позволяют рекомендовать его для использования на практике при решении задач неразрушающего диагностирования и распознавания образов по признакам.

Ключевые слова: выборка, экземпляр, признак, сокращение размерности данных, формирование выборки, отбор признаков, диагностирование.

НОМЕНКЛАТУРА

ЭВМ - электронная вычислительная машина;

5 - радиус окрестности;

Q - группа признаков, рассматриваемых совместно;

E - ошибка модели;

f - критерий качества;

FQ - структура модели;

I(<x', y>) - показатель качества <x',y >;

I*(xs) - показатель информативности s-го экземпляра;

Г - показатель информативности j-го признака,

I* - показатель групповой информативности признаков;

j - номер текущего признака;

I*(xs | x) - показатель индивидуальной информативности экземпляра xs относительно исходного набора признаков;

I*(xs | x \ Xj) - показатель индивидуальной информативности экземпляра относительно сокращенного набора признаков путем удаления признака x. из исходного набора признаков;

K - число классов;

m - объем памяти ЭВМ, затраченный на формирование выборки;

n - размерности входа;

N - число входных признаков в исходной выборке;

N- число входных признаков в редуцированной выборке;

N - число удаляемых признаков;

opt - условное обозначение оптимума;

R(a, b) - расстояние между a и b;

s - номер текущего экземпляра;

S - число прецедентов в выборке;

S - объем редуцированной выборки;

S* - число удаляемых экземпляров;

Sg - число экземпляров того же класса, что и класс экземпляра xs, находящихся в его окрестности, не включая сам экземпляр xs;

t - время, затраченное на формирование выборки;

w - набор значений параметров модели;

X - исходная выборка;

x - набор входных признаков в исходной выборке;

X - редуцированная выборка;

x'- набор входных признаков в редуцированной выборке;

x. - j-й входной признак в исходной выборке;

xs - s-й экземпляр выборки;

xsj - значение j-го входного признака для s-го прецедента; max

xj - максимальное значение j-го признака; min

x. - минимальное значение j-го признака;

y - выходной признак в исходной выборке;

у' - выходной признак в редуцированной выборке;

у - значение выходного признака для s-го прецедента (экземпляра) выборки.

ВВЕДЕНИЕ

Для обеспечения устойчивого функционирования сложного технического оборудования, изделий наукоемкого машиностроения и электронной техники необходимо своевременно осуществлять их диагностирование [1].

Из-за новизны объектов диагностирования, присущей им динамики, нелинейностей и отсутствия или недоста-

© Субботин С. А., 2016

DOI 10.15588/1607-3274-2016-4-9

p-ISSN 1607-3274. Радюелектронжа, шформатика, управлiння. 2016. № 4 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2016. № 4

точности экспертных знании широкое применение на практике для построения автоматизированных систем диагностирования получило диагностирование, управляемое данными [2].

Объектом исследования являлся процесс диагностирования, управляемыи данными.

Диагностирование, управляемое данными, предполагает построение диагностических моделеИ с помощью методов вычислительного интеллекта [3] на основе набора прецедентов.

Построение диагностических и распознающих моде-леи по прецедентам, как правило, является итеративным процессом, требующим значительных затрат времени для выборок большои размерности. Поэтому для повышения скорости построения диагностических и распознающих моделеи необходимо предварительно сокращать размерность данных.

Предметом исследования являлись методы редукции данных для построения диагностических моделеи по прецедентам.

Известные методы редукции данных [4-13] исходят из различных точек зрения на важность экземпляров и признаков, что может приводить противоречию между отбором экземпляров и признаков. Поэтому необходимо разработать метод редукции данных, осуществляю-щии отбор экземпляров и признаков исходя из одного общего представления об их информативности.

Целью данноИ работы являлось создание комплекса показателеи, позволяющих количественно характеризовать ценность экземпляров и признаков, а также метода сокращения размерности выборок данных для решения задач диагностирования и распознавания.

1 ПОСТАНОВКА ЗАДАЧИ

Пусть мы имеем исходную выборку X = <x, y> - набор S прецедентов о зависимости y(x), x = {x1}, y={y"}, s = 1, 2, ..., S, характеризующихся набором N входных признаков {x.}, j = 1, 2, ..., N, и выходным признаком y. Каждый s-й прецедент представим как <xs, y>, xs={xs.}, гдеy е {1, 2, ..., K}, где K>1.

Тогда задача синтеза модели зависимости y(x) будет заключаться в определении таких структуры F() и значений параметров w модели, при которых будет удовлетво -рен критерий качества модели f(F(), w, <x, y>) ^ opt, где opt - условное обозначение оптимума.

В случае, когда исходная выборка имеет большую размерность, перед построением модели необходимо решить задачу выделения обучающей выборки меньшего объема (дано: X=<x, y>, надо: X=<x', y'>, x' е {xs}, y={ys|xs е x'}, S = ly' |, S<S, f(<x', y >, <x, y>) ^ opt).

2 ЛИТЕРАТУРНЫЙ ОБЗОР

Сокращение размерности выборки данных, как правило, обеспечивается посредством отбора информативных признаков и отбора наиболее значимых экземпляров из исходной выборки.

Известные методы отбора признаков [2, 14], как правило, основаны на переборной стратегии и оперируют некоторым показателем качества, характеризующим индивидуальную или совместную полезность признаков для решения соответствующей задачи.

Для оценки информативности признаков используют широкий спектр показателей [14, 15], которые характеризуют полезность признаков с некоторой точки зрения. В общем случае, не только количественные, но и качественные оценки данных показателей могут не совпадать.

Методы выделения выборок (отбора экземпляров) [413], в свою очередь, также основаны на переборной стратегии и оперируют некоторым показателем качества, характеризующим индивидуальную или совместную полезность экземпляров для решения соответствующей задачи.

Для оценки качества сформированной выборки возможно использовать широкий набор предложенных показателей [5, 6], которые на практике в общем случае качественно дают разные оценки ценности экземпляров.

Также в целом следует отметить, что подходы к оценке важности признаков не совпадают в общем случае с подходами к оценке важности экземпляров. Это затрудняет формирование единой стратегии сокращения размерности данных.

Поэтому представляется необходимым разработать показатели и методы, позволяющие давать оценки информативности и производить отбор как экземпляров, так и признаков в рамках единого подхода.

3 МАТЕРИАЛЫ И МЕТОДЫ

Поскольку масштаб значений признаков, которыми характеризуется выборка, может быть существенно различным, это может привести к подавлению одних признаков другими при сравнении экземпляров в процессе формирования выборки.

Для исключения данного негативного эффекта предлагается использовать нормированные расстояния как меру близости (меру подобия) экземпляров:

N

f

R( xs, xp) = R( xp, xs) = Y, j=1

s p

x — x ■

xj xj

x max _ xmin

у j j

Л2

5 = 1, 2, ..., 5"; р = 5+1, 5+2, ..., Под локально влияющими на экземпляр х в окрестности радиуса 5 будем понимать множество тех экземпляров обучающей выборки, которые удалены от экземпляра X не более чем на 5, 0<5 < 1.

Показатель информативности экземпляра относительно внешних границ класса в локальной окрестности радиуса 5 определим по формуле:

10 (х5 ) = —1-V {?(X5, хр )|я(х5, хр ) <5,/ = ур, р Ф ^

^5 (х5 ) р=1С 1

где - число экземпляров того же класса, что и класс экземпляра х5, находящихся в его окрестности, не включая сам экземпляр х5:

55 (х5) = V ¡1|Я( х5, хр) <5, у5 = ур, р Ф 5}. р=1

Предложенный показатель 10 будет принимать значения в интервале [0, 1]. Чем больше будет значение показателя 10, тем ближе экземпляр х к внешней границе соответствующего класса в локальной окрестности радиуса 5.

Показатель информативности экземпляра х" относительно межклассовых границ в локальной окрестности радиуса 5 определим по формуле:

1с(х") =-

1

1 +]т{(х", хР) Я(х", хР) <5, у" = уР, Р Ф

Р=1

Предложенный показатель I будет принимать значения в интервале [(1 + Л®)-1, 1]. Чем больше будет значение показателя I тем ближе экземпляр х" к межклассовой границе в локальной окрестности радиуса 5.

Показатель информативности экземпляра относительно внутриклассового центра в локальной окрестности радиуса 5 определим по формуле:

1в (х" ) =

1 + ШШ Р=1,2,...,5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1

(х", хР) Я(х", хР) <5,у" ф уР, Р ф "

Предложенный показатель 1в будет принимать значения в интервале [(1+ Л)-1, 1]. Чем больше будет значение показателя 1в, тем ближе экземпляр х" к центру своего класса в локальной окрестности радиуса 5.

Комбинированный показатель информативности экземпляра относительно внешних границ класса и межклассовых границ в локальной окрестности радиуса 5 определим по формуле:

1ос (х") = шах{10 (х"), 1с (х")}.

Предложенный показатель будет принимать значения в интервале [0, 1]. Чем больше будет значение показателя I тем ближе экземпляр х" к внешним границам класса и межклассовой границе в локальной окрестности радиуса 5.

Комбинированный показатель информативности экземпляра относительно внешних границ класса и внутриклассового центра в локальной окрестности радиуса 5 определим по формуле:

1ов (х") = шах{1о (х"), 1в (х")}.

Предложенный показатель 1ов будет принимать значения в интервале [0, 1]. Чем больше будет значение показателя I тем ближе экземпляр х" к внешним границам класса, к центру своего класса в локальной окрестности радиуса 5.

Комбинированный показатель информативности экземпляра относительно межклассовых границ и внутриклассового центра экземпляра в локальной окрестности радиуса 5 определим по формуле:

^с (х") = шax{Iв (х"), ^ (х")}.

Предложенный показатель Iвс будет принимать значения в интервале [(Л2Б + Л®+Л+1)-1, 1]. Чем больше будет значение показателя I тем ближе экземпляр х" к межклассовой границе и ближе к центру своего класса в локальной окрестности радиуса 5.

Комбинированный показатель информативности экземпляра относительно внешних границ класса, межклассовых границ и внутриклассового центра экземпляра в локальной окрестности радиуса 5 :

^вс (х") = шax{Iо (х"), ^ (х"), ^ (х")}.

Предложенный показатель I будет принимать значения в интервале [0, 1]. Чем больше будет значение показателя I ем ближе экземпляр х" к к внешним границам класса, межклассовой границе, ближе к центру своего класса в локальной окрестности радиуса 5 .

Предложенный выше комплекс показателей может быть использован не только для отбора экземпляров, но также и для оценки информативности и отбора признаков.

Показатели индивидуальной информативности признаков можно определить по обобщенной формуле:

I* = — х" | х) -Ь(х" | х\ х^) ® "=1

■Г,

где маркер «*» заменяется обозначением типа соответствующего показателя информативности экземпляров.

Данный показатель будет принимать значения от нуля до единицы. Чем больше будет значение данного показателя, тем сильнее влияние соответствующего признака на качество выборки с точки зрения выбранного типа показателей информативности экземпляров.

Показатели групповой информативности признаков можно определить по обобщенной формуле:

I о =

} а

®"=1

г,

Л(хЛ |х)-Л(хЛ |х\О)

где маркер «*» заменяется обозначением типа соответствующего показателя информативности экземпляров.

Данный показатель будет принимать значения от нуля до единицы. Чем больше будет значение данного показателя, тем сильнее влияние соответствующей группы признаков на качество выборки с точки зрения выбранного типа показателей информативности экземпляров.

Предложенный комплекс показателей может быть использован в методах редукции данных.

Наиболее точным является метод редукции на основе стратегии полного перебора [14]. Данный метод сначала выполняет перебор всех возможных комбинаций экземпляров из исходной выборки. После чего оценивается их качество и выбирается одна комбинация, содержащая наименьшее число экземпляров, обеспечивающее приемлемый уровень качества. Затем выполняется перебор всех возможных комбинаций признаков. После чего оценивается их качество и выбирается одна комбинация признаков, содержащая наименьшее число признаков, обеспечивающее приемлемый уровень качества. Формально данный метод может быть представлен следующим образом.

0. Задать исходную выборку <х, у>.

1. Редукция экземпляров.

1.1. Сгенерировать все возможные комбинации экземпляров {<х', у' >} как подвыборки <х, у>.

1.2. Для каждой комбинации экземпляров <х', у' > оценить выбранный показатель качества !(<х', у' >).

р-К8К 1607-3274. Радюелектронжа, шформатика, управлшня. 2016. № 4 е-ЕЗБЫ 2313-688Х. Каёю Е1еойоп^, Сошриег Баепое, Сопйо1. 2016. № 4

1.3. В качестве итоговой сокращенной выборки принять комбинацию <х', у' >, содержащую наименьшее число экземпляров при приемлемом значении показателя качества 1(<х', у' >).

2. Редукция признаков.

2.1. Сгенерировать все возможные комбинации признаков для сокращенной выборки <х , у >.

2.2. Для каждой комбинации признаков по сокращенной выборке <х', у' > оценить выбранный показатель качества 1(<х', у' >).

2.3. Оставить в сокращенной выборке <х', у' > только те признаки, которые входят в комбинацию, содержащую наименьшее число признаков при приемлемом значении показателя качества.

Данный метод потребует перебора 25-1 комбинаций экземпляров на этапе редукции экземпляров и 2№-1 комбинаций признаков на этапе редукции признаков. Очевидно, что такой метод является самым медленным и вычислительно затратным. Его практическая применимость весьма ограничена.

Для устранения недостатков полного перебора возможно, оценив индивидуальную информативность признаков и экземпляров, последовательно удалять из исходной выборки некоторое подмножество наименее индивидуально информативных экземпляров и признаков, строя каждый раз по редуцированной выборки модель и оценивая показатель качества, до тех пор, пока признаков больше двух, экземпляров не меньше, чем классов, а точность модели является приемлемой.

Быстрый метод редукции данных, реализующий данные идеи, представим следующим образом.

1. Принять в качестве текущей выборки <х', у' > исходную выборку <х, у>. Задать число удаляемых экземпляров 5* и число удаляемых признаков №.

2. Оценить индивидуальную информативность экземпляров и индивидуальную информативность признаков в выборке.

3. Если 5' >5*, то удалить 5* наименее индивидуально информативных экземпляров из текущей выборки. Если М'>№, то удалить № наименее информативных признаков из текущей выборки.

4. Построить распознающую модель по редуцированной выборке <х', у' >.

5. Оценить ошибку построенной модели Е по исходной выборке <х, у>. Например, в качестве критерия ошибки можно использовать среднюю ошибку:

1

5

Е = - 1(1|у5 р.Ф у5}.

5 5=1

6. Если ошибка Е приемлемая, то принять в качестве текущей выборки редуцированную выборку и перейти к этапу 3; в противном случае - вернуть в качестве результата текущую выборку <х', у' >.

Такой метод при выборе достаточно больших значений 5* и № будет обеспечивать очень быстрое сокращение размерности выборки, однако будет достигать этого за счет потери информации, что повлечет уменьшение точности. Поскольку данный метод требует построения модели, то его эффективность также будет зависеть от эффективности используемого метода построения модели.

Поскольку одновременная редукция экземпляров и признаков может в ряде практических приложений слишком быстро приводить к потере информации и, как следствие, точности синтезируемой модели, представляется целесообразным для таких случаев последовательно редуцировать данные, синтезируя модель для контроля потери информации, и тем самым обеспечивая более тщательный контроль редукции данных.

Последовательный метод редукции данных, реализующий данные идеи, представим следующим образом.

1.Принять в качестве текущей выборки <х , у > исходную выборку <х, у>. Задать число удаляемых экземпляров 5* и число удаляемых признаков №.

2. Оценить индивидуальную информативность экземпляров в исходной выборке.

3. Если 5 >5*, то удалить 5* наименее индивидуально информативных экземпляров из текущей выборки <х', у' >.

4. Построить модель на основе текущей выборки и оценить ошибку модели по исходной выборке.

5. Если ошибка модели приемлемая и 5' >5*, то перейти к этапу 3; в противном случае - вернуть предыдущий набор экземпляров <х', у' >.

6. Оценить индивидуальную информативность признаков по редуцированной текущей выборке <х', у ' >.

7. Если №>№*, то удалить № наименее информативных признаков из текущей выборки <х', у' >.

8. Построить распознающую модель на основе текущей выборки <х ', у'> и оценить ошибку модели Е по исходной выборке <х, у>.

9. Если ошибка модели Е приемлемая и №>№*, то перейти к этапу 7; в противном случае - вернуть предыдущий набор признаков <х', у' >.

Такой метод при выборе достаточно больших значений 5* и № будет обеспечивать быстрое сокращение размерности выборки, однако оно будет медленнее, чем у предыдущего метода. При этом данный метод за счет большего контроля ошибки сможет потенциально терять меньше информации, обеспечивая более тщательный отбор признаков. Тем не менее, поскольку данный метод требует построения модели, то его эффективность также будет зависеть от эффективности используемого метода построения модели.

Для комплекса предложенных показателей и методов сокращения размерности выборок данных существенным параметром является выбор размера окрестности 5.

Очевидно, что при большом значении 5 в локальную окрестность экземпляра будет попадать большое число экземпляров, что сделает трудоемким расчет показателей информативности, однако позволит сопоставить соответствующий экземпляр с большим числом других экземпляров, обеспечивая более точную оценку важности экземпляра.

При малом значении 5 в локальную окрестность экземпляра может не попасть ни одного экземпляра, либо попасть очень небольшое число экземпляров. Это не позволит обеспечить приемлемую точность оценивания важности экземпляров.

Предположим, что экземпляры равномерно распределены в пространстве признаков. Тогда в окрестности радиуса 5 каждого экземпляра окажется порядка 5¥ экземпляров, где V = п0,5№5№ / Г(0,5№ +1), где Г - гамма-функция.

Очевидно, что Следовательно, У<<\. Зафик-

сировав N получим 0< 8 << п-0,5 NГ(0,5^ +1) < 1. 4 ЭКСПЕРИМЕНТЫ

Для проверки работоспособности предложенного комплекса показателей информативности экземпляров и признаков, а также методов редукции данных они были программно реализованы и исследованы на наборе синтетических выборок данных.

Каждая выборка содержала экземпляры двух классов, характеризовавшиеся наборами признаков. Значения одной части признаков генерировались случайным образом. Значения другой части признаков определялись как комбинации значений некоторых признаков первой части. Характеристики синтетических выборок данных приведены в табл. 1.

Таблица 1 - Характеристики синтетических выборок данных

№ выборки N £ п

1 10 20 200

2 20 20 400

3 20 20 800

4 40 40 1600

5 100 100 10000

6 500 500 250000

7 1000 1000 1000000

В первой серии экспериментов осуществлялось сравнение методов по затратам ресурсов и достигнутой точности (ошибке) моделей, синтезированных по редуцированным выборкам.

Во второй серии экспериментов исследовался вопрос выбора значения 8. 5 РЕЗУЛЬТАТЫ

В табл. 2 представлены результаты сравнения затрат ресурсов предложенных методов редукции данных при решении синтетических задач редукции данных.

Как видно из табл. 2, метод полного перебора является наиболее затратным как по используемым вычислительным ресурсам, так и по ресурсам памяти. Метод быстрой редукции является наиболее эффективным с точки зрения затрат ресурсов, а метод последовательной редукции требует несколько больше вычислительных ресурсов и ресурсов памяти, по сравнению с быстрым методом редукции.

В табл. 3 представлены результаты сравнения полученной ошибки моделей, построенных на основе редуцированных данных, полученных с помощью предложенных методов.

Таблица 2 - Сравнительная характеристика

Таблица 3 - Сравнительная характеристика методов редукции данных по ошибке модели Е

N° выборки Метод полного перебора Метод быстрой редукции Последовательный метод редукции

1 0 0 0

2 0 0,05 0

3 0,05 0,05

4 0,08 0,05

5 0,07 0,05

6 0,06 0,04

7 0,06 0,06

Как видно из табл. 3, метод полного перебора обеспечивает наибольшую точность, однако из-за ограничений по ресурсам не имеет широкой практической применимости. Метод быстрой редукции в среднем обеспечивает несколько большую ошибку по сравнению с последовательным методом редукции.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 1 представлены результаты проведенных экспериментов по подбору значения 8 для разных значений числа используемых признаков N.

Как видно из рис. 1, с увеличением числа признаков N также возрастает практический порог для задания значения 8. При этом даже для небольших N вполне приемлемым является значение 8=0,5.

На рис. 2 представлен график усредненной зависимости ошибки полученных моделей Е от величины 8.

Как видно из рис. 2, при относительно малых значениях 8 наблюдается наибольшая средняя ошибка Е, которая существенно сокращается с увеличением значения 8. Наиболее сильное падение ошибки наблюдается в диапазоне значений 8 <0,4.

Рисунок 1 - Графики зависимостей V от 8 для разных

значений N редукции данных по затратам ресурсов

N° выборки Метод полного перебора Метод быстрой редукции Последовательный метод редукции

г, с т, Мб г, с т, Мб г, с т, Мб

1 0,5249 40,102 0,0111 0,004 0,0212 0,009

2 1,0486 160,039 0,0161 0,008 0,0336 0,018

3 0,0433 0,015 0,0845 0,036

4 0,0642 0,031 0,1344 0,072

5 0,4006 0,191 0,8402 0,448

6 10,0032 4,802 21,0021 11,208

7 40,0109 19,109 84,1093 44,801

p-ISSN 1607-3274. Радюелектронжа, шформатика, управлiння. 2016. № 4 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2016. № 4

8

Рисунок 2 - График усредненной зависимости ошибки полученных моделей Е от 5

Разработанные методы осуществляют редукцию выборки данных в рамках единого подхода к оценке индивидуальной информативности признаков и экземпляров, что позволяет сократить объем вычислений по сравнению с традиционным подходом, когда задачи отбора экземпляров и признаков решаются раздельно в рамках разных парадигм. Это позволяет существенно снизить затраты как вычислительных ресурсов, так и ресурсов памяти. 6 ОБСУЖДЕНИЕ

Метод полного перебора позволяет обеспечить наиболее точный результат решения задачи отбора информативных признаков и экземпляров минимального объема. Однако с практической точки зрения для большинства приложений данный метод оказывается не применимым.

Быстрый и последовательный методы редукции позволяют решать задачу сокращения размерности данных за приемлемое с практической точки зрения время. При этом методы обеспечивают требуемую точность при правильном подборе величины 5.

Результаты проведенных экспериментов позволяют рекомендовать задавать на практике значение 5 порядка 0,5. При этом для больших выборок и малом числе признаков значение 5 можно сокращать до 0,3-0,4. Для малых выборок, описываемых большим числом признаков значение 5 можно задавать порядка 0,7-0,8.

Отметим также, что предложенные методы автоматически определяют размер формируемой выборки, не требуя участия человека. ВЫВОДЫ

С целью решения задачи сокращения размерности данных при построении диагностических и распознающих моделей разработано математическое обеспечение, позволяющее осуществлять формирование выборок и отбор признаков в рамках единого подхода к оценке их значимости.

Научная новизна полученных результатов состоит в том, что:

- впервые предложен комплекс показателей, позволяющих количественно характеризовать индивидуальную ценность экземпляров и признаков в локальной окрестности в пространстве признаков;

- получили дальнейшее развитие методы переборного поиска, которые модифицированы путем учета в поисковых операторах предложенных индивидуальных оценок информативности экземпляров и признаков а

также метода сокращения размерности выборок данных для решения задач диагностирования и распознавания.

Практическая значимость полученных результатов заключается в том, что предложенные методы и комлекс показателей программно реализованы и исследованы при задач сокращения размерности данных. Проведенные эксперименты подтвердили работоспособность разработанного математического обеспечения и позволяют рекомендовать его для использования на практике.

Перспективы дальнейших исследований состоят в том, чтобы определить более быстрые способы расчета предложенных показателей информативности экземпляров, изучить их взаимосвязь с качеством синтезируемых моделей, исследовать предложенное математическое обеспечение на более широком классе практических задач диагностирования и распознавания образов. БЛАГОДАРНОСТИ

Работа выполнена в рамках госбюджетной научно-исследовательской темы Запорожского национального технического университета «Методы и средства вычислительного интеллекта и параллельного компьютинга для обработки больших объемов данных в системах диагностирования» (номер гос. регистрации 0116U007419) при частичной поддержке международнго проекта «Центры передового опыта для молодых ученых» Европейского Союза (№ 54413 7-TEMPUS-1 -2013-1-SK-TEMPUS-JPHES) при частичной поддержке международнго проекта «Центры передового опыта для молодых ученых» Европейского Союза (№ 544137-TEMPUS- 1-2013-1-SK-TEMPUS-JPHES).

СПИСОК ЛИТЕРАТУРЫ

1. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов : монография / С. А. Субботин, Ан. А. Олейник, Е. А. Гофман, С. А. Зайцев, Ал. А. Олейник ; под ред. С. А. Субботина. - Харьков : Компания СМИТ, 2012. - 318 с.

2. Russell E. L. Data-driven diagnosis Data-driven Methods for Fault Detection and Diagnosis in Chemical Processes / E. L. Russell, L. H. Chiang,R. D. Braatz. - London : Springer-Verlag, 2000. -192 p. DOI: 10.1007/978-1-4471-0409-4

3. Computational intelligence: a methodological introduction / [R. Kruse, C. Borgelt, F.Klawonn et. al.]. - London : SpringerVerlag, 2013. - 488 p. DOI: 10.1007/978-1-4471-5013-8_1

4. Олешко Д. Н. Построение качественной обучающей выборки для прогнозирующих нейросетевых моделей / Д. Н. Олешко, В. А. Крисилов, А. А. Блажко // Штучний штелект. - 2004. -№ 3. - С. 567-573.

5. Subbotin S. A. The training set quality measures for neural network learning / S. A. Subbotin // Optical memory and neural networks (information optics). - 2010. - Vol. 19, № 2. - P. 126-139. DOI: 10.3103/s 1060992x10020037

6. Субботин С. А. Критерии индивидуальной информативности и методы отбора экземпляров для построения диагностических и распознающих моделей / С. А. Субботин // Бюшка ште-лекту. - 2010. - № 1. - С. 38-42.

7. Encyclopedia of survey research methods / ed. P. J. Lavrakas. -Thousand Oaks: Sage Publications, 2008. - Vol. 1-2. - 968 p. DOI: 10.1108/09504121011011879

8. Hansen M. H. Sample survey methods and theory / M. H. Hansen, W. N. Hurtz, W. G. Madow. - Vol. 1 : Methods and applications. -New York : John Wiley & Sons, 1953. - 638 p.

9. Кокрен У Методы выборочного исследования / У Кокрен ; пер. с англ. И. М. Сонина ; под ред. А. Г. Волкова, Н. К. Дружинина. - М. : Статистика, 1976. - 440 с.

13. Chaudhuri A. Survey sampling theory and methods / A. Chaudhuri, H. Stenger. - New York : Chapman & Hall, 2005. - 416 p.

14.Субботш С. О. 1нтелектуальш системи : навч. noci6. / С. О. Субботш, А. О. Олшник; шд заг. ред. проф. С. О. Суббо-тша. - Запорiжжя : ЗНТУ 2014. - 218 с.

15. Биргер И. А. Техническая диагностика / И. А. Биргер. - М. : Машиностроение, 1978. - 240 с.

Статья поступила в редакцию 29.06.2016.

10. Multivariate analysis, design of experiments, and survey sampling / ed. S. Ghosh. - New York : Marcel Dekker Inc., 1999. - 698 p.

11. Smith G. A deterministic approach to partitioning neural network training data for the classification problem : dissertation ... doctor of philosophy in business / Smith Gregory. - Blacksburg : Virginia Polytechnic Institute & State University, 2006. - 110 p.

12. Bernard H. R. Social research methods: qualitative and quantative approaches / H. R. Bernard. - Thousand Oaks: Sage Publications, 2006. - 784 p.

Субботш С. О.

Д-р техн. наук, професор, завщувач кафедри програмних засобiв Запорiзького нацюнального техшчного ушверситету, Запорiжжя, Укра1на

КОМПЛЕКСНЕ СКОРОЧЕННЯ РОЗМ1РНОСТ1 ДАНИХ ДЛЯ ПОБУДОВИ Д1АГНОСТИЧНИХ I РОЗП1ЗНАВАЛЬНИХ МОДЕЛЕЙ ЗА ПРЕЦЕДЕНТАМИ

Виршено завдання скорочення розмiрностi даних при побудовi дiагностичних i розшзнавальних моделей. Об'ектом дослщження е процес дiагностування, керований даними. Предметом дослщження е методи редукцп даних для побудови дiагностичних моделей за прецедентами. Метою роботи е створення комплексу показнигав, що дозволяють юльюсно характеризувати щннгстъ екземплярiв i ознак, а також методу скорочення розмiрностi вибiрок даних для виршення завдань дiагностування та розшзнавання. Розроблено математич-не забезпечення, що дозволяе здшснювати формування вибiрок та вiдбiр ознак в рамках единого шдходу щодо ощнки 1х значимости Запропоновано комплекс показнигав, що дозволяють кiлькiсно характеризувати шдивщуальну цiннiсть екземплярiв i ознак у локальнш околицi в простер ознак. Отримали подальший розвиток методи переборного пошуку для скорочення розмiрностi вибiрок даних при вирiшеннi завдань дiагностування та розпiзнавання, якi модифжоваш шляхом урахування у пошукових операторах запропонованих шдивщуальних оцiнок iнформативностi екземплярiв i ознак. Запропонованi методи i комплекс показникiв програмно реалiзованi i дослiдженi шляхом вирiшення завдань скорочення розмiрностi даних. Проведенi експерименти шдтвердили працездатнiсть розроблено-го математичного забезпечення i дозволяють рекомендувати його для використання на практищ при виршенш завдань неруйнiвного дiагностування та розшзнавання образiв за ознаками.

Ключовi слова: вибiрка, екземпляр, ознака, скорочення розмiрностi даних, формування вибiрки, вiдбiр ознак, дiагностування. Subbotin S. A.

Dr.Sc., Professor, Head of the Department of Software Tools, Zaporizhzhya National Technical University, Zaporizhzhya, Ukraine THE COMPLEX DATA DIMENSIONALITY REDUCTION FOR DIAGNOSTIC AND RECOGNITION MODEL BUILDING ON PRECEDENTS

The problem of data dimensionality reduction for diagnostic and recognizing model construction is solved. The object of study is the process of data-driven diagnosis. The subject of study is the data reduction methods for diagnostic model construction on precedents. The purpose of work is to create a set of indicators to quantify the importance of instances and features, as well as a method of data sample dimensionality reduction in the diagnosis and pattern recognition and problem solving. The mathematical support for the sample formation and feature selection is developed on the base of common approach to the assessment of their significance. The set of indicators is proposed to quantify the individual informativity of instances and features in the local neighborhood in the feature space. The exhaustive search methods for data sample dimensionality reduction in the solution of recognition and diagnosis problems have been further developed. They are modified by taking into account of the offered individual estimations of informativity of instances and features in the search operators. The proposed methods and indicator complex are implemented as software and studied in the solution of data dimensionality reduction problems. The conducted experiments confirmed the efficiency of the developed mathematical tools and allow to recommend them for use in practice for solving the problems of non-destructive diagnosis and pattern recognition on features.

Keywords: sample, instance, feature, data dimensionality reduction, sampling, feature selection, diagnosis.

REFERENCES

Subbotin S. A., Olejnik An. A., Gofman E. A., Zajcev S. A., OlejnikAl. A.; pod red. Subbotina S. A. Intellektual'nye informacionnye tehnologii proektirovanija avtomatizirovannyh sistem diagnostirovanija i raspoznavanija obrazov : monografija. Har'kov, Kompanija SMIT, 2012, 318 p.

Russell E. L., Chiang L. H., Braatz R. D. Data-driven diagnosis Data-driven Methods for Fault Detection and Diagnosis in Chemical Processes. London, Springer-Verlag, 2000, 192 p. DOI: 10.1007/978-1-4471-0409-4

Kruse R., Borgelt C., Klawonn F. et. al. Computational intelligence:

a methodological introduction. London, Springer-Verlag, 2013,

488 p. DOI: 10.1007/978-1-4471-5013-8_1

Oleshko D. N., Krisilov V A., Blazhko A. A. Postroenie kachestvennoj

obuchayushhej vyborki dlya prognoziruyushhix nejrosetevyx modelej,

Shtuchnyj intelekt, 2004, No. 3, pp. 567-573.

Subbotin S. A. The training set quality measures for neural network

learning, Optical memory and neural networks (information optics),

2010, Vol. 19, No. 2, pp. 126-139. DOI: 10.3103/

s1060992x10020037

Subbotin S. A. Kriterii individual'noj informativnosti i metody otbora e'kzemplyarov dlya postroeniya diagnosticheskix i raspoznayushhix modelej, Bionika intelektu, 2010, No. 1, pp. 38-42.

7. Encyclopedia of survey research methods / ed. P. J. Lavrakas. Thousand Oaks, Sage Publications, 2008, Vol. 1-2, 968 p. DOI: 10.1108/09504121011011879

8. Hansen M. H., Hurtz W. N., Madow W. G. Sample survey methods and theory, Vol. 1, Methods and applications. New York, John Wiley & Sons, 1953, 638 p.

9. Kokren U., per. s angl. Sonina I. M.; pod red. Volkova A. G., Druzhinina N. K. Metody vyborochnogo issledovaniya. Moscow, Statistika, 1976, 440 p.

10. Ghosh S. ed. Multivariate analysis, design of experiments, and survey sampling. New York, Marcel Dekker Inc., 1999, 698 p.

11. Smith G. A deterministic approach to partitioning neural network training data for the classification problem : dissertation ... doctor of philosophy in business. Blacksburg, Virginia Polytechnic Institute & State University, 2006, 110 p.

12. Bernard H. R. Social research methods: qualitative and quantative approaches. Thousand Oaks, Sage Publications, 2006, 784 p.

13. Chaudhuri A., Stenger H. Survey sampling theory and methods. New York, Chapman & Hall, 2005, 416 p.

14. Subbotin S. O., Oliynyk A. O.; pid zag. red. prof. S. O. Subbotina Intelektual'ni systemy : navch. posib. Zaporizhzhya, ZNTU, 2014, 218 p.

15.Birger I. A. Tekhnicheskaya diagnostika. Moscow, Mashinostroenie, 1978, 240 p.

1

3

4

i Надоели баннеры? Вы всегда можете отключить рекламу.