Научная статья на тему 'Методы сокращения объема данных'

Методы сокращения объема данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
430
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В И. Дубровин

Рассмотрено решение задачи сокращения объема данных при построении математических моделей сложных объектов и процессов путем уменьшения количества признаков за счет исключения малозначимых признаков и уменьшения обучающего множества за счет исключения избыточных примеров. Описана программная реализация и приведены результаты применения предложенных методов при решении практических задач.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The solution of the data зіге reduction problem at a construction of mathematical models of complex objects and processes by decreasmg of features number at the expense of exception of non-significe features and decreasing of learning set at the expense of exception of redundant examples is consti dered. The program rnplementation is descried and the results of appUcation of offered methods at solution of the practical tasks are indicated.

Текст научной работы на тему «Методы сокращения объема данных»

3. ДСТУ 4145-2002. Державний стандарт УкраТни. ¡нфор-мацшш технолог^'. Криптограф1чний захист ¡нформацп. Цифровий тдпис, що грунтуеться на елттичних кривих. Формування та перев1рка. КиТв:-Держстандарт УкраТни, 2003.

4. Don Johnson, Alfred Menezes, Scott Vanstone. The Elliptic Curve Digital Signature Algorithm (ECDSA)// Certicom Research, Canada, 2001.

5. J.H. Silverman "The Arithmetic of Elliptic Curve", GTM 106, Springer-Verlag, New York, 1986

6. Koblitz N. Elliptic Curve Cryptosystems // Mathematics of Computation. 1987. Vol. 48, № 177.P.203-209.

7. Штанько C.B. Эллиптические кривые в криптографии // Проблемы информационной безопасности. Компьютерные системы. № 2, 2003, С. 65-74.

8. Качко Е.Г., Свинарев А.В., Головашич C.A. Методы и алгоритмы ускорения вычислений в несимметричных преобразованиях на эллиптических кривых. // Радиотехника: Всеукр. межвед. науч.-техн. сб. 2000, Вып. 114. С. 69-74.

9. Горбенко И.Д., Збитнев С.И. Расширенное поле Галуа. Вычислительная сложность простейших операций над расширенным полем. // Радиотехника: Всеукр. межвед. науч.-техн. сб. 2000, Вып. 114. С. 80-89.

10. Збитнев С.И. Проективная геометрия - не все так гладко. / / Радиотехника: Всеукр. межвед. науч.-техн. сб. 2003. 9 с.

11. Ростовцев А.Г. Алгебраические основы криптографии. -СПб.: НПО "Мир и семья", ООО "Интерлайн", 2000. -354 с.

12. Горбенко И.Д., Збитнев С.И., Поляков А.А. Сложность арифметических операций в группах точек эллиптических кривых для криптографических операций. // Радиотехника: Всеукр. межвед. науч.-техн. сб. 2001 Вып. 119. 5 с.

13. Лавриненко Д.И. Применение быстрого преобразования Фурье в криптографических преобразованиях. // Радиотехника: Всеукр. межвед. науч.-техн. сб. 2000, Вып. 114. C. 75-79.

14. Лавриненко Д.И. Оптимально расширенные поля в алгоритмах для эллиптических кривых..// Радиотехника: Все-укр. межвед. науч.-техн. сб. 2001. Вып. 119. С. 56-61.

15. Ростовцев А.Г., Буренкова А.П., Маховенко Е.Б. О комплексном умножении на эллиптических кривых. // Проблемы информационной безопасности. Компьютерные системы. №1, 1999. С. 90-91.

16. Маховенко Е.Б., Ростовцев А.Г. Быстрая арифметика для эллиптических кривых над расширенными полями. // Проблемы информационной безопасности. Компьютерные системы. №2, 1999. С. 50-54.

17. Маховенко Е.Б. Эллиптические кривые над полем характеристики 216 + 1 с хорошими криптографическими свойствами. // Безопасность информационных технологий. №3, 1997. C. 56-58.

Надшшла 02.04.2004 Шсдя доробки 08.10.2004

В cmammi проведено огляд nemodie оптим1зацп meudKocmi обчжленъ при крuпmoгрaфiчнux перетвореннях в грут крапок eлiпmичнo'i кривоi. Запропоновано euкoрucmo-eyeamu мemoди паралелъного програмування для збiлъшeння шeuдкocmi прямих пeрemeoрeнъ.

It is conducted the review of methods of optimization of computation rate in cryptographic transformations in the cluster of points of elliptical curve in the article. It was offered to use methods of multiple programming for increasing the rate of direct transformations.

УДК 681.32:007.52

В. И. Дубровин

МЕТОДЫ СОКРАЩЕНИЯ ОБЪЕМА ДАННЫХ

Рассмотрено решение задачи сокращения объема данных при построении математических моделей сложных объектов и процессов путем уменьшения количества признаков за счет исключения малозначимых признаков и уменьшения обучающего множества за счет исключения избыточных примеров. Описана программная реализация и приведены результаты применения предложенных методов при решении практических задач.

ВВЕДЕНИЕ

Управление качеством представляет собой область исследований, находящую широкое применение в самых различных сферах: в проектировании, производстве и эксплуатации изделий, в биологии, медицине и сельском хозяйстве, в экономике и социологии.

При построении автоматических и автоматизированных систем управления качеством, в частности, систем технической и биомедицинской диагностики, возникает задача разработки адекватных математических моделей сложных объектов и процессов.

На практике, как правило, приходится иметь дело с многомерными нелинейными объектами. Сбор, хранение и обработка информации о таких объектах представляет собой достаточно трудоемкую и ресурсоемкую задачу. Поэтому при построении математических моделей возникает необходимость сокращения объема данных, характеризующих моделируемые объекты, таким образом,

чтобы минимизировать количество исходных данных для моделирования и одновременно обеспечить требуемый уровень точности модели [1-5].

Для решения этой задачи в настоящей работе предлагается использовать два подхода:

- уменьшение размерности модели за счет исключения малозначимых признаков путем оценки информативности и отбора признаков;

- уменьшение обучающего множества за счет исключения избыточных экземпляров, что позволяет перейти от массива, содержащего информацию по всем п статистически обследованным объектам, к соответствующей информации по к эталонным образцам (к« п), где в качестве эталонных берутся специальным образом отобранные наиболее типичные представители классов объектов, полученные в результате разбиения множества объектов на однородные группы.

1 МЕТОДЫ ОЦЕНКИ ИНФОРМАТИВНОСТИ

И ОТБОРА ПРИЗНАКОВ

Известно большое количество методов, позволяющих оценивать информативность параметров (признаков). Однако ни один из них по отдельности не способен обеспечить получение адекватного результата для всех практических задач. Поэтому представляется актуальным ис-

пользовать комбинацию различных методов для получения интегрированной оценки информативности параметров (признаков).

Рассмотрим основные методы оценки информативности признаков. Обозначим: 5 - количество экземпляров в выборке; 5 - номер текущего экземпляра выборки; N -количество признаков; у5 - целевое значение, сопоставленное 5-му экземпляру (номер класса или числовая характеристика).

1А =

I (х] - Х^у - у)

I = 1

£ „ -2 £ 5 - 2 I (х] - х<) I (У' - У)

I = 1 5 = 1

, I = 1, •••, N,

У = V

+ I ™1Х1

I = 1

1В =

N

X

] = 1

-, I = 1, •..,N.

I \п

Информативность по минимуму энтропии г-го признака, дискретизированного на г интервалов, оценивают по формуле [8, 9]:

I =

"IРМ2Р?

где х] - значение г-го признака 5-го экземпляра выборки, х, у - средние арифметические значений г-го признака и целевого параметра, соответственно.

Весьма перспективной для оценки информативности признаков является методика, основанная на использовании искусственных нейронных сетей (НС) [6, 7], которые позволяют строить точные модели сложных объектов и процессов на основе многомерных наборов точечных данных, характеризующих данные объекты и процессы.

Наиболее простой моделью НС является однослойный персептрон, который преобразует входной вектор признаков х в выходную скалярную величину у в соответствии с формулой:

где хг - значение г-го признака экземпляра, подаваемое на г-й вход персептрона, то - порог нейрона, т^ - вес г-го входа нейрона, V - функция активации, которая является монотонной и ограниченной. В частности, при неотрицательных выходах нейрона такой функцией может быть сигмоидная функция у(х) = 1/( 1 + е ) [6, 7].

Для того, чтобы осуществить построение модели на основе персептрона, его необходимо обучить путем предъявления набора примеров. Процесс обучения пер-септрона заключается в итерационной настройке его весовых и пороговых коэффициентов. Обучение персеп-тронов традиционно осуществляют на основе итеративных алгоритмов [6, 7].

После обучения персептрона его весовые коэффициенты будут определять вклад каждого признака в выходную моделируемую величину. Вычисление относительной нейросетевой информативности г-го признака 1 предлагается производить по формуле:

где рг - вероятность попадания признака хг в г-й интервал диапазона его изменения.

Рассмотренные методы позволяют оценивать информативность признаков для построения количественных моделей. Однако на практике в большинстве случаев достаточно иметь качественную модель, что, например, имеет место в технической и биомедицинской диагностике. Для этого диапазон значений целевого параметра разбивается (дискретизируется) на заданное количество интервалов, а качественная оценка этого параметра указывает номер интервала, к которому относится экземпляр. В этом случае признаки будут тем информативнее, чем больше они несут информации для разделения экземпляров на классы, соответствующие определенным интервалам целевого параметра. Расчет информативности признаков для дискретизированного целевого параметра предлагается осуществлять на основе следующих методов.

Усредненный модуль коэффициента корреляции г-го признака и целевого параметра, дискретизированного на д интервалов, 1С может быть определен следующим образом. Последовательно в цикле для ] = 1, •.., д находят частные коэффициенты корреляции для /-го интерва-

А

ла целевого параметра аналогично 1 с единственным отличием: у5 определяет не абсолютное значение целевого параметра, а принадлежность данного экземпляра к /-му интервалу целевого параметра (у5 = 0, если значение целевого параметра экземпляра не относится к /-му интервалу целевого параметра, у5 = 1 - в противном случае). После чего находят усредненную сумму модулей частных коэффициентов корреляции для всех / = 1, ..., д.

Усредненная нейросетевая информативность г-го признака для целевого параметра, дискретизированного на д интервалов, 1; может быть определена следующим образом. Последовательно в цикле для / = 1, ..., д находят частные нейросетевые информативности для /-го интервала целевого параметра аналогично 1 В с единственным отличием: у определяет не абсолютное значение целевого параметра, а принадлежность данного экземпляра к /-му интервалу целевого параметра (у = 0, если значение целевого параметра экземпляра не относится к /му интервалу целевого параметра; у = 1 - в противном случае). После чего находят усредненную сумму частных нейросетевых информативностей для всех / = 1, ... , д.

Усредненную статистическую информативность г-го признака для целевого параметра, дискретизирован-ного на д интервалов, 1Р определяют по формуле [6]:

IР = I IР ,

2 = 1

где

Р (X А - X?) 2

1,2 = -^2-, если ° = °хА = V

2

= 0 5 (о, - схБ)

( \ 1 1

(о £)2 (о a)2

(

+ 0, 5

11

(о a)2 (о £)2

-A -Б

(X; - X, ), если о A Ф о Б ,

X,- X,

где X: - среднее значение г-го признака, ov - среднек-j . j вадратическое отклонение г-го признака.

Индексы A и Б подразумевают вычисление соответствующей величины только для экземпляров соответствующего класса (т. е. экземпляров, относящихся или не относящихся к z-му интервалу).

Усредненные эвристические оценки информативности признаков для целевого параметра, дискретизирован-ного на q интервалов Ii определяются следующим образом. Последовательно в цикле для j = 1, .., q находят частные эвристические оценки информативности признаков для j-го интервала целевого параметра. После чего для всех признаков находят суммы частных эвристических оценок информативностей для всех j = 1, ... , q.

Частные эвристические оценки информативности признаков для j-го интервала целевого параметра определяют путем подсчета N,, г = 1, ..., N - количества разбиений на интервалы с одинаковым номером класса (у = 0, если значение целевого параметра экземпляра не относится к j-му интервалу целевого параметра; у =1 - в противном случае) диапазона изменения каждого г-го признака.

Значение частной эвристической оценки информативности г-го признака для j-го интервала целевого параметра принимают равным min (N)/N, j = 1, ..., N.

j :

Диагностическая ценность г-го признака, дискрети-зированного на m интервалов, для целевого параметра, дискретизированного на q интервалов, I: определяется по формуле [3]:

I" = 1

Р (Xi/yß

+ I IР(yJ)Р(Xi/») -РЩЗ

J = 1 z = 1 iz

параметра, Р (у. / х!2) - вероятность того, что экземпляр попадает в /-й интервал целевого параметра, при условии, что г-й признак попадет в г-й интервал.

Для интеграции результатов, полученных после применения рассмотренных методов по отдельности, предлагается использовать относительную нормированную комбинированную оценку значимости признаков IУ, для расчета которой предлагается использовать следующую методику.

В начале рассчитываются суммарные оценки информативности признаков по нормированным значениям информативностей для каждого признака:

IJ =

I

kе {A, ...,I}

Ik - min(Ik) .

max(Ik) - min(Ik)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Затем производится расчет относительных нормированных комбинированных оценок значимости признаков:

У* У*

У = _ 11 - т1п( I )

J* J*

max(I, ) - min(I, )

где Р (у.) - вероятность того, что экземпляр относится к /му интервалу целевого параметра, Р( х!2) - вероятность попадания г-го признака в г-й интервал, Р( х^/у.) - вероятность попадания г-го признака в г-й интервал, при условии, что экземпляр попадает в /-й интервал целевого параметра.

Информативность по количеству вносимой информации для г-го признака, дискретизированного на т интервалов, для целевого параметра, дискретизирован-ного на q интервалов, I1 определяется по формуле [3]:

1 ч ч т

11 = 1 + I Р(у.) I I р(У{)р(ук/Х;2) 1оер(у,/х,г),

. = 1 к = 1 г = 1

где Р (у.) - вероятность того, что экземпляр относится к /му интервалу целевого параметра, Р(х,г) - вероятность попадания г-го признака в г-й интервал, Р (х!2/у.) - вероятность попадания г-го признака в г-й интервал, при условии, что экземпляр попадает в /-й интервал целевого

2 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

ПОДСИСТЕМЫ ОТБОРА ПРИЗНАКОВ

Рассмотренные методы оценки информативности и отбора признаков представляют существенный интерес для решения практических задач управления качеством. Однако, к сожалению, в большинстве программных комплексов для управления качеством и математического моделирования (например, в пакетах MATLAB, Mathe-matica, Statistica и др.) данные методы отсутствуют. Поэтому возникла необходимость разработки программной реализации рассмотренных методов.

В качестве базового языка программирования для реализации процедур отбора признаков был выбран язык программного комплекса MATLAB фирмы MathWorks Inc., поскольку, во-первых, данный комплекс является одним из наиболее распространенных и популярных, во-вторых, он содержит большой арсенал средств для разработки математических приложений, в-третьих, программы, написанные на языке MATLAB, могут быть автоматически переведены в программы на языке Си с помощью компилятора, входящего в комплект поставки программного комплекса MATLAB, в-четвертых, программы на языке MATLAB могут быть легко интегрированы с диагностическим программным комплексом [10, 11].

Для каждого метода отбора признаков была разработана отдельная процедура. При этом все процедуры имели одинаковые типы входных и выходных данных и одинаковый формат вызова. Это позволяет рассматривать совокупность данных процедур как новую подсистему (Toolbox) комплекса MATLAB. Однако непосредственный вызов процедур в среде MATLAB представляется крайне неудобным для практического применения, поскольку требует достаточно высокой программистской квалификации пользователя.

m

Оценка информативности и отбор признаков

Отбор признание по минимуму энтропии Р Оценка модуля коэффициента корреляции Р Нейросетевая оценка информативности Р Усредненная оценка модуля коэффициента корреляции Р Усредненная нейросетевая информативность I* Усредненная статистическая информативность Усредненная эвристическая информативость Диагностическая ценность признаков Информативность по количеству вносимой информации Отбор признаков по минимуму энтропии

Индивидуальная параллельная Относительная нормированная оценка информативности <' комбинированная оценка

информативности

Рисунок 1 — Форма «Меню» интерфейсной программы-оболочки

Рисунок 2 - Форма «Данные и результаты» интерфейсной программы-оболочки

Рисунок 3 — Схема взаимодействия пользователя с программными системами

Поэтому гораздо более удобным, чем непосредственная работа с комплексом МЛТЬЛБ, является использование специально разработанной программной оболочки, которая имеет простой и удобный пользовательский интерфейс и гибко интегрируется как с пакетом МЛТЬЛБ, так и с диагностическим программным комплексом [10, 11]. Графическое изображение интерфейса программной оболочки представлено на рис. 1 и рис. 2. Схема взаимодействия пользователя, программной оболочки, комплекса МЛТЬЛБ, диагностического программного комплекса и подсистемы процедур отбора признаков показана на рис. 3.

3 МЕТОД ФОРМИРОВАНИЯ ОБУЧАЮЩЕЙ

ВЫБОРКИ

При построении моделей сложных объектов и процессов по точечным данным на основе статистических, вероятностных и топологических методов распознавания образов, а также нейронных сетей возникает задача разбиения исходной выборки данных на обучающую и контрольную.

Традиционно обучающую и контрольную выборки выделяют с помощью случайных чисел или линейным разбиением исходной выборки. Однако при этом в контрольную выборку могут попасть такие экземпляры, которые сильно удалены в метрическом пространстве признаков от экземпляров, попавших в обучающую выборку. В этом случае модель, построенная по обучающей выборке, будет плохо работать даже для контрольной выборки, не говоря уже об адекватности этой модели исследуемому объекту.

Поэтому возникает задача разработки алгоритма, позволяющего разбивать исходную выборку таким образом, чтобы обучающая выборка содержала все экземпляры, находящиеся в узловых точках, представленные в исходной выборке, а контрольная выборка содержала экземпляры близкие (в смысле расстояния) к соответствующим экземплярам обучающей выборки.

Заметим, что в данной работе не ставится задача определения минимально достаточного объема исходной выборки, поскольку в работе предполагается, что исследователь не имеет возможности получить дополнительные экземпляры, а исходная выборка достаточно репрезентативна для получения требуемой модели.

С другой стороны, при обучении нейронных сетей одной из важнейших задач является сокращение времени обучения сети при обеспечении заданного уровня точности прогнозирования, что может быть достигнуто за счет сокращения обучающей выборки путем удаления из нее экземпляров, не находящихся в узловых точках (т. е. избыточных примеров).

Для решения обеих вышеописанных задач предлагается использовать следующий алгоритм.

Шаг 1. Инициализация параметров алгоритма построения обучающей выборки. Задать исходную выборку экземпляров хисх и сопоставленные им номера классов или значения прогнозируемого параметра £исх, а также Ь - количество разбиений исходной выборки.

Занести в переменную N количество признаков, характеризующих экземпляры, а в переменную М - количество экземпляров исходной выборки. Для задач классификации принять ширину допустимого интервала вариации прогнозируемого параметра ¿Ь = 0, для задач численной оценки прогнозируемого параметра принять dt = |шах(^сх) - шш(^сх)|/L, где шт(а) и шах(а) - минимальное и максимальное значения вектора а, соответственно. Установить счетчик newind = 1.

Шаг 2. Вычислить расстояния между экземплярами исходной выборки.

R (p, q ) =

N 2

(xp - x*) , p * q ;

i = 1

Realmax, p = q,

p = 1, ..., M, q = 1, ..., M,

где Realmax - максимально представимое в ЭВМ число, xq - значение г-го признака p-го экземпляра.

Шаг 3. Найти в матрице расстояний R минимальный элемент minx и его индексы q и p, а также максимальный элемент maxx, при условии, что при нахождении минимума и максимума здесь и далее игнорируются элементы, равные Realmax.

Шаг 4. Принять a = |maxx - minx|/(2L).

Шаг 5. Если min x < Realmax, то перейти на шаг 6, в противном случае - перейти на шаг 13.

Шаг 6. Принять: x^Cnewind) = xTOX(q), ¿^(newind = = ¿исх(q), где xg6 и tQg - массивы экземпляров обучающей выборки и сопоставленных им прогнозируемых значений, соответственно. Установить: newind = ne wind + 1, значение текущего минимального элемента в строке teck = = R(q, p). Найти минимальный элемент mminx и его индексы mqmin и mpmin среди элементов q-й строки матрицы R.

Шаг 7. Если mminx < Realmax, то перейти на шаг 8, в противном случае - перейти на шаг 11.

Шаг 8. Установить значение указателя удаленного экземпляра из столбца deleted = 0 (в матрице R нумерация строк и столбцов должна начинаться с 1).

Шаг 9. Если |teck -R(q, mpmin) < a, то перейти на шаг 10, иначе принять: deleted = mpmin, R(q, mpmin) = = Realmax, R (mpmin, q) = Realmax и перейти на шаг 11.

Шаг 10. Если |?исх(mpmin) - ^исх(q)| < dt, то принять: R (v, mpmin) = Realmax, R (mpmin, v) = Realmax, v = = 1, ..., M, в противном случае - принять: xQg(newind) = = x^-^mpmin), tQ6(newind) = ^^(mpmin), newind = = newind + 1, R(v, mpmin) = Realmax, R(mpmin, v) = = Realmax, v =1, ..., M.

Шаг 11. Найти минимальный элемент mminx и его индексы mqmin и mpmin среди элементов q-й строки матрицы R.

Шаг 12. Перейти на шаг 7.

Шаг 13. Принять: R(v, q) = Realmax, R(q, v) = Realmax, v = 1, ... , M, указатель удаленного экземпляра из строки dstr = q. Найти в матрице расстояний R минимальный элемент minx и его индексы q и p.

Шаг 14. Перейти на шаг 5.

Шаг 15. Если (deleted Ф dstr) и (deleted > 0), тогда принять: ^o6(newind) = ^cx(deleted), £o6(newind) = = ^cx(deleted).

Шаг 16. Останов.

В результате выполнения данного алгоритма для исходной выборки ^исх и сопоставленного ей набора значений £исх мы получим обучающую выборку ^об и сопоставленный ей набор значений t^. Остаток экземпляров из ^исх и tmx, не вошедших в ^об и t^ составит контрольную выборку.

Данный метод, также как и методы отбора признаков, был реализован на языке MATLAB в виде отдельной процедуры и служит дополнением диагностического программного комплекса [5, 6].

4 ЭКСПЕРИМЕНТЫ И РЕЗУЛЬТАТЫ

Для оценки применимости рассмотренных методов и апробации программных процедур на их основе осуществлялся отбор признаков для решения различных задач управления качеством. В частности решались: задача диагностики лопаток газотурбинных авиадвигателей по спектрам свободных затухающих колебаний после ударного возбуждения [12-14], задача классификации сельскохозяйственных растений на культурные и сорные [15-18], а также задача моделирования суммарного показателя качества жизни больных бронхитом по данным клинических лабораторно-инструментальных исследований [19-20]. Результаты проведенных экспериментов представлены в таблице 1.

Таблица 1 - Результаты экспериментов по отбору признаков

Задача Размер исходного набора признаков Размер сокращенного набора признаков

Диагностика лопаток 10000 1000

Классификация растений 55 21

Моделирование суммарного 47 35

показателя качества жизни

больных бронхитом

Как видно из таблицы 1, количество признаков после отбора сократилось во всех задачах. Заметим, что для сокращенного набора признаков точность построенных моделей была несколько ниже, чем для исходного набора признаков, что объясняется частичной потерей информации, содержавшейся в исключенных признаках. Однако точность моделей, полученных на основе сокращенного набора признаков, удовлетворяла требованиям решаемых задач.

Для исследования алгоритма формирования обучающей выборки на его основе осуществлялось разбиение исходных выборок на обучающие и контрольные для вышеописанных прикладных задач. Результаты экспериментов представлены в таблице 2.

Как видно из табл. 2, применение алгоритма формирования обучающей выборки позволяет существенно

(на 20-60% и более в разных опытах) сократить объем данных, используемых при построении модели. На основе полученных обучающих выборок были построены модели для решения соответствующих задач. Тестирование полученных моделей показало, что они обеспечивают практически такую же точность, что и модели, построенные на всей исходной выборке. Однако модели, полученные на основе сформированной обучающей выборки, были менее сложными, более быстро работающими и менее требовательными к ресурсам ЭВМ.

Таблица 2 - Результаты экспериментов по формированию обучающей выборки

Задача Размер исходной выборки Размер построенной обучающей выборки Размер построенной контрольной выборки

Диагностика лопаток 32 13 19

Классификация растений 248 121 127

Моделирование суммарного показателя качества жизни больных бронхитом 86 49 37

Применение предложенных методик позволяет на практике существенно сокращать описание сложных объектов и процессов, что, в свою очередь, позволяет упростить модели этих объектов и значительно снижает требования к ресурсам ЭВМ.

ПЕРЕЧЕНЬ ССЫЛОК

1. Дубровин В.И. Оценка объема выборки при построении регрессионных моделей. // Системный анализ и принятие решений в задачах автоматизированного обеспечения качества и надежности изделий приборостроения и радиоэлектроники: Тезисы докладов Российской научно-технической конференции. - Махачкала: ПО Азимут, 1991. С. 78.

2. Дубровин В.И, Определение необходимого объема экспериментальных данных для моделирования технологического процесса. // Комплексная механизация и автоматизация производства: Тезисы докладов семинара. -Пенза: ПДЭНТЗ, 1991. С. 16-17.

3. Дубровин В.И, Планирование количества измерений при статистическом описании объектов исследования. // Методы и средства оценки и повышения надежности приборов, устройств, и систем: Тезисы докладов международной научно-технической конференции. - Пенза, ПДЭНТЗ, 1992. С. 79.

4. Дубровин В.И, Минимизация объема экспериментальных данных при управлении качеством. // Моделирование и контроль в задачах обеспечения надежности радиоэлектронных устройств: Материалы международного научно-технического семинара. - Шяуляй, 1992., С. 44.

5. Дубровин В.И, Формирование выборки в задачах моделирования технических систем // Контроль и управление в технических системах: Тезисы докладов научно-технической конференции стран СНГ. - Винница: ВПИ, 1992. С. 61.

6. Дубровин В.И., Субботин С.А. Онлайновые методы управления качеством: гибридная диагностика на основе нейронных сетей // Радюелектрошка. ¡нформатика. Управлшня. 2001. № 1. С. 158-163.

7. Горбань А. Н., Россиев Д.А. Нейронные сети на персональном компьютере // Новосибирск: Наука, 1996. - 276 с.

8. Биргер И.А. Техническая диагностика. - М.: Машиностроение, 1978. - 240 с.

9. Мозгалевский А.В., Гаскаров Д.В. Техническая диагностика. - М.: Высшая школа, 1975. - 207 с.

10. Дубровин В.И., Субботин С.А. Программный комплекс нейросетевой диагностики // Программные продукты и системы, 2000. № 3, С. 21-23.

11. Дубровин В.И., Субботин С.А. Нейросетевая подсистема диагностического программного комплекса // Нейрокомпьютеры: разработка и применение, 2001, № 2. С. 55-62.

12. Дубровин В.И., Субботин С.А. Нейросетевая диагностика лопаток энергетических установок // Датчики и преобразователи информации систем измерения, контроля и управления / Сборник материалов XII научно-технической конференции с участием зарубежных специалистов. Под ред. проф. В. Н. Азарова. М.: МГИЭМ, 2000. - С. 240-242.

13. Адаменко В.А., Дубровин В.И., Жеманюк П.Д., Субботин С.А. Диагностика лопаток авиадвигателей по спектрам свободных затухающих колебаний после ударного возбуждения // Автоматика - 2000. М1жнародна кон-ференц1я з автоматичного управлшня, Льв1в, 11-15 вересня 2000: Прац1 у 7 томах. - Т. 5. - Льв1в: Держав-ний НД1 ¡нформацшноТ ¡нфраструктури, 2000.- С. 7-13.

14. Адаменко В. А., Басов Ю.Ф., Дубровин В. И., Субботин С.А. Нейросетевая обработка сигналов в задачах диагностики газотурбинных авиадвигателей // Цифровая обработка сигналов и ее применение: 3-я Международная конференция и выставка. - М.: РНТОРЭС им. А.С. Попова, 2000. - С. 40-45.

15. Dubrovin V., Morshchavka S., Piza D., Subbotin S. Plant recognition by genetic algorithm based back-propagation // Proceedings, Remote Sensing 2000: from spectroscopy to remotely sensed spectra. Soil Science Society of America, Bouyocos Conference, Corpus Christi, Texas, October 2225, 2000. - P. 47-54.

16. Дубровин В. И., Морщавка С. В., Пиза Д.М., Субботин С.А. Нейросетевая идентификация объектов по спектрам // Труды международной конференции «Идентификация систем и задачи управления» SICPRO' 2000. -М.: ИПУ РАН, 2000. - С. 1190-1204 (CD-ROM).

17. Dubrovin V.I., Subbotin S.A., Morshchavka S.V., Piza D.M. The plant recognition on remote sensing results by the feed-forward neural networks // Smart Engeneering Systems Design: Neural Networks, Fuzzy Logic, Evolutionary Programming, Data Mining, and Complex Systems, ANNlE 2000: the 10-th Anniversary edition / ed. C. H. Daglietal. -Missouri-Rolla: ASME Press, 2000, vol. 10, P. 697-701.

18. Дубровин В. И., Морщавка С. В., Пиза Д.М., Субботин С.А. Распознавание растений по результатам дистанционного зондирования на основе многослойных нейронных сетей // Математичш машини i системи, 2000. № 2-3. С. 113-119.

19. Качество жизни больных хроническими обструктивными болезнями легких / Е.И. Шмелев, М.В. Беда, P. W. Jones и др. // Пульмонология. - 1998. № 2. С. 79-81.

20. Перцева Т.О., Ботвiнiкова Л.А. Медико-сошальш аспек-ти визначення якост життя у хворих на бронхiальну астму та хрошчний обструктивний бронх^ // Укра'нський пульмонолопчний журнал.-2000, № 1. - С. 19-21.

Надшшла 18.11.2004

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Розглянуто розв'язок задачг скорочення обсягу даних при побудов1 математичних моделей складних об'ект1в та процесгв шляхом зменшення кглькостг ознак за рахунок виключення малозначимих ознак та зменшення навчально'( множини за рахунок виключення зайвих прикладгв. Описана програмна реал1зац1я та наведет результати застосу-вання запропанованих методгв при виргшенш практичних задач.

The solution of the data size reduction problem at a construction of mathematical models of complex objects and processes by decreasing of features number at the expense of exception of non-significe features and decreasing of learning set at the expense of exception of redundant examples is considered. The program implementation is described and the results of application of offered methods at solution of the practical tasks are indicated.

i Надоели баннеры? Вы всегда можете отключить рекламу.