УДК 004.93
Субботин С. А.
Д-р техн. наук, профессор, профессор кафедры программных средств Запорожского национального технического
университета, Украина
БЫСТРЫЙ МЕТОД ВЫДЕЛЕНИЯ ОБУЧАЮЩИХ ВЫБОРОК ДЛЯ ПОСТРОЕНИЯ НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ ПРИНЯТИЯ РЕШЕНИЙ _ПО ПРЕЦЕДЕНТАМ_
Решена задача формирования обучающих выборок для автоматизации построения нейросетевых моделей по прецедентам. Предложен метод формирования выборок, который автоматически выделяет из исходной выборки обучающую и тестовую выборки, не требуя загрузки всей исходной выборки в память ЭВМ, осуществляя поэкземплярную обработку исходной выборки с хэширующим преобразованием на одномерную ось, формирует эталоны кластеров на обобщенной оси, минимизируя их число, что позволяет повысить скорость формирования выборок, снизить требования к вычислительным ресурсам и памяти ЭВМ и обеспечить приемлемый уровень точности синтезируемых моделей. Разработанный метод не требует многократных проходов по выборке, ограничиваясь всего тремя просмотрами. При этом метод хранит в оперативной памяти только один текущий экземпляр и набор сформированных одномерных эталонов, который минимизирован по объему. В отличие от методов на основе случайного отбора и кластер-анализа предложенный метод автоматически определяет размер формируемых обучающей и тестовой выборок, не требуя участия человека. Разработано программное обеспечение, реализующее предложенный метод, на основе которого решена практическая задача построения модели принятия решений для индивидуального прогнозирования состояния пациента, больного гипертонией.
Ключевые слова: выборка, формирование выборки, экземпляр, нейронная сеть, индивидуальное прогнозирование, обучение по прецедентам.
номенклатура
ЭВМ - электронная вычислительная машина; cq (k) - k-й хэш-эталон q-го класса;
C* - набор хэш-эталонов k-го класса; d - расстояние; Е - ошибка модели;
Еоб - ошибка обученной нейромодели при распознавании обучающей выборки;
Ерасп - ошибка обученной нейромодели при распознавании тестовой выборки; f - критерий качества; FQ - структура нейросетевой модели; Г - номер ближайшего хэш-эталона к хэшу рассматриваемого экземпляра;
Ind - набор номеров экземпляров класса; j - номер текущего признака; K - число классов;
k - указатель числа эталонов q-го класса; M - объем использованной оперативной памяти; n - размерности входа; N - число входных признаков; O - символ Ландау;
opt - условное обозначение оптимума; Q - число кластеров; q - номер класса;
Realmax - максимальное вещественное число, пред-ставимое в разрядной сетке ЭВМ; s - номер текущего экземпляра S - число прецедентов в выборке; S - объем сформированной обучающей выборки; t - время, затраченное на формирование выборки; to6 - время, затраченное на обучение;
w - набор значений параметров нейронной сети; X - исходная выборка;
x'- набор входных признаков в обучающей выборке; x - набор входных признаков в исходной выборке; x. - j-й входной признак в исходной выборке; „max
Xj - максимальное значение j-го признака; min
х. - минимальное значение j-го признака; X - s-й экземпляр выборки; х* - хэш s-го экземпляра;
xsj - значение j-го входного признака для s-го прецедента;
Хоб - обучающая выборка. X - тестовая выборка;
тест. l 7
у - выходной признак в исходной выборке; у - значение выходного признака для s-го прецедента; у' - выходной признак в обучающей выборке; X - вычислительная сложность хэш-преобразования одного экземпляра.
введение
Для автоматизации поддержки принятия решений в диагностике возникает необходимость построения диагностических моделей. Зачастую на практике из-за отсутствия или недостатка экспертных знаний построение диагностических моделей предполагает использование экспериментальных наблюдений за состоянием диагностируемого объекта, в процессе которого с помощью методов искусственного интеллекта осуществляется извлечение знаний из данных. Искусственные нейронные и нейро-нечеткие сети [1] являются наиболее широко применяемым классом методов искусственного интеллекта при построении моделей по прецедентам.
© Субботин С. А., 2015
DOI 10.15588/1607-3274-2015-1-6
p-ISSN 1607-3274. Радюелектронжа, шформатика, управлiння. 2015. № 1 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2015. № 1
Объектом исследования является процесс построения диагностических моделей на основе нейронных сетей.
Методы обучения нейросетей [1, 2], как правило, характеризуются высокой итеративностью, а также значительными затратами времени на обучение нейросетей при большой размерности обучающих данных. В таких случаях применение нейросетевых технологий оказывается затруднительным. Это вызывает необходимость сокращения объема данных, используемых при обучении нейромоделей.
Предмет исследования составляют методы формирования обучающих выборок из исходных выборок большого объема для обучения нейросетевых моделей.
Целью данной работы являлась разработка метода, позволяющего сократить время обучения нейросетей при построении модели по большому объему прецедентов за счет разбиения исходной выборки большого объема на обучающую и тестовую выборки, обеспечивая минимизацию объема обучающей выборки и ее топологическую репрезентативность относительно исходной выборки. 1 постановка задачи
Пусть мы имеем исходную выборку X = <x, y> - набор S прецедентов о зависимости y(x), x = {x1}, y={y}, s = 1, 2, ..., S, характеризующихся набором N входных признаков {x.}, j = 1, 2, ..., N, где j - номер признака, и выходным признаком у. Каждый s-й прецедент представим как <xs, у>, xs={xsj}, где Xs. - значение j-го входного, а y - значение выходного признака для s-го прецедента (экземпляра) выборки, у" е. {1, 2, ..., K}, где K - число классов, K>1.
Тогда задача синтеза нейросетевой модели зависимости y(x) будет заключаться в определении таких структуры F() и значений параметров w нейронной сети, при которых будет удовлетворен критерий качества модели f(F(), w, <x, у>) —>opt, где opt - условное обозначение оптимума [1]. Обычно критерий качества обучения нейросетей определяют как функцию ошибки модели:
1 S
E (ys - F(w,Xs))2 ^ min.
2 s=1
Для задач с дискретным выходом ошибку обученной сети можно характеризовать также формулой:
E =
100%
S
ys - F(w, Xs )
^ min.
В случае, когда исходная выборка имеет большую размерность, перед построением нейромодели необходимо решить задачу выделения обучающей выборки меньшего объема (дано: <x, y>, надо: <x', у'>, x'e{x"}, У={ys|x ex'}, S = ly'|, S<S, f(<x', y >, <x,y>) — opt).
Для оценки качества сформированной выборки возможно использовать широкий набор предложенных показателей [3-5]. Однако их расчет требует существенных затрат вычислительных ресурсов, поэтому для упрощения расчетов данную задачу можно рассматривать в конструктивистской постановке (дано: <x, y>, надо: <x , y >, x'e{x}, y'={ys|xsex'}, S' = y l S<S).
2 литературный обзор
Методы извлечения выборок [6-12] выделяют: вероятностные и детерминированные.
Вероятностные методы [6-8, 12] предполагают случайное извлечение набора экземпляров из исходной выборки, причем каждый экземпляр исходной выборки имеет ненулевую вероятность, которая может быть точно определена, быть включенным в формируемую выборку. К вероятностным методам извлечения выборок относят:
- простой случайный отбор (simple random sampling): из исходной выборки случайным образом отбирается заданное число экземпляров;
- систематический отбор (systematic sampling): исходная выборка упорядочивается определенным образом и разбивается на последовательные группы экземпляров, в каждой из которых выбирается для включения в формируемую выборку объект с заданным порядковым номером в группе;
- стратифицированный отбор (stratification sampling): исходная выборка разделяется на непересекающиеся однородные подмножества - страты, представляющие все виды экземпляров, в каждом из которых применяется случайный или систематический отбор;
- вероятностный пропорциональный к объему отбор (probability proportional to size sampling): используется, когда имеется «вспомогательная переменная» или «метрика объема», которая предполагается связанной с интересующей переменной для каждого экземпляра, вероятность выбора для каждого элемента исходной выборки будет пропорциональна его метрике объема;
- отбор на основе кластер-анализа (duster sampling): исходная выборка разделяется на кластеры, из группы экземпляров каждого кластера случайно выбирается некоторое подмножество экземпляров для формируемой выборки.
Достоинствами данных методов являются их относительная простота и возможность оценки ошибки выборки, а недостатками - то, что они не гарантируют, что сформированная выборка малого объема будет хорошо отображать свойства исходной выборки, а также не будет избыточной и не будет искусственно упрощать задачу.
Детерминированные методы формирования выборок [6, 9-11] предполагают извлечение экземпляров на основе предположений об их полезности (информативности), при этом некоторые экземпляры могут не быть выбраны или вероятность их выбора не может быть точно определена; они, как правило, основаны на кластерном анализе и стремятся обеспечить топологическое подобие исходной выборке. К детерминированным методам формирования выборок относят методы:
- удобного отбора (œnvenience sampling): формирует нерепрезентативную выборку из наиболее легко доступных для исследования объектов;
- квотного отбора (quota sampling): исходная выборка разделяется на отличающиеся свойствами подгруппы, после чего из каждой подгруппы выбираются объекты на основе заданной пропорции);
- целевого отбора (judgmental (purposive) sampling): объекты извлекаются из исходной выборки исследователем в соответствии с его мнением относительно их пригодности для исследования.
Недостатком данных методов является невозможность оценивания ошибки сформированных выборок. Достоинством детерминированных методов является то, что они могут выявить наиболее значимые для решения задачи построения диагностической модели прецеденты, которые также могут быть использованы для инициализации распознающих моделей и ускорения процесса обучения. Поэтому для достижения цели, поставленной в работе, в качестве базиса для формирования выборок предлагается выбрать детерминированные методы.
Однако следует отметить, что детерминированные методы, основанные на кластерном анализе, являются сложно применимыми для выборок большого объема, поскольку предполагают расчет расстояний между всеми экземплярами и манипуляции с матрицей расстояний. Следовательно, для повышения скорости обработки данных необходимо сократить объем вычислений за счет исключения необходимости расчета расстояний, что также позволит сократить требования к памяти ЭВМ.
3 материалы и методы
Для того, чтобы при ограниченном объеме оперативной памяти ЭВМ обеспечить обработку исходной выборки большой размерности, предлагается осуществлять поэкземплярную обработку исходной выборки, загружая в память только один текущий экземпляр на каждой итерации. При этом заменять ^-мерное представление экземпляра на одномерное посредством отображения его координат на обобщенную ось с использованием хэширующего преобразования, сохраняющего топологию исходного пространства признаков в синтезируемом одномерном пространстве.
Для экономии как ресурсов памяти, так и вычислительных ресурсов предлагается вместо расчета расстояний между всеми экземплярами целесообразно оперировать только расстояниями между текущим рассматриваемым экземпляров и сформированными центрами кластеров, причем в одномерном пространстве хэш-кодов.
Для сокращения влияния человеческого фактора на результаты формирования выборки число эталонов предлагается не задавать, а определять автоматически, начиная с одного и наращивая по мере необходимости.
С учетом изложенных выше идей, предложенный метод может быть представлен следующим образом.
Этап инициализации. Установить: 5=1, С* = 0, кд=0, д = 1, ..., К.
Этап хэширующего преобразования. Если 5<5', тогда считать с внешнего носителя памяти очередной экземпляр выборки х в оперативную память. Определить на основе значений признаков экземпляра X его хэш х*, используя одно из преобразований, предложенных в [13], в противном случае - перейти к этапу разбиения выборки.
Этап формирования набора хэш-эталонов (хэшей центров кластеров). Если в наборе хэш-эталонов для класса у5 нет ни одного эталона, т. е. С* =0 и ку = 0, тогда записать хэш текущего экземпляра как эталон в набор хэш-эталонов для класса у5 по формуле (1):
ку = к* +1, с/ (ку) = X*, с/ = С* и с?" (к*), (1)
записать номер текущего экземпляра 5 в набор номеров экземпляров класса у5: 1пй (у5, ку ) = 5, после чего найти расстояние от нового хэш-эталона до существующих хэш-эталонов всех кластеров всех классов по формуле (2):
а (с*у5 (ку), су (к)) = а (с*у5 (к), с*у5 (ку)) =
с* (ку ) - с*у (к)
к = 1,...,| сд |,д = 1,...,К, (2)
установить: а(су (ку ), су (ку )) = Ява1тах и перейти к этапу обработки нового экземпляра.
В случае если набор хэш-эталонов непустой
(С* Ф 0), тогда определить расстояния от хэша х* рассматриваемого экземпляра х5 до хэш-эталонов всех кластеров данного класса:
а(х*, с* (к)) =
х* - с* (к)
к = 1,...,| С*у
затем найти среди имеющихся в наборе хэш-эталонов кластеров класса у5, номер ближайшего хэш-эталона к хэшу х* рассматриваемого экземпляра х5:
I* = а^тш{а(х*, с/ (к))},к = 1,...,| С* |,
к
после чего если а(х*,с* (/*))<а(с* (/*),сд(р)), д = 1,...,К, р = 1,...,| Сд |, тогда пропустить 5-й экземпляр и перейти к этапу обработки нового экземпляра, в противном случае - добавить новый хэш-эталон на основе 5-го экземпляра по формуле (1), записать номер текущего экземпляра 5 в набор номеров экземпляров класса у5:
Ш(у5, к* ) = 5, после чего найти расстояние от нового хэш-эталона до существующих хэш-эталонов всех кластеров всех классов по формуле (2), установить:
а(с* (ку ), с* (ку )) = Ява1тах и перейти к этапу обработки нового экземпляра.
Этап обработки нового экземпляра. Установить 5=5+1, перейти к этапу хэширующего преобразования.
Этап разбиения выборки. Все экземпляры, исходной выборки, на основе которых сформированы хэш -эталоны кластеров, занести в обучающую выборку Хоб, а остальные - в тестовую выборку X :
^ г ^ тест.
Xоб. = {< х5,у5 >\1па(у5,ку ) = 5,5 = 1,...,к = 1,...,| С* |},
Хтест. = Х \ Хоб.
Предложенный метод позволяет загружать в оперативную память ЭВМ полное признаковое описание только одного текущего экземпляра и не требует расчета матрицы расстояний между экземплярами, заменяя их расстояниями от рассматриваемого экземпляра до одномерных хэш-эталонов, что позволяет существенным образом снизить требования к ресурсам оперативной памяти и осуществлять обработку выборок очень большого размера.
р-К8К 1607-3274. Радюелектронжа, шформатика, управлiння. 2015. № 1 е-ЕЗБЫ 2313-688Х. Каёю Ше^гоп^, Сошриег Баепое, Сопйо1. 2015. № 1
Для предложенного метода вычислительная сложность в так называемом «мягком смысле» может быть оценена как O(2NS+4SQ+S X ), где X - вычислительная сложность хэш-преобразования одного экземпляра, которая, очевидно, является функцией числа признаков N. Исходя из практического опыта, положим, что Х=^ Q = 1п S, N=0,01^ Тогда вычислительная сложность метода может быть оценена как O(0,01S2+4S 1п S).
Пространственная сложность метода может быть оценена как 0(NS+SK+3N+Q2+Q). Приняв К=2 и Q = 1п S, N=0,01S, получим оценку пространственной сложности 0(0,01S2+2,03S+(1n S)2+1n S).
В терминах размерности входа 0,01S2, приняв
для упрощения 1п S «0,5N«0,05S, мы получим грубую оценку вычислительной сложности предложенного метода порядка 0(21«) и грубую оценку пространственной сложности - 0(n+2,08S+0,0025S2). 4 эксперимент^1
Для проверки работоспособности предложенного метода он был программно реализован как дополнение к компьютерной программе «Автоматизированная система синтеза нейросетевых и нейро-нечетких моделей для неразрушающей диагностики и классификации образов по признакам» (Свидетельство о регистрации авторского права на произведение № 35431 от 21.10.2010).
Разработанное математическое обеспечение использовалось для проведения экспериментов по решению задачи индивидуального прогнозирования состояния здоровья больного гипертонической болезнью по результатам экспериментально полученных наблюдений за состоянием здоровья пациента и погодными условиями.
Исходная выборка данных была получена в г Запорожье (Украина) и содержала наблюдения за период с 2002 г по 2009 г, где каждый экземпляр представлял собой набор данных, характеризующих состояние пациента в определенную часть дня. В качестве временных характеристик использовались дата (год, месяц, день), код дня недели, время (час) наблюдения, код части дня (0 - утро, 1 - вечер). В качестве объективных клинико-лабораторных показателей использовались наблюдаемое артериальное давление (систолическое и диастолическое, мм. рт. ст.), пульс (ударов в минуту), сведения о приеме лекарств (Амло (0 -нет, 1 - да), Эгилок (0 - нет, 1 - да), Берлиприл (0 - нет, 1 -да)), В качестве субъективных показателей использовались характеристики самочувствия (наличие экстросистолы (0 - нет, 1 - есть), наличие боли в голове (0 - нет, 1 - есть), наличие боли в затылке (0 - нет, 1 - есть), наличие пульсации (0 - нет, 1 - есть), наличие боли в левом боку (0 - нет, 1 - есть), наличие боли в области сердца (0 - нет, 1 - есть), нехватка воздуха (0 - нет, 1 - есть), наличие боли в животе (0 - нет, 1 - есть), общая слабость (0 - нет, 1 - есть)). В качестве метеорологических характеристик [14] использовались (температура воздуха (°С), атмосферное давление (мм. рт. ст.), тип облачности (0 - нет, 1 - малая, 2 -облачно, 3 - пасмурно), наличие грозы (0 - нет, 1 - есть), направление ветра (0 - штиль, 1- северный, 2 - северовосточный, 3 - восточный, 4 - юго-восточный, 5 - южный, 6 - юго-западный, 7 - западный, 8 - северо-западный), скорость ветра (м/с), данные солнечной активности (Мй II индекс [15]). Фрагмент исходных данных в графическом виде представлен на рис. 1.
20 0
1 11 21 31 41 51 61 71 81 91101111121131141151161171181191
5
Рисунок 1 - Визуализация фрагмента выборки данных: 1 - день недели, 2 - время, 3 - систоличесокое давление, 4 - диастолическое давление, 5 - пульс
Полученные наблюдения методом «окон» были использованы для получения выборки для решения задачи качественного прогнозирования состояния пациента на ближайшую вторую половину суток по данным предыдущих наблюдений: в качестве входных признаков использовались данные за предыдущие (утро и вечер) и текущие сутки (утро), а в качестве выхода - состояние пациента вечером в текущие сутки (0 - нормальное, 1 -ухудшение состояния, сопровождающееся повышением артериального давления).
Сформированная выборка использовалась для формирования обучающей и контрольной выборок на основе предложенного метода, а также ряда известных методов формирования выборок.
После чего для каждой из сформированных выборок строились прогнозирующие модели на основе трехслойных нейронных сетей прямого распространения сигнала. Каждая нейронная сеть содержала на входе N = 3 Х26 = 78 признаков, число нейронов входного слоя - 10, число нейронов среднего слоя - 5, число нейронов выходного слоя - 1. Все нейроны использовали весовую (дискриминантную) функцию взвешенная сумма, а функцию активации - тангенциальный сигмоид.
Перед подачей на входы сети сигналы нормирова-
лись по формуле: х* =
* _ тт
л] л]
„шах _ хтт
Х] Х]
Обучение нейросетей осуществлялось на основе метода Левенберга-Марквардта [1, 2].
5 результаты
Результаты проведенных экспериментов представлены в табл. 1.
Как видно из табл. 1, предложенный метод позволяет существенно сократить объем обучающей выборки, обеспечивая при этом высокую точность как обучения, так и распознавания (качественного прогнозирования).
Разработанный метод не требует многократных проходов по выборке, ограничиваясь всего тремя просмотрами. Причем, если заранее известны граничные значения признаков, то число просмотров выборки можно сократить до двух. При этом метод хранит в оперативной памяти только один текущий экземпляр и набор сформированных одномерных эталонов, который минимизирован по объему. Это позволяет существенно снизить затраты как вычислительных ресурсов, так и ресурсов памяти.
Таблица 1 - Результаты экспериментов
Метод формирования выборки S/S t, сек. M, Мегабайт Еоб., %. to&, сек. E % -^расп., /и.
Случайный отбор (без загрузки всей исходной выборки в память) 0,5 1,35 1,62 0 1768,6 2,01
0,25 0,68 0,81 0 936,6 4,14
0,1 0,27 0,38 0 373,2 7,42
0,05 0,14 0,16 0 191,3 12,97
Кластер-анализ 0,26 690,37 101,34 0 920,4 0,41
Предложенный метод 0,21 93,62 0,79 0 912,5 0,49
6 обсуждение
Предложенный метод формирования выборок по сравнению с методом на основе случайного отбора [6] обеспечивает существенно большую точность прогнозирования, сокращая при этом время обучения. Однако предложенный метод требует больших затрат времени на формирование выборки, чем метод случайного отбора [6].
По сравнению с методом формирования выборок на основе кластер-анализа [9] предложенный метод обеспечивает сопоставимую точность прогнозирования, сокращая при этом время формирования выборки. Однако предложенный метод требует существенно меньших затрат времени и ресурсов памяти при формировании выборки, чем метод на основе кластер-анализа [9].
Также, в отличие от методов на основе случайного отбора и кластер-анализа, предложенный метод автоматически определяет размер формируемых обучающей и тестовой выборок, не требуя участия человека.
Недостатком предложенного метода является то, что он требует задания преобразования на обобщенную ось и зависит от его требований к вычислительным ресурсам.
Эффективность применения разработанного метода будет тем выше, чем больше признаков будет характеризовать исходный набор данных и чем больше будет экземпляров в исходной выборке данных. При небольшом объеме исходной выборки эффект от применения разработанного метода будет незначительным.
выводы
В работе решена задача формирования обучающих выборок для автоматизации построения нейросетевых моделей по прецедентам.
Научная новизна результатов, полученных в статье, состоит в том, что впервые предложен метод формирования выборок, который, автоматически выделяет из исходной выборки обучающую и тестовую выборки, не требуюя загрузки всей исходной выборки в память ЭВМ, осуществляя поэкземплярную обработку исходной выборки с хэширующим преобразованием на одномерную ось, формирует эталоны кластеров на обобщенной оси, минимизируя их число, что позволяет повысить скорость формирования выборок, снизить требования к вычислительным ресурсам и памяти ЭВМ и обеспечить приемлемый уровень точности синтезируемых моделей.
Практическая значимость полученных результатов заключается в том, что разработано программное обеспечение, реализующее предложенный метод, на основе которого решена практическая задача построения модели принятия решенй для индивидуального прогнозирования состояния пациента, больного гипертонией.
Перспективы дальнейших исследований состоят в том, чтобы определить эффективные по времени и зат-
ратам памяти хэширующие преобразования экземпляров выборки, сохраняющие топологию классов в пространстве признаков, исследовать предложенный метод на более широком классе задач количественного и качественного прогнозирования и распознавания образов.
благодарности
Работа выполнена в рамках госбюджетной научно-исследовательской темы Запорожского национального технического университета «Интеллектуальные информационные технологии автоматизации проектирования, моделирования, управления и диагностирования производственных процессов и систем» (номер гос. регистрации 0112U005350) при частичной поддержке междуна-роднго проекта «Центры передового опыта для молодых ученых» программы Tempus Европейской Комиссии (№ 544137-TEMPUS-1-2013-1-SK-TEMPUS-JPHES). список литературы
1. Субботш С. О. Нейронш мережта : навчальний поабник / С. О. Субботш, А. О. Олшник ; тд заг. ред. проф. С. О. Суббо-тша. - Заж^жжя : ЗНТУ, 2014. - 132 с.
2. Computational intelligence: a methodological introduction / [R. Kruse, C. Borgelt, F.Klawonn et. al.]. - London : SpringerVerlag, 2013. - 488 p. DOI: 10.1007/978-1-4471-5013-8_1
3. Олешко Д. Н. Построение качественной обучающей выборки для прогнозирующих нейросетевых моделей / Д. Н. Олешко, В. А. Крисилов, А. А. Блажко // Штучний штелект. - 2004. -№ 3. - С. 567-573.
4. Subbotin S. A. The training set quality measures for neural network learning / S. A. Subbotin // Optical memory and neural networks (information optics). - 2010. - Vol. 19. - № 2. - P. 126-139. DOI: 10.3103/s 1060992x10020037
5. Субботин С. А. Критерии индивидуальной информативности и методы отбора экземпляров для построения диагностических и распознающих моделей / С. А. Субботин // Бюшка ште-лекту. - 2010. - № 1. - С. 38-42.
6. Encyclopedia of survey research methods / ed. P. J. Lavrakas. -Thousand Oaks: Sage Publications, 2008. - Vol. 1-2. - 968 p. DOI: 10.1108/09504121011011879
7. Hansen M.H. Sample survey methods and theory / M. H. Hansen, W. N. Hurtz, W. G. Madow. - Vol. 1 : Methods and applications. -New York: John Wiley & Sons, 1953. - 638 p.
8. Кокрен У Методы выборочного исследования / У Кокрен ; пер. с англ. И. М. Сонина ; под ред. А. Г. Волкова, Н. К. Дружинина. - М. : Статистика, 1976. - 440 с.
9. Multivariate analysis, design of experiments, and survey sampling / ed. S. Ghosh. - New York: Marcel Dekker Inc., 1999. - 698 p.
10. Smith G. A deterministic approach to partitioning neural network training data for the classification problem : dissertation ... doctor of philosophy in business / Smith Gregory. - Blacksburg: Virginia Polytechnic Institute & State University, 2006. - 110 p.
11. Bernard H. R. Social research methods: qualitative and quantative approaches / H. R. Bernard. - Thousand Oaks: Sage Publications, 2006. - 784 p.
12. Chaudhuri A. Survey sampling theory and methods / A. Chaudhuri, H. Stenger. - New York : Chapman & Hall, 2005. - 416 p.
p-ISSN 1607-3274. Радюелектронжа, шформатика, управлiння. 2015. № 1 e-ISSN 2313-688X. Radio Electronics, Computer Science, Control. 2015. № 1
13. Subbotin S. A. Methods and characteristics of locality-preserving transformations in the problems of computational intelligence / S. A. Subbotin // Радюелектронжа, шформатика, управлшня. -2014. - № 1. - С. 120-128.
14. Дневник погоды [Электронный ресурс]. - Москва : ООО «НПЦ «Мэп Мейкер», 2014. - Режим доступа: http:// www.gismeteo.ru/diary/5093
15. Weber M. Observations of Solar Activity (Mg II Index) by GOME, SCIAMACHY, and GOME-2 [Electronic resource]. - Bremen: University of Bremen, 2014. - Access mode: http://www.iup.uni-bremen.de/gome/gomemgii.html
Статья поступила в редакцию 15.12.2014.
После доработки: 20.01.2015.
Субботш С. О.
Д-р техн. наук, професор, професор кафедри програмних засобiв Запорiзького нащонального техшчного ушверситету, Запорiжжя, Украша
ШВИДКИЙ МЕТОД ВИД1ЛЕННЯ НАВЧАЛЬНИХ ВИБ1РОК ДЛЯ ПОБУДОВИ НЕЙРОМЕРЕЖЕВИХ МОДЕЛЕЙ ПРИЙНЯТТЯ Р1ШЕНЬ ЗА ПРЕЦЕДЕНТАМИ
Виршено завдання формування навчальних вибiрок для автоматизацп побудови нейромережевих моделей за прецедентами. Запро-поновано метод формування вибiрок, який автоматично видшяе з вихщно! вибiрки навчальну та тестову вибiрки, не вимагаючи завантаження вае! вихiдноi вибiрки у пам'ять ЕОМ, здiйснюючи поекземплярну обробку вихщно! вибiрки з гешуючим перетворенням на одновимiрну вiсь, формуе еталони кластерiв на узагальненiй оа, мiнiмiзуючи i^ число, що дозволяе пiдвищити швидкiсть формування вибiрок, знизити вимоги до обчислювальних ресурав i пам'ятi ЕОМ i забезпечити прийнятний рiвень точностi синтезованих моделей. Розроблений метод не вимагае багаторазових проходiв по вибiрцi, обмежуючись лише трьома переглядами. При цьому метод збершае в оперативнш пам'ятi тшьки один поточний екземпляр i набiр сформованих одновимiрних еталонiв, який мiнiмiзовано за обсягом. На вiдмiну вщ методiв на основi випадкового вщбору та кластер-аналiзу запропонований метод автоматично визначае розмiр формованих навчальноi та тестовоi вибiрок, не вимагаючи учасп людини. Розроблено програмне забезпечення, що реалiзуе запропонований метод, на основi якого вирiшена практична задача побудови моделi прийняття рiшень для шдивщуального прогнозування стану пацiента, хворого на гшертошю.
Ключовi слова: вибiрка, формування вибiрки, екземпляр, нейронна мережа, шдивщуальне прогнозування, навчання за прецедентами.
Subbotin S. A.
Dr.Sc., Professor, Professor of Department of Software Tools, Zaporizhzhya National Technical University, Zaporizhzhya, Ukraine
THE QUICK METHOD OF TRAINING SAMPLE SELECTION FOR NEURAL NETWORK DECISION MAKING MODEL BUILDING ON PRECEDENTS
The problem of training sample forming is solved to automate the construction of neural network models on precedents. The sampling method is proposed. It automatically selects the training and test samples from the original sample without the need for downloading the entire original sample to the computer memory. It processes an initial sample for each one instance with hashing transformation to a one-dimensional axis, forming cluster templates on the generalized axis, minimizing their number. This allows to increase the speed of sampling, to reduce the requirements to computing resources and to computer memory and to provide an acceptable level of accuracy of the synthesized models. The developed method does not require multiple passes through the sample, being limited by only three viewing. At the same time the method keeps in a random access memory only the current instance and the generated set of one-dimensional templates, which is minimized by volume. Unlike the methods based on random sampling and cluster analysis the proposed method automatically determines the size of the formed training and test samples without the need for human intervention. Software realizing proposed method is developed. On its basis the practical task of decision-making model building to predict the individual state of the patient with hypertension is resolved.
Keywords: sample, sampling, instance, neural network, individual prediction, training on precedents.
references
Subbotin S. O., Olijnik A. O. Nejronni merezhi : navchal'nyj posibnik ; pid zag. red. prof. S. O. Subbotina. Zaporizhzhya, ZNTU, 2014, 132 p.
Kruse R., Borgelt C., Klawonn F. et. al. Computational intelligence: a methodological introduction. London, Springer-Verlag, 2013, 488 p. DOI: 10.1007/978-1-4471-5013-8_1 Oleshko D. N., Krisilov V. A., Blazhko A. A. Postroenie kachestvennoj obuchayushhej vyborki dlya prognoziruyushhix nejrosetevyx modelej. Shtuchnyj intelekt, 2004, No. 3, pp. 567573.
Subbotin S. A. The training set quality measures for neural network learning, Optical memory and neural networks (information optics), 2010, Vol. 19, No. 2, pp. 126-139. DOI: 10.3103/ s1060992x10020037
Subbotin S. A. Kriterii individual'noj informativnosti i metody otbora e'kzemplyarov dlya postroeniya diagnosticheskix i raspoznayushhix modelej, Bionika intelektu, 2010, No. 1, pp. 38-42.
Encyclopedia of survey research methods. Ed. P. J. Lavrakas. Thousand Oaks, Sage Publications, 2008, Vol. 1-2, 968 p. DOI: 10.1108/09504121011011879
Hansen M. H., Hurtz W. N., Madow W. G. Sample survey methods and theory, Vol. 1, Methods and applications. New York, John Wiley & Sons, 1953, 638 p.
8
10
11
12
Kokren U. Metody vyborochnogo issledovaniya; per. s angl. I. M. Sonina ; pod red. A. G. Volkova, N. K. Druzhinina. Moscow, Statistika, 1976, 440 p.
Multivariate analysis, design of experiments, and survey sampling. Ed. S. Ghosh. New York, Marcel Dekker Inc., 1999, 698 p. Smith G. A deterministic approach to partitioning neural network training data for the classification problem : dissertation ... doctor of philosophy in business. Blacksburg, Virginia Polytechnic Institute & State University, 2006, 110 p. Bernard H. R. Social research methods: qualitative and quantative approaches. Thousand Oaks, Sage Publications, 2006, 784 p. Chaudhuri A., Stenger H. Survey sampling theory and methods. New York, Chapman & Hall, 2005, 416 p.
13. Subbotin S. A. Methods and characteristics of locality-preserving transformations in the problems of computational intelligence, Radioelektronika, informatika, upravlinnya, 2014, No. 1, pp. 120-128.
14. Dnevnik pogody [E'lektronnyj resurs]. Moscow, OOO «NPC «Me'p Mejker», 2014, Rezhim dostupa: http://www.gismeteo.ru/ diary/5093
15. Weber M. Observations of Solar Activity (Mg II Index) by GOME, SCIAMACHY, and GOME-2 [Electronic resource]. Bremen, University of Bremen, 2014, Access mode: http://www.iup.uni-bremen.de/gome/gomemgii.html
2
3