УДК 004.93
С.А. СУББОТИН
МЕТОД ИЗВЛЕЧЕНИЯ ОБУЧАЮЩИХ ВЫБОРОК ИЗ ИСХОДНЫХ ВЫБОРОК БОЛЬШОГО ОБЪЕМА ДЛЯ ДИАГНОСТИРОВАНИЯ И РАСПОЗНАВАНИЯ ОБРАЗОВ
Анотація. Вирішено задачу автоматизації формування виборок для побудови діагностичних і розпізнавальних моделей за прецедентами. Запропоновано метод витягу навчальних виборок, що забезпечує збереження у сформованій підвиборці найважливіших топологічних властивостей вихідної вибірки, не вимагаючи при цьому завантаження у пам'ять ЕОМ вихідної вибірки, а також численних проходів вихідної вибірки, що дозволяє скоротити обсяг вибірки і зменшити вимоги до ресурсів ЕОМ.
Ключові слова: вибірка, відбір екземплярів, редукція даних, інтелектуальний аналіз даних, скорочення розмірності даних.
Аннотация. Решена задача автоматизации формирования выборок для построения диагностических и распознающих моделей по прецедентам. Предложен метод извлечения обучающих выборок, который обеспечивает сохранение в сформированной подвыборке важнейших топологических свойств исходной выборки, не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов исходной выборки, что позволяет сократить объём выборки и уменьшить требования к ресурсам ЭВМ.
Ключевые слова: выборка, отбор экземпляров, редукция данных, интеллектуальный анализ данных, сокращение размерности данных.
Abstract. The task of sample formation automaticity for diagnostic and recognizing model building on precedents is solved. Extraction method of training samples is offered. It maintains saving the important topological properties of the original sample in a formed sub-sample, and does not require download of the original sample to the computer memory, and the numerous passages of the original sample. This reduces the size of the sample and reduces the resource requirements of a computer.
Keywords: sample, example selection, data reduction, data mining, data dimensionality reduction.
1. Введение
При решении задач построения диагностических и распознающих моделей на основе нейронных и нейро-нечётких сетей [1-4], а также деревьев решений [3], зачастую необходимо использовать выборки данных большого объема. Это приводит к необходимости использования ЭВМ с большим объемом оперативной памяти, а также существенно увеличивает затраты машинного времени на обработку данных. Поэтому актуальной задачей является сокращение размерности выборок данных.
Традиционным и наиболее широко применяемым подходом при решении данной задачи является использование методов отбора информативных признаков [1-5], которые удаляют из исходного набора наименее информативные признаки, и методов конструирования признаков [5, 6], которые заменяют исходный набор признаков рассчитанным на его основе набором искусственных признаков меньшего размера. Однако, если изначально заданный набор признаков не является избыточным либо объем выборки чрезвычайно велик для представления и обработки в памяти ЭВМ, применение этих методов оказывается на практике затруднительным, а результаты их работы приводят к потере существенной для дальнейшего анализа информации либо не позволяют сохранить исходную интерпрета-бельность данных.
© Субботин С.А., 2013
ISSN 1028-9763. Математичні машини і системи, 2013, № 1
Другим, существенно реже используемым на практике, подходом при решении данной задачи является сокращение объёма выборки. Как правило, это реализуется посредством извлечения случайных подвыборок из исходной выборки [7-9], что может приводить к формированию нерепрезентативных в топологическом смысле выборок вследствие невключения в них редко встречающихся экземпляров на границах классов, представленных в исходной выборке.
В [10-13] предложены переборные и эволюционные методы формирования выборок, а также модель (комплекс критериев) качества выборки, которые позволяют обеспечить формирование из исходной выборки подвыборок меньшего объема, обладающих в системе используемых критериев наилучшими свойствами. Однако для выборок очень большого объема применение данных методов и модели оказывается весьма затратным как с вычислительной точки зрения, так и с точки зрения ресурсов оперативной и дисковой памяти.
Целью данной работы является создание метода автоматического извлечения обучающих выборок из исходных выборок большого объёма.
2. Постановка задачи
Пусть мы имеем исходную выборку X =< х, у > - набор 8 прецедентов о зависимости у ( X ), х = {х*}, у
= {У*} , 5 = 1,2,. .,8, характеризующихся набором N входных признаков {х]}, у = 1,2,...,N, где у - номер признака, и выходным признаком у . Каждый * -й
С С С I С I * . с
прецедент представим как < х , у >, х = {ху.}, где ху - значение у -го входного, а у -
значение выходного признака для с -го прецедента (экземпляра) выборки, у* е {1,2,...,К} ,
где К - число классов, К > 1.
Тогда задача сокращения объёма выборки может быть представлена как задача формирования (выделения) из исходной выборки X =< х, у > подвыборки X*, XX,
меньшего объёма 88, обладающей наиболее важными свойствами исходной выборки.
Поскольку для задач автоматизации поддержки принятия диагностических решений, а также задач автоматической классификации наиболее важным является сохранение топологии классов, то формируемая подвыборка должна обеспечивать сохранение экземпляров исходной выборки, находящихся на границах классов.
3. Метод формирования и редукции выборок большого объема
Для обнаружения экземпляров, находящихся на границах классов, в общем случае необходимо решить задачу кластер-анализа, что требует определения расстояний между всеми экземплярами выборки. Это, в свою очередь, требует либо загрузки всей выборки в память ЭВМ (что не всегда возможно из-за ограниченного объёма оперативной памяти), либо многократных проходов по исходной выборке (что вызывает значительные затраты машинного времени), а также приводит к необходимости хранить и обрабатывать матрицу расстояний между экземплярами большой размерности.
Для устранения отмеченных недостатков предлагается заменить обработку экземпляров на обработку их описаний в виде числовых скаляров, которые характеризуют положение экземпляров в пространстве признаков. При этом, заменив экземпляры, характеризующиеся N признаками, на представления в виде скаляров, мы отобразим N -мерное пространство признаков в одномерное пространство.
Исходная выборка, будучи отображённой в одномерное пространство, позволит выделить на одномерной оси интервалы её значений, соответствующие кластерам разных
классов в исходном N -мерном пространстве. Определив границы интервалов на одномерной оси, можно найти ближайшие к ним экземпляры, которые и составят формируемую подвыборку.
Приведенные выше идеи лежат в основе предлагаемого метода.
Этап инициализации. Задать исходную выборку данных X =< х, у > .
Этап анализа выборки. Вначале, путём просмотра всей исходной выборки, определить для каждого ] -го признака, j = 1,2,...,N, его максимальное и минимальное значения:
x"1 ах = max {xS}, x]fin = min {xS},
s=1,2,...,S
s=1,2,...,S
а также координаты центров классов:
5
cqj = 4тI(x.SlyS = q}, q=1,2,...,K,
Sq
s =1
где Б4 - число экземпляров исходной выборки, принадлежащих к q -му классу. После чего определить:
- размах диапазона значений і -го признака:
5 j = xj
max - xmin, j = 1,2,..., N;
расстояния между центрами классов по і -му признаку:
, і = 1,2,...,N, q, р = 1,2,...,К;
rq - rp
rj rj
йі р) = а і (^ q)
- число интервалов значений і -го признака, 5 > К :
С (
n
round
ln
5 j S
0,5S,
min (d j (q, p )}
q=1,2,..., K;
^ p=q+1, q+2,..., K у у
min (dj (q, p)} = 0;
min (dj(q,p)} > 0;
q=1,2,..., K; p=q+1,q+2,...,K
q=1,2,...,К; р=q+1,q+2,..., К
8 у
- длину интервала значений j -го признака: 0 у =^~.
Этап преобразования выборки. Для каждого 5-го экземпляра х*, * = 1,2,...,Б опре-
делить:
ка:
номер интервала, в который попадает экземпляр х по оси значений і -го призна-
rj (Xs)
round
1,ej=
1+
Єj > 0; j = 1,2,...,N;
e
- нормированное интервальное расстояние от экземпляра х до начала отсчета системы координат:
Я( х5 )
N
£(х5)2 либо Я(х5) = тіп {гу(х5)};
І=1
І=1,2,..., N
- угол, определяющим положение экземпляра х в пространстве интервалов значений признаков:
Г „ ^
а( х5) = —агооо8 к
N
Ё гі (х5)
І=1
І
£ (о (х5 ))2
І=1
- индекс экземпляра хх: ^ х5 ) + а(х5 ).
Это позволит отобразить исходную выборку на одномерную ось I. Заметим, что при этом произойдет потеря части информации вследствие неявного квантования пространства признаков при преобразовании.
После чего следует сформировать набор X ={х5}, элементы которого
х5 =< Г, у5,5 > необходимо отсортировать в порядке возрастания значений 15.
Этап выделения граничных экземпляров выборки. По сформированной одномерной оси I можно выделить скопления (области пространства) близко расположенных экземпляров одного класса, выделив интервалы для каждого из них.
Для этого следует:
- определить границы интервалов её значений, внутрь которых попадают экземпляры, принадлежащие только к одному классу. Вначале установить число интервалов: к = 0 и номер текущего экземпляра 5 = 1. Затем до тех пор, пока 5 < £, выполнять в цикле: принять: к = к +1, установить левую границу к -го интервала: 1к = 15, установить номер класса к -го интервала: Кк = у5, далее до тех пор, пока 5 < £ и у5+1 = Кк, наращивать
5 :5 = 5 +1, после чего установить правую границу текущего интервала: гк = 15. Занести число интервалов в к1;
- из элементов X оставить только экземпляры, ближайшие к границам интервалов:
X' = X'\{< Г,у", 5 >| ^к = 1,2,..., к! : 1к = Г V гк = Г }.
Этап формирования новой выборки. При просмотре исходной выборки X занести в формируемую обучающую выборку X* те экземпляры из X, номера которых содержатся в
X':
* * с с
" = 1,2,...,£ : X = X и{< х5,у5 >| 5е X'}.
Из экземпляров X, не вошедших в X*, при необходимости можно сформировать тестовую выборку.
4. Анализ вычислительной и пространственной сложности метода
Предложенный метод не требует хранения в оперативной памяти ЭВМ всей исходной выборки: необходимо хранить только текущий обрабатываемый экземпляр и набор индексов
X, причём для ЭВМ с малым объемом оперативной памяти возможно хранение набора X во внешней памяти (это, однако, замедлит скорость работы метода).
Предложенный метод при эффективной программной реализации делает всего три прохода по исходной выборке (один - на этапе анализа выборки, один - на этапе преобразования выборки и один - на этапе формирования новой выборки) и порядка 2 + 81п 8 проходов по оси индексов (один - на этапе выделения граничных экземпляров выборки, один - на этапе формирования новой выборки, а остальные - при сортировке на этапе преобразования выборки).
Его пространственную сложность можно оценить как О (+ 58 + 6N + К2 - К) -
при полной загрузке исходной выборки в оперативную память и О (58 + 7N + К2 - К) -
при поэкземплярном доступе к исходной выборке, хранящейся во внешней памяти, при условии, что формируемая выборка хранится во внешней памяти.
Вычислительная сложность метода может быть оценена как
О(14N8 + 68 + 81п8 + N + (N +1)(К2 - К)) без учёта затрат на доступ во внешнюю память, которые определяются особенностями конкретной ЭВМ и программной реализации метода.
Полагая из практических соображений для простоты К = 2, N << 8 (например, N » 0,0018 ) и обозначив размерность исходной выборки п = N8 » 0,00182, а также, полагая 81п 8»88, получим оценки сложности метода: вычислительной -
О (0,01482 +14,0038)» О (14п + 442,8Ь/п), пространственной при поэкземплярном доступе - О(5,0078)» О(158,34>/п).
5. Эксперименты и результаты
Для экспериментальной проверки работоспособности предложенного метода была разработана его программная реализация на языке пакета МЛТЬЛБ, с помощью которой проводились эксперименты по сокращению объема выборок данных для различных практических задач [14-16], характеристики которых приведены в табл. 1.
Таблица 1. Характеристики исходных и сформированных выборок
Задача К N 8 п 8 * 8 * / 8
Диагностирование патологий плода по кардиотокограмме [14] 3 23 2126 48898 236 0,11
Предсказание типа лесного покрова [15] 7 54 581012 31374648 51926 0,09
Результаты проведенных экспериментов подтвердили работоспособность и практическую применимость предложенного метода, а также программного обеспечения, реализующего его. Как видно из табл. 1, использование предложенного метода позволяет существенно сократить объём выборки (в 9-11 раз), не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов по исходной выборке, что существенно снижает требования к ресурсам ЭВМ, обеспечивая при этом сохранение в сформированной подвыборке важнейших для последующего анализа топологических свойств исходной выборки.
б. Заключение
В работе решена актуальная задача автоматизации формирования выборок для построения диагностических и распознающих моделей по прецедентам.
Научная новизна результатов работы заключается в том, что впервые предложен метод извлечения обучающих выборок, который обеспечивает сохранение в сформированной подвыборке важнейших для последующего анализа топологических свойств исходной выборки, не требуя при этом загрузки в память ЭВМ исходной выборки, а также многочисленных проходов по исходной выборке, что позволяет существенно сократить объём выборки, существенно уменьшить требования к ресурсам ЭВМ.
Практическая значимость результатов работы состоит в том, что разработано программное обеспечение, реализующее предложенный метод формирования и редукции выборок, а также проведены эксперименты по их исследованию при решении практических задач, результаты которых позволяют рекомендовать разработанный метод для использования на практике при решении задач интеллектуального анализа данных.
Дальнейшие исследования могут быть сосредоточены на разработке новых способов формирования описаний экземпляров в виде обобщённых показателей, разработке реализаций предложенного метода для параллельных вычислительных систем и распределенной обработки данных.
Работа выполнена в рамках госбюджетных научно-исследовательских тем Запорожского национального технического университета "Методы, модели и устройства принятия решений в системах распознавания образов" (№ гос. регистрации 0111U000059) и "Интеллектуальные информационные технологии автоматизации проектирования, моделирования, управления и диагностирования производственных процессов и систем".
СПИСОК ЛИТЕРАТУРЫ
1. Руденко О.Г. Штучні нейронні мережі I О.Г. Руденко, Є.В. Бодянський. - Харків: Компанія СМІХ, 200б. - 404 с.
2. Рутковская Д. Нейронные сети, генетические алгоритмы и нечёткие системы I Д. Рутковская, М. Пилкий, Л. Рутковский; пер. с польск. И.Д. Рудинского. - М.: Горячая линия - Телеком, 2004. -452 с.
3. Интеллектуальные информационные технологии проектирования автоматизированных систем диагностирования и распознавания образов I [С. А. Субботин, Ан.А. Олейник, Е.А. Гофман и др.; под ред. С.А. Субботина]. - Харьков: ООО «Компания Смит», 2012. - 317 с.
4. Прогрессивные технологии моделирования, оптимизации и интеллектуальной автоматизации этапов жизненного цикла авиационных двигателей I [А.В. Богуслаев, Ал.А. Олейник, Ан.А. Олейник и др.; под ред. Д.В. Павленко, С.А. Субботина]. - Запорожье: ОАО "Мотор Сич", 2009. - 4бВ с.
5. Субботин С.А. Формирование выборок и анализ качества моделей на основе нейронных и нейро-нечётких сетей в задачах диагностики и распознавания образов I С.А. Субботин. - Saarbrucken: LAP Lambert academic publishing, 2012. - 232 с.
6. Jensen R. Computational intelligence and feature selection: rough and fuzzy approaches I R. Jensen, Q. Shen. - Hoboken: John Wiley & Sons, 200B. - 339 p.
7. Chaudhuri A. Survey sampling theory and methods I A. Chaudhuri, H. Stenger. - New York: Chapman
& Hall, 2005. - 41б p.
B. Encyclopedia of survey research methods I ed. P.J. Lavrakas. - Thousand Oaks: Sage Publications, 200B. - Vol. 1-2. - 9бВ p.
9. Кокрен У. Методы выборочного исследования I У. Кокрен; пер. с англ. И.М. Сонина; под ред. А.Г. Волкова, Н.К. Дружинина. - М.: Статистика, 197б. - 440 с.
10. Subbotin S.A. The training set quality measures for neural network learning I S.A. Subbotin II Optical Memory and Neural Networks (Information Optics). - 2010. - Vol. 19, N 2. - P. 12б - 139.
11. Субботин С.А. Комплекс характеристик и критериев сравнения обучающих выборок для решения задач диагностики и распознавания образов I С.А. Субботин II Математичні машини і системи.
- 2010. - № 1. - С. 25 - 39.
12. Субботин С.А. Критерии индивидуальной информативности и методы отбора экземпляров для построения диагностических и распознающих моделей I С.А. Субботин II Біоніка інтелекту. - 2010.
- М 1. - С. 3B - 42.
13. Субботин С.А. Методы формирования выборок для построения диагностических моделей по прецедентам I С.А. Субботин II Вісник Національного технічного університету "Харківський політехнічний інститут": зб. наук. праць. - Харків: НТУ "ХПІ", 2011. - N° 17. - C. 149 - 15б.
14. Cardiotocography Data Set [Електронний ресурс]. - Режим доступу: http:IIarchive.ics.uci.eduI mlIdatasetsICardiotocography.
15. Covertype Data Set [Електронний ресурс]. - Режим доступу: http:IIarchive.ics.uci.eduImlIdatasets/ Covertype.
Стаття надійшла до редакції 03.10.2012