Влияние способа формирования обучающей и тестовой выборок на качество классификации

Шунина Юлия Сергеевна

УДК 519.23 Ю. С. ШУНИНА

ВЛИЯНИЕ СПОСОБА ФОРМИРОВАНИЯ ОБУЧАЮЩЕЙ И ТЕСТОВОЙ ВЫБОРОК НА КАЧЕСТВО КЛАССИФИКАЦИИ

Рассмотрены и проанализированы основные способы формирования обучающей и тестовой выборок при решении задачи классификации клиентов банка. Проведено сравнение качества результатов классификации при использовании наиболее эффективных способов формирования обучающей и тестовой выборок.

Ключевые слова: метод удерживания, метод ^-кратной перекрёстной проверки, скользящий экзамен, стратификация.

Y =

Рассмотрим классификацию потенциальных заёмщиков банка на классы кредитоспособных и некредитоспособных клиентов [2]. Исходная выборка представляет собой множество клиентов банка, каждый из которых характеризуется вектором признаков (возраст заёмщика, пол, семейное положение, сумма кредита и т. д.). Известна также принадлежность каждого клиента одному из двух классов кредитоспособности У: [1 - клиент кредитоспособен, (О - клиент некредитоспособен.

При оценивании качества результатов классификации возникает задача получения более адекватных, несмещённых оценок. Как правило, такие оценки получаются на данных, не участвующих в построении классификаторов. Таким образом, прибегают к разделению исходного набора данных на обучающую выборку и на тестовую (контрольную) выборку. Обучающая выборка предназначена для построения классификаторов, а тестовая - для оценки качества работы классификаторов путём сравнения реальных классов кредитоспособности и прогнозируемых классов кредитоспособности.

Следует отметить, что возможно формирование не только двух выборок, но и трёх и более выборок. В таком случае первая выборка служит также для построения моделей, вторая выборка -для проверки моделей, в результате которой могут быть удалены выбросы или переменные, влияющие на отклонения. Затем первая и вторая выборка объединяются и на ней строятся новые модели, результаты которых проверяются на третьей выборке.

Ещё одним важным моментом является определение необходимого объёма выборки [6]. К основным критериям определения минималь-

ного объёма выборки относятся равномерное распределение зависимой переменной и число независимых переменных. Как правило, при относительно равномерном распределении значений зависимой переменной на один предиктор необходимо задавать не менее 10 наблюдений, и чем больше распределение значений зависимой переменной смещено в пользу какого-либо класса, тем больше наблюдений необходимо брать на один предиктор.

Рассмотрим и проанализируем основные способы формирования обучающей и тестовой выборок.

1. Метод удерживания (holdout) [1]

Данный метод заключается в разделении исходного набора данных случайным образом на две непересекающиеся части - обучающую выборку и тестовую выборку. Тестовая выборка обычно составляет от 1/10 до 1/3 от всего набора данных. Для увеличения надёжности данная процедура может повторяться n-е количество раз с усреднением результатов (repeated holdout). Однако в данном случае тестовые наборы могут пересекаться, что является недостатком этого метода. Также данный метод подходит для большого объёма данных, поскольку при разделении исходной выборки небольшого объёма данных, часть информации, которая уходит на тестовую выборку и могла бы использоваться при построении классификаторов, теряется, что может привести к нежелательным результатам.

2. Метод k-кратной перекрёстной проверки (k-cross-validation) [1]

Этот метод позволяет избежать пересечения тестовых наборов и заключается в разделении исходной выборки на k непересекающихся подмножеств. Далее поочередно каждое из k подмножеств выступает в роли тестовой выборки, а остальные k - 1 объединяются в обучающую выборку. Таким образом, на первой итерации

необходимо построить модели на всех подмножествах, кроме первого, и оценить качество классификации на первом подмножестве, на второй итерации - построить модели на всех подмножествах, кроме второго, и оценить качество классификации на втором подмножестве и т. д. Всего получается k итераций. Окончательный результат представляет собой усреднённое значение по всем k итерациям. Значение k принимается от 3 до 10.

3. Скользящий экзамен (leave-one-out) [4]

Данный метод является разновидностью метода перекрёстной проверки, в котором исходная выборка делится на k частей, причём k = N, где N - объём исходной выборки. То есть на каждой итерации поочередно каждый клиент удаляется из исходной выборки, а на оставшейся части строятся классификаторы, с помощью которых затем выполняется прогноз класса кредитоспособности удаляемого клиента. После сравнения прогнозируемого класса кредитоспособности с реальным классом кредитоспособности удаляемый клиент возвращается в исходную выборку. Таким образом, данная процедура повторяется с каждым клиентом исходной выборки, что при больших объёмах требует достаточно большое количество времени.

4. Стратификация (stratification) [1]

Эта процедура учитывает принадлежность к классу кредитоспособности при формировании обучающей и тестовой выборок. Предположим, что исходная выборка является несбалансированной, то есть один класс по количеству клиентов доминирует над другим. Тогда при разбиении данных может оказаться ситуация, при которой в тестовую выборку попадёт малое количество или ни одного из представителей какого-либо класса, что может привести к неадекватным оценкам. Чтобы избежать подобной ситуации, процедура стратификации разделяет данные каждого класса в нужной пропорции, и затем из полученных наборов формируются обучающая и тестовая выборки. Таким образом, с помощью данной процедуры достигается достаточная представительность каждого класса как на этапе обучения классификаторов, так и на этапе оценки качества классификаторов.

Следует отметить, что метод стратификации может использоваться совместно с методом удерживания и методом k-кратной перекрёстной проверки.

5. Самонастройка (bootstrap) [1]

Данный метод заключается в формировании k подмножеств, размер которых совпадает с размером исходной выборки, но содержит различные исходные данные, выбранные случайным

образом. То есть один и тот же клиент может несколько раз присутствовать в одном и том же подмножестве, а другой - ни разу. Затем на каждом подмножестве проводится построение моделей и прогноз класса кредитоспособности для тех клиентов, которые не попали в данное подмножество. Таким образом, получается к итераций, результат которых усредняется.

Самонастройка применяется в основном для данных небольшого размера, а также для оценки качества классификации ансамблей моделей, то есть одной и той же модели, построенной на данных к подмножествах с усреднением результатов. Считается, что полученная оценка ансамбля моделей превосходит по точности оценку одиночной модели.

Существуют также и другие способы формирования обучающей и тестовой выборок [7]. Например, для оценки точности и адекватности моделей прогнозирования на шаге (V + 1) исходная выборка разбивается на обучающую выборку, представляющую собой данные по клиентам за период V, и на тестовую выборку, содержащую данные по клиентам в момент времени (V + 1) [3].

Согласно обзору основных методов, можно сделать вывод о том, что на формирование обучающей и тестовой выборок, прежде всего, влияет объём исходных данных. В случае малого количества данных наиболее эффективным является метод скользящего экзамена, а при больших объёмах данных - метод к-кратной перекрёстной проверки совместно с процедурой стратификации.

Для сравнения качества результатов классификации, полученных в результате использования к-кратной перекрёстной проверки совместно с процедурой стратификации и скользящего экзамена, была рассмотрена выборка по немецким заёмщикам, объёмом 1000 клиентов.

В качестве критерия качества классификации была использована среднеквадратичная ошибка прогнозирования М8Е:

1 т л

ШЕ = -X (7, - 7,^ т ,=1

где 7, - фактическая вероятность принадлежности к классу кредитоспособности ,-го клиента (7=0 или 7=1),

Л

7 - прогнозируемая вероятность принадлежности к классу кредитоспособности ,-го клиента; т - количество клиентов.

В качестве возможных классификаторов использовались следующие модели машинного обучения [5]: нейронная сеть, дискриминантный анализ, наивный байесовский классификатор,

метод опорных векторов, деревья решении, логистическая регрессия, а также деревья решений, построенные по методу бэггинг (бэггинг деревьев). Кроме этого, были получены объединённые прогнозные результаты всех возможных комбинаций классификаторов на основе перечисленных выше моделей машинного обучения - агрегированные классификаторы. Объединение результатов происходило по среднему значению, по медиане, а также по голосованию моделей.

В табл. 1 представлены результаты расчёта среднеквадратичной ошибки отдельных классификаторов, а также наилучших агрегированных классификаторов, полученных в результате ис-

пользования к-кратной перекрёстной проверки совместно с процедурой стратификации и скользящего экзамена.

Согласно данным табл.1, наилучший результат классификации клиентов достигается классификатором, объединяющим результаты дис-криминантного анализа, метода опорных векторов, деревьев решений, логистической регрессии, а также бэггинга деревьев решений по среднему значению при формировании обучающей и тестовой выборки с использованием 5-кратной перекрёстной проверки совместно с процедурой стратификации.

Таблица 1

Результаты среднеквадратичной ошибки классификаторов при использовании к-кратной перекрёстной проверки совместно с процедурой стратификации и скользящего экзамена

Классификатор к-кратная перекрёстная проверка СЭ*

к = 3 к II 4 5 = к к = 6 к II 7 к = 8 к = 9 к = 10

1. Нейронная сеть (НС) 0,1736 0,1737 0,1757 0,1696 0,1739 0,1807 0,1740 0,1741 0,1800

2. Дискриминантный анализ (ДА) 0,1715 0,1713 0,1700 0,1720 0,1695 0,1703 0,1710 0,1702 0,1706

3. Байесовский классификатор (БК) 0,1999 0,1982 0,1986 0,1980 0,1949 0,1979 0,1961 0,1961 0,1963

4. Метод опорных векторов (МОВ) 0,1670 0,1646 0,1648 0,1664 0,1644 0,1634 0,1655 0,1642 0,1636

5. Деревья решений (ДР) 0,2659 0,2646 0,2345 0,2574 0,2479 0,2628 0,2477 0,2623 0,2611

6. Логистическая регрессия (ЛР) 0,1665 0,1644 0,1642 0,1659 0,1640 0,1634 0,1648 0,1640 0,1642

7. Бэггинг деревьев (БД) 0,1628 0,1664 0,1639 0,1639 0,1650 0,1686 0,1623 0,1637 0,1629

8. Агрегированный классификатор (АК) 0,1593 0,1609 0,1579 0,1604 0,1592 0,1611 0,1586 0,1590 0,1589

Способ формирования обучающей/тестовой выборки Агрегирование результатов классификаторов

3-кратная перекрёстная проверка по голосованию: ЛР+ БДР

4-кратная перекрёстная проверка по среднему значению: ЛР+ БДР

5-кратная перекрёстная проверка по среднему значению: ДА+ МОВ+ ДР+ ЛР+ БДР

6-кратная перекрёстная проверка по среднему значению: ЛР+ БДР

7-кратная перекрёстная проверка по голосованию: ДА+ БК+ МОВ+ ДР+ ЛР+ БДР

8-кратная перекрёстная проверка по среднему значению: МОВ+ ЛР+ БДР

9-кратная перекрёстная проверка по голосованию: ДА+ БК+ МОВ+ ДР+ БДР

10-кратная перекрёстная проверка по медиане: НС+ БК+ МОВ+ ДР+ БДР

* Скользящий экзамен по среднему значению: МОВ+ БДР

СПИСОК ЛИТЕРАТУРЫ

1. Вежневец В. Оценка качества работы классификаторов // Компьютерная графика и мультимедиа. - 2006. - №4. - С. 106.

2. Донцова (Шунина) Ю. С., Клячкин В. Н. Анализ инновационных механизмов в области кредитования физических лиц // Региональная экономика: актуальные вопросы и новые тенденции: сборник научных трудов Международной заочной научно-практической конференции.

В 2 т. - Ульяновск : УлГТУ, 2014. - Т. 2. - С. 105-111.

3. Клячкин В. Н., Донцова (Шунина) Ю. С. Сравнительный анализ точности нелинейных моделей при прогнозировании состояния системы на основе марковской цепи // Известия Самарского научного центра Российской академии наук. 2013. - Т. 15, №4(4). - С. 924-927.

4. Лбов Г. С. Анализ данных и знаний: учебное пособие. - Новосибирск: Издательство НГТУ, 2001. - 90 с.

5. Мерков А. Б. Распознавание образов: введение в методы статистического обучения. - М. : URSS, 2010. - 254 с.

6. Сорокин А. С. Построение скоринговых карт с использованием модели логистической регрессии // Интернет-журнал «НАУКОВЕДЕНИЕ». Выпуск 2, март - апрель 2014 г. Режим доступа:

http://naukovedenie.ru/PDF/180EVN214.pdf

7. Клячкин В. Н., Святова Т. И., Донцова Ю. С. Диагностика состояния процесса по результатам контроля рассеяния // Х11 Всероссийское

совещание по проблемам управления: Труды. -М. : Институт проблем управления им. В. А. Трапезникова РАН, 2014. - С. 7605-7615.

Шунина Юлия Сергеевна, аспирант кафедры «Прикладная математика и информатика» УлГТУ.

Поступила 17.02.2015 г.

УДК 007.51:519.246.8

Д. С. БУБЫРЬ, В. Н. КЛЯЧКИН

УПРАВЛЕНИЕ ДОЗАМИ РЕАГЕНТОВ НА СТАНЦИИ ОЧИСТКИ ВОДЫ

Рассмотрена методика применения математических моделей для управления дозами реагентов на подготовительном этапе процесса очистки воды.

Ключевые слова: станция водоочистки, система управления, дозы реагентов, прогнозирование, временной ряд, кусочно-линейная регрессия, векторная авторегрессия.

Постановка задачи. Качество очистки питьевой воды необходимо поддерживать на должном уровне, так как это напрямую влияет на здоровье человека. Для поддержания качества воды надо адаптировать процесс водоочистки к возникающим изменениям. Требуется постоянно следить за состоянием источника поступающей воды и за результатами водоочистки.

На основе такого контроля на водоочистительной станции осуществляется предварительная настройка тех или иных параметров, играющих роль в процессе очистки. Особое внимание отводится добавляемым дозам реагентов. Для управления этими параметрами необходим подход, позволяющий обезопасить работу системы от случаев нарушения и ухудшения качества очищенной воды.

Структура системы управления водоочисткой. Структурный анализ водоочистительной станции позволяет расчленить её на ряд взаимосвязанных сооружений и устройств, решающих самостоятельные задачи [1]. Основной принцип организации станции - иерархический. Это означает, что все составляющие части станции

находятся в определённой подчинённости в соответствии с условиями работы. В общем виде станцию можно представить в виде трёхуровневой структуры управления (рис. 1).

Первый (нижний) уровень - это исполнительные механизмы (насосы, задвижки, затворы, клапаны, вентили), а также устройства сбора информации (датчики давления, расхода, температуры, уровнемеры, датчики определения показателей качества воды и т. д.).

Второй уровень (информационная сеть) - локальные системы управления (ЛСУ) отдельными сооружениями. На этом уровне наблюдается большое разнообразие, так как технологические процессы существенно отличаются. Подобные системы управления автоматизируют работу отдельного сооружения, позволяют достичь оптимального в некотором смысле протекания технологических процессов в этом сооружении.

На третьем (верхнем) уровне осуществляется отображение для персонала информации о функционировании станции, сбор и статистическая обработка данных, подготовка отчётов, предупредительная и аварийная сигнализация. Каждый из уровней соединён с другим уровнем информационными связями в соответствии с иерархической структурой. Верхний уровень

Влияние способа формирования обучающей и тестовой выборок на качество классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шунина Юлия Сергеевна

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шунина Юлия Сергеевна

Dependence of classification quality on the methods to form a training and test samples

Текст научной работы на тему «Влияние способа формирования обучающей и тестовой выборок на качество классификации»