ЭЛЕКТРОННОЕ МОДЕЛИРОВАНИЕ
УДК 004.622+004.891.3
ПОВЫШЕНИЕ КАЧЕСТВА ОБУЧЕНИЯ ЭТАЛОННЫХ ДИАГНОСТИЧЕСКИХ МОДЕЛЕЙ СЛОЖНЫХ ТЕХНИЧЕСКИХ ОБЪЕКТОВ АУГМЕНТАЦИЕЙ ОБУЧАЮЩИХ ДАННЫХ
ГРАЧЕВ Владимир Васильевич, д-р техн. наук, доцент, профессор1; e-mail: [email protected] ФЕДОТОВ Михаил Владимирович, канд. техн. наук, заведующий2; e-mail: [email protected]
петербургский государственный университет путей сообщения императора Александра I, кафедра «Локомотивы и локомотивное хозяйство», Санкт-Петербург
2АО «Научно-исследовательский и конструкторско-технологический институт подвижного состава», лаборатория диагностики, Коломна
Одной из серьезных проблем, ограничивающих возможность применения интеллектуальных методов обработки диагностической информации в задачах диагностики сложных технических объектов, является сложность формирования обучающей выборки. Эффективным способом решения проблемы является аугментация (искусственное расширение) обучающих данных. Особенностью обучающих выборок в задачах технической диагностики является неизвестный вид их распределения в пространстве признаков, при том что для обеспечения качественного обучения диагностической модели дополнительные «синтетические» данные должны быть распределены аналогично реальной обучающей выборке. Возможность определения параметров распределения данных обучающей выборки в процессе обучения с последующим воспроизведением этих параметров в сгенерированных выборках может быть реализована в генеративных моделях на основе вариационных автоэнкодеров и генеративно-состязательных сетей. В задачах интеллектуальной классификации состояния объекта диагностирования с размеченными обучающими выборками для генерации дополнительных данных предпочтительным является использование условных (conditional) генеративно-состязательных сетей. Актуальной задачей является оценка однородности обучающей и сгенерированной выборок, по результатам которой определяется длительность (количество эпох) процесса обучения генеративной модели. В работе предложен и обоснован оригинальный способ оценки однородности многомерных выборок на основе G- и F-функций Рипли (Ripley). На его основе определен количественный показатель для контроля качества и продолжительности обучения генеративной модели. Эффективность предложенного способа подтверждается на примере решения задачи аугментации обучающих данных для эталонной диагностической модели газовоздушного тракта тепловозного дизеля.
Ключевые слова: модель машинного обучения; обучающая выборка; интеллектуальный классификатор; объект диагностирования; генеративно-состязательные сети; аугментация данных; контроль однородности многомерных выборок; пространственный анализ; функция Ripley.
DOI: 10.20295/2412-9186-2023-9-03-258-273
▼ Введение
В настоящее время методы машинного обучения (МО) с успехом применяются для решения широкого круга задач в самых различных областях деятельности, таких как медицина, и экономика, лингвистика, интернет, мультиме-° диа, автоматизация управления техническими ш системами и т. д.
§ Одним из перспективных направлений при-
§ менения таких методов является диагностика
<в
$ сложных технических объектов. Интенсив™ ное развитие систем непрерывного монито-8 ринга оборудования в различных областях £ техники привело к появлению значительных объемов измерительной информации,
характеризующей текущее техническое состояние как оборудования в целом, так и основных его узлов. При этом использовать для обработки этой информации известные методы тестовой диагностики, основанные на применении аналитических эталонных диагностических моделей соответствующих видов оборудования, как правило, не удается.
Основные сложности связаны, во-первых, с ограничениями размерности и информативности вектора контролируемых параметров в системах бортовой диагностики крупносерийных технических объектов, к которым относится железнодорожный тяговый подвижной состав, и, во-вторых, отсутствием возможности
реализации специальных тестовых режимов работы объекта диагностирования (ОД) в процессе его эксплуатации.
Применение моделей машинного обучения в качестве эталонных диагностических моделей позволяет преодолеть эти сложности за счет большого количества изменяемых структурных параметров модели, значения которых определяются в результате ее обучения на реальных данных, полученных в результате мониторинга ОД в различных режимах его эксплуатации и различных технических состояниях.
Однако высокие абсолютные показатели надежности сложных ОД, к которым относится практически любая железнодорожная техника1, как правило, не позволяют сформировать обучающую выборку достаточного объема для всех классов их состояния. Задача дополнительно осложняется наличием технологического разброса характеристик оборудования, который во многих случаях исключает возможность использования модели, обученной на данных оборудования одного ОД, для диагностирования оборудования другого однотипного ОД.
Одним из способов решения проблемы недостаточного объема обучающих данных в задачах МО является модификация обучающей выборки с использованием технологии аугментации данных (data augmentation) [1].
Под аугментацией данных понимают совокупность методов увеличения объема и качества обучающей выборки с целью повышения обобщающей способности модели МО [2].
Цели работы состоят в следующем:
— анализ известных подходов к формированию обучающих выборок моделей МО c использованием методов аугментации данных;
— выбор метода аугментации данных для решения задач технической диагностики сложного оборудования;
— апробация выбранного метода на примере задачи диагностирования газовоздушного тракта дизеля с использованием интеллектуального классификатора.
ГОСТ 31187—2011. Тепловозы магистральные Общие технические требования. — М.: Стандартинформ, 2012. — 18 с.
1. Постановка задачи
Процесс функционирования ОД представляет собой отображение вида:
к(г)
Н :X(IУ((),
где X = |х1, х2,..., хт } — вектор входных параметров ОД, независимых от его технического состояния;
У = [у1, у2,..., у,} — вектор зависимых выходных параметров, характеризующих качество функционирования ОД в соответствии с его назначением; Я = [г15 г2,..., гп} — вектор структурных параметров ОД, характеризующих его техническое состояние; т, I, п — размерность векторов. Измерительная информация, регистрируемая системой бортовой диагностики ОД в определенном его техническом состоянии, может быть представлена векторами 2Х ^) = [гх1,гх2,...,гхг} и 2у(¿) = {¿у1,2у2,...,2ур} измеренных значений входных и выходных параметров с размерностью соответственно г и р, при этом, как правило, г с т и р с I.
В процессе эксплуатации ОД средства бортовой диагностики с определенной периодичностью Ах во всех режимах регистрируют значения компонент векторов (ti) и 2у (ti), где i = 1, 2, ..., к — номер отсчета.
В результате по истечении времени Т образуется совокупность
[Их (1, гу (0),( 1х ^), гу ^)), ..., (гх ), (ч))}
из к пар векторов измеренных значений входных и выходных параметров. После нормализации значений компонент векторов и приведения их к интервалу [0, 1] эта совокупность может рассматриваться как (г + р)-мерное распределение точек в области пространства нормированных контролируемых параметров ОД (рис. 1). Закон
распределения Р (^х1, ¿х2 '.''' ¿хг , *у1, ¿у2 '.''' ¿ур ) определяется как физическими принципами функционирования ОД, так и его текущим техническим состоянием.
Рис. 1. Распределение векторов состояния ОД в пространстве контролируемых параметров
для различных классов с1, с2,... сь технического состояния:
1 — плотность вероятности текущего состояния ОД; 2 — измеренные векторы состояния; 3 — векторы состояния, рассчитанные аналитической моделью ОД
Ассоциируя техническое состояние ОД с отказами отдельных его узлов и деталей, можно описать его алфавитом классов С = {с0, с1,., съ}, где с0,с1,.,съ — категориальные переменные, соответствующие различным видам отказов ОД или их сочетаниям (класс с0 соответствует его работоспособному состоянию). Алфавит С и перечень контролируемых параметров ОД (векторы 1Х, 1у) должны формироваться таким образом, чтобы каждому классу с1 алфавита С
соответствовало уникальное распределение
(^^х2,^ ^,^,^^у2,. * ^) точек отсчетов
в пространстве нормированных контролируемых параметров ОД. В противном случае, т.е. при наличии отказов с идентичными распределениями отсчетов, они будут неразличимы на данном наборе контролируемых параметров.
Процесс диагностирования в общем случае представляет собой отображение вида:
Diagn \{1Х, 1у } — С
(1)
называемое классификатором технического состояния ОД.
При использовании интеллектуальных классификаторов на базе алгоритмов машинного обучения определение компонент вектора 6 настраиваемых параметров модели классификатора осуществляется в ходе ее обучения. В процессе обучения на вход модели последовательно подаются векторы (¿х (/.), Zy (/.)), I = 1, 2, ..., k параметров ОД, соответствующие различным классам его состояния из алфавита С, определяются отклики классификатора С*, в зависимости от величины разности С - С * корректируются значения компонент вектора 6.
Для обеспечения достаточной точности классификации обученной моделью объем обучающей выборки должен составлять, по разным оценкам, от нескольких десятков до нескольких сотен векторов (точек поверхности /(2Х, 1у) на каждый класс состояния ОД из алфавита С (рис. 1).
Однако сложные технические объекты, к которым относятся практически все наземные
транспортные объекты и в том числе подвижной состав железных дорог, характеризуются высокими абсолютными показателями надежности. Так, согласно ГОСТ 31187—2011, параметр потока отказов для магистральных грузовых тепловозов не должен превышать 1140-6 км, т. е. допускается не более 11 отказов локомотива за 4—5 лет нормальной эксплуатации. Соответственно, для отдельных видов оборудования тепловоза этот показатель не превышает 0,01—0,0540-6 км. Учитывая традиционно низкую контролепригодность как локомотива в целом, так и отдельных видов его оборудования, такие показатели надежности практически исключают возможность формирования выборки достаточного объема по результатам эксплуатации. Стационарные средства тестового диагностирования некоторых видов оборудования локомотива (подшипниковые узлы колесно-моторных блоков, изоляция тяговых электродвигателей, рабочий процесс в цилиндрах дизеля) позволяют получить ограниченное количество входных векторов для отдельных классов состояния оборудования (точки 2 на рис. 1). Однако их, как правило, недостаточно для качественного обучения диагностической модели вида (1).
Одним из способов решения проблемы входных данных является использование для расчета обучающих выборок аналитических моделей ОД [1, 2]. Результатом такого расчета является (г + р)-мерная кривая (3 на рис. 1), характеризующая функционирование ОД.
Совокупность точек кривых 3 всех классов алфавита С может использоваться для обучения модели (1). При этом необходимый объем обучающей выборки обеспечивается либо расчетом нужного количества точек, либо, в случае высокой трудоемкости расчета, их интерполяцией.
Очевидно, данный подход к формированию обучающей выборки возможен только в тех случаях, когда существует аналитическая модель процесса функционирования ОД, точность которой достаточна для получения достоверных количественных оценок значений 2у его контролируемых выходных параметров.
Кроме того, в этом случае обученная модель машинного обучения будет представлять собой одну из реализаций аналитической модели со
всеми присущими ей недостатками, основными из которых являются:
— ограниченный перечень входных параметров ОД, учитываемых моделью (как правило, совпадающий с Zxl r,r с m), и отсутствие, в связи с этой ограниченностью, случайной составляющей в результатах расчета выходных параметров Zy 1 , присутствующей в реальном ОД и обусловленной действием неучтенных факторов;
— ограниченная область режимов функционирования ОД (как правило, близкая к номинальному режиму), для которых подтверждается адекватность модели.
Следствием этих недостатков будет недостаточная обобщающая способность обученных таким образом моделей, т. е. их способность правильно функционировать за пределами обучающей выборки [3].
Таким образом, актуальной задачей является повышение качества обучения эталонных диагностических моделей сложных технических объектов при ограниченных объемах обучающей выборки.
Одним из эффективных способов решения проблемы ограниченных объемов обучающих данных в задачах МО является их аугментация, т. е. изменение объема и качества выборки с использованием специальных методов [4].
2. Методы аугментации обучающих данных в задачах машинного обучения
Все методы, применяемые в задачах МО для повышения качества обучающих данных, могут быть разделены на две группы (рис. 2) [4]:
— методы, модифицирующие исходную выборку без ее расширения;
— методы, генерирующие дополнительные («синтетические») векторы данных, которые включаются в исходную выборку, увеличивая ее объем.
Первая группа методов применяется преимущественно в задачах цифрового анализа изображений с использованием сверточ-ных (convolutional) нейронных сетей (CNN). Поскольку именно такие задачи составляют основную часть задач МО, методы этой группы получили наибольшее распространение.
Рис. 2. Классификация методов аугментации данных в задачах МО
Простейшим способом модификации изображения является его геометрическая трансформация, подразумевающая поворот (flip) изображения относительно горизонтальной, вертикальной оси и оси, перпендикулярной плоскости изображения, а также их комбинация [5], с сохранением метки класса. Такой способ модификации данных достаточно эффективен в задачах поиска и выделения изображений определенного вида (например, машинное чтение текста).
Остальные методы используются при решении более сложных задач, как, например, проверка соответствия предъявленного изображения его единственному образцу, который и используется для формирования обучающей выборки.
Изменение контрастности изображений осуществляется изменением параметров фильтра одного или нескольких сверточных слоев сети [6]. Удаление фрагментов исходного изображения осуществляется маскированием матриц пикселей изображения (входного вектора сети CNN) случайно размещаемой маской определенного (как вариант, случайного) размера с элементами, равными 0 (черный цвет), 255 (белый цвет) или случайным значениям [7]. Изменение цвета предполагает случайную коррекцию всех элементов RGB матриц изображения,
имитирующую ее искажение в процессе копирования [8].
Общей особенностью всех описанных методов аугментации данных, применяемых в задачах цифрового анализа изображений, является как случайный характер разброса параметров образцов исходной выборки (отличий в изображениях, используемых для обучения моделей), так и случайный по отношению к параметрам образцов характер их модификации в процессе аугментации. В реальных задачах, связанных с анализом изображений, разброс параметров исходных данных (изображений) также случаен, поэтому описанные подходы к формированию обучающих выборок позволяют повысить точность и обобщающую способность применяемых моделей.
Однако, несмотря на случайный характер изменения значений диагностических параметров (2Х, 2у) сложного технического объекта (ОД) в процессе его эксплуатации (кривые 1 на рис. 1), вид и показатели их многомерного распределения Р (2Х, 2у) (математическое ожидание и дисперсия) отнюдь не случайны. Они определяются конструкцией ОД и физическими принципами его функционирования, режимами эксплуатации или тестирования, классом технического состояния С = {с0,с1,с2,...,съ} и часто используются в
Рис. 3. Схема состязательного (adversarial) обучения модели
качестве диагностических признаков текущего состояния ОД.
Очевидно, цель аугментации данных в задачах технической диагностики (повышение качества обучения эталонных диагностических моделей) может быть достигнута только в том случае, если показатели распределения сгенерированных «синтетических» данных
P (Z , Z ) будут равны показателям распреде-
i \
ления исходной измеренной выборки P (Zx,Zy), которые неизвестны и не могут быть определены аналитически вследствие недостаточного объема выборки при ее, как правило, относительно большой размерности.
Не менее очевидным представляется тот факт, что такое равенство не может быть достигнуто случайными изменениями значений параметров (Zx, Zy) исходной выборки, в связи с чем описанные выше методы неприменимы в большинстве задач технической диагностики.
Вторая группа методов аугментации увеличивает объем обучающей выборки за счет генерирования новых векторов исходных данных. Генерация может осуществляться случайными изменениями векторов исходной выборки с последующим включением новых векторов в ее состав.
Этот прием применяется при состязательном обучении (adversarial training) сетей [9] (рис. 3), которое используется в целях повышения устойчивости нейросетевых моделей к так называемым состязательным атакам (adversarial attack) [10, 11].
Суть таких атак сводится к умышленной подаче на вход модели векторов данных из
периферийных областей пространства признаков, находящихся за пределами распределения обучающей выборки. Формируются эти векторы изменениями (как правило, незначительными) значений отдельных признаков в реальных корректных данных. Результатом таких изменений являются большие ошибки отклика моделей, которые в ряде случаев могут приводить к значительным финансовым и иным потерям.
Для повышения устойчивости модели к состязательным атакам обучающая выборка дополняется векторами данных, полученными изменением отдельных признаков или их групп. В процессе обучения модели на ее вход подаются как реальные данные, так и тренировочные данные (Adversarial Data), полученные коррекцией реальных данных. Веса нейронов модели изменяются в направлении уменьшения вероятности ошибки классификации данных (отнесения измененного входного вектора к реальной выборке).
Несмотря на то, что подход к формированию обучающей выборки при состязательном обучении отличается от описанных выше методов, в нем по-прежнему сохраняется случайный (по отношению к реальной выборке) характер изменения входных данных.
Совершенно иначе решается задача увеличения объема обучающей выборки генеративными моделями на основе автоэнкодеров (A^) и генеративно-состязательных нейронных сетей (GAN).
Автоэнкодер представляет собой нейронную сеть прямого распространения (рис. 4) [12],
Рис. 4. Схема автоэнкодера (AE)
которая восстанавливает входной сигнал на выходе. У нее имеется по меньшей мере один скрытый слой, выходы которого определяют точку скрытого (Latent) пространства Н, формируемого в процессе обучения сети.
Таким образом, входной вектор Х размерности N, предъявляемый обученной сети, отображается (Encode) в скрытое пространство Н размерности M, (M < N), из которого затем восстанавливается (Decode) выходной вектор X c некоторой ошибкой, обусловленной пониженной размерностью пространства Н.
Для генерации новых данных на вход обученного декодера подается случайный вектор размерности М, который преобразуется в вектор X размерности N. Поскольку параметры распределения отображения обучающей выборки в скрытом пространстве H неизвестны, распределение сгенерированных данных может не совпадать с распределением данных в обучающей выборке, поэтому AE в задачах аугментации данных практически не применяются.
Этот недостаток устраняется в вариационных автоэнкодерах (VAE) [12] (рис. 5), которые являются развитием простых AE. Вариационные автоэнкодеры формируют скрытое пространство в виде нормального распределения
вероятности, показатели которого (математическое ожидание и дисперсия) определяются в результате обучения сети энкодера. Другая сеть (декодер) преобразует случайные векторы (сэмплы) из этого распределения в выходные векторы X . Энкодер и декодер обучаются в едином цикле, после окончания обучения декодер представляет собой полноценную генеративную модель, показатели распределения выходных данных которой близки к аналогичным показателям исходной выборки.
Генеративно-состязательные сети (GAN) были предложены в 2014 году [13] и в настоящее время активно исследуются на предмет применения их в приложениях различного назначения.
GAN состоят из двух нейронных сетей (рис. 6).
Первая из них (генератор) формирует случайные векторы Z из заданного распределения P (Z) (как правило, нормального, вида N (0,1)) и генерирует из них объекты Xp = G (Z), которые идут на вход второй сети (дискриминатор или критик). Вместе с ними на вход дискриминатора подаются объекты Xs из имеющейся выборки. Выходом дискриминатора является вероятность D (X) принадлежности входного объекта реальной выборке.
Генератор и дискриминатор обучаются отдельно, но в рамках одной сети (рис. 6).
Рис. 5. Схема вариационного автоэнкодера (VAE)
Рис. 6. Схема генеративно-состязательной сети (GAN)
Вначале делаются k шагов обучения дискра- где D () — вероятность правильной класси-
тора, на каждом из которых веса его нейронов фикации предъявленного реального объекта
6, корректируются в сторону уменьшения ;
кросс-энтропии: D (G (z)) — вероятность ошибочной классификации сгенерированного объекта (т. е.
6, =6, -V6rf (log2 (D ()) + log2 (1 - D (G (z)))), вероятность того, что он будет принят дис-
d v криминатором за реальный объект).
(2)
b
d
Рис. 7. Процесс обучения генеративно-состязательной сети — вероятность отнесения дискриминатором входного объекта к множеству реальных объектов; '■■■• — распределение реальных данных;--распределение сгенерированных данных;
a, b, c, d — стадии обучения
а
c
Затем выполняется шаг обучения генератора, при этом его веса бg корректируются в сторону увеличения log2 (D(G(z))), что эквивалентно уменьшению log2 (l - D (G(z))):
6g =6g +V6g !og2(1 -D(G(z))). (3)
По мере обучения дискриминатора и генератора вероятность отнесения дискриминатором искусственных (artificial) векторов данных, сгенерированных генератором, к реальным объектам, увеличивается от нуля до предельного значения 0,5, соответствующего равенству распределений P(x) реальных и Pg (x) сгенерированных данных (рис. 7) [13]. При этом, как следует из рисунка, распределение сгенерированных данных стремится к распределению исходной выборки, что особенно важно для задач, в которых показатели распределения характеризуют особенности исследуемых явлений или процессов.
После завершения обучения генератор может использоваться для генерации искусственных данных с распределением, соответствующим исходной выборке, из векторов с нормально распределенными значениями компонентов, подаваемых на его вход.
Как отмечено выше, автоматическое совмещение распределения исходной и сгенерированной выборки характерно и для вариационных автоэнкодеров, однако, как показывают результаты решения одних и тех же задач с применением VAE и GAN, последние обеспечивают существенно более высокое качество обучения
моделей с использованием сгенерированных данных, особенно в задачах с небольшой размерностью пространства входных признаков, к которым в большинстве своем и относятся задачи технической диагностики.
Парадигма генеративно-состязательных сетей продолжает активно развиваться, дополняясь все новыми вариантами конфигурации сетей. Большой интерес для задач классификации состояний ОД представляют условные (conditional) GAN (CGAN) [14].
В этих сетях размерность пространства входных признаков m увеличивается до (m + n), где n — количество классов (меток) данных в исходной выборке. В дополнительном пространстве для каждого из объектов входной выборки размещается категорированная переменная, соответствующая метке его класса.
Сеть (дискриминатор и генератор) обучается на расширенном пространстве признаков размерности (m + n), при этом каждый входной вектор размерности m, подаваемый на вход как дискриминатора (реальный), так и генератора (случайный), дополняется посредством операции конкатенации категорированной переменной размерности n, соответствующей метке класса реального объекта.
После завершения обучения на вход генератора подаются расширенные векторы, образованные конкатенацией случайного вектора размерности m и категорированной переменной метки класса, для которого требуется сгенерировать очередной искусственный вектор данных.
Как следует из рис. 7, качество функционирования сети GAN оценивается отличием распределений реальной обучающей выборки P(x) и выборки сгенерированных данных Pg (x). Результат этой оценки зависит от выбранной меры подобия распределений. В базовой версии GAN в качестве такой меры используется дивергенция Дженсена — Шеннона [15].
Эффективность и устойчивость процесса обучения сети GAN (CGAN) существенно повышается при использовании для этой цели метрики Вассерштейна (Wassershtein) [16] (CWGAN) в сочетании с параметрическим (посредством штрафной функции — Gradient Penalty) ограничением величины градиента критика (CWGAN-GP).
Таким образом, использование различных конфигураций генеративно - с остязательных сетей является перспективным направлением повышения эффективности обработки диагностической информации в интеллектуальных системах технической диагностики.
3. Использование сети типа CWGAN-GP для аугментации обучающей выборки в задаче диагностирования газовоздушного тракта тепловозного дизеля
При решении задачи диагностирования газовоздушного тракта дизеля (ГВТ) [17] сформирован алфавит классов состояний, включающий восемь классов (включая исправное), для которых с помощью аналитических моделей рабочего процесса дизеля рассчитана обучающая выборка входных признаков общим объемом 102 четырехмерных вектора, фрагмент которой после нормализации представлен в таблице. Таким образом, на каждый класс состояния приходится в среднем не более 13 векторов обучающей выборки, при том что, как отмечено выше, для качественного обучения модели машинного обучения на каждый класс состояния требуется от нескольких десятков до нескольких сотен векторов входных признаков.
Расширение выборки аналитическим расчетом дополнительных точек не имеет смысла, поскольку такие точки не несут дополнительной информации о внутренних параметрах объекта ввиду отсутствия случайной
Фрагмент нормализованной обучающей выборки для модели ГВТ дизеля
GB Пк Птк Class Количество векторов
0,8951 0,8571 0,3429 0,9769 0
0,8114 0,7600 0,2709 0,9260 0
0,7250 0,6857 0,1965 0,8302 0 5
0,6059 0,6071 0,1009 0,6730 0
0,5056 0,5457 0,0179 0,5356 0
0,3318 0,3000 0,1062 0,0599 1
0,2937 0,3000 0,1500 0,0573 1
10
0,6212 0,6786 0,4218 0,8078 1
0,4178 0,3500 0,4206 0,1470 1
0,1585 0,2429 0,3044 0,0051 2
0,0538 0,2143 0,5124 0,0000 2
12
0,3896 0,6014 0,6915 0,6299 2
0,3356 0,3243 0,5147 0,0952 2
0,7499 0,7729 0,3353 0,9331 3
0,6922 0,6886 0,2353 0,8315 3
0,5739 0,6186 0,1265 0,6906 3
0,5500 0,6357 0,1500 0,7218 3
0,6872 0,8129 0,3941 0,9562 4
0,6357 0,7114 0,2853 0,8606 4
10
0,5098 0,6371 0,1794 0,7198 4
0,4665 0,6443 0,2176 0,7283 4
0,7703 0,7214 0,2412 0,8838 5
0,6310 0,6243 0,1206 0,7100 5
35
0,5244 0,5643 0,0059 0,5743 5
0,5253 0,5657 0,0088 0,5772 5
Примечания: Ов — расход воздуха, рк — степень повышения давления в компрессоре, Т — температура газа перед турбиной, птк — частота вращения ротора турбокомпрессора.
составляющей их координат в пространстве признаков, обусловленной влиянием неучтенных в модели внешних и внутренних влияющих факторов.
Учитывая наличие в обучающей выборке групп векторов, соответствующих различным классам состояния ГВТ, для генерации новых данных целесообразно использовать условную генеративную сеть.
Для решения задачи была построена сеть типа CWGAN-GP со следующей структурой [18]:
- генератор (4 + 8) - 380 - 520 - 400 - 370 -340 - 240 - 4 с функцией активации нейронов скрытых слоев 'selu', выходного слоя — 'sigmoid';
- критик (4 + 8) - 333 - 366 - 455 - 333 -233 - 133 - 1 с функцией активации нейронов скрытых слоев 'selu', выходного слоя — 'sigmoid'.
Одной из серьезных проблем, решаемых в задачах генерации данных, является проблема оценки результатов работы модели и непосредственно связанная с ней проблема определения продолжительности обучения.
В дискриминативных моделях эти проблемы сводятся к оценке точности отнесения вектора входных данных к определенной области пространства признаков, заданной перечислением входящих в нее векторов обучающей выборки (задачи классификации) или аналитическим описанием (задачи восстановления регрессии), с помощью известных наборов метрик.
Результатом работы генеративных моделей являются не отдельные «синтетические» векторы данных, а их распределение, которое должно соответствовать распределению векторов обучающей выборки (рис. 7). Соответственно, оценка качества обучения генеративной модели должна сводиться к количественной оценке различия распределений обучающей и сгенерированной моделью выборок данных.
Для оценки сходства распределений вероятностей двух переменных (двух выборок) могут использоваться дивергенции и метрики (Куль-бака — Лейблера, Дженсена — Шеннона, Брег-мана, Вассерштейна и др.), параметрические и непараметрические критерии однородности [19]. Недостатком методов первой группы является отсутствие универсальных пороговых
значений, определяющих степень различия распределений.
Для многомерных распределений в наибольшей степени разработаны параметрические критерии однородности нормально распределенных выборок, а также тесты для проверки нормальности распределения. Известные многомерные непараметрические критерии, во-первых, весьма сложны, а во-вторых, требуют наличия выборки достаточного объема.
В связи с этим представляется целесообразным исследовать возможность использования для оценки однородности исходной обучающей и сгенерированной выборок методов пространственного анализа данных [20]. Эта возможность основана на предположении о компактном расположении векторов обучающей выборки в ограниченной области пространства признаков. Поскольку объем обучающей выборки всегда конечен, границы этой области всегда определены с точностью, зависящей от количества векторов в выборке.
Ближайшим соседом (nearest neighbor) точки х является такая точка N(x), для которой выполняется условие:
N(x)^ dx,} yj e X - x, (4)
где d — расстояние между точками выборки в пространстве признаков.
Величина dxN(x) называется расстоянием до ближайшего соседа (nearest neighbor distance) (NND) точки x. Множество таких расстояний, соответствующее всем точкам выборки X, характеризует компактность ее расположения в пространстве признаков.
Пусть WX является некоторой обобщенной количественной мерой расстояния NND выборки X в пространстве признаков, которая возрастает по мере увеличения плотности выборки (уменьшения NND).
Пусть Vх является некоторой обобщенной количественной мерой расстояния между векторами двух различных выборок X и Y в пространстве признаков, которая возрастает по мере уменьшения расстояния между векторами выборок.
Пусть XS и XG — исходная (обучающая) и сгенерированная выборки соответственно.
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
P/K
Рис. 8. Исходная обучающая и сгетеророванная выборке параметров ГВТ дизелялосле 500 эпохобучения. G^ птк, Тт, Рк— нормализованныезначениярасходавоздуха,частотывращенияроторатурбокомпрессора, температурыотработавшихгазов,степениповышениядавлениявнагнетателе
Тогда условиеодкюроуности оыКороэ Xs и
XG можот быее рэкесанон еиде:
V-
xsxg
> W
Xs
05)
т. е. расстооникмежлу кеттоткмиогенетитк-ванной и исходной выборки в пространстве признаков не должно превосходить NND расстояния векторов исходной выборки.
В качестве обобщенных мер WX и VXY могут бы применены G - и F-функции Рипли (Ripley), используемые в задачах пространственного кластерного анализа точечных процессов [20].
G-функция определяется следующим образом.
Для данного расстояния d значение функции G (d) представляет собой долю векторов выборки, для которых NND расстояние dt меньше или равно d:
1 N
G(d) = N X1(dt * d),
N i=1
(6)
где N — количество векторов в выборке;
/—индикаторнаяфункция, равная 1, если операнд истинен, 0 и противномсаучве.
Завдуимость О = /(<И) ирамсвнвляет с обой м онотонноао зрастающую функцию распреде-нендиОЬеДХ) раа сеоинияввыНсрке, ясрадт ери-зующуюкомимкгнтсведасположения ее точек в пространстве признаков.
В отличие от ^-функции, определяемой для расстояний до ближайших точек внутри выборки X, ^-функция определяется для расстояний от точек выборки Хдо ближайших к ним точек выборки Y, отличной от X:
1 nx ny
F(d)=Nr XX7 (dj * d)
N V V-1
(7)
X i=1 J =1
где Ых, Ыг — количество точек в выборках X и Y.
Пусть определены G-функция (6) для обучающей выборки Х8 и ^-функция (7) для сгенерированной выборки ХО на множестве Б значений расстояния ё, В = \ёх,ё2,...,ёк} , причем
1
0,9 0,8 0,7
Й
а 0,6 н
^ 0,5 0,4 0,3 0,2 0,1 0
А Gк исх.
д Gк ген.
■ Тт исх.
□ Тт ген.
о птк исх.
о птк ген.
• G-функция обуч. Р-функция ген.
-1-1-1-1-1- —I-1-1-1-
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Р/к
Рис. 9. Исходная обучающаяисгенерированнаявыборкипараметров ГВТдизеляпосле 5000 эпохобучения.
Обозначениясоответствуютрис.8
(ёк - йк-:) = -
= const.
где к — количество интервалов.
Тогда условием однородности выборок Х8 и Ха является выполнение неравенства:
^ (й)> О (ё), Уё е В ,
(8)
т. е. кривая функция распределения расстояний от точек выборки ХО до ближайших точек выборки Х$ не должна располагаться ниже кривой функции распределения NND расстояния выборки Х$.
На рис. 8—10 приведены плоские проекции фрагментов исходной обучающей и сгенерированной выборок входных векторов эталонной модели ГВТ дизеля, соответствующих одному из классов состояния, на разных
стадиях обучения сети CWGAN-GP. При расчете NND расстояния использовалась Евклидова метрика. В общем случае, учитывая возможную мультиколлинеарность входных признаков в задачах технической диагностики, более универсальным решением представляется использование метрики Махалонобиса.
Как следует из рисунков, по мере обучения генератора увеличивается компактность «синтетической» выборки и смещение области ее расположения в пространстве признаков к области расположения исходной обучающей выборки, что приводит к повышению уровня кривой ^-функции.
Через 11 500 эпох обучения практически все сгенерированные точки находятся в области расположения исходной обучающей выборки, вследствие чего уровень ^-функции «синтетической выборки» в области малых расстояний
1
0,9 0,8 0,7
£
i 0,6
£
а
^ 0,5 0,4 0,3 0,2 0,1 0
0
A Gk исх. л Gk ген. ■ Тт исх. □ Тт ген. • птк исх. о птк ген.
G-функция исх. F-функция ген.
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Рк
Рис. 10. ИсходнаяобучающаяисгенерированнаявыборкипараметровГВТдизеляпосле 11 500 эпохобучения
повышается до уровня С-функции исходной выборки, свидетельствуя о достижении прием-лемсгокачестваработыгенератораивозмож-ностизавершения процессаобучения севм.
Заключение
Одной из наиболее серьезных проблем, ограничивающих возможность применения интеллектуачьных методов ебработки дчб-гностической информации в задачах диагностики сложных технических объектов, являемая сножносен формированияоСбчающей выреркипо всемкласФимсостотнибвреекта в оОкгма, досчтточоеа дляянчессччнного обрие-нееэтазынныеуеканосаииосрихмодефей или кквссификат оров, ввиду высоких абсолютных показателеыыаяежианби такие; оСосктов.
Эффснеивннш способом чешеник щю-блемы является аугментация (искусственное
расширение) обучающих данных. Особенностью обучающих выборок в задачах технической диагностикиявляется в ибщем случае неизвеевлыйеид их рясиряделянии в иросеран-стве признаков, при том что для обеспечения качественного обучения диагностической модели доп олнительные «синтетические» данные, очевидно, должны быть распределены аналогично резльлойоручающеы воНорке.
В результате выполненного анализа существующих методов аугментации данных уста-нсвлеиг, чновссмнжность отфевтленвгиащ-мвчров ааспревяленияданных еруоанщен выРогил впгодоссе ябученнасыочлядующкм госиеяигв едентрмевгхкарердтроенсгон еррт рованных выборках может быть реализована в гонератаеныгмояелятнасевтве варианлер-иых автеенкгдеров (ЛЫН-лгаисративно-состя-зательных сетей (GAN). При этом лучшие
результаты достигаются при использовании GAN.
В задачах интеллектуальной классификации состояния объекта диагностирования с размеченными обучающими выборками для генерации дополнительных данных предпочтительным является использование условных (conditional) сетей GAN (CGAN).
Серьезной проблемой, возникающей при решении практических задач, связанных с генерированием дополнительных данных по имеющемуся образцу (обучающей выборке небольшого объема), является оценка однородности обучающей и сгенерированной выборок, результатами которой определяется длительность (количество эпох) процесса обучения генеративной модели.
В работе предложен и обоснован оригинальный способ оценки однородности многомерных выборок на основе G- и ^-функций Рипли (Ripley), используемых в задачах пространственного кластерного анализа точечных процессов. На его основе определен количественный показатель для контроля качества и продолжительности обучения генеративной модели.
Эффективность предложенного метода подтверждается на примере решения задачи аугментации обучающих данных для эталонной диагностической модели газовоздушного тракта тепловозного дизеля. Ж
Библиографический список
1. Федотов М. В. Предиктивная аналитика технического состояния систем тепловозов с использованием нейро-сетевых прогнозных моделей / М. В. Федотов, В. В. Грачев // Бюллетень результатов научных исследований. — 2021. — № 3. — С. 102-114. — DOI: 10.20295/2223-99872021-3-102-114.
2. Федотов М. В. Способы повышения качества обучения нейросетевых диагностических моделей сложных технических объектов / М. В. Федотов, А. Л. Шарапов, В. В. Грачев // Интегрированные модели и мягкие вычисления в искусственном интеллекте ИММВ-2022: Сборник научных трудов XI Международной научно-практической конференции. В 2 томах, Коломна, 16-19 мая 2022 года. Том 1. — Коломна: Общероссийская общественная организация «Российская ассоциация искусственного интеллекта», 2022. — С. 258-267.
3. Воронцов К. В. Лекции по теории обобщающей способности / К. В. Воронцов. — URL: http://www.ccas.ru/voron/
download/Generalization.pdf (дата обращения: 07.05.2023).
4. Shorten C. A survey on Image Data Augmentation for Deep Learning / C. Shorten, T. M. Khoshgoftaar // Journal of Big Data. — 2019. — Vol. 6, Article number: 60. — URL: https:// journalofbigdataspringeropen.com/articles/10.1186/ s40537-019-0197-0 (дата обращения: 07.05.2023).
5. Krizhevsky A. ImageNet classification with deep convolution-al neural networks / A. Krizhevsky, I. Sutskever, G. E. Hinton // Adv Neural Inf Process Syst. — 2012. — Iss. 25. — Pp. 11061114.
6. Guoliang K. PatchShufe regularization / K. Guoliang, D. Xuanyi, Z. Liang et al. // arXiv preprint, 2017.
7. Zhun Z. Random erasing data augmentation / Z. Zhun, Z. Liang, K. Guoliang // arXiv e-prints, 2017.
8. Ken C. Return of the devil in the details: delving deep into convolutional nets / C. Ken, S. Karen, V. Andrea et al. // Proceedings of BMVC. — 2014.
9. Чернобровов А. Как обмануть нейросеть или что такое Adversarial attack / А. Чернобровов. — 2020. — URL: https://www.chernobrovov.ru/articles/kak-obmanut-nejro-set-ili-chto-takoe-adversarial-attack.html (дата обращения: 07.05.2023).
10. Seyed-Mohsen M. D. A simple and accurate method to fool deep neural networks / M. D. Seyed-Mohsen, F. Alhussein, F. Pascal et al. — ArXiv preprint, 2016.
11. Jiawei S. One pixel attack for fooling deep neural networks / S. Jiawei, W. Danilo, K. Sakurai // arXiv preprints, 2018.
12. Сурцуков М. Автоэнкодеры в Keras / М. Сурцуков. — 2017. — URL: https://habr.com/ru/articles/331382/ (дата обращения: 07.05.2023).
13. Goodfellow I. J. Generative Adversarial NetWork / I. J. Good-fellow, J. Pouget-Abadie, M. Mirza et al. — Reprint arXiv: 1406.2661-2014.
14. Mehdi M. Conditional Generative Adversarial Nets / M. Mehdi, S. Osindero // arXiv:1411.1784. — 2014.
15. Как найти сходство между двумя распределениями вероятностей с помощью Python. — 2023. — URL: https:// questu.ru/articles/352904/ (дата обращения: 21.06.2023).
16. Ссылка на функцию расстояния Вассерштейна в Python. — 2023. — URL: https://question-it.com/ques-tions/15429235/ssylka-na-funktsiju-rasstojanija-vasser-shtejna-v-python (дата обращения: 21.06.2023).
17. Грачев В. В. Диагностирование газовоздушного тракта тепловозного дизеля с использованием интеллектуального классификатора / В. В. Грачев, М. В. Федотов, А. В. Грищенко и др. // Бюллетень результатов научных исследований. — 2022. — № 2. — С. 124-140. — DOI: 10.20295/2223-9987-2022-2-124-140.
18. Фостер Д. Генеративное глубокое обучение. Творческий потенциал нейронных сетей / Д. Фостер. — СПб.: Питер, 2020. — 336 с.
19. Методы измерения расстояния и подобия. — 2023. — URL: https://russianblogs.com/article/62221539035/ (дата обращения: 22.06.2023).
20. Rey S. Distance Based Statistical Method for Planar Point Patterns / S. Rey, W. Kang. — URL: https://pysal.org/note-books/explore/pointpats/distance_statistics.html (дата обращения: 01.07.2023).
TRANSPORT AUTOMATION RESEARCH, 2023, Vol. 9, No. 3, pp. 258-273 DOI: 10.20295/2412-9186-2023-9-03-258-273
Improving the Training Quality of Reference Diagnostic Models of Complex Technical Objects by Augmentation of Training Data
Information about authors
Grachev V. V., Doctor in Engineering, Associate Professor, Professor1. E-mail: [email protected]
Fedotov M. V., PhD in Engineering, Head of the Diagnostic Laboratory2. E-mail: [email protected]
1Emperor Alexander I St. Petersburg State Transport University, Department of Locomotives and Locomotive Fleet, Saint Petersburg
2JSC "Scientific Research and Design and Technological Institute of Rolling Stock", Diagnostic Laboratory of the Reliability and Diagnostic Department, Kolomna
Abstract: One of the most serious problems limiting the possibility of using intelligent methods of processing diagnostic information in the tasks ofdiagnosing complex technical objects is the difficulty of forming a training sample for all classes of the state ofthe object in an amount sufficient for high-quality training of reference diagnostic models or classifiers, due to high absolute reliability indicators of such objects. An effective way to solve the problem is to augment (artificially expand) training data. A feature of training samples in technical diagnostics tasks is the generally unknown type of their distribution in the space of features, while additional "synthetic" data should be distributed similarly to the actual training set to ensure high-quality training ofthe diagnostic model. As a result of the analysis of existing data augmentation methods, it was established that the possibility ofdetermining data distribution parameters of the training sample in the course of training with subsequent reproduction of these parameters in the generated samples can be implemented in generative models based on variational autoencoders (VAE) and generative-adversarial networks (GAN). At the same time, the best results are achieved using GAN. In the tasks of intelligent classification of the state of a diagnostic object with marked training samples for generating additional data, it is preferable to use conditional GAN (CGAN). A serious problem that arises in solving practical problems related to the generation of additional data on the available sample (training sample of a small volume) is the assessment of the uniformity of the training and generated samples, the results of which determine the duration (number of eras) of the training process of the generative model. The paper proposes and substantiates an original method of estimating uniformity of multidimensional samples based on Ripley's G and F functions used in spatial cluster analysis of point processes. Based on it, a quantitative indicator has been determined for quality control and training duration ofthe generative model. The efficiency ofthe proposed method is confirmed by the example of solving the problem of augmentation of training data for the reference diagnostic model of the gas-air path of a diesel locomotive.
Keywords: machine learning model; training sample; intelligent classifier; diagnostic object; generative adversarial networks; data augmentation; multidimensional samples uniformity control; spatial analysis; Ripley's function.
References
1. Fedotov M. V., Grachev V. V. Prediktivnaya analitika tekhnicheskogo sostoyaniya sistem
teplovozov s ispol'zovaniem neyrosetevykh prognoznykh modeley [Predictive analytics of the technical condition of diesel locomotive systems using neural network predictive models]. Byulleten' rezul'tatov nauchnykh issledovaniy [Bulletin of scientific research results]. 2021, Iss. 3, pp. 102-114. DOI: 10.20295/2223-99872021-3-102-114. (In Russian)
2. Fedotov M. V., SharapovA. L., Grachev V. V. Sposoby povysheniya kachestva obucheniya neyrosetevykh diagnosticheskikh modeley slozhnykh tekhnicheskikh ob"ektov [Methods for improving the quality of training of neural network diagnostic
models of complex technical objects]. Integrirovannye modeli i myagkie vychisleniya v iskusstvennom intellekte IMMV-2022: Sborniknauchnykh trudovXI Mezhdunarodnoy nauchno-prakticheskoy konferentsii. V 2 tomakh, Kolomna, 16-19 maya 2022 goda. Tom 1 [Integrated models and soft computing in artificial intelligence IMMV-2022: Collection scientific works of the XI International Scientific and Practical Conference. In 2 volumes, Kolomna, May 16-19, 2022. Vol. 1]. Kolomna: Obshcherossiyskaya obshchestvennaya organizatsiya "Rossiyskaya assotsiatsiya iskusstvennogo intellekta" Publ., 2022, pp. 258-267. (In Russian)
3. Vorontsov K. V. Lektsiipo teorii obobshchayushchey sposobnosti [Lectures on the theory of generalizing ability]. Available at: http://www.ccas.ru/voron/download/ Generalization.pdf (accessed: May 7, 2023). (In Russian)
4. Shorten C., Khoshgoftaar T. M. A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 2019, vol. 6, article number: 60. Available at: https:// journalofbigdataspringeropen.com/articles/10.1186/s40537-019-0197-0 (accessed: May 7, 2023).
5. Krizhevsky A., Sutskever I., Hinton G. E. ImageNet classification with deep convolutional neural networks. Adv Neural Inf Process Syst., 2012, Iss. 25, pp. 11061114.
6. Guoliang K., Xuanyi D., Liang Z. et al. PatchShufe regularization, arXiv preprint, 2017.
7. Zhun Z., Liang Z., Guoliang K. Random erasing data augmentation, arXiv e-prints, 2017.
8. Ken C., Karen S., Andrea V. et al. Return of the devil in the details: delving deep into convolutional nets. Proceedings of BMVC, 2014.
9. Chernobrovov A. Kak obmanut' neyroset' ili chto takoe Adversarial attack [How to deceive a neural network or what is an Adversarial attack]. 2020. Available at: https://www.chernobrovov.ru/articles/kak-obmanut-nejroset-ili-chto-takoe-adversarial-attack.html (accessed: May 7, 2023). (In Russian)
10. Seyed-Mohsen M. D., Alhussein F., Pascal F. et al. A simple and accurate method to fool deep neural networks, arXiv preprint, 2016.
11. Jiawei S., Danilo W., Sakurai K. One pixel attack for fooling deep neural networks, arXiv preprints, 2018.
12. Surtsukov M. Avtoenkodery vKeras [Autoencoders in Keras]. 2017. Available at: https://habr.com/ru/articles/331382/ (accessed: May 7, 2023). (In Russian)
13. Goodfellow I. J., Pouget-Abadie J., Mirza M. et al. Generative Adversarial NetWork. Reprint arXiv: 1406.2661-2014.
14. Mehdi M., Osindero S. Conditional Generative Adversarial Nets, arXiv:1411.1784, 2014.
15. Kaknayti skhodstvo mezhdu dvumya raspredeleniyami veroyatnostey s pomoshcKyu Python [How to find similarity between two probability distributions using Python]. 2023. Available at: https://questu.ru/articles/352904/ (accessed: June 21, 2023). (In Russian)
16. Ssylkana funktsiyu rasstoyaniya Vassershteyna vPython [Reference to the Wasserstein distance function in Python]. 2023. Available at: https://question-it.com/ questions/15429235/ssylka-na-funktsiju-rasstojanija-vassershtejna-v-python (accessed: June 21, 2023). (In Russian)
17. GrachevV. V., FedotovM. V., Grishchenko A. V. et al. Diagnostirovanie gazovozdushnogo trakta teplovoznogo dizelya s ispol'zovaniem intellektual'nogo klassiflkatora [Diagnosis of the gas-air path of a diesel locomotive using an intelligent classifier]. Byulleten' rezul'tatov nauchnykh issledovaniy [Bulletin of the results of scientific research]. 2022, Iss. 2, pp. 124-140. DOI: 10.20295/2223-9987-2022-2-124-140. (In Russian)
18. Foster D. Generativnoe glubokoe obuchenie. Tvorcheskiypotentsialneyronnykh setey [Generative deep learning. Creative potential of neural networks]. St. Petersburg: Piter Publ., 2020, 336 p. (In Russian)
19. Metody izmereniya rasstoyaniya i podobiya [Methods for measuring distance and similarity]. 2023. Available at: https://russianblogs.com/article/62221539035/ (accessed: June 22, 2023). (In Russian)
20. Rey S., Kang W. Distance Based Statistical Method for Planar Point Patterns. Available at: https://pysal.org/notebooks/explore/pointpats/distance_statistics.html (accessed: July 1, 2023).