УДК 656.259.12:004.85:004.896
DOI: 10.25206/1813-8225-2018-162-126-130
и. В. ПРИСУХИНА Д. В. БОРИСЕНКО
Омский государственный университет путей сообщения, г. Омск
машинная классификация РЕжима работы электрической рельсовой цепи
МЕТОДОМ ОПОРНЫХ ВЕКТОРОВ
системы мониторинга электрических рельсовых цепей, применяемые в настоящее время на железнодорожном транспорте, не обладают интеллектуальными функциями, что существенно снижает их потенциал. Эффективность этих систем может быть существенно повышена за счет реализации функций автоматического анализа собираемой информации. в рамках реализации этих функций ранее мы предложили автоматизировать классификацию режима работы электрической рельсовой цепи на основе логистической регрессии. Однако такой классификатор обладает рядом ограничений. в этой статье мы предлагаем более совершенный алгоритм классификации, построенный на основе метода опорных векторов. в статье представлена теоретическая база алгоритма, продемонстрирована его работа на синтезированных данных. также показано, что применение гауссовского ядра позволяет уменьшить размерность пространства признаков при сохранении качества классификации состояния электрической рельсовой цепи.
ключевые слова: железнодорожная автоматика, электрическая рельсовая цепь, машинное обучение, классификация, логистическая регрессия, метод опорных векторов.
Введение. В рамках стратегии холдинга ОАО «РЖД» до 2020 г. одним их ключевых проектов определена высокотехнологичная платформа «Цифровая железная дорога» [1].
Для инфраструктурного комплекса корпорации, к которому принадлежат устройства железнодорожной автоматики и телемеханики, приоритетной задачей является повышение потенциала систем технической диагностики и мониторинга (СТДМ) за счет расширения их функциональных возможностей по обработке диагностической информации, поступающей на верхний уровень СТДМ от низовых устройств [2 — 4]. Применяемые в настоящее время СТДМ не обладают интеллектуальными функциями, а лишь контролируют нахождение параметров объекта железнодорожной автоматики в допустимых пределах.
Таким образом, актуальна проблема разработки интеллектуальных систем, которые способны самостоятельно выявлять неочевидные человеку связи и зависимости внутри диагностических данных и, как следствие, оперативно информировать о реальном состоянии объекта автоматики и телемеханики.
Построение интеллектуальных систем обработки диагностических данных устройств железнодорожной автоматики и телемеханики может быть выполнено с применением методов машинного обучения.
В [5] представлено решение задачи классификации режима работы электрической рельсовой цепи (как объекта железнодорожной автоматики и теле-
механики) на основе логистической регрессии. Несмотря на успешное выполнение поставленной задачи, логистическая регрессия имеет существенное ограничение: для безошибочной классификации данные должны быть линейно разделимы [6]. Существуют альтернативные алгоритмы машинного обучения, не имеющие такого ограничения, которые способны решать подобные задачи достаточно эффективно. Одним из таких алгоритмов является рассматриваемый в данной статье метод опорных векторов (Support Vector Machine, далее SVM).
Основные понятия и используемая терминология. Рельсовая цепь работает в трех основных режимах — нормальном, шунтовом и контрольном [7], которые мы также будем называть классами. О режиме работы рельсовой цепи можно судить по параметрам электрических сигналов на ее входе и выходе. К таким параметрам относятся амплитуды и фазы напряжений и токов на входе и выходе рельсовой цепи. Значения всех или любой совокупности этих параметров, полученные в один и тот же момент времени, образуют вектор признаков.
SVM относится к группе алгоритмов обучения «с учителем», следовательно, каждый вектор признаков должен быть дополнен идентификатором соответствующего режима работы рельсовой цепи (ответом). Дополненный ответом вектор признаков называется обучающим примером, а совокупность нескольких обучающих примеров — выборкой.
Для построения классификаторов требуются обучающая и тестовая выборки [8]. Такие выборки синтезированы на основе [7] по цифровой модели
рельсовой цепи, описанной в [9]. Их структура, состав, а также особенности генерации по цифровой модели рельсовой цепи аналогичны тем, что использованы в [5] для построения классификатора на основе логистической регрессии.
Система классификации режима работы рельсовой цепи. Поскольку рельсовая цепь имеет три режима работы, а БУМ выполняет бинарное разделение пространства признаков [8], преобразуем бинарную задачу в мультиклассовую по аналогии с тем, как это сделано в [5]. Исследования на данную тему подробно описаны в [10] и рассматривают несколько вариантов такого преобразования («один против всех», «один против одного», «БЛСБУМ»).
Для классификации режима работы рельсовой цепи выберем метод «один против всех», возможности которого вполне удовлетворяют требованиям решаемой задачи. Выбор данного метода обусловлен относительной простотой его программной реализации по сравнению с остальными, а также наиболее частым и успешным применением в работах других авторов, например, [8, 11].
Поясним, что метод «один против всех» обеспечивает принятие решения о принадлежности вектора признаков к соответствующему классу по наибольшему значению решающей функции для этого вектора.
Таким образом, необходимо построить систему машинной классификации, состоящую из трех самостоятельных структур (классификаторов), по одной для каждого режима работы рельсовой цепи. Каждый классификатор, в свою очередь, решает бинарную задачу отделения одного из классов от двух остальных в пространстве признаков.
Классификация режима работы рельсовой цепи методом опорных векторов. БУМ был впервые представлен В. Н. Вапником [12] как алгоритм, способный выполнять бинарную классификацию данных в пространстве признаков и обеспечивающий при этом максимальный интервал между векторами разделяемых классов и границей принятия решения. Свойство разграничивать данные разных классов максимальным интервалом, тем самым обеспечивая их «уверенное» разделение, дает классификатору на основе БУМ преимущество перед многими методами машинной классификации [6, 8, 11, 13].
Граница принятия решения, которая разделяет классы в пространстве признаков, представляется гиперплоскостью и описывается формулой (1). Решение о принадлежности вектора к классу принимается на основе ступенчатой решающей функции, которая описывается формулой (2).
h(x) =
z(x)=wTx + b,
1, при z(x) > 0 - 1, при z(x) < 0
(1) (2)
min C +
',bfe'"} i=1
при ym(wTx(¿) + b) > 1 - 4(i), ;=1... m, > 0, í=1... m,
(3)
где x1
— i-й обучающий пример из обучающей выборки; y(i| — идентификатор класса при i-м обучающем примере, равный 1 для примеров относящихся к выделяемому классу, и — 1 для всех остальных примеров; m — размер обучающей выборки; C — параметр регуляризации, определяющий увеличение целевой функции для обучающих примеров вблизи границы принятия решения (при решении поставленной задачипринят равным 100); — переменная ослабления, являющаяся мерой ошибки, допускаемой при работе классификатора.
На сегодняшнийдень длярешения задачи оптимизации при линейных ограничениях в SVM применяется алгоритм последовательной минимальной оптимизации (Sequential Minimal Optimization, далее SMO). Этот алгоритм предложен Д. Платтом в [14] вместо ранее используемого квадратичного программирования. Существпедым до дтоинством SMO является кардинальное увеличение производительности за счет разби ения решаемой громоздкой оптимизационной задачи на набор небольших подзадач. Сформированные подзадачи разрешимы аналитически,что не требует серьезных затрат времени и вычтслительнрк реаурпов, как было раеее при оптимизации по [12].
В [8] показано, что оптимизационная задача (3) сводится к задаче (4), кдторас раааается с помощью алгоритма SMO [14].
max J a t - - J Jy
(Л
ь
■t=1j=1
(4)
при 0 < а,-< C, i= =.. m,
I«, y(') =0,
где а. — множитель Лагранжа при i-м обучающем примере; K(x(l), x") — функция, результат которой равен скалярному произведению векторов i-го и -'-го обучающих примернв.
В формулах задачи (4)скалярное произведение векторов приведено в виде отдельной функции. Это сделано для удобства перехода при классификации к пространствам более высокой размерности, что, в свою очередь, позволяет реализоват нелинейную границу принятия решения и поеысить точность классификатора. Функцик К называется якрфм, и в простейшем случае, при отсутствии не обходи-мости перехода к пространству более высокой размерности, опредеи к тс н ф ормулой (5). Такое ядро
называется линеиным.
где w — вектор весовых коэффициентов, определяющих наклон границы принятия решения в пространстве признаков; Ь — параметр, определяющий смещение границы принятия решения относительно начала координат; x — вектор признаков, подлежащий классификации.
Вектор w и параметр Ь могут быть найдены в результате решения оптимизационной задачи (3), что и является обучением классификатора.
Щхи,x(= (х(i}J •:
(5)
Решением задачи (4) является совокупность значений множителей Ла4ранжа, причем в [8] показано, что лишь для не скольких обучающих примеров соответствующий мн4жителч Лагранжа отличается от нуля.
Такие обучающие пртйелы называются ойор-ными векторами. После решения задачи (4) весовые коэффициенты w определяются по формуле (6).
= 1«У
(6)
J.
w
где 5 — множество номеров обучающих примеров, для которых множители Лагранжа, полученные при решении за да чи (4), больше нуля.
При подстанов ке (6) в (1) с учетом обозначения (5) получаем выражение (7), описывающее границу принятия рюшхния.
z(x) = I £ у, у(i)x(i) I x + b =
= P у ¿y(i)(x(i) )x + b = £a¡y(iK(x(i|,x) + b . (7)
В [8] также показано, что параметр b, фигурирующий в =ормууах (1) и (7), опреAeeHeTcx на основе выявленным онорных векторов по формуле (8):
Т=- РР-у е1-рру-У (]П(е", е \ ,
N M íbM\ jBS )
(8)
где M — множество номеров обучающих примеров, для которых) полученные в результате решения задачи (4) множители Лагранжа удо влетворяют неравенству 0<a.<C; NM — число элементов в множестве М.
Таким образом, обучение классификатора заключается в определении множителей Лагранжа а. для обучающей выборки путем решения задачи (4) с помощью алгоритма SMO. После этого по формуле (8) может быть определен параметр b. Классификация произвольного вектора x в пространстве признаков заключается в расчете формулы (7) и подстановке полученного значения в формулу (2). Максимальное значение ступенчатой функции h(x), полученное по формуле (2), для одного из классов свидетельствует о принадлежности вектора x к этому классу.
Демонстрация результатов работы SVM на примерах. Продемонстрируем классификацию режима работы рельсовой цепи с помощью SVM для нескольких случаев в вычислительной среде Octave. Для этого зададимся трехмерным пространством признаков, образованным следующими параметрами рельсовой цепи: x1 — модуль тока на входе рельсовой цепи, x2 — модуль напряжения на выходе рельсовой цепи, x3 — фаза напряжения на выходе рельсовой цепи, следовательно, x = {x1,x2,x3}.
Поскольку выбранные для обучения параметры имеют различные диапазоны изменения, необходимым этапом является их нормализация, то есть приведение к единому интервалу [6]. Выполним нормализацию в интервале [0,1], так же как это сделано в [5].
После обучения классификаторов, согласно (1) — (8), для каждого режима работы рельсовой цепи получены следующие гиперплоскости (рис. 1), являющиеся границами принятия решений по принципу «один против всех».
На рис. 1 видно, что полученные границы принятия решений являются плоскостями и расположены, во-первых, на максимальном, а во-вторых, на одинаковом расстоянии от ближайших друг к другу векторов выделяемого и остальных классов. Данное положение границ отличает SVM от логистической регрессии из [5], при которой они устанавливались произвольно в пространстве между классами.
Точность классификации как на обучающей, так и на тестовой выборках составила 100 %, что объясняется линейной разделимостью классов в пространстве трех признаков.
а)
б)
в)
Рис. 1. Границы принятия решений для режимов работы рельсовой цепи в пространстве трех признаков: а) нормальный; б) шунтовой; в) контрольный
Классификация режима работы рельсовой цепи в пространстве трех признаков системой трех классификаторов может быть визуализирована при помощи развертки этого пространства (рис. 2).
т
в
íbS
X нормальный О остальные
щ
V*
1А
Рис. 2. Развертка трехмерного пространства признаков
о.2 о.4 о.б ед.
X, -►
а)
б)
Рис. 3. Визуализация обучающей выборки в пространстве двух признаков
Построение пространства на рис. 2 реализовано за счет генерации векторов признаков, равномерно распределенных внутри него в диапазоне от 0 до 1 с постоянным интервалом. Визуализация границ принятия решений обеспечена различной подсветкой векторов, а выбор оттенка подсветки — решением классификатора.
С точки зрения физической реализации системы машинной классификации, сбор информации о параметрах электрических сигналов рельсовой цепи осуществляется с помощью датчиков различного назначения. Число требуемых датчиков определяется числом используемых для классификации признаков.
Очевидно, что желательным является снижение числа датчиков, так как это позволит уменьшить затраты на реализацию и функционирование системы машинной классификации.
Уменьшение числа необходимых датчиков может быть достигнуто за счет уменьшения числа признаков, по которым выполняется классификация. Следствием этого может стать ухудшение разделимости классов. Так, например, если исключить из вектора x признак х3 (фаза напряжения на выходе рельсовой цепи), то обучающая выборка может быть визуализирована в виде рис. 3.
Рис. 4. Границы принятия решений для режимов работы рельсовой цепи в пространстве двух признаков: а) нормальный; б) шунтовой; в) контрольный
Как видно из рис. 3, при снижении размерности пространства признаков разделимость классов сохранилась, однако стала нелинейной. А именно класс, соответствующий шунтовому режиму работы рельсовой цепи, не может быть отделен от осталь-
ных классов одхой прямой ;шнией. Следовательно, для сохранения прежнего качества классификации границы принятия решений должны стать некоторыми кривыми.
Для достижения указанного эффекта можно использовать прием преобразования исходного двумерного пространства признаков, в котором линейная разделимостх классов отхутстхует, в многомерное (или бесконечное) пространство, в котором линейная раздеммость классов сохраноется. Тогда классификац ия при линейной раз делимости в многомерном пространстве приведет к получению нелинейной границы принятия решения в исходном (двумерном) пространстве признаоов. Такой прием можно выполнить путем замены линесного ядра (5) на гауссовское, имеющее вид (9):
K(x{'\ Xj)) = exp
ц2Л
2o2
(9)
где а — параметр сглаживания (в данном исследовании выбран равным 0,03 для наилучшей обобщающей способности классификатора).
Границы принятия решения в пространстве двух признаков, формируемые классификаторами, использующими гауссовское ядро (9), приведены на рис. 4.
На рис. 4 видно, что границами принятия решений являются кривые. Точность работы системы машинной классификации по-прежнему составила 100 % как на обучающей, так и на тестовой выборках.
Расчет гауссовского ядра (9) для одного опорного вектора по вычислительной сложности сопоставим с расчетом сигмоидальной функции и линейного полинома при логистической регрессии из [5]. Однако для выполнения классификации используется несколько опорных векторов, что приводит к пропорциональному увеличению времени вычислений по сравнению с логистической регрессией. Это обстоятельство не является критичным с учетом уменьшающейся стоимости вычислительных ресурсов и невысокой скорости изменения режимов работы рельсовых цепей.
Заключение. Таким образом, удалось показать, что БУМ может применяться для классификации режима работы рельсовой цепи как альтернатива логистической регрессии. В сочетании с гауссов-ским ядром этот метод позволяет снизить число признаков, по которым выполняется классификация, что обеспечивает снижение стоимости системы классификации. Следует, однако, отметить, что дальнейшему исследованию подлежит вопрос об оценке вычислительной эффективности БУМ и логистической регрессии.
Библиографический список
1. Чаркин Е. И. Новая технологическая реальность // Автоматика, связь, информатика. 2018. № 1. С. 2 — 5.
2. Насонов Г. Ф., Сусленникова Е. О., Дзюба Ю. В. Развитие информационных технологий в инфраструктурном
комплексе // Автоматика, связь, информатика. 2018. № 1. С. 14-16.
3. Розенберг Е. Н., Дзюба Ю. В., Батраев В. В. О направлениях развития цифровой железной дороги // Автоматика, связь, информатика. 2018. № 1. C. 9-13.
4. Урусов А. В. Цифровая железная дорога // Автоматика, связь, информатика. 2018. № 1. C. 6-8.
5. Борисенко Д. В., Присухина И. В., Лунёв С. А. Машинная классификация режима работы электрической рельсовой цепи на основе логистической регрессии // Омский научный вестник. 2018. № 4 (160). С. 67-72. DOI: 10.25206/1813-82252018-160-67-72.
6. Harrington P. Machine learning in action. NY: Manning Publications, 2012. 354 p. ISBN 1617290181; 9781617290183.
7. Брылеев А. М., Кравцов Ю. А., Шишляков А. В. Теория, устройство и работа рельсовых цепей. 2-е изд., перераб. и доп. М.: Транспорт, 1978. 344 с.
8. Bishop C. M. Pattern recognition and machine learning. NY: Springer, 2010. 738 p. ISBN 978-0-387-31073-2.
9. Борисенко Д. В., Присухина И. В., Лунёв С. А. Математическая модель рельсовой цепи для генерации обучающей выборки при решении задач машинной классификации // Известия Транссиба. 2017. № 4 (32). С. 111-121.
10. Hsu C.-W., Lin C.-J. A comparison of methods for multiclass support vector machines // IEEE Transactions on Neural Networks. 2002. Vol. 13, Issue 2. P. 415-425. DOI: 10.1109/72.991427.
11. Murphy K. P. Machine learning: a probabilistic perspective. Cambridge, Massachusetts: MIT Press, 2012. 1067 p. ISBN 0262018020; 978-0262018029.
12. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М.: Наука, 1979. 448 с.
13. Hastie T. The elements of statistical learning. 2nd ed. NY: Springer, 2009. 745 p. ISBN 0387848576, 978-0387848570.
14. John C. Platt. Fast training of support vector machines using sequential minimal optimization // Advances in Kernel Methods: Support Vector Learning. MIT Press. 1998. P. 185-208. ISBN 0262194163; 978-0262194167.
ПРИСухИнА Илона Вадимовна, аспирантка кафедры «Автоматика и телемеханика». БРНЧ-код: 8429-0259 АиШогГО (РИНЦ): 907740
Адрес для переписки: [email protected] БоРИСЕнКо Дмитрий Владимирович, кандидат технических наук, доцент (Россия), доцент кафедры «Автоматика и телемеханика». БРНЧ-код: 9697-9830 АиШогГО (РИНЦ): 533908
Адрес для переписки: [email protected]
Для цитирования
Присухина И. В., Борисенко Д. В. Машинная классификация режима работы электрической рельсовой цепи методом опорных векторов // Омский научный вестник. 2018. № 6 (162). С. 126-130. БОН 10.25206/1813-8225-2018-162126-130.
Статья поступила в редакцию 19.09.2018 г. © И. В. Присухина, Д. В. Борисенко
x(,) - x(j)