КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ КАК СРЕДСТВО ВЫЯВЛЕНИЯ ОШИБОК И ПРЕДЛОЖЕНИЯ РЕКОМЕНДАЦИЙ ПРИ ВВОДЕ БОЛЬШОГО ОБЪЁМА ДАННЫХ ДЛЯ ОЦЕНКИ ФУНКЦИОНАЛЬНОГО РЕСУРСА ОБЪЕКТОВ ТРАНСПОРТНОЙ ИНФРАСТРУКТУРЫ ОАО «РЖД»

Моисеенко Илья Владимирович; Менакер Константин Владимирович; Орлов Александр Валерьевич; Орлов Виктор Валерьевич

КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ КАК СРЕДСТВО ВЫЯВЛЕНИЯ ОШИБОК И ПРЕДЛОЖЕНИЯ РЕКОМЕНДАЦИЙ ПРИ ВВОДЕ БОЛЬШОГО ОБЪЁМА ДАННЫХ ДЛЯ ОЦЕНКИ ФУНКЦИОНАЛЬНОГО РЕСУРСА ОБЪЕКТОВ ТРАНСПОРТНОЙ ИНФРАСТРУКТУРЫ ОАО «РЖД» Моисеенко И.В.1, Менакер К.В.2, Орлов А.В.3, Орлов В.В.4

1Моисеенко Илья Владимирович - инженер-электроник, ГУП «Московский метрополитен», г. Москва;

Менакер Константин Владимирович - кандидат технических наук, доцент, кафедра электроснабжения,

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Иркутский государственный университет путей сообщения, г. Иркутск;

3Орлов Александр Валерьевич - кандидат технических наук, доцент, кафедра систем управления транспортной инфраструктурой, Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Российский университет транспорта (МИИТ), г. Москва;

4Орлов Виктор Валерьевич - директор направления, направление: безналичные решения, Байкальский банк ПАО «Сбербанк», г. Иркутск

Аннотация: ошибки, возникающие при вводе данных, существенно искажают результаты оценки функционального ресурса объектов транспортной инфраструктуры ОАО «РЖД». Чтобы контролировать ввод и указывать персоналу на допущенные ошибки, предлагается использовать модель коллаборативной фильтрации. Эта модель основывается на гипотезе о существовании схем заполнения данных, являющихся эталонными. Они выявляются посредством статистической обработки данных, являющихся эталонными, а также критериев отбора и сходства, которые используются для выполнения прогноза значений во время ввода новых данных.

Ключевые слова: big data, информационные системы, коллаборативная фильтрация, выявление ошибок, объекты транспортной инфраструктуры.

Сегодня компанией ОАО «РЖД» в рамках цифровизации получила активное развитие методология управления ресурсами, рисками и анализа надежности (УРРАН). УРРАН позволит повысить эффективность технической эксплуатации объектов транспортной инфраструктуры (ОТИ). Основой методов, которые используют в методологии расчетов и принятия решений является обработка больших объемов данных, которые формально относятся к категории Big Data (большие данные).

Несмотря на присутствие весьма большого количества средств автоматической регистрации, первичные данные по-прежнему вводит персонал. Помимо этого, в автоматизированных информационных системах уже используется большое количество данных, которые были внесены персоналом ранее. Тщательная проверка корректности данных вводимых персоналом в информационные системы практически не выполняется. Посредством этого количество некорректных данных существенно.

Важнейшая задача, которая решается в методологии УРРАН, где благодаря ручному вводу данных оказывается большое влияние на результат, - это оценка функционального ресурса ФР. ФР описывает объект в отношении количества и качества производимых функций в соответствующих условиях эксплуатации. Итоговая оценка ФР является главным ориентиром во время принятия решений, которые относятся к технической эксплуатации по назначению капитального ремонта, модернизации, а также замене или увеличения срока эксплуатации ОТИ и напрямую оказывает влияние на производственное планирование.

Чтобы оценить ФР у ОТИ, персонал должен вручную ввести данные в необходимое количество форм и указать те функции ОТМ, которые подлежат реализации, а какие реализовать невозможно. Достаточно лишь одной ошибки, чтобы оценка ФР могла полностью измениться. При этом ОТИ имеет достаточно большое количество функций. К примеру, ОТИ, относящаяся относящихся к железнодорожной автоматике необходимо указать более 60 функций, в то время, как для каждого ОТИ, относящегося к станции и перегону, заполняются отдельно. Общая численность ОТИ ЖАТ на железнодорожной сети более 10000. Благодаря этим факторам ошибки избежать невозможно. Это осложняется дефицитом времени, которым располагает персонал. И эти ошибки необходимо выявлять.

Проанализировав заполненные формы, чтобы оценить ФР, стало очевидно, что в них имеется ряд схем заполнения, являющиеся эталонными для различных типов ОТИ. Кроме этого выделяются условия эксплуатации, соответствующие классу и специализации железнодорожной линии. Также между некоторыми отдельными формами возможно сохранение локальных отличий. Возможно добавление форм при возникновении новых ОТИ.

Исходя из этого очевидна целесообразность применения коллаборативной фильтрации - модели, способной к адаптации и обучению, имеющей непосредственное отношение к искусственному интеллекту. При использовании коллаборативной фильтрации, прогнозируемые значения для какой-либо позиции в

новой или текущей форме будут определяться, основываясь на значениях на той же позиции в формах, которые были ранее заполнены с учетом их меры сходства с новой.

Реализация модели происходит в два этапа. Во время первого этапа квалифицированный персонал производит отбор, осуществляет проверку на валидность и вводит в модель эталонные исходные данные о значениях, которые принимает каждая их функция, которая используется для выполнения оценки ФР. Во время второго этапа модель формирует критерии сходства и отбора для каждого нового набора данных. Основываясь на этих наборах, строится прогноз для последующего значения функции.

Функции, учитываемые для оценки ФР, имеют лишь два значения: «да» и «нет». Значения функции необходимо закодировать: «да» - 1, «нет» - 0. Укажем порядковые номера функций в соответствии с их сквозной нумерацией, а ОТИ обозначим буквами.

Фрагмент таблицы исходных данных представлен на рисунке 1.

№ функций Эталонные ОТИ Текущий ОТИ

А Б В г д Е у

1 1 1 1 0 1 0 1

2 1 1 1 1 1 1 1

...

п О 0 1 0 0 1 7

Рис. 1. Фрагмент таблицы с исходными данными

Перед тем, как использовать модель, исходные данные необходимо предварительно подготовить -провести их нормализацию.

Чтобы получить прогнознозное значения функции для нового набора данных (знак «?» на рисунке 1), который соответствует условному «текущему» объекту, необходимо сформировать критерии отбора и сходства. В общем случае данные критерии могут быть основаны на разнообразных мерах: косинусной мере, коэффициенте корреляции Пирсона, коэффициенте Танимото и прочих.

Чтобы оценить функциональный ресурс, мерой сходства в данном случае будет коэффициент корреляции Пирсона, соответствующий новому набору данных у, который образован для текущего объекта столбцом данных, и ¿-м эталонным набором х¿:

СОУ(%1,у)

(1)

х1у

где соу(х1, у) - ковариация между наборами X; и у;

б С-С У) - стандартные отклонения наборов, соответственно.

Прогнозным значением]-й функции ОТИ будет являться результат, округленный до ближайшего целого, который рассчитывается по формуле:

_ Т.ичуСг^1 У->' Щ=1СгХ1У +1) . (2)

Для формирования критерия отбора в расчете присутствуют только те х эталонных наборов данных, для которых выполняется условие: гХ1У >2 (2 число из диапазона от 0,3 до 0,9, которое задаёт допустимое сходство)

Произведя необходимые расчёты и получив итоговый результат оценки схожести эталонных данных и текущего ОТИ (см. рисунок 1), выполненный по формуле 1, изобразим его на рисунке 2.

Схожесть набора данных текущего ОТИ с эталонными наборами

с А сБ сВ СГ сД сЕ

0:3б -0,04 0,42 0=24 0,36 0=07

Рис. 2. Схожесть текущего с каждым из эталонов

Очевидно, что наибольшая схожесть с наборами А, В и Г имеется у текущего набора. Их значения войдут в прогноз для текущего ОТИ с наибольшими весами в соответствии с формулой 2. Таким образом (см. рисунок 1) для строки п значением функции у ОТИ А и Д является 0, а В - 1. Средневзвешенное, согласно формуле 2, формирует результат прогноза после округления, для обозначенного знаком вопроса, значения функции текущего ОТИ - 0.

Данное значение может использоваться следующим образом:

1. Если в данном месте присутствует пропуск, то его необходимо заполнить приведённым результатом.

2. Если оператор пытался ввести на данной позиции 1, то сначала показать прогнозируемое число 0, а по завершении ввода выделить единицу цветом, либо шрифтом, отличающимся от используемого.

Опыт применения коллаборативной фильтрации на практике для оценки ФР показал, что при вводе всем функциям необходимо задать ранги, которые позволят определить порядок их появления для заполнения

оператором для идентификации нового набора.

В качестве меры, которая формирует ранг, возможно использование разнообразных функций: количество информации, выборочную дисперсию, энтропию и т.д. Для оценки ФР при формировании рангов авторы применяли выборочную дисперсию: самые низкие ранги присваивались функции, с наименьшей дисперсией среди эталонных наборов данных, самые высокие - с наибольшей.

Применение коллаборативной фильтрации подтвердило пригодность для решения задач, требующих необходимость контролировать корректность данных вводимых персоналом. Представленная модель с таким же функционалом, или более расширенным, может использоваться для формирования рекомендаций и выявления ошибок в других вводимых данных для нужд методологии УРРАН и прочих задач, но только после того, как будут проведены соответствующие исследования.

Список литературы

1. Князева А.А. Способы построения гибридной рекомендательной системы на основе данных о заказах библиотеки // Князева А.А., Колобов О.С., Турчановский И.Ю. / Труды XVII Международной конференции DICR-2019, Новосибирск, 3-6 декабря 2019 г. С. 96-101.