Научная статья на тему 'ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ ПРИЗНАКОВ ТЕРМИНОВ ЖЕЛЕЗНОДОРОЖНОЙ ОТРАСЛИ ПРИ ФОРМИРОВАНИИ КЛАССИФИКАТОРА'

ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ ПРИЗНАКОВ ТЕРМИНОВ ЖЕЛЕЗНОДОРОЖНОЙ ОТРАСЛИ ПРИ ФОРМИРОВАНИИ КЛАССИФИКАТОРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
15
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЖЕЛЕЗНОДОРОЖНЫЙ ТРАНСПОРТ / ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ / ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ / СИНТАКСИС ТЕРМИНОЛОГИИ / КЛАССИФИКАТОР / RAILWAY TRANSPORT / INFORMATION SECURITY / LINGUISTIC ANALYSIS / TERMINOLOGY SYNTAX / CLASSIFIER

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Паршин К.А., Подгорный М.С.

Рассмотрены проблемы возможного распространения информации ограниченного доступа в сфере железнодорожного транспорта. Описана уникальность терминологии, используемой в различных направлениях данный сферы. Рассмотрены синтаксические особенности в терминологии и поэтапно описано формирование классификатора, определяющего текстовые документы данной отрасли.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STUDY OF THE APPLICATION OF THE TRAITS OF THE TERMS OF THE RAILWAY INDUSTRY WHEN FORMING THE CLASSIFIER

The problems of the possible distribution of information of limited access in the field of railway transport are considered. The uniqueness of the terminology used in various areas of this field is described. The syntactic features in terminology are considered and the formation of a classifier defining text documents of the given industry is described in stages.

Текст научной работы на тему «ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ ПРИЗНАКОВ ТЕРМИНОВ ЖЕЛЕЗНОДОРОЖНОЙ ОТРАСЛИ ПРИ ФОРМИРОВАНИИ КЛАССИФИКАТОРА»

УДК 004.056.5

Паршин К.А., к. техн. н.

доцент

кафедра «Информационные технологии и защита информации»

Подгорный М. С. аспирант

Уральский государственный университет путей сообщения

Россия, г. Екатеринбург ИССЛЕДОВАНИЕ ПРИМЕНЕНИЯ ПРИЗНАКОВ ТЕРМИНОВ

ЖЕЛЕЗНОДОРОЖНОЙ ОТРАСЛИ ПРИ ФОРМИРОВАНИИ

КЛАССИФИКАТОРА

Аннотация: Рассмотрены проблемы возможного распространения информации ограниченного доступа в сфере железнодорожного транспорта. Описана уникальность терминологии, используемой в различных направлениях данный сферы. Рассмотрены синтаксические особенности в терминологии и поэтапно описано формирование классификатора, определяющего текстовые документы данной отрасли.

Ключевые слова: Железнодорожный транспорт, информационная безопасность, лингвистический анализ, синтаксис терминологии, классификатор.

Parshin K.A., PhD, associate professor of «Information technologies and information security»

Podgornyy M.S., graduate student Ural State University of Railway Transport

Russia, Yekaterinburg

STUDY OF THE APPLICATION OF THE TRAITS OF THE TERMS OF THE RAILWAY INDUSTRY WHEN FORMING THE CLASSIFIER

Abstract: The problems of the possible distribution of information of limited access in the field of railway transport are considered. The uniqueness of the terminology used in various areas of this field is described. The syntactic features in terminology are considered and the formation of a classifier defining text documents of the given industry is described in stages.

Keywords: Railway transport, information security, linguistic analysis, terminology syntax, classifier.

Железнодорожный транспорт является одним из основных транспортных отраслей в Российской Федерации. Так за 2017 год вклад в ВВП РФ составляет 1,4%. На железнодорожном транспорте на текущий момент работают более 730 тысяч человек [1]. Деятельность является важной для многих смежных областей, в том числе промышленной и оборонной. Именно поэтому так важно поддержание высокого уровня информационной безопасности в сфере железнодорожного транспорта. С точки зрения защиты информации на предприятиях этой отрасли,

предусмотрены и функционируют необходимые меры организационной, программной и аппаратной составляющей.

Главной и ключевой особенностью сферы железнодорожного транспорта является условная обособленность данной отрасли в Российской Федерации. Примером может служить перечень должностей, которые используются только на данных предприятиях, уникальная нормативная и учебная литература, своя собственная масштабная сеть передачи данных и многое другое. Особое внимание заслуживает терминология, используемая на железнодорожном транспорте. Например, для описания должности поездного диспетчера используется сокращенное наименование ДНЦ. Термин не является какой-либо расшифровкой и имеет свои исторические корни.

Аналогичные сокращения имеют и объекты инфраструктуры на железнодорожном транспорте, например ДЦС или ВЧД. Уникальностью описания обладают и данные, передаваемые в информационных системах. Любой документ, передаваемый по внутренним каналам связи, содержит как минимум телеграфный код причастных дирекций или служб, а также шифр исполнителя данного документа. Все это говорит о том, что предметная область в части железнодорожной терминологии заслуживает большого внимания при работе с текстовыми данными [2].

Например, регулярные выражения могут быть использованы при поиске и анализе следующих специфических элементов в общем тексте:

- телеграмма натурный лист грузового поезда (ТГНЛ) - уникальный цифровой код, описывающий содержание вагонов в грузовом поезде;

- сообщения системы АСОУП - цифровой код, содержащий уникальные комбинации цифр и иных символов.

Кроме информационных систем, уникальностью и синтаксическими особенностями обладают и сами термины. Первой отличительной чертой железнодорожной терминологии является то, что объекты имеют определенную условную иерархичность (рис. 1).

Рис. 1. Иерархия в описании субъектов Дирекции управления

движением

Вторым отличительным признаком является условное наследование. Например, следующее описание должностей Дирекции управления движением:

- Д - Дирекции управления движением;

- ДС - начальник станции;

- ДСП - дежурный по станции;

- ДСПГ - дежурный по сортировочной горке;

- ДСПГО - оператор при дежурном по сортировочной горке.

Третьей особенностью является именно синтаксический состав и

порядок букв в сокращении железнодорожных объектов и субъектов. При анализе выборки терминов, состоящей из 500-600 сокращений, была получена следующая статистика:

- общее количество символов в выборке равно 1583;

- общее количество согласных букв в выборке 81,81 %;

- количество терминов, начинающихся с гласной буквы 19,47 %;

- количество терминов, заканчивающихся гласной буквой 15,97 %.

Другими словами, при текстовом анализе данных важно обращать

внимание именно на наполнение и расположение в словах (токенах) согласных букв.

С точки зрения вопросов, затрагивающих информационную безопасность, любое распространение текстовых документов, содержащих данную терминологию, влечет за собой определенные последствия для предприятия - как производственные и экономические, так и последствия для имиджа компании. Применение уникальности терминологии сокращенных наименований должностей, структурных предприятий и информационных систем помогает как при ретроспективном анализе, так и при раннем обнаружении текстовых публикаций имеющих, распространение информации ограниченного доступа. Именно поэтому при составлении классификатора, определяющего отношение текста или документа к железнодорожной отрасли стоит обратить внимание на все вышеперечисленные синтаксические особенности.

Главной задачей исследования является формирование классификатора на основе обучения «с учителем» на данных, которые заранее отнесены к классу тематики железнодорожного транспорта с точностью определения более чем 0,7. В конечном итоге должен получиться классификатор, определяющий относится ли текст к данной отрасли или нет, и на сколько важным является применения в классификаторе синтаксических особенностей в документах данной отрасли. Для обучения на первом этапом требуется наполнить корпус соответствующей литературой и получить обучающие множества.

Корпус - это некоторый филологически-компетентный массив языковых данных (чаще всего, множество текстов) [3]:

- отобранных в соответствии с некоторой исследовательской задачей;

- специально подготовленных, размеченных, структурированных, представленных в унифицированном виде.

Для решения задачи наполнения корпуса железнодорожного текста выбраны наиболее значимые тексты данной тематики [4]:

- Транспортный устав железных дорог Российской Федерации.

- Правила перевозок грузов.

- График движения поездов.

- Правила технической эксплуатации железных дорог.

- Инструкция по движению поездов.

- Инструкция по сигнализации и связи на железнодорожном транспорте.

- Технологические процессы работы станций, отделений и подразделений.

- Местные инструкции.

Следующим этапом исследования будет формирование множества, на основании которого будет происходить обучение классификатора, определяющего отношение текста к необходимому классу с максимальной степенью точности.

Использованные источники:

1. Показатели основной деятельности [Электронный ресурс] // официальный сайт, 2018. URL: http://ir.rzd.ru/static/public/ru?STRUCTURE_ID=63 (дата обращения: 10.07.2018).

2. Паршин К.А., Подгорный М.С. Обеспечение информационной безопасности предприятия железнодорожного транспорта путем мониторинга текстовых публикаций в открытых источниках данных // Вестник УрФО. Безопасность в информационной сфере - №4 (26) / 2017. -C. 16-20.

3. Корпус, лингвистический. Фонд знаний «Ломоносов» [Электронный ресурс] // официальный сайт, 2018. URL: http://www.lomonosov-fund.ru/enc/ru/ encyclopedia:0127206 (дата обращения: 20.08.2018).

4. Основные документы, регламентирующие деятельность работников железных дорог [Электронный ресурс] // официальный сайт, 2018. URL: http://rail.uzdk.ru/transport/osnovnye-dokumenty-reglamentirujuwie-dejatelnost-rabotnikov-zheleznyh-dorog (дата обращения: 03.09.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.