Научная статья на тему 'ИДЕНТИФИКАЦИЯ НЕТИПОВЫХ СЦЕНАРИЕВ ИСПОЛЬЗОВАНИЯ МОБИЛЬНЫХ УСТРОЙСТВ НА БАЗЕ КОРОТКИХ ТЕКСТОВ'

ИДЕНТИФИКАЦИЯ НЕТИПОВЫХ СЦЕНАРИЕВ ИСПОЛЬЗОВАНИЯ МОБИЛЬНЫХ УСТРОЙСТВ НА БАЗЕ КОРОТКИХ ТЕКСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
18
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BIG DATA / UBA / SIEM / DLP / MDM / АНОМАЛЬНАЯ АКТИВНОСТЬ / ПОВЕДЕНЧЕСКИЙ АНАЛИЗ / МОБИЛЬНЫЙ КОНТРОЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савенков Павел Анатольевич

Целью работы является исследование особенностей коротких пользовательских текстов, источников текстовых данных, методов их предобработки на мобильном устройстве, а также способов формирования векторных представлений по текстовым данным для дальнейшей идентификации изменений в сценариях использования мобильных устройств. Обнаружение изменений, по набираемым пользователями текстовым данным, обеспечит своевременное реагирование администратора системы, что позволит сохранить целостность целевых данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION OFNON-TYPICAL SCENARIOS OF USE OF MOBILE DEVICES ON THE BASIS OF SHORT TEXTS

The aim of the work is to study the features of short user texts, sources of text data, methods for their preprocessing on a mobile device, as well as methods for generating vector representations from text data for further identification of changes in scenarios for using mobile devices. Detection of changes based on text data typed by users will ensure a timely response of the system administrator, which will preserve the integrity of the target data.

Текст научной работы на тему «ИДЕНТИФИКАЦИЯ НЕТИПОВЫХ СЦЕНАРИЕВ ИСПОЛЬЗОВАНИЯ МОБИЛЬНЫХ УСТРОЙСТВ НА БАЗЕ КОРОТКИХ ТЕКСТОВ»

APPLICATION OF THEODOLITES

O.V. Maslova, L.V. Lavrent'eva

The application of optical and optoelectronic theodolites during measurements is considered. Key words: theodolites, measuring instruments, optical video theodolites, measurements, error rate.

Maslova Oksana Vladimirovna, senior researcher, vida89@yandex. ru, Russia, Znamensk, Research and Testing Center,

Lavrent'eva Ludmila Viktorovna, senior researcher, lavrenteva66@mail. ru, Russia, Znamensk, Research and Testing Center

УДК 004.891.2

DOI: 10.24412/2071-6168-2023-3-348-352

ИДЕНТИФИКАЦИЯ НЕТИПОВЫХ СЦЕНАРИЕВ ИСПОЛЬЗОВАНИЯ МОБИЛЬНЫХ УСТРОЙСТВ НА БАЗЕ КОРОТКИХ ТЕКСТОВ

П.А. Савенков

Целью работы является исследование особенностей коротких пользовательских текстов, источников текстовых данных, методов их предобработки на мобильном устройстве, а также способов формирования векторных представлений по текстовым данным для дальнейшей идентификации изменений в сценариях использования мобильных устройств. Обнаружение изменений, по набираемым пользователями текстовым данным, обеспечит своевременное реагирование администратора системы, что позволит сохранить целостность целевых данных.

Ключевые слова: Big Data, UBA, SIEM, DLP, MDM, аномальная активность, поведенческий анализ, мобильный контроль.

Существующие в данный момент системы контроля деятельности сотрудников (DLP, UBA, SIEM), применяющиеся на стационарных ПК, имеют достаточно широкие возможности в области сбора данных, их анализа, формирования и дальнейшего предоставления агрегированной информации ИБ-специалисту или администратору системы в виде разнообразных отчетов, и реагирования на инциденты [1]. Данные достоинства нельзя отнести к решениям, осуществляющим контроль деятельности сотрудников, использующих мобильные устройства (MDM), где разработка в данном направлении только начинается, а существующие системы (Стахановец мобильный контроль, НИИ СОКБ SafePhone, Hubex) имеют на сегодняшний день, только ограниченные возможности сбора данных и практически полное отсутствие методов их анализа, что снижает качество предупреждения ИБ - инцидентов и увеличивает сроки их ликвидации [2].

Развитие решений в области мобильного контроля обусловлено тенденцией перехода на мобильные рабочие места. Однако в данный момент автоматизированный анализ остается недоступным для большинства задач. Перенос акцента выполнения части задач на мобильные устройства спровоцировал появление информационных каналов, неконтролируемых существующими программными решениями [3]. Анализ текстов не является исключением.

Автоматизированный анализ текстовых данных, обрабатываемых на мобильных рабочих станциях пользователями, позволит идентифицировать изменения в сценариях использования мобильного устройства, что предоставит администратору системы возможность контроля отклонений в деятельности сотрудников, акцентируя внимание только на подозрительной активности.

1. Особенности пользовательских текстов. Текстовые данные, обрабатываемые на мобильных устройствах пользователей, имеют определенные особенности. Анализ обрабатываемых на мобильных устройствах текстов отличается от анализа, производимого стационарными DLP, UBA и SIEM системами.

Ввиду отличий в сценариях использования мобильных устройств от ПК, а также в обрабатываемых на устройствах данных, был проведен детальный анализ наборов пользовательских текстов, ранее собранных с мобильных устройств при помощи мобильного приложения - агента.

Установлено, что наиболее информативными являются следующие информационные каналы:

1) Социальные сети;

2) Браузеры;

3) Мессенджеры.

В табл. 1 представлена, ранжированная по количеству строк, информационная выборка приложений, в которых была зафиксирована высокая активность пользователей мобильных устройств, а именно набор текстовых данных.

Таблица1

Количество текстовых данных, набираемых на мобильных устройствах пользователями

_в различных приложениях_

№ Наименование приложения Количество строк в выборке

1 VK 305910

2 Chrome 34145

3 WhatsApp 30564

4 Telegram 15392

В рамках проводимого исследования была сформирована выборка и построен график, отражающий зависимость количества в ней записей от длины вводимых пользователями текстов (рис. 1).

3SIK)

5

5 1ПМ)

£

500

0 -—---- »-

О 70 10 БО 50 1(И> 170 1Д[> ТЫ]

ДЛИН А ЕВ ЕДЕННОГО ТЕКСТА [СИМВОЛОВ)

Рис. 1. График зависимости количества записей в выборке от длины вводимых пользователями

текстов

Установлено, что тексты длиной от 80 и более символов, в основном, содержат копируемый пользователями текст (фразы из скрипта взаимодействия сотрудников организации с ее клиентами, деловые сообщения) и как правило, не содержат набираемого вручную текста. Получено, что тексты длиной до 80 символов, в основном, содержат набираемый пользователями текст. Однако тексты длиной до 7 символов не несут смысловой нагрузки, а также негативно влияют на построение результирующего облака тегов, содержащего агрегированную информацию о деятельности пользователя, ввиду присутствия в них ошибочно набранных слов, предлогов, чисел, специальных символов и прочих зашумленных данных. Графическое представление длин коротких пользовательских текстов в выборке представлено на рис. 2.

Длины коротких пользовательских текстов в выборке

от 80 и более |

от 7 до 80

от 1 до 7 | 26,9

68,4

10 20 30

■ от 1 до 7 ■ от 7 до 80

40 50

■ от 80 и более

60

70

80

Рис. 2. Длины коротких пользовательских текстов в выборке

Полученные результаты будут использованы для дальнейшей идентификации изменений в сценариях использования мобильных устройств и формирования облаков тегов.

349

2. Методы предобработки пользовательских текстов. Предобработка текстовых данных является важнейшим этапом на пути к формированию корректного результата. Её основная задача - структурирование и организация полученных знаний для дальнейшего анализа и предоставления администратору системы [4].

Собираемые с мобильных устройств пользователей тексты требуют предварительной обработки, ввиду специфики использования мобильных рабочих станций, где отсутствует прямая возможность получения доступа к наборам текстовых данных из рассмотренных ранее, информационных источников в агрегированном, структурированном виде.

В отличии от решений для персональных компьютеров, системы контроля мобильных устройств не имеют широких функциональных возможностей сбора текстов без глубоких вмешательств в операционную систему, что усложняет первичный сбор данных. Сбор текстовых данных пользователей на мобильных устройствах с ОС Android доступен при помощи использования системного сервиса «Accessibility Service» [5]. Сервис специальных возможностей предоставляет доступ к элементам активного экрана приложения, с которым взаимодействует пользователь.

Сбор по длине буфера является стандартным методом выборки пользовательского ввода. При его использовании, набираемые пользователями на клавиатуре символы записываются во временный буфер. При достижении установленного лимита символов (10-100 элементов), собранные значения записываются в базу данных, а при последующем вводе происходит очередная запись порции данных в буфер с дальнейшей выгрузкой из него при достижении установленного лимита. Из недостатков данного метода можно выделить следующие:

некорректное разделение слов (ввиду выгрузки буфера при достижении лимита объема символов);

смешение набираемого текста (ввиду переключения пользователя между экранами приложений);

потеря части данных (ввиду недостижения длины буфера при вводе).

Достоинствами данного метода является простота его реализации и низкая нагрузка на вычислительные ресурсы ввиду отсутствия постоянной обработки набираемого текста и отслеживания пользовательских действий (только подсчет количества символов в буфере и его выгрузка).

Сбор по таймеру представляет собой запись во временный массив значений, полученных в процессе набора пользователем текста на цифровой клавиатуре. Набираемый текст сохраняется в буфер до тех пор, пока временной интервал таймера не достигнет максимального значения. Интервал (1 - 1,5 с.) обнуляется при вводе следующего символа до тех пор, пока ввод не будет завершен, что позволяет достигнуть динамичности длины буфера и, следовательно, формирования законченных предложений, набираемых пользователем на мобильном устройстве. После истечения времени собранный буфер пользовательского ввода очищается, а сохраненные в нем данные попадают в результирующий набор. К достоинствам данного метода можно отнести меньшую, относительно сбора по буферу, потерю данных, а также более корректное разделение слов. Однако при использовании сбора по таймеру возможно дублирование набранного текста, а при использовании сбора по буферу потеря данных при переключении между экранами приложений.

Для агрегации наборов пользовательских текстов, набираемых на мобильных устройствах пользователями, в наиболее информативных источниках, рассмотренных в первой главе, предлагается использовать комбинированный метод. Данный метод включает в себя сбор буфера по таймеру с дополнительными сценариями обработки пользовательского ввода, такими как формирование завершенного сообщения и его выгрузку при нажатии на кнопку отправить (при работе в мессенджерах и социальных сетях), а также учет удаляемых пользователем символов. Применение данного подхода будет способствовать более корректному сбору вводимого пользователем текста. При использовании комбинированного метода снижается вероятность некорректного считывания пользовательского ввода, а собираемые сообщения получают вид, приближенный к искомому, набираемому пользователем, сообщению.

В табл. 2 представлена сравнительная характеристика рассмотренных методов предварительной обработки и агрегации пользовательского ввода, а также предложенного комбинированного.

Таблица2

Сравнительная характеристика методов предварительной обработки

и агрегации пользовательского ввода на мобильном устройстве^_

Свойство Метод ^^^^^^ Корректное разделение слов Отсутствие смешения набираемого текста Отсутствие потери данных Отсутствие дублирования данных

Стандартный сбор по буферу - - - -

Стандартный сбор по таймеру + - +/- -

Комбинированный метод сбора (сбор по таймеру + сценарии) + + + +

В результате анализа рассмотренных методов сбора, агрегации и первичной обработки текстов на мобильном устройстве получено, что наиболее результативно применение комбинированного метода с использованием таймера и специальных сценариев. Это позволит снизить вероятность некорректного считывания пользовательского ввода и представить собираемые сообщения в первичном виде.

3. Формирование векторных представлений на базе пользовательских текстов. Что бы представить в виде вектора не одно слово, а целое предложение (или текстовый набор) используется метод, именуемый как «мешок слов» (англ. Bag of words, BOW) [6]. Его использование целесообразно, когда требуется анализ содержимого текстового набора, а не последовательности в нем слов, что полезно для коротких пользовательских. Вектор метода «мешок слов» схож с «One Hot Encoding». Его длина также равна общему количеству слов, которые встречаются в текстовом наборе, однако данный вектор содержит не только нули и одну единицу, но и в позициях, соответствующих нужному слову, указывается частота встречаемости этого слова в тексте.

Для корректировки веса токена в контексте единичного текста, находящегося в коллекции, используется метод TF-IDF [7]. Первый компонент - TF подсчитывает количество повторений термина в документе, а затем делит на общее количество слов документа.

Второй компонент IDF (англ. Inverse document frequency) является величиной, называемой «обратная частота термина» (инверсия частоты), которая демонстрирует на сколько часто встречается слово во всех текстах коллекции. Значение IDF принадлежит всем документам. IDF применяется для вычисления веса редких слов в документах корпуса и позволяет определить непосредственную важность термина. Редко встречающиеся слова получают высокое значение веса компонента IDF.

Высокий вес TF-IDF устанавливается при одновременно высокой частоте термина в данном документе и низкой частоте повторения термина во всей коллекции. TF-IDF формирует высокие значения для менее часто употребляемых слов в корпусе документа. Значение TF-IDF является высоким в случае, когда TF и IDF высокие. Благодаря данному подходу возможна реализация дополнительной фильтрации общих терминов.

Выводы. В результате исследования особенностей коротких пользовательских текстов, были выделены их отличительные особенности, а также получен перечень наиболее информативных источников.

Рассмотрены основные методы сбора и предварительной обработки текстовых данных, набираемых на мобильных устройствах. Предложен новый метод предобработки, отличающийся комбинированным применением таймера и специальных сценариев, что позволяет снизить вероятность некорректного считывания пользовательского ввода и представить собираемые сообщения в первичном виде.

Проведено исследование методов формирования векторных преставлений наборов пользовательских текстов и получено что благодаря использованию TF-IDF возможна реализация дополнительной фильтрации общих терминов на основе корректировки весов токенов.

Список литературы

1. Gartner Identifies the Top Strategic Technology Trends for 2022 // [Электронный ресурс] URL: https://www.gartner.com/en/newsroom/press-releases/2021-10-18-gartner-identifies-the-top-strategic-technology-trends-for-2022 (дата обращения: 12.01.2023).

2. Мобильный контроль // Программный комплекс "Стахановец". [Электронный ресурс] URL: https://stakhanovets.uz/mobilnyi-kontrol (дата обращения: 02.03.2023).

3. Naseri M. et al. Accessileaks: Investigating privacy leaks exposed by the android accessibility service //Proceedings on Privacy Enhancing Technologies. 2019. Т. 2019. №. 2. С. 291-305.

4. Стутко В.Д. Анализ возможностей пакета nltk для предварительной обработки текстовых данных // Актуальные вопросы эксплуатации систем охраны и защищенных телекоммуникационных систем. 2021. С. 42-44.

5. Naseri M. et al. Accessileaks: Investigating privacy leaks exposed by the android accessibility service //Proceedings on Privacy Enhancing Technologies. 2019. Т. 2019. №. 2. С. 291-305.

6. Soumya George K., Joseph S. Text classification by augmenting bag of words (BOW) representation with co-occurrence feature // IOSR Journal of Computer Engineering. 2014. Т. 16. №. 1. С. 34-38.

7. Wang S., Zhou W., Jiang C. A survey of word embeddings based on deep learning // Computing. 2020. Т. 102. С. 717-740.

Савенков Павел Анатольевич, старший преподаватель, pavel@savenkov.net, Россия, Тула, Тульский государственный университет

IDENTIFICATION OF NON-TYPICAL SCENARIOS OF USE OF MOBILE DEVICES ON THE BASIS OF SHORT TEXTS

P.A. Savenkov

The aim of the work is to study the features of short user texts, sources of text data, methods for their preprocessing on a mobile device, as well as methods for generating vector representations from text data for

further identification of changes in scenarios for using mobile devices. Detection of changes based on text data typed by users will ensure a timely response of the system administrator, which will preserve the integrity of the target data.

Key words: Big Data, UBA, SIEM, DLP, MDM, abnormal activity, behavioral analysis, mobile control.

Savenkov Pavel Anatolevich, Senior Lecturer, pavel@savenkov.net, Russia, Tula, Tula State

University

УДК 621.391.8

DOI: 10.24412/2071-6168-2023-3-352-358

ФАЗОВЫЙ СДВИГ СМЕСИ СИГНАЛА И ПОМЕХИ НА ВЫХОДЕ ЛИНЕЙНОЙ ЦЕПИ ПРИ ОТНОШЕНИЯХ «СИГНАЛ - ПОМЕХА» БЛИЗКИХ К ЕДИНИЦЕ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Г.И. Александров, В.В. Балабанов, И.А. Курчанов, В.В. Севидов

В статье рассмотрена зависимость стационарной плотности вероятности приведенной разности фаз смеси сигнала и помехи на выходе линейной цепи при различных начальных расстройках и отношениях сигнал-шум близких к единице при анализе с помощью аппарата марковских процессов.

Ключевые слова: фазовый сдвиг, смесь сигнала и помехи, сигнал-помеха, плотность вероятности, начальная расстройка.

Статистические характеристики фазы смеси гармонического сигнала с(/) и аддитивной флюк-туационной помехи п(/) в линейных узкополосных приемных трактах широко описаны в литературе [1, 2, 3, 4] и др. В большинстве работ предполагалось, что частота настройки узкополосного фильтра тракта радиоприемного устройства ю0 точно соответствует частоте принимаемого сигнала Юс, хотя на практике всегда имеет место расстройка Дю = юс - Ю0, обусловленная как неточностью установки средней частоты фильтра, так и ее смещением при воздействии внешних факторов.

Для смеси гармонического сигнала вида:

с(1) = + фс],

где А - амплитуда сигнала; Юс - круговая частота сигнала; фс - фаза сигнала;

и помехи, представляющей собой аддитивный стационарный гауссовский случайный процесс с нулевым математическим ожиданием и спектральной плотностью, симметричной относительно средней частоты фильтра, вида

п(4) = Ап0 )с°3[ю0^ + Фп 0 где Ап(/) - амплитуда помех; Ю0 - средняя частота фильтра; фп(0 - фаза помехи.

в работах [4, 5] выведены выражения условной плотности вероятности случайной фазы

Ф^) " Фс + (юс " Ю0>)

W

Фс

1 £ Г(Г1) Г A

2п nn=lT(n + \)

И

-;n + l;

A

2а2

2 ^

C°sM>)-фс+(юс -ЮоУ)]>

(1)

где ф(0 - фаза сигнала и помехи; |ф(/)| < п; с2 - дисперсия фазы.

Входящая в выражение (1) вырожденная гипергеометрическая функция может быть преобразована в функцию Бесселя [6]

И

(

■;n + 1

d

A

2 >

d

A '

2а2

n + 1 = 2 2 Г

n -1

n + 1

(

exp

m-

A (1 - n | A

Л >

' A ^

2а2

exp

A'

4а2

J

n -1

A

n

2exPI

x

i Надоели баннеры? Вы всегда можете отключить рекламу.