УДК 004.891.2
DOI: 10.24412/2071-6168-2023-11-321-322
ИССЛЕДОВАНИЕ МЕТРИК СХОДСТВА И МЕТОДОВ ДЛЯ ИДЕНТИФИКАЦИИ ИЗМЕНЕНИЙ В СЦЕНАРИЯХ ИСПОЛЬЗОВАНИЯ МОБИЛЬНЫХ УСТРОЙСТВ ПОЛЬЗОВАТЕЛЕЙ ПО ИХ НАБОРАМ
ТЕКСТОВЫХ ДАННЫХ
П.А. Савенков, А.Н. Ивутин
Целью исследования является анализ существующих методов машинного обучения и анализа естественного языка, а так же метрик сходства для решения задачи идентификации изменений в сценариях использования мобильных устройств пользователями по набираемым ими наборам текстовых данных их сравнение и выбор в качестве основы для программной реализации идентификации изменений.
Ключевые слова: анализ естественного языка, машинное обучение, большие данные, сбор и предварительная обработка данных, мобильный контроль.
Одной из самых быстроразвивающихся областей в искусственном интеллекте и машинном обучении является процесс поиска сходства данных. В упрощенном виде данная операция осуществляет сопоставление релевантных данных друг с другом. Идентификация изменений в сценариях использования мобильных устройств не является исключением [1].
При сравнении данных применяются следующие метрики сходства для анализа:
Сходство Жаккара;
Расстояние Левенштейна;
Косинусное сходство;
Евклидово расстояние;
Манхэттенское расстояние;
Чебычевское расстояние;
Метрика Минковского.
Сходство Жаккара является достаточно простой, но в свое время мощной метрикой [2]. Механизм поиска сходства реализуется при помощи вычисления числа общих слов между двумя текстами и его деления на общее количество элементов сравниваемых текстов. На рис. 1 представлено графическое представление пересечения и объединения множеств.
Пересечение Объелшенне
Рис. 1. Графическое представление пересечения и объединения множеств
Математическое определение сходства Жаккара (1) можно представить в следующем виде:
Jaccar(Ag) = (1)
где A, B - сравниваемые тексты; Intersection (A, B) - результат пересечения слов между текстами A и B; Union (A, B) -результат объединения слов текстов A и B.
Использование данного метода целесообразно, если исследуемыми объектами выступают множества. Это позволяет не формировать для них векторные представления, что требуется для использования иных метрик.
В случае сравнения наборов коротких пользовательских текстов, выбранных в двух последовательных временных интервалах, осуществляется формирование векторных представлений данных текстов, которое может включать дополнительный этап нормализации их весов (TF-IDF) и предварительную обработку. Их отсутствие негативным образом скажется на результате сравнения ввиду особенностей коротких пользовательских текстов.
Еще одной метрикой, работающей непосредственно с текстовыми представлениями, является расстояние Левенштейна (редакционное расстояние). В основе определения сходства между двумя сравниваемыми текстами лежит подсчет количества простых операций над единичными символами, который требуется выполнить над одной строкой для получения другой. Чем выше получаемое результирующее значение, полученное в результате использования данной метрики, тем сильнее отличаются друг от друга анализируемые тексты.
Применение данной метрики, для идентификации изменений в сценариях использования мобильных устройств на основе набираемых пользователями на них текстов, невозможно ввиду принципа работы алгоритма, близкого со сходством Жаккара, заключающегося в непосредственной работе с символьным представлением текстовых наборов, что не позволяет сохранить информацию о частоте используемых слов, осуществить их предварительную обработку и корректную нормализацию веса токенов.
Следующей рассматриваемой метрикой является косинусное сходство, Данная метрика зарекомендовала себя в анализе текстов, что подтверждается различными зарубежными и российскими исследованиями в данной области [3, 4]. Косинусное сходство отражает косинус угла между двумя сравниваемыми векторами в многомерном пространстве. Более высокое сходство наблюдается при меньшей величине угла между сравниваемыми векторами. Косинусное сходство (2) можно определить как скалярное произведение и норму:
Известия ТулГУ. Технические науки. 2023. Вып. 11
зтИагИу(Л,В) --
Л ■ В
Е Л, х В,
,=1
IIЛ || х || В ||
(2)
О
Е Л2 х
Е В2
,=1
где Л, В - векторные представления признаков.
Результатом сравнения двух векторов признаков при помощи косинусной меры, является число определяющее значение сходства, находящееся в диапазоне от -1 до 1. Использование данной меры сходства позволит идентифицировать изменения в сценариях использования мобильных устройств на основе набираемых пользователями текстов.
Идентификация изменений в сценариях использования мобильных устройств требует применения различных подходов к анализу с целью получения корректных, многовариативных значений результата. Сравниваемые, последовательно выбранные текстовые наборы пользователей имеют не одинаковую длину, ввиду специфики сбора текстовых данных. Оценка частоты использования пользователем определенных терминов является одним из факторов идентификации изменений в сценарии использования мобильного устройства. Для решения данной задачи предлагается использовать Евклидово расстояние [5].
Математически Евклидово расстояние (3) может быть представлено в следующем виде:
г(х, У) = V (X - У1)2 + (*2 - У2)2 +■■■ + (х„ - Уп )2 =^Е(*, - У, )2
(3)
где х, у - точки; п - размерность пространства.
Для сравнения пользовательских текстов при помощи Евклидова расстояния рекомендуется формировать вектор признаков по наборам пользовательских текстов схожих по длине во избежание получения некорректного результата анализа.
В отличии от косинусного сходства значение, полученное при помощи евклидова расстояния, будет отражать удаленность векторов признаков друг от друга. Чем выше значение, тем более удалены друг от друга векторы признаков, и соответственно зависимость сходства между двумя сравниваемыми текстами прослеживается менее явно.
Каждый вектор признаков активности пользователя, сформированный на основе набираемых в определенном временном интервале текстов, является многомерным, а каждое измерение отражает определенный признак.
Визуализация отличий значений косинусного сходства и Евклидова расстояния в трехмерном пространстве на примере сравнения двух векторов представлена на рис 2.
сПэЦА.В)
Рис. 2. Визуализация отличий косинусного сходства и Евклидова расстояния в трехмерном пространстве на
примере сравнения двух векторов
Евклидово, Чебышевское и Манхэттенское (11) расстояния являются частным случаем расстояния Мин-ковского и также формируют результирующий коэффициент в зависимости от удаленности векторных представлений признаков. Однако результат, в определенных случаях, имеет отличия. На рис. 3 представлена визуализация отличий результатов определения удаленности векторов при помощи рассмотренных методов.
Евклидово расстояние
Расстояние 1.1
Расстояние Чебышёва
1,41 1 1,41
1 * —- 1
1,41 1 1 1,41
2 | 1
1 • - 1—• 1
г 1 2
Рис. 3. Визуализация отличий результатов определения удаленности
Данные метрики сравнительно реже применяются для анализа векторных представлений наборов пользовательских текстов ввиду высокого уровня корректности результатов, получаемых при использовании Евклидова расстояния именно в многомерном пространстве. В результате исследования рассмотренных метрик сходства была составлена их сравнительная характеристика, представленная в табл. 1.
322
,=1
Сравнительная характеристика методов/метрик сходства для идентификации изменений __в сценариях использования мобильных устройств _
Метод / Метрика Векторный анализ Учет частот исп. терминов Оценка различий векторов признаков Применения в анализе текста Прямая оценка сходства
Сходство Жаккара - - - + +
Расстояние Левенштейна - - - + +
Косинусное сходство + +/- + + +
Евклидово расстояние + + + + -
Манхэттенское расстояние + + + - -
Чебычевское расстояние + + + - -
Метрика Минковского + + + - -
В ходе исследования метрик сходства и методов для идентификации изменений в сценариях использования мобильных устройств рассмотрены основные подходы, применяющиеся для сравнения текстов. Показано, что использование метрик, оперирующих непосредственно текстовыми представлениями, нецелесообразно ввиду потери информации о частоте использования пользователем слов и невозможности дополнительной нормализации.
Показаны различия косинусного сходства и Евклидова расстояния. Установлено, что для базовой идентификации изменений в сценарии использования мобильного устройства целесообразно применение косинусного сходства, а для оценки частоты использования пользователем определенных терминов рациональным является использование Евклидова расстояния.
Установлено, что вычисление Чебышевского и Манхэттенского расстояния менее актуально в анализе векторных представлений текстовых наборов, ввиду более высокой корректности результатов, получаемых при использовании Евклидова расстояния именно на многомерном пространстве.
Получено, что для идентификации изменений в сценариях использования мобильного устройства целесообразно использовать комбинацию косинусного сходства и Евклидова расстояния.
Список литературы
1.Carrasco R.S.M., Sicilia M.A. Unsupervised intrusion detection through skip-gram models of network behavior //Computers & Security. 2018. Т. 78. С. 187-197.
2.Жбанкова Е.А. Алгоритмы распознавания схожести текста в вопросно-ответных системах // Актуальные исследования. 2020. №. 6. С. 11-15.
3.Валиев А.И., Лысенкова С.А. Применение методов машинного обучения для автоматизации процесса анализа содержания текста // Вестник кибернетики. 2021. №. 4 (44). С. 12-15.
4.Singh R., Singh S. Text similarity measures in news articles by vector space model using NLP //Journal of The Institution of Engineers (India): Series B. 2021. Т. 102. С. 329-338.
5.Мухин А.С., Рыцарев И.А. Определение близости групп в социальных сетях на основе анализа текста с использованием больших данных // Сборник трудов ИТНТ-2019. 2019. С. 21-24.
Савенков Павел Анатольевич, старший преподаватель, [email protected], Россия, Тула, Тульский государственный университет,
Ивутин Алексей Николаевич, д-р техн. наук, профессор, [email protected]. Россия, Тула, Тульский государственный университет
RESEARCH OF SIMILARITY METRICS AND METHODS FOR IDENTIFYING CHANGES IN USERS' MOBILE DEVICE
USE SCENARIOS BY THEIR TEXT DATA SETS
P.A. Savenkov, A.N. Ivutin
The purpose of the study is to analyze existing methods of machine learning and natural language analysis, as well as similarity metrics to solve the problem of identifying changes in scenarios for using mobile devices by users based on the text data sets they type, their comparison and selection as the basis for software implementation of change identification.
Key words: natural language analysis, machine learning, big data, data collection and preprocessing, mobile
control.
Savenkov Pavel Anatolyevich, senior lecturer, [email protected], Russia, Tula, Tula State University,
Ivutin Alexey Nikolaevich, doctor of technical sciences, professor, [email protected], Russia, Tula, Tula State University