Научная статья на тему 'ПОНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ МЕТОДОМ SVD НА ПРИМЕРЕ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА'

ПОНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ МЕТОДОМ SVD НА ПРИМЕРЕ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
29
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
контент / оценка качества / анализ данных / сингулярные разложения / понижение размерности / регрессионные модели / scikit-learn / pandas / numpy / SVD / content. quality assessment. data science. singular value decomposition. data dimensionality reduction. regression models. scikit-learn. pandas. numpy. SVD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич

Статья посвящена проблеме понижения размерности при помощи метода, основанного на сингулярном разложении матрицы данных. Рассмотрен алгоритм преобразования данных к сингулярному базису и последовательного исключения базисных векторов, начиная с самого младшего. На примере данных о потреблении контента пользователями одного из ведущих хостингов проиллюстрированы различные ситуации, возникающие в ходе решения задач машинного обучения с применением алгоритма понижения размерности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA DIMENSIONALITY REDUCTION USING THE SVD METHOD FOR CONTENT CONSUMPTION DATA

The article is devoted to the problem of dimensionality reduction using a method based on the singular value decomposition of the data matrix. An algorithm for converting data to a singular basis and sequentially eliminating the basis vectors. starting with the youngest. is considered. Using the example of data on content consumption by users of one of the leading hosting companies. various situations that arise during solving machine learning problems using a dimensionality reduction algorithm are illustrated.

Текст научной работы на тему «ПОНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ МЕТОДОМ SVD НА ПРИМЕРЕ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА»

The paper investigates a method that determines the effect of outliers on the performance of regression models. Using the example of data on content consumption, it is shown that the exclusion of abnormal objects can significantly increase their predictive ability. Recommendations on the application of the method of exclusion of abnormal data are given.

Key words: content, quality assessment, data science, singular value decomposition, anomaly detection, outlier removal, regression models, scikit-learn, pandas, numpy, SVD.

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, docent, yanbacha@yandex. ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University

УДК 005.6

DOI: 10.24412/2071-6168-2024-2-599-600

ПОНИЖЕНИЕ РАЗМЕРНОСТИ ДАННЫХ МЕТОДОМ SVD НА ПРИМЕРЕ ДАННЫХ

О ПОТРЕБЛЕНИИ КОНТЕНТА

В.Г. Мосин, В.Н. Козловский

Статья посвящена проблеме понижения размерности при помощи метода, основанного на сингулярном разложении матрицы данных. Рассмотрен алгоритм преобразования данных к сингулярному базису и последовательного исключения базисных векторов, начиная с самого младшего. На примере данных о потреблении контента пользователями одного из ведущих хостингов проиллюстрированы различные ситуации, возникающие в ходе решения задач машинного обучения с применением алгоритма понижения размерности.

Ключевые слова: контент, оценка качества, анализ данных, сингулярные разложения, понижение размерности, регрессионные модели, scikit-learn, pandas, numpy, SVD.

1. Введение. Современным алгоритмам машинного обучения приходится работать с различными объемами данных, в зависимости от конкретной задачи и доступных ресурсов. В некоторых случаях объем данных может быть относительно маленьким, например, набор данных для классификации может содержать несколько сотен или тысяч объектов. Однако в других случаях, особенно при работе с изображениями, видео, текстом и другими типами данных, объемы могут быть огромными. Например, набор данных ImageNet, который часто используется для обучения моделей распознавания изображений, содержит более 1,2 миллиона изображений [2, 4].

Обработка больших объемов данных требует мощных вычислительных ресурсов и оптимизации алгоритмов для эффективной работы с ними. Один из методов оптимизации состоит в понижении размерности данных, которое является неотъемлемой и важной составляющей в задачах машинного обучения.

В современном мире данные растут в геометрической прогрессии, и каждый день мы сталкиваемся с все большим объемом информации. Несмотря на это, имеются ограничения по ресурсам, времени и эффективности обработки данных [7]. Одна из основных целей машинного обучения — обнаружение скрытых закономерностей и шаблонов в данных. Однако часто они затеряны в обилии и разрозненности информации, и именно здесь понижение размерности данных оказывается важным и необходимым.

Понижение размерности данных заключается в преобразовании высокоразмерного пространства данных в пространство меньшей размерности. Это позволяет сохранить наиболее важные характеристики и структуру данных, устраняя при этом лишнюю информацию.

Преимущества алгоритмов понижения размерности данных в задачах машинного обучения, прежде всего, проявляется в улучшение производительности, так как обработка больших объемов данных занимает значительное время и требует больших вычислительных ресурсов, а понижение размерности позволяет уменьшить количество признаков, сокращая время обработки и улучшая производительность алгоритмов обучения.

Отметим, что при понижении размерности данных важно сохранить наиболее значимую информацию. Существуют различные методы понижения размерности, такие как метод главных компонент (PCA) и метод многомерного шкалирования (MDS), которые сохраняют наиболее важные характеристики данных, при этом снижая их размерность.

В настоящей работе мы будем использовать алгоритм понижения размерности, основанный на сингулярном разложении матрицы данных [6].

1.1. Теоретическая часть. Метод понижения размерности данных с использованием сингулярного разложения матрицы данных (SVD) заключается в том, чтобы представить матрицу данных в виде произведения трех матриц: U, Z и V-1. В этом разложении U — матрица левых сингулярных векторов, содержащая информацию о взаимосвязи между признаками; Z — диагональная матрица, содержащая сингулярные значения, отражающие значение каждого признака; и, наконец, V-1 — матрица правых сингулярных векторов, содержащая информацию о взаимосвязи между объектами данных [3, 6].

Для понижения размерности данных, выполняется переход к сингулярному базису (см. ниже, п. 3.4), после чего можно избавляться от последних координат такого представления данных, так как они наименее информативны. Метод SVD позволяет уменьшить размерность данных, сохраняя при этом основную структуру и взаимосвязи между признаками и объектами. В результате получается компактное представление данных, которое может быть использовано для анализа, визуализации и различных вычислительных задач. Одно из основных преимуществ использования SVD для понижения размерности данных состоит в том, что SVD позволяет сохранить наибольшую часть вариации исходных данных при переходе к матрице меньшего размера. Это помогает сохранить важные свойства данных и уменьшить размерность без значительной потери информации.

1. 2. Постановки задачи

1.2.1. Предмет исследования. Предметом исследования является алгоритм понижения размерности данных, основанный на методе сингулярных разложений, и его влияние на качество данных.

1.2.2. Методика исследования. Для оценки качества редуцированных (то есть, оставшихся после исключения наиболее слабых компонент) данных мы выстраиваем серию последовательных регрессионных задач для прогнозирования значений одного из признаков, объявленных целевой функцией, на основании значений предикторов, в качестве которых выступают все оставшиеся признаки датафрейма. Индикатором качества данных служит коэффициент детерминации регрессионной модели: чем сильнее падает его величина, тем сильнее снижается качество данных [5].

1.2.3. Цель исследования. Применить понижение размерности к данным о потреблении контента пользователями одного из ведущих хостингов и установить границы применения алгоритма понижения размерности.

1.3. Технологии. Мы используем среду Jupyter Notebook для обработки и анализа данных. Она дает удобные инструменты для работы с языком программирования Python, а также его основными библиотеками: NumPy, Pandas, Scikit-learn и Matplotlib [1, 2].

Библиотека NumPy является неотъемлемым инструментом для научных вычислений и обработки массивов данных в Python. Она предоставляет эффективные структуры данных, алгоритмы и функции для работы с одномерными и многомерными числовыми массивами.

Pandas — самая мощная библиотека для работы с данными в Python. Она плотно интегрируется с другими инструментами для анализа и обработки данных на платформе Python, такими как NumPy, Scikit-learn и Matplotlib. Pandas обеспечивает эффективные средства для обработки информации, а также множество алгоритмов и функций для анализа и визуализации данных [1].

Для решения регрессионных задач мы применяем библиотеку Scikit-learn, также известную как sklearn. Scikit-learn представляет собой мощный и гибкий инструмент машинного обучения с широким спектром возможностей и удобным интерфейсом.

2. Описание данных. В качестве данных для исследования используются сведения о потреблении контента пользователями одного из ведущих хостингов. Данные о потреблении содержат записи по 500 датам, с 202108-20 по 2023-01-01, каждый объект описан при помощи 18 признаков, подробное описание структуры данных см. ниже, в п. 3.2.

3. Алгоритм

3.1. Чтение данных. Применяем функцию read_csv из библиотеки pandas, загружаем набор данных и создаем дата-фрейм в среде исполнения:

Дата Просмотры Время просмотра (часы)Поделились ... Дизлайки Лайки

2023-01-01 475.0 21.20389.0 ... 0.0 16.0

2022-12-31 174.0 5.48141.0 ... 0.0 4.0

2022-12-30 490.0 17.81823.0 ... 1.0 3.0

2021-08-22 275.0 10.41301.0 ... 0.0 2.0

2021-08-21 222.0 10.59670.0 ... 2.0 4.0

2021-08-20 209.0 8.6935 0.0 ... 0.0 1.0

3.2. Разведочный анализ. При помощи метода info библиотеки pandas выводим сведения о признаках:

# Column Non-Null Count Dtype

0 Просмотры 500 non-null float64

1 Время просмотра (часы) 500 non-null float64

2 Поделились 500 non-null float64

3 Постоянные зрители 500 non-null float64

4 Новые комментарии 500 non-null float64

5 Отказались от подписки 500 non-null float64

6 Новые подписчики 500 non-null float64

7 Новые зрители 500 non-null float64

8 Среднее число просмотров одним пользователем 500 non-null float64

9 Уникальные зрители 500 non-null float64

10 CTR для значков видео (%) 500 non-null float64

11 Показы 500 non-null float64

12 Подписчики 500 non-null float64

13 Средний процент просмотра (%) 500 non-null float64

14 Процент лайков 500 non-null float64

15 Средняя продолжительность просмотра 500 non-null float64

16 Дизлайки 500 non-null float64

17 Лайки 500 non-null float64

Данные содержат 500 записей, все записи относятся типу с плавающей запятой, пропущенных данных

нет.

3.3. Установка стартовых значений. В данном алгоритме мы будем использовать вложенный двухуровневый цикл:

1. на внешнем уровне мы будем выбирать один из признаков датафрейма в качестве целевой функции регрессионной задачи и преобразовывать данные к сингулярному базису,

2. на внутреннем уровне — решать регрессионную задачу и вычислять ее скор, постепенно понижая размерность данных.

На этом шаге алгоритма мы вводим переменную target и присваиваем ей стартовое значение target-Просмотры'.

3.4. Переход к сингулярному базису. Сингулярное разложение матрицы — это ее представление в виде произведения:

X = UZV-1,

где U и V — ортогональные матрицы, а Z — диагональная матрица той же конфигурации, что и X. Столбцы матриц U и V называются соответственно левым и правым сингулярными базисами, а диагональные элементы матрицы Z — сингулярными значениями матрицы X.

Если данное выше соотношение умножить на матрицу V справа, то получится равенство:

XV = UZ,

где левая часть представляет собой теорему о замене базиса. То есть, после выполнения матричного умножения в левой части строки буду представлять собой координаты объектов в сингулярном базисе. Именно эту идею мы реализуем на этом шаге алгоритма.

3.4.1. Построение облака предикторов. Пользуясь методом drop библиотеки pandas, удаляем из дата-фрейма столбец целевой функции.

3.4.2. Нормализация данных. После исключения целевой функции 'Просмотры' левая часть регрессионной задачи содержит 17 признаков. Пользуясь методом describe библиотеки pandas, выводим их статистики:

min mean max std

Время просмотра (часы) 5.48 37.17 96.72 16.64

Поделились 0.00 6.96 71.00 6.25

Постоянные зрители 30.00 163.34 463.00 78.90

Новые комментарии 0.00 0.53 6.00 0.83

Отказались от подписки 0.00 2.77 29.00 2.55

Новые подписчики 0.00 6.49 19.00 3.51

Новые зрители 60.00 366.83 735.00 174.01

Среднее число просмотров одним пользователем 1.31 1.79 2.85 0.21

Уникальные зрители 96.00 530.18 1103.00 239.22

CTR для значков видео (%) 1.25 5.54 8.52 1.11

Показы 1938.00 8093.78 39479.00 3816.08

Подписчики -23.00 3.72 15.00 4.02

Средний процент просмотра (%) 18.68 26.72 41.29 3.41

Процент лайков 0.00 92.02 100.00 10.31

Средняя продолжительность просмотра 96.07 144.33 211.02 15.66

Дизлайки 0.00 1.28 10.00 1.34

Лайки -6.00 15.80 70.00 9.13

Видим существенный дисбаланс номиналов: например, 'Показы' отличаются от 'Дизлайков' на несколько порядков. Чтобы выровнять значения признаков, приводим их значения к единой шкале за счет нормализации к стандартному виду с нулевым средним и единичной дисперсией:

min mean max std

Время просмотра (часы) -1.90 0.00 3.57 1.00

Поделились -1.11 0.00 10.23 1.00

Постоянные зрители -1.69 0.00 3.79 1.00

Новые комментарии -0.64 0.00 6.57 1.00

Отказались от подписки -1.08 0.00 10.27 1.00

Новые подписчики -1.84 0.00 3.55 1.00

Новые зрители -1.76 0.00 2.11 1.00

Среднее число просмотров одним пользователем -2.23 0.00 4.92 1.00

Уникальные зрители -1.81 0.00 2.39 1.00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

СТЯ для значков видео (%) -3.84 0.00 2.67 1.00

Показы -1.61 0.00 8.22 1.00

Подписчики -6.63 0.00 2.80 1.00

Средний процент просмотра (%) -2.35 0.00 4.26 1.00

Процент лайков -8.92 0.00 0.77 1.00

Средняя продолжительность просмотра -3.08 0.00 4.25 1.00

Дизлайки -0.95 0.00 6.49 1.00

Лайки -2.38 0.00 5.93 1.00

3.4.3. Вывод данных в массив numpy. При помощи метода to_numpy из библиотеки pandas мы преобразуем датафрейм в массив, который записываем в переменную X.

3.4.4. Сингулярное разложение матрицы данных. К массиву X применяем метод SVD из модуля linalg библиотеки numpy. Этот метод возвращает сразу три объекта:

601

1. двумерный массив U (столбцы которого образуют левый сингулярный базис);

2. одномерный массив Sigma (элементы которого служат диагональю матрицы Z);

3. и двумерный массив V (который представляет собой уже обращенную матрицу V, то есть, строки этого массива образуют правый сингулярный базис).

3.4.5. Переход к сингулярному базису. Пользуясь методом dot библиотеки numpy, выполняем матричное умножение, используя в качестве левого множителя массив X, а в качестве правого — массив V.T, который получается из V при помощи транспонирования. Результат записываем в переменную S, строки которой теперь содержать координаты объектов, описанные в сингулярном базисе.

3.5. Установка стартового значения для внутреннего цикла. Во внутреннем цикле мы будем постепенно удалять компоненты из датафрейма, начиная с самого младшего. В начале цикла устанавливаем количество удаленных компонент K= 1.

Кроме того, по мере изменения параметра K мы будем на каждом шаге вычислять коэффициент детерминации возникающей новой регрессионной модели. Для того чтобы иметь все их значения, нам понадобится список. Мы заводим этот список и в начале цикла присваиваем ему постое значение: score=[].

3.6. Построение и обучение регрессионной модели на редуцированных данных в сингулярном базисе. Для левой части регрессионной задачи мы используем срез массива S[:,:-K], который удаляет из массива S последние K столбцов, а в качестве павой части — столбец с именем target исходного (то есть, не нормализованного) датафрема.

При помощи метода LinearRegression библиотеки sklearn мы формируем объект model, к которому применяем метод fit, в результате чего получаем обученную модель.

3.7. Вычисление коэффициента детерминации. В качестве метрики эффективности регрессионной модели мы используем коэффициент детерминации R2. В библиотеке sklearn он реализован как метод score (если последний применен к объекту класса LinearRegression). Вызываем метод score, применяем его к объекту model и результат присоединяем к списку score, который изначально мы объявили пустым (см. шаг 3.5).

Тем самым, мы получаем первое значение для списка метрик эффективности серии наших моделей. Напомним, что пока мы использовали стартовые значения алгоритма: целевая функция — это признак 'Просмотры', число исключенных измерений равно 1.

3.8. Дальнейшее уменьшение размерности. Увеличиваем счетчик K на 1 и повторяем шаги 3.6-3.7, наращивая список score до 10 позиций (то есть, последовательно уменьшая размерность пространства задачи на величину до 10 измерений).

3.9. Перебор целевых функций. Во внешнем цикле изменяем значение целевой функции на следующее: target-Время просмотра (часы)' и повторяем шаги 3.4-3.8. Затем переходим к следующему признаку и т. д. В итоге получаем 18 списков (по числу признаков датафрейма) длины 10 каждый, содержащие значения соответствующих коэффициентов детерминации.

4. Результаты. Результаты представлены в следующей сводной таблице:

0 1 2 3 4 5 6 7 8 9

Просмотры 0.99 П Q8 0.99 П Q8 0.98 0.99 П Q7 0.97 0.99 П Q7 0.97 0.99 П Q7 0.97 0.99 П Q7 0.97 0.99 П Q7 0.97 0.97 П QS 0.95 0.97 П QS 0.95 0.96 П QA 0.94

Время просмотра (часы) Поделились 0.98 0.27 П QQ 0.99 0.27 П Q8 0.98 0.27 П Q9 0.92 0.27 П 87 0.87 0.27 П 8S 0.85 0.27 П 84 0.83 0.26 П 84 0.83 0.26 П 89 0.82 0.25 П 89 0.82 0.25 П 78 0.78

Постоянные зрители Новые комментарии 0.21 1 пп 0.21 П QQ 0.20 П QQ 0.20 П QQ 0.20 П Q 0.20 П £8 0.20 П AS 0.20 П AS 0.20 П AS 0.19 П 48

Отказались от подписки Новые зрители I .ии 0.99 U.77 0.99 \j.yy 0.98 \j.yy 0.98 \).У О 0.97 U.OÖ 0.92 0.91 0.90 0.90 U.JÖ 0.90

Среднее число просмотров одним пользователем 0.78 0.78 0.73 0.67 0.67 0.32 0.18 0.17 0.17 0.10

Уникальные зрители 0.99 П 1А 0.99 П 1А 0.99 П 1А 0.99 П 74 0.99 П 79 0.98 П SA 0.98 П SA 0.97 П SA 0.97 П SA 0.96 П S 1

CTR для значков видео (%) Показы и. /ч-0.91 1 ПП и. /ч-0.91 П QQ и. /ч 0.91 П QQ U. /3 0.91 П QQ U. /Z 0.90 П QQ U. J4 0.90 П Q8 U. J4 0.90 П Q8 U. J4 0.85 П Q9 U. J4 0.85 П Q9 и. л 0.83 П

Подписчики Средний проц. просмотра (%) I .ии 0.91 П Л 1 U.77 0.91 П А 1 \j.yy 0.91 П 4Q \j.yy 0.91 П 4Q \j.yy 0.90 П 4Q 0.90 П 4Q 0.90 П 4Q \).У Z 0.90 П 48 \J.yL 0.90 П 48 и.О J 0.87 П 1 8

Процент лайков Средняя продолжительность просмотра 0.41 0.91 П SA 0.41 0.91 П SA 0.39 0.89 П S9 0.39 0.89 П S1 0.39 0.88 П S 1 0.39 0.87 П S 1 0.39 0.87 П S 1 0.38 0.86 п sn 0.38 0.85 п sn 0.18 0.55 П ¿18

Дизлайки Лайки 0.54 U. J4 0.54 U. J L 0.54 и. л 0.54 и. л 0.54 и. л 0.54 и. л 0.54 0.53 0.53 U.4Ö 0.51

Здесь нулевая позиция означает решение регрессионной задачи на полных данных, а последующие — понижение размерности на соответствующее число измерений.

Во всей таблице наблюдается вполне предсказуемое понижение метрики прогнозирующей способности по мере исключения компонент, однако, с точки зрения практической применимости моделей, признаки датафрейма делятся на три категории. А именно: если принять в качестве приемлемого значения коэффициента детерминации R2=0.9, то категории содержат следующие признаки.

4.1. Признаки, устойчивые к понижению размерности. Берем последнюю колонку и отмечаем все признаки, для которых значение коэффициента детерминации R2>0.9. К таковым относятся:

'Просмотры', ' Новые комментарии', 'Новые зрители', 'Уникальные зрители'.

Для этих признаков понижение размерности на 10 измерений (считая от 0) не приводит к критическому падению метрики эффективности.

4.2. Непрогнозируемые признаки. Берем первую колонку и отмечаем все признаки, для которых R2<0.9. Обнаруживаем следующие признаки:

'Поделились', 'Новые комментарии', 'Среднее число просмотров одним пользователем', 'CTR для значков видео (%)', 'Процент лайков', 'Дизлайки ', ' Лайки'.

Эти признаки изначально, без предварительной обработки данных и понижения размерности не обеспечивают достаточной надежности регрессионного прогноза, понижать размерность для таких целевых функций нет никакого смысла.

4.3. Признаки с порогом понижения размерности. Берем признаки, для которых коэффициент детерминации в первой колонке R2>0.9, а в последней колонке R2<0.9. Этим свойством обладают признаки:

'Постоянные зрители', 'Отказались от подписки', 'Показы', 'Подписчики', 'Средний процент просмотра (%)', 'Средняя продолжительность просмотра'.

Для того чтобы, используя эти признаки в качестве целевой функции, оставаться в пределах допустимых значений коэффициента детерминации, мы можем понижать размерность данных в соответствии со следующими ограничениями:

'Постоянные зрители' — не более чем на 2 измерения;

'Отказались от подписки' — не более чем на 4 измерения;

'Показы' — не более чем на 6 измерений;

'Подписчики' — не более чем на 8 измерений;

'Средний процент просмотра (%)' — не более чем на 8 измерений;

'Средняя продолжительность просмотра' — не более чем на 1 измерение.

5. Выводы. Разделение признаков на три типа:

¡.признаки, устойчивые к понижению размерности,

2.непрогнозируемые признаки,

3. признаки с порогом понижения размерности,

свидетельствует о том, методу понижения размерности нельзя давать однозначную оценку.

С одной стороны, понижение размерности данных приводит к естественному выигрышу во времени исполнения алгоритмов машинного обучения и в объеме памяти, необходимом для хранения и обработки информации. Однако с другой стороны, это же понижение размерности может привести к необоснованному снижению качества модели и ее способности давать обоснованный и точный прогноз.

В целом, можно сказать, что возможность допустимого понижения размерности данных существенно зависит структуры данных от решаемой задачи машинного обучения. Для принятия решения о понижении размерности необходимо провести предварительные исследования и применять этот метод только в том случае, когда понижение размерности не противоречит целям и задачам обработки данных.

Список литературы

1.Хейдт М. Изучаем Pandas. Москва: ДМК Пресс, 2018. 438 с.

2.Бурков А. Машинное обучение без лишних слов. СПб: Питер, 2020. 192 с.

3.Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦИМО. 2013. 387 с.

4.Бринк Х., Ричардс Х., Феверолф М. Машинное обучение. СПб.: Питер, 2017. 336 с.

5.Дрейпер Н.Р. Прикладной регрессионный анализ / Дрейпер Н.Р., Смит Г.; ред. пер. Саит-Аметова. М.: Диалектика: Вильямс, 2007. 911 с.

6.Минин А.С. Применение сингулярного разложения для понижения размерности в анализе данных // Тенденции развития науки и образования. 2023. № 99-7. С. 55-58.

7.Козловский В.Н. Потребительская ценность качества автомобилей / В.Н. Козловский, Г.Л. Юнак, Д.В. Айдаров, С.А. Шанин // Стандарты и качество. 2017. № 12. С. 76-80.

Мосин Владимир Геннадьевич, канд. физ.-мат. наук, yanbacha@yandex. ru, Россия, Самара, Самарский государственный технический университет,

Козловский Владимир Николаевич, д-р техн. наук, профессор, заведующий кафедрой, [email protected], Россия, Самара, Самарский государственный технический университет

DATA DIMENSIONALITY REDUCTION USING THE SVD METHOD FOR CONTENT CONSUMPTION DATA

V.G. Mosin, V.N. Kozlovsky

The article is devoted to the problem of dimensionality reduction using a method based on the singular value decomposition of the data matrix. An algorithm for converting data to a singular basis and sequentially eliminating the basis vectors, starting with the youngest, is considered. Using the example of data on content consumption by users of one of the leading hosting companies, various situations that arise during solving machine learning problems using a dimensionality reduction algorithm are illustrated.

Key words: content, quality assessment, data science, singular value decomposition, data dimensionality reduction, regression models, scikit-learn, pandas, numpy, SVD.

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, docent, yanbacha@yandex. ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University

i Надоели баннеры? Вы всегда можете отключить рекламу.