Научная статья на тему 'О ВЛИЯНИИ ВОСТРЕБОВАННОСТИ КОНТЕНТА НА НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ВОВЛЕЧЕННОСТИ В ЕГО ПОТРЕБЛЕНИЕ'

О ВЛИЯНИИ ВОСТРЕБОВАННОСТИ КОНТЕНТА НА НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ВОВЛЕЧЕННОСТИ В ЕГО ПОТРЕБЛЕНИЕ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
8
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
контент / оценка качества / анализ данных / регрессия / scikit-learn / pandas / content / quality assessment / data science / regression / scikit-learn / pandas

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич, Пантюхин Олег Викторович

В статье исследованы характеристики востребованности контента в сравнении с характеристиками вовлеченности в его потребление. Показано, что регрессионные модели востребованности обладают высокой прогнозирующей способностью, при этом прогнозирующая способность моделей вовлеченности крайне низка и достигает приемлемых значений только на высоко востребованных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич, Пантюхин Олег Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE IMPACT OF THE DEMAND FOR CONTENT ON SOME CHARACTERISTICS OF INVOLVEMENT IN ITS CONSUMPTION

The article examines the characteristics of the demand for content in comparison with the characteristics of involvement in its consumption. It is shown that regression models of demand have a high predictive ability, while the predictive ability of engagement models is extremely low and reaches acceptable values only on highly demanded data.

Текст научной работы на тему «О ВЛИЯНИИ ВОСТРЕБОВАННОСТИ КОНТЕНТА НА НЕКОТОРЫЕ ХАРАКТЕРИСТИКИ ВОВЛЕЧЕННОСТИ В ЕГО ПОТРЕБЛЕНИЕ»

SIMULATION TOOLS IN ASSURING THE QUALITY OF NEW VEHICLE DESIGNS

DURING THE DESIGN PROCESS

I.A. Belyaeva, V.N. Kozlovsky, V. A. Vasin

The article presents the results of an analysis of modern modeling tools used in the design of cars and electric vehicles.

Key words: competitiveness; quality; automobile.

Belyaeva Irina Alexandrovna, candidate of technical sciences, docent, [email protected], Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University,

Vasin Sergey Alexandrovich, doctor of technical sciences, professor, [email protected], Russia, Tula, Tula State University

УДК 005.6

DOI: 10.24412/2071-6168-2024-1-250-251

О ВЛИЯНИИ ВОСТРЕБОВАННОСТИ КОНТЕНТА НА НЕКОТОРЫЕ

ХАРАКТЕРИСТИКИ ВОВЛЕЧЕННОСТИ В ЕГО ПОТРЕБЛЕНИЕ

В.Г. Мосин, В.Н. Козловский, О.В. Пантюхин

В статье исследованы характеристики востребованности контента в сравнении с характеристиками вовлеченности в его потребление. Показано, что регрессионные модели востребованности обладают высокой прогнозирующей способностью, при этом прогнозирующая способность моделей вовлеченности крайне низка и достигает приемлемых значений только на высоко востребованных данных.

Ключевые слова: контент, оценка качества, анализ данных, регрессия, scikit-learn, pandas.

Востребованность и вовлеченность пользователей в потребление контента — это две разные характеристики, которые могут быть связаны между собой, но не всегда.

С одной стороны, востребованность контента относится к его популярности или степени запроса у пользователей. Эта характеристика может быть определена на основе таких факторов, как количество просмотров, скачиваний, лайков и т. д. Чем больше пользователей проявляют интерес к контенту и участвуют в его потреблении, тем он более востребован.

С другой стороны, вовлеченность пользователей в потребление контента относится к степени их внимания или взаимодействия с контентом. Это может быть выражено через комментарии, обсуждения или долю времени, которую пользователь проводит с контентом. Чем больше пользователи взаимодействуют с контентом и проявляют активность, тем они более вовлечены в его потребление.

Связь между востребованностью и вовлеченностью контента может быть сложной и зависит от разных факторов. Популярный контент привлекает больше внимания со стороны пользователей, но не популярный контент также может вызывать высокую степень вовлеченности у малого числа пользователей, у преданной аудитории.

250

Кроме того, востребованность и вовлеченность могут телескопироваться друг в друга: высокая вовлеченность может привлекать больше внимания к контенту, что, в свою очередь, увеличивает его востребованность.

В целом, востребованность контента и вовлеченность пользователей в его потребление взаимосвязаны, но каждая из этих характеристик представляет отдельную сущность, которая может быть важной для разных целей и аспектов анализа и управления контентом.

Теоретическая часть. Среднее время просмотра ролика и средний процент просмотра ролика являются хорошими характеристиками вовлеченности пользователей в потребление контента по нескольким причинам. Во-первых, они отражают количество времени, которое пользователь проводит в контакте с контентом. Чем дольше пользователь смотрит ролик, тем больше времени он ему уделяет, а это свидетельствует о его заинтересованности и вовлеченности в содержание. Во-вторых, средний процент просмотра ролика показывает, насколько быстро пользователи заканчивают просмотр. Если пользователи просматривают ролик до конца или большую его часть, это указывает на их заинтересованность и удовлетворенность контентом. Кроме того, эти характеристики также могут быть использованы для сравнения разных видео или кон-тентных форматов между собой. Например, сравнение процента просмотра роликов разной продолжительности позволяет оценить, какой контент более привлекателен для аудитории и так далее.

Однако следует отметить, что как среднее время просмотра, так и средний процент просмотра не являются единственными показателями вовлеченности пользователей и имеют свои ограничения. Именно такого рода ограничениям (точнее, одному из них) посвящена настоящая работа.

Дело в том, что величины, представляющие отношение двух показателей, имеют большую вариативность, когда исходные показатели близки к нулю или очень малы. Это связано с особенностями деления на малые числа: когда в знаменателе оказывается слишком маленькое число, результат такого отношения становиться слишком большим.

Чем меньше исходные показатели, тем более выраженная вариативность появляется у величин, представляющих их отношение, а заявленные нами показатели — 1) среднее время просмотра и 2) средний процент просмотра — это и есть отношения:

1. среднее время просмотра получается как отношения общего времени просмотра к общему числу просмотров конкретного ролика;

2. средний процент просмотра вычисляется как отношение среднего времени просмотра к длине ролика, то есть, в этой характеристике присутствуют сразу два отношения (с учетом того, что было выполнено в предыдущем пункте).

Предмет исследования. Предметом нашего исследования является возможность прогнозирования показателей 1) востребованности контента и 2) вовлеченности пользователей в его потребление.

Методика исследования. Мы берем данные о потреблении контента пользователями трех типов устройств — десктопов, смартфонов и планшетов — и, пользуясь средствами регрессионного анализа, строим прогнозирующие модели 1) для характеристик востребованности контента и 2) для характеристик вовлеченности в его потребление.

Цель исследования. Наша цель — показать, что даже если показатели востребованности хорошо прогнозируются, показатели вовлеченности на тех же самых данных являются подчас непредсказуемыми, что требует при работе с характеристиками вовлеченности редуцировать данные до высоко востребованных объектов.

Технологии. Обработку и анализ данных мы осуществляем с помощью среды Jupyter Notebook, которая предоставляет удобные инструменты для работы с языком программирования Python и его основными библиотеками: NumPy, Pandas, Scikit-learn и Matplotlib (см. [1], [2]).

Библиотека NumPy является важным инструментом для научных вычислений и обработки массивов данных в Python. Она предлагает эффективные структуры данных, алгоритмы и функции для работы с одномерными и многомерными числовыми массивами.

Pandas является самой мощной библиотекой для работы с данными в Python. Она тесно интегрируется с другими инструментами для анализа и обработки данных на платформе Python, такими как NumPy, Scikit-learn и Matplotlib. Pandas обеспечивает эффективные средства для обработки информации, а также множество алгоритмов и функций для анализа и визуализации данных [1]. Для решения регрессионных задач мы применяем библиотеку Scikit-learn, также известную как sklearn. Scikit-learn представляет собой мощный и гибкий инструмент машинного обучения с широким спектром возможностей и удобным интерфейсом.

Описание данных. Исследуются данные о потреблении контента на канале одного из ведущих хостингов в 2023 году. Исследованию подлежат три набора данных: 1) потреблении контента пользователями десктопов, 2) пользователями смартфонов, 3) пользователями планшетов.

Каждый набор содержит два показателя востребованности контента и два показателя вовлеченности в его потребление. К показателям востребованности относятся: a) сведения об общем количестве просмотров того или иного ролика за указанный период, b) сведения о суммарном времени просмотра того или иного ролика за указанный период. Показатели вовлеченности таковы: a) среднее время просмотра того или иного ролика одним пользователем, b) средний процент просмотра того или иного ролика, под которым понимается процент среднего времени просмотра от продолжительности ролика.

Каждый из трех наборов данных содержит 500 записей. Объектами служат ролики, идентифицированные своими названиями. Множества роликов, относящиеся к разным наборам, не совпадают. Порядок следования пересекающейся части роликов различен.

Алгоритм

1. Чтение данных. Методом read_csv библиотеки pandas загружаем в среду исполнения набор данных о потреблении контента пользователями смартфонов и формируем дата-фрейм.

Название видео Просмотры Общее время Среднее время (сек) Средний процент

0 Вычисление обратных матриц по методу ... 47 0.7645 58 46.11

1 Интерполяция. Ответы 46 1.5192 118 28.58

2 Приведение кривой второго порядка ... 345 13.5168 141 26.41

497 Равномерное распределение ... 26 0.3401 47 42.81

498 Определение производной. Тема 107 5.6515 190 28.51

499 Линейная зависимость и линейная ... 369 3.7587 36 28.87

Аналогично формируем еще два дата-фрейма: о потреблении контента пользователями десктопов и планшетов.

Разведочный анализ. Применяем метод info библиотеки pandas и выводим сведения о признаках.

Признак 'Название видео' относится к строковому типу, остальные признаки являются числовыми, пропущенных данных нет, и то же справедливо для двух других дата-фреймов.

Конкатенация данных с выравниванием по объектам. Нам предстоит сравнивать показатели востребованности и вовлеченности, полученные из разных источников, и в этом есть определенная сложность, так как:

1. множество роликов, просмотренных пользователями десктопов, не совпадает с множеством роликов, просмотренных пользователями смартфонов, а то, в свою очередь — с множеством роликов, просмотренных пользователями планшетов;

2. ролики, просмотренные одновременно пользователями всех трех категорий, в разных источниках следуют в разном порядке.

# Column Non-Null Count Dtype

0 Название видео 500 non-null object

1 Просмотры 500 non-null int64

2 Общее время 500 non-null float64

3 Среднее время (сек) 500 non-null int64

4 Средний процент 500 non-null float64

Таким образом, нам нужно выбрать из данных только те объекты, которые принадлежат пересечению трех множеств, после чего приписать каждому объекту признаки, полученные a) на пользователях десктопов, b) смартфонов и с) планшетов.

Для этого в каждом из трех дата-фреймов методом index библиотеки pandas мы назначаем в качестве индексов признаки 'Название видео' после чего используем метод concat той же библиотеки. Назначив значения атрибутов axis=1 и join-inner', мы добиваемся того, что конкатенация происходит по столбцам, а в качестве объектов выбираются только те объекты, которые принадлежат всем трем наборам данных, подлежащим конкатенации.

Поучаем следующий дата-фрейм, который и являемся объектом дальнейшего

анализа.

Общее вре- Среднее время Средний

Просмотры. мя. Дескто- (сек). Планше- процент.

Десктопы пы ... ты Планшеты

Предел функции двух переменных. Вопросы 47 0.7645 ... 58 46.11

Градиент. Тема 46 1.5192 ... 118 28.58

Алгебраические формы произвольных степеней. Вопросы 345 13.5168 ... 141 26.41

Вычисление ранга матрицы методом окаймляюшдх миноров. Ответы 26 0.3401 ... 47 42.81

Характеристический многочлен. Тема 107 5.6515 . 190 28.51

Ортогональное дополнение. Пример 369 3.7587 ... 36 28.87

В нем в качестве индекса выступает множество названий, причем они не повторяются, а в качестве описания этих объектов — значения признаков, полученные из всех трех источников.

Структура и состав конкатенированных данных. Используя метод info библиотеки pandas, получаем информацию о признаках.

# Column Non-Null Count Dtype

0 Просмотры. Десктопы 417 non-null int64

1 Общее время. Десктопы 417 non-null float64

2 Среднее время (сек). Десктопы 417 non-null int64

3 Средний процент. Десктопы 417 non-null float64

4 Просмотры. Смартфоны 417 non-null int64

5 Общее время. Смартфоны 417 non-null float64

6 Среднее время (сек). Смартфоны 417 non-null int64

7 Средний процент. Смартфоны 417 non-null float64

8 Просмотры. Планшеты 417 non-null int64

9 Общее время. Планшеты 417 non-null float64

10 Среднее время (сек). Планшеты 417 non-null int64

11 Средний процент. Планшеты 417 non-null float64

После конкатенации данные содержат 417 записей, а не 500 как было изначально в каждом из дата-фреймов, строковый признак 'Название видео' играет роль индекса, а значения всех признаков являются числовыми.

Моделирование востребованности. К характеристикам востребованности относятся такие показатели как общее количество просмотров, полученных роликом за данный период (чем больше просмотров, тем более востребован ролик), и общее время просмотра, суммированное по всем просмотра (чем больше общее время, тем более востребован ролик). Мы хотим выяснить, насколько связаны эти показатели на разных устройствах воспроизведения. Для этого мы попытаемся спрогнозировать востребованность для одного из них, пользуясь сведениями о востребованности на двух других. Если прогноз окажется уверенным, то это будет означать явное наличие такой связи.

Агрегация данных по характеристикам востребованности. Пользуясь методом loc библиотеки pandas, мы локализуем данные, оставляя лишь те, которые относятся к характеристикам востребованности — 'Просмотры' и 'Общее время' — для каждой из групп потребления, сформированных по типу устройства воспроизведения.

Десктопы Смартфоны Планшеты

Просмотры Общее время Просмотры Общее время Просмотры Общее время

Предел функции двух ... 104 1.0229 59 0.6283 7 0.0661

Градиент. Тема 1555 80.4951 1074 39.4068 85 4.1286

Алгебраические формы ... 165 1.6368 70 0.9815 6 0.1200

Вычисление ранга матрицы ... 1121 35.1147 979 26.3323 41 0.9372

Х-многочлен. Тема 922 31.8813 438 15.6983 58 2.6200

Ортогональное дополнение ... 2038 68.9593 1013 34.4057 62 2.4562

Построение и обучение модели, прогнозирующей просмотры. К левой части регрессионной задачи мы относим признаки 'Просмотры. Десктопы' и 'Просмотры. Смартфоны'. Переводим получившийся дата-фрейм в массив numpy, пользуясь методом to_numpy, и получаем числовой массив X, содержащий 417 строк и 2 столбца. Для получения правой части выделяем целевой признак 'Просмотры. Планшеты', переводим его в массив и получаем одномерный числовой массив у, содержащий 417 элементов.

Методом LinearRegression из модуля linear_model библиотеки sklearn, формируем объект model и применяем к нему метод fit на массивах X, у. Вызываем метод score библиотеки sklearn и получаем значение коэффициента детерминации: R2 = 0.9025. Это очень хорошее значение метрики эффективности регрессионной модели, что говорит о высокой согласованности этой характеристики востребованности среди пользователей планшетов с востребованностью среди пользователей других устройств воспроизведения.

Построение и обучение модели, прогнозирующей общее время. Действуя аналогично, получаем: R2 = 0.9041. Следовательно, по обеим характеристикам востребованности мы наблюдаем высокую согласованность для разных типов устройств.

Моделирование вовлеченности. К характеристикам вовлеченности относятся среднее время просмотра и средний процент просмотра: чем больше в среднем времени проводит пользователь за просмотром ролика, тем выше вовлеченность (в идеале просмотр всего ролика от начала до конца говорит о полной вовлеченности в его потребление).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

По сути, эти показатели являются функциями от показателей востребованности: чтобы получить среднее время, нужно общее время разделить на число просмотров, а чтобы получить средний процент, нужно вычислить процент, который среднее время составляет от продолжительности ролика. Заметим, что эти функции представ-

ляют собой отношения величин, и это сыграет свою весьма негативную роль в дальнейшем исследовании.

Агрегация данных по характеристикам вовлеченности. Действуя так же, получаем данные о вовлеченности среди пользователей разных устройств воспроизведения.

Десктопы Смартфоны Планшеты

Среднее время (сек) Средний процент Среднее время (сек) Средний процент Среднее время (сек) Средний процент

Предел функции двух ... 35 27.88 38 30.18 34 26.78

Градиент. Тема 186 21.95 132 15.56 174 20.60

Алгебраические формы ... 35 27.90 50 39.43 71 56.24

Вычисление ранга матрицы ... 112 34.38 96 29.52 82 25.09

Х-многочлен. Тема 124 28.49 129 29.53 162 37.21

Ортогональное дополнение ... 121 29.00 122 29.11 142 33.96

Построение и обучение модели, прогнозирующей среднее время. К левой части регрессионной задачи мы относим признаки 'Среднее время (сек). Десктопы' и 'Среднее время (сек). Смартфоны'. Переводим получившийся дата-фрейм в массив numpy, пользуясь методом to_numpy, и получаем двумерный числовой массив X размера 417 на 2. Для получения правой части выделяем целевой признак 'Среднее время (сек). Планшеты', переводим его в массив и получаем одномерный числовой массив y из 417 элементов. Так же методом LinearRegression из модуля linear_model библиотеки sklearn, формируем объект model и применяем к нему метод fit на массивах X, y. Вызываем метод score библиотеки sklearn и получаем значение коэффициента детерминации: R2 = 0.5234. Такая низкая метрика эффективности говорит о том, что спрогнозировать среднее время просмотра того или иного ролика пользователями планшетов по аналогичным характеристикам пользователей десктопов и смартфонов будет весьма затруднительно.

Построение и обучение модели, прогнозирующей средний процент. Действуя аналогично, получаем R2 = 0.1883. Это означает, что средний процент просмотра вообще не прогнозируется.

Удаление шумовых данных. Все дело в природе данных о вовлеченности. Выше мы уже упоминали о том, что характеристики вовлеченности являются функциями от характеристик востребованности, причем, эти функции являются отношениями [8, 9].

Если показали 'Общее время' и 'Просмотры' принимают высокие значения, то их отношение стабильно и не зависит от редких аномалий, которые неизбежны при просмотре какого-либо ролика кем-либо из пользователей. Если же эти показатели принимают низкие значения, то их отношение становится непредсказуемым.

Наше дальнейшее исследование состоит в том, чтобы выяснить, как влияет востребованность контента на стабильность прогноза вовлеченности в его потребление.

Пользуясь методом loc библиотеки pandas, мы последовательно локализуем данные по двум признакам востребованности: 'Просмотры' и 'Общее время'.

Локализация по числу просмотров. Пользуясь методом min библиотеки pandas, вычисляем минимальные значения признаков 'Просмотры. Десктопы', 'Просмотры. Смартфоны' и 'Просмотры. Планшеты' и выбираем среди них минимальное значение m. Затем, пользуясь методом loc, выполняем локализацию дата-фрейма по совокупности трех условий: значения каждого из трех признаков 'Просмотры. Десктопы', 'Просмотры. Смартфоны' и 'Просмотры. Планшеты' должны быть строго больше найденного выше значения m.

К полученной локализации применяем процедуру построения и обучения модели, в результате чего получаем метрики эффективности для моделей, прогнозирующих среднее время просмотра и средний процент. Найденные значения коэффициента детерминации заносим в списки и повторяем процедуру в цикле до полного исчерпания дата-фрейма (на каждом шаге количество записей в нем уменьшается). Результаты представлены на рисунке 1 (а). По горизонтали отложен процент отброшенных записей, а по вертикали — значения коэффициентов детерминации для двух моделей, прогнозирующих среднее время и средний процент просмотра.

Локализация по времени просмотра. Кроме того, для сравнения мы используем и второй показатель востребованности: общее время просмотра ролика. Мы вычисляем минимальные значения признаков 'Общее время. Десктопы', ' Общее время. Смартфоны' и ' Общее время. Планшеты', и получаем результат, представленный на рисунке 1 (Ь).

1.00-

0.75

0.50-

0.25

0.00

- - Секунды Проценты -

20

40

60

80

100

1.00

0.75 -

0.50

0.25 -

0.00

- Секунды Проценты

J ¡^«тГ

! 1

1 1

20

40

60

80

100

Рис. 1. Влияние востребованности на возможность спрогнозировать вовлеченность: (а) локализация по числу просмотров, (Ь) локализация по времени

просмотра

Результаты. Были проанализированы три набора данных за 2023 год по трем типам устройств воспроизведения контента: десктопы, смартфоны, планшеты. В качестве прогнозируемых величин использовались данные о потреблении контента пользователями планшетов.

Прогнозируемость востребованности. К характеристикам востребованности контента мы отнесли а) общее количество просмотров ролика и Ь) общее время просмотра за указанный период. Прогнозируемость востребованности оказалась высокой по обеим характеристикам. Для общего количества просмотров метрика эффективности регрессионной модели составила R2 = 0.9025, для общего времени просмотра — R2 = 0.9041.

Прогнозируемость вовлеченности. К характеристикам вовлеченности пользователей в потребление контента мы отнесли а) среднее время просмотра ролика одним пользователем и Ь) средний процент просмотра, вычисленный как процент среднего времени просмотра ролика от его общей продолжительности. Прогнозируемость вовлеченности оказалась крайне низкой. Для среднего времени просмотра метрика эффективности прогнозирующей регрессионной модели составила R2 = 0.5234, для среднего процента — R2 = 0.1883.

Объем шумовых данных. Удаление объектов, обладающих низкими показателями востребованности, повысило прогнозируемость вовлеченности, при этом объем шумовых данных составил 83-84%.

Выводы. Регрессионные модели, особенно машинное обучение, могут быть эффективно применены только при наличии большого объема данных. Большие обучающие наборы данных позволяют модели обучаться на разнообразных примерах и выявлять сложные закономерности и паттерны. Это улучшает способность модели предсказывать различные характеристики контента на основе имеющихся наблюдений, что вполне соответствует ситуации, когда изучается востребованность контента. Вместе с тем при изучении характеристик вовлеченности пользователей в потребление контента исследователю приходится, наряду с такими показателями как число комментариев или

репостов, учитывать еще и синтетические признаки, к которым прежде всего относятся среднее время просмотра одного ролика и средний процент его просмотра, вычисленный как доля среднего времени просмотра от общей продолжительности ролика. Такие синтетические показатели вовлеченности, являющиеся отношениями показателей востребованности, обладают слишком высокой вариативностью, которая делает регрессионный анализ весьма затруднительным или вообще невозможным. Поэтому для получения корректных моделей вовлеченности пользователей в процесс потребления контента следует использовать только те данные, на которых показатели востребованности являются заведомо высокими. Другими словами, изучать вовлеченность можно только на данных о высоко востребованном контенте.

Список литературы

1. Хейдт М. Изучаем Pandas. Москва: ДМК Пресс, 2018. 438 с.

2. Бурков А. Машинное обучение без лишних слов. СПб: Питер, 2020. 192 с.

3. Вьюгин, В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦИМО. 2013. 387 с.

4. Бринк Х. Машинное обучение / Х. Бринк, Дж. Ричардс, М. Феверолф. СПб.: Питер, 2017. 336 с.

5. Прикладной регрессионный анализ / Дрейпер Н. Р., Смит Г. ; ред. пер. Саит-Аметова М. ; Пер. с англ. и ред. пер. Власенко М., Имамутдинова Р. Г., Орехова Н. А., Саит-Аметова М. М.: Диалектика : Вильямс, 2007. 911 с.

6. Лысенко А.А. Введение в регрессионный анализ данных и регрессионные модели // Неделя науки Санкт-Петербургского государственного морского технического университета. 2020. Т. 1. № 3-1. С. 93.

7. Гусева Е.С. Основные характеристики понятия «контент» в рамках контент-маркетинга // Современные научные исследования и разработки. 2018. № 3 (20). С. 207211.

8. Козловский В.Н. Цифровая среда поддержки управления конкурентоспособностью / В.Н. Козловский, Д.В. Айдаров, Д.И. Панюков, М.М. Васильев // Стандарты и качество. 2018. № 6. С. 86-89.

9. Козловский В.Н. Потребительская ценность качества автомобилей / В.Н. Козловский, Г.Л. Юнак, Д.В. Айдаров, С.А. Шанин // Стандарты и качество. 2017. № 12. С. 76-80.

Мосин Владимир Геннадьевич, канд. физ.-мат. наук, доцент, [email protected], Россия, Самара, Самарский государственный технический университет,

Козловский Владимир Николаевич, д-р техн. наук, профессор, заведующий кафедрой, [email protected], Россия, Самара, Самарский государственный технический университет,

Пантюхин Олег Викторович, д-р техн. наук, доцент, olegpantyukhin@,mail.ru, Россия, Тула, Тульский государственный университет

ON THE IMPACT OF THE DEMAND FOR CONTENT ON SOME CHARACTERISTICS OF

INVOLVEMENT IN ITS CONSUMPTION

V.G. Mosin, V.N. Kozlovsky, O.V. Pantyukhin

The article examines the characteristics of the demand for content in comparison with the characteristics of involvement in its consumption. It is shown that regression models

257

of demand have a high predictive ability, while the predictive ability of engagement models is extremely low and reaches acceptable values only on highly demanded data.

Keywords: content, quality assessment, data science, regression, scikit-learn, pandas.

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, do-cent, [email protected], Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University,

Pantyukhin Oleg Viktorovich, doctor of technical sciences, docent, olegpan-tyukhin@,mail.ru, Russia, Tula, Tula State University

УДК 006.027

DOI: 10.24412/2071-6168-2024-1-258-259

ПРИМЕНЕНИЕ СИСТЕМЫ МОНИТОРИНГА И ПРОГНОЗИРОВАНИЯ В АВТОМАТИЗАЦИИ ПРОЦЕССА РАЗРАБОТКИ ДОКУМЕНТОВ В ОБЛАСТИ СТАНДАРТИЗАЦИИ

А.В. Князев, Ю.Ю. Черемухина

В статье приведены сведения о состоянии вопроса нормативно-методического обеспечения автоматизации мониторинга и прогнозирования процессов разработки стандартов в контексте цифровой трансформации стандартизации. Проанализировано современное состояние в области автоматизации мониторинга и прогнозирования процессов разработки документов по стандартизации. Представлены результаты применения интеллектуального анализа процессов для получения модели процесса разработки документов по стандартизации в обеспечении возможности применения в системе прогнозирующего мониторинга. Сформулированы требования к системе мониторинга процесса разработки документов по стандартизации.

Ключевые слова: информационные технологии, автоматизация процессов, BPMN, стандартизация, SMART-стандарты.

Непрерывное развитие процессов цифровизации различных отраслей промышленности вызывает необходимость цифровизации и в смежных областях, направленных на обеспечение функционирования промышленности, таких как стандартизация. Принимая во внимание послание Президента Федеральному Собранию 1 марта 2018 года, Указы Президента Российской Федерации от 7 мая 2018 г № 204 «О национальных целях и стратегических задачах развития Российской Федерации на период до 2024 года» и от 21 июля 2020 г. № 474 «О национальных целях развития Российской Федерации на период до 2030 года», национальную программу «Цифровая экономика Российской Федерации», План мероприятий развития стандартизации в Российской Федерации на период до 2027 года, Распоряжение Правительства Российской Федерации от 7 ноября 2023 г. № 3113-р Об утверждении Стратегического направления в области цифровой трансформации обрабатывающих отраслей промышленности, относящейся к сфере деятельности Министерства промышленности и торговли Российской Федерации, а также с целью решения задачи по обеспечению ускоренного внедрения цифровых технологий в экономике и социальной сфере, Правительством Российской Федерации

258

i Надоели баннеры? Вы всегда можете отключить рекламу.