Научная статья на тему 'ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОГО НАБОРА ПЕРЕМЕННЫХ ПРИ ПОМОЩИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ИССЛЕДОВАНИИ РЕЙТИНГОВЫХ СИСТЕМ'

ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОГО НАБОРА ПЕРЕМЕННЫХ ПРИ ПОМОЩИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ИССЛЕДОВАНИИ РЕЙТИНГОВЫХ СИСТЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
49
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ / ЗАДАЧА КЛАССИФИКАЦИИ / ЗАДАЧА КЛАСТЕРИЗАЦИИ / МЕТОД K-СРЕДНИХ / ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ / ДЕРЕВО РЕШЕНИЙ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / ОПТИМАЛЬНОЕ ЧИСЛО ПЕРЕМЕННЫХ / РЕЙТИНГОВЫЕ СИСТЕМЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Седых И.А., Стругов И.В.

Рассматривается применение методов машинного обучения, в частности, задач классификации и кластеризации, для определения оптимального количества переменных, включаемых в состав модели, для выбора ключевых значимых показателей в рамках первых этапов работы, посвященной анализу современных рейтинговых систем и их особенностей, а также изучению подходов к их моделированию. В исследовании используется предварительно обработанная и подготовленная выборка данных, состоящая из рейтингов фильмов и описывающая некоторые качественные и количественные характеристики кинолент параметров, составленная на основе открытой базы TMDB (The Movie Database). Представлен случай использования задач кластеризации и классификации для проверки различных вариантов комбинирования переменных в наборы для оценки значений показателя рейтинга. Представлена реализация методов k-средних и иерархической кластеризации для задачи кластеризации, а также методы дерева решений и опорных векторов (SVM) в ходе классификации исследуемой выборки при помощи программных средств языка R. Для определения оптимального количества кластеров в процессе реализации метода k-средних задействуется метод локтя (elbow). Предлагается интерпретация как промежуточных результатов поэтапного хода работы, так и совокупности полученных выводов, определяется направление вектора дальнейшего продвижения исследования, а также приводится наглядное сравнение показателей точности в ходе итогового анализа полученных результатов для задействованных методов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Седых И.А., Стругов И.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DETERMINATION OF THE OPTIMAL SET OF VARIABLES USING MACHINE LEARNING METHODS IN THE STUDY OF RATING SYSTEMS

The application of machine learning methods, in particular classification and clustering tasks, is considered to determine the optimal number of variables included in the model, as well as the selection of key significant indicators within the first stages of the work devoted to the analysis of modern rating systems and their features, as well as the study of approaches to their modeling. The study uses a pre-processed and prepared sample of data consisting of film ratings and describing some qualitative and quantitative characteristics of film parameters, compiled on the basis of the open TMDB database (The Movie Database). The case of using clustering and classification problems to test various options for combining variables into sets for evaluating the values of the rating indicator is presented. The implementation of k-means and hierarchical clustering methods for the clustering problem, as well as decision tree and support vector machine (SVM) methods in the course of classification of the sample under study using R programming tools is presented. To determine the optimal number of clusters in the process of implementing the k-means method, the elbow method is used. The interpretation of both the intermediate results of the step-by-step progress of the work and the totality of the conclusions obtained is proposed, the direction of the vector of further progress of the study is determined, and a visual comparison of accuracy indicators during the final analysis of the results obtained for the methods involved is provided

Текст научной работы на тему «ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОГО НАБОРА ПЕРЕМЕННЫХ ПРИ ПОМОЩИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ИССЛЕДОВАНИИ РЕЙТИНГОВЫХ СИСТЕМ»

DOI 10.36622/VSTU.2023.19.2.011 УДК 519.2, 004.02

ОПРЕДЕЛЕНИЕ ОПТИМАЛЬНОГО НАБОРА ПЕРЕМЕННЫХ ПРИ ПОМОЩИ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ИССЛЕДОВАНИИ РЕЙТИНГОВЫХ

СИСТЕМ

И.А. Седых, И.В. Стругов Липецкий государственный технический университет, г. Липецк, Россия

Аннотация: рассматривается применение методов машинного обучения, в частности, задач классификации и кластеризации, для определения оптимального количества переменных, включаемых в состав модели, для выбора ключевых значимых показателей в рамках первых этапов работы, посвященной анализу современных рейтинговых систем и их особенностей, а также изучению подходов к их моделированию. В исследовании используется предварительно обработанная и подготовленная выборка данных, состоящая из рейтингов фильмов и описывающая некоторые качественные и количественные характеристики кинолент параметров, составленная на основе открытой базы TMDB (The Movie Database). Представлен случай использования задач кластеризации и классификации для проверки различных вариантов комбинирования переменных в наборы для оценки значений показателя рейтинга. Представлена реализация методов k-средних и иерархической кластеризации для задачи кластеризации, а также методы дерева решений и опорных векторов (SVM) в ходе классификации исследуемой выборки при помощи программных средств языка R. Для определения оптимального количества кластеров в процессе реализации метода k-средних задействуется метод локтя (elbow). Предлагается интерпретация как промежуточных результатов поэтапного хода работы, так и совокупности полученных выводов, определяется направление вектора дальнейшего продвижения исследования, а также приводится наглядное сравнение показателей точности в ходе итогового анализа полученных результатов для задействованных методов

Ключевые слова: методы машинного обучения, задача классификации, задача кластеризации, метод k-средних, иерархическая кластеризация, дерево решений, метод опорных векторов, оптимальное число переменных, рейтинговые системы

Введение

В наши дни рейтинговые [1] системы получили крайне широкое распространение: рейтинги товаров, медиа-продуктов, учебных заведений, сотрудников или учащихся. Многие компании и разработчики заинтересованы в создании рекомендательных систем [2] высокой точности, которые основаны в первую очередь на рейтингах объекта, который необходимо рекомендовать. Но большой проблемой при этом становится отсутствие единого принципа формирования систем ранжирования, а наиболее популярным способом определения ранга является накопление оценок и отзывов пользователей, которые основываются на их индивидуальных мнениях и формах оценки. Кроме того, нередко объектом обобщения показателя для формирования значения рейтинга становятся некорректные характеристики, особенно когда речь идёт не о материальных предметах, составить численное описание которых несоизмеримо проще, а, к примеру, о рейтинге студентов или школьников. Такая ошибка может привести к непрактичности всей системы.

Данная работа посвящена исследованию и анализу принципов функционирования современных рейтинговых систем для дальнейшей разработки обобщённых подходов к моделированию и оценке структур, позволяющих определить ранг объекта, исходя из его объективных характеристик.

На данном этапе работы используется система рейтинга кино, как сфера, наиболее часто прибегающая к ранжированию на основе усреднения пользовательских оценок, то есть преобладанию множества субъективных представлений над определением объективных показателей.

Задача этапа заключается в определении оптимального числа и состава параметров [3] из выделенного набора при помощи методов машинного обучения, в частности задач классификации и кластеризации, с целью дальнейшего использования в моделировании.

Методы были реализованы при помощи программных средств языка R [4].

Данные

В качестве исходного набора был использован список из 3645 наименований фильмов и

© Седых И.А., Стругов И.В., 2023

двенадцати характеризующих их параметров, составленный на основе открытой базы TMDB (The Movie Database).

Примечаниями является, что при работе в параметре "совпадение названий", отражающем соответствие прокатного названия картины оригинальному, различие наименований обозначалось нолём, а соответствие - единицей; значением параметра "длина описания" является количество слов, содержащихся в описании; параметры "жанр", "оригинальный язык" и "страна производства" выражены порядковым численным значением, начиная от единицы, присваиваемым соответствующему уникальному исходному значению.

Использованные параметры и их условные обозначения, применявшиеся в ходе исследования, представлены в табл. 1.

Таблица 1 Обозначения исследуемых факторов

Наименование параметра Обозначение в расчётах

Бюджет budget

Жанр genre

Оригинальный язык language

Совпадение названий title accordance

Длина описания ovw leght

Популярность popularity

Страна производства production country

Год выхода release date

Сборы revenue

Продолжительность runtime

Количество проголосовавших vote_count

Рейтинговая оценка vote average

График плотности значений рейтинга представлен на рис. 1.

Рис. 1. Частоты значений рейтинга

Значение параметра бюджета варьировалось от 7 тыс. до 380 млн. долларов. Также допускалось значение бюджета 0 для картин с отсутствующим финансированием либо отсутствием данных в силу исторических или культурных обстоятельств. Также в выборку было допущено 11 формальных значений размером от 1 до 650 долларов. Жанровая принадлежность насчитывала 19 наименований, языковая

- 28, страна производства 54. Длина описания составляла от 10 до 175 слов. Продолжительность - от 25 до 338 минут. Самым ранним годом выхода картины был 1916, а наиболее поздним 2016. Кассовые сборы варьировались от 6399 до 2.788 млрд., при том, что нулевые значения также допускались для картин, не выходивших в прокат, при условии, что выборка содержала только вышедшие картины, случаи

отмены или заморозки съёмок отсекались.

В ходе исследования посредством применения методов регрессионного анализа [5] было получено несколько возможных вариантов модели, а также, при помощи алгоритма исчерпывающего поиска, выбрана последовательность включения параметров для различной размерности используемой модели, которая имеет следующий вид: (1) продолжительность, (2) количество голосов, (3) бюджет, (4) год выхода, (5) совпадение названий, (6) жанр, (7) язык, (8) популярность, (9) сборы, (10) длина описания, (11) страна производства. Для выбора ключевых параметров, а также определения их оптимального количества были использованы методы кластеризации и классификации. Реализация выполнялась на основе программных средств языка R.

Кластеризация

Исследование осуществлялось посредством проведения серии экспериментов, в рамках которых производилась кластеризация набора данных для разного количества и состава задействованных переменных [6]. Значение рейтинга экземпляров в состав наборов не включалось. В ходе работы использовался метод k-средних в качестве основного, а также иерархическая кластеризация [7] по методу Уорда в качестве альтернативного. Для определения оптимального числа кластеров применялся метод локтя (elbow), график представлен на рис. 2.

Optimal number of clusters

бе-ИВ

В качестве оптимального было принято разбиение на три кластера. При этом исходный набор данных тоже был разделён на три группы в зависимости от значения показателя рейтинга. Так к первой группе были отнесены экземпляры с условно низким рейтингом, а именно ниже 6 (1182 строк), ко второй со средним, от 6 до 7.5 (2234 строк), и высоким, 7.5 и выше (229 строк). При этом самым низким значением рейтинга в выборке стало значение 2.9, а самым высоким 8.5.

Для сравнения оценивалось количество строк в полученных кластерах относительно принятого разбиения. Проверялись модели от трёх до одиннадцати включённых параметров. Наиболее близкие результаты были получены при использовании 4, 5 и 6 переменных, по составу соответствующих выбранному при определении оптимального порядка включения для соответствующих размерностей набору. Разница размеров получаемых при этом кластеров являлась незначительной. Приблизительный состав для метода ^средних: 977, 2422, 246 строк. В табл. 2 приведены средние показатели параметров внутри групп, полученных по методу ^средних при использовании четырёх переменных.

Таблица 2 Средние значения внутри кластеров

Бюджет Год выхода Продолжи-тель-ность Кол-во проголосовавших

Кластер 1 (246) 161,449, 187 2009 122 3302

Кластер 2 (977) 63,711,0 91 2004 114 1141

Кластер 3 (2422) 13,457,3 52 2001 107 564

Графики кластеризации представлены на рис. 3 для метода ^средних (слева) и метода Уорда (справа).

Рис. 2. Определение оптимального числа кластеров

CLUSPLOTI Ь )

-2 0 2 4 6 8

Component 1

These two components explain 72.92 ii of the point variability.

Рис. 3. Графики

Классификация

Для использования в задаче классификации [8] исходная выборка была разбита на два набора: тестовый, состоявший из 911 строк исходного множества, и обучающий, в который входило 2734 строки. Состав наборов определялся при помощи генератора псевдослучайных чисел, реализованного при помощи функции set.seed и изменялся посредством корректировки параметра seed.

В ходе работы использовалась классификация по методу деревьев решений [9], а также, в качестве дополнительного, был задействован метод опорных векторов [10], SVM (Support vector machine).

Данный этап исследования также заключался в проведении ряда экспериментов,

Cluster Dendrogram

1-: и:=1г,--Л'ЯГ1 [Г)

кластеризации

заключавшихся в оценке точности классификации, которая определялась как процентное соотношение матриц ошибок исходного множества и полученного в результате классификации прогноза для различных вариантов множества включаемых в модель переменных, а также разных составов обучающей и тестовой выборок. Приоритетной считалась проверка моделей набора, полученных на этапе кластеризации, а также предшествующих стадиях исследования. Особое внимание при этом уделялось определению ключевых параметров, используемых в процессе классификации изучаемого набора данных.

На рис. 4 представлен график дерева для классификации набора, содержащего четыре переменных: бюджет, год выхода, продолжительность, количество голосов.

Г = 1

1.831 1661 mi

fu ntinw IM Hj

[.233 2&I 9 .J —Г*/€й E* {¡¿I-i 2012 —

1

Ц65 203 7J -runtime -

2 135J

ЯШ Г~П Г~П ( = 1 Г = 1 f2 1 Г=1 f^l

1.2 4D aj O J l.r.D 2ÍI z) LT£_5Q_2) 1,1 14 1,.' 1'Jj J J 1.115 ЖР 2HJ 1.27B 925 S5j I.y 75 12 J !.2

Рис. 4. Дерево. 4 параметра 75

На графике видно, что задействованы все четыре параметра, что соблюдалось для всех использованных вариаций значения начального распределения (seed), но наблюдаемые значения точности при этом ниже зафиксированных при использовании других составов переменных. Более подробный обзор значений точности классификации будет представлен далее.

На рис. 5 приведены графики распределения значений для исходного множества (слева), а также для тестовых наборов, полученных при классификации при помощи дерева решений (в центре) и метода SVM (справа).

Рис. 5. Графики распределения

На рис. 6 изображены примеры полученных вариаций графиков деревьев решений при использовании шести переменных: бюджет, год

выхода, продолжительность, количество голосов, жанр, совпадение названий.

Рис. 6. Дерево. 6 параметров

Стоит отметить появление в составе полученных деревьев параметра жанра, что не противоречит полученным ранее результатам, а следовательно позволяет причислить его к ключевым переменным. При этом в ходе проведения экспериментов многократно отмечалось получение идентичных структур дерева, а

также совпадение значений точности прогноза для тестового множества с аналогичными условиями использования пяти параметров.

Сравнение выборки из наиболее часто получаемых значений точности анализируемых наборов представлено в табл. 3. Показатель точности представлен в процентах.

Уточняется, что сравнение представлено для основы из четырёх переменных (бюджет, год выхода, продолжительность, количество голосов), а также вариантов добавления показателей жанра и совпадения названий. Зафиксированные показатели точности для альтернативных составов модели размером от четырёх до шести параметров имели более низкие значения.

Таблица 3 Сравнение показателей точности

При использовании большего количества параметров были получены аналогичные либо менее точные результаты, вследствие чего было принято решение принять в качестве оптимального количества пять параметров, а в состав ключевых включить переменную жанра. Модели, использующие переменную совпадения названий вместо или вместе с переменной жанра в составе обозначенного набора аналогично имели сходных или уступающий в точности результат. Таким образом, в качестве оптимального набора ключевых параметров был выбран следующий: бюджет, год выхода, продолжительность, количество голосов, жанр. Также стоит отметить, что подобный набор не противоречит результатам предшествующих этапов исследования.

Заключение

В ходе работы была произведена оценка результатов применения задач кластеризации и классификации для анализа набора данных, используемого в ходе исследования и моделирования рейтинговых систем. Выбрано оптимальное количество включаемых в выборку в рамках поставленной задачи переменных. А также определен список ключевых параметров для дальнейшего применения.

Литература

1. Рейтинговая система / Ю. Л. Попов, В. Н. Под-леснов, В. И. Садовников, Е. Р. Андросюк, В. Г. Кучеров // Высшее образование в России, 2001. № 4. С. 131-137.

2. Recommender Systems: Handbook / F. Ricci, L. Rokach, B. Shapira, P. Kantor. New York: Springer, 2010. 842 p.

3. Шмойлова Р.А. Общая теория статистики: учеб. пособие. 3-е изд. M.: Финансы и Статистика, 2002. 5б0 с.

4. Lantz B. Machine Learning with R. Birmingham: Packt Publishing, 2013. 375 p.

5. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Mножественная регрессия. M.: Диалектика, 2007. 912 с.

6. Кузнецова Е.В., Стругов И. В. Анализ кластеризации показателей развитости критического мышления у студентов // Наука, образование, молодежь: горизонты развития: сб. тр. по материалам Национальной научно-практической конференции. Керчь: Изд-во ФГБОУ ВО «КШТУ», 2021. С. 215-219.

7. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск: изд-во ин-та математики, 1999. 212 с.

8. Кузнецова Е.В., Стругов И. В. Анализ критического мышления студентов посредством применения статистических методов // Общество, образование, наука в современных парадигмах развития: сб. тр. по материалам Национальной научно-практической конференции. Керчь: Изд-во ФГБОУ ВО «КШТУ», 2020. Ч .2. С. 208-213.

9. Вьюгин В.В. Mатематические основы теории машинного обучения и прогнозирования. M.: MЦMНО, 2013. 390 с.

10. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer, 2009. 745 с.

Mетод 4 па- рамет-ра 5 параметров (жанр) 5 параметров (совпадение названий) б параметров

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Дерево решений 67.62 70.14 69.37 70.14

SVM 69.59 70.58 69.59 70.58

Поступила 21.03.2023; принята к публикации 13.04.2023 Информация об авторах

Седых Ирина Александровна - д-р техн. наук, доцент, профессор кафедры высшей математики, Липецкий государственный технический университет (398055, Россия, г. Липецк, ул. Московская, д. 30), e-mail: sedykh-irina@yandex.ru Стругов Илья Владимирович - аспирант кафедры высшей математики, Липецкий государственный технический университет (398055, Россия, г. Липецк, ул. Московская, д. 30), e-mail: Strugov.Ilya@yandex.ru, тел.: +7(961)030-86-33

DETERMINATION OF THE OPTIMAL SET OF VARIABLES USING MACHINE LEARNING METHODS IN THE STUDY OF RATING SYSTEMS

I.A. Sedykh, I.V. Strugov

Lipetsk State Technical University, Lipetsk, Russia

Abstract: the application of machine learning methods, in particular classification and clustering tasks, is considered to determine the optimal number of variables included in the model, as well as the selection of key significant indicators within the first stages of the work devoted to the analysis of modern rating systems and their features, as well as the study of approaches to their modeling. The study uses a pre-processed and prepared sample of data consisting of film ratings and describing some qualitative and quantitative characteristics of film parameters, compiled on the basis of the open TMDB database (The Movie Database). The case of using clustering and classification problems to test various options for combining variables into sets for evaluating the values of the rating indicator is presented. The implementation of k-means and hierarchical clustering methods for the clustering problem, as well as decision tree and support vector machine (SVM) methods in the course of classification of the sample under study using R programming tools is presented. To determine the optimal number of clusters in the process of implementing the k-means method, the elbow method is used. The interpretation of both the intermediate results of the step-by-step progress of the work and the totality of the conclusions obtained is proposed, the direction of the vector of further progress of the study is determined, and a visual comparison of accuracy indicators during the final analysis of the results obtained for the methods involved is provided

Key words: machine learning methods, classification problem, clustering problem, k-means method, hierarchical clustering, decision tree, support vector machine method, optimal number of variables, rating systems

References

1. Popov Yu.L., Podlesnov V.N., Sadovnikov V.I., Androsyuk E.R. "Rating system", Higher education in Russia (Vyssheye obrazovaniye v Rossii), 2001, no. 4, pp. 131-137.

2. Ricci F., Rokach L., Shapira B., Kantor P. "Recommender systems: Handbook", New York: Springer, 2010, 842 p.

3. Shmoylova R.A. "General theory of statistics: textbook", 3rd ed., Moscow: Finansy i Statistika, 2002, 560 p.

4. Lantz B. "Machine learning with R", Birmingham: Packt Publishing, 2013,375 p.

5. Draper N., Smith G. "Applied regression analysis. Multiple regression", Moscow: Dialectica, 2007, 912 p.

6. Kuznetsova E.V., Strugov I.V. "Analysis of clustering of indicators of critical thinking development among students", Science, education, youth: horizons of development (Nauka, obrazovaniye, molodezh': gorizonty razvitiya): coll. of works, Kerch: KGMTU, 2021, pp. 215-219.

7. Zagoruiko N.G. "Applied methods of data and knowledge analysis", Novosibirsk: Izd-vo in-ta matematiki, 1999, 212 p.

8. Kuznetsova E.V., Strugov I.V. "Analysis of students' critical thinking through the application of statistical methods", Society, education, science in modern development paradigms (Obshchestvo, obrazovaniye, nauka v sovremennykh paradigmakh razvitiya): coll of works, part 2, Kerch: Izd-vo KGMTU, 2020, pp. 208-213.

9. Vyugin, V.V. "Mathematical foundations of the theory of machine learning and forecasting", Moscow: MCMNO, 2013,

390 p.

10. Hasti T., Tibshirani R., Friedman J. "Elements of statistical learning: data mining, logical inference and forecasting", New York: Springer, 2009, 745 p.

Submitted 21.03.2023; revised 13.04.2023 Information about the authors

Irina A. Sedykh, Dr. Sc. (Technical) Sciences, Associate Professor, Professor of the Department of Higher Mathematics, Lipetsk State Technical University (30 Moskovskaya str., Lipetsk, 398055, Russia), e-mail: sedykh-irina@yandex.ru

Ilya V. Strugov, Post-graduate student, Department of Higher Mathematics, Lipetsk State Technical University (30 Moskovskaya str., Lipetsk, 398055, Russia), tel. +7(961)030-86-33, e-mail: Strugov.Ilya@yandex.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.