Научная статья на тему 'ИСПОЛЬЗОВАНИЕ BI-ПРИЛОЖЕНИЯ ДЛЯ АНАЛИЗА РЫНКА КИНО'

ИСПОЛЬЗОВАНИЕ BI-ПРИЛОЖЕНИЯ ДЛЯ АНАЛИЗА РЫНКА КИНО Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BI-приложения / Яндекс Datalens / датасет / дашборд / BI applications / Yandex Datalens / dataset / dashboard / Kaggle

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородин А.В.

В данной статье описывается использование BI-приложения для анализа рынка кино. BI-системы (сокр. от Business Intelligence)—набор программ и полезных инструментов, которые, непосредственно, помогают в сборе и анализе информации. Для осуществления поставленной цели были выдвинуты гипотезы, которые необходимо доказать или опровергнуть. Далее, для проверки гипотезы, был использован продукт Yandex DataLens. Анализ проводился с помощью дашбордов на основе добавленного датасета с платформы Kaggle.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING THE BI APPLICATION TO ANALYZE CINEMA MARKET

This article describes the use of a BI application for analyzing the film market. BI systems (short for Business Intelligence) are a set of programs and useful tools that directly help in collecting and analyzing information. To achieve this goal, hypotheses were put forward that need to be proven or disproved. Next, to test the hypothesis, the Yandex DataLens product was used. The analysis was carried out using dashboards based on the added dataset from the Kaggle platform.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ BI-ПРИЛОЖЕНИЯ ДЛЯ АНАЛИЗА РЫНКА КИНО»

УДК 004

Бородин А.В.

студент магистратуры Уральский государственный экономический университет (г. Екатеринбург, Россия)

ИСПОЛЬЗОВАНИЕ BI-ПРИЛОЖЕНИЯ ДЛЯ АНАЛИЗА РЫНКА КИНО

Аннотация: в данной статье описывается использование BI-приложения для анализа рынка кино. BI-системы (сокр. от Business Intelligence) — набор программ и полезных инструментов, которые, непосредственно, помогают в сборе и анализе информации. Для осуществления поставленной цели были выдвинуты гипотезы, которые необходимо доказать или опровергнуть. Далее, для проверки гипотезы, был использован продукт Yandex DataLens. Анализ проводился с помощью дашбордов на основе добавленного датасета с платформы Kaggle.

Ключевые слова: BI-приложения, Яндекс Datalens, датасет, дашборд.

Современный мир хранит и собирает все больше информации, включая данные о людях, сообщениях, интересах и объемах данных. В связи с этим, важно отметить, что существует необходимость собирать и анализировать всю доступную информацию. Для этих целей применяются BI-системы (сокращение от Business Intelligence) - набор программ и инструментов, которые помогают в сборе и анализе информации.

BI-системы являются одной из ключевых областей в информационном мире. Они позволяют организациям собирать, хранить и анализировать данные, чтобы принимать более обоснованные решения и получать ценные познания из имеющейся информации. В данной статье рассматривается исследование и использование BI-систем для анализа данных, а также их роль в современном бизнесе. Актуальность данной темы обусловлена не только необходимостью для

организаций эффективного управления данными, но и стремительным развитием технологий. Целью данной статьи является анализ данных о фильмах с помощью разработанного BI-приложения.

Важно упомянуть, что каждый фильм являет собой отдельный уникальный продукт, который имеет свою направленность на конкретную аудиторию. Соответственно, чтобы по-разному преподносить фильм, присутствует разделение по возрасту. Данные, которые взяты для анализа имеют маркировку по американским стандартам. Расшифровка каждого из обозначений представлена на таблице 1.

Таблица 1. Расшифровка возрастных цензов.

U Фильмы с прокатным удостоверением "U" (Universal) предназначены для всех возрастных категорий. Они не содержат неприемлемого контента и подходят для просмотра всей семьей

A Фильмы с прокатным удостоверением "A" (Adult) предназначены для взрослых зрителей. Они могут содержать материалы, не подходящие для детей

UA Фильмы с прокатным удостоверением "UA" (Universal Adult) предназначены для всех возрастных категорий, но с рекомендацией сопровождения взрослыми. Они могут содержать материалы, которые могут быть непонятны или неприемлемы для детей, но без запрета на просмотр

PG-13 Фильмы с прокатным удостоверением "PG-13" (Parental Guidance-13) рекомендуются для детей старше 13 лет. Они могут содержать материалы, которые могут быть неподходящими для детей младшего возраста, поэтому рекомендуется сопровождение родителей или взрослых

R Фильмы с прокатным удостоверением "R" (Restricted) предназначены для зрителей старше 17 лет. Они могут содержать интенсивный или неприемлемый контент для несовершеннолетних

G Фильмы с прокатным удостоверением "G" (General) предназначены для всех возрастных категорий. Они не содержат неприемлемого контента и подходят для просмотра всей семьей.

Также, фильмы подразделяются на категории. Пояснения по категориям находятся на таблице 2.

Таблица 2. Категории фильмов.

Action (экшн) Фильмы этого жанра обычно содержат динамичные сцены с преследованиями, боями и взрывами. Они часто включают элементы приключений и напряжения

Drama (драма) Фильмы этого жанра фокусируются на эмоциональных и психологических аспектах истории. Они могут затрагивать серьезные темы, отношения, конфликты и человеческие драмы.

Crime (криминал) Фильмы этого жанра обычно описывают преступления, их расследование и последствия. Они могут включать элементы детективного сюжета, интриги и напряжения

Biography (биография) Фильмы этого жанра основаны на реальных исторических личностях и событиях. Они рассказывают историю жизни и достижений известных людей

Sci-Fi (научная фантастика) Фильмы этого жанра основаны на научных и фантастических концепциях. Они могут включать элементы космических приключений, путешествий во времени, роботов и экспериментов

Adventure (приключение) Фильмы этого жанра основаны на научных и фантастических концепциях. Они могут включать элементы космических приключений, путешествий во времени, роботов и экспериментов.

Animation (анимация) Фильмы этого жанра созданы с использованием анимационных техник. Они могут быть предназначены для детей или взрослых и включать различные жанры, от комедии до фэнтези.

Music (музыкальный) Фильмы этого жанра фокусируются на музыке и музыкальных исполнителях. Они могут быть музыкальными спектаклями, биографическими фильмами о музыкантах или просто включать музыкальные элементы в сюжет.

Comedy (Комедия) Фильмы этого жанра известны своим юмористическим и легким контентом, нацеленным на развлечение и вызов смеха у зрителей.

Таким образом, имея информацию об условных обозначениях следует перейти к достижению цели работы. Для этого необходимо создать несколько гипотез, доказывая или, опровергая которые можно сделать некоторые выводы. Первой гипотезой будет допущение, что Кристофер Нолан является лучшим режиссёром, то есть имеет наибольшее суммарное количество баллов по всем

фильмам. Второй гипотезой является предположение, что фильмы в возрастной категории «A» оценены выше критиками. Третьей гипотезой будет предположение, что растёт спрос на длинные фильмы. Последней гипотезой является мысль о том, что самым популярным жанром является драма.

Для проверки гипотез будет использоваться Yandex DataLens -бесплатный сервис визуализации и анализа данных, позволяющий настраивать аналитические дашборды с диаграммами, таблицами и другими вариантами визуализации над различными источниками, предоставляя к ним сторонний доступ.

В данной работе будет использован набор данных «IMDB Movies Dataset». Данные обновлены по 2020 год включительно, то есть самый «молодой» фильм в наборе данных 2020 года выпуска.

Первым шагом взаимодействия с данными являлся их поиск. Далее следует их подготовка для проведения анализа. Данные, которые были взяты с платформы Kaggle находятся в формате CSV, данные разделены запятой и заранее нормализованы, соответственно эти шаги будут пропущены.

Теперь снова вернемся к гипотезам. Первой гипотезой является допущение, что Кристофер Нолан является лучшим режиссёром, то есть имеет наибольшее суммарное количество баллов по всем фильмам. Для этого необходимо создать диаграмму, в которой будут расположены все режиссеры и их суммарный рейтинг за фильмы. Если создать диаграмму таким образом, то на рисунке 1, мы увидим, что самый высоко оценённый режиссёр - это Альфред Хичкок, однако, стоит отфильтровать по годам, для более справедливой и верной оценки. Далее была добавлена фильтрация по годам, допустим, все годы от 2005. Результаты с добавленной фильтрацией показаны на рисунке 2. Гипотеза проверена и во многом, подтверждена.

Режиссер; А1Гге4 НИсИсоск

Ш Суммл йЦВкПк' 1Л филъим 112,10

Рисунок 1. Самый высоко оцененный режиссер когда-либо.

Режиссер: СЬгкгорИ*г Мо!ап

Ш С уиил оцСнСи: 14 фильиы й,;

Рисунок 2. Самый высоко оцененный режиссер 2005-2020.

Второй гипотезой было предположение, что фильмы в возрастной категории «А» будут оценены выше критиками, из-за большого качества создания фильма, так как есть направленность исключительно на взрослую аудиторию. Создав диаграмму, которая изображена на рисунке 8 видно, что гипотеза оказалась ошибочной, ведь самым высоко оцененным рейтингом в среднем, оказались фильмы с рейтингом «О», фильмы, которые предназначены для всех.

Рисунок 3. Средняя оценка по цензам.

Третьей гипотезой является предположение, что растёт спрос на длинные фильмы, так как всё больше фильмов огромной продолжительности имеют высокую оценку. Созданный чарт находится на Рисунке 4 и подтверждает гипотезу.

(Г? # ^ р ^ ^ / # ^ ..-р # ¿о & ^ М ^ ^ /■• # ^ $ #

ТГК'ИРТППГ # У ^ о1 о' с" о1, с-"' ^ ^ & ф* & У ^ '¿Р $ У ^ ^ ¿й ¿> л А

Рисунок 4. Рост одобрения длительных фильмов.

Последней гипотезой являлась, что самым популярным жанром является драма. Чарт находится на рисунке 5. На составленном графике видно, что драма

является самым высоко оцененным в среднем жанром. Даже если исключить первое место в данном графике, то все равно видно, что большинство самых популярных фильмов имеют категорию драма.

Жанр. АМпчШоп. Огзли, №аг

— М"СФМ1)ВДДОИ11Г|1 3,50

£ ■■/ У 4 ^ £ е У У ¿Г У .Л" ^ ,

Рисунок 5. Средняя оценка жанров.

В итоге, была проведена проверка гипотез и выбран лучший формат для создания фильма. Согласно проверке сказать, что:

1. Лучшим режиссёром является Кристофер Нолан, так как множество его фильмов высоко оценены широким кругом людей,

2. Фильмы с рейтингом «О» больше ценятся критиками, в среднем, что означает благосклонность зрителя на такого рода фильмы в будущем,

3. Растет средняя продолжительность фильмов и их одобрения,

4. Фильмы в жанре «Драма» являются наиболее высоко оцененной категорией.

СПИСОК ЛИТЕРАТУРЫ:

1. Аббакумов, В. Бизнес-анализ информации. Статистические методы: Учебник / В. Аббакумов, Т. Лезина. - М.: Экономика, 2009. - 374 с;

2. Кокер Ф. Понимание жизненно важных показателей вашего бизнеса -Ambient Light Publishing: 2014 - 300 с;

3. Луньков А.Д., Харламов А.В. Интеллектуальный анализ данных - Саратов: 2014 - 96 с;

4. Мёрфи Д. Технический анализ - Москва: Вильямс, 2017 - 496 с;

5. Основы бизнес-анализа. Учебное пособие / Под ред. Бариленко В.И. - М.: КноРус, 2019. - 56 с;

6. Назаров, Д.М. Интеллектуальные средства бизнес-аналитики - Москва, Кнорус 2022. - 243 с;

7. Рубаков С.В. Современные методы анализа данных - Москва: Наука. 2008. - 12 с;

8. Yandex DataLens - URL: https://datalens.yandex.com/;

9. Источник набора данных - URL: https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows/data

Borodin A.V.

Ural State Economic University (Ekaterinburg, Russia)

USING THE BI APPLICATION TO ANALYZE CINEMA MARKET

Abstract: this article describes the use of a BI application for analyzing the film market. BI systems (short for Business Intelligence) are a set of programs and useful tools that directly help in collecting and analyzing information. To achieve this goal, hypotheses were put forward that need to be proven or disproved. Next, to test the hypothesis, the Yandex DataLens product was used. The analysis was carried out using dashboards based on the added dataset from the Kaggle platform.

Keywords: BI applications, Yandex Datalens, dataset, dashboard, Kaggle.

i Надоели баннеры? Вы всегда можете отключить рекламу.