Научная статья на тему 'РАЗВИТИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ РЕШЕНИЙ ЗАДАЧ ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ: МОДЕЛИРОВАНИЕ СТОИМОСТИ МЕДИАКОМПАНИИ'

РАЗВИТИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ РЕШЕНИЙ ЗАДАЧ ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ: МОДЕЛИРОВАНИЕ СТОИМОСТИ МЕДИАКОМПАНИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
30
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / моделирование стоимости компании / регрессия / случайный лес / градиентный бустинг / дерево решений / machine learning / company value modeling / regression / random forest / gradient boosting / decision tree

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Родионов Д. Г., Половян А. В., Пашинина П. А., Конников Е. А.

Важность формирования комплекса методов и алгоритмов моделирования стоимости компаний становится все более критичной в связи с нестабильностью информационной среды. Особое значение приобретает использование методов машинного обучения и информационных технологий при моделировании стоимости акций компаний. Целью данного исследования является разработка моделей для моделирования стоимости акций медиакомпаний, дифференцированных в соответствии с инструментальными подходами машинного обучения к моделированию, включая множественную линейную регрессию, дерево решений, случайный лес и градиентный бустинг. Модели подвергаются критическому анализу для определения их специфики применения каждого алгоритма моделирования стоимости медиакомпании. В статье также проводится рассмотрение ограничений и возможных проблем, связанных с применением этих методов. Главным результатом является вывод о том, что машинное обучение и информационные технологии могут значительно повысить эффективность экономических исследований при правильном и аккуратном подходе к выбору необходимого и наиболее подходящего метода моделирования экономической связи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Родионов Д. Г., Половян А. В., Пашинина П. А., Конников Е. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPING THE METHODS OF MACHINE LEARNING AND INFORMATION TECHNOLOGIES FOR SOLUTIONS OF ECONOMIC RESEARCH ISSUES: MODELING THE COST OF A MEDIA COMPANY

The importance of constructing a set of methods for modeling the value of companies is becoming critical because of the instability of the information environment. The use of machine learning methods and information technology in modeling the value of stocks of companies is of great importance. The purpose of this study is to develop models for modeling the stock prices of media companies, differentiated according to machine learning tool approaches to modeling, including multiple linear regression, decision tree, random forest, and gradient boosting. The models are critically analyzed to determine their specific application to each media company value modeling algorithm. The paper also considers possible problems associated with the application of these methods. The main result is the conclusion that machine learning and information technology can significantly improve the efficiency of economic research if the right and careful approach is taken to select the necessary and most appropriate method.

Текст научной работы на тему «РАЗВИТИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ РЕШЕНИЙ ЗАДАЧ ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ: МОДЕЛИРОВАНИЕ СТОИМОСТИ МЕДИАКОМПАНИИ»

Экономико-математические и эконометрические методы

УДК 519.676 JEL C52

РАЗВИТИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ ДЛЯ РЕШЕНИЙ ЗАДАЧ ЭКОНОМИЧЕСКИХ ИССЛЕДОВАНИЙ: МОДЕЛИРОВАНИЕ СТОИМОСТИ МЕДИАКОМПАНИИ

Родионов Д. Г. д-р экон. наук, профессор, директор Высшей инженерно-экономической школы, ORCID 0000-0002-1254-0464, e-mail: [email protected], Санкт-Петербургский политехнический университет Петра Великого (СПбПУ), г. Санкт-Петербург, Российская Федерация.

Половян А. В. д-р экон. наук, доцент, директор, ORCID 0000-0001-8570-6202, e-mail: [email protected], ГБУ «Институт экономических исследований», г. Донецк, ДНР, Российская Федерация.

Пашинина П. А. специалист Высшей инженерно-экономической школы, ORCID 0009-0008-6528-3896, e-mail: [email protected], Санкт-Петербургский политехнический университет Петра Великого (СПбПУ), г. Санкт-Петербург, Российская Федерация.

Конников Е. А. канд. экон. наук, доцент Высшей инженерно-экономической школы, ORCID 0000-0002-4685-8569, e-mail: [email protected], Санкт-Петербургский политехнический университет Петра Великого (СПбПУ), г. Санкт-Петербург, Российская Федерация.

Аннотация. Важность формирования комплекса методов и алгоритмов моделирования стоимости компаний становится все более критичной в связи с нестабильностью информационной среды. Особое значение приобретает использование методов машинного обучения и информационных технологий при моделировании стоимости акций компаний. Целью данного исследования является разработка моделей для моделирования стоимости акций медиакомпаний, дифференцированных в соответствии с инструментальными подходами машинного обучения к моделированию, включая множественную линейную регрессию, дерево решений, случайный лес и градиентный бустинг. Модели подвергаются критиче-

скому анализу для определения их специфики применения каждого алгоритма моделирования стоимости медиакомпании. В статье также проводится рассмотрение ограничений и возможных проблем, связанных с применением этих методов. Главным результатом является вывод о том, что машинное обучение и информационные технологии могут значительно повысить эффективность экономических исследований при правильном и аккуратном подходе к выбору необходимого и наиболее подходящего метода моделирования экономической связи

Ключевые слова: машинное обучение, моделирование стоимости компании, регрессия, случайный лес, градиентный бустинг, дерево решений.

DEVELOPING THE METHODS OF MACHINE LEARNING AND INFORMATION TECHNOLOGIES FOR SOLUTIONS OF ECONOMIC RESEARCH ISSUES: MODELING THE COST OF A MEDIA COMPANY

© Д.Г. Родионов, А.В. Половян, П.А. Пашинина, Е.А. Конников, 2023

Rodionov D.G. Doctor of Economic Sciences., Professor, Director of the Higher School of Engineering and Economics, ORCID 0000-0002-1254-0464, e-mail: [email protected], Peter the Great St. Petersburg Polytechnic University (SPbPU), St. Petersburg, Russia Federation.

Polovyan A.V. Doctor of Economic Sciences, Associate Professor, Director, ORCID 0000-0001-8570-6202, e-mail: [email protected], SFI "Economic Research Institute", Donetsk, DPR, Russian Federation.

Pashinina P.A. specialist of the Higher School of Engineering and Economics, ORCID 0009-0008-6528-3896, e-mail: [email protected], Peter the Great St. Petersburg Polytechnic University (SPbPU), St. Petersburg, Russian Federation.

Konnikov E.A. Candidate of Economic Sciences, associate professor at Higher School of Engineering and Economics, ORCID 0000-0002-4685-8569, e-mail: [email protected], Peter the Great St. Petersburg Polytechnic University (SPbPU), St. Petersburg, Russian Federation.

Abstract. The importance of constructing a set of methods for modeling the value of companies is becoming critical because of the instability of the information environment. The use of machine learning methods and information technology in modeling the value of stocks of companies is of great importance. The purpose of this study is to develop models for modeling the stock prices of media companies, differentiated according to machine learning tool approaches to modeling, including multiple linear regression, decision tree, random forest, and gradient boosting. The models are critically analyzed to determine their specific application to each media company value modeling algorithm. The paper also considers possible problems associated with the application of these methods. The main result is the conclusion that machine learning and information technology can significantly improve the efficiency of economic research if the right and careful approach is taken to select the necessary and most appropriate method.

Keywords: machine learning, company value modeling, regression, random forest, gradient boosting, decision tree.

► Введение. Медиакомпании, а именно - кинокомпании, являющиеся наиболее значимыми представителями

медиасферы с сильным брендом и функционирующие на финансовом рынке, в той или иной мере подвергаются влиянию всевозможных параметров информационной среды финансового рынка - совокупности непрекращающихся информационных потоков, поступающих из всевозможных социальных каналов в сфере финансовых рынков, возникающих в результате деятельности финансовых институтов и взаимодействия агентов информационной среду друг с другом и с каналами распространения.

Решения инвесторов в рамках действий на финансовом рынке главным образом представлены продажей или покупкой активов, и наиболее удобным параметром для оценки влияния новостей на решения инвесторов является результирующая цена актива или её прирост. Так, параметры, влияющие на цены акций компаний, можно представить следующим образом: объективные внешние факторы (инфляция, биржевой индекс и т.д.), объективные внутренние (финансовые показатели в отчётности), компоненты информационной среды (тональные и содержательные). Влияние данных параметров на цену акции компании и последующее её прогнозирование требует исполь-

зования различных инструментов, разнообразие которых в настоящее время приобрело большие масштабы. На сегодняшний день развитие математических моделей с использованием методов машинного обучения и информационных технологий становится неотъемлемой частью применения научно-технического прогресса, который применяется для решения многочисленных задач экономических исследований. Использование методов машинного обучения и программных технологий для решения экономических исследований стало очень актуальным. Машинное обучение и информационные технологии служат в качестве полезного инструмента для анализа и моделирования экономических исследований, с помощью которых можно более эффективно принимать решения. Особое значение приобретает использование методов машинного обучения и информационных технологий при моделировании стоимости акций компаний. В связи с резким повышением популярности алгоритмов глубокого обучения и искусственного интеллекта, большое количество финансовых учреждений и компаний начали использовать такие алгоритмы для решения многих рисков. Высокоточные алгоритмы машинного обучения позволяют более точно прогнозировать цены акций, а также оценивать и прогнозировать тренды динамики финансовых рынков.

► Обзор литературы. Потенциальные и уже существующие различия в результатах исследований могут быть вызваны широким разнообразием инструментов моделирования будущих значений цен на акции. Современные научные методы, а именно методы машинного обучения, фундаментально сегментированы на различные подвиды и обеспечивают возможность анализа и распознавания различных типов закономерностей и зависимостей. Построение моделей оценки стои-

мости медиакомпании на основе использования машинного обучения и инструментов аналитики информационных технологий требует рассмотрение ряда методов машинного обучения и информационных технологий для решений задач экономических исследований.

Машинное обучение — это область исследований, рассматривающая использование вычислительных алгоритмов для преобразования эмпирических данных в пригодные для использования модели, а также метод обучения модели на основе имеющейся информации с целью прогнозирования. Создание систем, которые обучаются и развиваются на основе данных, находится в центре инновационных разработок в сфере умных технологий и искусственного интеллекта. Данные зачастую используются для простого обучения машинного обучения, но некоторые технологии помимо этого требуют анализ сложных данных и их преобразование в правильную систему. Методы машинного обучения и информационные технологии позволяют оценить стоимость акций более точно, так как позволяют определить ценность переменных, связанных с ценой, а также различных показателей, в том числе цен на финансовые активы, сценарии обеспечения, управление активами, управление рисками и деловые практики.

Для решения задачи регрессии в данном исследовании будут использованы следующие методы:

1. Линейная регрессия.

2. Дерево решений.

3. Ансамбль деревьев.

3.1. Градиентный бустинг.

3.2. Случайный лес.

Рассмотрим эти методы машинного

обучения более подробно.

Линейная регрессия - традиционный и часто используемый из-за своей простоты метод прогнозирования цен на акции. Исходя из идеи многофакторности, цены акций формируются под влиянием

различных параметров макро- и микросреды.

Механика реализации линейной регрессии предполагает нахождение взаимосвязи между переменными, где одним из способов расчета параметров модели является метод обыкновенных наименьших квадратов (МНК), основная идея которого заключается в минимизации суммы квадратов ошибок. Суть МНК заключается в следующем: п

i=l

где Yi - фактическое значение зависимой переменной,

F(x) - предсказанное значение зависимой переменной.

Несмотря на то, что между переменными могут наблюдаться нелинейные связи, именно метод линейной регрессии является наиболее используемым из-за простоты и логичности интерпретации результатов, а нелинейные связи могут быть сведены к линейным с помощью алгебраических преобразований. При этом каждый коэффициент регрессии при независимой переменной в уравнении регрессии может указать направление и степень влияния исследуемой переменной на результирующую.

Математически уравнение множественной регрессии можно представить в следующем виде:

Y = b1*XI + b2*X2 + —+ Ьп*Хп + а, где Y - зависимая переменная, а - свободный член, b -коэффициент регрессии. Дерево решений - это метод машинного обучения, используемый в тех случаях, когда набор зависимых и независимых переменных является (в основном) нелинейным, результатом которого является моделирование дерева, предсказывающего значения целевого параме-

тра с использованием правил принятия решений, сформированных в процессе обучения. Когда значение результирующей переменной является непрерывным, решается задача регрессии, т. е. проводится анализ зависимостей между независимыми и зависимыми переменными с целью предсказания будущего значения результирующего параметра [1].

Структура дерева решений представлена узлами, где корневой узел является начальным узлом дерева решений, через который проходят входные данные, и который делится на узлы решений, содержащие правила проверки, и листья (терминальный узел), определяющие решения для каждого попавшего в него примера (результирующее значение целевого параметра или его интервал). Правила проверки задаются значениями независимых переменных (атрибутов), на основе значений (их интервалов) которых результирующие значения параметров распределяются между узлами, а затем между листьями -формируется модель для обучающей выборки [2].

Основным преимуществом дерева решений является то, что его реализация довольно проста, а результаты легко интерпретируются благодаря "древовидной" форме. Кроме того, дерево решений работает с данными, в которых есть пробелы, заполняя их наиболее вероятным значением. Из недостатков чаще всего выделяют чувствительность к шуму, то есть выбросы могут существенно повлиять на качество модели. Таким образом, деревья решений являются достаточно эффективной моделью машинного обучения, обладающей достаточной точностью и интуитивно понятной интерпретацией.

Многие классические алгоритмы ансамблевого машинного обучения, такие как случайный лес, бэггинг и градиентный бустинг, основаны на деревьях решений. Рассмотрим ансамблевые методы машинного обучения, которые опираются на

ансамбль деревьев как наиболее эффективную модель, в связи с тем, что отдельные деревья решений часто показывают высокую дисперсию и склонны к переоценке. Таким образом, ансамбль деревьев — это метод машинного обучения для контролируемого обучения, который состоит из набора индивидуально обученных деревьев решений, определяемых как слабые или базовые обученные деревья решений, которые по отдельности могут работать плохо.

Основными двумя типами методов ансамблевого обучения являются параллельные и последовательные ансамблевые методы:

1. Метод параллельного ансамбля подразумевает параллельную генерацию обучающих моделей: модели генерируются независимо друг от друга, результирующие значения которых усредняются, и дисперсия модели уменьшается. Бутстреп-агрегация (Бэггинг), один из самых популярных методов ансамблевого моделирования, представляет собой алгоритм, предназначенный для улучшения согласованности и точности алгоритмов машинного обучения (МЦ); метод генерации моделей на основе различных случайных выборок из исходного набора данных, так называемых бутстреп-образцов

[3].

Случайный лес - один из популярных алгоритмов бэггинга - представляет собой композицию (ансамбль) из нескольких деревьев решений (используется CART-дерево (бинарное дерево решений)) [3]. Концепция случайного леса была разработана Хо и расширена Брей-маном до формы, используемой в исследованиях в настоящее время [4-6].

Основанный на принципах бэггинг, алгоритм случайного леса агрегирует ответы набора деревьев решений, сформированных независимо друг от друга (на разных обучающих выборках), вычисляя среднее значение для них [7]. Другими словами, каждое случайное дерево уникально, что обеспечивает снижение дисперсии (повышение эффективности модели)

и более эффективную обработку выбросов (не каждое подмножество будет включать выбросы) и недостающих данных, а также позволяет работать с большими наборами данных с нелинейными зависимостями. Еще одно преимущество этого алгоритма - устойчивость к незначительным изменениям в исходных данных [8] Важным преимуществом является возможность работы с нелинейными зависимостями, поскольку при анализе цен на акции выбор факторов, значимость которых проверяется линейной регрессионной моделью, состоит из логических выводов, а использование только линейной зависимости снижает точность моделирования, и алгоритм случайного леса решает эту проблему.

2. Методы последовательного ансамбля (алгоритм бустинга) предполагает алгоритм, противоположный описанному выше методу: генерация обучающих выборок происходит последовательно с учетом результатов предыдущей выборки. В этом случае рост эффективности модели и уменьшение ее ошибки происходит за счет пометок на некорректных результатах, на основе которых генерируется новая модель (с исправленными плохими результатами предыдущей модели).

Одним из наиболее популярных и практически применяемых алгоритмов машинного обучения, использующих метод последовательного ансамбля и выбранных для использования в данном исследовании, является градиентный бус-тинг, который использует алгоритм градиентного спуска (это итерационный алгоритм оптимизации первого порядка для нахождения локального минимума дифференцируемой функции) на деревьях с целью уменьшения потери качества решения задачи на каждом уровне. Основываясь на принципе последовательности, этот алгоритм разрабатывает новые модели на ошибках предыдущих. Исходя из идеи модернизации модели как уменьшения функции выбросов, градиентный спуск происходит до тех пор, пока существует

закономерность в выбросах (тренд в выбросах).

Таким образом, выбор методов регрессионного анализа для целей прогнозирования цен акций и их наличие в

существующей литературе определяет необходимость разработки сводной таблицы, отражающей основные преимущества и недостатки каждого алгоритма (табл. 1).

Алгоритм Преимущества Недостатки

Линейная регрессия - Легко интерпретировать - Часто демонстрирует более точные показатели при анализе цен на акции с большим набором данных - Возможность экстраполяции: цены и доходность акций могут выходить за пределы обучающей выборки - Невозможность учесть "аномалии", возникающие, например, в результате финансового кризиса или ситуаций, связанных со спецификой компании (отрасли), или каких-либо действий компании (презентация нового продукта, если он не имеет образца), ее слияний и поглощений (Rudzeyt et а1., 2020). - Как следствие вышеуказанного недостатка: при изменении внешней среды (или внутренней) возникает необходимость разработки новой модели. - Цены на акции изменяются нелинейно - линейная регрессия может неточно описывать взаимосвязи. - Для определения значимых предикторов возникает проблема коллинеарности, что может привести к ложной значимости или незначимости предикторов.

Дерево решений - Эффективно работает с нелинейными зависимостями. - Простота понимания и применения: простая и понятная интерпретация результатов. - Быстрая реализация алгоритма. - Работа с непрерывными данными (цена акций является непрерывной). - Возможность работы с пробелами в данных (пустые значения атрибутов). - Дерево решений может быть склонно к серьезной перестройке. - Готовая модель дерева решений может быть сложной и содержать ненужную структуру. - Вся модель может кардинально измениться при небольшом изменении обучающей выборки. - Модель может только интерполировать, но не экстраполировать. Небольшой шум в данных может существенно повлиять на качество дерева и точность его результатов.

Случайный лес - Эффективно работает с нелинейными зависимостями. - Устойчив к выбросам, что может быть особенно важно в случае цен на акции. - Усредненный прогноз, сформированный из набора случайных деревьев на основе реальных прошлых данных, наиболее точно предсказывает прогнозное значение непрерывных данных. - Низкая вероятность значительных сдвигов (формирование сдвигов сглаживается значениями других деревьев). - Возможность работы с большими наборами данных. - Часто требует большого количества времени на реализацию: более точные результаты достигаются при анализе больших данных, что влечет за собой увеличение времени моделирования. - Вероятность получения большой ошибки из-за характера изменения цен на акции. - Адекватная интерпретация практически невозможна. - Существование "ложного дерева", смещающего прогнозное значение, даже если оно незначительно. - Дерево строится случайным образом: "опыт" других выборок не используется. - Модель может только интерполировать, но не экстраполировать. - Возможность чрезмерной подгонки (закономерности, характерные для наблюдений в тестовой выборке, не могут быть обнаружены в обучающей выборке).

Градиентный бустинг - Способность распознавать сложные тенденции благодаря постоянному совершенствованию моделей. - Последовательный анализ "слабых" моделей гарантирует, что точность каждой новой модели постоянно улучшается за счет использования "опыта" предыдущей модели. - Не обязательно иметь большое количество деревьев для получения точных результатов. - Чувствительность к шуму и вероятность предсказания шума, а не реальной тенденции. - Склонность к переоценке: "незнакомые" значения и их комбинации могут повлиять на качество модели. - Она не является предпочтительной в случаях, когда нет прямого способа исследовать, как переменные взаимодействуют и вносят вклад в окончательное предсказание.

Таблица 1 - Сравнительный анализ методов машинного обучения для моделирования стоимости компании в контексте их преимуществ и недостатков

► Данные и методы. Анализ результатов комплекса исследований демонстрирует различные способы моделирования цен акций с наиболее качественными параметрами, а также потенциал применения различных алгоритмов машинного обучения при прогнозировании цен акций. Несмотря на популярность традиционных методов, таких как простая и множественная линейная регрессия, более сложные методы, такие как случайный лес, градиентный бустинг, также привлекают внимание современных исследователей. Рассмотренные модели позволяют трейдерам, инвесторам и т.д. наиболее точно прогнозировать тенденции фондового рынка и, соответственно, цены компаний, работающих в медиаиндуст-рии.

Однозначно утверждать, почему тот или иной метод моделирования оказался лучше, невозможно. Более того, например, Сяожу Чжан считает, что результаты набора моделей дополняют друг друга и наиболее точный прогноз возможен при сочетании выводов и результатов всех моделей [9]. На сегодняшний день нет единого общепринятого представления о том, какие параметры и какие алгоритмы рекомендуется использовать для изучения взаимосвязей и прогнозирования параметров фондового рынка, что обусловлено экономической природой движения этих параметров. Поэтому сравнение различных методов моделирования, основанных на искусственном интеллекте, формирование вывода об их использовании с теми или иными компаниями и отраслями и независимыми параметрами является необходимой мерой для выявления наиболее эффективного алгоритма. Другими словами, выбор различных параметров (внешних и внутренних, фундаментальных и технических, информационных и т.д.), специфика компаний, работающих в той или иной отрасли, требует индивидуаль-

ного подхода. Однако необходимость формирования выводов о причинах различного поведения моделей применительно к разным отраслям, параметрам, внешней среде, этапу экономического развития, информационному пространству и т.д. является важной проблемой и рассматривается автором данного исследования.

В данной работе в качестве объектов выбраны The Walt Disney Company, Warner Brothers Pictures и Paramount Pictures, как наиболее значимые ме-диакомпании с сильным брендом. Важно отметить, что собранный набор данных будет представлять собой панельные данные. Панельные данные содержат статистическую информацию об одном и том же наборе объектов за несколько последовательных периодов времени.

В качестве периода анализа выбран временной диапазон с 02.2019 по 06.2022. Выбор данного временного диапазона обусловлен высоким уровнем неопределенности фондового рынка в этот период (пандемия коронавируса, прекращение сотрудничества некоторых стран и т. д.), а также притоком неквалифицированных инвесторов, которые существенно влияют на текущие тенденции на фондовом рынке.

Для целей данного исследования под полярностью понимается степень присутствия в новостях Google негативных мнений о состоянии финансового рынка конкретно о выбранных компаниях. Субъективность относится к степени личного мнения в новости или сообщении.

Также важно отметить способ сбора значений этих параметров. Анализ состояния информационной среды, составляющих ее сентимента позволяет создать универсальный автоматизированный алгоритм его расчета, реализованный с использованием языка программирования Python 3. TextBlob - это python-библио-тека для обработки естественного языка

(NLP). TextBlob активно использует Natural Language ToolKit (NLTK) для решения своих задач. TextBlob определяет полярность и субъективность предложения. Полярность лежит в диапазоне [-1,1], причем -1 определяет негативное настроение, а 1 - позитивное. Субъективность лежит в диапазоне [0,1].

Параметрами, характеризующими содержательную составляющую информационной среды, являются характеристики интереса (оценка количества запросов на название компании в общем количестве запросов за определенный период) и интереса к новостям о компании (через количество запросов на новости). Данные были собраны с помощью Google Trends, общедоступного веб-приложения корпорации Google, основанного на поиске Google, которое показывает, как часто

ищут определенный термин по отношению к общему количеству поисковых запросов.

► Результаты исследования. Используя инструментарий фреймворка КЖМЕ, который позволяет осуществлять полный цикл анализа данных, автор реализовал построение регрессионных моделей на основе алгоритмов выбранных методов машинного обучения - линейной регрессии, дерева решений, случайного леса и градиентного бустинга. Важно отметить, что тестовая выборка составила 30% данных, а обучающая - 70%. В качестве показателей качества были выбраны следующие параметры: коэффициент детерминации, среднеквадратичная ошибка и средняя абсолютная ошибка в процентах.

В табл. 2 приведены параметры качества разработанных моделей.

Таблица 2 - Значения параметров качества моделей, полученных на тестовой выборке

Параметр качества Линейная регрессия Дерево решений Градиентный бустинг Случайный лес

Я2 0.813 0.877 0.911 0.937

Среднеквадратическая ошибка 21.761 17.640 15.028 12.631

Средняя абсолютная ошибка в процентах 0.433 0.285 0.266 0.269

Так, качественные показатели моделей демонстрируют достаточно высокое значение коэффициента детерминации (более 80%), при этом наибольшее объяснение дисперсии зависимой переменной дисперсией независимой переменной обеспечивает модель на основе алгоритма градиентного бустинга (91,1%), наименьшее - модель на основе алгоритма линейной регрессии (81,3%). Средняя абсолютная процентная ошибка также показывает, что лучшей моделью из предложенных, т.е. моделью с минимальной ошибкой аппроксимации, является модель, использующая при своем построе-

нии метод градиентного бустинга, худшей моделью также является модель на основе алгоритма линейной регрессии. При этом несмотря на то, что MAPE принимает достаточно большое значение, в рамках данного исследования уровень MAPE в моделях с использованием деревьев решений находится на приемлемом уровне, в то время как использование алгоритма линейной регрессии демонстрирует значительную ошибку (43,3%). Однако корень средней квадратической ошибки минимален при использовании алгоритма случайного леса, а максимален при использовании линейной регрессии.

В данном случае это обеспечивается особенностями алгоритма случайного леса, прогнозируемое значение которого усредняется из множества прогнозируемых значений, полученных из множества случайных деревьев.

На рис. 1 представлен график сравнения фактических и прогнозных значений, полученных с помощью выбранных алгоритмов, цен на акции компаний, работающих в сфере медиа, в основном - кинокомпаний.

Цена акции, $ .........Линейная регрессия .........Деррево решений

Градиентный бустинг.........Случайный лес

Рисунок 1 - График сравнения фактических и прогнозируемых значений из тестового

образца

График на рис.1 демонстрирует мысль о том, что созданные модели способны адекватно прогнозировать цены акций не только предложенных компаний, но и других компаний, работающих в ме-диасфере, поскольку диапазон цен акций обучающей выборки включал очень разные цены акций. Это свидетельствует об универсальности алгоритма и возможности его использования для компаний, работающих в медиасфере (в основном кинокомпаний) с другими ценами акций.

Более точный анализ графика демонстрирует достаточно сильные отклонения прогнозных значений, полученных с помощью ансамблевых алгоритмов (в

точках 9,15). Предположительно, это можно объяснить тем, что исходные данные представляют компании с разными категориями цен на акции, что могло повлиять на точность прогнозных значений. Другими словами, существовала комбинация независимых параметров, на которых алгоритм не смог обучиться и выдал ложный результат. В градиентном бустинге это подтверждается таким недостатком, как чувствительность к шуму и возможность нарушения прогнозирования реального тренда, в то время как в алгоритме случайного леса это может быть обеспечено неравномерным наличием наблюдений с компаниями с относительно высокими и низкими ценами акций.

Важно также отметить, что значения, полученные с помощью алгоритма линейной регрессии, довольно плохо описывают прогнозируемые значения, о чем свидетельствует наличие большого количества структурных разрывов (фактическое значение уменьшилось, прогнозируемое увеличилось, и наоборот) (1, 5, 6, 9, 15-17, 20, 22-27, 29, 30, 34-38, 40). Наименьшее количество структурных разрывов наблюдается в модели на основе алгоритма градиентного бустинга, что говорит о том, что эта модель лучше всего предсказывает направление изменения цены акций и наиболее адекватна для использования инвестором при принятии решений. Алгоритмы "дерево решений" и "случайный лес" демонстрируют одинаковое количество структурных выбросов - 16.

Таким образом, показатели качества и график сравнения фактических и прогнозных значений по тестовой выборке четырех моделей позволяют сделать вывод, что модель, основанная на алгоритме градиентного бустинга, является наиболее точной для прогнозирования цен акций компаний, работающих в медиас-фере. Это может быть связано со способностью градиентного бустинга распознавать сложные паттерны благодаря постоянному совершенствованию модели. Наименее адекватными являются модели, созданные алгоритмами линейной регрессии и дерева решений. Это связано с высокой вероятностью нелинейных связей между выбранными зависимыми и независимыми параметрами, необходимостью создания новой модели для новой среды (в случае линейной регрессии), чувствительностью к шуму и к изменениям в обучающей выборке (в случае случайного леса).

► Выводы и дальнейшая дискуссия. В результате разработки четырех моделей с использованием алгоритмов

Линейная регрессия, Дерево решений, Случайный лес, Градиентный бустинг было установлено, что наиболее эффективно связь между ценой акций медиаком-пании и объективными внешними и внутренними факторами и параметрами внешней среды (инфляция, фондовый индекс S&P500, выручка, отношение долга к капиталу, полярность, субъективность, количество интернет-поисков о компании и интерес к новостям о компании) описывается с помощью модели на основе алгоритма градиентного бустинга.

В исследовании "Stock Price Prediction Using Machine Learning Techniques" при анализе влияния финансовых показателей 22 компаний на цены их акций, градиентный бустинг также показал наилучшие результаты, коэффициент детерминации составил 75,8% [10]. В данном исследовании также рассматривались месячные значения цен компаний, но использовался другой способ расчета финансовых показателей (рассматривалось среднее значение квартальных параметров), что могло снизить коэффициент детерминации и, следовательно, метод, предложенный автором данного исследования, является более точным. В работе "Random Forest, Gradient Boosted Machines и Deep Neural Network for Stock Price Forecasting: A Comparative Analysis on South Korean Companies" градиентный бустинг цен акций также оказался более точным по сравнению с методом случайного леса (85,3% против 85,0%), что совпадает с результатами данного исследования [11]. Аналогичные выводы приводятся в исследовании Pengyue Wang, Xuesheng Li и др., где авторы также отмечают, что градиентный биннинг демонстрирует явные преимущества перед другими методами машинного обучения для прогнозирования значения Шанхайского индекса [12]. Локеш Шривастав и Равин-

дер Кумар, сравнивая алгоритмы градиентного бустинга и случайного леса, также пришли к выводу, что ансамблевый алгоритм последовательного улучшения модели дает более точные результаты с коэффициентом 99% и среднеквадратичной ошибкой 0,1. Такая точность исследования, скорее всего, была достигнута за счет большого количества наблюдений (более 80000) [13].

Однако в исследовании "Can Ensemble Machine Learning Methods Predict Stock Returns for Indian Banks Using Technical Indicators?" результаты показывают преимущество алгоритма случайного леса над градиентным бустин-гом в прогнозировании доходности акций [14]. Такой результат может быть обусловлен следующей причиной: в исследовании в качестве зависимой переменной использовалась доходность акций компаний, работающих в банковском секторе, что сглаживает значения зависимой переменной. Алгоритм random forest в данном случае работает с набором данных, находящихся в узком диапазоне, т.е. алгоритм не обрабатывает абсолютные значения финансовых параметров компаний с широким диапазоном значений. В данном исследовании рассматриваются абсолютные, а не относительные параметры, что усложняет работу случайного леса, поскольку такие значения, как цена акций Walt Disney, значительно превышают цену акций Paramount Pictures, а поскольку компания с большими значениями цены акций является лишь одной среди выбранных, в некоторых случайных деревьях сравнительно большие значения цены акций могут быть восприняты алгоритмом как выбросы.

Важно отметить, что полученные результаты демонстрируют вывод о том, что алгоритмы, использующие деревья решений, дают более точные результаты в отличие от алгоритма линейной ре-

грессии. Этот вывод согласуется с результатами других исследований, рассмотренных ранее. Например, в исследовании "Research on Predicting Amazon Stock Price Based on Linear Regression and Decision Tree Algorithms" использование алгоритма дерева решений для регрессионного анализа цен акций Amazon показало высокое качество созданной модели (коэффициент детерминации 99,83%), в то время как алгоритм линейной регрессии показал более низкую, но объективно высокую точность (98,07%) [15]. В данном случае это объясняется тем, что деревья решений работают с нелинейными зависимостями, а цены на акции в реальном мире изменяются нелинейно.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Еще одно исследование, в котором алгоритм дерева решений показал более высокое качество (по сравнению со случайным лесом), - это статья "Forecasting the direction of stock market index movement using three data mining techniques: the case of Tehran Stock Exchange", где коэффициент детерминации модели дерева решений составил 80,08%, а случайного леса - 78,8% [16]. Однако при добавлении фундаментальных параметров в качестве независимых переменных алгоритм случайного леса демонстрирует более точные результаты. Это может быть обеспечено чувствительностью к выбросам дерева решений, возникающим из-за нестабильности иранской экономики, которая добавляется в модель через внешние объективные факторы (цены на нефть, цены на золото). В целом, авторы статьи отмечают, что полученные модели непригодны для прогнозирования, и это можно объяснить неспособностью моделей предсказать аномальные отклонения, возникшие из-за особых политических и экономических обстоятельств.

Однако в исследовании "Stock Price Prediction of Turkish Banks Using Machine Learning Methods" дерево решений показывает наибольшую среднюю ошибку

при прогнозировании цен акций турецких банков, что совпадает с результатами данной работы [17]. Скорее всего, это связано с неадекватным построением дерева из-за сложных зависимостей, чувствительности к выбросам и склонности к переобучению.

В исследовании "Prediction on the Price of Technology Stock and COVID-19 Based on Multiple Linear Regression" использование множественной линейной регрессии для анализа цен на акции Amazon, Apple и Google показало адекватный уровень детерминации 62-78%, но также продемонстрировало довольно большие среднеквадратичные ошибки [18]. Эти результаты согласуются с результатами данного исследования, утверждая, что использование линейной регрессии может привести к менее точным результатам по сравнению с другими алгоритмами. Однако эти выводы можно объяснить спецификой выбранного периода, когда появились новые внешние факторы и аномальные изменения, которые могли быть учтены только новой моделью, и может потребоваться неоднократная оптимизация модели для повышения ее точности.

Однако в исследовании "Multiple Linear Regression for Technical Outlook in Telecom Stock Price" авторы, используя множественную линейную регрессию, получают высокий показатель качества созданной модели: коэффициент детерминации составляет 99,8% [19]. Такой результат может быть обусловлен спецификой выбранных независимых переменных, которыми являются цена золота, цена нефти и индекс Доу-Джонса, которые отражают динамику рынка (макроэкономические факторы) и, скорее всего, связаны линейной зависимостью с AIS Co Ltd. Добавление объективных внешних и внутренних параметров с высокой вероятностью изменит результаты. Более того, в индекс Dow Jones входит американская

транснациональная корпорация, работающая в телекоммуникационном секторе, Cisco, а это значит, что динамика индекса Dow Jones действительно может быть линейно связана с ценой акций телекоммуникационной компании.

Некоторые исследования также показывают, что алгоритм линейной регрессии может обеспечить более точные показатели, чем, например, алгоритм случайного леса. Например, в исследовании "Stock Price Prediction of "Google" based on Machine Learning" авторы пришли к выводу, что цена, предсказанная с помощью линейной регрессии, была очень близка к фактической цене и являлась хорошей моделью прогнозирования цены, в то время как модель, основанная на алгоритме случайного леса, показала 65%-ный коэффициент детерминации [20]. Предположительно, это объясняется тем, что выбранные независимые переменные действительно неэффективно описывают динамику цены акций Google, а значимость этих параметров в модели линейной регрессии объясняется мультиколлинеарно-стью. В работе Чжена Суна и Шангмей Чжао модель на основе алгоритма случайного леса показала свой недостаток -склонность к переподгонке, так как на обучающей выборке модель показала наилучшие результаты, а на тестовой выборке точность оказалась хуже, чем у линейной регрессии [21].

Основной вывод заключается в возможности использования методов машинного обучения в моделировании стоимости медиакомпаний при предварительном анализе, поставленных цели и допустимых для неё недостатков для выбора наиболее эффективного метода машинного обучения. Поэтому использование методов машинного обучения и информационных технологий для решения проблем моделирования стоимости акций ме-

диакомпаний и оптимизации прибыли является важной перспективой на ближайшие годы.

Сравнение полученных результатов с результатами других исследований показало, что во многих работах при использовании алгоритма градиентного бус-тинга результаты прогнозирования достигают наивысшей точности, уступая лишь алгоритму XGBoosting. В то же время результаты использования случайного леса способны конкурировать с результатами алгоритма градиентного бустинга. Однако они уступают в случае анализа компаний с существенно различающимися ценами акций, а также в случае, когда в обучающей выборке доля компаний с высокими ценами минимальна, а в тестовой выборке такие компании представлены в большей степени. Иными словами, результаты обзора литературы и данного исследования позволили сделать вывод, что использование алгоритма случайного леса дает более точные результаты при анализе, когда входные данные (как зависимые, так и независимые переменные) расположены примерно в одном диапазоне, поскольку, например, высокие цены акций в случайных деревьях могут восприниматься алгоритмом как выбросы.

► Литература

1. Song Y. Y., Lu Y. Decision tree methods: applications for classification and prediction // Shanghai Archives of Psychiatry. 2015. № 2 (27). P. 130-135. DOI: 10.11919/j .issn.1002-0829. 215044

2. Rokach L., Maimon O. Decision Trees // The Data Mining and Knowledge Discovery Handbook. New York: Springer-Verlag, 2005. P.165-192. DOI: 10.1007/0-387-25465-X_9

3. Breiman L. Bagging Predictors. Technical Report No. 421. Berkeley: Department of Statistics University of California, 1994. 19 p.

4. Breiman L. Random forest // Machine Learning. 2001. № 1 (45). P. 5-32.

В то же время важно отметить предположение о том, что алгоритм линейной регрессии демонстрирует наибольшую точность и наименьшие ошибки, когда в качестве независимых переменных в модели используются макроэкономические параметры. Также при использовании алгоритма линейной регрессии важно учитывать мультиколлинеарность, поскольку при выборе наилучшего алгоритма линейная регрессия может показать наилучшие результаты, так как при наличии мультиколлинеарности незначимые параметры становятся значимыми, что может привести к недостоверным результатам, когда исследователь пытается определить, насколько эффективно можно использовать каждую независимую переменную для прогнозирования.

И последним выводом является предположение о том, что особенности объективной внешней среды компании также могут повлиять на выбор алгоритма, по которому будет строиться модель. Нестабильная экономика может привести к отказу от алгоритма дерева решений из-за его чувствительности к выбросам в пользу случайного леса.

► References

l.Song Y. Y., Lu Y. (2015). Decision tree methods: applications for classification and prediction. Shanghai Archives of Psychiatry, 2 (27), 130-135. https://doi.org/10.11919/jissn.1002-0829.215044

2. Rokach L., Maimon O. (2005). Decision Trees. The Data Mining and Knowledge Discovery Handbook, 165-192. https://doi.org/ 10.1007/0-387-25465-X_9

3. Breiman L. (1994). Bagging Predictors. Technical Report No. 421. Berkeley: Department of Statistics University of California.

4. Breiman L. (2001). Random forest. Machine Learning, 1 (45), 5-32.

5. Heins A. J., Allison S. L. Some factors affecting stock price variability // The Journal of Business. 1966. № 1 (39). P. 19-23.

6. Tin Kam Ho The random subspace method for constructing decision forests // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1998. № 8 (20). P. 832-844. DOI: 10.1109/34.709601

7. Credit Card Fraud Detection Using Ada-Boost and Majority Voting / Randhawa K. [et al.] // IEEE Access. 2018. Vol. 6. P. 14277-14284. DOI: 10.1109/ACCESS.2018.2806420

8. Tratkowski G. Identification of nonlinear determinants of stock indices derived by Random Forest algorithm // International Journal of Management and Economics. 2020. № 3 (56). P. 209217. DOI: 10.2478/ijme-2020-0017

9. Zhang X. Price Prediction for Starbucks Corporation Based on Random Forest, Linear Regression, and Decision Tree // BCP Business & Management. 2023. Vol. 38. P. 862867. DOI: 10.54691/bcpbm.v38i.3788

10. Syamala P., Kumar Suresh N. Stock Price Prediction Using Deep Learning Techniques // Article in Journal of Theoretical and Applied Information Technology. 2022. № 1 (15). P. 170183.

11. Random forest, gradient boosted machines and deep neural network for stock price forecasting: a comparative analysis on South Korean companies / Mohammadi ivatlood B. [et al.] // International Journal of Ad Hoc and Ubiquitous Computing. 2020. № 1 (33). P. 62. DOI: 10.1504/IJAHUC.2020.104715

12. Han F., Wang Y. Predicting Stock Price Movement after Disclosure of Corporate Annual Reports: A Case Study of 2021 China CSI 300 Stocks. DOI: 10.48550/arXiv.2206.12528

13. Gururaj V., ShriyaV R. Stock Market Prediction using Linear Regression and Support Vector Machines // International Journal of Applied Engineering Research. 2019. Vol. 14. P. 1931-1934.

14. Can Ensemble Machine Learning Methods Predict Stock Returns for Indian Banks Using Technical Indicators? / Mohapatra S. [et al.] // Journal of Risk and Financial Management. 2022. № 8 (15). P. 350. DOI:10.3390/jrfm15080350

5. Heins A. J., Allison S. L. (1966). Some factors affecting stock price variability. The Journal of Business, 1 (39), 19-23.

6. Tin Kam Ho (1998). The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8 (20), 832-844. https://doi.org/10.1109/34.709601

7. Randhawa K. [et al.]. (2018). Credit Card Fraud Detection Using AdaBoost and Majority Voting. IEEE Access, 6, 14277-14284. https://doi.org/10.1109/ACCESS.2018.2806420

8. Tratkowski G. (2020). Identification of nonlinear determinants of stock indices derived by Random Forest algorithm. International Journal of Management and Economics, 3 (56), 209217. https://doi.org/10.2478/ijme-2020-0017

9. Zhang X. (2023). Price Prediction for Starbucks Corporation Based on Random Forest, Linear Regression, and Decision Tree. BCP Business & Management, 38, 862-867. https://doi.org/10.54691/bcpbm.v38i.3788

10. Syamala P., Kumar Suresh N. (2022). Stock Price Prediction Using Deep Learning Techniques. Article in Journal of Theoretical and Applied Information Technology, 1 (15), 170183.

11. Mohammadi ivatlood B. [et al.]. (2020). Random forest, gradient boosted machines and deep neural network for stock price forecasting: a comparative analysis on South Korean companies. International Journal of Ad Hoc and Ubiquitous Computing, 1 (33), 62. https://doi.org/10.1504/IJAHUC.2020.104715

12. Han F., Wang Y. (2022). Predicting Stock Price Movement after Disclosure of Corporate Annual Reports: A Case Study of 2021 China CSI 300 Stocks. https://doi.org/10.48550/arXiv.2206.12528

13. Gururaj V., ShriyaV R. (2019). Stock Market Prediction using Linear Regression and Support Vector Machines. International Journal of Applied Engineering Research, 14, 19311934.

14. Mohapatra S. [et al.]. (2022). Can Ensemble Machine Learning Methods Predict Stock Returns for Indian Banks Using Technical Indicators?. Journal of Risk and Financial Management, 8 (15), 350. https://doi.org/10.3390/ jrfm15080350

15. He G. Research on Predicting Amazon Stock Price Based on Linear Regression and Decision Tree Algorithms // BCP Business & Management. 2022. Vol. 32. P. 391-397. D01:10.54691/bcpbm.v32i.2958

16. Imandoust S., Bolandraftar M. Forecasting the direction of stock market index movement using three data mining techniques: the case of Tehran Stock Exchange // International Journal of Engineering Research and Applications. 2014. № 6 (4). P. 106-117.

17. Egüz B., Çorbaci F. E., Kaya T. Stock Price Prediction of Turkish Banks Using Machine Learning Methods 2022. P. 222-229.

18. Cen X. Prediction on the Price of Technology Stock and COVID-19 Based on Multiple Linear Regression // BCP Business & Management. 2022. No. 23. P. 910-915. DOI: 10.54691/bcpbm.v23i.1472

19. Boonkrong P., Arjrith N., Sangsawad S. Multiple Linear Regression for Technical Outlook in Telecom Stock Price. 2020. P. 1178-1185. D0I:10.14458/RSU.res.2020.145

20. Peng L. Stock Price Prediction of "Google" based on Machine Learning // BCP Business & Management. 2022. No. 34. P. 912-918. DOI: 10.54691/bcpbm.v34i.3111

21. Sun Z., Zhao S. Machine Learning in Stock Price Forecast // E3S Web Conf. 2020. (214). P. 02050. DOI: 10.1051/e3sconf/ 202021402050

15. He G. (2022). Research on Predicting Amazon Stock Price Based on Linear Regression and Decision Tree Algorithms. BCP Business & Management, 32, 391-397. https://doi.org/ 10.54691/bcpbm.v32i.2958

16. Imandoust S., Bolandraftar M. (2014). Forecasting the direction of stock market index movement using three data mining techniques: the case of Tehran Stock Exchange. International Journal of Engineering Research and Applications, 6 (4), 106-117.

17. Egüz B., Çorbaci F. E., Kaya T. (2022). Stock Price Prediction of Turkish Banks Using Machine Learning Methods. Intelligent and Fuzzy Techniques for Emerging Conditions and Digital Transformation. INFUS 2021. Lecture Notes in Networks and Systems, 308, 222229. https://doi.org/10.1007/978-3-030-85577-2_26

18. Cen X. (2022). Prediction on the Price of Technology Stock and COVID-19 Based on Multiple Linear Regression. BCP Business & Management, 23, 910-915. https://doi.org/ 10.54691/bcpbm.v23i.1472

19. Boonkrong P., Arjrith N., Sangsawad S. (2020). Multiple Linear Regression for Technical Outlook in Telecom Stock Price. http://doi.org/10.14458/RSU.res.2020.145.

20. Peng L. (2022). Stock Price Prediction of "Google" based on Machine Learning. BCP Business & Management, 34, 912-918. http://doi.org/10.54691/bcpbm.v34i.3111

21. Sun Z., Zhao S. (2020). Machine Learning in Stock Price Forecast. E3S Web Conf., 214, 02050. http://doi.org/10.1051/ e3sconf/202021402050

Статья поступила в редакцию 21.06.23

i Надоели баннеры? Вы всегда можете отключить рекламу.