Научная статья на тему 'ИСПОЛЬЗОВАНИЕ АЛГОРИТМА RANDOM FOREST ДЛЯ ОБРАБОТКИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ'

ИСПОЛЬЗОВАНИЕ АЛГОРИТМА RANDOM FOREST ДЛЯ ОБРАБОТКИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
351
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
RANDOM FOREST / СЛУЧАЙНЫЙ ЛЕС / ДЕРЕВЬЯ КЛАССИФИКАЦИИ / BOOTSTRAP / ЗАДАЧИ КЛАССИФИКАЦИИ / ОБРАБОТКА РЕЗУЛЬТАТОВ АНКЕТИРОВАНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фомина Е.Е.

Развитие вычислительной техники и информационных технологий, повлекшее за собой совершенствование инструментария сбора данных в экономических и социальных исследованиях, приводит к увеличению объема анализируемых показателей. Поиск закономерностей в массиве информации, содержащей большое количество разнородных переменных, невозможен без применения современных математических методов. В частности исследователи социальных явлений часто сталкиваются с задачами кластеризации респондентов в зависимости от их от убеждений, предпочтений или социального поведения, а также задачами поиска наиболее информативных переменных, влияющих на тот или иной фактор. В настоящей статье рассматриваются возможности алгоритма Random Forest для решения сформулированных выше задач. Сущность данного алгоритма заключается в построении ансамбля деревьев, предназначенных для предсказания значений непрерывной или дискретной переменной по значениям набора независимых переменных. Его преимущество перед построением одного дерева решения заключается в увеличении точности прогноза. Кроме того, алгоритм позволяет рассчитать значимость влияния каждого предиктора на зависимую переменную, т.е. выделить наиболее информативные признаки и отсечь информационный шум. Алгоритм метода включает в себя три этапа: по процедуре bootstrap формируется совокупность из k подвыборок; по каждой выборке строится дерево классификации; построенный ансамбль деревьев используется для классификации и прогнозирования. Алгоритм Random Forest был применен для анализа результатов опроса преподавателей вузов на тему «Мониторинг научно-педагогических кадров». В частности решалась задача описания социально-демографических характеристик респондентов, которые считают свою научно-педагогическую деятельность не привлекательной, а также готовы поменять сферу своей профессиональной деятельности. Были выявлены наиболее значимые факторы, позволяющие охарактеризовать эту группу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING THE RANDOM FOREST ALGORITHM FOR SOCIO-ECONOMIC DATA PROCESSING

Computer and information technology development improved data collection tools used in sociological and social research, which increased the amount of analyzed data. It is impossible to search for patterns in an array of information where there is a large number of heterogeneous variables without applying modern mathematical methods. In particular, researchers of social phenomena often need to cluster the respondents depending on their beliefs, preferences, or social behavior, or find the most informative variables that affect different factors. This paper describes the capabilities of the random forest algorithm for solving the problems formulated above. Essentially this algorithm operates by constructing a multitude of decision trees to predict the continuous or discrete variables’ values from those of a set of independent variables. Random forests generally outperform decision trees because of increased forecast accuracy. Apart from this, the algorithm allows calculating how significant the influence of each predictor is on the dependent variable, which makes it possible to highlight the most informative features and cut off the information noise. This method’s algorithm includes three stages: bootstrap procedure, a set of k subsamples is formed; a classification tree is built for each sample; the constructed ensemble of trees is used for classification and forecasting. The random forest algorithm was applied to analyze the results of a survey of university teachers on the topic "Monitoring of scientific and pedagogical personnel." In particular, this paper suggests a solution for describing socio-demographic characteristics of people who consider their scientific and pedagogical activity unattractive and who also are ready to change their professional field. The paper summarizes the most significant factors that characterize this group.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ АЛГОРИТМА RANDOM FOREST ДЛЯ ОБРАБОТКИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ»

Научная статья

DOI: 10.15593/2224-9354/2022.1.12 УДК 33.012.2:004.421

Е.Е. Фомина

ИСПОЛЬЗОВАНИЕ АЛГОРИТМА RANDOM FOREST ДЛЯ ОБРАБОТКИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ДАННЫХ

Развитие вычислительной техники и информационных технологий, повлекшее за собой совершенствование инструментария сбора данных в экономических и социальных исследованиях, приводит к увеличению объема анализируемых показателей. Поиск закономерностей в массиве информации, содержащей большое количество разнородных переменных, невозможен без применения современных математических методов. В частности исследователи социальных явлений часто сталкиваются с задачами кластеризации респондентов в зависимости от их от убеждений, предпочтений или социального поведения, а также задачами поиска наиболее информативных переменных, влияющих на тот или иной фактор. В настоящей статье рассматриваются возможности алгоритма Random Forest для решения сформулированных выше задач. Сущность данного алгоритма заключается в построении ансамбля деревьев, предназначенных для предсказания значений непрерывной или дискретной переменной по значениям набора независимых переменных. Его преимущество перед построением одного дерева решения заключается в увеличении точности прогноза. Кроме того, алгоритм позволяет рассчитать значимость влияния каждого предиктора на зависимую переменную, т.е. выделить наиболее информативные признаки и отсечь информационный шум. Алгоритм метода включает в себя три этапа: по процедуре bootstrap формируется совокупность из k подвыборок; по каждой выборке строится дерево классификации; построенный ансамбль деревьев используется для классификации и прогнозирования. Алгоритм Random Forest был применен для анализа результатов опроса преподавателей вузов на тему «Мониторинг научно-педагогических кадров». В частности решалась задача описания социально-демографических характеристик респондентов, которые считают свою научно-педагогическую деятельность не привлекательной, а также готовы поменять сферу своей профессиональной деятельности. Были выявлены наиболее значимые факторы, позволяющие охарактеризовать эту группу.

Ключевые слова: Random Forest, случайный лес, деревья классификации, bootstrap, задачи классификации, обработка результатов анкетирования.

Введение. Решение задач кластеризации и классификации имеет большое значение в социально-экономических исследованиях. Кластеризация подразумевает формирование групп объектов, обладающих общими признаками или свойствами, а классификация - распределение новых объектов по тем или иным группам в зависимости от значений показателей, их описывающих. Так, например, в банковском деле важно разделить клиентов по категориям в зависимости от их кредитоспособности и своевременно выявлять клиентов, у которых могут быть проблемы с погашением кредитов [1]. В маркетинговых исследованиях зачастую требуется описать группы потребителей, которых может заинтересовать тот или иной продукт (услуга), выводимый на рынок. В социологических исследованиях может быть необходима кластеризация и

© Фомина Е.Е., 2022

Фомина Елена Евгеньевна - канд. техн. наук, доцент кафедры информатики и прикладной математики ФГБОУ ВО «Тверской государственный технический университет», е-mail: f-elena2008@yandex.ru.

классификация респондентов по группам в зависимости от убеждений, предпочтений, социального поведения или реакции на то или иное событие.

При решении описанных выше задач, исследователи, как правило, оперируют большими массивами данных, обработка которых невозможна без применения математических методов.

В настоящей статье рассматриваются возможности метода Random Forest (случайный лес) при решении задач классификации и выявления наиболее информативных признаков. В частности рассмотрены возможности метода при обработке базы данных с результатами анкетирования преподавателей высших учебных заведений на тему «Мониторинг научно-педагогических кадров» [2].

Random Forest представляет собой метод машинного обучения, заключающийся в построении модели, которая позволит предсказать значение некоторой зависимой переменной (как непрерывной, так и дискретной) по значениям набора независимых переменных. Алгоритм случайного леса приобрел большую популярность в настоящее время, так как он может использоваться для решения задач кластеризации, классификации и регрессии [3]. Метод основан на построении ансамбля деревьев решений, каждое из которых строится по выборке из исходной совокупности объектов, получаемой с помощью процедуры bootstrap. Алгоритм Random Forest подробно описан и обоснован американским математиком Лео Брейманом в работе [4].

Среди основных преимуществ метода, которые делают его достаточно востребованным в научных исследованиях, можно отметить следующие:

• высокая точность решения задач классификации (в случае дискретной зависимой переменной) и задач регрессии (в случае непрерывной зависимой переменной) [3];

• алгоритм способен обрабатывать большие массивы данных, сохраняя при этом высокую скорость обучения. Обучение завершается за конечное число итераций;

• не требуется предобработка данных, возможность обработки переменных, представленных в разных измерительных шкалах, а также возможность обработки массивов данных, содержащих пропуски и аномальные значения, что особенно важно при решении задач прикладного характера;

• небольшое число настраиваемых параметров метода;

• метод можно использовать для решения задачи определения наиболее информативных признаков из совокупности имеющихся.

Наряду с преимуществами можно отметить следующие недостатки метода:

• большое число элементов в ансамбле может затруднить расчет прогноза или определение класса с наибольшей частотой встречаемости, так как исследователю придется проанализировать все построенные деревья при классификации нового объекта. Однако при использовании компьютерных программ и автоматизации расчетов данный недостаток легко устраним;

• метод не дает представления о структуре зависимости между переменными;

• склонность алгоритма к переобучению. Несмотря на то, что Л. Брайман в своей статье [4] утверждает, что данному методу не присущ этот недостаток, ряд исследователей говорят об обратном [5];

• как и деревья классификации, алгоритм не способен к экстраполяции.

Тем не менее, все перечисленные недостатки алгоритма не умаляют его

возможностей и делают его популярным при обработке и анализе данных.

Описание алгоритма. В качестве исходных данных алгоритма Random Forest выступает выборка А, содержащая n объектов. Каждый объект описывается совокупностью из m признаков x1,x2,...,xm. Признаки могут быть представлены в различных измерительных шкалах. Один из признаков является зависимым, его значение необходимо предсказать по значениям остальных независимых признаков (предикторов).

Алгоритм Random Forest включает в себя несколько шагов.

Шаг 1. С использованием процедуры bootstrap (бутстрэпа), предложенной Б. Эфроном [6], формируется совокупность из к подвыборок А/, А2, ..., Ак, размер которых совпадает с размером исходной выборки А. Величина к является одним из параметров алгоритма Random Forest, определяемых пользователем. По умолчанию значение этого параметра в пакетах статистической обработки данных равно 100.

Каждая подвыборка генерируется по следующей схеме. Сначала случайным образом выбирается один из элементов выборки А и добавляется в подвыборку А.,i = 1,...,к. Затем этот элемент возвращается в исходное множество А и случайным образом выбирается следующий элемент (он может совпасть с предыдущим, т.е. производится случайный выбор с возвращением). Данная процедура случайного выбора повторяется n раз. Таким образом, некоторые элементы попадут в подвыборки несколько раз, а часть элементов останутся неотобранными.

Установлено, что при таком способе формирования выборок примерно 2/3 исходных объектов будут участвовать в анализе, а 1/3 часть элементов не будет выбрана ни разу [3]. Эти элементы в дальнейшем составят тестовую выборку (или Out-Of-Bag выборку), которая позволит проверить эффективность построенного случайного леса.

Шаг 2. По каждой выборке строится дерево классификации с использованием, как правило, алгоритма CART [7-10]. При этом из m исходных признаков для построения дерева случайным образом выбирается r признаков (1 < r < m). Таким образом, величина r является вторым параметром метода, определяемым исследователем.

В результате получается ансамбль, включающий к деревьев, или случайный лес.

Алгоритм CART позволяет строить бинарные деревья классификации по дискретным и непрерывным переменным. В основе метода лежит идея уменьшения неопределенности в узле. На каждом шаге построения дерева классификации решающее правило делит выборку на две части: в одной из них правило выполняется, а в другой нет. При этом перебираются все возможные варианты ветвления для каждого узла и выбирается та независимая переменная, при которой оценочная функция дает наилучший показатель [7-10]. В качестве оценочной функции используется индекс Джини [3, 11].

В качестве критериев остановки ветвления дерева используются следующие:

1) задание минимального числа для количества наблюдений в подвыбор-ках, соответствующих терминальным вершинам, т.е. вершинам, в которых деление прекращается;

2) задание минимальной доли для количества наблюдений в подвыборках, соответствующих терминальным вершинам;

3) установление верхнего порога для загрязненности вершины;

4) применение кросс-проверки, или сравнение количества ошибочно классифицированных наблюдений до и после расщепления вершины, и если сокращения ошибок не происходит, то вершина не расщепляется [3].

Построенное дерево не подвергается процедуре усечения.

Шаг 3. Агрегирование результатов и предсказание значений зависимой переменной для новых наблюдений.

В случае решения задачи классификации (когда зависимая переменная является дискретной) в качестве прогнозируемого класса берется наиболее часто встречающийся класс, т.е. анализируются все деревья и в каждое из них подставляются значения тех независимых переменных, описывающих объект, которые участвуют в классификационных правилах. В результате такого анализа объект будет k раз отнесен к тому или иному классу. Тот класс, который имеет наибольшую частоту встречаемости, будет приоритетным.

В случае решения задачи регрессии (когда зависимая переменная является непрерывной) прогнозируемое значение представляет собой среднее арифметическое, рассчитанное на основе прогнозов, полученных путем расчета по каждому дереву ансамбля.

Вернемся к вопросу определения оптимального числа деревьев в ансамбле. По умолчанию, как правило, строится ансамбль из 100 деревьев, однако их количество может быть уменьшено. Оптимальное число деревьев подбирается таким образом, чтобы минимизировать ошибку классификатора на тестовой выборке. В качестве тестовой выборки могут использоваться те объекты, которые не попали в обучающую выборку (как было указано выше, их примерно 1/3 часть от исходной выборки).

Одно из существенных преимуществ алгоритма Random Forest заключается в возможности оценки меры информативности каждой переменной. В ра-

боте [4] был предложен ряд мер для определения значимости признака. Они основаны на оценке влияния случайной перестановки значений этой переменной в Out-Of-Bag выборке на результат классификации и на оценке загрязненности вершины, обусловленной данной переменной [12, 13]. Схема алгоритма представлена на рис. 1.

Расчет прогноза / Определение класса

Рис. 1. Шаги алгоритма Random Forest

Применение алгоритма в социологической практике. Описание результатов. Рассмотрим пример применения алгоритма Random Forest для анализа результатов опроса и классификации респондентов по группам.

Проводился опрос среди преподавателей вузов с целью оценки личных достижений и результатов работы преподавателей, условий работы и привлекательности научной и педагогической деятельности.

Как отмечено в работе [14], данный мониторинг способствует обеспечению диагностики образовательного процесса в целом и его элементов в отдельности.

Одной из задач анкетирования являлся анализ проблемы оттока кадров из высшего образования. Необходимо было выделить и описать социально-демографические характеристики респондентов, которые считают свою научно-педагогическую деятельность не привлекательной, а также готовы сменить ее.

ШАГ 3

Агрегирование результатов

База данных включала в себя более 1000 записей. В качестве зависимой переменной выступал вопрос, в котором респонденты высказывали свое мнение относительно готовности уйти из профессии и сменить сферу деятельности.

Независимые переменные - социально-демографические характеристики: пол, возраст, наличие семьи и детей, наличие ученой степени, занимаемая должность, область наук и то, как респондент оценивает свои дальнейшие перспективы на данном месте работы.

Количество анализируемых признаков достаточно велико, что делает затруднительным применение таких методов, как логлинейный анализ [15, 16] и множественный анализ соответствий [17-19] в связи с ограничением количества анализируемых признаков в пакетах статистической обработки данных.

Для решения задачи построим случайный лес, который позволит классифицировать респондентов по группам.

В качестве инструмента исследования использовался пакет STATISTICA, в котором реализован метод Random Forest [20]. В качестве параметров метода были установлены следующие значения: количество предикторов - 4; количество деревьев - 100.

Дерево № 1 Дерево № 32

С

И

_g_ g _s_ :_е_

г—I Г-Ч r-S И [по] Но] П

И И У Ш ии и

И И ИПИ И

:: л , [, , U , , Гп} „п И _ И ИИГл L

ш о □ Q1 Ш Q1 ^ u

Q J Q t П [J „ L] " г—n — "

^rp^ r-TT^ pi1! rip^ Ш ,-d

r - Ш И

Ш Ldj LoJ

Дерево № 100

_

Q Q

I

Q ж Ш И ль Q

Ii Q n_n .л пп пп ffiQ J _nJ La Q ЙЙЙ Г-l Eo_ Пп Мп

ЙШ ШС

Рис. 2. Деревья случайного леса

На рис. 2 для примера представлены деревья под номерами 1, 32 и 100. Как можно видеть, деревья имеют различную структуру, разное количество

терминальных вершин и разные переменные, используемые для формирования решающих правил.

Для построения случайного леса было использовано 66,4 % объектов выборки, а 33,6 % попало в Out-Of-Bag выборку. Эти объекты были использованы для проверки эффективности случайного леса.

На первом этапе были рассчитаны ошибки классификации для обучающей и тестовой выборки (таблица). Для сравнения по исходным данным было построено одно дерево классификации на основе алгоритма CART. В таблице также представлены его показатели качества. Как можно видеть, случайный лес показывает лучшие результаты по сравнению с одним деревом.

Ошибки классификации

Выборка Random Forest Дерево классификации

Ошибка классификации Стандартное отклонение Ошибка классификации Стандартное отклонение

Обучающая 0,301060 0,009850 0,3402066 0,008820

Тестовая 0,344164 0,016481 0,388152 0,025471

Процент ошибки невысок, поэтому построенный случайный лес может использоваться для решения задачи классификации.

На следующем этапе были выявлены переменные, оказывающие наиболее значимое влияние на зависимую (рис. 3).

1,2 г---■---.---.---

Должность Возраст Ученая Перепек- Область Дети Пол степень тивы наук

Рис. 3. Значимость предикторов

Доминантными факторами, которые позволяют разделить респондентов на группы и провести классификацию новых, являются занимаемая должность, возраст, наличие ученой степени, перспективы на данном месте работы и область наук, в которой работает респондент.

Для преподавателей, которые не дали ответ на вопрос о готовности уйти из профессии и сменить сферу деятельности (около 10 % от исходного количества), были рассчитаны наиболее вероятные классы.

Далее были определены характеристики той группы преподавателей, которые считают свою работу не привлекательной и готовы поменять сферу профессиональной деятельности. Для описания группы были выбраны только наиболее значимые характеристики.

Должность

30%

55%

Руководитель подразделения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Профессор, доцент

^ 0//° и о/ подразделения ■ 11/0

1 %

Старший преподаватель, преподаватель

■ Ассистент а

Ученая степень

1 Без ученой степени

1 Кандидат наук

Доктор наук

б

Перспективы

| Произойдет улучшение

1 Ничего не изменится

Произойдет ухудшение

Область наук

■Технические

■Естественные, медицинские, с/х

Общественные, гуманитарные

д

Рис. 4. Графическое представление результатов анализа данных

Процентное соотношение респондентов группы по каждой категории представлено на рис. 4. К данной группе относятся в основном сотрудники, занимающие должность старшего преподавателя или преподавателя (55 %) (рис. 4, а). Возраст сотрудников в большинстве случаев до 40 лет (88 %) (рис. 4, б), без ученой степени и звания (78 % от общего количества) (рис. 4, в). Они не видят перспективы в данной сфере деятельности (56 % от общего количества опрошенных респондентов) (рис. 4, г). Сфера научно-педагогической деятельности - естественные науки, медицинские или сельскохозяйственные науки (51 % от общего количества) (рис. 4, д).

в

г

Выводы. В настоящей работе рассмотрена проблема решения задач кластеризации и классификации объектов при анализе данных в ходе проведения социально-экономического исследования. Поскольку при решении прикладных задач исследователь имеет дело с массивами переменных, представленными в разных измерительных шкалах, а также с данными, содержащими пропуски или аномальные значения, возникает задача выбора эффективного инструмента обработки информации, который позволит структурировать ее и выявить основные закономерности.

Продемонстрированы возможности метода Random Forest при решении задач классификации, кластеризации объектов и выявления наиболее информативных признаков. Установлено, что случайный лес наиболее эффективен в сравнении с построением одного дерева решения, так как он позволяет получить более низкий процент неверно классифицированных объектов.

В частности метод был применен для анализа базы данных с результатами анкетирования преподавателей высших учебных заведений на тему «Мониторинг научно-педагогических кадров». Проанализирована проблема оттока кадров из высшего образования, а именно выявлены наиболее значимые социально-демографические характеристики респондентов, которые считают свою научно-педагогическую деятельность не привлекательной, а также готовы сменить ее. Установлено, что к этой категории относятся преподаватели в возрасте до 40 лет, не имеющие ученой степени и звания, которые считают свою работу не перспективной.

Список литературы

1. Шварцкопф Н.В. Совершенствование использования технологии интеллектуального анализа данных, как способ снижения кредитного риска // Russian economic bulletin. - 2018. - Т. 1, № 1. - С. 10-18.

2. Исследования ВШЭ // Единый архив экономических и социологических данных [Электронный ресурс]. - URL: http://sophist.hse.ru/db/ oprosy.shtml?ts=21&en=0 (дата обращения: 01.12.2020).

3. Чистяков С.П. Случайные леса: обзор // Труды Карельского научного центра РАН. - 2013. - № 1. - С. 117-136.

4. Breiman L. Random Forest // Machine Learning. - 2001. - Vol. 45, no. 1. -P. 5-32.

5. Random Forest // Случайные леса [Электронный ресурс]. - URL: https://www.youtube.com/watch?v=QV6hE-MY4CQ (дата обращения: 01.10.2020).

6. Bradley Efron. Bootstrap Methods: Another Look at the Jackknife // Annals of Statistics. - 1979. - Vol. 7, no. 1. - P. 1-26.

7. Бова А. Деревья решений как техника добычи данных // Социология: теория, методы, маркетинг. - 2002. - № 1. - С. 128-136.

8. Деревья классификации [Электронный ресурс] / Лаборатория статистических исследований Кубанского государственного университета. - URL: http://www.statlab.kubsu.ru/sites/project_bank/trees.pdf (дата обращения: 17.09.2018).

9. Деревья классификации. Основные идеи: электронный учебник по статистике. - URL: http://statsoft.ru/home/textbook/modules/stclatre.html (дата обращения: 17.09.2018).

10. Фомина Е.Е. Возможности метода деревьев классификации при обработке социологической информации // Гуманитарный вестник. - 2018. - № 11 (73). - С. 5.

11. Duda R.O., Hart P.E., Stork D.G. Pattern Classification. - NY: John Wiley Sons, 2001. - 639 p.

12. Breiman L. Consistency for a simple model of random forests // Technical Report 670, Statistics Department. - UC Berkeley, 2004. - P. 1-10.

13. Genuer R., Poggi J.-M., Tuleau C. Random Forests: Some methodological insights // Research Report 6729. - INRIA Saclay-Ile-de-France, 2008. - P. 1-35.

14. Малкова Т.В., Баранов А.Ю. К вопросу о мониторинге деятельности научно-педагогических работников // Теория и практика научных исследований: психология, педагогика, экономика и управление. - 2020. - № 1(9). -URL: https://cyberleninka.ru/article/n/k-voprosu-o-monitoringe-deyatelnosti-nauchno-pedagogicheskih-rabotnikov (дата обращения: 07.01.2021).

15. Толстова Ю.Н., Рыжова А.В. Анализ таблиц сопряженности: использование отношения преобладаний и логлинейных моделей // Социология: методология, методы, математические модели. - 2003. - № 16. - С. 150-164.

16. Фомина Е.Е. Возможности логлинейного анализа при обработке результатов анкетирования // Вестник Пермского национального исследовательского политехнического университета. Социально-экономические науки. -2018. - № 3. - С. 197-211.

17. Фомина Е.Е. Возможности метода множественного анализа соответствий в социологических исследованиях // Russian Economic Bulletin. - 2020. -Т. 3, № 1. - С. 259-267.

18. Шафир М.А. Анализ соответствий: представление метода // Социология: методология, методы, математическое моделирование. - 2009. - № 28. - С. 29-44.

19. Franco G. Multiple Correspondence Analysis: One Only or Several Techniques? // Quality & Quantity. - 2016. - Vol. 50, no. 3. - P. 1299-1315.

20. Боровиков В.П. Statistica. Искусство анализа данных на компьютере: для профессионалов. - 2-е изд. - СПб.: Питер, 2003. - 688 с.

References

1. Shvartskopf N.V. Sovershenstvovanie ispol'zovaniia tekhnologii intellektu-al'nogo analiza dannykh kak sposob snizheniia kreditnogo riska [Improving the use of data mining technology as a way of reducing credit risk]. Russian Economic Bulletin,, 2018, vol. 1, no. 1, pp. 10-18.

2. Issledovaniia VShE [HSE Research]. Edinyi arkhiv ekonomicheskikh i sotsiologicheskikh dannykh, available at: http://sophist.hse.ru/db/oprosy.shtml?ts= 21&en=0 (accessed 01.12.2020).

3. Chistiakov S.P. Sluchainye lesa: obzor [Random forests: An overview]. Trudy Karel'skogo nauchnogo tsentra RAN, 2013, no. 1, pp. 117-136.

4. Breiman L. Random forest. Machine Learning, 2001, vol. 45, no. 1, pp. 5-32.

5. Random forest. Available at: https://www.youtube.com/watch?v=QV6hE-MY4CQ (accessed 01.10.2020).

6. Efron B. Bootstrap methods: Another look at the jackknife. Annals of Statistics, 1979, vol. 7, no. 1, pp. 1-26.

7. Bova A. Derev'ia reshenii kak tekhnika dobychi dannykh [Decision trees as a data mining technique]. Sotsiologiia: teoriia, metody, marketing, 2002, no. 1, pp. 128-136.

8. Derev'ia klassifikatsii [Classification trees]. Laboratoriia statisticheskikh issledovanii Kubanskogo gosudarstvennogo universiteta, available at: http://www.statlab.kubsu.ru/sites/project_bank/trees.pdf (accessed 17.09.2018).

9. Derev'ia klassifikatsii. Osnovnye idei [Classification trees. Main ideas]. Elektronnyi uchebnik po statistike, available at: http://statsoft.ru/home/textbook/ modules/stclatre.html (accessed 17.09.2018).

10. Fomina E.E. Vozmozhnosti metoda derev'ev klassifikatsii pri obrabotke sotsiologicheskoi informatsii [The potential of the method of classification trees in the sociological information]. Gumanitarnyi vestnik, 2018, no. 11 (73), pp. 5.

11. Duda R.O., Hart P.E., Stork D.G. Pattern classification. NY, John Wiley Sons, 2001, 639 p.

12. Breiman L. Consistency for a simple model of random forests. Technical Report 670, Statistics Department, UC Berkeley, 2004, pp. 1-10.

13. Genuer R., Poggi J.-M., Tuleau C. Random forests: Some methodological insights. Research Report 6729, INRIA Saclay-Ile-de-France, 2008, pp. 1-35.

14. Malkova T.V., Baranov A.Iu. K voprosu o monitoringe deiatel'nosti nauchno-pedagogicheskikh rabotnikov [On the monitoring of the academic staff activities]. Teoriia i praktika nauchnykh issledovanii: psikhologiia, pedagogika, ekonomika i upravlenie, 2020, no. 1 (9), available at: https://cyberleninka.ru/ article/n/k-voprosu-o-monitoringe-deyatelnosti-nauchno-pedagogicheskih-rabot-nikov (accessed 07.01.2021).

15. Tolstova Iu.N., Ryzhova A.V. Analiz tablits sopriazhennosti: ispol'zovanie otnosheniia preobladanii i loglineinykh modelei [Cross-tabulation analysis: Using dominance ratios and log-linear models]. Sotsiologiia: Metodologiia, metody, matematicheskie modeli, 2003, no. 16, pp. 150 -164.

16. Fomina E.E. Vozmozhnosti loglineinogo analiza pri obrabotke rezul'tatov anketirovaniia [The possibility of log-linear analysis for survey results processing]. PNRPU Sociology and Economics Bulletin, 2018, no. 3, pp. 197-211.

17. Fomina E.E. Vozmozhnosti metoda mnozhestvennogo analiza sootvetstvii v sotsiologicheskikh issledovaniiakh [Possibilities of the method of multiple correspondence analysis in sociological studies]. Russian Economic Bulletin, 2020, vol. 3, no. 1, pp. 259267.

18. Shafir M.A. Analiz sootvetstvii: predstavlenie metoda [Correspondance analysis: Method presentation]. Sotsiologiia: metodologiia, metody, matematicheskoe modelirovanie, 2009, no. 28, pp. 29-44.

19. Franco G. Multiple correspondence analysis: One only or several techniques? Quality & Quantity, 2016, vol. 50, no. 3, pp. 1299-1315.

20. Borovikov V.P. Statistika. The art of computer data analysis: For professionals. 2nd ed. St. Petersburg, Peter, 2003, 688 p.

Оригинальность 79 %

Поступила 10.11.2021 Одобрена 30.11.2021 Принята к публикации 25.02.2022

E.E. Fomina

USING THE RANDOM FOREST ALGORITHM FOR SOCIO-ECONOMIC DATA PROCESSING

Computer and information technology development improved data collection tools used in sociological and social research, which increased the amount of analyzed data. It is impossible to search for patterns in an array of information where there is a large number of heterogeneous variables without applying modern mathematical methods. In particular, researchers of social phenomena often need to cluster the respondents depending on their beliefs, preferences, or social behavior, or find the most informative variables that affect different factors. This paper describes the capabilities of the random forest algorithm for solving the problems formulated above. Essentially this algorithm operates by constructing a multitude of decision trees to predict the continuous or discrete variables' values from those of a set of independent variables. Random forests generally outperform decision trees because of increased forecast accuracy. Apart from this, the algorithm allows calculating how significant the influence of each predictor is on the dependent variable, which makes it possible to highlight the most informative features and cut off the information noise. This method's algorithm includes three stages: bootstrap procedure, a set of k sub-samples is formed; a classification tree is built for each sample; the constructed ensemble of trees is used for classification and forecasting. The random forest algorithm was applied to analyze the results of a survey of university teachers on the topic "Monitoring of scientific and pedagogical personnel." In particular, this paper suggests a solution for describing socio-demographic characteristics of people who consider their scientific and pedagogical activity unattractive and who also are ready to change their professional field. The paper summarizes the most significant factors that characterize this group.

Keywords: random forest, decision trees, bootstrap, classification problems, analysis of observations.

Elena E. Fomina - Candidate of Technical Sciences, Associate Professor, Department of Informatics and Applied Mathematics, Tver State Technical University, e-mail: f-elena2008@yandex.ru.

Received 10.11.2021 Accepted 30.11.2021 Published 25.02.2022

Финансирование. Исследование не имело спонсорской поддержки.

Конфликт интересов. Автор заявляет об отсутствии конфликта интересов.

Вклад. 100 %.

Просьба ссылаться на эту статью в русскоязычных источниках следующим образом:

Фомина, Е.Е. Использование агоритма Random Forest для обработки социально-экономических данных / Е.Е. Фомина // Вестник ПНИПУ. Социально-экономические науки. - 2022. - № 1. - С. 142-153.

Please cite this article in English as:

Fomina E.E. Using the random forest algorithm for socio-economic data processing. PNRPU Sociology and Economics Bulletin, 2022, no. 1, pp. 142-153 (In Russ).

i Надоели баннеры? Вы всегда можете отключить рекламу.