Научная статья на тему 'МЕТОДЫ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ПРИ СОКРАЩЕНИИ РАЗМЕРНОСТИ НАБОРА ДАННЫХ'

МЕТОДЫ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ПРИ СОКРАЩЕНИИ РАЗМЕРНОСТИ НАБОРА ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
613
73
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАШИННОЕ ОБУЧЕНИЕ / РАЗМЕРНОСТЬ НАБОРА ДАННЫХ / АНСАМБЛЕВЫЕ АЛГОРИТМЫ / ТОЧНОСТЬ МОДЕЛИ / ОПТИМИЗАЦИЯ ГИПЕРПАРАМЕТРОВ / ОЦЕНКА ПАРЗЕНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воробьев А. В.

Ограниченная доступность сбора информации выступает фактором, препятствующим применению высокоэффективных алгоритмов машинного обучения. Разработка методов повышения точностей моделей при снижении периодов наблюдений, может стать эффективным инструментом прогнозирования в малоисследованных областях. В статье рассмотрена взаимосвязь между размерностью набора данных и прогностическими возможностями моделей машинного обучения, определено воздействие количества наблюдений на точность и устойчивость моделей, построенных на ансамблевых алгоритмах и алгоритмах регуляризованной регрессии. В ходе экспериментов рассмотрено изменение средневзвешенной абсолютной ошибки при снижении размерности набора, выявлены алгоритмы наиболее устойчивые к данному фактору. Выявлен нижний предел использования ансамблевых алгоритмов в целях обнаружения закономерностей и построении устойчивой модели, в задачах регрессии, в случаях нелинейной зависимости целевой переменной с предикторами и при условии отсутствия высокого воздействия аномалий и шумов в данных. Рассмотрено влияние автоматизированной Байесовской оптимизации гиперпараметров на точность моделей при сокращении набора данных. Определены модели, предварительная оптимизация гиперпараметров для которых, посредством древесно-структурированной оценки Парзена, наиболее предпочтительна.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Воробьев А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS TO IMPROVE THE ACCURACY OF MACHINE LEARNING ALGORITHMS WHILE REDUCING THE DIMENSIONALITY OF THE DATA SET

The limited availability of information collection is a factor hindering the application of high-performance machine learning algorithms. The development of methods to improve the accuracy of models while reducing the observation periods, can be an effective tool for prediction in understudied areas. The paper considers the relationship between the dimensionality of the data set and the predictive capabilities of machine learning models, and determines the impact of the number of observations on the accuracy and robustness of models built on ensemble algorithms and regularized regression algorithms. In the course of the experiments, the change in the weighted average absolute error with decreasing the dimensionality of the set was considered, and the algorithms most resistant to this factor were identified. The lower limit of use of ensemble algorithms for detection of regularities and construction of stable model, in regression tasks, in cases of non-linear dependence of target variable with predictors and under condition of absence of high impact of anomalies and noises in data was revealed. The effect of automated Bayesian hyperparameter optimization on model accuracy when the data set is reduced is considered. The models for which pre-optimization of hyperparameters, by means of wood-structured Parzen estimation, is the most preferable are determined.

Текст научной работы на тему «МЕТОДЫ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ПРИ СОКРАЩЕНИИ РАЗМЕРНОСТИ НАБОРА ДАННЫХ»

Методы повышения точности алгоритмов машинного обучения при сокращении размерности набора данных

А.В. Воробьев

Аннотация — Ограниченная доступность сбора информации выступает фактором, препятствующим применению высокоэффективных алгоритмов машинного обучения. Разработка методов повышения точностей моделей при снижении периодов наблюдений, может стать эффективным инструментом прогнозирования в малоисследованных областях. В статье рассмотрена взаимосвязь между размерностью набора данных и прогностическими возможностями моделей машинного обучения, определено воздействие количества наблюдений на точность и устойчивость моделей, построенных на ансамблевых алгоритмах и алгоритмах регуляризованной регрессии. В ходе экспериментов рассмотрено изменение средневзвешенной абсолютной ошибки при снижении размерности набора, выявлены алгоритмы наиболее устойчивые к данному фактору. Выявлен нижний предел использования ансамблевых алгоритмов в целях обнаружения закономерностей и построении устойчивой модели, в задачах регрессии, в случаях нелинейной зависимости целевой переменной с предикторами и при условии отсутствия высокого воздействия аномалий и шумов в данных. Рассмотрено влияние автоматизированной Байесовской оптимизации гиперпараметров на точность моделей при сокращении набора данных. Определены модели, предварительная оптимизация гиперпараметров для которых, посредством древесно-структурированной оценки Парзена, наиболее предпочтительна.

Ключевые слова— машинное обучение, размерность набора данных, ансамблевые алгоритмы, точность модели, оптимизация гиперпараметров, оценка Парзена.

I. Введение

При анализе данных с применением алгоритмов машинного обучения существенное внимание уделяется проблемам недостаточности данных, под которой понимается, что для переменной в наблюдении не сохраняются значения данных (пропуск полей в наборе) [1], а также дисбаланс классов [2] возникающий при значительном превосходстве одного класса над другим по численности. Широкое обсуждение обозначенных вопросов определило разработку методов как изолированно решающих данные задачи, так и комбинированных методов декомпозиции информации на основе нечеткости, которые рассматривают эти две

Статья получена 18 июня 2021.

А.В.Воробьев, Курский государственный университет (e-mail: [email protected])

проблемы как задачу оценки недостающих данных [3]. При этом вопрос снижения точности работы моделей, определенный незначительным размером набора данных, не имеет массовой методологической проработки, ввиду отсутствия общих случаев, устанавливающих размер набора, необходимый для достижения целевой точности.

Определение влияния размерности набора данных на точность моделей более выражено в областях с ограниченной доступностью к предикторам. Например, Феликс Фабер (Институт физической химии и Национальный центр вычислительного проектирования и открытия новых материалов, химический факультет Базельского университета) обнаружил, что точность ML-модели для прогнозирования энергии образования соединений эльпасолита показала систематическое улучшение с увеличением размера обучающего набора. [4] Джонатан Шмидт (Университет Мартина Лютера в Галле-Виттенберге), в работе «Прогнозирование термодинамической устойчивости твердых тел, сочетающее теорию функционала плотности и машинное обучение», определил, что ошибка прогнозирования модели линейно уменьшалась с размером обучающего набора, удвоение обучающего набора уменьшало погрешность примерно на 20%. [5] Ин Чжан и Чэнь Лин (Научно-исследовательский институт Toyota в Северной Америке) продемонстрировали, что меньшая доступность обучающих данных не только затрудняет обнаружение закономерностей, но и ухудшает способность делать прогнозы в неисследованной области. [6]

II. ОЦЕНКА ТОЧНОСТИ МОДЕЛЕЙ ПРИ СОКРАЩЕНИИ НАБОРА ДАННЫХ

В целях проверки работы алгоритмов под воздействием сокращения набора данных были выбраны популярные датасеты конкурсной платформы по исследованию данных Kaggle Machine Learning Competition Platform (Google) различной размерности: от 1 000 наблюдений с 25 атрибутами до 1 048 576 наблюдений с 28 атрибутами.

Учитывая уникальность датасетов, критериями оценки изменений воздействия снижения размерности набора стали: относительная средняя доля изменения средневзвешенной абсолютной ошибки (WMAPE) к минимальным показателям, достигнутом на конкретном

тестовом наборе, а также динамика коэффициента детерминации.

Прогностические модели построены в языковой среде Python на наиболее распространённых и популярных алгоритмам машинного обучения (таблица 1) [7].

Таблица 1 - Тестовые алгоритмы машинного обучения

Ансамблевые алгоритмы Алгоритмы регуляризованной регрессии

деревья решений градиентный бустинг

Decision Tree Regressor (DTR) XGBoost (XGB) Ridge Regression (RR)

Bagging Regressor (BR) Lasso (LS)

LightGBM (LGBMR)

Random Forest Regressor (RFR) Elastic Net (EN)

A. Деревья решений

В основе создания обучающей прогностической модели анализ правил принятия решений, выведенных из обучающего набора. В интеллектуальном анализе данных деревья решений можно также описать как комбинацию математических и вычислительных методов, помогающих описанию, категоризации и обобщению заданного набора данных [8]. При входных данных:

(x Y) _ (x2' Xk ) (1)

Y- целевая переменная. Вектор x состоит из функций xj, x2, x3... xk, которые используются для поставленной задачи.

Алгоритмы Bagging Regressor и

RandomForestRegressor имеют в основе мета-алгоритм бутстрэп-агрегирования, повышающий стабильность и точность моделей.

Результаты тестирования моделей, построенных на алгоритмах деревьев решений (Рис.1) демонстрируют линейный прирост WMAPE по мере сокращения объемов тренировочных наборов, содержащих от 1 000 000 наблюдений («больших наборах»). Снижение данных датасетов на 50%, определяет прирост ошибки, в среднем, на 20%. Таким образом, мы видим подтверждение выводов Джонатана Шмидта о линейном воздействии объема набора на ошибку, а также о снижении погрешности на 20% при удвоении обучающего набора. Динамика WMAPE на наборах от 700 до 1 000 наблюдений («малых наборах») имеет более выраженный прирост ошибки. В точке снижения объема набора на 50% прирост ошибки составил от 50% (Bagging Regressor) до 84% (Decision Tree Regressor). Лучшие показатели при сокращении объема наблюдений на малых наборах имеет алгоритм Bagging Regressor.

120%

LU

Q. ,—,

< ГО

100% | ° ГО

го х fc га

80% о > %

! о

/ 60% % & § g

40% g g

// ' .....-

/ ..............................5 <

20% н 2 0% о

90% 80% 70% 60% 50% 40% 30% 20% 10% объем тренировочного набора

..............DTR (В)----BR (В) -RFR(B)

..............DTR (S) ----BR (S) -RFR(S)

Рис.1. Усредненная динамика изменения WMAPE моделей, построенных на алгоритмах деревьев решений,

на наборах, содержащих от 1 000 000 (B) и от 700 до 1 000 наблюдений (S)

B. Градиентный бустинг

При использовании градиентного бустинга в качестве основы алгоритма аддитивная модель строится поэтапно. В любой момент времени t результаты модели взвешиваются на основе результатов предыдущего момента времени t-1. Правильно предсказанные результаты имеют меньший вес, а те, которые не были классифицированы, имеют больший вес. Это позволяет оптимизировать произвольные дифференцируемые функции потерь. На каждом этапе деревья регрессии n помещаются на отрицательный градиент биномиальной или полиномиальной функции потери отклонений.

Например, XGBoost (XGB) следует структуре градиентного бустинга и применяет численную оптимизацию в функциональном пространстве. Функция потерь l(y, y) определяется для измерения разницы между меткой y и оценкой y . В качестве аддиктивной модели XGB итеративно минимизирует сумму потерь всех выборок как объективную. Для построения каждого дерева алгоритм сначала вычисляет необходимую статистику, т. е. градиент gi первого порядка и градиент hi второго порядка выборки i:

д, = &-«г(у;, y[t-1)), h = a] it-„i(yt, f-1)) (2)

si

где y(t-1) это прогноз к концу последней итерации.

Затем сумма производных может быть аккумулирована для набора экземпляров Ij на каждом узлеj:

Gj = Y^di, Щ = £ ht (3)

ielj ielj

Принимается аппроксимация расширения Тейлора второго порядка цели и к модели добавляется регуляризация.

Оптимальный вес листа ж* и задача оЦ решаются с учетом целевой функции:

= -—А

т

(4)

1 V1 W

0bj' = - 211Ш + YT

i =1

(5)

где у и X регуляризаторы для числа листьев и веса листьев соответственно.

Уравнение (5) применяется для измерения предложения разделения в каждом узле и определяет древовидную структуру. Уравнение (4), определяет финальные веса листьев [9].

Результаты тестирования моделей, построенных на алгоритмах градиентного бустинга (Рис.2) имеют схожий с «древесными» алгоритмами тренд по большим наборам, с менее выраженным приростом ошибки. В точке сокращения больших наборов на 50% прирост WMAPE составляет 12% для ^^вВМ и 15% для XGBoost.

Алгоритм LightGBM сохраняет значительно меньшие, относительно XGB, показатели прироста ошибки при сокращении малых наборов. Изменение тренда и значительный прирост WMAPE на данных наборах у алгоритмов наблюдается при сокращении малых наборов до 35%. Таким образом при сокращении количества наблюдений до 250-350, даже высокоэффективный алгоритм LightGBM существенно снижает показатели точности.

: : '

/ 1

у У /

У /

/ — > 2 / - H* J

90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

< гс

i ° > id

-- m

С s

о 3

I- %

к й£ ^ о о о

et т—I щ ГС ГО X

X

и о

I-

о

Исключение предикторов из модели можно рассматривать как обращение их коэффициентов в нуль. При этом, например, алгоритм гребневой или ридж-регрессии уменьшает сложность модели при сохранении всех переменных за счет «штрафа», в случае сильного смещения коэффициентов от нуля, тем самым заставляя их быть малыми непрерывным образом.

В гребневой регрессии функция потерь обычного метода наименьших квадратов дополняется таким образом, что минимизируется сумма квадратов отклонений и штрафуется размер оценок параметров:

п

m

^ridge

(ß) = l&t-xiß )2+ Я 1 У§72 1-1 j-i 12

(6)

= \\y-xß\\ + m\v

Решение для ¡в дает оценку гребневой регрессии в ridge =(XX + 1I)-1 (XY), где I обозначает матрицу идентичности, а параметр 1 — штраф за регуляризацию.

По мере увеличения 1 дисперсия уменьшается, а смещение увеличивается. Одним из оптимальных способов установления параметра регуляризации выступает метод перекрестной проверки и выбора значения 1, которое минимизирует перекрестную проверку суммы квадратов отклонений.

Схожие в динамике тренды среди алгоритмов-представителей регуляризиванной регрессии наблюдаются по результатам тестирования как на малых, так и на больших наборах (Рис.3). При сокращении объемов больших наборов на 50% прирост ошибки определяется на уровне 20%, аналогично показателям алгоритмов деревьев решений. Значительный прирост WMAPE определяется, как и в случае с алгоритмами на основе градиентного бустинга, при сокращении малых наборов до 35%.

90% 80% 70% 60% 50% 40% 30% 20% 10% объем тренировочного набора

............. XGB (В) ----LGBMR (В)

............. XGB(S) ----LGBMR (S)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис.2. Усредненная динамика изменения WMAPE моделей, построенных на алгоритмах градиентного бустинга, на наборах, содержащих от 1 000 000 (B) и от 700 до 1 000 наблюдений (S)

C. Алгоритмы регуляризованной регрессии В основе алгоритмов регуляризованной регрессии лежит уменьшение дисперсии за счет смещения к оптимуму. Применение подобных алгоритмов обеспечивает снижение сложности модели за счет сокращения количества предикторов [10].

90%

а! ,_,

80% < S го о. о

Э ш

70% го

го X

1- го

60% CJ о S

о. а;

s fi

50% CL С ю о

о; ай

40% ^ о о о

< т—1

30% о; го X га X LU

20% л - 0J ь X и О G. <

10% S 3

X

0% н о

90% 80% 70% 60% 50% 40% 30% 20% 10% объем тренировочного набора

EN (В) EN (S)

..............RR (В)----LS (В) —

..............RR (S)----LS (S) —

Рис.3. Усредненная динамика изменения WMAPE моделей, построенных на алгоритмах регуляризованной

регрессии, на наборах, содержащих от 1 000 000 (B) и от 700 до 1 000 наблюдений (S)

III. ОПТИМИЗАЦИИ ГИПЕРПАРАМЕТРОВ

Последние достижения в области повышения точности машинного обучения были достигнуты не только за счет новых подходов к изучению атрибутов, но и посредством более совершенной конфигурации существующих методов, в том числе за счет оптимизация гиперпараметров. Данные методы позволяют существенно улучшить качество моделей, в том числе их точность.

Одним из эффективных методов автоматизированной оптимизации гиперпараметров выступает Байесовская оптимизация [11]. Суть метода заключается в построении вероятностной модели целевой функции и использование ее для выбора наиболее значимых гиперпараметров с последующей оценкой в истинной целевой функции. В основе алгоритма древесно-структурированная оценка Парзена.

Ожидаемое улучшение EI — это ожидание при

некоторой модели M для f : x порогy :

где f(x) превышает

- J-

EIy,{x) — I max(y*-y,0) pM(y\x)dy.

(7)

p(x\v) = { l(x) if У < У* P(Xly) \g(x) if у>Г,

(8)

алгоритма ТРЕ может линейно масштабироваться в |Н и в количестве оптимизируемых переменных (измерений).

Параметризация p(x, у) как p(у)p(у | x) в алгоритме ТРЕ была выбрана для облегчения оптимизации ожидаемого улучшения EL

EL

*(х) — J (у* - y)p(y\x)dy ■■

= I

у\ * ,Р(Х\У)Р(У) , (У -У) р(х) dy

(9)

принимаем y = p(y<y) и р(х) = J Rp(x\y)p(y)dy =

= Yl(x) + (1 -y)g(x) .

Следовательно,

ГУ* ГУ*

J (y* - y)P(x\y)P(y)dy = l(x) J (y*-y)p(y)dy = = Yy*i(x) -l(x) J ( p(y)dy,

таким образом получаем, что

yy*i(x)-l(x) f-m p(y)dy

Ely, (x)

rl (x )+(1 -y )g(x )

»(y + f))(1 -y))-1.

Древесно-структурированная оценка Парзена (ТРЕ) моделирует р(х | у) путем преобразования этого генеративного процесса, заменяя распределения предшествующей конфигурации непараметрическими плотностями. Пространство конфигурации описывается с использованием однородных, логарифмически однородных, квантованных логарифмически

однородных и категориальных переменных. В этих случаях алгоритм ТРЕ выполняет следующие замены: равномерная ^ усеченная гауссова смесь, логарифмическая однородная ^ экспоненциальная усеченная гауссова смесь, категориальная ^ переоцененная категориальная. Используем различные наблюдения {х(1),...,х(к)} в непараметрических плотностях. Эти замены позволяют создавать различные плотности в конфигурационном пространстве X ТРЕ определяет р(х | у) используя две такие плотности:

Последнее выражение показывает, что для максимального улучшения необходимы точки х с высокой вероятностью при 1(х) и низкой вероятностью при (х). Древовидная форма I и g позволяет построить множество кандидатов в соответствии с I и оценить их в соответствии с g(x)/l(x). На каждой итерации алгоритм возвращает кандидата х с наибольшим Б1 [11 ] .

В ходе применения Байесовской оптимизации были определены улучшения по всем рассматриваемым алгоритмам (Рис.4). Улучшение точности, определенное в снижении прироста WMAPE более выраженно в моделях, построенных на алгоритмах деревьев решений, в том числе содержащих мета-алгоритм бутстрэп-агрегирования, а также алгоритмах регуляризованной регрессии.

90%

где I(х) - плотность, сформированная с помощью наблюдений {х(^} такой, что соответствующая функция потерь Ах(г)) была меньше, чем у*, а g(x) - плотность, сформированная с использованием оставшихся наблюдений.

Алгоритм ТРЕ зависит от у больше, чем наблюдаемое ^х), ввиду этого отдельные точки могут быть использованы для формирования I(х). Алгоритм определяет у быть некоторым квантилем у наблюдаемых значений у, так что р(у < у*) = у, но никакой конкретной модели для р(у) не требуется. Поддерживая упорядоченные списки наблюдаемых переменных в Н, время выполнения каждой итерации

70% 60% 50% 40% 30% 20% 10% 0%

Ю

ls

en

dtr br rfr xgb lgbmr rr □ {S) D(S-TRE)

Рис.4. Изменение прироста WMAPE моделей, построенных на наборах, содержащих и от 700 до 1 000

—>

наблюдений, при сокращении набора на 50%, с

применением Байесовской оптимизации гиперпараметров (S-TRE) и без применения (S)

IV. ЗАКЛЮЧЕНИЕ

В ходе исследования было определено, что, несмотря на разность задач, источников данных и применяемых алгоритмов, наблюдается устойчивое снижение точностей моделей машинного обучения при сокращении количества наблюдений в тренировочных наборах.

В задачах регрессии, в случаях нелинейной зависимости целевой переменной с предикторами и невысокими показателями корреляции между ними, при сокращении количества наблюдений до 250-350, даже высокоэффективные алгоритмы существенно снижают показатели точности. Количество наблюдений менее 100, исключительно в подобных случаях, может быть определено как нижний предел использования ансамблевых алгоритмов машинного обучения в целях обнаружения закономерностей и построении устойчивой модели.

Использование Байесовской оптимизации гиперпараметров определяет нивелирование потери точности моделей при сокращении набора данных до 50% на ансамблевых алгоритмах деревьев решений. Минимальное улучшение за счет применения оптимизации наблюдается на алгоритме градиентного бустинга LightGBM, при этом данный алгоритм наименее подвержен воздействию сокращения данных в наборе и демонстрирует лучшие показатели в ряду исследуемых алгоритмов, как с применением оптимизации, так и без нее. Следующим, по наблюдаемой в ходе экспериментов устойчивости к снижению размерности набора, выступает алгоритм регуляризованной регрессии Lasso.

Применение алгоритмов LightGBM и Lasso в совокупности с Байесовской оптимизации может рассматриваться как один из эффективных методов повышения точностей моделей при снижении периодов наблюдения в наборе данных, при решении задач регрессии без выраженной корреляционной зависимости целевой переменной и предикторов.

[6] Ying Z., Chen L. A strategy to apply machine learning to small datasets in materials science. npj Computational Materials volume 4, Article number: 25. 2018. D01:10.1038/s41524-018-0081-z

[7] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Advances in Neural Information Processing Systems 30. NIPS. 2017.

[8] Shalev-Shwartz, Shai, Ben-David, Shai. Decision Trees. Understanding Machine Learning. Cambridge University Press. 2014.

[9] Wenjing Fang, Chaochao Chen, Jin Tan, Chaofan Yu, Yufei Lu, Li Wang, Lei Wang, Jun Zhou and Alex X. Liu. A Hybrid-Domain Framework for Secure Gradient Tree Boosting. In The 29th ACM International Conference on Information and Knowledge Management (CIKM'20), Galway, Ireland. ACM, New York, NY, USA, 2020.

[10] Donald W. Marquardt & Ronald D. Snee. Ridge Regression in Practice, The American Statistician, 29:1, 3-20, 1975. DOI: 10.1080/00031305.1975.10479105

[11] James Bergstra, R. Bardenet, Balazs Kegl, Y. Bengio. Algorithms for Hyper-Parameter Optimization. Conference: Advances in Neural Information Processing Systems. 2011.

Библиография

[1] R. J. Little and D. B. Rubin. Statistical Analysis With Missing Data. Hoboken, NJ, USA: Wiley, 2014. D0I:10.1002/9781119013563

[2] H. He and E. A. Garcia. Learning from imbalanced data,IIIEEE Trans. Knowl. Data Eng., vol. 21, no. 9, pp. 1263-1284. 2009. D0I:10.1109/TKDE.2008.239

[3] C.Subhashri, J.Maruthupandi, K.Vimala Devi. Recovering Insufficient and Inconsistent Data using Fuzzy-Based Information Decomposition Technique. International Journal of Pure and Applied Mathematics. Volume 119 No. 12 2018.

[4] Faber, F. A., Lindmaa, A., Lilienfeld, O. A. V. & Armiento, R. Machine learning energies of 2 million Elpasolite (ABC2D6) crystals. Phys. Rev. Lett. 117, 135502. 2016. D0I:10.1103/PhysRevLett. 117.135502

[5] Schmidt, J. et al. Predicting the thermodynamic stability of solids combining density functional theory and machine learning. Chem. Mater. 5090-5103. 2017. D0I:10.1021/acs.chemmater.7b00156

Methods to improve the accuracy of machine learning algorithms while reducing the dimensionality of the data set

A.V. Vorobyev

Abstract — The limited availability of information collection is a factor hindering the application of high-performance machine learning algorithms. The development of methods to improve the accuracy of models while reducing the observation periods, can be an effective tool for prediction in understudied areas. The paper considers the relationship between the dimensionality of the data set and the predictive capabilities of machine learning models, and determines the impact of the number of observations on the accuracy and robustness of models built on ensemble algorithms and regularized regression algorithms. In the course of the experiments, the change in the weighted average absolute error with decreasing the dimensionality of the set was considered, and the algorithms most resistant to this factor were identified. The lower limit of use of ensemble algorithms for detection of regularities and construction of stable model, in regression tasks, in cases of non-linear dependence of target variable with predictors and under condition of absence of high impact of anomalies and noises in data was revealed. The effect of automated Bayesian hyperparameter optimization on model accuracy when the data set is reduced is considered. The models for which pre-optimization of hyperparameters, by means of wood-structured Parzen estimation, is the most preferable are determined.

Key words — machine learning, dataset dimensionality, ensemble algorithms, model accuracy, hyperparameter optimization, Parzen's estimation.

[9] Wenjing Fang, Chaochao Chen, Jin Tan, Chaofan Yu, Yufei Lu, Li Wang, Lei Wang, Jun Zhou and Alex X. Liu. A Hybrid-Domain Framework for Secure Gradient Tree Boosting. In The 29th ACM International Conference on Information and Knowledge Management (CIKM'20), Galway, Ireland. ACM, New York, NY, USA, 2020.

[10] Donald W. Marquardt & Ronald D. Snee. Ridge Regression in Practice, The American Statistician, 29:1, 3-20, 1975. DOI: 10.1080/00031305.1975.10479105

[11] James Bergstra, R. Bardenet, Balazs Kegl, Y. Bengio. Algorithms for Hyper-Parameter Optimization. Conference: Advances in Neural Information Processing Systems. 2011.

REFERENCES

[1] R. J. Little and D. B. Rubin. Statistical Analysis With Missing Data. Hoboken, NJ, USA: Wiley, 2014. D0I:10.1002/9781119013563

[2] H. He and E. A. Garcia. Learning from imbalanced data,IIIEEE Trans. Knowl. Data Eng., vol. 21, no. 9, pp. 1263-1284. 2009. D0I:10.1109/TKDE.2008.239

[3] C.Subhashri, J.Maruthupandi, K.Vimala Devi. Recovering Insufficient and Inconsistent Data using Fuzzy-Based Information Decomposition Technique. International Journal of Pure and Applied Mathematics. Volume 119 No. 12 2018.

[4] Faber, F. A., Lindmaa, A., Lilienfeld, O. A. V. & Armiento, R. Machine learning energies of 2 million Elpasolite (ABC2D6) crystals. Phys. Rev. Lett. 117, 135502. 2016. D0I:10.1103/PhysRevLett. 117.135502

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[5] Schmidt, J. et al. Predicting the thermodynamic stability of solids combining density functional theory and machine learning. Chem. Mater. 5090-5103. 2017. D0I:10.1021/acs.chemmater.7b00156

[6] Ying Z., Chen L. A strategy to apply machine learning to small datasets in materials science. npj Computational Materials volume 4, Article number: 25. 2018. D0I:10.1038/s41524-018-0081-z

[7] Guolin Ke, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, Tie-Yan Liu. LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Advances in Neural Information Processing Systems 30. NIPS. 2017.

[8] Shalev-Shwartz, Shai, Ben-David, Shai. Decision Trees. Understanding Machine Learning. Cambridge University Press. 2014.

i Надоели баннеры? Вы всегда можете отключить рекламу.