Научная статья на тему 'Деревья принятия решений в задаче отбора значимых факторов для прогнозирования объемов электропотребления в металлургическом производстве'

Деревья принятия решений в задаче отбора значимых факторов для прогнозирования объемов электропотребления в металлургическом производстве Текст научной статьи по специальности «Математика»

CC BY
352
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕРЕВЬЯ РЕШЕНИЙ / ЗНАЧИМОСТЬ / ВХОДНЫЕ АТРИБУТЫ МОДЕЛИ / ЭЛЕКТРОПОТРЕБЛЕНИЕ / МЕТАЛЛУРГИЯ / TREES OF DECISIONS / SIGNIFICANCE / INPUT ATTRIBUTES OF THE MODEL / POWER CONSUMPTION / METALLURGY

Аннотация научной статьи по математике, автор научной работы — Бажинов Алексей Николаевич, Ершов Евгений Валентинович

В статье рассмотрен один из подходов к решению задач автоматического исследования данных деревья решений; введено понятие значимости входных атрибутов и формула ее расчета, приведены результаты практического применения этого метода в задаче выявления значимых факторов для прогнозирования электропотребления металлургическим предприятием.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Бажинов Алексей Николаевич, Ершов Евгений Валентинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Деревья принятия решений в задаче отбора значимых факторов для прогнозирования объемов электропотребления в металлургическом производстве»

тов температуры по толщине покрытия при его нагреве.

Преимуществом предложенной методики выбора оптимальных режимов термообработки, определения кинетики и степени вулканизации, состоит в том, что все расчеты легко реализуются на ЭВМ. При этом достигается любая требуемая точность, которая определяется лишь объемом вычислений.

Литература

1. Лукомская, А.И. Тепловые основы вулканизации резиновых изделий / А.И. Лукомская, В.Ф. Евстратов. - М., 1972.

2. Осипов, Ю.Р. Неразрушающий способ определения

степени вулканизации обкладок резинометаллических изделий / Ю.Р. Осипов, А.А. Аваев // Заводская лаборатория. - 1979. - № 3. - С. 242 - 243.

3. Осипов, Ю.Р. Опыт работы по оценке степени вулканизации гуммировочных покрытий / Ю.Р. Осипов, Л.Г. Клочков, А.В. Разумов. - М., 1991.

4. Осипов, Ю.Р. Процессы термической обработки гуммированных объектов и разработка методов их расчета: дис. ... д-ра техн. наук / Ю.Р. Осипов. - Иваново, 1997.

5. Осипов, Ю.Р. Термообработка и работоспособность покрытий гуммированных объектов / Ю.Р. Осипов. - М., 1995.

6. Хасхачих, А.Д. Экспресс-контроль степени вулканизации резиновых смесей по их электропроводности / А.Д. Хасхачих, М.С. Дозорцев // Производство шин, РТИ и АТИ. - 1963. - № 11. - С. 22 - 24.

УДК 621.397

А.Н. Бажинов, Е.В. Ершов

ДЕРЕВЬЯ ПРИНЯТИЯ РЕШЕНИЙ В ЗАДАЧЕ ОТБОРА ЗНАЧИМЫХ ФАКТОРОВ ДЛЯ ПРОГНОЗИРОВАНИЯ ОБЪЕМОВ ЭЛЕКТРОПОТРЕБЛЕНИЯ В МЕТАЛЛУРГИЧЕСКОМ ПРОИЗВОДСТВЕ

В статье рассмотрен один из подходов к решению задач автоматического исследования данных - деревья решений; введено понятие значимости входных атрибутов и формула ее расчета, приведены результаты практического применения этого метода в задаче выявления значимых факторов для прогнозирования электропотребления металлургическим предприятием.

Деревья решений, значимость, входные атрибуты модели, электропотребление, металлургия.

The article considers one approach to solving problems of automatic research of the data - trees of decisions; the concept of the significance of input attributes and the formula of its calculation is introduced; the results of practical application of this method in the problem of identification of significant factors for power consumption forecasting by the metallurgical enterprise are given.

Trees of decisions, significance, input attributes of the model, power consumption, metallurgy.

Проблема прогнозирования электропотребления предприятием металлургического профиля представляет собой сложную многопараметрическую задачу, имеющую вероятностную составляющую [6]. Объем фактического использования электроэнергии обусловлен не только управленческими решениями, структурой портфеля заказов промышленного предприятия, но и типом дня (рабочий день или выходной), погодными условиями, временем суток и многими другими факторами. Причинная связь электропотребления с каждым из этих параметров довольно сложна и не имеет однозначного формального описания линейной моделью. В то же время применение нелинейных регрессионных моделей проблематично. Для этого требуется явное задание характера нелинейности еще до проведения анализа, что является серьезным ограничением [5].

Таким образом, учитывая специфичность и сложность задачи, можно сделать вывод о том, что хорошо зарекомендовавшие себя в случае с регрессионной моделью методы1 отбора значимых входных

1 Процедура Forward Selection (прямой отбор), процедура Backward Elimination (обратное исключение), проце-

признаков не могут быть применены [1].

Одним из наиболее перспективных подходов к решению задач автоматического исследования данных, лишенному рассмотренных выше недостатков, является дерево решений - способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение [2]. Под правилом понимается логическая конструкция, представленная в виде «если ... то ...».

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений: CART, C4.5, NewId, ITrule, CHAID, CN2 и др. [3].

Большинство из известных алгоритмов являются «жадными алгоритмами». Если один раз был выбран атрибут и по нему было произведено разбиение на подмножества, то алгоритм «не может» вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. Поэтому на этапе построения нельзя сказать, даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение [3].

дура Stepwise, процедура Best Subsets (лучшие подмножества).

В работе за основу взят алгоритм С4.51 построения дерева решений, для которого количество потомков у узла не ограничено. Этот алгоритм решает только задачи классификации, так как «не умеет» работать с непрерывным целевым полем [2].

Для решения поставленной задачи необходимо, во-первых, внести изменения в процедуру разбиения по значениям непрерывного типа; во-вторых, что самое главное, ввести понятие «значимости» входных атрибутов и определить формулу для ее расчетов.

Ниже приведен алгоритм разбиения по значениям непрерывного типа:

1. Упорядочить все значения по возрастанию.

2. Разбить исходное множество Т на два - Т1 и Т2. На первой итерации в Т1 попадает только первый элемент, остальные - в Т2. На следующей итерации первый элемент из Т2 по падает в Т1 и т.д.

3. Вычислить индекс СтрШ для каждого из разбиений множества Т. Выбрать то разбиение, для которого индекс ОтрШ минимален. Используются следующие соотношения:

віті

віпі (Т) = 1 -X р]

рШ (Т ) = — вІПі (Т1 ) + — вІПі (Т2 X

(1)

(2)

где д - вероятность нахождения примера класса I во множестве Т; N - количество примеров во множестве Т N и N2 - во множестве Т1 и Т2, соответственно) [4].

4. Дальнейшее разбиения узла прекращается при выполнении одного из условий:

- в узле содержится достаточное количество примеров (настроечный параметр);

- узел содержит примеры одного класса;

- количество нераспознанных примеров меньше минимального количества примеров в узле (настроечный параметр).

Теперь введем понятие «значимости» входного атрибута. Под значимостью атрибута будем понимать показатель, характеризующий, насколько сильно выходное поле зависит от данного входного.

Формула для расчета значимости имеет вид:

=

кт ( ' .

X ^-XЕ

І=1 І і=1

^т.

т,],і т,І У N

m, І

кі (

і=1 і=1

п1,1

XX ЕІ-ХЕч, •

N

•100%,

(3)

і, І ,і

N

і, І

1 С4.5 - алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.

где g - количество входных атрибутов, к1 - количество узлов, которые были разбиты по атрибуту I, Е1у - энтропия родительского узла, разбитого по

атрибуту I, Е. - энтропия дочернего узла дляу-го, разбитого по атрибуту I, Nl у, Nl у 1 - количество примеров в соответствующих узлах, п1 у - количество дочерних узлов для у-го родительского.

Вычисление показателя значимости для атрибутов возможно только после построения дерева классификационных правил.

Технологические процессы потребления электроэнергии подчиняются циклическим, функциональным и случайным тенденциям, из которых наиболее прогнозируемые циклические зависимости (как правило, суточные, недельные и годичные).

Циклические зависимости составляют 70 - 80 % всех отклонений в процессе потребления электроэнергии [6]. Наиболее существенными циклическими факторами практически во всех производственных процессах являются: величины фактического потребления электроэнергии в предыдущие периоды, время суток, день недели, долгота светового дня.

Закономерности функционального характера являются вторым из основных изучаемых факторов при прогнозировании, их долевое участие составляет приблизительно 10 - 15 % от всего объема отклонений. В эту группу включаются отклонения, объясняемые известными и относительно предсказуемыми факторами производства: температурой воздуха или теплоносителя, значениями и прогнозами параметров, являющихся основными производственными факторами, определившими профиль и величины фактического потребления электроэнергии (объем поставок сырья, объем самого производства) и т.д.

И, наконец, случайные тенденции составляют третью, завершающую компоненту прогноза: их долевое участие в общем процессе невелико, но амплитуда отклонений может быть довольно значительна. Очевидно, что назвать такие отклонения «истинно случайными» будет неверно: каждое отклонение может быть впоследствии объяснено вполне закономерными причинами.

Дерево решений, построенное на основе исходных данных потребления электроэнергии одним из крупных предприятий металлургического профиля, получилось сильноветвистым (рис. 1). На рис. 1 приведена лишь одна его ветвь (значения всех параметров указаны в условных единицах измерения).

Дальнейшие вычисления показали, что основными факторами, определяющими достоверность прогноза, являются следующие (см. табл. 1).

В задачах краткосрочного прогнозирования электропотребления распределение значимости параметров, а возможно, и их состав, будет иным.

Таким образом, для целевого метода прогнозирования основными влияющими факторами являются автокорреляционные: потребление электроэнергии в предыдущий день и два дня назад, а также статус дня и объем производства в предыдущий день.

і=1

ё

Объем производства в предыдущий день <11273

Рис. 1. Ветвь дерева решений в задаче прогноза электропотребления металлургическим предприятием

Таблица 1

Значимость основных факторов для прогнозной величины электропотребления в задаче суточного прогнозирования

Параметр Значимость, %

Потребление электроэнергии в предыдущий день 47

Объем производства в предыдущий день 18

Потребление электроэнергии два дня назад 13

Статус дня 12

Среднесуточная температура воздуха 7

Долгота дня 3

Из выбранных основных входных данных наименьшей точностью обладает статус дня: все возможные состояния описываются набором всего из пяти значений: рабочий день, рабочий день по шестидневной неделе, рабочий день по приказу руководителя предприятия, выходной день, праздничный день. В сочетании с достаточно высокой степенью значимости этого параметра ошибка в его значении может привести к принципиально неверному прогнозу. Поэтому следует отметить, что улучшение

качества метода прогнозирования, в первую очередь, должно быть направлено на введение в модель дополнительных данных, таких как графики работы подразделений, объемы выпуска по цехам и прочее. Однако дублирование информации в составе избыточного признака не просто не улучшает качество модели, но и порой, наоборот, ухудшает его.

К примеру, при добавлении к существующему набору входных параметров группы энергоресурсов, сопутствующих электроэнергии в металлургическом производстве, наблюдалось ухудшение основных показателей качества прогнозирования. К этой группе относятся следующие показатели: кислород технологический, азот компримированный, сжатый воздух, вода техническая оборотная и т.д.

Детальный анализ ситуации выявил мультиколлинеарность между этими параметрами и электропотреблением. В доказательство сказанного, исследуем увеличение стоимости кислорода технологического. Как видно из рис. 2, основную долю (21 из 24 %) в увеличении стоимости занимают энергозатраты - в большей степени электроэнергия. Аналогичная ситуация имеет место и по другим параметрам указанной группы.

Проведенный выше анализ применимости деревьев принятия решений для задачи отбора значимых параметров для прогнозирования объемов потребления электроэнергии показал, что данный метод применим для решения таких задач в рамках

1210,0

і і 2011 г.

2010 г.

а

Ё

и

ч

а

с

&

с

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

н

я

о

т

J

ЭНЕРГОЗАТРАТЫ

у

-------V----------

Прочие факторы (транспорт, амортизация, содержание основных фондов и т.д.)

Рис. 2. Увеличение стоимости кислорода технологического в 2011 г. к 2010 г. (в условных единицах измерения)

крупных потребителей электроэнергии, работающих в секторе свободной торговли. Изложенный подход не претендует на полную замену высококвалифицированного труда эксперта-энергетика предприятия. Однако, используя средства и методы по детальной обработке и всестороннему анализу больших массивов данных, эксперт предприятия может выйти на качественно иной уровень прогнозирования, своевременно реагируя на изменения в структуре суточного энергопотребления с помощью инструмента для составления более точных заявок на длительный срок: неделя, месяц.

Литература

1. Айвазян, С.А. Прикладная статистика и основы эконометрики / С.А. Айвазян, В.С. Мхитарян. - М., 1998.

2. Коршунов, Ю.М. Математические основы кибернетики / Ю.М. Коршунов. - М., 1987.

3. Ларичев О.И. Качественные методы принятия решений. Вербальный анализ решений / О. И. Ларичев, Е. М. Мошкович. - М., 1996.

4. Левитин, А.В. Алгоритмы: введение в разработку и анализ / А.В. Левитин. - М., 2006.

5. Никифоров, Г.В. Энергосбережение и управление электропотреблением в металлургическом производстве / Г.В. Никифоров, В.К. Олейников, Б.И. Заславец. - М., 2003.

6. Цымбал, В.П. Математическое моделирование металлургических процессов / В.П. Цымбал. - М., 1986.

УДК 669.041, 621.771.25/.26:669.1

А.В. Кожевников, Г.А. Сорокин, И.Т. Барташевич, И.В. Сидорова

МОДЕЛИРОВАНИЕ И ЭКСПЕРИМЕНТАЛЬНЫЕ ИССЛЕДОВАНИЯ ЭНЕРГОЭФФЕКТИВНЫХ РЕЖИМОВ ПРОИЗВОДСТВА СОРТОВОГО ПРОКАТА

В статье представлены результаты теоретического и экспериментального исследования комплекса оборудования сортопрокатного стана, направленные на оптимизацию работы режимов методической нагревательной печи по критерию снижение расхода природного газа. Предложенная авторами технология нагрева сортового проката обеспечила в

i Надоели баннеры? Вы всегда можете отключить рекламу.