Научная статья на тему 'Предварительная обработка данных спектрального анализа в обучающей выборке для создания моделей для поточного анализатора светлых нефтепродуктов'

Предварительная обработка данных спектрального анализа в обучающей выборке для создания моделей для поточного анализатора светлых нефтепродуктов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
207
41
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Примак А. Е., Шумихин А. Г., Сташков С. И.

Приведены результаты статистического анализа, на основе метода главных компонент, для снижения уровня шума обучающей выборки математических моделей, используемых в спектральном анализе светлых нефтепродуктов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Примак А. Е., Шумихин А. Г., Сташков С. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Предварительная обработка данных спектрального анализа в обучающей выборке для создания моделей для поточного анализатора светлых нефтепродуктов»

УДК 65.011.56

А.Е. Примак, А.Г. Шумихин, С.И. Сташков

Пермский национальный исследовательский политехнический университет

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА ДАННЫХ СПЕКТРАЛЬНОГО АНАЛИЗА В ОБУЧАЮЩЕЙ ВЫБОРКЕ ДЛЯ СОЗДАНИЯ МОДЕЛЕЙ ДЛЯ ПОТОЧНОГО АНАЛИЗАТОРА СВЕТЛЫХ НЕФТЕПРОДУКТОВ

Приведены результаты статистического анализа, на основе метода главных компонент, для снижения уровня шума обучающей выборки математических моделей, используемых в спектральном анализе светлых нефтепродуктов.

Переход на новые стандарты в химической и нефтеперерабатывающей промышленности, который наблюдается в настоящее время, ведет к ужесточению требований к значениям показателей качества продуктов и их полуфабрикатов.

Сложность измерения качества нефтепродуктов обусловлена многими причинами, ряд которых требует применения математических моделей связи значений показателей качества со значениями естественных сигналов поточных анализаторов.

Еще до начала выбора математических моделей необходимо убедиться, что набор данных содержит достаточное количество информации о физико-химических свойствах смеси, которые в конечном итоге и определяют качество продукции. Использование спектрального анализа, хотя и является относительно быстрым и недорогим способом получения данных, порождает несколько проблем. К ним можно отнести сложность оборудования для проведения анализа, требовательного к точной калибровке, а также большой объем избыточных данных, не связанных с интересующим исследователя показателем качества. В первом случае существует вероятность появления инструментальной погрешности, приводящей к получению обучающей выборки, представители которой не отражают реальные значения. Модели, обученные на такой выборке, будут обладать неснижаемой систематической погреш-

ностью. Компенсация такой погрешности усложняет алгоритмы измерения показателей качества.

Избыточность данных ведет к значительному зашумлению данных обучающей выборки и создает дополнительные сложности для выявления ошибок при измерении и сбоях оборудования. Поэтому для получения обучающей выборки, пригодной для создания математических моделей, необходимо до начала процедуры обучения провести контроль данных. Для решения этой задачи нами разработана методика, опирающаяся на совокупность методов обработки и анализа данных.

При выборе метода анализа исходят из того, что набор данных является многомерным, в данном случае - двухмерным. Необходимо учесть, что набор данных содержит большое количество избыточной информации, может содержать ошибки измерения анализатора и лабораторного контроля. При подготовке моделей дополнительные трудности создает задача выделения из общего ансамбля данных, связанных с необходимым показателем качества. При спектральном анализе связь между измеренными значениями и показателем качества является нелинейной. Поэтому метод отбора должен обладать возможностью понижать размерность массива данных при сохранении его информативности, а также выявлять скрытые структуры в данных, несущие необходимую информацию. С учетом этих условий был рассмотрен метод главных компонент (МГК), а при анализе использованы опирающиеся на него алгоритмы.

При применении метода главных компонент данные записываются в виде матрицы X - прямоугольной таблицы чисел с размерностью г х Ч :

Хп Х12

Х21 Х22

V г1

хи

X

2 Ч

(1)

Строки данной матрицы называются образцами. Они нумеруются

индексом г, меняющимся от 1 до I. Столбцы называются переменными

и нумеруются индексом Ч = 1, ..., ].

Цель МГК - извлечение из этих данных нужной информации, оп-

ределяемой сутью решаемой задачи. Данные могут содержать и избыточную информацию или же не содержать полезную информацию. Данные всегда (или почти всегда) содержат в себе нежелательную бес-

полезную составляющую, называемую шумом, природа которого может быть различной. Что считать шумом, а что полезной информацией, решается с учетом поставленной цели и методов, используемых для ее достижения.

Шум и избыточность в данных проявляют себя через корреляционные связи между переменными. Погрешности в данных приводят к случайным составляющим в связях между переменными. Понятие скрытых, латентных переменных является важнейшим понятием в МТК [1].

Перед применением МТК осуществляется центрирование и нормирование набора данных. Центрирование переменных - это вычитание из каждого элемента столбца среднего по столбцу значения. Центрирование позволяет исключить из модели МТК свободный член. Нормирование выравнивает вклад разных переменных в МТК модель. При этом преобразовании каждый элемент столбца делится на свое стандартное отклонение, т.е.

где ху - нормированное значение ху; ту - среднее значение для у-го

столбца; Бу - среднеквадратичное отклонение (стандарту-го столбца).

После нормирования можно приступать к процедуре разделения данных на «информацию» и «шум». Для усиления влияния переменных, коррелированных с измеренными значениями, используется метод проекции на латентные структуры (ПЛС). При использовании ПЛС производится совместная декомпозиция матрицы X переменных и вектора У измеренных значений таким образом, что вклад переменных, коррелированных с измеренными значениями, увеличивается, а некоррелированных уменьшается, что позволяет дополнительно понизить их влияние на модель.

(2)

(3)

(4)

О

ху := хі] ,

О

При определении размерности модели нами используется анализ квадрата матрицы дисперсий-ковариаций [2]

С = ХТУУТХ (5)

на наибольшее собственное значение

X = wтCw = ^УУ^,

где У - матрица (вектор) откликов; w - матрица взвешенных нагрузок; X - собственные значения; t - матрица счетов.

Зависимость значений X и его верхнего доверительного предела от размерности модели (числа ГК) представлена на рис. 1. Верхний доверительный предел рассчитывался по формуле

2 (тг )2 • 1г

Г ТГ

N2

(6)

где 1г (.) - след матрицы (.).

На рис. 1 линии пересекаются при размерности, равной 4. Это означает, что оптимальной для построения модели будет размерность, равная 3.

Размерность

Рис. 1. Зависимость значений X и его верхнего доверительного предела от числа ГК:-----------график X;------график Е (X)

1

Приведенный выше расчет соответствует модели для ИК-спектро-фотометра по показателю качества бензина «октановое число (моторный метод)».

Определив размерность модели, необходимо очистить данные от переменных, не имеющих связи с показателем качества.

Для определения значащих переменных был использован анализ диагональных элементов квадрата матрицы дисперсий-ковариаций (5). На рис. 2 представлена зависимость значений диагональных элементов матрицы С от длины волны для показателя «октановое число (исследовательский метод)».

1 о

сз

н

К

и

S

си

£

о

К

►А

4 са К

5

cd К П си К К си

в5

к

ГО

. г— — -1 1 I Ковариация (х, у)

Л

1 |....

- 1 1 (| . .. лу ....... / 1

800 900 1000 1100 1200 1300 14UU 1500 1600 1700

Длина волны, нм

Рис. 2. Зависимость значений диагональных элементов матрицы С от длины волны для показателя «октановое число (исследовательский метод)»

На рис. 2 видно, что большая часть переменных не связана с показателями качества. Поэтому при построении модели их следует удалить из общей выборки.

Оставшиеся данные анализируются в пространстве главных компонент. Для рассмотрения структуры данных строятся двумерные проекции переменных в пространстве главных компонент, так называемый график счетов [3].

0.5 —

0 —

-0.5 —

-1.0 —

. о ■ ■2л о© ; ° йй3 ' О

О о Го о Ъ ° Чэо о Г/ О ■>*. < о о 8 о СО

о ® о о

—I----------------------------------------------1-1-Г—

—I----------------------------------------------1-1-г—

-1.0

-0.5

—I— 0.5

т-------------------г---------------1-----------------г-

РС1

—I------

1.0

РЕБит, Х-ехр1: 78%,18% У-ехрк 81%.10%

Рис. 3. График счетов для показателя «октановое число (исследовательский метод)»

Анализ графика счетов позволяет на первоначальном этапе выделить образцы, нетипичные для данной выборки и требующие дополнительной проверки.

Дополнительно к графику счетов строится график «влияние -полнота описания», представленный на рис. 4. Он позволяет оценить степень влияния и полноту описания каждого образца полученной моделью. Вдоль оси абсцисс откладывается размах - вклад этого образца

15 —

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10 —

5 —

О —

Остаточная дисперсия Влияние

®

о о о о о 0

- о * о° °о°0°° 5 ° о о о в° °*р ? о° й -й о 0

Влияние (плечо)

| І III І I |“П”|_Г1_Г "I Ч Г І І І '| I Г І І I I I I I | І III І I I I Г |—І I I I Г VI "Г"1!—|" І III ! 11" Г Г « | !

О 0.01 0.02 0.03 0.04 0.05 0.06

І?ЕЗиі-Т1. РС: 2.2

Рис. 4. График «влияние - полнота описания» для показателя «октановое число (исследовательский метод)»

в общую модель. Вдоль оси ординат откладываются значения остаточной дисперсии, и чем больше их значения, тем хуже данный образец описывается моделью. Таким образом, образцы, расположенные в верхнем правом углу графика влияний, можно сразу исключать из обучающей выборки, поскольку они плохо описываются моделью и имеют на нее большое влияние.

Заключительным этапом обработки является оценка переменных по критериям максимально и минимально возможного.

Можно полагать, что результаты измерений X распределены по нормальному закону с генеральными параметрами тх и в2х. Выборка имеет объем п, а подозрительный выброс в данной серии измерений равен Хтах.

Пусть гипотеза Н0 является предположением, что значение хтах принадлежит к той же генеральной совокупности, что и другие п - 1 измерения этой серии, т.е. хтах не является грубой ошибкой. Альтернативная сложная гипотеза Н1 принимается, а Н0 отклоняется, если при сравнении хтах с некоторым критическим значением х = Уп (#) значение хтах попадает в критическое множество при заранее заданном уровне значимости q.

При выборке конечного объема п вместо теоретических параметров тх и ох можно вычислить лишь соответствующие выборочные оценки х и £х2. Тогда граничные значения х можно записать в виде

хтах = х + Vn ^)5х, хтт = х - Vn ^х. (7)

Значение Vп ^) для уровня значимости q и числа измерений п можно найти из табл. 1 квантилей распределения величины

V = (хтах - х V 5х или V = (х - хт1п)/5х .

Эти данные получены из исследования вероятности

Вер{(хтах - х)/ 5 ^ V},

где хтах, х и 5 определены по выборке объема п из нормальной совокупности.

Зависимость у(п) для уровня значимости q = 0,1, построенная по данным табл. 1, представлена на рис. 5.

Таблица 1

Квантили распределения величины V = (хтах - х)/ Бх или

У = (Х - Хт1п ) / ^х

п q п q

0,10 0,05 0,025 0,01 0,10 0,05 0,025 0,01

3 1,406 1,412 1,414 1,414 15 2,326 2,493 2,638 2,800

4 1,645 1,689 1,710 1,723 16 2,354 2,523 2,670 2,837

5 1,791 1,869 1,917 1,955 17 2,380 2,551 2,701 2,871

6 1,894 1,996 2,067 2,130 18 2,404 2,577 2,728 2,903

7 1,974 2,093 2,182 2,265 19 2,426 2,600 2,754 2,932

8 2,041 2,172 2,273 2,374 20 2,447 2,623 2,778 2,959

9 2,097 2,237 2,349 2,464 21 2,467 2,644 2,801 2,984

10 2,146 2,294 2,414 2,540 22 2,486 2,664 2,823 3,008

11 2,190 2,343 2,470 2,606 23 2,504 2,683 2,843 3,030

12 2,229 2,387 2,519 2,663 24 2,520 2,701 2,862 3,051

13 2,264 2,426 2,562 2,714 25 2,537 2,717 2,880 3,071

14 2,297 2,461 2,602 2,759

О 5 10 15 20 25 П

Рис. 5. Зависимость V (п) для q = 0,1

Экстраполяция данных табл. 1 для интервала значений п = 15; 25

на значения п = 26; 250 осуществлена для различных уровней значимости q с помощью рекуррентной формулы

V п д = Уп-М)(8) 2,35п

где первое значение V п-1 (д) для различных уровней значимости соответствует значениям, приведенным в табл. 1 при п = 15, т.е. Vп-1 (д) = v15 (д).

В табл. 2 представлен пример квантилей распределения величины V = (хтах - X)/ Бх или V = (х - хт.п)/ Бх для д = 0,1 на интервале значе-

ний п = 3; 250 .

Таблица 2

Фрагмент квантилей распределения величины V = (хтах - х) / Бх

или V = (х - х. ) / Я для п = 3; 250

п V п V п V п V

3 1,406 65 3,217 127 4,271 189 5,325

4 1,645 66 3,234 128 4,288 190 5,342

5 1,791 67 3,251 129 4,305 191 5,359

64 3,2 126 4,254 188 5,308 250 6,362

Зависимость у(п) для уровня значимости д = 0,1, построенная в соответствии с (8), представлена на рис. 6.

V 1-----------------------------------------------------

1 -I-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

0 50 100 150 200 п

Рис. 6. Зависимость v(n) для д = 0,1 на интервале значений п = 3; 250

После окончания всех вышеперечисленных процедур обучающая выборка несет в себе минимум шумовой составляющей (из набора данных удалена большая часть некоррелированных переменных) и не содержит грубых ошибок инструментального и лабораторного измерений, т.е. подготовлена для обучения моделей.

Список литературы

1. Померанцев А.Л. Метод главных компонент (PCA) / Российское хемометрическое общество [Электронный ресурс]. - URL: http: // www.chemometrics.ru/materials/textbooks/pca.htm

2. Hoskuldsson А. PLS Regression and the Covariance // Journ. of Chemometrics. - 2006. - Vol. 20, Is. 8-10. - Р. 376-385.

3. Лавренчик B.H. Постановка физического эксперимента и статистическая обработка его результатов: учеб. пособие для вузов. - М.: Энергоатомиздат, 1986. - 72 с.

Получено 20.06.2012

i Надоели баннеры? Вы всегда можете отключить рекламу.