Научная статья на тему 'Применение методов математического программирования для градуировки БИК-анализаторов'

Применение методов математического программирования для градуировки БИК-анализаторов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
85
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГРАДУИРОВКА / БИК-АНАЛИЗАТОР / NIR ANALYZER / МАТЕМАТИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / MATHEMATICAL PROGRAMMING / CALIBRATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Скутин Илья Владимирович, Жаринов К.А.

В статье рассматривается возможность повышения точности анализа различных образцов, проводимого с помощью анализатора, работающего в ближней инфракрасной области. Для решения задачи предлагается создание градуировки с помощью методов математического программирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Скутин Илья Владимирович, Жаринов К.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE APPLICATION OF MATEMATICAL PROGRAMMING METHODS FOR CALIBRATION OF NIR ANALYZERS

The possibility of improving the accuracy of the analysis of various samples carried out by means of an analyzer operating in the near infrared region is considered in this article. To solve the problem we suggest to create calibration using the mathematical programming methods.

Текст научной работы на тему «Применение методов математического программирования для градуировки БИК-анализаторов»

ISSN 0868-5886 НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2014, том 24, № 2, c. 93-97

- СИСТЕМНЫЙ АНАЛИЗ ПРИБОРОВ И ИЗМЕРИТЕЛЬНЫХ МЕТОДИК - —

УДК 681.785.57

© И. В. Скутин, К. А. Жаринов

ПРИМЕНЕНИЕ МЕТОДОВ МАТЕМАТИЧЕСКОГО ПРОГРАММИРОВАНИЯ ДЛЯ ГРАДУИРОВКИ БИК-АНАЛИЗАТОРОВ

В статье рассматривается возможность повышения точности анализа различных образцов, проводимого с помощью анализатора, работающего в ближней инфракрасной области. Для решения задачи предлагается создание градуировки с помощью методов математического программирования.

Кл. сл.: градуировка, БИК-анализатор, математическое программирование

ВВЕДЕНИЕ

На сегодняшний день во многих отраслях промышленности, в том числе и в сельском хозяйстве, одной из главных задач является исследование состава продукции. Подобные данные просто необходимы для оптимизации технологического процесса (сокращение расхода сырья, повышение качества продукции), определения стоимости продукции, идентификации и обнаружения фальсификации образцов. Для решения данной задачи в настоящее время все чаще используют методы, основанные на спектральном анализе в ближней инфракрасной (БИК) области [1].

Преимущества метода БИК-анализа в том, что он занимает значительно меньше времени и не требует применения дополнительных реактивов, высокой квалификации персонала и хорошо оборудованных лабораторий, как в случае с методами химического анализа. Анализ проводится с помощью специальных приборов, удобных в эксплуатации и позволяющих в короткие сроки получить необходимые результаты с достаточно высокой точностью.

Однако, прежде чем использовать анализатор, его необходимо предварительно отградуировать, чтобы найти взаимосвязь между содержанием анализируемых компонентов и спектральными характеристиками. Для этого отбираются градуи-ровочный и валидационный (проверочный) наборы образцов с известными референтными значениями, а также регистрируются их спектральные данные. Референтные значения градуировочного и валидационного наборов — это анализируемые параметры образцов, которые определяются при помощи независимых референтных методов, имеющих заданную точность и воспроизводи-

мость. Величины, измеряемые непосредственно анализатором, называются спектральными данными. Диапазон изменения референтных значений образцов должен полностью охватывать диапазон возможных изменений этих значений при последующем анализе неизвестных образцов. Кроме того, для создания наиболее устойчивой модели образцы в градуировочном наборе должны быть однородно распределены в диапазоне изменения анализируемых свойств, а также количество вали-дационных образцов должно быть не меньше 50 [2]. Таким образом, формируются матрица X спектральных данных градуировочного набора размерности n х f (n — количество образцов в градуировочном наборе, а f — число точек спектра) и матрица Y референтных значений градуировочного набора размерности n х k (k — количество исследуемых компонентов). Матрицы X' и Y' валидационного набора отличаются от градуировочного меньшим количеством образцов.

Известно, что в БИК-спектроскопии используемые количественные связи зачастую слишком сложны, т. к. спектры в БИК-области содержат множество широких перекрывающихся полос поглощения (отражения, рассеивания), которые накладываются на полосу интересующего компонента. Это не позволяет построить простую градуиро-вочную зависимость между интенсивностями характерной полосы с содержанием интересующего вещества. В таком случае формируют многомерную градуировочную модель (MVC — multivariate calibration), которая связывает весь массив спектральной информации с содержанием интересующего компонента.

Наиболее часто для создания MVC используют метод проекции на латентные структуры (PLS —

94

И. В. СКУТИН, К. А. ЖАРИНОВ

partial least squares) и метод регрессии на главных компонентах (PCR — principial component regression) [3]. PCR — довольно простой метод, требующий меньше вычислительной мощности, чем PLS, его используют для хорошо изученных наборов, где построение MVC с удовлетворяющими характеристиками не вызывает особых трудностей. PLS создан на основе PCR и существенно расширяет его возможности. Метод хорошо работает, когда в спектральных данных существует сильная корреляция или имеется набор спектральных данных, число столбцов в котором сильно превышает число строк [4]. Однако при наличии сложных связей в спектральных данных или отсутствии ярко выраженных особенностей для создания лучшей MVC возможности обоих методов весьма ограничены за счет удаления латентных переменных высших порядков.

Нейронные сети все больше набирают популярность в задачах создания MVC. Тем не менее наряду с преимуществами они имеют два основных недостатка. Их архитектура должна быть определена заранее, т. к. изменение ее в процессе обучения довольно сложная задача. Второй недостаток в том, что нейронные сети могут застревать в локальных минимумах во время обучения, а во многих случаях это нежелательно [5].

Таким образом, поиск более выгодной альтернативы в создании MVC для решения конкретных задач, где общие методы слабы, является актуальной задачей. В качестве такой альтернативы можно предложить технику математического программирования (МП), которая успешно используется в подобных задачах построения MVC [6].

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Математическое программирование в задачах

многомерной градуировки

Математическое программирование — это область математики, разрабатывающая теорию, численные методы решения многомерных задач с ограничениями. В отличие от классической математики, МП занимается математическими методами решения задач нахождения наилучших вариантов из всех возможных.

Хотя градуировочные характеристики могут описываться самыми разными функциями, считается вполне достаточным ограничиться случаем линейной зависимости. Это обусловлено тем, что разработчики методик чаще всего сводят градуировку к нахождению линейной зависимости. Другими словами, мы будем полагать, что величины X и Y связаны линейной зависимостью, а задачу градуировки анализатора можно записать в виде

Y = Xb + e, (1)

где Ь — вектор регрессионных коэффициентов, e — вектор, содержащий значения ошибки. Следовательно, градуировка спектрометра заключается в подборе таких регрессионных коэффициентов Ь , чтобы квадрат ошибки f был минимален. Таким образом, целевую функцию для задачи оптимизации можно представить следующим образом:

f = (Y - Xb)T(Y - Xb)

(2)

где f — вектор (f1,f2,...,fn), содержащий квадраты указанной выше ошибки e. Если ввести ограничения на область поиска экстремальных значений целевой функции, коэффициенты регрессии Ь должны находиться внутри пространства гиперкуба, где гиперкуб — это фигура в евклидовом пространстве Е п (п — размерность пространства). Например, если п = 3, то гиперкуб — это куб в трехмерном евклидовом пространстве, имеющий длину ребра, равную d . Целевую функцию (2) можно представить в виде задачи квадратичного программирования:

f = (Y - Xb)T(Y - Xb)

0 < x < d

-»mm.

(3)

Для удобства записи введем следующие переменные:

C = 2(XT • X); D = -2(XT • Y).

(4)

Тогда задача (3) может быть представлена в виде классической задачи квадратичного программирования:

f (x) = DTb + bT Cb

0<b <d

-»mm,

(5)

где Ь — искомый вектор (Ь1,Ь2,...,Ьп), вектор d (d1,d2,...,dn), представляет указанное выше пространство ограничений. Оптимальное значение параметра d определяется с помощью процедуры валидации, что подразумевает конечную проверку созданной модели и изменение размерности гиперкуба до тех пор, пока критерии оценки качества градуировочной модели не будут удовлетворять необходимым условиям.

Данную задачу можно решить с помощью искусственного базиса и симплекс-метода. Однако у такого подхода есть ряд недостатков, например, если C будет положительно полуопределенной матрицей, то данный метод будет расходиться. Существует более простой и эффективный метод решения подобной задачи, называемый методом решения задачи о дополнительности. Для того чтобы представить задачу квадратичного программирования в виде задачи о дополнительно-

сти, существует специальная методика, подразумевающая выполнения следующих операций [7].

Для начала записывается функция Лагранжа для данной задачи квадратичного программирования (5):

L ( u, v ) = f ( х ) - uTb - vT ( d - b ).

(6)

На основании (6) можно записать условия Куна— Таккера для данной задачи квадратичного программирования (5):

Vf - u - v = 0; uTb = 0; vT (d - b) = 0; d - b > 0; u, v > 0.

(7)

Затем, для того чтобы заменить ограничение-неравенство ограничением-равенством, предполагается введение дополнительного вектора S . Причем d - Ь - S = 0, и благодаря этой подстановке условия Куна—Таккера (7) представляются следующим образом:

Vf - u - v = 0; uT b = 0; vTS = 0; S > 0; u, v > 0.

(8)

На последнем шаге для системы, записанной в (8), делаются следующие замены:

M =

v

r b ï

Г 2Q 0 1

w =

v S y

(9)

z =

y.

Задача (5) принимает вид эквивалентной задачи о дополнительности:

w = Mz + q;

w > 0; z > 0; wTz = 0.

(10)

Решив данную систему, получим вектор коэффициентов z, который и будет оптимальным вектором регрессионных коэффициентов Ь для целевой функции задачи построения МУС-анали-затора, записанной в уравнении (2).

Таким образом, при исследовании образца с неизвестной концентрацией интересующего компонента у производится регистрация спектра Х0 на анализаторе, а затем с помощью выражения

• b

(11)

можно оценить значение y .

Критерии для оценки качества градуировочной модели

Для оценки качества градуировочной зависимости была использована статистическая характеристика, широко применяющаяся в зарубежной практике, — SEV (Standard Error of Validation), стандартная ошибка валидации [8].

SEV характеризует ошибку отклонения между референтными и предсказанными по градуиро-вочному уравнению значениями для образцов дополнительного набора (т. е. серии образцов, не входивших в градуировочный набор и используемых для проверки градуировки):

SEV

V

К y - y- )2/<

(12)

dv — число образцов дополнительного набора; yi — референтное значение анализируемого компонента для i -го образца дополнительного набора; yi — предсказанное по градуировочному уравнению значение анализируемого компонента для i -го образца дополнительного набора.

ЭКСПЕРЕМЕНТАЛЬНАЯ ЧАСТЬ

В наших экспериментах мы сравнивали метод создания MVC с помощью техники МП с известными классическими методами — PLS и PCR.

Наборы данных и оборудование для создания многомерной градуировочной модели

Предлагаемый способ создания MVC для градуировки БИК-анализаторов оценивался на трех различных наборах данных. Для измерения спектральных данных был выбран БИК-анализатор "ИНФРАЛЮМ ФТ-10" — современный анализатор, выпускаемый компанией "Люмэкс". Спектры образцов измерялись в диапазоне волновых чисел 8 000-14 000 см-1 с разрешением 16 см1.

Первый набор — образцы зерен кукурузы с известными референтными данными процентного содержания жира. Градуировочный набор содержит 67 образцов, валидационный набор — 10 образцов.

Второй набор — образцы шрота подсолнечника с известными референтными данными процентного содержания протеина. Градуировочный набор содержит 74 образца, валидационный набор — 10 образцов.

Третий набор — образцы комбикормов с известными референтными данными процентного содержания кальция. Градуировочный набор содержит 53 образца, валидационный набор — 10 образцов.

Результаты приведены в табл. 1-3.

v

q

d

96

И. В. СКУТИН, К. А. ЖАРИНОВ

Табл. 1. Результаты предсказания массовой доли жира в зернах кукурузы для образцов валидационно-го набора по градуировочным моделям, построенным различными способами

Табл. 2. Результаты предсказания массовой доли протеина в шроте подсолнечника для образцов валидационного набора по градуировочным моделям, построенным различными способами

Образец Реф. значение Метод построения многомерной градуировочной модели

PCR PLS МП

кик-0350 5.04 4.59 4.42 4.85

кик-0327 7.99 6.60 7.05 6.75

кик-0259 6.79 5.92 6.16 6.59

кик-0288 7.70 7.32 7.25 6.88

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

кик-0322 3.41 4.74 4.59 4.07

кик-0232 6.29 6.30 6.63 6.18

кик-0248 4.50 5.21 4.79 4.42

кик-0375 4.28 5.31 4.84 4.30

кик-0307 3.27 5.42 5.07 3.32

кик-0246 5.70 5.20 5.05 5.32

Значение SEV 1.19 0.99 0.62

Образец Реф. значение Метод построения многомерной градуировочной модели

PCR PLS МП

Лт-1141 43.99 40.51 43.02 43.54

Лт-1152 44.04 42.45 43.04 43.43

Лт-1145 42.58 41.03 42.82 42.77

Лт-1266 38.90 38.75 38.78 38.44

Лт-1133 40.26 39.02 40.22 40.44

Лт-1280 41.80 38.92 40.22 41.01

Лт-1118 36.79 37.18 37.80 37.57

Лт-1119 37.09 38.41 39.28 38.46

Лт-1219 35.57 37.69 36.20 35.11

chm-1126 39.97 39.19 40.19 40.38

Значение SEV 1.99 1.25 0.91

Табл. 3. Результаты предсказания массовой доли кальция в комбикормах для образцов валидационного набора по градуировочным моделям, построенным различными способами

Образец Реф. значе- Метод построения многомерной градуировочной модели Образец Реф. значение Метод построения многомерной градуировочной модели

ние PCR PLS МП PCR PLS МП

рк-0050 2.59 2.33 2.64 2.75 рк-0073 2.11 1.95 2.59 2.73

рк-0808 3.10 2.27 1.95 2.84 рк-0833 1.34 2.32 0.57 0.78

рк-0001 3.55 2.09 2.44 2.98 рк-0026 2.86 2.17 2.58 2.98

рк-0819 1.04 2.51 2.44 1.35 рк-0069 2.36 2.58 2.83 2.33

рк-0034 рк-0043 1.95 3.61 2.08 2.96 2.41 2.82 2.02 3.22 Значение SEV 0.86 0.87 0.51

ВЫВОДЫ

Полученные экспериментальные данные показывают, что при градуировке БИК-анализаторов методами МП для определения содержания жира

в зернах кукурузы, протеина в шроте подсолнечника, кальция в комбикормах значения стандартной ошибки валидации ^ЕУ) меньше аналогичных значений, полученных при градуировке альтернативными методами.

Это позволяет сделать вывод о том, что техника математического программирования может применяться в качестве метода для поиска регрессионных коэффициентов в задачах построения MVC, и в частности для градуировки БИК-анализаторов. Методы математического программирования в определенных случаях позволяют создавать градуировки, обеспечивающие более высокую точность, чем градуировки, полученные с помощью классических методов.

5. Bishop C.M. Neural networks for pattern recognition. Oxford: Clarendon Press, 1995. 482 p.

6. Skutin I., Zharinov K., Sushkova M. Mathematical programming method as a means of calibration of NIR analyzers // Journal of Chemistry & Chemical Engineering. 2012. Vol. 6, nu. 8. P. 692-697.

7. Sinha S.M. Mathematical programming theory and methods. Elsevier Science, 2006. 628 p.

8. ASTM standard E 1655-00. Practices for infrared multivariate quantitative analysis. 2000. 28 p.

СПИСОК ЛИТЕРАТУРЫ

1. Крищенко В.П. Ближняя инфракрасная спектроскопия. М.: Интерагротех, 1997. 638 с.

2. Wang Y., Veltkamp D., Kowalski B.R. Multivariate instrument standardization // Analytical chemistry. 1991. Vol. 63, nu. 23. P. 2750-2756.

3. Esbensen K.H. Multivariate analysis in practice. Oslo: Camo, 2000. 597 p.

4. Estienne F, Massart D.L. Multivariate calibration with Raman data using fast principal components and partial least square method // Analytical Chemistry Acta. 2001. Vol. 450, nu. 1-2. P. 123-129.

Санкт-Петербургский государственный технологический институт (Технический университет)

Контакты: Скутин Илья Владимирович, Skytin.Ilya@gmail.com

Материал поступил в редакцию 30.09.2013

THE APPLICATION OF MATEMATICAL PROGRAMMING METHODS FOR CALIBRATION OF NIR ANALYZERS

I. V. Skutin, K. А. Zharinov

Saint-Petersburg State Technological Institute (Technical University), RF

The possibility of improving the accuracy of the analysis of various samples carried out by means of an analyzer operating in the near infrared region is considered in this article. To solve the problem we suggest to create calibration using the mathematical programming methods.

Keywords: calibration, NIR analyzer, mathematical programming

REFERENСES

1. Wang Y., Veltkamp D., Kowalski B.R. Multivariate instrument standardization. Analytical chemistry, 1991, vol. 63, nu 23, pp. 2750-2756.

2. Esbensen K.H. Multivariate analysis in practice. 2000, Oslo, Camo, 597 p.

3. Estienne F, Massart D.L. Multivariate calibration with Raman data using fast principal components and partial least square method. Analytical Chemistry Acta. 2001, vol. 450, nu. 1-2, pp. 123-129.

4. Bishop C.M. Neural networks for pattern recognition. 1995, Oxford, Clarendon Press, 482 p.

5. Skutin I., Zharinov K., Sushkova M. Mathematical programming method as a means of calibration of NIR analyzers. Journal of Chemistry & Chemical Engineer-

ing. 2012, vol. 6, nu. 8, pp. 692-697.

6. Sinha S.M. Mathematical programming theory and methods. 2006, Elsevier Science, 628 p.

7. ASTM standard E 1655-00. Practices for infrared multivariate quantitative analysis. 2000, 28 p.

Contacts: Skutin Ilya Vladimirovich, Skytin.Ilya@gmail.com

Article arrived in edition: 30.09.2013

i Надоели баннеры? Вы всегда можете отключить рекламу.