Научная статья на тему 'Экспресс-анализ качества многокомпонентных смесей'

Экспресс-анализ качества многокомпонентных смесей Текст научной статьи по специальности «Математика»

CC BY
82
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научное приборостроение
ВАК
RSCI
Область наук
Ключевые слова
МНОГОКОМПОНЕНТНЫЙ АНАЛИЗ / MULTI-COMPONENT ANALYSIS / НЕСЕЛЕКТИВНЫЕ СЕНСОРЫ / ДИСКРИМИНАНТНЫЙ АНАЛИЗ / DISCRIMINATORY ANALYSIS / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / PRINCIPAL COMPONENT ANALYSIS / NONSELECTIVE SENSOR

Аннотация научной статьи по математике, автор научной работы — Новиков Лев Васильевич

С использованием имитационного моделирования исследован метод анализа качества многокомпонентных смесей (продуктов химической и пищевой промышленности) с использованием мультисенсорных систем. Предложена процедура отбраковки сенсоров с линейно-зависимой чувствительностью по рангу ковариационной матрицы откликов сенсоров и выбора их количества в системе по собственным числам этой матрицы. Моделируемая система осуществляет дискриминантный анализ (распознавание образов с учителем) многокомпонентных смесей по схеме: (обучение-измерение откликов сенсоров от контролируемого образца-вычисление вероятности их принадлежности обучающей выборке). Обработка данных ведется в пространстве главных компонент, что повышает вероятность правильной классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Новиков Лев Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXPRESS QUALITY ASSAY OF MULTICOMPONENT MIXTURE

Using simulation modeling we analyzed the method of quality assay of multicomponent mixture (products of chemical and food industries) that applies multisensory systems. We suggested the procedure of sensor rejection with linearly dependent sensibility according to matrix rank of correlation matrix of sensor response. We also proposed the selection of sensors in the system following the eigenvalues of this matrix. The simulated system realizes the discriminatory analysis (supervised pattern recognition) of multicomponent mixtures according to the scheme: (supervision-measuring of sensor responses from the controlled sample-calculation of the probability of their belonging training sample). Data processing is realized in the space of principal components, that increases the probability of correct classification.

Текст научной работы на тему «Экспресс-анализ качества многокомпонентных смесей»

ISSN 0868-5886 НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2014, том 24, № 2, c. 72-78

- СИСТЕМНЫЙ АНАЛИЗ ПРИБОРОВ И ИЗМЕРИТЕЛЬНЫХ МЕТОДИК - —

УДК 621.391.26 © Л. В. Новиков

ЭКСПРЕСС-АНАЛИЗ КАЧЕСТВА МНОГОКОМПОНЕНТНЫХ СМЕСЕЙ

С использованием имитационного моделирования исследован метод анализа качества многокомпонентных смесей (продуктов химической и пищевой промышленности) с использованием мультисенсорных систем. Предложена процедура отбраковки сенсоров с линейно-зависимой чувствительностью по рангу ковариационной матрицы откликов сенсоров и выбора их количества в системе по собственным числам этой матрицы. Моделируемая система осуществляет дискриминантный анализ (распознавание образов с учителем) многокомпонентных смесей по схеме: (обучение—измерение откликов сенсоров от контролируемого образца— вычисление вероятности их принадлежности обучающей выборке). Обработка данных ведется в пространстве главных компонент, что повышает вероятность правильной классификации.

Кл. сл.: многокомпонентный анализ, неселективные сенсоры, дискриминантный анализ, метод главных компонент

ВВЕДЕНИЕ

Одно из направлений развития новых методов анализа и аналитического приборостроения основано на применении в качестве чувствительных элементов металлооксидных, оптико-волоконных, электрохимических сенсоров, таких как ионосе-лективные электроды (ИСЭ), ионоселективные полевые транзисторы (ИСПТ) и др. [1, 2]. Созданные на их основе приборы привлекают невысокой стоимостью, малыми габаритами, имеют сравнительно высокую скорость экспресс-анализа растворов и газов. Однако многие современные химические и другие сенсоры при хорошей чувствительности имеют недостаточную селективность в многокомпонентных растворах, что сильно ограничивает их применение в аналитических целях. Выход был найден в создании мультисенсорных систем. Отклики сенсоров в таких системах образуют многомерный образ, который содержит информацию о качестве и количественном составе анализируемой смеси. Известны два способа извлечения этой информации из экспериментальных данных: решение уравнения Никольского и метод многомерной обработки [1, 3]. Для решения указанного уравнения требуется знание ряда параметров сенсоров, таких как коэффициенты селективности и активности основного и мешающего ионов, что сопряжено с рядом практических проблем. Поэтому предпочтительно использование второго подхода, не требующего априорной информации о сенсорах.

Сенсоры мультисенсорных систем должны реа-

гировать на все интересующие компоненты анализируемой смеси, т. е. обладать свойством перекрестной чувствительности. Они, кроме того, должны иметь воспроизводимые аналитические характеристики и неповторяемое от сенсора к сенсору покомпонентное распределение чувствительности.

В настоящей работе методом имитационного моделирования исследуется мультисенсорная система, в которой могут быть заданы число сенсоров, вид распределения чувствительности сенсора по компонентам (эпюра чувствительности), число компонентов анализируемой смеси и их концентрации. С помощью разработанной модели изучены возможности системы к распознаванию некачественных продуктов химической, фармацевтической или пищевой промышленности и количественной оценки несоответствия требуемому качеству. В основу обработки данных положен метод главных компонент (МГК), который широко применяется в задачах дискриминантного анализа и многомерной калибровки [4, 5].

ОПИСАНИЕ АЛГОРИТМА ИМИТАЦИОННОЙ МОДЕЛИ

Исследуемая мультисенсорная система показана на рис. 1 [3, 6]. Набор сенсоров погружен в многокомпонентный раствор. Разность потенциалов между каждым из сенсоров и электродом сравнения через коммутатор с предусилителями К поступает на вход аналого-цифрового преобразователя АЦП. Данные в цифровом виде обрабатываются

Рис. 1. Моделируемая муль-тисенсорная система

микропроцессором МП, который управляет также считыванием данных сенсоров. Результаты вычислений отображаются на дисплее Д.

Программа моделирования содержит следующие операции.

Подготовка обучающих образцов

1. Формирование эпюры распределения чувствительности по S компонентам для каждого из J сенсоров: Sens(s, j), s = 1, 2, ..., S; j = 1, 2, ..., J.

2. Формирование набора I обучающих образцов многокомпонентной смеси, концентрации компонентов C в каждом из которых не превышает предельных уровней (ПДК): C(k, s), k = 1, 2, ..., I. Вычисление откликов сенсоров: (I х J) -матрицы XS,

XS = C • Sens [4].

3. Проверка наличия линейной зависимости между эпюрами чувствительности сенсоров по

рангу ковариационной матрицы K = ( Xs ) • (XS) ,

о

где XS — центрированная по столбцам матрица XS, T — знак транспонирования.

Обучение

4. Вычисление собственных векторов (матрицы P) и собственных чисел X = \\,X1,...,XJ] (J х J) -ковариационной матрицы K и вычисление проекций обучающих образцов на оси ГК:

т=XS • P .

5. Оптимизация размерности пространства ГК J0 и выбор числа сенсоров системы из условия

\ << V

Анализ (классификация)

6. Формирование (1х S) -вектора концентра-

ций компонент контрольной пробы CI, не превышающих ПДК.

7. Вычисление откликов сенсоров от контрольной пробы XSI = CI • Sens .

8. Центрирование вектора XSI с помощью средних значений по столбцам матрицы XS .

9. Вычисление проекций контрольной пробы

о

на оси главных компонент Tc = XSI • P .

10. Вычисление величины вероятности соответствия контрольного образца требованиям ПДК.

11. Построение графических образов результатов вычислений в цикле.

12. Пошаговое изменение концентрации CI отдельных компонент контрольной пробы до уровня, превышающего ПДК.

13. Переход к п.7 и выход после завершения цикла.

14. Построение графических зависимостей по результатам вычислений.

Первый этап (пп. 1-3)

Это один из важнейших шагов подготовки мультисенсорной системы к работе. На этом этапе важно подобрать надлежащие образцы для обучения. При моделировании эти образцы формируются путем задания их концентраций C и эпюры чувствительности сенсоров Sens, после чего вычисляются их отклики по формуле п. 2 программы. В условиях производства это можно сделать после отладки технологии и проверки качества продукта в лабораторных условиях, выполнив I измерений при разных условиях (время суток, вид сырья и т. п.). Отклики сенсоров (их называют признаками) от всех образцов образуют матрицу объект—признак исходных данных XS = | xtj- J ,

где i = 1, ..., I — номер объекта (образца); j = 1, ..., J — номер признака. В J-мерном пространстве (пространстве измерений) отклики сенсоров выглядят, как "облако" из I точек обучающих образцов. Вследствие того что при измерении параметров идентичных объектов сенсорами с перекрестной чувствительностью неизбежно наличие корреляционных связей между откликами сенсоров, "облако" вытянуто в пространстве, т. е. имеет вид веретена [4, 5]. При проверке принадлежности контролируемого образца одному из классов в этом же пространстве может быть сформировано несколько "облаков".

На этапе подготовки целесообразно также проверить наличие сенсоров с линейно зависимыми эпюрами чувствительности. Для этого необходимо вычислить ранг (J х J) ковариационной матрицы K . Если этот ранг равен J, то линейная зависимость отсутствует. В противном случае нужно удалить (или заменить) один или несколько сенсоров, связанных друг с другом линейной зависимостью.

Этап обучения (пп. 4, 5)

На этапе обучения формируется пространство главных компонент (ГК). Для получения статистически устойчивых результатов число образцов I должно быть большим (по крайней мере больше десяти).

Базисные векторы пространства ГК pr =

= [ p1r, p2r,..., p{ ,r ] , (r = 1,..., J) образуют векторы-

столбцы матрицы Р, которую называют матрицей нагрузок (loadings). Представление исходных данных ХS в новой системе координат производится по формуле п. 4.

Матрицу Т называют матрицей счетов (scores). Столбцы матрицы Т обозначают t j =

= [i1j., t2j,..., tj j ], (j = 1,.., J) и называют главными компонентами, а t1 j, t2j.,..., tj j — проекции первого, второго и т. д. образцов на j -ю координатную ось. Все эти проекции являются элементами множества, которое для дальнейшего обозначим как x3 (x е R, j = 1,2,..., J) .

Вычислением матриц P и T завершается процесс обучения системы.

Существенной важнейшей для практики особенностью МГК является способность максимизировать дисперсию первых ГК, что позволяет без потери информации удалить часть последних столбцов матрицы Т, сократив ее до размера I х J0 (J0 < J), т. е. уменьшить размерность пространства ГК и соответственно число сенсоров до

величины J0. Для этой цели используется критерий Кайзера, или критерий "каменистой осыпи", по которому собственное число (дисперсия) самой старшей J0 -й ГК Л^ << Л [4].

Еще одной особенностью МГК является некоррелированность столбцов tу матрицы Т, т. е. кова-

риация от Т образует диагональную матрицу со значениями дисперсии в диагонали

< j = =1-i

(tj - tj) (tj -tj), j = ft-J0), где tj

среднее значение по у -му столбцу матрицы Т, причем < ><2 >... > < . Так как = 0 для всех

j , то <j = ^ = tjtj .

Этап анализа

На этапе анализа (или классификации) решается задача отнесения контролируемой пробы к продуктам соответствующего качества, или к какому-либо классу (пп. 6-13). Если, например, точка от контролируемой пробы в J0 -мерном пространстве находится внутри "облака", то контролируемый образец соответствует требуемому качеству. Поэтому очень важно зарегистрировать ситуацию, когда точка от этой пробы находится вне "облака". Это можно легко сделать в пространстве ГК, т. к. в этом случае координатные оси МГК упорядочены по убыванию дисперсии проекций исходных данных на эти оси: первая главная компонента (ГК1) проходит по оси веретена, вторая — перпендикулярно ей вдоль максимальной дисперсии и т. д. В процессе анализа по формуле п. 9 вычисляется вектор Tc =( 1с1,1с2,...,^ ) проекций на оси

ГК откликов сенсоров от контролируемого образца.

За количественную оценку качества контролируемого образца примем вероятность его попадания в "облако". Для ее вычисления используем J0 главных компонент обучающих образцов (матрицу I х J0) и построим функцию многомерной

плотности вероятности, предполагая закон распределения нормальным. Учитывая отмеченные выше свойства МГК, эта функция может быть записана в виде

1

-exp<

J x 2

(2^y°'2 CT^...^ 1 [ k=12^k2

. (1)

За количественную оценку степени близости контролируемого образца к совокупности обучающих (т. е. надлежащего качества) образцов можно принять нормированную вероятность

•с1 +82

Рс = ( 2^)л/2 | ...

^ -8/ 2

•с /0 +8 2

... | ^(*!,...,)= ехР

(2)

•с/0 -82 I к к J

где •ск — проекция контролируемого образца на к -ю ось и интегрирование плотности вероятности (1) ведется в 8 -окрестности точек ^ к.

Нетрудно убедиться в том, что выражение под знаком ехр в формуле (2) определяет относительное евклидово расстояние между точкой контролируемого образца в /0 -мерном пространстве и центром тяжести, центроидом, "облака", координатами которого являются средние значения •к = 0, к = 1,2,...,/0. Обозначим это расстояние как

/ •2 I12

dc, т. е. dc = \ . Тогда

I к=1 о I

Рс = ехр 2 d2c

(3)

Формулы (1)—(3) используются в п. 10 программы моделирования.

Величина Рс является обобщенной характеристикой качества контролируемого продукта. Непрерывный мониторинг Рс на технологической линии дает возможность оперативно отреагировать на ухудшение этого качества. Во всех случаях из практических соображений должны быть установлены некоторые границы качества, например, при 1 > Рс > 0.6 — продукт хорошего, при 0.6 > Рс > 0.2 — среднего, при Рс < 0.2 — пограничного качества.

РЕЗУЛЬТАТЫ МОДЕЛИРОВАНИЯ

Рассмотрим мультисенсорную систему, сенсоры которой чувствительны в разной степени ко всем компонентам анализируемой смеси, число которых принято равным / = 12 . Пример эпюры чувствительности трех сенсоров приведен на рис. 2. Очевидно, что в этом случае изменение концентрации любой компоненты будет отражено в откликах всех сенсоров набора, что затрудняет или делает невозможным идентифицировать компоненту вещества, по которой произошло превышение ПДК. Тем не менее превышение контрольного образца над "облаком" обучающих образцов может быть обнаружено в процессе обработки откликов сенсоров.

Рис. 2. Примеры покомпонентной чувствительности неселективных сенсоров

На рис. 3 показано на примере двумерного пространства, что для решения этой задачи пространство главных компонент (ГК1, ГК2) имеет преимущество перед пространством измерений (Х1, Х2), т. к. проекция контролируемого

2

к

Х2

Рис. 3. "Облако" обучающих образцов (о) и точка контрольного образца в двумерном пространстве.

XI, Х2 — координатные оси пространства измерений; ГК1, ГК2 — оси пространства главных компонент

0 1 Данные первого сенсора

XI

образца на ось ГК2 в отличие от других проекций удалена от зоны рассеяния точек обучающих образцов. Это обстоятельство позволяет с большой вероятностью сделать вывод о несоответствии контролируемого образца требуемому качеству.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Необходимое количество сенсоров в мульти-сенсорной системе можно оценить по графику изменения собственных чисел X = [Я1,Л2,...,Л/] (вычисляемых в п. 4) от номера ГК (рис. 4), из которого следует, что для выбранного набора сенсоров и обучающих образцов размерность пространства (и число сенсоров) может быть сокращена с J = 12 до J0 = 6 .

Выполним далее вычисления по пп. 8-13 и п. 14, приняв для определенности границы допустимых концентраций равными среднеквадра-тическому отклонению <Ук, к = 1,2,..., J0, по каждой из координатных осей ГК. На рис. 5, а, показан пример, когда контролируемый образец соответствует требуемому качеству (находится в зоне ПДК), а на рис. 5, б, — одна из компонент превышает ПДК, причем по одной из координат (ГК5) это превышение максимально. Если другие компоненты вещества превышают ПДК, то распределения проекций по осям ГК будут отличаться. Этим обстоятельством можно воспользоваться для идентификации компонент. На рис. 6 показаны проекции (отклики сенсоров при превышении ПДК) на координатные оси пространства измерений. Сравнив этот рисунок с рис. 5, б, можно заметить, что в пространстве ГК уровни контроли-

Рис. 4. График распределения собственных чисел ковариационной матрицы данных обучающих образцов К по главным компонентам

руемого образца больше отдалены от зоны ПДК, чем в пространстве измерений (см. также рис. 3).

На рис. 7 показана зависимость вероятности (2) нахождения контрольного образца в "облаке" обучающих образцов: эта вероятность, естественно, уменьшается (и становится меньше 0.6) после достижения одной из проекций (в данном случае ГК5 (рис. 5, б)) верхнего уровня ПДК (dc = 1 по оси абсцисс). Это означает, что если полученная

Рис. 5. Уровни главных компонент контрольного образца в полярных координатах.

а — концентрации в пределах ПДК; б — одна из компонент превышает ПДК (штриховые линии — нижний и верхний уровни ПДК)

1 ^'Сенсор 2

/Сенсор 3 ^¡^ ^ЖД

Г ' , Сенсор 4 Ж 1 '■■ Vi , V \ \ V ' -V \V* \ --Л* \ Л1 V V д \ V1 Ш' ' " Сенсор 1 ¿/-¡Сенсор 6 /

Сенсор 5

Рис. 6. Отклики сенсоров при превышении одной из компонент ПДК

Рис. 7. Вероятность классификации контрольного образца

по формуле (3) вероятность будет больше 0.6 (для принятой границы допустимых концентраций), то этот образец соответствует требуемому качеству с вычисленной вероятностью и т. д.

ВЫВОДЫ

В работе предложены подходы для выбора числа сенсоров в мультисенсорных системах количественной оценки качества продуктов, как вероятности классификации. Показано преимущество использования метода главных компонент для решения этих задач.

На основе неселективных сенсоров с перекрестной чувствительностью может быть создан недорогой прибор для экспресс-анализа качества многокомпонентных смесей. Прибор гарантирует высокую вероятность распознавания некачественного продукта, в частности, химической или пищевой промышленности.

СПИСОК ЛИТЕРАТУРЫ

1. Легин А.В., Рудницкая А.М., Власов Ю.Г. "Электронный язык" системы химических сенсоров для анализа водных сред // Проблемы аналитической химии. 2011. Т. 14. С. 72-119.

2. Щербакова Л.Ф., Шантроха А.В., Егоров И.В., Щербаков А.А. Сенсорные системы для экспресс-определения токсичных химикатов // Российский химический журнал. 2007. Т. LI, № 2. С. 127-131.

3. Власов Ю.Г., Легин А.В., Рудницкая А.М. Мульти-сенсорная система типа электронный язык — новые возможности создания и применения химических сенсоров // Успехи химии. 2006. Т. 75, № 2. С. 141-150.

4. Большаков А.А., Каримов Р.Н. Методы обработки многомерных данных и временных рядов. М.: Горячая линия-Телеком, 2007. 522 с.

5. Эсбенсен К. Анализ многомерных данных. Черноголовка: Изд-во ИПХФ, 2005. 158 с.

6. Кисляков Ю.Я., Кислякова Л.П., Зайцева А.Ю. Обу-

чаемая мультисенсорная электрохимическая система "электронный язык" для контроля биологических сред // Материалы XVI Международной конференции по нейрокибернетике, 24-28 сентября 2012 г., Ростов-на-Дону. С. 93-96.

Институт аналитического приборостроения РАН, г. Санкт-Петербург

Контакты: Новиков Лев Васильевич, novik3 8 @таП. ги

Материал поступил в редакцию 20.01.2014

EXPRESS QUALITY ASSAY OF MULTICOMPONENT MIXTURE

L. V. Novikov

Institute for Analytical Instrumentation of RAS, Saint-Petersburg, RF

Using simulation modeling we analyzed the method of quality assay of multicomponent mixture (products of chemical and food industries) that applies multisensory systems. We suggested the procedure of sensor rejection with linearly dependent sensibility according to matrix rank of correlation matrix of sensor response. We also proposed the selection of sensors in the system following the eigenvalues of this matrix. The simulated system realizes the discriminatory analysis (supervised pattern recognition) of multicomponent mixtures according to the scheme: (supervision—measuring of sensor responses from the controlled sample—calculation of the probability of their belonging training sample). Data processing is realized in the space of principal components, that increases the probability of correct classification.

Keywords: multi-component analysis, nonselective sensor, discriminatory analysis, principal component analysis

Contacts: Novikov Lev Vasilyevich, novik3 [email protected]

Article arrived in edition: 20.01.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.