Научная статья на тему 'Метод динамического построения признакового пространства эталонной обучающей выборки на основе бинарной классификации'

Метод динамического построения признакового пространства эталонной обучающей выборки на основе бинарной классификации Текст научной статьи по специальности «Математика»

CC BY
122
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Научный журнал
Область наук
Ключевые слова
ОБУЧАЮЩАЯ И КОНТРОЛЬНАЯ ВЫБОРКИ / СООБЩЕНИЯ О НЕСООТВЕТСТВИЯХ / КОРРЕКТИРУЮЩИЕ И ПРЕВЕНТИВНЫЕ ДЕЙСТВИЯ / СКОЛЬЗЯЩИЙ КОНТРОЛЬ / ЭМПИРИЧЕСКАЯ ОЦЕНКА

Аннотация научной статьи по математике, автор научной работы — Агаджанян Рубен Борисович

Рассматривается задача формирования характеристических параметров объектов эталонной обучающей выборки для построения алгоритма идентификации несоответствий в сложных стохастических системах. Для классификации несоответствий вводится множество из двух классов для построения алгоритма отображения объектов обучающей выборки в один из заданных классов. Представлен машинный метод иттераций, при котором на каждом последующем шаге иттерации производится формирование новых признаков объектов на основе классификации, полученной в предыдущем шаге иттерации. Данный метод позволяет путем замены многопараметрической классификации на множество из двух классов упростить модель классификации, но при этом за счет алгоритма пошагового преобразования класса в признаки обеспечить полноту решения задачи классификации. Проведена оценка погрешностей в рассматриваемом методе моделирования процессов анализа данных обучающей и контрольной выборок, представляющих собой сообщения о несоответствиях. Данный метод был применен при проектировании информационной системы управления качеством в фармацевтическом производстве. На основе полученных результатов проведен анализ зависимости количества ошибок алгоритма классификации от всего числа анализируемых объектов из обучающей выборки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод динамического построения признакового пространства эталонной обучающей выборки на основе бинарной классификации»

представляет собой черную массу, рассыпающуюся в порошок. Пирокарбон часто используется в промышленности. Его можно утилизировать как топливо или использовать в процессе получения азота и фосфора. Также при пиролизе образуется первичный деготь, из которого можно получить парафин, асфальтены, карбоновые кислоты, фенолы, коксовую пыль, органические основания [3, 4, 5].

Список литературы

1. Хисамеева Л.Р. Обработка осадков сточных вод / А.С. Селюгин, Р.Н. Абитов, А.В. Бусарев, Н.С. Урмитова // Казань, 2016. С. 35.

2. Пахненко Е.П. Осадки сточных вод и другие нетрадиционные органические удобрения // 3 издание, Москва, 2015. С. 15-16.

3. Терещенко С.И. Совершенствование методов очистки промышленных сточных вод и улучшение состояния АПК на примере свеклосахарного производства // С.И. Терещенко, А.А. Коростель, В.И. Орехова, Сборник «Научно-технический прогресс, как фактор развития современного общества». Оренбург, 2018. С. 124-126.

4. Лихота Е.В. Обеззараживание питьевых вод / Е.В. Лихота, В.И. Орехова «Научное обеспечение агропромышленного комплекса». // Сборник статей по материалам 10 всероссийской конференции молодых ученых, посвященной 120-летию И.С. Косенко, 2017. С. 1100-1101.

5. Терещенко С.И. Очистка сточных вод поселка Бухта Инал Туапсинского района / С.И. Терещенко, В.И. Орехова«Научное обеспечение агропромышленного комплекса», // Сборник статей по материалам 71 -й научно-практической конференции студентов по итогам НИР за 2015 г., 2016. С. 140-143.

МЕТОД ДИНАМИЧЕСКОГО ПОСТРОЕНИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА ЭТАЛОННОЙ ОБУЧАЮЩЕЙ ВЫБОРКИ НА ОСНОВЕ БИНАРНОЙ КЛАССИФИКАЦИИ Агаджанян Р.Б.

Агаджанян Рубен Борисович — аспирант, кафедра информатики и прикладной математики, Ереванский государственный университет, г. Ереван, Республика Армения

Аннотация: рассматривается задача формирования характеристических параметров объектов эталонной обучающей выборки для построения алгоритма идентификации несоответствий в сложных стохастических системах. Для классификации несоответствий вводится множество из двух классов для построения алгоритма отображения объектов обучающей выборки в один из заданных классов. Представлен машинный метод иттераций, при котором на каждом последующем шаге иттерации производится формирование новых признаков объектов на основе классификации, полученной в предыдущем шаге иттерации. Данный метод позволяет путем замены многопараметрической классификации на множество из двух классов упростить модель классификации, но при этом за счет алгоритма пошагового преобразования класса в признаки обеспечить полноту решения задачи классификации. Проведена оценка погрешностей в рассматриваемом методе моделирования процессов анализа данных обучающей и контрольной выборок, представляющих собой сообщения о несоответствиях. Данный метод был применен при проектировании информационной системы управления качеством в фармацевтическом производстве. На основе полученных результатов проведен анализ зависимости количества ошибок алгоритма классификации от всего числа анализируемых объектов из обучающей выборки.

Ключевые слова: обучающая и контрольная выборки, сообщения о несоответствиях, корректирующие и превентивные действия, скользящий контроль, эмпирическая оценка.

Введение. Актуальность задачи классификации сообщений о возможных несоответствиях обусловлена необходимостью непрерывного контроля стабильности системы путем анализа соответствия ключевых показателей заданным эталонным значениям. Под нарушением стабильности будем понимать наличие несоответствий ключевых контролируемых показателей

20

заданным эталонным значениям. К таким системам, в частности относится фармацевтическое производство, которое должно соответствовать требованиям ряда отраслевых стандартов, среди которых - надлежащая производственная практика GMP (Good Manufacturing Practic) и система корректирующих и превентивных действий CAPA (Corrective and Preventive Actions) [1,2,3]. Согласно стандартам GMP и CAPA при поступлении сообщений о возможных отклонениях необходимо исследовать возникшую проблему, идентифицировать источники несоответствий, отклонений или инцидентов и провести необходимые корректирующие и превентивные действия для устранения возникших проблем. Нарушение стабильности в фармацевтическом производстве имеет место если обнаружены отклонения от системы норм, правил и указаний, представленных стандартом GMP в отношении производства лекарственных средств. Задача идентификации несоответствий в стохастических системах CAPA является первостепенной задачей, в частности для производителей лекарственных препаратов, к которым предъявляются особенно строгие требования к качеству продукции. В данной работе представлен метод автоматизации процессов обнаружения и идентификации несоответствия на основе алгоритма классификации и сравнения значений ключевых параметров с заданными эталонными показателями.

Теоретико-множественная модель. Пусть задана обучающая выборка М; = (m ^т 2,. . .т¡) , элементы которой представляют собой пару <х,у> , где х- сообщение о несоответствии, у- класс сообщения, принадлежащий множеству из двух элементов Y = {0, 1}. Обозначим признаки сообщения в виде вектора

/(х)={Д (х) , /2(х) ,. . . /„ (х) } где i = ( 1,0 (1) Значение признаков может быть действительным (числовым) или текстовым

(смысловым). Вектор /1 (х£) , /2(х;) ,. . (х;) будет представлять собой упорядоченную последовательность ключевых признаков сообщения х; о несоответсвии.

Имеет место отображение элемента х; из заданной обучающей выборки М; со свойствами / ( х;) на некоторое конечное подмножество классов Y; ={ Y( х^ , Y (х2 ) ,. . . Y(х;) } , где Y; <= Y. Здесь Y- конечное множество заданных классов, а элементы Y (х;) представляют собой вектор классов заданной длины:

Y(х) = {у-(х) е Yi , у2 (х) е Y2.....у,(х) е Yfc} (2)

Задача состоит в определении решающей функции д (М;, Y;) на основе обучающей выборки сообщений М; и соответствующих классов Y;. Данная функция должна поставить в соответствие элементу со свойствами некоторый

вектор классов , где . Необходимо найти алгоритм

, который реализует отображение , согласно установленной решающей функции

д ( х;) , составленной на выборке т; <= М;, где i = ( 1 , i) , I- количество сообщений в исходной выборке. Множество Мк представляет собой некоторую контрольную выборку сообщений, на которой будем проверять работу алгоритма а(т;) . На рис. 1. представлена структурная схема процесса отображения нового сообщения на вектор тематических классов с

помощью алгоритма , построенного на обучающей выборке.

Рис. 1. Структурная схема отображения сообщения в набор тематических классов

Предлагаемый метод основан на гипотезе отображения схожих сообщений в один и тот же вектор тематических классов (гипотеза компактности) [4,5], которая заключается в том, что

21

близким по признакам сообщениям соответствуют одни и те же классы (вектор классов). В таком случае, если иметь некоторую контрольную выборку (М, У), то необходимо классифицировать новые сообщения путем нахождения близких по признакам сообщений из контрольной выборки [6,7].

Введем следующее понятие:

Р1(хУ) = (Р(ХрХ-1),Р(хУ,х2) ,. . . Р(ху',х;) ) - множество весовых коэффициентов, показывающих степень близости (схожести) нового сообщения с сообщениями из выборки М;. Чем выше значение Р ( ху',х;) , тем ближе по признакам сообщение хУ к х;. Тогда, алгоритм а: М —■ У классификации хУ можно записать как нахождение вектора классов У(хУ) = для , соответствующего тому сообщению , при котором обеспечивается

максимальное значение коэффициента Р ( хУ,т¡):

а(ху,М;) = (д(х^| тах(т.ЕМд Р(хУ,т)) (3)

Определим значения Р ( хУ , т ;) . Для этого рассмотрим два возможных случая:

1. Признаки в сообщениях и представлены действительными значениями

тогда, используя формулу евклидова

расстояния получим:

Р 1(хЧ) = (!5=11 ил(ххУ) - и^тЖ?2 (4) _

Таким образом можем рассчитать степень близости нового сообщения к каждому сообщению т ; из выборки М;.

2. Признаки в сообщениях и представлены смысловыми (текстовыми) значениями

тогда в качестве значений

будем рассматривать следующее выражение:

Р ((х) =х_ , (5)

где - количество смысловых признаков в сообщении .

Будем считать, что выражение равно «1», если оно истинно и равно «0»

в противном случае.

На практике часто можно наблюдать признаки, представленные как смысловыми значениями, так и в виде действительных чисел. В таких случаях можно рассматривать весовой коэфициент в виде некоторой функции (суммы) от двух рассмотренных выше типов весов:

1/2

Р 1(хУ) = М! '=11 иа(х_') - иа(щ)| ) 12 + А2 ( 1 _ , (6)

здесь Л1 и Х2 - коэфициенты нормирования, которые можно подобрать таким образом, чтобы сумма Р1(хУ) находилась бы в некоторой заданной области, например в пределах (0^1).

На рис. 2. представлена структурная схема процесса отображения нового сообщения на вектор тематических классов путем нахождения ближайших «соседей» из

исходной выборки и соответствующего вектора .

Рис. 2. Структурная схема определения класса нового сообщения и оптимизации весового коэфициента на основе обучающей выборки. 22

Однако, данный подход, основанный на нахождении близкого по признакам сообщения является неустойчивым к возможным погрешностям [8]. Это обусловлено следующими двумя возможными причинами:

- двум близким сообщениям могут соответствовать различные классы;

- класс, определенный по обучающей выборке для сообщения с контрольной выборки не соответствует данным, полученным эмпирическим путем, которые будем считать эталонными.

Одним из подходов к преодолению данной проблемы заключается в решении задачи нахождения такого к ближайших по признакам сообщений при котором алгоритм классификации обеспечит выходные результаты с минимальными погрешностями. Это можно сделать с помощью метода скользящего контроля [9], основанного на эмпирической оценке рассматриваемого нами алгоритма классификации путем сопоставления вычисляемых данных на контрольной выборке с данными, имеющими на обучающей выборке. Как и прежде будем считать, что выражение [ У(т;) =£ У(х;') ] равно «1», если оно истинно и равно «0» в противном случае. Сумму ошибок представим в виде выражения

в (ич,*;) = £ [ У(т0* У (хУ) ] . (7)

Таким образом выбор оптимального алгоритма заключается в последовательном выполнении следующих шагов иттерационного процесса:

- нахождении близких сообщений из обучающей выборки для новых поступающих сообщений из контрольной выборки,

- оценки эмпирических данных с вычисляемыми значениями путем назначения весовых коэфициентов и сравнения результатов с допустимым уровнем погрешности,

- динамическая настраиваемость ключевых параметров скользящего контроля и признаков объектов.

Ниже представлен алгоритм реализации итерационного процесса классификации сообщений о несоответствиях:

1. Инициирование обучающей выборки М; .

2. Выбор сообщения контрольной выборки х;' .

3. Регистрация вектора признаков / ( *;) сообщения и нахождение номера первого близкого сообщения из обучающей выборки ( к : = 1 ) .

4. Определение класса У в соответствие с близким сообщением из обучающей выборки.

5. Сопоставление результата классификации с эмпирическими данными и подсчет коэфициента ошибки .

6. Если в (и ¡,х) > £, то увеличить размерность выборки к := к + 1. Повторить пункты 3,4. Здесь £- заданный порог (целое число).

7. Если в (и ¡,х) < £, то значение класса определенного на этапе 3 добавляем в качестве признака в рассматриваемое сообщение из контрольной выборки и повторяем пункты 3-5.

Циклическая проверка продолжается до тех пор пока количество динамически добавляемых признаков из значений классов не достигнет заданного числа, предустановленного до начала работы алгоритма классификации. Количество признаков устанавливается в соответствие с решаемой задачей и предметной областью.

Итак, представленный алгоритм позволяет реализовать основную задачу классификации сообщений о несоответствиях путем выполнения иттерационного процесса пошаговой оптимизации ключевых параметров нахождения близких сообщений из обучающей выборки и динамической настройки весовых коэфициентов. Одновременно, данный пошаговый алгоритм минимизирует вероятность появления погрешности в вопросе нахождения тематического класса для рассматриваемых текущих сообщений из контрольной выборки. Приведем пример из фармацевтической отрасли: Исходные признаки обучающей выборки: тип несоответствия: (х^ = «Обнаруженный», подозреваемый объект: /^(х^ = «Оборудование», причина несоответствия: /3( х= «Ошибка сотрудника» , источник несоответствия: /4 (х-^ = «Технический отдел», х^ —■ у ^состояние: критическое.

Заслуживает внимания подход к динамическому назначению каждому элементу обучающей выборки некоторого весового коэфициента, задающего степень важности данного обучающего

Ä TT t \ Lj=1lYl.m) = Y{Xj I

сообщения. Для этого введем переменную у( m¡) = —---, где д- количество

сообщений из контрольной выборки, для которых близким по признакам было сообщение Ху из обучающей выборки, п- количество элементов в контрольной выборке. Очевидно, что коэфициент у ( m¡) следует рассматривать при значении fe, при котором минимален показатель ошибки при сравнении обучающей и контрольной выборок, иными словами, когда выполняется условие в < £. В таком случае, в представленном алгоритме классификации на шаге итерации, при котором будет достигнуто условие в < £ , можно добавить функцию вычисления нового значения для элемента из обучающей выборки.

Заключение. Данный метод динамического определения признаков сообщений и классификации несоответствий реализован в рамках проектирования информационной системы контроля качества на предприятиях фармацевтической отрасли. Используя метод скользящего контроля, предложенный алгоритм определяет число близких по заданным признакам сообщений, при которых погрешность, допущенная машинным методом классификации меньше заданного допустимого порога. Для сравнения результатов машинной классификации используются данные, получаемые эмпирическим путем. На основе обнаруженных близких по признакам сообщений из обучающей выборки легко определить релевантные классы, которые содержат информацию о степени риска («Критический», «Значительный», «Несущественный», «Неопределенный»), вероятной причине отклонения («Ошибка устройства», «Неправильный метод», «Процедурная ошибка»...), и данных по проведению корректирующих и превентивных действий («Замена датчика автоклава», «Профилактика упаковочной машины», «Изменения в процедуре подготовки комнаты», «Обучение сотрудника» ...). Таким образом, можно составить компьютерную программу генерации экспертного заключения на основе классификации сообщений из контрольной выборки путем анализа обучающей выборки. При этом, основные ключевые показатели классификации динамически изменяются (оптимизируются) каждый раз после обработки очередного нового сообщения из контрольной выборки. Таким образом, рассматриваемый алгоритм реализует принцип саморазвития и самонастраиваемости системы классификации несоответствий, который минимизирует погрешности результатов машинной обработки данных за счет большого числа иттераций и пошаговой оптимизации весовых коэфициентов. Дальнейшим развитием предложенного метода является исследование вопросов классификации сообщений, содержащих неструктурированные тексты [10].

Список литературы

1. Raj A.A. review on corrective action and preventive action (CAPA) // African Journal of Pharmacy and Pharmacology, 2016. V. 10 (1). P. 1-6.

2. Rodriguez J. CAPA in the Pharmaceutical and Biotech Industries. Woodhead Publishing. 1st Edition, 2015. 248 p.

3. Van Trieste M. CAPA within the Pharmaceutical Quality System // ICH Q10 Conference. P9: Pharmaceutical Quality System Elements: Continual Improvement of the Process (CAPA), 2011. Brussels, Belgium.

4. Загоруйко Н.Г. Гипотезы компактности и Х-компактности в методах анализа данных. // Сиб. журн. индустр. матем., 1998. Том 1. С. 114-126.

5. Игнатьев НА. Интеллектуальный анализ данных и гипотеза о компактности классов: Меры компактности, критерии оценок. Palmarium Academic Publishing, 2016. 100 с.

6. Поцыкайло А.А. Использование метода к-ближайших соседей при распознавании полутоновых изображений. // Известия ЮФУ, 2011. С. 258-260.

7. Стрюков Р.К., Шашкин А.И. О модификации метода ближайших соседей. // Вестник ВГУ, 2015. № 1. С. 114-120.

8. Демиров В.В. Специфика и направления машинного представления процессов обучения. // Онтология проектирования, 2014. № 1. С. 78-85.

9. Игнатов Д.И. Метод скользящего контроля для оценки качества рекомендательных интернет-сервисов. // Тверь. Двенадцатая национальная конференция по искусственному интеллекту, 2010. Том 1. С. 175-182.

10. Козлов П.Ю. Методы автоматизированного анализа коротких неструктурированных текстовых документов. // Программные продукты и системы, 2017. № 1. С. 100-105.

i Надоели баннеры? Вы всегда можете отключить рекламу.