Научная статья на тему 'КЛАССИФИКАЦИЯ МИКРОСКОПИЧЕСКИХ ИЗОБРАЖЕНИЙ МОКРОТЫ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ БАЙЕСОВСКИХ НЕЙРОННЫХ СЕТЕЙ'

КЛАССИФИКАЦИЯ МИКРОСКОПИЧЕСКИХ ИЗОБРАЖЕНИЙ МОКРОТЫ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ БАЙЕСОВСКИХ НЕЙРОННЫХ СЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
58
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СВЕТОВАЯ МИКРОСКОПИЯ / БАЙЕСОВСКИЕ НЕЙРОННЫЕ СЕТИ / ВАРИАЦИОННЫЙ ВЫВОД / РЕПАРАМЕТРИЗАЦИЯ / АЛЕАТОРИЧЕСКАЯ И ЭПИСТЕМИЧЕСКАЯ НЕОПРЕДЕЛЕННОСТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шеломенцева Инга Георгиевна

Методы вероятностного глубокого обучения являются основополагающими для распознавания сложных структур в наборах данных, поиска малоразмерных объектов в условиях шума и широко применяются для классификации медицинских изображений. Авторы иллюстрируют реализацию процедуры классификации на основе вероятностных байесовских нейронных сетей для распознавания микроскопических изображений образцов мокроты, окрашенной по методу Циля-Нильсена. Авторы проводят эксперимент с различными сетевыми структурами вероятностной байесовской сети и входными данными, и производят поиск модели с наименьшей ошибкой обучения. Модель, содержащая сверточные детерминированные слои и ориентированная на оценку алеаторической неопределенности, показала наилучшие результаты по параметрам accuracy и тестовой ошибки на экспериментальном наборе данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шеломенцева Инга Георгиевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF MICROSCOPY SPUTUM IMAGE USING PROBABILISTIC BAYESIAN NEURAL NETWORK

Probabilistic and deep learning methods are fundamental for recognizing complex structures in data sets, searching for small objects in noisy conditions, and are widely used for classifying medical images. Light microscopy medical images used to detect pathological processes are characterized by fuzziness in the representation of objects of interest, blurred borders, noise, small sized objects of interest, and low spatial resolution. The authors illustrate the implementation of a classification procedure based on probabilistic Bayesian neural networks for classifying light microscopic images of sputum samples stained by Ziehl-Neelsen method. The authors conduct an experiment with various network structures of a probabilistic Bayesian network and input datasets, and search for a model with the smallest learning error. The model containing convolutional deterministic layers and focused on the assessment of aleatoric uncertainty showed the best results in terms of accuracy and test error on the experimental data set.

Текст научной работы на тему «КЛАССИФИКАЦИЯ МИКРОСКОПИЧЕСКИХ ИЗОБРАЖЕНИЙ МОКРОТЫ С ИСПОЛЬЗОВАНИЕМ ВЕРОЯТНОСТНЫХ БАЙЕСОВСКИХ НЕЙРОННЫХ СЕТЕЙ»

УДК 004.852.2

DOI 10.52575/2687-0932-2022-49-3-575-581

Классификация микроскопических изображений мокроты с использованием вероятностных байесовских нейронных сетей

Шеломенцева И.Г.

Красноярский государственный медицинский университет им. проф. В.Ф. Войно-Ясенецкого, Россия, 660022, г. Красноярск, ул. Партизана Железняка, 1 E-mail: inga.shell@yandex.ru

Аннотация. Методы вероятностного глубокого обучения являются основополагающими для распознавания сложных структур в наборах данных, поиска малоразмерных объектов в условиях шума и широко применяются для классификации медицинских изображений. Авторы иллюстрируют реализацию процедуры классификации на основе вероятностных байесовских нейронных сетей для распознавания микроскопических изображений образцов мокроты, окрашенной по методу Циля-Нильсена. Авторы проводят эксперимент с различными сетевыми структурами вероятностной байесовской сети и входными данными, и производят поиск модели с наименьшей ошибкой обучения. Модель, содержащая сверточные детерминированные слои и ориентированная на оценку алеаторической неопределенности, показала наилучшие результаты по параметрам accuracy и тестовой ошибки на экспериментальном наборе данных.

Ключевые слова: световая микроскопия, байесовские нейронные сети, вариационный вывод, репараметризация, алеаторическая и эпистемическая неопределенность

Для цитирования: Шеломенцева И.Г. 2022. Классификация микроскопических изображений мокроты с использованием вероятностных байесовских нейронных сетей. Экономика. Информатика, 49(2): 575-581. DOI 10.52575/2687-0932-2022-49-3-575-581

Classification of Microscopy Sputum Image Using Probabilistic Bayesian Neural Network

Inga G.Shelomentseva

Prof. V.F. Voino-Yasenetsky Krasnoyarsk State Medical University 1 Partizan Zheleznyak St, Krasnoyrsk, 660022, Russia E-mail: inga.shell@yandex.ru

Abstract. Probabilistic and deep learning methods are fundamental for recognizing complex structures in data sets, searching for small objects in noisy conditions, and are widely used for classifying medical images. Light microscopy medical images used to detect pathological processes are characterized by fuzziness in the representation of objects of interest, blurred borders, noise, small sized objects of interest, and low spatial resolution. The authors illustrate the implementation of a classification procedure based on probabilistic Bayesian neural networks for classifying light microscopic images of sputum samples stained by Ziehl-Neelsen method. The authors conduct an experiment with various network structures of a probabilistic Bayesian network and input datasets, and search for a model with the smallest learning error. The model containing convolutional deterministic layers and focused on the assessment of aleatoric uncertainty showed the best results in terms of accuracy and test error on the experimental data set.

Keywords: light microscopy, Bayesian neural networks, variational inference, reparametrization, aleatoric and epistemic uncertainty

For citation: Shelomentseva I.G. 2022. Classification of Microscopy Sputum Image Using Probabilistic Bayesian Neural Network. Economics. Information technologies, 49(3): 575-581 (in Russian). DOI 10.52575/2687-0932-2022-49-3-575-581

Введение

Сверточные нейронные сети и методы машинного обучения в настоящее время стали стандартом для работы с изображениями [Shin et al., 2016; Serrao et al., 2020]. Одним из основных ограничений использования сверточных нейронных сетей является то, что для создания оптимальной модели требуются огромные объемы данных, что иногда является ограничением для медицинских изображений [Zhang et al., 2020]. Также нередко в медицине используются изображения низкого пространственного разрешения, изображения с шумом, содержащие малоразмерные объекты интереса [Kisantal et al., 2019]. Вероятностные байесовские нейронные сети (PBNN) предоставляют альтернативное решение, которое не только устойчиво к переобучению, но также предлагает оценки неопределенности для зашумленных изображений и изображений низкого пространственного разрешения.

Классическая вероятностная нейронная сеть состоит из четырех слоев - входного, скрытого, слоя суммирования и выходного слоя и представляет собой нейронную сеть с прямой связью. Для каждого класса формируется функция распределения вероятностей, для каждого нового входного вектора используется правило Байеса, чтобы отнести его к классу с наибольшей апостериорной вероятностью. Вероятностное глубокое обучение [Brosse et al., 2020] - это глубокое обучение, которое учитывает как неопределенность модели, так и неопределенность данных и представляет собой гибрид вероятностных моделей и глубоких нейронных сетей. Типичным представителем вероятностного глубокого обучения являются вероятностные байесовские нейронные сети (PBNN) или байесовские сверточные нейронные сети (Bayes CNN) - глубокие нейронные сети, являющиеся при этом вероятностными моделями. Авторы исследовали применимость вероятностных байесовских нейронных сетей для задачи классификации изображений световой микроскопии в общем и микроскопии мокроты, окрашенной по методу Циля - Нильсена, в частности.

Объекты и методы исследования

В качестве материалов исследования выступили изображения анализов мокроты, окрашенной по методу Циля - Нильсена, полученные при помощи тринокулятного микроскопа. Особенность данных изображений состоит в том, что они содержат малоразмерные объекты, длина и ширина которых меньше 32 пикселей. Построенные модели классификации на базе сверточных сетей трактуют эти малоразмерные ROI как шум при изменении размеров изображения между слоями сверточной сети, что влияет на итоговую точность классификации [Shelomentseva, Chentsov, 2020; Udegova, Shelomentseva, Chentsov, 2021] (рис. 1).

(64, 64, 64, 3) 0 --г-

10 - HU^

50 ■ ¿И* -60 ■

• Л/

Рис. 1. Результаты применения энкодера декодера к микроскопическим изображениям мокроты Fig. 1. Results of applying the decoder encoder to microscopic images of sputum

%

Вероятностные байесовские нейронные сети (PBNN) используют как вероятностные слои для определения неопределенности весов и активационных функций, так и слои глубокого обучения [Wan, Fu, 2020]. Вероятностная нейронная сеть рассматривает искомую модель как вероятностную, в которой выход p(ylx,w) является категориальным распределением. При этом апостериорное распределение будет равно (1)

— ^ур^ув^ (1)

где p(0lD) - функция правдоподобия, которая требует своей максимизации, р(в) - априорная вероятность, которая отражает распределение параметров до начала испытаний, p(dlD) -апостериорная вероятность, которая отражает распределение параметров после начала испытаний, D - обучающий набор, Dx - обучающие функции, а Dy - обучающие метки.

Байесовскую апостериорную модель можно использовать для моделирования новых данных D* с использованием апостериорного прогноза (2) [Vladimirova et al., 2019].

prnD)- jpmo)p(eiD)de. (2)

Вероятностные байесовские нейронные сети как модель можно представить в виде следующих соотношений: в ~ p(9) и у — BNN0(x) + е, где в - параметры байесовской нейронной сети, а е - случайный шум. Для проектирования PBNN нужно выбрать архитектуру нейронной сети (например, сверточные нейронные сети), затем определить вероятностную модель в виде байесовской априорной оценки параметров p(e) и априорную достоверность предсказательной силы модели p(ylx,e), которая определяется через BNN0(x).

На практике задача вычисления байесовской апостериорной вероятности является нетривиальной и часто заменяется приближенными методами, а именно вариационным выводом [Wang et al., 2016]. Вариационный вывод призван аппроксимировать байесовское апостериорное распределение p(eiD) при помощи распределения Цф(в), причем значение параметров ф выбирается таким, чтобы вариационное распределение было как можно ближе к байесовскому апостериорному распределению [Jospin et al., 2020]. При реализации вероятностной байесовской нейронной сети для классификации изображений световой микроскопии использовалось распределение Гаусса. Для оценки этой меры близости используется дивергенция Кульбака - Лейблера (3), при этом минимизация дивергенции Кульбака - Лейблера эквивалентна максимизации нижней границы свидетельства ELBO (4).

Dkl^IIP) — f (3)

ELBO — f ^(e)log(?№i1)de — log(p(D))-Dkl^IIp) (4)

Проблема объединения вариационного вывода и глубоких нейронных сетей состоит в том, что стохастичность вариационного вывода не позволяет использовать обратное распространение ошибки для параметров скрытых узлов сети. Bayes by backprop представляет собой практическую реализацию стохастического вариационного вывода в сочетании с уловкой репараметризации для обеспечения работы классического алгоритма обратного распространения ошибки [Hinton, Camp, 1993].

Одним из базовых инструментов байесовских нейронных сетей является репараметризация, когда глобальная неопределенность преобразуется в локальную неопределенность (е ^ f (е)), которая не зависит от обучающих примеров (5). Локальная репараметризация означает, что активационная функция использует средние значения весов, чтобы получить статистически эффективную оценку градиента [Zeng, Lesnikowski, Alvarez, 2018].

bj = Ai*ni + Ej О (5)

где e~N(0; 1), Ai - рецептивное поле, * - операция свертки, О - покомпонентное умножение.

Неопределенность, связанная с вероятностными нейронными сетями, бывает двух типов - алеаторическая и эпистемологическая [Der Kiureghian, Ditlevsen, 2009]. Алеаторическая неопределённость связана с неопределённостью данных (гетероскедастическая неопределенность), методом их сбора, погрешностью, шумом измерений (гомоскедастическая неопределенность). Данную неопределенность характеризует то, что она не исчезает, даже если будет собрано больше данных. Эпистемическая неопределенность связана с используемой моделью, при этом при увеличении количества данных она уменьшается [Hüllermeier, Waegeman, 2021].

Основной проблемой глубокого вариационного обучения для PBNN (ВБНС) является его избыточность и затратность, как как необходимо учитывать неопределенности для большого количества слоев [Brosse, et al., 2020]. Одним из способов решения этой проблемы является чередование детерминированных и вероятностных слоев при использовании байесовских сверточных нейронных сетей (Bayes CNN). Данный подход позволяет устранить недостатки вероятностного обучения, но при этом давать значимые результаты. Детерминированные слои позволяют изучить представление для конкретной задачи, а вероятностные слои используются для генерации прогнозов и оценки неопределенности [Snoek, Larochelle, Adams, 2012].

Результаты и их обсуждение

Исследования проводились на базе сервиса Google Colab, фремворка Tensorflow Probability, библиотеки Keras и языка программирования Python [Manaswi, 2018; Salama, 2021; TensorFlow Probability]. Для распознавания изображений световой микроскопии были построены разнообразные вероятностные байесовские нейронные сети с разными параметрами и разным количеством слоев.

В результате вычислительного эксперимента авторы остановились на трех моделях - c одним сверточным и одним вероятностным слоем (рисунок 2), с одним слоем репараметризации и плотным вероятностным слоем (рисунок 3), с двумя слоями репараметризации, сверточными слоями и слоем вариационного вывода (рисунок 4). В качестве функций потерь исследовались бинарная кроссэнтропия, категориальная кроссэнтропия, отрицательное логарифмическое правдоподобие (NLL). В качестве оптимизаторов выбирались Adam и RMSprop, в качестве функции активации была выбрана функция relu. Также исследовался метод Spike-and-slab для подбора параметров сети, который является априорной моделью, в которой значение величины достигает плотности распределения равной сумме двух нормальных распределений со стандартным отклонением 1 и стандартным отклонением, отличным от 1. В результате подбираемая величина либо достигает своего пика, либо выбирается другое априорное значение величины. Метод Spike-and-slab позволяет исследовать больший диапазон весов нейронной сети.

Первая модель состоит из 6 слоев (сверточный, подвыборки, полносвязный, плотный, dropout и вероятностный) и ориентирована на алеаторическую неопределенность. Данная архитектура исследует распределение выходов модели в зависимости от входных данных с изучаемыми параметрами среднего значения и дисперсии.

Вторая и третья модели ориентированы на поиск полной (эпистемической и алеаторической) неопределенности, исследуют эффективность использования локальной репараметризации и рассчитывают градиент функции потерь по отношению к вариационным параметрам (ц, р). Вторая модель состоит из 5 слоев (слой репараметризации, слой

подвыборки, полносвязный, плотный и слой вариационного вывода) и изучает распределения весов и выходов модели - рисунок 3.

Input: Color image cf light microscopy

о

>.

га

С

о

3

о

>

с

о

о

с

(S

и

(S

о

0.

classification

Рис. 2. Модель ВБНС c одним сверточным и одним вероятностным слоем Fig. 2. PBNN model with one convolutional and one probability layer

Рис. 3. Модель ВБНС с одним слоем репараметризации и слоем вариационного вывода Fig. 3. PBNN model with one reparametrization layer and variational inference layer

Третья модель состоит из 13 слоев (2 слоя репараметризации, 3 сверточных слоя, 4 слоя подвыборки, полносвязный, плотный, dropout и слой вероятностного вывода), исследует эффективность добавления сверточных слоев для увеличения глубины модели.

Рис. 4. Модель ВБНС с двумя слоями репараметризации, сверточными слоями

и слоем вариационного вывода Fig. 4. PBNN model with two reparametrization layers, convolutional layers and a variational inference layer

В моделях в качестве метода обучения используется Bayes by backprop, в качестве апостериорных значений было выбрано распределение Гаусса с центром вокруг среднего значения ц и дисперсия о (6, 7)

qe(w^^lD) = niN(Wil^,a2), (6)

log(qe(w(i)lD)) = П logN(Wihj.,a2). (7)

Выборочные результаты проведенных экспериментов представлены в таблице. Модель 1 показывает наилучшие результаты по параметрам accuracy, чувствительности и специфичности на примере классификации микроскопических анализов мокроты, окрашенной по методу Циля -Нильсена и достигает ошибки на тестовых данных равной 0,022.

Результаты вычислительного эксперимента по использованию различных моделей нейронных сетей

для классификации изображений анализа мокроты Results of a computational experiment of sputum analysis image classification using various neural network

models

——-^Модель Показатель " ^^^^^^ СНС (ResNet50) ВБНС (модель 1) ВБНС (модель 2) ВБНС (модель 3)

Чувствительность, % 98,02 99,53 94,29 98,4

Специфичность, % 91,59 99,49 97,06 99,7

Точность, % 94,71 99,51 95,65 98,52

Ошибка 0,230 0,022 1,46 0,314

Заключение

Медицинские изображения световой микроскопии анализов мокроты, окрашенной по методу Циля - Нильсена, характеризуются нечеткостью в представлении объектов интереса, размытыми границами, наличием шума, малоразмерными объектами интереса и (нередко) низким пространственным разрешением. Байесовские нейронные сети улучшают производительность обычных нейронных сетей по параметрам точности предсказания и ошибки обучения в случае использования алеаторической вероятности и бинарной классификации. Однако для построения автоматизированной бактериологической системы целесообразнее выбрать модель 3, так как она способна представить не только алеаторическую, но и эпистемическую неопределенность, что существенно расширяет ее использование для решения задач классификации в условиях непрерывно пополняющейся базы данных и шума, чем характеризуются медицинские изображения световой микроскопии.

References

Brosse N., Riquelme C., Martin A. Gelly S., Moulines E. 2020. On Last-layer Algorithms for Classification:

Decoupling Representation from Uncertainty Estimation - arXiv preprint arXiv: 2001.08049. Chang D.T. 2021. Probabilistic Deep Learning with Probabilistic Neural Networks and Deep Probabilistic

Models - arXiv preprint arXiv:2106.00120. Der Kiureghian A., Ditlevsen O. 2009. Aleatory or epistemic? does it matter? Structural Safety, 31: 105-112. Hinton G.E.D., Camp V. 1993. Keeping the neural networks simple by minimizing the description length of

the weights. In Proceedings of the sixth annual conference on Computational learning theory: 5-13. Hullermeier E., Waegeman W. 2021. Aleatoric and epistemic uncertainty in machine learning: an

introduction to concepts and methods. Machine Learning, 110: 457-506. Jospin L.V., Buntine W., Boussaid F., Laga H., Bennamoun M. 2020. Hands-on Bayesian Neural Networks

- a Tutorial for Deep Learning Users. ACM Computing Surveys, 1 (1): 1-36. Kisantal M., Wojna Z., Murawski J., Naruniec J., Cho K. 2019. Augmentation for small object detection -

preprint arXiv: 1902.07296 Manaswi, N.K. 2018. Deep Learning with Applications Using Python. Springer Science - Business Media, New York, 219 p.

Salama K. 2021. Probabilistic Bayesian Neural Network. Keras Documentation -

https: //keras. io/examples/keras_recipes/bayesian_neural_networks. Serrao M.K.M., Costa M.G.F., Fujimoto L B. Ogusku M.M., Filho C.F.F.C. 2020. Automatic Bacillus Detection in Light Field Microscopy Images Using Convolutional Neural Networks and Mosaic Imaging Approach. Annual International Conference of the IEEE Engineering in Medicine and Biology Society: 1903-1906.

Shelomentseva I.G., Chentsov S.V. 2020. Classification of Microscopy Image Staned By Ziehl-Neelsen Method Using Different Architectures of Convolution Neural Nerwork. Studies in Computational Intelligence, 925: 269-275.

Shin H., Roth H.R., Gao M. Lu L., Xu Z., Nogues I., Yao J., Mollura D., Summers R.M. 2016. Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning IEEE Transactions on Medical Imaging, 35(5): 1207-1216. Snoek J., Larochelle H., Adams R.P. 2012. Practical Bayesian Optimization of Machine Learning Algorithms.

Proceedings of Advances in Neural Information Processing Systems Conference: 2951-2959. TensorFlow Probability (https://www.tensorflow.org/probability)

Udegova E.S., Shelomentseva I.G., Chentsov S.V. 2021. Optimizing Convolution Neural Network Architecture for Microscopy Image Recognition for Tuberculosis Diagnosis. Advances in Neural Computation, Machine Learning, and Cognitive Research V. NEUROINFORMATICS 2021. Studies in Computational Intelligence, 1008: 204-209. Vladimirova M., Verbeek J., Mesejo P., Arbel J. 2019. Understanding Priors in Bayesian Neural Networks at

the Unit Level. International Conference on Machine Learning: 6458-6467. Wan Q., Fu X. 2020. Fast-BCNN: Massive Neuron Skipping in Bayesian Convolutional Neural Networks.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

53rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO): 229-240. Wang Z., Hutter F., Zoghi M., Matheson D., de Freitas N. 2016. Bayesian Optimization in a Billion

Dimensions via Random Embeddings. Journal of Artificial Intelligence Research, 55: 361-387. Zeng J., Lesnikowski A., Alvarez J.M. 2018. The Relevance of Bayesian Layer Positioning to Model

Uncertainty in Deep Bayesian Active Learning - arXiv preprint arXiv:1811.12535. Zhang X., Zou J., He K., Sun J. 2019. Accelerating Very Deep Convolutional Networks for Classification and Detection - preprint arXiv: 1505.06798.

Конфликт интересов: о потенциальном конфликте интересов не сообщалось. Conflict of interest: no potential conflict of interest related to this article was reported.

ИНФОРМАЦИЯ ОБ АВТОРЕ

Шеломенцева Инга Георгиевна, старший преподаватель кафедры медицинской кибернетики и информатики, Красноярский государственный медицинский университет им. проф. В.Ф. Войно-Ясенецкого, г. Красноярск, Россия

INFORMATION ABOUT THE AUTHOR

Inga G. Shelomentseva, Senior Lecturer of the Department of Medical Cybernetics and Informatics, Prof. V.F. Voino-Yasenetsky Krasnoyarsk State Medical University, Krasnoyarsk, Russia

i Надоели баннеры? Вы всегда можете отключить рекламу.