Научная статья на тему 'ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ КЛЕТОК КРОВИ'

ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ КЛЕТОК КРОВИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
382
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД ОПОРНЫХ ВЕКТОРОВ / SVM / СВЕРТОЧНЫЕ НЕЙРОННЫЕ СЕТИ / CNN / МАШИННОЕ ОБУЧЕНИЕ / ГЛУБОКОЕ ОБУЧЕНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Елагина Е.А., Маргун А.А.

Предмет исследования. Развитие области медицинской визуализации - важная задача при растущей потребности в автоматизированной, быстрой и эффективной диагностике. Традиционно количество клеток крови определяется с помощью гемоцитометра при использовании дополнительного лабораторного оборудования и химических соединений, но данный метод занимает много времени и является трудоемким. В работе исследовано применение методов машинного обучения к задаче идентификации и классификации клеток крови для увеличения скорости распознавания без ухудшения качества. Метод. Выполнен сравнительный анализ методов распознавания клеток крови на основе подходов искусственного интеллекта. Использованы методы: опорных векторов, алгоритма k-ближайших соседей, глубокого обучения (сверточная нейронная сеть) и нейронная сеть с прямым распространением. Основные результаты. Сравнительный анализ качества работы рассмотренных алгоритмов выполнен на наборе обучающих данных с более чем 3000 изображений образцов клеток. Показано, что программа реализации методов искусственного интеллекта обеспечивает время распознавания клеток в пределах 4-6 с при использовании офисного персонального компьютера. Данное время существенно меньше времени, затрачиваемого медицинскими работниками на одно исследование биоматериала. Практическая значимость. Полученные результаты дают возможность автоматизировать процесс исследования биоматериала и сократить время проведения и получения результата анализа клеток цельной крови (идентификация и подсчет). Также позволяют уменьшить влияние ошибок оператора на результат, разгрузить вычислительные ресурсы, тем самым увеличить эффективность цифровой медицины.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Елагина Е.А., Маргун А.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH OF MACHINE LEARNING METHODS IN THE PROBLEM OF IDENTIFICATION OF BLOOD CELLS

The development of the medical imaging field is becoming a significant challenge due to the growing need for automated, fast, and efficient diagnostics. Traditionally, blood cells are counted by using a hemocytometer along with other laboratory equipment and chemicals, which is a laborious task. The paper investigates the application of machine learning methods to the identification and classification of blood cells, which allow increasing the recognition rate without deteriorating quality. A comparative analysis of methods for solving the problem of recognizing blood cells based on artificial intelligence approaches is carried out. The paper uses support vector machine, k -nearest neighbors’ algorithm, deep learning (convolutional neural network), and forward propagation neural network. A set of images with cell samples was selected as the initial data for comparison. A comparative analysis of the quality of the considered algorithms was performed on a set of training data with more than 3000 images. It is shown that a program that implements artificial intelligence methods provides a cell recognition time within 4-6 seconds when using an office personal computer, which is significantly less than the time spent by medical workers on one study of a biomaterial. The implementation of the presented results makes it possible to automate the process of studying a biomaterial, reduce the time for conducting and obtaining the result of the analysis of whole blood cells (identification and counting), lessen the influence of operator errors on the result, unload computing resources, thereby increases the efficiency of digital medicine.

Текст научной работы на тему «ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ КЛЕТОК КРОВИ»

УНИВЕРСИТЕТ итмо

НАУЧНО-ТЕХНИЧЕСКИИ ВЕСТНИК ИНФОРМАЦИОННЫХ ТЕХНОЛОГИИ, МЕХАНИКИ И ОПТИКИ ноябрь-декабрь 2021 Том 21 № 6 http://ntv.ifmo.ru/

SCIENTIFIC AND TECHNICAL JOURNAL OF INFORMATION TECHNOLOGIES, MECHANICS AND OPTICS November-December 2021 Vol. 21 No 6 http://ntv.ifmo.ru/en/

ISSN 2226-1494 (print) ISSN 2500-0373 (online)

ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ. МЕХАНИКИ И йПТИКИ

doi: 10.17586/2226-1494-2021-21-6-903-911 УДК 004.89

Исследование методов машинного обучения в задаче идентификации клеток крови

Екатерина Алексеевна Елагина1 Алексей Анатольевич Маргун2

!>2 Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация

1 k.elagma29@yandex.ms, https://orcid.org/0000-0001-6038-9087

2 alexeimargun@gmail.com, https://orcid.org/0000-0002-5333-0594

Аннотация

Предмет исследования. Развитие области медицинской визуализации — важная задача при растущей потребности в автоматизированной, быстрой и эффективной диагностике. Традиционно количество клеток крови определяется с помощью гемоцитометра при использовании дополнительного лабораторного оборудования и химических соединений, но данный метод занимает много времени и является трудоемким. В работе исследовано применение методов машинного обучения к задаче идентификации и классификации клеток крови для увеличения скорости распознавания без ухудшения качества. Метод. Выполнен сравнительный анализ методов распознавания клеток крови на основе подходов искусственного интеллекта. Использованы методы: опорных векторов, алгоритма ¿-ближайших соседей, глубокого обучения (сверточная нейронная сеть) и нейронная сеть с прямым распространением. Основные результаты. Сравнительный анализ качества работы рассмотренных алгоритмов выполнен на наборе обучающих данных с более чем 3000 изображений образцов клеток. Показано, что программа реализации методов искусственного интеллекта обеспечивает время распознавания клеток в пределах 4-6 с при использовании офисного персонального компьютера. Данное время существенно меньше времени, затрачиваемого медицинскими работниками на одно исследование биоматериала. Практическая значимость. Полученные результаты дают возможность автоматизировать процесс исследования биоматериала и сократить время проведения и получения результата анализа клеток цельной крови (идентификация и подсчет). Также позволяют уменьшить влияние ошибок оператора на результат, разгрузить вычислительные ресурсы, тем самым увеличить эффективность цифровой медицины. Ключевые слова

метод опорных векторов, SVM, сверточные нейронные сети, CNN, машинное обучение, глубокое обучение Ссылка для цитирования: Елагина Е.А., Маргун А.А. Исследование методов машинного обучения в задаче идентификации клеток крови // Научно-технический вестник информационных технологий, механики и оптики. 2021. Т. 21, № 6. С. 903-911. doi: 10.17586/2226-1494-2021-21-6-903-911

Research of machine learning methods in the problem of identification

of blood cells

Ekaterina A. Elagina1®, Alexey A. Margun2

ITMO University, Saint Petersburg, 197101, Russian Federation

1 k.elagina29@yandex.ru®, https://orcid.org/0000-0001-6038-9087

2 alexeimargun@gmail.com, https://orcid.org/0000-0002-5333-0594

Abstract

The development of the medical imaging field is becoming a significant challenge due to the growing need for automated, fast, and efficient diagnostics. Traditionally, blood cells are counted by using a hemocytometer along with other laboratory equipment and chemicals, which is a laborious task. The paper investigates the application of machine learning methods to the identification and classification of blood cells, which allow increasing the recognition rate without deteriorating quality. A comparative analysis of methods for solving the problem of recognizing blood cells based on artificial intelligence approaches is carried out. The paper uses support vector machine, ¿-nearest neighbors' algorithm, deep learning (convolutional neural network), and forward propagation neural network. A set of images with cell samples

© Елагина Е.А., Маргун А.А., 2021

was selected as the initial data for comparison. A comparative analysis of the quality of the considered algorithms was performed on a set of training data with more than 3000 images. It is shown that a program that implements artificial intelligence methods provides a cell recognition time within 4-6 seconds when using an office personal computer, which is significantly less than the time spent by medical workers on one study of a biomaterial. The implementation of the presented results makes it possible to automate the process of studying a biomaterial, reduce the time for conducting and obtaining the result of the analysis of whole blood cells (identification and counting), lessen the influence of operator errors on the result, unload computing resources, thereby increases the efficiency of digital medicine. Keywords

support vector machine, SVM, convolutional neural networks, CNN, machine learning, deep learning For citation: Elagina E.A., Margun A.A. Research of machine learning methods in the problem of identification of blood cells. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2021, vol. 21, no. 6, pp. 903-911 (in Russian). doi: 10.17586/2226-1494-2021-21-6-903-911

Введение

Существует ряд заболеваний, которые можно диагностировать на ранних стадиях с помощью анализа крови. Например, при оценке свертывающей способности крови в первую очередь определяется уровень тромбоцитов. В настоящее время для медицинского работника процесс лабораторного анализа биологического материала на выделение и подсчет количества клеток крови является время- и трудозатратным.

Это приводит к тому, что развитие области медицинской визуализации становится важной задачей вследствие растущей потребности в автоматизированной, быстрой и эффективной диагностике.

В работе [1] методы машинного обучения применены для скрининга клеток человеческого организма. В исследовании использована сверточная нейронная сеть (Convolutional Neural Network, CNN) и метод опорных векторов (Support Vector Machine, SVM), и также выполнено сравнение с алгоритмом Л-ближайших соседей (^-nearest neighbors, Л-NN). В результате установлено, что архитектура нейронной сети неоптимальна, а в SVM используется только радиальная базисная функция и не применяется гистограмма направленных градиентов для выделения признаков объекта. В работах [2, 3] описаны результаты идентификации клеток эритроцитов с использованием подхода, основанного на SVM, для предупреждения такого заболевания, как анемия [2]. Классификатор на основе SVM смог успешно распознать 699 аномальных изображений из 700. В [3] предложен метод снижения влияния шумов с применением медианной фильтрации изображений [4] с последующим выделением контуров клеток детектором границ Канни. В работе [5-9] рассмотрены: SVM, Л-NN и различные модели CNN для классификации клеток человеческой крови, в том числе модель VGG-16. Модель VGG-16 также применяется в настоящей работе для автоматической идентификации и подсчета клеток крови по изображению мазка на основе алгоритма обнаружения цели (You Only Look Once, YOLO). Перечисленные работы отражают наиболее передовые подходы в сфере исследований клеток крови и охватывают основные подходы к решению задач компьютерного зрения, обеспечивающие хорошие результаты на разного рода данных.

Существуют аналогичные работы по идентификации клеток крови с помощью автоматизированного микроскопического исследования с применением ма-

шинного зрения, но авторы работы [10] используют алгоритм сегментации, основанный на гистограмме яркости. В работе [11] применена искусственная нейронная сеть для решения задачи классификации лейкоцитов. Использован улучшенный комбинированный метод сегментации изображений, а также вектор признаков объекта. Благодаря применению многослойной искусственной нейронной сети в качестве классификатора и правильно подобранным признакам, авторам удалось уменьшить количество получаемых ошибок на тестовом наборе данных до 0,1 %.

В настоящей работе рассмотрена задача обнаружения клеток крови на изображениях, полученных с помощью микроскопа. Обучающий набор данных состоит из 3000 изображений [12] (1000 тромбоцитов (PLT), 1000 лейкоцитов (WBC), 1000 моноцитов (MON)). Отметим, что задача обнаружения тромбоцитов очень трудна при просмотре изображений человеком, так как тромбоциты занимают всего несколько пикселов восстановленного изображения.

Цель работы — сравнительный анализ и выбор алгоритма идентификации клеток крови с наиболее высокой точностью и стабильной производительностью на большом наборе данных (выбранные критерии на основании анализа научных работ по теме исследования наиболее предпочтительны). Выполнена реализация программного обеспечения для обработки биомедицинских анализов на основе выбранного способа.

В ходе выполнения работы проведен сравнительный анализ эффективности функционирования нейронных сетей в задаче классификации больших наборов данных, а также подходов, основанных на методах &-NN и SVM.

Метод опорных векторов

На основе выполненного анализа работ [1, 2, 5], в которых описаны успешные результаты применения SVM, в настоящей работе исследован данный метод для решения задачи идентификации клеток крови.

SVM — мощный и гибкий класс алгоритмов обучения с учителем как для задач классификации, так и для регрессии. Возможности метода расширяются при его комбинации с ядрами (kernels), что позволяет проецировать данные в пространство с большей размерностью. Пространство определяется полиномиальными и гауссовыми базисными функциями, благодаря чему появляется возможность аппроксимировать нелинейные зависимости с помощью линейного классификатора [13].

Потенциальная проблема, возникающая при использовании указанной методики, заключается в том, что при проецировании N точек на N измерений могут потребоваться колоссальные объемы вычислений. Однако, благодаря процедуре «kernel trick», обучение на преобразованных с помощью ядра данных можно провести неявно, т. е. даже без построения полного N-мерного представления ядерной проекции. Эта процедура — часть SVM и одно из больших его преимуществ.

Перспективное приложение машинного обучения — анализ изображений, который применяется для признаков, формируемых интенсивностью группы пикселов. На практике анализируемые данные очень редко оказываются достаточно однородными, и простых пикселов будет недостаточно. Данное ограничение привело к появлению методик выделения признаков, например, с помощью гистограммы направленных градиентов, которая преобразует пикселы изображения в векторное представление, чувствительное к несущим информацию признакам изображения [13].

Цель извлечения признаков — уменьшение исходного набора данных путем измерения определенных свойств или функций, которые отличают один входной шаблон от другого. Извлеченные признаки становятся входными данными для классификатора, которые будут считаться соответствующими свойствами изображения в пространстве признаков. Отметим, что каждое из изображений может иметь несколько обучающих примеров, в которых фактически присутствует тромбоцит, моноцит или лейкоцит. После первоначального выбора потенциально лучших признаков целесообразно определить небольшой набор «хороших» признаков тромбоцитов, моноцитов или лейкоцитов. Алгоритм автоматического выбора функций может использоваться для дальнейшего сужения до набора, состоящего из наиболее важных из них.

Постановка задачи классификации с использованием метода опорных векторов

Для программной реализации SVM выбран язык программирования Python. Для решения поставленной

задачи используется SVM с радиальной (RBF-ядро) и полиномиальной (полиномиальное ядро) базисными функциями, а также дополнен гистограммой направленных градиентов для определения признаков.

Полиномиальное ядро: K(x, x') = ((x, x') + R)d;

RBF-ядро: K(x, x') = exp(-y||x - x'||2),

где K — полиномиальное ядро — любая симметричная, положительно полуопределенная матрица, которая составлена из скалярных произведений пар векторов характеризующих меру их близости; у — параметр ядра, подлежащий оптимизации; x и x' — векторы во входном пространстве (векторы признаков), вычисленные соответственно на основе обучающих и тестовых выборок; R > 0 — свободный параметр, позволяющий компенсировать влияние членов более высокого порядка по сравнению с членами более низкого порядка в полиноме, и d е К.

Для тестирования модели выбран набор данных, представленный в исследовании [12], состоящий из 300 изображений PLT, WBC, MON. Каждое изображение содержит 64 х 64, т. е. 4096 пикселов. Результаты работы модели, основанной на SVM, зависят от выбранных параметров: C — управляющего размытием отступов и gamma — управляющего размером ядра радиальной базисной функции. Данный анализ наилучших сочетаний параметров получается в процессе перекрестной проверки. В языке программирования Python есть встроенная функция для определения наилучших сочетаний параметров ядра. В результате использования которой получим:

/0,1\ 0,0001

C =

1 10 100

и gamma

0,001 0,1 1

Точность работы обученной модели на основе SVM достигает 98 % на обучающем наборе данных. Результаты распознавания модели показаны на рис. 1. Надписи на рисунках представляют собой метки класса, корректно присвоенные методом или выходным

Рис. 1. Результат распознавания клеток моделью, основанной на методе опорных векторов: лимфоцит (а); тромбоцит (b);

моноцит (с). Масштаб 360 х 360 пикселов Fig. 1. The result of cell recognition by a model based on the support vector machine: lymphocyte (a); platelet (b); monocyte (c).

Scale: 360 х 360 pixels

Таблица 1. Точность распознавания модели на основе метода опорных векторов, % Table 1. Support vector machine model recognition accuracy, %

Входное изображение Входные данные модели

PLT MON WBC

PLT 98,409 0,470 1,120

MON 0,895 88,242 10,861

WBC 0,790 3,338 95,871

значением. Точность работы модели на тестовом наборе данных представлена в табл. 1. На главной диагонали таблиц в ячейках указана точность, с которой метод распознает клетку на входном изображении. Все табличные данные получены авторами настоящей работы в ходе экспериментов.

Идентификация клеток крови с помощью сверточной нейронной сети и сетью с прямым распространением ошибки

Решить задачу классификации можно с использованием искусственной нейронной сети с прямым распространением ошибки (Feedforward Neural Network, FNN), однако данный подход является устаревшим. Наиболее эффективными являются методы, основанные на применении CNN, предназначенные для работы с интенсивностью пикселов и изучением фильтров для высокоточной классификации изображений [8]. Была выбрана сеть классической архитектуры — модель VGG, которая служит для распознавания признаков. Разработка данной модели основана на результатах анализа, цель которого — повышение глубины подобных сетей. В сети использованы фильтры размером 3 х 3. Сеть отличается простотой при наличии следующих условий: уровня подвыборки и полностью связанного уровня.

Архитектура сети модели VGG. Первый свер-точный слой имеет 32 фильтра размером 3 х 3. Была использована функция активации (ФА) ReLU (Rectified Linear Unit), а также функция максимума, метод исключения и пакетной нормализации (рис. 2).

Пакетная нормализация масштабирует входные данные для дальнейшей передачи их на последующий слой сети. Доказано [14], что метод нормализации эффективно стабилизирует и сокращает число шагов обучения CNN. К слоям субдискретизации (подвыборки) применим функцию постепенного уменьшения размера (т. е. ширины и высоты) входного слоя.

Метод исключения «выключает» случайные нейроны между слоями. Вследствие этого процесс становится более устойчивым: сокращается переобучение, увеличивается точность, и нейросеть лучше распознает незнакомые изображения. В рассматриваемой задаче 25 % нейронных соединений между слоями случайным образом «выключаются» для каждого шага обучения.

Пулинговый слой необходим для понижения размерности изображения. Исходное изображение разбивается на части размером w х h, и для каждого блока вычисляется функция максимума (рис. 3). Пулинговые слои позволяют добиться:

— уменьшения изображения, чтобы последующие свертки оперировали над большей областью исходного изображения;

х, отн. ед.

Рис. 2. График функции активации ReLu1 (a) и архитектура нейронной сети модели VGG2 (b) Fig. 2. ReLu activation function graph (a) and VGG model neural network architecture (b)

1 Neurohive: официальный сайт [Электронный ресурс]. URL: https://neurohive.io/ru/osnovy-data-science/activation-functions/ (дата обращения: 14.10.2021).

2 Neurohive: официальный сайт [Электронный ресурс]. URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16-model/ (дата обращения: 14.10.2021).

Ха

1 0 2 3

4 6 6 8

3 1 1 0

1 2 2 4

6 8

3 4

Рис. 3. Пример пулингового слоя с функцией максимума1 Fig. 3. Example of a pooling layer with a maximum function

1 Wikipedia: официальный сайт [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/convolution_neural_network (дата обращения: 14.10.2021).

— увеличения инвариантности выхода сети по отношению к малому переносу входа;

— ускорения вычислений.

После этого данные проходят через два сверточных слоя, которые имеют 64 фильтра размером 3 х 3 и чередуются с двумя слоями ReLU. В третьем наборе слоев три сверточных слоя, у каждого из которых число фильтров удвоилось с 64 до 128, а размер остался прежним, чередуются с тремя слоями ReLU.

ФА ReLU возвращает значение х, при х > 0. Схема работы приведена на рис. 2, а. ФА ReLu нелинейна отдельно и в комбинации, но при заданном условии — функция линейна только в первом квадранте

А(х) = тах(0, х).

Далее идут полностью связанные слои. Последний слой соединен с тремя выходами (так как в наборе данных три класса). Слой softmax возвращает вероятность принадлежности к определенному классу для каждой метки.

Функция softmax применяется в машинном обучении для задач классификации, когда количество воз-

можных классов больше двух, и преобразует вектор z размерности К в вектор о той же размерности, в котором каждая координата полученного вектора представлена вещественным числом в интервале [0, 1] и сумма координат равна 1. Выходы функции с, вычисляются и трактуются как вероятности того, что объект принадлежит к классу:

е4

,=. и

Вектор-столбец при этом имеет вид: z = 'ТХ - 0,

где х — вектор-столбец признаков объекта размерности М х 1; 'т — транспонированная матрица весовых коэффициентов признаков, с размерностью К х М; 0 — вектор-столбец с пороговыми значениями размерности К х 1; где К и М — количество классов и признаков объектов соответственно.

Классификация клеток крови методом на основе глубокого обучения и нейронной сети прямого распространения

CNN и FNN также реализованы на языке программирования Python. Работоспособность нейросетей протестирована на имеющемся тестовом наборе данных, содержащим 3000 изображений клеток [12]. Выборка была разделена на обучающую и тестовую в пропорции 75 % для обучения нейронной сети и 25 % для ее тестирования. Предварительно изображения были случайным образом перемешаны.

На рис. 4 показаны полученные авторами работы графики потерь точности при обучении. Видно, что модели нейронной сети не страдают от переобучения, т. е. нет явных «разрывов» между прямыми потерь при обучении и оценке.

600

В 400 &

I 200

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— Потери при обучении — Потери при оценке Точность обучения — Точность оценивания

\

1,2 -

20

40

Эпохи#

40 Эпохи#

Рис. 4. Графики потерь и точности при обучении CNN модели VGG (а) и FNN (b) Fig. 4. Plots of loss and accuracy when training CNN model VGG (a) and FNN (b)

Рис. 5. Распознавание клеток сверточной нейронной сетью и сетью с прямым распространением, соответственно: лимфоцит

(a, d); тромбоцит (b, e); моноцит (c, f). Масштаб 360 х 360 пикселов Fig. 5. Recognition of cells by the convolutional neural network and the feedforward neural network, respectively: lymphocyte (a, d);

platelet (b, e); monocyte (c,f). Scale 360 х 360 pixels

Точность обучения составляет 97 %. Результаты распознавания CNN и FNN представлены на рис. 5.

При обучении сети предложены различные образцы с указанием того, к какому классу они относятся. Образец является массивом из чисел с плавающей точкой, описывающий диапазон интенсивности пикселов в интервале от 0 до 1, поступающим на вход нейронной сети. При этом совокупность всех признаков должна однозначно определять класс, к которому относится образец.

Для понимания того, какие из меток алгоритм определяет неверно, выведем матрицу различий (confusion matrix) между настоящими и предсказанными метками для контрольных данных:

'203 33 0

confusion matrix = 0 236 0

0 0 27S

Алгоритм Ä-ближайших соседей

Алгоритм k-NN является одним из методов интеллектуального анализа данных. k-NN использует хорошо известный принцип «Cicero pares cum paribus facillime congregantur» («птицы, состоящие из перьев, стекаются вместе» или буквально — «равные с равными легко связываются»). Данный алгоритм классифицирует неизвестный образец на основе известной информации о классах его соседей.

На рис. 6 показано правило принятия решения k-NN при к = 1 и к = 4 для набора выборок, разбитых на два класса (I класс — красные квадраты, II класс — зеленые треугольники). На рис. 6, а неизвестный образец классифицируется с использованием только одного известного образца; на рис. 6, b используется более одного известного образца.

Таблица 2. Точность распознавания модели на основе модели глубокого обучения, % Table 2. Model recognition accuracy based on deep learning model, %

Входное изображение Входные данные модели

PLT MON WBC

PLT 99,50 0,50 0

MON 0,01 99,94 0,05

WBC 0,10 0,09 99,81

для k может быть также нетривиальным. Если значение k слишком велико, классы с большим количеством классифицированных выборок могут подавить маленькие, и результаты будут смещенными. Результаты выбора параметра k для поставленной задачи представлены в табл. 3.

С другой стороны, если значение k слишком мало, то обесценивается преимущество использования большого количества выборок в обучающем наборе.

Классификация клеток крови на основе алгоритма А-ближашего соседа

По умолчанию функция использует евклидово расстояние, которое имеет вид:

щ>, q) = - ql)2 + (Р2 - q2)2 + • • • + (Рп - q„)2,

где р и q — объекты для сравнения с п характеристиками.

Существуют также другие методы расчета расстояния, например, расстояние Манхэттена.

Для тестирования модели был выбран такой же набор данных [12], как и для предыдущих методов. Алгоритм присваивает категорию наблюдениям в наборе тестовых данных, сравнивая их с наблюдениями в наборе обучающих данных. В связи с тем, что известна фактическая категория наблюдений в наборе тестовых данных, производительность модели k-NN можно оценить.

Результаты распознавания способом, на основе алгоритма представлены в табл. 4 и на рис. 7.

Таблица 3. Зависимость точности распознавания от параметра k, % Table 3. Dependence of the recognition accuracy on the parameter k

Значение параметра к Входное изображение Входные данные модели

PLT MON WBC

1 PLT 100 0 0

MON 0 100 0

WBC 0 0 100

100 PLT 99,0 0 1,0

MON 1,0 71,0 28,0

WBC 12,0 8,0 80,0

250 PLT 44,8 16,8 38,4

MON 15,6 43,6 40,8

WBC 33,6 23,2 43,2

Таблица 4. Точность распознавания модели на основе алгоритма k-ближайших соседей, % Table 4. Accuracy of model recognition based on the k nearest neighbors algorithm, %

Входное изображение Входные данные модели

PLT MON WBC

PLT 99 0 1

MON 1 71 28

WBC 12 8 80

Рис. 6. Правила принятия решений ¿-NN: при k = 1 присваивается первому классу I (а); при k = 4 также присваивается классу под номером I (b)1 Fig. 6. Decision-making rules: k = 1 is assigned to the first class I (a); k-nearest neighbors, for k = 4: also assigned to class I (b)

1 Analyticjobs: официальный сайт [Электронный ресурс]. URL: https://analyticsjobs.in/education/k-nearest-neighbor-algorithm-knn-in-machine-learning (дата обращения: 14.10.2021).

Функция расстояния играет решающую роль в точности классификации, как и во многих методах интеллектуального анализа данных. Действительно, наиболее желательной функцией расстояния является та, для которой меньшее расстояние между выборками подразумевает большую вероятность, что образцы принадлежат к одному классу.

Другой важный фактор — выбор значения параметра k. Это основной параметр метода, так как он представляет количество ближайших соседей, учитываемых при классификации неизвестной выборки. Обычно это фиксируется заранее, но выбор подходящего значения

Рис. 7. Распознавание клеток алгоритмом ¿-ближайших соседей: лимфоцит (а); тромбоцит (b); моноцит (с).

Масштаб 360 х 360 пикселов

Fig. 7. Recognition of cells by the к nearest neighbors algorithm: lymphocyte (a); platelet (b); monocyte (с). Scale: 360 х 360 pixels

Таблица 5. Сравнительный анализ рассмотренных методов Table 5. Comparative analysis of the considered methods

Наименование метода Точность, % Объем обучающей выборки

FNN 96 3000

CNN 98 3000

SVM 98 300

¿-NN 92 450

Результаты сравнительного анализа подходов к решению задачи классификации клеток в образце цельной крови представлены в табл. 5.

Заключение

В работе выполнен сравнительный анализ методов машинного обучения для распознавания клеток крови.

Результаты показали, что точность сверточной нейронной сети продолжает расти с увеличением объема входных данных, приближаясь к максимальной точности классификации более 97 % при наборе обучающих данных 3000. Распознавание тестовых изображений для всех методов занимает менее 5 с.

Точность классификации с использованием метода SVM изначально выигрывает от большего объема данных, его производительность менее стабильна и страдает от переобучения, когда объем входных обучающих данных увеличивается до более чем 300 изображений, а также требует колоссальных вычислительных затрат.

Алгоритм ^-ближайших соседей, являясь относительно простым, не обеспечивает сопоставимой точности классификации по сравнению с двумя другими методами и теряет стабильность при увеличении

входных данных. Заметим, что алгоритм ^-ближайших соседей наиболее нечувствителен к изменениям в объемах данных.

Нейронные сети с прямым распространением, несмотря на хороший результат, являются менее эффективным методом для классификации изображений, поскольку они не предназначены для работы с интенсивностью пикселов и изучением различающих фильтров для высокоточной классификации изображений.

Проведенное исследование позволяет автоматизировать процесс исследования биоматериала, сократить время проведения и получения результата анализа клеток цельной крови (идентификация и подсчет), сократить влияние человеческого фактора на результат, разгрузить ресурсы медицинского персонала, а также увеличить эффективность цифровой медицины.

Исходя из показателей точности, проведенного сравнительного анализа клеток крови: эритроцитов, лейкоцитов и тромбоцитов (табл. 5), можно сделать заключение о пригодности полученного результата для последующего внедрения его в повседневную медицинскую практику, что позволит проводить клинический анализ крови значительно быстрее.

Литература

1. Meng N., Lam E.Y., Tsia K.K., So H.K. Large-scale multi-class image-based cell classification with deep learning // IEEE Journal of Biomedical and Health Informatics. 2019. V. 23. N 5. P. 2091-2098. https://doi.org/10.1109/JBHI.2018.2878878

2. Akrimi J.A., Suliman A., George L.E., Ahmad A.R. Classification red blood cells using support vector machine // Proc. of the 6th International Conference on Information Technology and Multimedia (ICIM). 2014. P. 265-269. https://doi.org/10.1109/ ICIMU.2014.7066642

3. Дырнаев А.В. Метод подсчета эритроцитов на изображениях мазков крови // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики. 2011. № 6(76). С. 17-22.

4. Cormen T.H., Leisorson C.E., Rivest R.L. Introduction to Algorithms. MIT Press, 1990. P. 185-191.

5. Alam M.M., Islam M.T. Machine learning approach of automatic identification and counting of blood cells // Healthcare Technology Letters. 2019. V. 6. N 4. P. 103-108. https://doi.org/10.1049/ htl.2018.5098

6. Go T., Byeon H., Lee S.J. Label-free sensor for automatic identification of erythrocytes using digital in-line holographic microscopy and machine learning // Biosensors & Bioelectronics. 2018. V. 103. P. 12-18. https://doi.org/10.1016/j.bios.2017.12.020

7. Huang X., Jiang Y., Liu X., Xu H., Han Z., Rong H., Yang H., Yan M., Yu H. Machine learning based single-frame super-resolution processing for lensless blood cell counting // Sensors (Basel, Switzerland). 2016. V. 16. N 11. P. 1836. https://doi.org/10.3390/ s16111836

8. Rivenson Y., Wu Y., Ozcan A. Deep learning in holography and coherent imaging // Light-Science & Applications. 2019. V. 8. P. 85. https://doi.org/10.1038/s41377-019-0196-0

9. Jo Y., Cho H., Lee S.Y., Choi G., Kim G., Min H.S., Park Y. Quantitative phase imaging and artificial intelligence: A Review // IEEE Journal of Selected Topics in Quantum Electronics. 2019. V. 25. N 1. P. 6800914. https://doi.org/10.1109/JSTQE.2018.2859234

10. Черных Е.М., Михелев В.М. Компьютерная система классификации лейкоцитов на изображениях клеток крови // Научный результат. Информационные технологии. 2019. Т. 4. № 3. С. 3847. https://doi.org/10.18413/2518-1092-2019-4-3-0-6

11. Беляков В.К., Сухенко Е.П., Захаров А.В., Кольцов П.П., Кото-вич Н.В., Кравченко A.A., Куцаев A.Q, Осипов A.^, Кузнецов А.Б. Об одной методике классификации клеток крови и ее программной реализации // Программные продукты и системы. 2014. № 4(108). С. 46-56. https://doi.org/10.15827/0236-235X.108.046-056

12. Acevedo A., Merino A., Alférez S., Molina Á., Boldú L., Rodellar J. A dataset of microscopic peripheral blood cell images for development of automatic recognition systems // Data in Brief. 2020. V. 30. P. 105474. https://doi.org/10.1016/j.dib.2020.105474

13. Вандер Плас Дж. Python для сложных задач: наука о данных и машинное обучение. СПб.: Питер, 2020. 576 с.

14. Ioffe S., Szegedy Ch. Batch normalization: Accelerating deep network training by reducing internal covariate shift // Proceedings of Machine Learning Research. 2015. V. 37. P. 448-456.

Авторы

Елагина Екатерина Алексеевна — студент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, https://orcid. о^/0000-0001-6038-9087, k.elagina29@yandex.ru Маргун Алексей Анатольевич — кандидат технических наук, доцент, Университет ИТМО, Санкт-Петербург, 197101, Российская Федерация, 55521791600, https://orcid.org/0000-0002-5333-0594, alexeimargun@gmail.com

Статья поступила в редакцию 21.06.2021 Одобрена после рецензирования 18.10.2021 Принята к печати 28.11.2021

References

1. Meng N., Lam E.Y., Tsia K.K., So H.K. Large-scale multi-class image-based cell classification with deep learning. IEEE Journal of Biomedical and Health Informatics, 2019, vol. 23, no. 5, pp. 20912098. https://doi.org/10.1109/JBHI.2018.2878878

2. Akrimi J.A., Suliman A., George L.E., Ahmad A.R. Classification red blood cells using support vector machine. Proc. of the 6th International Conference on Information Technology and Multimedia (ICIM), 2014, pp. 265-269. https://doi.org/10.1109/ ICIMU.2014.7066642

3. Dyrnayev A. Red cells count method on blood smears images. Scientific and Technical Journal of Information Technologies, Mechanics and Optics, 2011, no. 6(76), pp. 17-22. (in Russian)

4. Cormen T.H., Leisorson C.E., Rivest R.L. Introduction to Algorithms. MIT Press, 1990, pp. 185-191.

5. Alam M.M., Islam M.T. Machine learning approach of automatic identification and counting of blood cells. Healthcare Technology Letters, 2019, vol. 6, no. 4, pp. 103-108. https://doi.org/10.1049/ htl.2018.5098

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Go T., Byeon H., Lee S.J. Label-free sensor for automatic identification of erythrocytes using digital in-line holographic microscopy and machine learning. Biosensors & Bioelectronics, 2018, vol. 103, pp. 12-18. https://doi.org/10.1016Zj.bios.2017.12.020

7. Huang X., Jiang Y., Liu X., Xu H., Han Z., Rong H., Yang H., Yan M., Yu H. Machine learning based single-frame super-resolution processing for lensless blood cell counting. Sensors (Basel, Switzerland), 2016, vol. 16, no. 11, pp. 1836. https://doi.org/10.3390/ s16111836

8. Rivenson Y., Wu Y., Ozcan A. Deep learning in holography and coherent imaging. Light-Science & Applications, 2019, vol. 8, pp. 85. https://doi.org/10.1038/s41377-019-0196-0

9. Jo Y., Cho H., Lee S.Y., Choi G., Kim G., Min H.S., Park Y. Quantitative phase imaging and artificial intelligence: A Review. IEEE Journal of Selected Topics in Quantum Electronics, 2019, vol. 25, no. 1, pp. 6800914. https://doi.org/10.1109/ JSTQE.2018.2859234

10. Chernykh E.M., Mikhelev V.M. Computer system for leukocytes classification on blood cell images. Research result. Information technologies, 2019, vol. 4, no. 3, pp. 38-47. (in Russian). https://doi. org/10.18413/2518-1092-2019-4-3-0-6

11. Belyakov V.K., Sukhenko E.P., Zakharov A.V., Koltsov P.P., Kotovich N.V., Kravchenko A.A., Kutsaev A.S., Osipov A.S., Kuznetsov A.B. On one method of blood cell classification and its software implementation. Software & Systems, 2014, no. 4(108), pp. 46-56. (in Russian). https://doi.org/10.15827/0236-235X.108.046-056

12. Acevedo A., Merino A., Alférez S., Molina Á., Boldú L., Rodellar J. A dataset of microscopic peripheral blood cell images for development of automatic recognition systems. Data in Brief, 2020, vol. 30, pp. 105474. https://doi.org/10.1016/j.dib.2020.105474

13. VanderPlas J. Python Data Science Handbook: Essential Tools for Working with Data. O'Reilly Media, 2016, 548 p.

14. Ioffe S., Szegedy Ch. Batch normalization: Accelerating deep network training by reducing internal covariate shift. Proceedings of Machine Learning Research, 2015, vol. 37, pp. 448-456.

Authors

Ekaterina A. Elagina — Student, ITMO University, Saint Petersburg, 197101, Russian Federation, https://orcid.org/0000-0001-6038-9087, k.elagina29@yandex.ru

Alexey A. Margun — PhD, Associate Professor, ITMO University, Saint Petersburg, 197101, Russian Federation, gg 55521791600, https://orcid. org/0000-0002-5333-0594, alexeimargun@gmail.com

Received 21.06.2021

Approved after reviewing 18.10.2021

Accepted 28.11.2021

Работа доступна по лицензии Creative Commons «Attribution-NonCommercial»

i Надоели баннеры? Вы всегда можете отключить рекламу.