Система автоматического распознавания лейкоцитов в мазке периферической крови на основе технологии глубинного обучения

Пастушок Иван Александрович; Ким Мария Алексеевна; Гусев Владимир Николаевич; Яремин Борис Иванович; Масликова Ульяна Владиславовна

УДК 616.15-07:004.032.26

СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЛЕЙКОЦИТОВ В МАЗКЕ ПЕРИФЕРИЧЕСКОЙ КРОВИ НА ОСНОВЕ ТЕХНОЛОГИИ ГЛУБИННОГО ОБУЧЕНИЯ

1ФГБОУ ВО «Самарский государственный медицинский университет» Министерства здравоохранения Российской Федерации, Самара

2Самарский хирургический центр координации органного донорства, Самара

Авторами изучена проблема морфологического исследования лейкоцитов методом микроскопии препарата крови. С целью частичной автоматизации процесса и модернизации работы цитологической лаборатории разработана программа для классификации лейкоцитов на снимке микропрепарата с использованием технологии искусственного интеллекта. Тестирование алгоритма показало точность диагностики 87 %.

Ключевые слова: морфологический анализ крови, клинико-лабораторная диагностика, лейкоциты, глубинное обучение, искусственный интеллект, сверточные нейронные сети.

Введение. В отличие от большинства исследований в современной клинико-лабораторной диагностике цитологический анализ требует обязательного участия специалиста по микроскопии. Автоматизация этого процесса реализована на весьма низком уровне. Это, в свою очередь, влияет на загруженность лабораторий и среднее время ожидания результатов (1-3 дня). При этом точность самого анализа оценить сложно - зачастую оценка диагностом исследуемого материала носит субъективный характер. Проблема разработки программного обеспечения, оценивающего морфологию клеток крови, заключается в полиморфизме форменных элементов, вариабельности их размеров и окраски и, как правило, низком качестве приготовленного мазка крови.

Исходя из описанной проблематики, оптимальным решением было бы создание компьютерного алгоритма, способного частично воспроизводить функцию клинического мышления диагноста: программа должна быть малочувствительной к информационному шуму, устойчивой к низкому качеству окраски, эффективно адаптироваться к клеточному полиморфизму и обрабатывать данные с высокой скоростью и минимальной затратой мощности. Всем этим критериям соответствует сверточная нейронная сеть (CNN) - архитектура программы, построенной по принципу организации нервных сетей живого организма, нацеленная на распознавание и классификацию изображений.

В научной литературе имеется достаточно много материала исследований по созданию алгоритмов компьютерного зрения, основанных на глубинном обучении (Deep learning, DL), для анализа медицинских изображений. CNN были обучены на распознавание морфологических признаков болезни Альцгеймера, опухолевого роста и демиелинизации нервных волокон на 2D срезах магнитно-резонансной томографии (МРТ). Существуют алгоритмы глубинного обучения, применяемые для офтальмологического исследования картины глазного дна. В 2015 г. было организовано масштабное исследование способности простой CNN диагностировать диабетическую ретинопатию, и алгоритм справился с задачей лучше, чем квалифицированные специалисты. Тема торакальных исследований медицинских изображений наиболее популярна в медицинской литературе. Системы типа LUNA16 способны распознавать узелковые образования на рентгеновских и КТ-снимках и диагностировать интерстици-

альные заболевания легких. Способность определять рак легких на КТ делает технологию привлекательной для применения в скрининговых целях.

Отдельно следует отметить способность некоторых сетей (IDSIA) выделять очаги митоза в гистологических микропрепаратах и методом опорных векторов (SVM) оценивать степень пролиферации опухолей. Разработчики применяли алгоритм в отношении исследований рака молочной железы и колоректального рака - наиболее агрессивных онкологических заболеваний. Также имеются данные по применению DL в анализе МРТ сердца и органов брюшной полости.

Цитоморфологическое исследование препаратов крови с использованием технологии искусственного интеллекта имеет свои особенности. В первую очередь, это информативность окрашивания ядра и цитоплазмы, которое является главным классификационным признаком форменных элементов крови. В случае с такими исследованиями, как КТ, МРТ и рентгенография, изображение представлено пикселями только серого цвета различной градации. Микрофотография препарата крови исполняется в цветовой модели RGB.

Одной из задач, которую удалось решить разработкой алгоритма на базе DL, стало определение рабочей области мазка для проведения диагностики. Очень важно перед морфологической характеристикой клеток выбрать зону, в которой оценка будет максимально объективной, то есть структура кровяных телец не претерпела значительных изменений на преана-литическом этапе. Область выделяется в зависимости от двух параметров: расстояния между эритроцитами (не допускается образования «монетных столбиков») и прозрачности просветления в центре. Нейросеть выделяет и классифицирует эти два признака, после чего принимает решение.

Также нами были найдены и изучены некоторые теоретические наработки в технологии распознавания белых кровяных телец (White Blood Cells, WBC) методом машинного зрения. Алгоритм DiffMaster Octavia сканирует поверхность мазка крови, выделяя лейкоциты, сегментирует их снимки и выводит на монитор врача-гематолога, сопровождая каждый снимок комментарием с классификацией лейкоцита. Еще одним программным решением стало создание архитектуры WBCsNet - CNN, обученной на распознавание 5 классов WBC на снимках микропрепарата мазка крови.

Материалы и методы. Работа выполнена на базе отдела высокопроизводительных вычислений и технологий искусственного интеллекта в медицине Центра прорывных исследований «Информационные технологии в медицине» СамГМУ. Были поставлены и последовательно реализованы следующие задачи: сбор данных для обучения, выбор топологии сети, экспериментальный подбор характеристик сети и параметров обучения, собственно обучение и проверка его адекватности.

Сбор данных. В качестве исходных данных использовались микрофотографии препаратов крови человека, окрашенных по методу Романовского. Препараты были предоставлены ГБУЗ «Самарский областной клинический кардиологический диспансер». Для получения образцов были изучены 34 препарата крови и подготовлены 723 микрофотографии, которые вошли в массив изображений для обучения. Микрофотосъемка производилась с использованием светового микроскопа Levenhuk 800 и камеры D800 T8M с увеличением 40х. Полученные файлы сохранялись в формате PNG на компьютере, и затем обрабатывались вручную в приложении Bounding Box (разработка ЦПИ ИТМ, программист - И.А. Пастушок). Каждой области интереса (Region of Interest, ROI) присваивалась идентифицирующая метка, характеризующая класс лейкоцита. Всего было размечено 2382 ROI. Нами рассматривалась упро-

щенная классификация WBC из 5 основных категорий: сегментоядерные гранулоциты (нейтрофилы, эозинофилы и базофилы) и агранулоциты (моноциты и лимфоциты). Позднее распознавание базофилов не было реализовано ввиду недостаточного массива данных и низкой диагностической значимости.

Таблица 1

Сравнительная характеристика датасета и точности распознавания после обучения

у разных классов лейкоцитов

Лейкоциты ROI, шт. Точность Относительное содержание в периферической крови, референтные значения, %

Нейтрофилы 204 96 % 51-76

Эозинофилы 45 93 % 0-5

Базофилы 22 - 0-1

Лимфоциты 72 65 % 17-40

Моноциты 38 91 % 3-9

В выборку также вошли препараты с количественными отклонениями от нормы в анализах: лейкоцитоз, лимфоцитоз, эозинофилия, моноцитоз. Это позволило сократить количество небходимых препаратов и снимков.

Выбор топологии сети. При выборе топологии основное внимание уделялось решению следующих проблем, которые возникли при работе со специфическим набором данных:

1. Неравномерное распределение значимых сигналов в обучающей выборке.

2. Дегенерация модели даже при незначительных противоречиях в массиве данных.

Эти проблемы успешно решила Faster R-CNN одноступенчатой детекции RetinaNet.

RetinaNet состоит из магистральной сети и двух подсетей. Магистральная сеть составляет карту признаков. Первая подсеть классифицирует объекты на выходе базовой линии, а вторая осуществляет свертку отграниченных блоков. Альтернативой хард-майнингу, необходимому при высоком соотношении шум/сигнал, выступает фокальная депривация (Focal Loss, FL).

Обучение. Обучение проводилось методом обратного распространения ошибки (обучение с учителем). Время обучения составило ~40 часов (40 000 итераций).

Тестирование. Был подготовлен проверочный набор из 115 снимков. Копия тестового набора была маркирована вручную, затем два набора прошли сверку с оценкой точности. Для оценки были использованы методы тестирования и крос-валидации.

Результаты и обсуждение. Тестирование программного обеспечения показало корректность реализации 87 %. В отношении производительности и минимизации затрат вычислительных мощностей были достигнуты значительные результаты: анализ изображения размером 3400^2500 пикселей проводится за 2 секунды при использовании видеокарты Nvidia Quadrop k2200 объемом 4gb с архитектурой Maxwell.

Выводы. Нами была разработана искусственная интеллектуальная система, обученная поиску и классификации лейкоцитов в мазке периферической крови. Эффективность обучения достигла результата, при котором точность распознавания равна и даже превышает точность работы квалифицированного специалиста.

Программное обеспечение может быть реализовано в медицинской практике как система поддержки принятия решений врачом-гематологом с интуитивно понятным пользователю графическим интерфейсом. Возможность диагностики WBC позволяет обойтись без предварительного ручного выделения клеток для более глубокого анализа, система имеет возмож-

ность архивировать найденные клетки во время исследования для последующего изучения нужной популяции в изучаемом препарате. Отработанная технология может быть использована для дальнейшего построения экспертных интеллектуальных систем распознавания в морфологической диагностике.

СПИСОК ЛИТЕРАТУРЫ

1 Lin T., Goyal P., Girshick R., He K., Dollar P. Focal Loss for Dense Object Detection // Computer Vision and Pattern Recognition. 2018. P 1-10.

2 Litjens G., Kooi T., Bejnordi B.E., Setio A.A., Ciompi F., Ghafoorian M., Jeroen A.W.M. van der Laak, Bram van Ginneken, S'anchez C.I. A Survey on Deep Learning in Medical Image Analysis // Medical Image Analysis. 2017. Volume 42, P. 60 - 88.

3 Angulo J., Flandrin G. Automated Detection of Working Area of Peripheral Blood Smears Using Mathematical Morphology // Analytical Cellular Pathology. 2003. Volume 25, №1, P. 37-49.

4 Swolin B., Simonsson P., Backman S., Lofqvist I., Bredin I., Johnsson M. Differential counting of blood leukocytes using automated microscopy and a decision support system based on artificial neural networks - evaluation of DiffMaster™ Octavia // Clinical and laboratory hematology. 2003. Volume 25, №3, P. 139-147.

5 Ashizawa K., MacMahon H., Ishida T., Nakamura K., Vyborny C.J., Katsuragawa S., Doi K. Effect of an artificial neural network on radiologists' performance in the differential diagnosis of interstitial lung disease using chest radiographs // American Journal of Rentgenology. 1999. Volume 172, №5, P. 1311-1315.

6 Piuri V., Scotti F. Morphological classification of blood leucocytes by microscope images // Computational Intelligence for Measurement Systems and Applications, 2004. CIMSA. 2004 IEEE International Conference on. P 103108.

7 Shahin A.I., Guo Y., Amin K.M., Sharawi A.A. White blood cells identification system based on convolutional deep neural learning networks // Computer Methods and Programs in Biomedicine . 2017.

Рукопись получена: 2 февраля 2018 г. Принята к публикации: 12 февраля 2018 г.

System for automatic identification of leukocytes in a peripheral blood smear based on deep learning

Текст научной работы на тему «Система автоматического распознавания лейкоцитов в мазке периферической крови на основе технологии глубинного обучения»