Программные продукты и системы /Software & Systems
№ 4 (108), 2014
УДК 004.932, 57.087 Дата подачи статьи: 04.07.2014
DOI: 10.15827/0236-235X.108.046-056
ОБ ОДНОЙ МЕТОДИКЕ КЛАССИФИКАЦИИ КЛЕТОК КРОВИ И ЕЕ ПРОГРАММНОЙ РЕАЛИЗАЦИИ
(Работа частично поддержана РФФИ, проект № 14-07-00502)
В.К. Беляков, д.м.н., генеральный директор, bel.vk@yandex.ru;
Е.П. Сухенко, к.ф.-м.н., технический директор, evs@westtrade.ru (ВЕСТТРЭЙД ЛТД, а/я 146, г. Москва, 115446, Россия);
А.В. Захаров, старший научный сотрудник, za.harov@niisi.msk.ru;
П.П. Кольцов, д.т.н., доцент, kppkpp@mail.ru;
Н.В. Котович, старший научный сотрудник, kotovich@niisi.msk.ru;
A.А. Кравченко, к.ф.-м.н, зав. сектором, alexk@genebee.msu.su;
А.С. Куцаев, к.ф.-м.н, старший научный сотрудник, koutsaev@niisi.msk.ru;
А.С. Осипов, к.ф-м.н, старший научный сотрудник, osipa.68@yahoo.com (НИИСИ РАН, Нахимовский просп., 36, корп 1, г. Москва, 11 7218, Россия);
А.Б. Кузнецов, к.м.н., доцент, shuricnet@mcdl.ru (Российский национальный исследовательский медицинский университет им. Н.И. Пирогова, ул. Островитянова, 1, г. Москва, 11 7997, Россия)
Предложена методика классификации лейкоцитов, эритроцитов и тромбоцитов, основанная на всестороннем изучении опыта применения различных методов сегментации микроскопических изображений и алгоритмов вычисления характерных признаков клеток крови. Данный подход предполагает применение усовершенствованного комбинированного метода сегментации изображений, использование оптимизированного вектора признаков объекта и нейросетевого классификатора. Важную роль в создании описываемого метода сегментации сыграла разрабатываемая в НИИСИ РАН методика EDEM сравнительного исследования алгоритмов обработки изображений. Метод сегментации включает в себя такие шаги, как выделение граничных точек, замыкание контуров и устранение пересег-ментации (основанное на использовании набора признаков, вычисленных для каждого начального сегмента). Для выделения граничных точек используется комбинация классического детектора Кэнни и метода Риттера-Купера, разработанного для сегментации клеток крови. Данная комбинация обладает преимуществами обоих алгоритмов. Для улучшения границ и замыкания контуров применяется подход, основанный на использовании теории графов и развивающий адаптивный алгоритм замыкания контуров Цзяна. Процедура устранения пересегментации носит итерационный характер. Наш метод сегментации пригоден для сегментации как красных (эритроцитов), так и белых (лейкоцитов) клеток крови, а также тромбоцитов. Для решения задачи классификации клеток по набору признаков использовалась нейронная сеть типа многослойный персептрон (трехслойная нейронная сеть прямого распространения с сигмоидной функцией активации). Нейросетевой классификатор позволяет эффективно разделять клетки крови на классы, используемые в практической гематологии. Разработана программная библиотека, реализующая предложенную методику. Тесты, использующие различные изображения мазков крови, показали высокий потенциал предложенной методики для практического применения.
Ключевые слова: системы автоматической микроскопии, клетки крови, сегментация изображений, детекторы границ, сравнительное исследование, классификация изображений, нейронные сети.
Автоматизированная обработка и анализ медицинских изображений являются мощным инструментом медицинской диагностики. Современные системы автоматической микроскопии активно используются для предварительной классификации клеток крови с дальнейшим контролем результатов врачом. Например, они эффективно сортируют лейкоциты (8-10 % ошибок), облегчая труд врача и обеспечивая информатизацию анализов.
Классификация клеток крови на микроскопическом изображении представляет собой, в терминах компьютерного зрения, задачу распознавания объектов. Стандартный подход к решению этой задачи предусматривает два этапа [1]:
- разделение (сегментация) изображения на области, соответствующие объектам и фону;
- непосредственно распознавание объектов, включающее в себя выделение характерных при-
знаков объектов и распределение объектов в соответствии с их признаками по классам.
Примерно за пять десятилетий развития компьютерного зрения как науки предложено множество методов сегментации изображений, формирования векторов признаков объектов и их классификации. Такое разнообразие ставит перед исследователем непростую проблему выбора методов, наиболее адекватных специфике конкретной задачи.
Специфика задачи более всего сказывается на формировании векторов признаков объектов, в значительной степени - на выборе метода сегментации и существенно меньше - на выборе классификатора.
Таким образом, при выборе стратегии решения данной задачи большое внимание авторами было уделено изучению опыта применения различных методов сегментации микроскопических изобра-
46
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
жений и характерным признакам, используемым для классификации клеток крови.
В соответствии с основными этапами решения задачи первые разделы статьи посвящены используемому методу сегментации изображений клеток крови, следующие - признакам клеток крови, используемым для их классификации. Заключительная часть посвящена собственно процедуре (нейросетевой) классификации, результатам тестирования и разработанному программному обеспечению.
Методы сегментации микроскопических изображений клеток крови
Основным результатом сегментации микроскопического изображения мазка крови является выделение объектов интереса (клеток крови) с целью их дальнейшей классификации. Качество сегментации - ключевой фактор для получения адекватных значений характерных признаков объекта, а значит, для его верной классификации. Так, в работе [2] отмечено, что более половины ошибок классификации лейкоцитов были обусловлены неправильной сегментацией.
Основные причины, ведущие к ошибкам сегментации микроскопических изображений: перекрывание одной клетки другой, сильная вариация клеток по форме и размеру, воздействие разных факторов на внешний вид клетки, слабая контрастность изображений с дополнительными проблемами, вызываемыми шумами. Еще один усложняющий фактор - вариабельность окраски препаратов крови: часто после окраски контрастность контуров структурных элементов внутри клетки превышает контрастность границ самой клетки.
Из трех основных видов клеток крови (эритроцитов, тромбоцитов и лейкоцитов) самую большую сложность для сегментации представляют последние (см. рис. 1). Лейкоциты не являются однородными: их ядра состоят из одного или нескольких сегментов (например нейтрофилы) и цитоплазмы. Иногда ядра плохо различимы (у базофилов). Цитоплазма часто бывает неоднородной, гранулированной, что затрудняет сегментацию.
Исследования компьютерной сегментации микроскопических изображений мазков крови начались в 70-е годы прошлого века и продолжаются до сих пор. Условно методы сегментации, используемые в современных гематологических анализаторах, можно разделить на несколько групп (см. [3]):
- энергетические методы;
- методы пороговой сегментации;
- методы, основанные на выделении однородных по некоторому признаку областей;
- методы, основанные на кластеризации;
- методы, основанные на выделении границ сегментов.
Из энергетических методов широко используется для сегментации изображений клеток крови семейство алгоритмов активного контура (змеек). Основная их идея состоит в минимизации энергии кривой, представляющей границу сегмента. Существенная проблема с данными алгоритмами заключается в том, что топология сегмента должна быть известна заранее. На практике определенные такими методами границы клеток крови часто значительно отличаются от истинных границ, в то время как формы границ весьма важны для правильной классификации клеток. К тому же эти методы не способны выделять области внутреннего просветления у ряда эритроцитов (форма данных областей важна для классификации эритроцитов).
Методы пороговой сегментации имеют разнообразные приложения, в том числе к задачам сегментации микроскопических изображений. Однако при применении данных методов к задаче сегментации эритроцитов, как и в случае методов активного контура, возникают проблемы при значительных просветлениях внутри изображений эритроцитов.
Методы наращивания областей широко использовались и для решения задачи сегментации изображений клеток крови. Работа этих алгоритмов начинается с набора точек, которые являются исходными для последующего присоединения новых точек, исходя из некоторого условия гомогенности. Поскольку цвет клеток и ядер не везде однородный, результатом работы алгоритма может быть пере- или недосегментация.
Методы кластеризации, например кластеризация на основе схемы K-средних, тоже нашли свое применение в данной области (в частности, для разделения отдельного лейкоцита на ядро и цито-
4»
Рис. 1. Фрагмент изображения мазка крови: базофил в окружении эритроцитов; в наличии перекрывающиеся клетки, нечетко различимое ядро, неоднородная текстура цитоплазмы и т.д.
Fig. 1. A blood smear image fragment: basophile surrounded by erythrocytes; there are overlapping cells, vague core, heterogenous cytoplasm structure etc.
47
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
плазму). Однако, как правило, для таких методов время на вычисление значительно возрастает, если число кластеров больше двух.
Методы для непосредственного определения границ между областями на изображении обычно более точны, но и более сложны в применении. Лежащие в основе этих методов детекторы граничных точек (edge detectors), такие, например, как детекторы Canny, Sobel или Prewitt, выдают в качестве результата набор точек, только потенциально являющихся граничными. Чтобы получить из них границу сегмента (то есть некий замкнутый контур), необходима дополнительная процедура постобработки, обычно называемая замыканием контуров. Подходы к реализации данной процедуры также весьма разнообразны.
Что касается упомянутых подходов, отметим, что некоторые методы, основанные на теории графов, доказали свою эффективность. К их числу можно отнести адаптивный алгоритм замыкания контуров, представленный в [4]. В качестве исходных данных берется множество граничных точек, полученных некоторым образом. Производится постепенное расширение граничных точек: добавление соседних точек с изучением новых замыканий. В работе изучаются два подхода: в первом добавление точек идет во всех направлениях, во втором - только в некоторых специальных направлениях. Второй подход показал себя существенно лучше. При этом подходе строится скелет граничных точек, находятся концевые точки этого скелета-графа. В каждой концевой точке по самой точке и по трем ближайшим точкам графа строится направляющий конус с вершиной в данной точке. Добавление точек проводится в направлении построенных конусов. При возникновении замыкания конус перестает использоваться.
В заключение упомянем метод сегментации, предложенный Ritter и Cooper в работе [5]. Он является комбинацией автоматического выбора порога и связных компонент с современной адаптацией классического в теории графов алгоритма Dijkstra кратчайшего пути. Первоначально изображение преобразуется в «серое» и строится гистограмма яркости. По этой гистограмме находится порог для определения фона. Фон изображения затем определяется не просто по порогу, а с использованием алгоритма 4-связности: все связные пиксели с яркостью выше порога заменяются на белые. Метод оставляет нетронутыми области просветления внутри эритроцитов. На следующем шаге осуществляется поиск связных компонент. Затем проводятся утончение, улучшение полученных границ с помощью модификации алгоритма Dijkstra кратчайшего пути. Метод работает быстро и дает однопиксельные границы клеток или групп клеток. Недостатком алгоритма является то, что перекрывающиеся клетки не могут быть разделены.
Предлагаемый метод сегментации
Принимая во внимание перечисленные трудности рассматриваемой задачи сегментации и важность качественной сегментации медицинских изображений для правильной диагностики, представляется разумным использовать при ее решении комбинацию нескольких зарекомендовавших себя (в том числе при решении сходных задач) алгоритмов обработки изображений, сохраняя их достоинства и минимизируя недостатки. При выборе подхода к сегментации изображений клеток крови основным критерием являлась точность выделяемых границ сегментов, влияющая на адекватность вычисляемых геометрических характеристик полученных сегментов. Как отмечалось выше, методы, основанные на использовании граничных точек, обычно дают некоторый выигрыш в точности определения границ сегментов, требуя при этом достаточно сложных процедур постобработки. Это и было использовано авторами при выборе методики сегментации.
Ключевую роль в создании метода сегментации сыграла разрабатываемая в НИИСИ РАН программная система сравнительного исследования алгоритмов обработки изображений PICASSO [6], идеологической основой которой стала методика EDEM. Необходимость создания данной системы была обусловлена тем, что к настоящему времени оценка качества работы различных компьютерных программ, решающих некоторую конкретную задачу, представляет собой процесс, не имеющий единой методики (в то время как сравнительное исследование программных продуктов в области обработки и анализа изображений представляет собой все более актуальную проблему). Основные отличия методик, применяемых в сравнительных исследованиях различных программ, заключаются в следующем:
- тип критерия оценки качества (количественный или качественный, использующий эталоны или нет);
- тип эталонов и тестовых материалов (реальные или синтезированные), их параметры, количество, источники (оригинальные или общедоступные) и т.п.
Используемая авторами методика строит оценку качества на основе вычисления некоторой количественной меры различия результата работы программы на некотором наборе тестовых изображений, для которых эталонное решение, так называемое ground truth, известно априори. Такой подход к оценке качества программных продуктов в англоязычной литературе называется discrepancy method, что определило выбор названия методики: EDEM (Empirical Discrepancy Evaluation Method). Характерной чертой методики является внесение в тестовые изображения контролируемых искажений: размытия, зашумления (с известными пара-
48
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
а)
Рис. 2. Пример тестирования методов сегментации изображений с использованием методики EDEM: а) тестовое изображение из набора Picasso, б) соответствующий ground truth-образ, в) сегментация предлагаемым методом, г) сегментация методом Гемана-Рейнольдса
Fig. 2. Test example for image segmentation methods using EDEM: a) Picasso test image, б) corresponding ground truth-image, в) segmentation using proposed method, г) segmentation using German-Reynolds method
метрами). Данная методика совершенствуется в плане выбора и построения тестовых материалов и соответствующих эталонов, а также анализа и сочетания количественных мер различия.
Что касается требований к тестовым изображениям, они должны учитывать специфику задачи, которую призваны решать сравниваемые между собой программы (в данном случае это сегментация изображений клеток крови). Следующее требование - полнота отображения в конечном наборе изображений ситуаций, возникающих при решении конкретной практической задачи. Данное требование плохо формализуется, и поэтому доказательство полноты, как правило, невозможно. В этом случае ограничиваются экспертными оценками полноты тестового материала, требуя при необходимости его пополнения. Наконец, тестовые изображения должны содержать ситуации, трудные для тестируемых программ.
В качестве примера на рисунке 2a, б представлены одно из использованных тестовых изображений и соответствующий ему ground truth-образ (результат идеальной сегментации). Трудность ситуации обусловлена наличием перекрывающихся областей и относительно слабой вариацией контраста вдоль границ сегментации. Рисунок 2в, г отражает результаты сегментации разработанным методом и (для сравнения) энергетическим методом сегментации Гемана-Рейнольдса [6].
В итоге был предложен метод сегментации, являющийся комбинацией детектора граничных точек Canny и упоминавшегося выше метода Ritter-Cooper [5] и использующий на этапе постобработки усовершенствованную процедуру замыкания контуров.
Что касается метода Ritter-Cooper, его недостатком является то, что перекрывающиеся клетки не могут быть разделены. Между тем в клинической практике перекрывающиеся и слипшиеся на изображении клетки крови неизбежны. Использование этого метода совместно с детектором Canny,
позволяющим находить границы внутри объектов, во многих случаях дает возможность разделить перекрывающиеся или слипшиеся клетки. На этапе замыкания контуров, в частности, тестировался упоминавшийся выше алгоритм [4]. Этот алгоритм прост в реализации, но при его применении к данной задаче не были получены границы достаточно высокого качества. Поэтому был разработан метод замыкания контуров, развивающий идеи, предложенные ранее авторами данной статьи для задачи распознавания текстов. Рассмотрим более подробно последовательные этапы работы описываемого комбинированного метода сегментации.
На первом этапе осуществляется поиск граничных точек. Чтобы получить из найденных с помощью фильтра Canny потенциальных граничных точек собственно границу сегмента, нужно удалить точки, формирующие ложные границы и границы внутри клеток крови, и точки, примыкающие к истинной границе. Полученные точки далеко не всегда формируют замкнутые контуры, и требуется замыкание контуров. Эти действия относятся к процедурам постобработки и выполняются на следующих этапах работы предложенного метода сегментации.
Этапы работы описываемого метода сегментации иллюстрируют рисунки 3-5. Так, на рисунке 3 показан пример исходного изображения.
На рисунке 4а показаны потенциальные граничные точки, полученные на первом этапе работы метода сегментации. Требуется их дальнейшая обработка для получения замкнутых компонент границ и удаления ложных границ и помех.
На втором этапе производятся склейка разрывов в границах, удаление помех. Все полученные на первом этапе граничные точки представляются в виде графов (после предварительной скелетиза-ции). Находятся все особые точки графов. Затем изучаются особые точки индекса 1, то есть концевые вершины графа («хвосты»). Для каждой особой точки индекса 1 определяется направление, в
49
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
Рис. 3. Пример исходного изображения: эозинофил в окружении эритроцитов
Fig. 3. Input image example: eosinophil surrounded by erythrocytes
а) б)
Рис. 4. Начальная сегментация изображения, приведенного на рисунке 3: а) результат обработки исходного изображения методами Canny и Ritter-Cooper, б) результат второго этапа работы метода сегментации
Fig. 4. Initial image segmentation for Fig. 3:
а) the result of processing initial image using Canny
and Ritter-Cooper methods,
б) the result of the 2nd step of segmentation method
котором будет проводиться поиск возможного замыкания. Направление вычисляется исходя из длины и кривизны «хвоста». Как и в работе [4], в соответствии с полученным направлением строится направляющий конус, внутри которого ищется ближайшая точка графа. Дополнительно идет поиск ближайшего «хвоста», что позволяет соединять концевые точки отклоняющихся направлений. При выполнении необходимых условий найденные точки соединяются. Если для концевой точки нет приемлемого варианта соединения с иной граничной точкой, эта концевая точка и вся ветка графа с окончанием в этой точке удаляются.
На рисунке 4б показаны граничные точки, обработанные на втором этапе работы метода.
Очевидно, что эритроциты достаточно хорошо сегментируются уже на этом этапе, а пересегмен-
тация (избыточная сегментация) связана в основном с просветлениями в центрах эритроцитов.
На третьем этапе выделяются предварительные сегменты - области изображения, ограниченные найденными контурами. Проводится анализ сегментов: определяются параметры формы, цвета, текстуры. На основании этого сравнительно несложного анализа делается предварительный вывод о принадлежности сегмента к ядру, цитоплазме или фону. Например, темный фиолетовый цвет сегмента наиболее вероятно указывает на его принадлежность к ядру некоторого лейкоцита (альтернативой здесь может быть центральная часть цитоплазмы тромбоцита, причем ее размер должен быть весьма мал).
На четвертом этапе полученные сегменты по возможности укрупняются, особенно это касается неоднородных сегментов цитоплазмы.
Процедура объединения сегментов происходит итерационно. На каждой итерации расставляются метки сегментов: ядро, цитоплазма, тромбоцит. При этом для определения метки используется упомянутый выше несложный набор характеристик (цвет, параметры формы, зернистость и т.п.). Затем попарно проверяются все соседние сегменты. Вначале рассматриваются сегменты ядра. Те из них, которые граничат друг с другом, объединяются. Далее происходит объединение сегментов цитоплазмы (при этом в некоторых ситуациях сегмент без метки может быть присоединен к цитоплазме, например не ядро в полном окружении цитоплазмы). Затем рассматриваются прочие сегменты на предмет их объединения. После этого происходит следующая итерация с теми же действиями. На каждой итерации метки сегментов могут изменяться.
При объединении сегментов характеристики объединенного сегмента пересчитываются.
На рисунке 5а отображены результаты предварительной сегментации. Сегменты закрашены средними цветами (шкала RGB). На рисунке 5б, в показаны результаты первой и второй итераций процедуры объединения сегментов. Сегменты здесь тоже закрашены средними цветами.
На заключительном, пятом, этапе происходит объединение ядер и цитоплазм лейкоцитов в целые клетки (с сохранением информации о ядрах и цитоплазме - данная информация будет нужна для последующей классификации). На этом же этапе удаляются ложные объекты (заведомо не являющиеся эритроцитами, лейкоцитами или тромбоцитами). На рисунке 5г показаны уже обработанные, укрупненные сегменты - результат итоговой итерации.
Тесты, проведенные на более чем 4 000 реальных изображений, содержащих лейкоциты, эритроциты и тромбоциты, показали, что данный комбинированный метод обеспечивает корректную сегментацию клеток крови в 98 % случаев. Хоро-
50
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
а) б)
в) г)
Рис. 5. Итерационная сегментация: а) результаты предварительной сегментации изображения, приведенного на рисунке 3 (до начала процедуры объединения сегментов), б) результаты первой итерации процедуры объединения,
в) результаты второй итерации, г) итоговый результат сегментации
Fig. 5. Iterative segmentation: a) results of preparatory image segmentation for Fig. 3 (before segments combining), б) results of the 1st iteration of combining, в) results of the 2nd iteration,
г) conclusive result of segmentation
ших результатов работы метода удалось добиться на слипшихся клетках, относящихся к разным типам. То есть слипшиеся лейкоциты и эритроциты (как, например, на рисунке 4) удается корректно разделить если не всегда (2 % ошибок приходятся как раз на случай слипшихся клеток), то в большинстве случаев.
Признаки клеток крови, используемые при их классификации
В настоящее время наибольшее количество работ по распознаванию клеток крови посвящено распознаванию лейкоцитов. Во многом это обусловлено тем, что исследование аномалий различных разновидностей лейкоцитов занимает существенное место в диагностике разных заболеваний. Задаче распознавания эритроцитов посвящено меньше работ, и в разных источниках используются различные классификации эритроцитов (устоявшаяся система их классификации, в отличие от лейкоцитов, отсутствует). Что касается тромбоцитов, то они имеют наименьший размер среди
основных групп клеток крови, что является ключевым признаком в их распознавании.
Формально для сортировки лейкоцитов в системах автоматической микроскопии (САМ) используется тот же перечень признаков клеток, который доступен врачу при ручной микроскопии окрашенного мазка: характеристики морфологии и цвета отдельных клеток, характеристики морфологии и цвета выборки клеток в целом. Однако фактически САМ и врач используют разные наборы признаков, поскольку описанные в учебниках качественные признаки морфологии и цвета плохо поддаются формализации.
Признаки, по которым классифицируются лейкоциты в САМ, можно разделить на три группы: цветояркостные, текстурные и геометрические. В известных системах (см., например, [2]) применяются различные наборы признаков, выбор которых определялся качеством сортировки лейкоцитов на однородной, с точки зрения качества подготовки проб крови, выборке.
К цветояркостным характеристикам, измеряемым в САМ, относятся цвета и оптические плотности цитоплазмы клеток. Как показывает практика, дискриминирующие свойства цветояркостных характеристик цитоплазмы довольно высоки, но, к сожалению, только в пределах одного препарата. Так, например, характерные цвета цитоплазмы эозинофилов в одном препарате вполне могут соответствовать цветам нейтрофилов в другом. Как правило, в САМ, использующих цветояркостные признаки, применяются различные способы нормировки цветов.
Основная проблема при использовании текстурных характеристик заключается в том, что любая характеристика текстуры зависит от разрешения оптической и оцифровывающей систем. При использовании разных объективов, оптических адаптеров и телекамер измеренные характеристики текстуры могут изменяться в несколько раз. Поэтому для получения устойчивой характеристики текстуры необходимо либо снимать изображения на однажды зафиксированном типе оборудования, либо вводить поправку измеренной характеристики на разрешение (отношение пик-сель/микрон в оцифрованном изображении).
Геометрические признаки принято относить к более широкому классу морфометрических признаков, выражающих общие размеры и форму клетки и ядра. Для вычисления данных признаков требуются лишь маска рассматриваемого объекта и его граница: нет необходимости рассматривать его исходное изображение (обычно в качестве входных данных рассматривается результат работы детектора границ). Как правило, используют признаки, инвариантные относительно местоположения и ориентации клетки (площадь, периметр, фактор формы и т.д.). Как показывает диагностическая практика, ранние стадии заболеваний
51
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
оказывают чаще всего незначительное влияние на форму клетки и ядра, зато в задаче сортировки клеток геометрические признаки играют значительную роль.
На сегодня имеется сравнительно немного доступной информации о типичных ошибках систем сортировки лейкоцитов, основанных на описанных выше трех группах признаков. Ошибки данных систем принято разделять на ошибки сегментации изображения и ошибки собственно классификации (в [2] последние составили около 40 % от общего числа ошибок). Помимо ошибки разделения палочкоядерных и сегментоядерных нейтрофилов, в работе [2] упоминаются ошибки, связанные с опознаванием «редких» типов клеток - базофилов, плазмоцитов, «юных» нейтрофилов (они составляют примерно пятую часть ошибок собственно классификации), а также ошибки разделения моноцитов и атипичных лимфоцитов (в процентном отношении они сопоставимы с ошибками опознавания «редких» лейкоцитов). Задача распознавания юных форм лейкоцитов в настоящее время удовлетворительно не решена, и в известных системах либо соответствующие классы не предусмотрены [2], либо их распознавание дает высокий (более 40 %) процент ошибок [7].
Что касается компьютерных систем сортировки эритроцитов, то отсутствие их канонической классификации приводит к созданию систем с различными наборами выходных классов (по-видимому, обусловленными специфическими требованиями заказчика). На практике встречается разделение эритроцитов всего на два выходных класса: нормальные клетки и больные клетки [8, 9]. При этом под нормальными понимаются эритроциты, имеющие форму двояковыгнутых безъядерных дисков диаметром 4-8 микрон (включая микроциты). Эритроциты, не удовлетворяющие указанным признакам, объявляются больными.
Как и в случае лейкоцитов, признаки классификации эритроцитов делятся на геометрические, цветояркостные и текстурные. К геометрическим признакам примыкают и Фурье-дескрипторы контура клетки, к цветояркостным - гистограммы яркости изображений.
Следует отметить, что вопрос об оптимальном наборе признаков классификации эритроцитов остается открытым. Имеются работы, дающие сопоставимое качество классификации при различном числе используемых признаков.
Наконец, определенную трудность для распознающих систем создают слипшиеся эритроциты. Во многих работах по анализу клеток крови используется техника растаскивания слипшихся клеток при помощи применения морфологических фильтров. Затем разделенные клетки восстанавливаются. Заметим, что если такая методика и оправдывает себя в задаче подсчета эритроцитов, то
в задаче распознавания больных лейкоцитов она представляется сомнительной, поскольку при деформациях теряются важные для распознавания признаки клеток.
Признаки клеток крови
Приведем перечень признаков, использовавшихся для классификации клеток крови. Часть признаков используется на этапе сегментации для определения того, относится ли рассматриваемый сегмент к ядру или цитоплазме лейкоцита, эритроциту, тромбоциту или ложному объекту. Наборы признаков для лейкоцитов и безъядерных клеток (эритроцитов и тромбоцитов) существенно пересекаются.
Для классификации лейкоцитов использовались следующие признаки.
1. Минимальный и максимальный размеры сегмента. Вычисляются в соответствии с заданным разрешением пиксел/мкм.
2. Относительная величина сегмента. Площадь сегмента относительно средней площади эритроцита. Признак полезен в случае, когда разрешение неизвестно.
3. Относительная величина ядер. Сумма площадей всех ядер относительно средней площади эритроцита. Признак полезен в случае, когда разрешение неизвестно.
4. Заполненность ядра. Отношение площади ядра к площади описанного прямоугольника.
5. Момент границы максимального ядра:
\(Mx + My )-^ \(Mx - My )2 + Ml
\(Mx + My ) +^| \(M„ - My )2 + Ml
N N
где Mxx =£(x -Хс)2; Myy = £(у, -¥с)2;
,=1 i=1
N
Mxy =£ (х,- - Xc )(у - Ус); X, Yc - координаты
i=1
геометрического центра ядра; N - количество граничных точек.
6. Коэффициент формы ядра. Отражает отношение площади максимального ядра к квадрату числа граничных точек (к квадрату приближенного периметра).
7. Оттенок. Три признака: средние значения красной, синей и зеленой составляющих оттенка цвета цитоплазмы. Оттенок - существенно более устойчивый признак, чем цвет при изменении условий съемки. Зависимость между оттенком H и цветами R, G, B:
{о тз 1
100—,100—, 100— ^ ,
M M M J
M = max{R, G, B}.
8. Цвет. Три признака: средние значения красной, синей и зеленой составляющих цвета ци-
52
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
топлазмы. Эти признаки неустойчивы при анализе изображений, сделанных в разных условиях, но полезны при идентификации сегмента на исходном изображении.
9. Сигма. Три признака: отражают значения среднеквадратичного отклонения красной, синей и зеленой составляющих оттенка цвета цитоплазмы.
10. Зерно. Отражает зернистость цитоплазмы.
11. Количество ядер в сегменте.
12. Отношение суммарной площади ядер к площади всего сегмента.
13. Площадь максимального ядра относительно суммарной площади ядер в сегменте.
14. Расстояние от взвешенного центра ядер до центра сегмента.
15. Перемычка, Вторая перемычка. Для каждой точки границы максимального ядра находится расстояние до противоположной точки границы (для данной точки с номером 0 противоположной считается точка с относительным порядковым номером N/2, где N - количество граничных точек). Затем для построенной функции находятся максимальный прогиб и второй по величине прогиб.
16. Перемычка 3. Рассчитывается аналогично признаку Перемычка, но в качестве противоположной точки для данной используется ближайшая точка границы, обнаруженная при движении от данной точки в направлении, перпендикулярном границе.
17. Подкова. Определяется, похоже ли максимальное ядро по форме на подкову. В случае сходства вычисляется отношение толщины в центре подковы к толщине по краям.
Для классификации эритроцитов и тромбоцитов авторы использовали те же признаки, что и для лейкоцитов, за исключением признаков 3, 6, 9-14 (классифицируемые клетки не имеют ядер и их цитоплазма однородна). Признак 5 здесь - момент границы всей клетки. Кроме того, использовались следующие признаки.
• Фактор формы. Отражает отношение площади сегмента к квадрату числа граничных точек (к квадрату приближенного периметра).
• Перепад цвета. Отражает среднее значение перепада яркости (значение максимального прогиба на графике яркости) вдоль горизонтальных и вертикальных линий.
• Второй перепад цвета. Отражает среднее значение второго по величине прогиба на графике яркости вдоль горизонтальных и вертикальных линий.
• Площадь внутренней области. Площадь области просветления в центре сегмента относительно площади всего сегмента.
• Вторая площадь внутренней области. Отражает площадь второй области просветления в центре сегмента.
• Внутренний момент. Момент границы внутренней области просветления.
Классификация клеток крови по вектору признаков
Под классификацией клеток крови понимается их отнесение в соответствии с их векторами признаков к некоторым заранее определенным классам.
На выбор классификатора специфика задачи влияет гораздо меньше, чем на выбор метода сегментации и на формирование признакового пространства. Поэтому на этапе непосредственной классификации клеток крови используются в основном стандартные методы и подходы.
В CAM наиболее популярными классификаторами являются нейронные сети [2, 7]. При этом современные САМ, использующие данные классификаторы, показывают высокую степень согласованности с результатами ручной микроскопии. Так, для систем, описанных в [2, 7], по результатам испытаний эта цифра превышает 90 %.
Для решения задачи классификации клеток крови по вектору признаков авторы использовали нейронную сеть типа многослойный персептрон. Сети такого типа обычно состоят из входного слоя (на входы нейронов этого слоя поступает информация извне), одного или нескольких промежуточных (скрытых) слоев и выходного слоя (совокупность выходов нейронов этого слоя, собственно, и представляет собой выходной сигнал сети).
Нейроны сети могут быть связаны между собой различным образом. В данном случае была реализована нейронная сеть с полной системой последовательных связей, то есть выход нейрона данного слоя соединен со входами всех нейронов только последующего слоя. Сеть такой конфигурации обладает важным свойством: ее поведение устойчиво в отличие, например, от сети с рекуррентными связями (когда выходы нейронов последующих слоев связаны со входами нейронов предыдущих слоев, что обусловливает очень сложную динамику поведения сети).
Поскольку известно, что возможности многослойной сети превосходят возможности однослойного персептрона только при использовании нелинейной активационной функции нейрона, в качестве активационной функции использовался
сигмоид y = F(net) =-1---.
Полезной особенностью данной функции является так называемый автоматический контроль усиления, то есть при больших отрицательных и больших положительных значениях net производная близка к нулю, а при малых значениях она максимальна. Таким образом, обеспечивается нормальное функционирование сети при слабых и при сильных входных сигналах. Другое преимущество использования данной функции в том, что значение ее производной легко выражается через значение самой функции, что облегчает вычисле-
53
Программные продукты и системы / Software & Systems
№ 4 (108), 2014
ния при обучении сети методом обратного распространения ошибки (Back Error Propagation [10]), применявшимся в данной работе.
Программная реализация методики
В состав программного обеспечения, реализующего разработанную методику классификации клеток крови, входят
- DLL-библиотека программных алгоритмов сегментации изображений, вычисления характерных признаков клеток крови и их классификации;
- графическая оболочка для работы с функциями из этой DLL-библиотеки; программа позволяет распознавать как отдельное выбранное изображение, так и группу файлов изображений клеток крови, находящуюся в выбранном каталоге, сохранять результаты классификации клеток крови в файлах формата xml и в текстовых файлах, а также вычислять и сохранять в текстовом файле характерные признаки клеток, используемые для классификации.
На рисунке 6 представлено главное окно программы-оболочки с загруженным исходным изображением (слева) и результатом классификации обнаруженных на этом изображении клеток (справа). Объекты, перекрывающие друг друга, а также те, что представлены на изображении лишь частично (расположенные на его краях), из процесса классификации автоматически исключаются.
Результаты тестирования методики
Так как наборы признаков, использовавшиеся для классификации лейкоцитов и безъядерных клеток, отличались друг от друга, были обучены две нейросети: одна для лейкоцитов, другая для эритроцитов и тромбоцитов. Предварительное разделение обнаруженных сегментов на потенциальные лейкоциты и безъядерные клетки осущест-
Рис. 6. Вид глав-ного окна программы
Fig. 6. Program main window
влялось на этапе сегментации, поэтому признаки каждого сегмента предъявлялись для классификации только на вход «своей» нейросети.
После анализа (с участием эксперта-гемато-лога) исходных данных для обучения нейросетевых классификаторов было отобрано 7 895 образцов клеток крови (3 933 лейкоцита, 3 093 эритроцита и 869 тромбоцитов) (см. табл. 1).
Таблица 1
Обучающие последовательности
Table 1
Learning sequences
Лейкоциты Безъядерные клетки
Классы Ns Ner Классы Ns Ner
Базофилы 185 0 Мишеневидные эритроциты 107 0
Эозинофилы 147 0 Сфероциты 96 1
Моноциты 185 0 Среднеэллиптичные эритроциты 87 1
Палочкоядерные нейтрофилы 140 1 Слабоэллиптичные эритроциты 775 0
Сегментоядерные нейтрофилы 1955 0 Стоматоциты 175 1
Большие гранулярные лимфоциты 295 1 Дискоциты 1853 0
Лимфоциты 1026 0 Тромбоциты 869 0
Всего 3933 2 Всего 3962 3
Обозначения: Ns - количество образцов данного класса в последовательности, Ner - количество ошибок при обучении.
Обучение проводилось с разными начальными значениями весовых коэффициентов. С целью уменьшения эффекта от переобучения осуществлялся поиск минимальной конфигурации сети, обеспечивающей отсутствие (или незначительное количество) ошибок обучения. Количество нейронов входного слоя определялось количеством используемых признаков (менялось в процессе оптимизации признакового пространства), выходного - количеством допустимых классов в решаемой задаче классификации (оставалось всегда равным 7). Количество нейронов скрытого слоя варьировалось от 150 до 300.
С целью оптимизации признакового пространства и уменьшения эффекта «проклятия размерности» (ухудшение качества классификации при увеличении размерности вектора признаков и недостаточности элементов обучающей последовательности) минимизировалось количество используемых признаков и, следовательно, количество нейронов входного слоя.
В результате проведенных экспериментов оптимальная конфигурация трехслойной сети, ориентированной на классификацию лейкоцитов, была определена как 17-200-7, а сети, предназна-
54
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
ченной для классификации эритроцитов и тромбоцитов, как 14-200-7.
Удачное обучение (количество ошибок составило менее 0,1 %) свидетельствует об адекватности предложенной методики и корректности работы программного обеспечения, но не дает гарантии эффективности практического применения методики. Для того чтобы уверенно говорить о такой эффективности, необходимы дальнейшие исследования, включающие контрольные тесты с использованием данных, не входящих в обучающие последовательности.
Проведена грубая оценка эффективности обсуждаемой методики, включающая в контрольный тест по 100 образцов клеток каждого класса, не использованных в процессе обучения (пример теста для лейкоцитов приведен в таблице 2). Для выделенных в таблице курсивом базофилов, эозинофилов и палочкоядерных нейтрофилов пришлось из-за нехватки исходных данных использовать образцы из обучающей последовательности (это было сделано для полноты теста).
Таблица 2
Результаты контрольного теста
Table 2
The results of a control test
Классы S T L F R
Базофилы 100 100 - 0 0
Эозинофилы 100 100 - 0 0
Моноциты 100 79 - 5 16
Палочкоядерные нейтрофилы 100 100 100 0 0
Сегментоядерные нейтрофилы 100 91 95 0 5
Большие гранулярные лимфоциты 100 66 86 1 13
Лимфоциты 100 71 90 0 10
Обозначения: S - количество объектов данного класса в тесте; T - количество правильно классифицированных объектов данного класса; L - количество объектов данного класса, правильно отнесенных к своему «большому» классу (для нейтрофилов и лимфоцитов); F - количество объектов данного класса, ошибочно отнесенных к другому классу; R - отказ от распознавания (при заданной точности объект не отнесен ни к одному из классов).
Как видно из результатов контрольного теста, для наиболее полно представленных в обучении (порядка 2 000 образцов) сегментоядерных нейтрофилов степень правильно классифицированных образцов достигает 91 % (то есть достигнут уровень 90-92 %, показываемый современными системами автоматической микроскопии [2]). Учитывая, что 4 % сегментоядерных нейтрофилов были отнесены к палочкоядерным нейтрофилам, то есть к тому же «большому» классу нейтрофилов, можно надеяться, что при доведении количества образцов палочкоядерных нейтрофилов в
обучающей последовательности до уровня сегментоядерных качество разделения нейтрофилов на подклассы будет увеличиваться и достигнутый уровень в 91 % будет превзойден.
Лимфоцитов, представленных в обучении существенно скромнее нейтрофилов (в 7 раз меньше для больших гранулярных лимфоцитов и примерно в 2 раза меньше для остальных лимфоцитов), к правильному «большому» классу отнесено 86-90 %, что при соответствующем дообучении позволяет рассчитывать на достижение тех же уровней, что и для нейтрофилов.
Моноциты, количество которых в обучающей последовательности на порядок меньше сегментоядерных нейтрофилов, правильно классифицированы в 79 % случаев. Для базофилов, эозинофилов и палочкоядерных нейтрофилов, представленных в тесте образцами, использованными в обучении, реальное качество классификации, видимо, близко к показателю моноцитов, так как присутствие образцов этих четырех классов в обучающей последовательности соизмеримо друг с другом.
Таким образом, результаты обучения и контрольных тестов позволяют утверждать, что рассмотренная в данной статье методика классификации лейкоцитов, эритроцитов и тромбоцитов для достаточно широкого перечня их классов имеет высокий потенциал. Для его реализации необходимо дообучить используемые нейронные сети, включив в обучающие последовательности дополнительные образцы для всех рассматриваемых классов клеток крови и обеспечив сбалансированное представительство образцов разных классов.
Для точной оценки эффективности предложенной методики для практического применения необходимо провести всестороннее тестирование с применением контрольных последовательностей, состоящих из образцов, не использованных в обучении, и количественно сравнимых с обучающими последовательностями.
Литература
1. Haralick M. and Shapiro L.G. Computer and Robot Vision, Addison-Wesley, Reading, 1992, vol. 1.
2. Соколинский Б.З., Демьянов В.Л., Медный В.С., Парпара А.А., Пятницкий А.М. Автоматическая сортировка лейкоцитов мазка крови с использованием методов обучаемых нейронных сетей и watershed // В сб.: Методы микроскопического анализа. М.: Медицинские компьютерные системы, 2009. С.128-132.
3. Koltsov P., Kotovich N. et al. On one approach to blood cell image segmentation. Proc. Intern. Conf. PRiA-11-2013, 2013, vol. 2, pp. 615-618.
4. Jiang X. An adaptive contour closure algorithm and its experimental evaluation. Transactions on Pattern Analysis and Machine Intelligence, 2000, vol. 22, no. 11, pp. 1252-1265.
5. Ritter N., Cooper J. Segmentation and border identification of cells in images of peripheral blood smear slides. Thirtieth Australasian Computer Sc. Conf., Ballarat Australia, 2007, pp. 161 -169.
6. Грибков И.В., Захаров А.В., Кольцов П.П., Кото-
55
Программные продукты и системы /Software & Systems
№ 4 (108), 2014
вич Н.В., Кравченко А.А., Куцаев А.С., Осипов А.С. Сравнительное исследование методов анализа изображений. М.: Изд-во НИИСИ РАН, 2005.
7. Swolin B., Simonsson P. et al. Differential counting of blood leukocytes using automated microscopy and a decision support system based on artificial neural networks - evaluation of DiffMaster Octavia Clinical and Laboratory Haematology, 2003, vol. 25, no. 3, pp. 139-147.
8. Jambhekar N. Red blood cells classification using image
processing. Science Research, 2011, vol. 1, no. 3, pp. 151-154.
9. Markiewicz T., Osowski S. Data mining technicques for feature selection in blood cell recognition. Proc. of the European Symposium on Artificial Neural Networks, Bruges, Belgium, 2006, pp. 407-412.
10. Rumelhart D.E., Hinton G.E., Williams R.J. Learning internal representations by error propagation. Parallel Distributed Processing: Foundations, Cambridge, MA:MIT Press, 1986, vol. 1, pp. 318-362.
DOI: 10.15827/0236-235X.108.046-056 Received 04.07.2014
ON ONE METHOD OF BLOOD CELL CLASSIFICATION AND ITS SOFTWARE IMPLEMENTATION
(The work has been supported by the Russian Foundation for Basic Research, project №14-07-00502)
Belyakov V.K., Dr.Sc. (Medics), Director General, bel.vk@yandex.ru;
Sukhenko E.P., Ph.D. (Physics and Mathematics), Director, evs@westtrade.ru (LLC “WESTTRADELTD”, P.O. Box 146, 115446, Moscow, Russian Federation)
Zakharov A. V., Senior Researcher, zaharov@niisi.msk.ru;
KoltsovP.P., Dr.Sc. (Engineering), Associate Professor, kppkpp@mail.ru;
Kotovich N.V., Senior Researcher, kotovich@niisi.msk.ru;
Kravchenko A.A., Ph.D. (Physics and Mathematics), Head of Sector, alexk@genebee.msu.su;
Kutsaev A.S., Ph.D. (Head of Sector), Senior Researcher, koutsaev@niisi.msk.ru;
Osipov A.S., Ph.D. (Physics and Mathematics), Senior Researcher, osipa68@yahoo.com (SRISA RAS, Nakhimovskiy Av., 36/1, Moscow, 117218, Russian Federation)
Kuznetsov A.B., Ph.D. (Medics), Associate Professor, shuricnet@mail.ru (Pirogov Russian National Research Medical University, Ostrovityanova 1, Moscow, 117997, Russian Federation)
Abstract. A method is offered to classify the leukocytes, erythrocytes and thrombocytes. This method is based upon a comprehensive study of various segmentation methods of microscopic images and algorithms for calculation of blood cell feature sets. Our approach assumes the application of an improved combined segmentation method for microscopic images, the use of an optimized feature vector of an object and a neural network classifier. The important role in the design of our segmentation method belongs to the EDEM method for a comparative study of image processing algorithms developed in SRISA RAS. The segmentation method includes such steps as edge detection, contour closing and over-segmentation elimination (based upon a set of features calculated for each initial segment). For the edge detection we use a combination of the classical Canny detector and the Ritter-Cooper method designed for blood cell segmentation. This combination comprises the advantages of both algorithms. For the boundary enhancement and contour closing steps we use an approach based upon the graph theory which develops the adaptive contour closure algorithm proposed by Jiang. The over-segmentation elimination is an iterative procedure. Our segmentation method is suitable for both red and white blood cell segmentation. To solve the blood cell classification task by a feature set we use a neural network of a multilayer perceptron type (three-layer feedforward neural network with a sigmoid function in the hidden layer). The neural network classifier allows one to effectively separate the cells into different types used in practical hematology. The program library, where the proposed classification method was implemented, is created. Our tests with various blood smear images have shown a high potential of our method for practical application.
Keywords: automated microscopic systems, blood cells, image segmentation, edge detectors, comparative study, image classification, neural networks.
References
1. Haralick M., Shapiro L.G. Computer and Robot Vision. Addison-Wesley Publ., Reading, 1992, vol. 1.
2. Sokolinskiy B.Z., Demyanov V.L., Mednyy V.S., Parpara A.A., Pyatnitskiy A.M. Automated sorting of white blood cells in blood smear images using methods of trainable neural networks and watershed algorithm. Metody mikrosko-picheskogo analiza [Microscopic Analysis Methods]. Moscow, Medical Computer Systems Publ., 2009, pp. 128-132.
3. Koltsov P., Kotovich N. On one approach to blood cell image segmentation. Proc. Intern. Conf. PRIA-11-2013, 2013, vol. 2, pp. 615-618.
4. Jiang X. An adaptive contour closure algorithm and its experimental evaluation. Transactions on Pattern Analysis and Machine Intelligence. 2000, vol. 22, no. 11, pp. 1252-1265.
5. Ritter N., Cooper J. Segmentation and border identification of cells in images of peripheral blood smear slides. Proc. 30th Australasian Computer Science Conf. Ballarat Australia, 2007, pp. 161-169.
6. Gribkov I.V., Zakharov A.V., Koltsov P.P., Kotovich N.V., Kravchenko A.A., Kutsaev A.S., Osipov A.S. Sravnitel-noe issledovanie metodov analiza izobrazheniy [A Comparative Study of Image Analysis Methods]. Moscow, NIISI RAS Publ., 2005.
7. Swolin B., Simonsson P. Differential counting of blood leukocytes using automated microscopy and a decision support system based on artificial neural networks - evaluation of DiffMaster Octavia. Clinical and Laboratory Haematology. 2003, vol. 25, no. 3, pp. 139-147.
8. Jambhekar N. Red blood cells classification using image processing. Science Research. 2011, vol. 1, no. 3, pp. 151-154.
9. Markiewicz T., Osowski S. Data mining technicques for feature selection in blood cell recognition. Proc. of the European Symp. on Artificial Neural Networks. Bruges, Belgium, 2006, pp. 407-412.
10. Rumelhart D.E., Hinton G.E., Williams R.J. Learning internal representations by error propagation. Parallel Distributed Processing: Foundations. Cambridge, MA, MIT Press, 1986, vol. 1, pp. 318-362.
56