О Ь РА В 07 К Л ИГЮЬРАЖЬ'НИЙ
•/ ■ '
... • .
Н.Ю.Ильясова. А.В.Устинов, А.Г.Храмов АЛГОРИТМЫ АВТОМАТИЧЕСКОЙ КЛАСТЕРИЗАЦИИ ИЗОБРАЖЕНИЯ МИКРОЧАСТИЦ
Задача распознавания форменных элементов крови
В настоящее время большинство лечебных учреждений страны используют ручные методики определения лейкоформулы крови, основанные на распознавании и подсчете ядер лейкоцитов (лимфоцитов, моноцитов, эозино-филов, базофилов и сегментоядерных лейкоцитов). Методики обладают следующими недостатками: большая нагрузка на зрение, непосредственный контакт с вредными веществами (иммерсионное масло), длительно фиксированная поза лаборанта.
Известные методы автоматического подсчета форменных элементов, основанные на принципе подсчета частиц, проходящих через капилляр, обладают другим характерным недостатком - низкой устойчивостью к посторонним включениям, что снижает точность исследований. Таким образом, актуальной является задача разработки системы распознавания элементов крови, основанной на вводе изображений препаратов крови в память ЭВМ и автоматической кластеризации.
В данной работе описывается алгоритмическая часть автоматизированной системы распознавания микрочастиц (АСРМ), посвященная определению признаков объектов распознавания и разработке алгоритмов автоматической кластеризации. Приводятся результаты экспериментальных исследований на тестовых и натурных изображениях.
Общая структура системы распознавания
Целью создания АСРМ является автоматизация группы процессов восприятия, связанных с поиском, выделением, идентификацией, классификацией и описанием образов, на основе анализа реальных данных. Поиск и выделение образов осуществляется на начальном этапе анализа в процессе обработки данных и выполняется для того, чтобы получить промежуточные результаты, "лучше" представляющие объекты с точки зрения соответствую-
щей задачи. Разработка классификатора включает анализ выборочных преобразованных данных, синтез модели, учитывающий изменчивость образов, выбор из заданного набора характеристик некоторого подмножества, адекватно характеризующего отдельные классы, разработка алгоритма распознавания. Таким образом АСРМ включает в себя решения следующих задач:
1. Определение полного перечня признаков обрабатываемых объектов. Данный перечень представляется в виде вектора измерений:
*=(*!.*>..
Данные вектора содержат всю поддающуюся измерению информацию об образах. В построенной АСРМ таким вектором является набор экстремальных значений координат исследуемых объектов:
тахШ, ттШ, тах(т}, т1п(т},
о о о о тах{Г+ т}, тт(7+т), тах(Г-т}, тМ- г}
о о о о
В обозначениях для непрерывного объекта х(г, г), занимающего область В.
2. Разработка априорного словаря признаков. Он включает в себя наиболее характерные свойства, обшие для всех образов данного класса. Выбор адекватного множества признаков, учитывающий трудности, которые связаны с реализацией процессов выделения признаков и обеспечивающий в то же время необходимое качество классификации, представляет собой одну из наиболее трудоемких задач построения АСРМ.
3. Первоначальная классификация объектов, составление априорного алфавита классов. Основное в данной задаче -выбор надлежащего принципа классификации. При решении последующих задач априорный алфавит классов уточняется, в результате чего формируется рабочий алфавит классов.
4. Описание всех классов априорного алфа-
вита классов на языке признаков, включенных в априорный словарь признаков. Задача не имеет однозначного решения. В зависимости от объема исходной информации для ее решения используются методы непосредственной обработки исходных данных, обучения или самообучения. Если признаки объектов - детерминированные, то описанием каждого класса на языке этих признаков является его эталон, то есть точка, сумма расстояний до которой от точек, описывающих объекты данного класса, минимальна.
5. Разбиение априорного пространства признаков на области, соответствующие классам априорного алфавита классов. Разбиение выполняется оптимальным образом.
Пусть О - множество всех объектов:
П»{<■),,<*>2.(»„} .
Пусть проведено разбиение объектов на классы:
о,.о2...а*.
где Окпй,=0, к+1\ и0к=0 .
К
В априорном словаре признаков содержится упорядоченный набор векторов признаков:
...
где Л'=(л„,л|2,...,лет), описывающий априорное пространство I) признаков АСРМ размерности п. Конкретные точки этого пространства представляют собой распознаваемые объекты.
Необходимо выделить в пространстве признаков области Д. /-1,2,...,к, эквивалентные классам, то есть характеризуемые следующей закономерностью: если объект, имеющий признаки л',0.л'г0.л'по. относится к классу. то пред-
ставляющая его в признаковом пространстве точка принадлежит области Д.
0КпП=е, к*1, и0Ч=0.
к
6. Разработка алгоритмов распознавания, обеспечивающих отнесение объекта к тому или другому классу или их совокупности. Алгоритмы АСРМ основываются на сравнении той иди другой меры близости распознаваемого объекта с каждым классом. Объект щ принадлежит классу
Оч, если выбранная мера близости
Ц(д),йв)=ех1гЦ(о,£!,), /=1,2 К,Ьц .
I
7. Разработка рабочего словаря признаков и рабочего алфавита классов, позволяющих в условиях ограничений на построение АСРМ обеспечивать максимальное значение показателя эффективности системы. Задача решается с помощью математической модели АСРМ путем последовательных приближений.
8. Разработка специальных алгоритмов управления работой АСРМ, позволяющих оптимизировать процесс функционирования АСРМ и выбранный критерий качества.
Кластерный анализ пространства признаков
Разработанная АСРМ в применении к медицинской проблеме является самообучающейся системой распознавания, характеризуемой минимальным количеством первоначальной информации о распознаваемых объектах, достаточной лишь для определения словаря признаков объектов. АСРМ не получает указания о том, к какому классу объекты исходной совокупности могут принадлежать. Эти указания заменяются набором правил, в соответствии с которыми на стадии самообучения АСРМ сама вырабатывает свою классификацию, которая может отличаться от естественной. и в дальнейшем ее придерживаться. Полученные в результате разбиения классы называются кластерами, а разработанные и реализованные в АСРМ методы их нахождения -кластер-анализаторами. В основу указанных методов положена гипотеза о компактности, то есть требование того, чтобы объекты, отнесенные к соответствующим кластерам, располагались в заданном признаковом пространстве Л компактно. Мерой компактности образов в АСРМ является:
I. Расстояние Махаланобиса:
Пусть заданы объекты и р,д= I.........т,
значениями своих признаков Хр и признаки статистически зависимы и значимость их при решении вопроса об отнесении объекта к тому или иному классу различна и определяется "весовыми" коэффициентами. Тогда расстояние Махаланобиса между двумя объектами а>0 и о)ч:
D0(b>p.uQ)^(Xp-Xqy\'C 1Л(Хр Xq)
где С - коварииионная матрица генеральной совокупности примаков. Л - некоторая симметричная неот-рипательно определенная матрица "весовых" коэффициентов, которая обычно выбирается диагональной.
2. Эвклидово расстояние:
D^p.“<,4(xprxq,)2+-'(xf„xqn)2 ■
Эта мера близости хорошо работает в ситуации, когда признаки взаимно независимы и имеют одинаковую дисперсию, однородные по своему физическому смыслу и одинаково важны, признаковое пространствосовпадаете геометрическим пространством.
3. Нормировка на дисперсию признака:
£ (xpi-xqf/o*
/и
В данном варианте признаки имеют различную дисперсию о?.
В качестве мер близости между формируемыми кластерами используются:
1 Расстояние, измеряемое по принципу ближайшего соседа":
0тп(0/.0</)-т1п0(ы,/,«^) ,
1.1
<*>//& Й/ | ^ <7 > ^~ ^...^ '
2 Расстояние измеряемое по"иентрач тяжести" кластеров:
/.</=1..К,
где 2 - центр кластера, эталон
Z=i Гх.
N ^
X(S
где .V- число выборочных образов, входящих в кластер .V.
Инвариантные признаки объектов на изображении
Одной из центральных проблем при распознавании образов является формирование признаков объектов, инвариантных к различным геометрическим искажениям 11| Наличие таких признаков позволяет идентифицировать объект на изображении независимо от его местоположения, размера и ориентации. I. Коэффициент аспекта - параметр, с помощью которого можно судить о вытянутости объекта. Он связывает между собой минимальную и максимальную проекции объекта на оси координат и на оси, повернмые относительно их на 45°.
m і n (Dx, Dy, ., D45 J
max(Dx,D )
где с учетом дискретизации изображения
Ох=тах(х) тт(х)*1;
Оу=тах(у) тт(у)И;
045.=(тах(х»у) тю(х>>)-2)/Т2
0^=(тах(ху)-т\п(х-у)*2)/>/2
2. Коэффициент формы - параметр, служащий для опенки "извилистости" объекта и связывает между собой две величины: площадь объекта и его периметр. Параметр характеризует отношение площади объекта к площади, максимальной в заданном периметре.
«г
4л S
где /' - периметр объекта И) экспериментальных исследований получено следующее выражение для периметра объекта:
1Р. Р
Г V 4 8 •
где 1\ - четырехсвязныи периметр объекта;
1\ - восьмисвязный периметр объекта
3. Коэффициент площади, связывающий между собой площадь объекта и плошадь минимального выпуклого многоугольника, описанного вокруг объекта.
а) В качестве указанного многоугольника рассматривается четырехугольник
S1'
min(D,,0rD^.,D^ )
где S - площадь объекта
б) В качестве многоугольника рассматривается
восьмиугольник:
где с учетом дискретизации изображения:
51=(тах(у)-т1п(х)+тах(х-у)+1)2/2 ; 5^=(тах(х)-тах(у)-тах(х-у)+1)г/2 ; ^=(тах(х)-тт(у)-тах(х-у)-1)2/2 ; 54=(тах(х+у)-т1п(х)-лп1п(у)-1)2/2 .
4. Моментные признаки.
Начальные моменты изображения определяются следующим образом:
/+/+2
ЕІҐ[/х(/,х)Г/т/^Л ,
где х({, г) - двумерная функция яркости изображения объекта. Данная характеристика является чувствительной к сдвигу, повороту и масштабу объекта. Нечувствительность к сдвигу достигается с помощью центральных моментов, которые выражаются следующим образом:
••
^//(Г-УЧт-тоУх(*,т)<Л* ,
где Г0=— , Т0=— - координаты центра тя-
^00 ^00 жести объекта. Для цифровых изображений
N N N1 т«1
Данные характеристики имеют следующие выражения:
^00 = 5» • ^10 = ^)1=® І
;
ьоо
Инвариантность моментов к масш табу обеспечивается их нормировкой к (для бинарного изображения - к площади объекта):
-00
Признаками, инвариантными ко всем геометрическим искажениям объекта и используемыми в АСРМ, являются следующие величины:
^0=т120+т)02 *
А =(Г120 + Т102)2+4Т)11 •
В АСРМ используется центральные моменты не выше второго порядка. Из-за дискретизации входных данных возникают определенные ошибки в значениях моментных инвариантов. Средняя величина ошибки зависит от размера вращения, смешения и масштабного изменения изображения. Достаточно хорошие результаты получены для углов вращения до 45° и масштабного множителя до двух.
Алгоритмы автоматической кластеризации
Реализованные в АСРМ алгоритмы дают хорошие результаты в случае, когда классы образов обнаруживают тенденцию к проявлению кластеризационных свойств. Выявление кластеров во многих отношениях является "искусством" весьма эмпирическим, так как качество работы зависит не только от характера анализируемых данных, но также в значительной степени определяется мерой сходства и методом идентификации кластеров в системе данных. При разработке АСРМ использовались два подхода - эвристический, в основе которого лежит интуиция и опыт, и подход, основанный на минимизации выбранного показателя качества:
£ |Х-ту|2 .
Хе$і
где Лгс - число кластеров,
- множество образов, относящихся к 7-му кластеру, а
т,=— У X -' N т
вектор выборочных средних значений для множества £(, Л', характеризует количество образов, входящих во множество Данный
показатель качества определяет общую сумму квадратов отклонений характеристик всех образов, входящих во множество .V,.
В построенной АСРМ может использоваться предварительная обработка данных, которая производится с помощью алгоритма Максими-на (2], целью которого является предварительная оценка количества кластеров и поиск представительных его элементов с учетом данной оценки, что в общем случае может улучшить работу системы в целом.
В основе АСРМ лежит итерационная самоорганизующаяся система автоматической кластери-зации.
Система представляет собой определенную гибкую последовательность операций. Их итеративное выполнение приводит к тому, что основные элементы классификации вырабатываются непосредственно в процессе работы. В частности это относится и к числу ядер, количество которых априори может быть не определено. Ядрами кластеров служат выборочные средние, определяемые итеративно. Алгоритм обладает обширным набором вспомогательных эвристических процедур, встроенных в схему итерации, определяющих оценки всех характеристик, полученных на каждой итерации кластеров и производящих автоматическую настройку основных порогов процесса кластеризации, таких как
0$ - параметр, характеризующий предельное рассеяние точек пространства признаков найденных кластеров относительно их ядер. Определяется дисперсией, соответствующей наибольшему скачку вариационного ряда максимальных среднеквадратических отклонений признаков кластеров.
Ос -параметр, характеризующий компактность кластера. Определяется минимальной дистанцией между ядрами скорректированных на соответствующей итерации кластеров.
Алгоритм состоит из следующих этапов.
1. Задаются параметры, определяющие процесс кластеризации:
(')>I -параметр, характеризующим минимально возможное количество выборочных образов, вошедших в кластер;
/. -максимальное количество пар центров кластеров, которые можно объединить.
I -допустимое число циклов итерации. Пороги (Л. (Л, описанные выше, автоматически корректируются после каждой итерации процесса кластеризации.
Исходное расположение центров выбирают
произвольно: 2У,27...2К .. Экспериментальное
исследование показывает, что окончательный результат почти не зависит от первоначального выбора.
2. Заданные т образов распределяются по кластерам, соответствующим выбранным исходным центрам, по правилу:
если |Лг-2'/|<|Л'-2/|, /=1,2.Nc; /*/,
где Л; - множество образов, входящих в кластерную область с центром 2 .
3. Ликвидируются подмножества образов, в состав которых входит менее £>л элементов: если для некоторого /' Л'< Он, то Л' исключается.
4 Каждый центр кластера 2 /=1,2________\'с, лока-
лизуется и корректируется посредством приравнивания его выборочномусреднему. найденному по соответствующему подмножеству Л',:
?Л17 Е*' /-12........". •
"/
где Л- - число выборочных образов, входящих во множество Л’.
5. Определяется среднее расстояние между объектами, входящими в подмножество Л|, и соответствующим центром кластера:
£ 1*-2/1 ■ /=1'2."с-
"/ хев,
6. Определяется обобщенное среднее расстояние между объектами, находящимися в отдельных кластерах, и соответствующими центрами кластеров:
£ "Л
Л/с I-1
7. Для каждого подмножества выборочных образов с помощью соотношения:
°'Л
^ /=1(2...........................п'
/=1,2......Ыс
вычисляется вектор среднеквадратического отклонения:
°/=(01/*°3/*—>0>у) •
где п - размерность образа,
х|к - /-ая компонента А'-го объекта в подмножестве 5,,
-(- /-ая компонента вектора, представляющего центр кластера
Каждая компонента вектора о характеризует среднеквадратическое отклонение образа, входящего в подмножества 5|, по одной из главных осей координат.
8. В каждом векторе а|1/=1,...,Л'с отыскивается максимальная компонента о|тах.
9. Если для любого о^лхл=1,2,...^с , выполняется условие о|та)(>(25, и В >13 и Д'>2((?/г+1), то кластер с центром 2[ расщепляется на два новых кластера с центрами 7 ' и 2 ‘. Для определения центра 21 к компоненте вектора
2 ' (2, ), соответствующей максимальной
компоненте вектора о|( прибавляется (отнимается) величина у, где у=А"о|тах, 0<к*1. Величина у должна быть достаточно большой для рахтичения разницы в расстояниях от произвольного образа до новых двух центров, но достаточно малой, чтобы общая структура кластеризации существенно не изменилась.
10. Определяются расстояния между всеми парами центров кластеров:
0„- 12, ^1 . /=1.2...Л/с-1 ; У=/+1..Ыс .
Найденные величины сравниваются с параметрами Ос. Те из расстояний, которые оказались меньше (А:, ранжируются в порядке возрастания:
К парам центров 7И и ? /=1,2,...,/, соответ-
ствующим расстоянию в полученной последовательности. применяется процедура слияния при условии, что данная процедура не применялась ни к одному из рассматриваемых кластеров. Центр нового кластера определяется следующим образом:
2;'7П7^"Гг«^1'21> ■
Л7/
Новый центр рассчитывается, исходя из позиций. занимаемых центрами объединяемых кластеров и взятых с весами, определяемыми количеством выборочных образов в соответствующем кластере.
11. Производится корректировка порогов кластеризации Ос и (/у.
Выстраивается вариационный ряд из максимальных компонент векторов дисперсии каждого кластера и анализируются основные выбросы выстроенных дисперсий. В качестве порога (Л выбирается величина, определяемая увеличенной дисперсией, соответствующей наибольшей разнице рассматриваемых выбросов. Порог Ос определяется уменьшенной минимальной дистанцией между ядрами кластеров. Выполнение рассмотренных этапов продолжается до тех пор, пока любая новая попытка перераспределения объектов по кчас-терам дает новые результаты и меняет статистику каждого класса, то есть пока не стабилизируется весь процесс кластеризации.
Предварительная обработка изображений
Описанные выше алгоритмы распознавания работают на бинарных изображениях, для получения которых необходима предварительная обработка исходного изображения. Предварительная обработка заключается в выполнении следующих процедур:
- выравнивание яркости по полю изображения;
- преобразование контраста изображения;
- пороговая обработка;
- ранговая фильтрация;
- удаление шумовых фрагментов. Выравнивание яркости производится для компенсации неравномерности освещения изображения препарата крови при вводе и делает контраст между фоном и изображением примерно одинаковым по всему полю изображения. Для выделения лейкоцитов выполняется корректировка изображения, которая приводит к значительному уменьшению контраста между фоном и эритроцитами. Пороговая обработка разделяет объекты и фон и приводит изображение к бинарному виду. Последующая ранговая фильтрация стирает мелкие шумовые точки и придает ядрам лейкоцитов более правильную форму. Удаление более крупных шумовых фрагментов требуется потому, что наличие объектов значительно меньшего размера, чем подлежащие классификации, приводит к ложному распознаванию лейкоцитов. Параметры рангового фильтра выбираются таким образом, чтобы сохранить форму ктасси-финируемых объектов (лейкоцитов) и уничтожить мелкие элементы (эритроциты и шум).
Экспериментальное исследование алгоритмов кластеризации
АСРМ была испытана ни двух типах изображений: тестовых, сгенерированных мри помоши графического редактора, и натурных изображениях препарата крови |3|, введенных в ЭВМ при помощи специализированного телевизионного устройства ввода-вывода изображения. Размеры изображении 256x256 отсчетов, число градации уровня яркости 256. Тестовое изображение представляет собой совокупность 102 объектов четырех классов, подвергнутых различным геометрическим искажениям, описанным выше. Для удобства работы пользователя с системой распознавания и наглядности процесса кластеризации разработан графический интерфейс (рис.1). Он позволяет визуализировать изображен не распознаваем ых объектов до процесса кластеризации и после него и просматривать всю необходимую информацию о классах. Предусмотрена
Рис і Графи. ісскпй интерфейс но.ті.зішаіс.ін АСРМ
возможность работы в двух режимах; автоматическом (с автоматической настройкой порогов кластеризации) и диалоговом. В диалоговом режиме результаты каждого шага процесса кластеризации представляются в виде спеии-ально организованных таблиц (таблица распределения дисперсий признаков по классам, таблица расстояний между классами, таблица разброса признаков внутри выбранного класса). В данном режиме пользователи! представлена возможность корректировать параметры кластеризации, анализируя изображение классифицируемых объектов (раскраска объектов проімволи гея различными цветами в зависимости от принадлежности соответствующему классу) и вышеуказанные таблицы характеристик классов.
На рис 2 приведен результат работы АСРМ для тестового изображения В ре іультате автоматической кластеризации лишь один объект был отнесен к неверному к пассу.
Рис.2 Результат работы АСРМ для тестовою изображения
(рис.1)
Натурное изображение представляет собой препарат крови, содержащий эритроциты и лейкоциты. Классификации подвергались ядра лейкоцитов, которые на препарате находятся на фоне эритроцитов. Класс лейкоцита определяется формой его ядра; лимфоциты, базофилы и сегментоядерные лейкоциты. Поэтому был использован специальный алгоритм, который позволяет удалить шумовые фрагменты, абсолютно не изменяя форму ядер лейкоцитов.
Рис ' Исходное изображение npciiap.ua крови
Литература
ч ч
* % р * •fra Р ^
• *
Рис 4 Результат предварительной обработки изображения препарата крови (а) и кластеризации (б)
На рис.З и 4 показаны исходное реальное изображение, результаты предварительной обработки изображения и изображение, полученное после процесса кластеризации. Время автоматической кластеризации вместе с предварительной обработкой составляет около 50 секунд (IBM PC/AT. 80286/287, 12 МГц).
1. Анисимов Б.В., Курганов В.Д., Злобин В.К. Распознавание и цифровая обработка изображений. М.: Высшая школа, 1983.
2. Фор А. Восприятие и распознавание образов. М.: Машиностроение, 1989.
3. Simpson Е., Ross D.W., Kocher W.D. Atlas of Automated Cytochemical Hematology. Technicon Instruments Corporation. 1988.
Вниманию читателей
Международный центр научной и технической информации принимает заказы на международный журнал
"ЭКОНОМИКА, ПРЕДПРИНИМАТЕЛЬСТВО, ОКРУЖАЮЩАЯ СРЕДА" (ЭПОС) №1,2
Глмный рс&ікптр академик Н // НФЖНЇЇ
Главной задачей нового журнала является содействие интеграции экономики, предпринимательства и экологии в единую метасистему общественного развития и поиск путей оптимального управления этой сложной системой.
Заказы принимаются по адресу:
Россия. 125252. Москва, ул. Куусинена. 216. МЦНТИ С ектор организации, подготовки и распространения изданий.
Телекс: 411925 \1CNTI, телефакс: (095) 943-00-89 Телефоны для справок: 198-72-10
Фирмы "KATETRAVEL AGENCY" (Польша) и "ACORN INTERNATIONAL HOLIDAYS" (Великобритания) организуют поездки комфортабельными автобусами из Варшавы в Лондон и обратно, а также в другие города Великобритании.
Справки по телефону: (095) 198-72-10