Кольчугин А.С. ПРИМЕНЕНИЕ ТРИПЛЕТНЫХ ПРИЗНАКОВ РАСПОЗНАВАНИЯ ПРИ КЛАССИФИКАЦИИ ГИСТОЛОГИЧЕСКИХ ИЗОБРАЖЕНИЙ
Работа выполняется при поддержке гранта INTAS, проект №04-77-7036 и гранта РФФИ, проект №06-07-89167.
Несмотря на развитие новых, прогрессивных направлений в медицинской диагностике, цитологический и гистологический анализ по-прежнему остаются «золотым стандартом» в области диагностики онкологических заболеваний. Только этот вид исследования позволяет с высокой степень достоверности установить точный диагноз или подтвердить его. Суть цитологического и гистологического анализа заключается в получении и подготовке препарата, и рассмотрении его под микроскопом при различных увеличениях на предмет выявления морфологических признаков, характерных для онкологических заболеваний.
Цитологическое исследование относится к инвазивным методам диагностики, оно достаточно дорого и болезненно для пациента. Гистологическому исследованию подвергаются только ткани, удаленные у пациента в результате хирургического лечения, с целью подтверждения ранее поставленного диагноза. Для ранней, неинвазивной диагностики рака, пригодной для массового обследования, используется УЗИ, но оно с трудом позволяет выявить очаги поражения малых размеров, а также определить вид опухоли. Для повышения эффективности УЗИ-диагностики рака (применительно к щитовидной железе), в рамках международного научного проекта была поставлена цель - найти связь между признаками, выделяемыми на гистологических и ультразвуковых изображениях и на этой основе построить автоматизированную систему диагностики. Поскольку гистологические и ультразвуковые изображения имеют различную природу и масштаб (микро- и макроуровень), их прямое сопоставление невозможно, поэтому связи выявляются методами на стыке математики, информатики и медицины. В анализе участвуют не только признаки, имеющие медицинскую интерпретацию, но и общие (абстрактные) признаки изображений, формируемые компьютерной системой. Для автоматического формирования признаков был использован аппарат стохастической геометрии, эффективность которого была подтверждена в работах проф. Н.Г.Федотова [1, 2]. Признаки распознавания в рассматриваемом подходе имеют структуру в виде композиции трех функционалов HF) = ©oPoT(Fn/Q?,0)) , где р , 0 - нормальные координаты сканирующей прямой 1(р,0) , с которыми связаны функционалы P и 0 ;
функционал Т связан с естественной координатой t сканирующей прямой l(p,0) и F - обозначение изображения распознаваемого объекта. В связи с характерной трехфункциональной структурой такие признаки были названы триплетными.
Ключевым моментом формирования триплетного признака является трейс-преобразование.
Пусть имеется изображение, описанное функцией интенсивности F . Рассмотрим случайную прямую l , которая может пересекать изображение. Предположим, что пересечение прямой l и изображения F позволяет нам вычислить некоторое число g , характеризующее их взаимное расположение.
Прямая l , если введены полярные координаты на плоскости, однозначно определяется расстоянием p от начала координат до нее и углом 0 ее направляющего вектора. При пересечении изображения F с прямой l мы рассматриваем функцию f(0,p,t), где t - естественный параметр прямой l .
Действуя функционалом Т на функцию f (0,p,t), получим функцию g(0, р) = Tf (0, р, t). Функция g является результатом трейс-преобразования. В качестве понятного практического примера трейс-преобразования можно рассмотреть сумму длин отрезков, высекаемых прямой l (0, р) на изображении F при каждом возможном значении p и 0 .
При дискретной реализации вычислений результат трейс-преобразования представляет собой матрицу, каждым элементом которой является результат действия функционала Т на пересечение изображения F со сканирующей прямой 1 (0, р). Параметры сканирующей линии 1 (0, р) определяют позицию этого элемента в матрице. Последующее вычисление признака заключается в последовательном свертывании столбцов матрицы с помощью диаметрального функционала Р . Результатом применения функционала Р к трейс-матрице является 2 Ж -периодическая кривая, а в дискретном варианте - вектор. Дальнейшее сжатие информации осуществляется с помощью циркового функционала 0 , в результате чего для изображения получается некоторое число-признак.
Таким образом, мы вычисляем новый триплетный признак как последовательную композицию трех функционалов: ГТ(^) = ©oPoT(.F°L(ß,pjj) f где каждый функционал (0 , Р и Т) действует на функции одной
переменной (0, р и t ) соответственно. В работе [2] можно найти более подробное рассмотрение теории триплетных признаков, и примеры их реализации применительно к бинарным изображениям. Функционалы, используемые при построении признака, не обязательно должны иметь аналитическое представление -это может быть также некоторый «алгоритм», эмпирически выведенный способ вычисления преобразования.
Применение рассмотренного подхода непосредственно к исходным гистологическим изображениям не позволит получить практически значимые признаки распознавания, поскольку исходные изображения гистологических препаратов тканей щитовидной железы представляют собой цветные, многокомпонентные, семантически насыщенные изображения. На них изображены ядра, фолликулы, соединительная ткань и другие виды объектов, каждый из которых имеет свои значимые характеристики. Триплетные признаки хорошо «схватывают» геометрические особенности изображенных объектов, но для этого сначала необходимо выполнить предварительную обработку изображений с целью выделения на них объектов определенного вида.
Гистологические изображения получают при увеличениях от 50-кратного до 1000-кратного, при этом каждое увеличение дает свою долю диагностической информации. В данной работе рассматриваются изображения 400-кратного увеличения. Основными объектами, выделяемыми на изображениях при данном увеличении, являются ядра и фолликулы. На основе анализа литературы мы определили, что для построения автоматизированной системы диагностики представляют интерес форма и размеры ядер и фолликул, взаимное расположение и ориентация ядер, плотность расположения объектов в препарате и т.п. Исходя из этого, в качестве цели предварительной обработки было поставлено выделение отдельного изображения фолликул и отдельных изображений ядер препарата. Решение данной задачи было рассмотрено ранее в [4]. На рисунке 1 показаны пример исходного изображения и полученных в результате предобработки отдельных изображений ядер и фолликул.
При практическом решении задачи распознавания всегда стоит проблема выделения наиболее информативных («хороших») признаков. Структура триплетных признаков позволяет получить тысячи различных признаков (для этого достаточно использовать всего 10 функционалов каждого типа), причем в режиме автоматической компьютерной генерации. Однако вычислительная сложность получения такого числа при-
знаков для каждого распознаваемого изображения, а также сложность построения решающей процедуры при таком числе признаков требуют от нас ограничиться небольших количеством наиболее информативных признаков. Для этого используется процедура минимизации признакового пространства.
Рис. 1. Предварительная обработка гистологического изображения: а) исходное изображение; б) изображение ядер; в) изображение фолликул.
Итак, наш подход основывается на формальной генерации большого числа триплетных признаков, формируемых на основе имеющейся библиотеки функционалов, и последующем отборе, согласно некоторому критерию эффективности, как можно меньшего числа наиболее полезных для распознавания признаков. Отбор признаков часто называют процессом минимизации признакового пространства, который основан на применении аппарата математической статистики и теории информации.
Процедура минимизации признаков часто сводится к специальному процессу «взвешивания» признаков. При этом возможно существование двух подходов. В рамках первого подхода выполняется специальный «апостериорный» процесс взвешивания переменных для того, чтобы наилучшим образом выявить по обучающей последовательности различия между классами. В противоположность такому апостериорному взвешиванию, использующему дополнительную информацию, получаемую при рассмотрении обучающей последовательности, возможно и «априорное», т.е. предварительное взвешивание, учитывающее лишь статистическую структуру набора объектов. Такого рода предварительное взвешивание и предварительный отбор переменных, очевидно, вполне уместен, например, в тех случаях, когда некоторая переменная имеет одно и тоже значение для всех объектов данного набора. Такая переменная неинформативна и может быть исключена из набора переменных. Те же переменные, значения которых для различных объектов сильно меняются, являются важными, так как они несут большую информацию о различии между объектами. Отбрасывание переменных, получивших при предварительном взвешивании малые веса, приводит к «сжатию» информации.
Минимизация признакового пространства обычно включает решение двух основных задач: преобразование кластеризации и выбор признаков. Идея преобразования кластеризации заключается в том, чтобы обеспечить группировку точек, представляющих выборочные образы одного класса. В результате такого преобразования максимизируются расстояния между множествами (классами) и минимизируются внутримножественные расстояния.
Расстояния между множествами определяются как среднеквадратичное расстояние между точками, представляющими образы двух различных классов. Внутримножественное расстояние - это среднеквадратичное расстояние между точками, представляющими образы одного класса.
С точки зрения теории информации критерием оптимизации выбора признаков может служить понятие энтропии. Признаки, уменьшающие неопределенность заданной ситуации, считаются более информативными, чем те, которые приводят к противоположному результату. Таким образом, если считать энтропию мерой неопределенности, то разумным правилом является выбор признаков, обеспечивающих минимизацию энтропии рассматриваемых классов. Это правило эквивалентно минимизации дисперсии в различных совокупностях образов, образующих классы.
Выражения для энтропии дают полное представление об информативности описания. Но оценка по этим формулам затрудняется большим объемом вычислений. Так, в решаемой нами задаче изначально генерируется более 10 0 0 0 признаков. Это делает задачу определения набора информативных признаков в рамках концепции минимизации энтропии неразрешимой за реальное время. Кроме того, бывает вообще невозможно получить численные значения плотностей вероятностей, входящих в эти формулы. Также необходимо отметить , что концепция минимизации энтропии основывается на предположении о нормальности распределения образов, составляющих заданные классы, в то время как в реальных задачах законы распределений образов не известны. Объем обучающей выборки часто бывает небольшим, и делать оценки параметров модели распределений, а по ним оценки информативности довольно рискованно. В этих условиях целесообразно использовать методы, которые не требуют построения модели распределения и опираются на конкретные объекты, имеющиеся в обучающей выборке.
Таким методом является разложение по системе ортогональных функций. При выборе признаков используют обобщенное разложение Карунена-Лоэва, поскольку оно позволяет обойтись без знания плотностей распределения образов, входящих в отдельные классы, и при этом обладает следующими оптимальными свойствами [3]:
1) оно минимизирует среднеквадратичную ошибку при использовании лишь конечного числа базисных функций в разложении;
2) оно минимизирует функцию энтропии, выраженную через дисперсии коэффициентов разложения.
Важность первого свойства заключается в том, что оно гарантирует невозможность получения меньшей
в среднеквадратичном смысле ошибки аппроксимации с помощью другого разложения. Важность второго свойства заключается в том, что оно связывает с коэффициентами разложения оценку минимальной энтропии или дисперсии. Математическое описание процедуры Карунена-Лоэва подробно рассмотрено в [3].
При генерации признаков распознавания для гистологических изображений изначально было получено 13 50 0 признаков. На первом, предварительном этапе были отсеяны все вырожденные признаки, значения которых оказались постоянными для всех образов. К оставшимся признакам была применена процедура минимизации на основе разложения Карунена-Лоэва. В результате для изображений фолликул при коэффициенте к=0. 9 было отобрано 5 9 признаков. Коэффициент к задает долю общей суммы дисперсий Dj(E[f^) математических ожиданий всех признаков, которая обеспечивается за счет отобранных наиболее информативных признаков. Соотношение внутриклассовых и межклассовых дисперсий для отобранных признаков позволяет эффективно организовать процедуру распознавания с использованием простых решающих правил.
Таким образом, можно делать следующие выводы:
- применение признаков со структурой в виде композиции трех функционалов (триплетных признаков) позволяет формировать большое количество признаков в режиме автоматической компьютерной генерации;
- тот факт, что триплетные признаки строятся на основе функционалов из различных областей математики: стохастической геометрии, функционального анализа, теории вероятностей, теории рядов и фракталов, приводит к повышению гибкости и универсальности распознавания, поскольку признаки сохраняют генезис соответствующих областей математики;
- для минимизации признакового пространства и отбора наиболее информативных признаков применима процедура, основанная на обобщенном разложении Карунена-Лоэва; которая обеспечивает минимизацию внутриклассовой энтропии, выражаемой через дисперсии коэффициентов разложения.
ЛИТЕРАТУРА
1. Федотов Н.Г. Методы стохастической геометрии в распознавании образов. — М: Радио и связь,
1990.
2. Федотов Н.Г., Шульга Л.А. Теория распознавания и понимания образов на основе стохастической геометрии // Искусственный интеллект, 2002. — №2. — с. 282—289.
3. Ту Дж., Гонсалес Р. Принципы распознавания образов. — М.: Мир, 1978.
4. Федотов Н.Г., Шульга Л.А., Кольчугин А.С., Романов С.В., Смолькин О.А., Курынов Д.В. Предварительная обработка гистологических изображений в системе распознавания заболеваний щитовидной железы // Сб. трудов "Надежность и качество - 2006", Пенза, 2006. - Т. 2, с. 245-246.