УДК [681.3+681.5]:621.391:[61+57]
М. Т. Луценко, Н.В. Ульянычев, Н.П. Семичевская
АВТОМАТИЗИРОВАННАЯ СИСТЕМА РАСПОЗНАВАНИЯ ОБЪЕКТОВ НА МИКРОСКОПИЧЕСКИХ ИЗОБРАЖЕНИЯХ БИОЛОГИЧЕСКИХ ОБРАЗЦОВ
РЕЗЮМЕ
Разрабатывается автоматизированная система обработки, анализа и распознавания микроскопических гистологических изображений срезов легочной ткани, для диагностики и исследования заболеваний легких на клеточном уровне. Программа является инструментальным средством для принципиально нового анализа компонентов ткани (профилей), изображенных на микроскопических снимках. По координатам и яркостным характеристикам профиля вычисляются площадь, периметр, форм-фактор, количество и плотности частиц. Система позволяет проводить основные статистические вычисления по первичным данным и по составным выражениям, основанным на них. Первичные данные и результаты статистической обработки сохраняются, образуя базу данных для использования в процедуре распознавания.
SUMMARY
M.T. Lutsenko, N.V. Ulianichev,
N.P. Semichevskaya
AUTOMATED SYSTEM FOR RECOGNIZING MICROSCOPIC IMAGES OF BIOLOGICAL
SAMPLES
Automated system for processing, analyzing and recognizing microscopic histological images of lung tissue sections to diagnose and study lung diseases at cellular level. The program is an instrumental method for a completely new analysis of tissue components (profiles) shown on microscopic films. Square, perimeter, formfactor, quantity and density of particles are calculated by coordinates and prominent profile characterisrics. The system allows to do main statistical calculations with initial data and compound expressions based on them. Initial data and the results of statistical processing are saved forming a database used in recognition procedure.
Введение
Интеллектуальные информационные системы (ИИС) - одно из быстро прогрессирующих направле-
ний в области искусственного интеллекта. Повышенный интерес специалистов и пользователей к ИИС объясняется тем, что их можно применять и для решения задач, и как средство поддержки принятия решения в различных областях человеческой деятельности [6]. Медицинская диагностика - одна из областей человеческой деятельности, которая нуждается в современных методах и средствах постановки диагноза посредством компьютерных систем. ИИС отличаются от разнообразных компьютерных систем тем, что способны накапливать знания и опыт наиболее квалифицированных специалистов (экспертов) в какой-либо узкой предметной области. При работе с такой системой специалист с обычной квалификацией может использовать эти знания для решения задач самого высокого уровня.
Использование в медицинской диагностике методов распознавания и создание на их основе автоматизированных компьютерных систем коренным образом изменяет эффективность диагностики с точки зрения глубины и широты охвата медицинских симптомов, ее оперативности, полноты и достоверности. При этом важно отметить, что вне зависимости от того, в какой области науки или техники возникает задача распознавания, ее постановка и методы решения практически аналогичны, что свойственно задачам кибернетики [4].
Настоящая работа посвящена разработке автоматизированной системы распознавания объектов на микроскопических гистологических изображениях биологических тканей. Возможное применение системы в области медицинской диагностики позволит классифицировать на клеточном уровне объекты с патологией и объекты без патологии, а также позволит усовершенствовать визуальные методы классификации и медицинской диагностики. Система может быть адаптирована к различным классам микроскопических объектов идентичной структуры.
Детальное описание системы
Все разделы биологического морфологического исследования включают анализ изображений. Длины, площади, формы, количества тел, их плотности и т.д. записываются и их взаимоотношения анализируются. Разрабатываемая программа предназначена для задач распознавания образов в гистологических исследованиях. Система для распознавания изображений состоит из трех подсистем, программно объединенных общей оболочкой:
А) система анализа и обработки изображений;
Б) база данных и система статистической обработки;
С) система анализа и классификации исследуемого изображения.
Подсистема анализа и обработки изображений
Подсистема представляет собой среду, предназначенную для предварительной обработки изображений, получения морфометрических характеристик, выделения признаков.
Перевод цветного изображения в псевдоцветное и черно-белое. Для качественного выделения объектов на изображении и получения более точных характеристик система позволяет работать с изображением цветным, черно-белым, а также псевдоцветным. Перевод изображения в псевдоцветное осуществляется перекодированием значений кодов яркости уровней серого в цветовое отображение RGB пространства, формируемое программно по каждому каналу R, G, и B (рис.1).
Под обработкой изображения понимается применение к нему системы преобразований, приводящих изображение к виду, удобному для анализа или улучшающих его качество [7]. Функции улучшения качества изображения позволяют устранять помехи на изображении (шумы), повышать яркость и контрастность изображения, а также выделять границы или подчеркивать контуры на изображении. В системе реализованы алгоритмы фильтрации изображения, которые и используются для улучшения качества изображения.
Локальная фильтрация изображения. Термин «локальная» подчеркивает тот факт, что размеры окна по обеим осям меньше соответствующих размеров фильтруемого изображения.
Локальная фильтрация включает достаточно богатый арсенал средств обработки, от алгоритмов усреднения по окрестности (интегрирования) до операций локального дифференцирования и подчеркивания контуров. Мы используем некоторые, наиболее
употребительные, алгоритмы фильтрации, линейные и нелинейные.
В линейных фильтрах отклик является линейной функцией многих переменных, роль которых играют попавшие в окно пиксели. Весовые множители — это коэффициенты упомянутой линейной функции.
Фильтры, в которых отклик не может быть выражен линейной функцией от значений элементов изображения, являются по определению нелинейными.
Линейные фильтры. Как следует из названия, отклик линейного фильтра линейным образом зависит от обрабатываемого изображения. Мы используем фильтры, в которых для каждого положения апертуры (прямоугольная матрица с определенной на ней функцией, накладываемая на изображение) осуществляется поэлементное перемножение весовой функции на значения соответствующих элементов изображения, суммирование произведений и нормировка полученной суммы [7, 10].
Введем необходимые обозначения. Пусть апертура имеет размер Мр х Мq элементов, текущий элемент апертуры обозначим через (р,ф, где р=1, 2,... Мр - текущая строка; д=1,2,... Mq - текущий столбец.
Определим способ, с помощью которого указывается положение апертуры на изображении. Выделяется некоторая опорная точка апертуры (обычно это центр, реже — один из угловых элементов). Теперь достаточно задать положение этой опорной точки в системе координат изображения, чтобы тем самым определить положение всей апертуры. Упомянутую опорную точку будем называть условным центром апертуры; координаты условного центра обозначим через (рт, qm).
Условный центр может (но не обязан) совпадать с настоящим, геометрическим центром апертуры. Вообще говоря, в качестве условного центра можно взять любую точку апертуры; более того, условный центр не обязан даже находиться внутри нее — можно, скажем, задать рт = 0, qm = 0.
Рис.1. а) цветное исходное изображение; Ь) черно-белое; с) псевдоцветное.
Мы, однако, определяем условный центр так, чтобы при нечетных размерах апертуры он совпадал с ее центральным пикселем:
Рг
' Мр + 1" " Мя + 1'
_ 2 _ ^т = _ 2 _
где квадратные скобки обозначают целую часть числа. Текущее положение условного центра на исходном изображении Е обозначим через (1,]). Отклик фильтра присваивается той же точке (1,]) нового, профильтрованного поля Q.
Обозначим теперь через И(р,ф функцию окна. Массив Q выходного изображения формируется путем дискретной свертки входного поля Е и функции окна И(р,ф:
Мр Мя
.0 = ^^Р(1 -рт + ро -Ят + фЩр^. р=1 я=1
Строго говоря, формула справедлива лишь при условии, что функция окна не выходит за пределы исходного изображения, т. е. выполняются условия, соответствующие Р-схеме движения окна (окно не может выходить за пределы фильтруемого поля): рт ^ 1 ^ N1 - Мр + рт, Ят ^ < N1 - МЯ + qm, где Ж, N — размеры изображения.
Различные виды линейных фильтров отличаются своими весовыми функциями и нормирующими коэффициентами.
Обычно используются апертуры размером 3х3 элемента; увеличение размеров апертуры существенно увеличивает объем вычислений, в то время как качество обработки улучшается незначительно.
Одно из наиболее распространенных применений линейных фильтров — сглаживание шума. Для этого применяются весовые функции следующего вида:
Ь) н = —
’ 10
1 1 1
1 1 1
1 1 1
1 1 1
1 2 1
1 1 1
При частотной интерпретации процессов фильтрации шумоподавляющий фильтр является фильтром нижних частот. Фильтры, рассмотренные в предыдущем пункте, использовали весовую функцию вида Ь), задаваемую неявно.
Для подчеркивания линий определенного направления используются весовые функции вида:
с) н = — 16
а) н=— 16
1 2 1 2 4 2 1 2 1
Весовая функция с) подчеркивает большими весами четырехсвязные элементы исходного изображения, т. е. горизонтальные и вертикальные линии, а)
— диагональные линии (точнее, восьмисвязные элементы изображения, не являющиеся четырехсвязными).
Фильтры, подчеркивающие границы (в частотной интерпретации — это высокочастотные фильтры (рис. 2), используют три типовые весовые функции:
0 -10 е) н= - 1 5 - 1|
0 -1 0
Рис. 2. Применение высокочастотного фильтра к исходному изображению.
ё) н=
1 -1 -1
-1 9 -1
-1 -1 -1
1 -2 1
-2 5 - 2
1 - 2 1
Для выделения перепадов яркости на изображении без указания их ориентации используют следующие три типовые весовые функции (операторы Лапласа):
И) н =
1) н =
.0 н =
-1
-1
4
-1
-1
-1
-1 8
1 -1
-2 ’ 4
-2
Весовые функции И), 1), ]) позволяют осуществлять операцию двумерного дифференцирования [10].
Нелинейные фильтры. Главное отличие состоит в том, что выход нелинейного фильтра формируется нелинейным образом от данных исходного изображения. Мы используем два класса нелинейных фильтров, используемых для достижения в некотором смысле противоположных целей. Это медианные фильтры, применяемые для сглаживания изображений, и фильтры, подчеркивающие перепады яркости. К последним относятся фильтры Робертса и Собела, родственные в идейном плане [10].
Медианный фильтр: его отклик равен медиане данных, находящихся в апертуре. Медиана представляет собой центральный элемент в вариационном ряду, полученном из данных, находящихся в пределах апертуры. В силу того, что для операции нахождения медианы не выполняется одна из аксиом линейности, медианный фильтр является нелинейным. Медианные фильтры применяются для сглаживания изображений и для подавления шума. Ранее мы рассмотрели линейные низкочастотные фильтры, применяемые для тех же целей. Медианные фильтры по своим свойствам отличаются от них. Во-первых, медианные фильтры сохраняют резкие перепады, тогда как линейные низкочастотные фильтры их смазывают. Во-вторых, медианные фильтры очень эффективны при сглаживании импульсного шума (рис. 3), но (и это обратная сторона данной медали) могут приводить к полному исчезновению мелких деталей изображения при неадекватном выборе параметров фильтра. Медианные фильтры используются также для обнаружения границ и выделения объектов.
Медианные фильтры нередко применяются итеративно, причем фильтрация повторяется до тех пор, пока на профильтрованном изображении не прекратятся изменения. В другом варианте итеративного применения от шага к шагу итерации меняется апертура фильтра. В так называемом разделимом медианном фильтре одномерный медианный фильтр применяется сначала к каждой строке, а затем — к каждому столбцу изображения.
Алгоритм нахождения медианного элемента можно выразить следующими выражениями. Введем следующие обозначения:
Сг = {х[т,п - 1],х[т - 1,п],х[т,п + 1],х[т + 1,п]} апертура медианного фильтра.
У1 = тт{Сг}. У2 = тт{СГ У1}, Уз = тт{СГуьУ2}, тогда У[т,п] = Уз - выход фильтра.
Результат работы фильтра Собела, использующий апертуру размером ЗхЗ, изображен на рисунке 4.
Рис. 3. Медианная фильтрация.
1
1
2
1
1
егашвяяввшяииииияв^^^^^^^^^^^*
огиг Иа~>Гапч*>-ир Гіі"пггпь і-n Ф»ліітг Сягу<рн~иіис Бпзч Ок>п
Рис. 4. Результат фильтрации изображения фильтром Собела.
При этом используется следующий алгоритм преобразования яркостей:
G(i,j) = VX2 + Y2 ,
X = [F(i - 1,j +1) + 2F(i, j +1) + F(i + 1,j +1)] -- [F(i - 1,j -1) + 2F(i, j -1) + F(i + 1,j - 1)],
Y = [F(i - 1,j -1) + 2F(i - 1,j) + F(i - 1,j +1)] -
- [F(i + 1,j -1) + 2F(i + 1,j) + F(i + 1,j +1)].
Следует отметить, что фильтрация в системе реализована как в автоматическом режиме, так и в режиме создания пользователем своих линейных фильтров, что позволяет исследователю проверить действие различных фильтров в режиме диалога с системой.
Построение гистограмм. В большинстве методов, обеспечивающих выполнение обработки изображения, прямо или косвенно используется такая статистическая характеристика как гистограмма [7]. Гистограмма изображения - это оценка плотности вероятности первого порядка (рис. 5). Применение этой характеристики в процедурах фильтрации и сегментации позволяет улучшить качество изображения или получить дополнительную информацию об изображении.
Общей называем гистограмму всего изображения, локальной — гистограмму его части — заданного прямоугольного фрагмента. Гистограмма формируется в массиве, который должен содержать столько элементов, сколько уровней яркости (цветов) имеет изображение. Элементы массива пронумерованы от 0 до MAX, где MAX — константа, которая определяет максимально допустимый уровень яркости элементов изображения.
Элементы массива отвечают столбцам гистограммы; каждый из них представляет количество пикселей соответствующего уровня яркости. Если требуется, чтобы столбцы гистограммы отражали не абсолютное, а относительное количество пикселей данного уровня (частоту), нужна соответствующая нормировка, которую удобно делать при выводе гистограммы на печать.
Алгоритм формирования гистограммы несложен. Сначала массив обнуляется. Затем в цикле перебираются пиксели исходного изображения. Определяется уровень, записанный в текущем пикселе. Значение элемента массива, номер которого равен уровню яркости текущего пикселя, увеличивается на единицу.
Арифметические и логические операции. Арифметические и логические операции выполняются над исходным изображением и результирующим изображением. По яркостным характеристикам изображений выполняются операции: (+) - сложения, (-) - вычитание, (*) - умножение на действительную константу k, (xor) - побитное сложение по модулю 2, (and) - логическое “И”, (or) - логическое “ИЛИ”.
Сегментация объектов на изображении. Разделение по порогу. Этот метод предусматривает сопоставление значений яркости каждого пикселя с пороговым, в результате чего соответствующий пиксель зачисляется в одну из соответствующих групп, в зависимости от того, превышает уровень ярости или нет. Выбор значения порога обычно осуществляется по гистограмме. Разделение по порогу представляет собой простейший из возможных методов сегментации [7]. К сожалению, не всегда удается выбирать значение порога заранее, поскольку средний уровень яркости может изменяться, что вызывает необходимость построения гистограммы для каждого изображения отдельно.
Рис. 5. Построение 3Б гистограммы исходного изображения.
В общем случае автоматическое определение порога - задача нетривиальная. Наличие у гистограммы двух пиков - не рядовой случай. Иногда предпочтительнее при построении гистограммы учитывать не все пиксели изображения, а лишь те, которые расположены вблизи границ областей. Это можно осуществить, введя в алгоритм оценивания гистограммы процедуру сравнения значения пикселя со значениями соседних с ним пикселей. В таком случае ЩДР)) получает приращение, если разность сопоставляемых значений яркости оказывается больше чем ожидаемое значение шума.
Обнаружение границ. Рассмотрим схемы, предназначенные для поиска границ, разделяющих отдельные области изображения. Они предусматривают использование оператора градиента, после чего для установления того, обнаружена ли граница, применяется процедура разделения по порогу. Затем пиксели идентифицированные как граничные, должны быть соединены в замкнутые кривые окружающие соответствующие области. Стандартным приемом является учет разности значений двух групп пикселей, как это предусматривает линейный фильтр высоких частот [7, 10].
Чтобы учитывать различия в направлении границ необходимо использовать более одного фильтра подобного типа. Если задать некоторую матрицу Н у которой Ну=Ь(у), то два простейших фильтра имеют вид:
Нгор
Нввер =
-1 -с -1
0 0 0
1 с 1
1 0 -1
с 0 - с
10 -1
В литературе по обработке изображений часто описываются фильтры со значениями с=1 и с=2. Поскольку особенностью фильтров высоких частот является усиление шума, ценность данного класса ме-
тодов оказывается, весьма, относительной для обработки зашумленных изображений. Отметим, что выбор порогового значения для того, чтобы установить, обнаружена ли действительно граница, много проще выбора порогового значения, используемого при сегментации. Очевидно, что простые процедуры выделения границ годятся лишь для обработки высококонтрастных изображений с низким уровнем высокочастотного шума. Однако не все изображения подобного рода можно сегментировать по порогу. В частности, низкочастотный шум, не препятствующий выделению границ, может лишить эту процедуру всякого смысла [7].
Сегментация на основе выделения областей путём наращивания. Метод выделения областей путём их наращивания предусматривает поиск групп пикселей с близкими значениями яркости. В простейшем варианте этот метод предусматривает выбор пикселя и изучение смежных с ним пикселей для проверки близости значений яркости сопоставляемых пикселей. Если значения яркости оказываются близкими, то соответствующие пиксели зачисляются в одну группу, чтобы сформировать группу. В этом случае область формируется в результате сращивания отдельных пикселей. В более эффективных вариантах метода в качестве отправной точки выбирается не отдельный пиксель, а разбиение изображения на ряд небольших областей. Затем каждая область проверяется на однородность (равномерность освещённости), и если результат проверки оказывается отрицательным, то соответствующая область разбивается на более мелкие участки. Процесс продолжается до тех пор, пока все выделенные области не выдержат проверку на однородность. После этого начинается формирование областей при помощи наращивания небольших областей, а не пикселей. Особенности реализации этого метода тесно связаны со структурами данных, используемые для представления изображения. Основным преимуществом использования небольших областей вместо пикселей является уменьшение чувствительности к шуму [7].
Сегментация на основе среднего уровня яркости. Один из критериев однородности области основывается на оценке максимальной разности змначения яркости отдельного пикселя и среднего значения яркости, вычисленного по соответствующей области [7]. Пусть для некоторой области Я размером N.
” - NI,т (1).
РеЯ
В таком случае область называется однородной по порогу Т, если выполняется условие: шах|£(Р) - ш| < Т (2).
РеЯ
Это определение однородности можно считать эвристическим, однако введя некоторые допущения, для него можно дать и теоретическое обоснование. Приводимые ниже рассуждения иллюстрируют многие проблемы, возникающие при выделении области путём наращивания. Этот анализ можно рассматривать в качестве модели для других критериев однородности области.
Допустим, на обрабатываемые нами изображения наложен гауссовский белый шум с нулевым средним значением. Отсюда следует, что вероятность наличия в пикселе Р шумовой составляющей ъ определяется выражением:
Рп(ъ) =
/2ял;
(3),
где О - среднее квадратичное отклонение шума. Поскольку мы считаем шум белым, значения вероятности рп(ъ) абсолютно не зависят от местоположения пикселя Р. В физическом смысле это означает, что на все пиксели шум воздействует одинаково. Вероятность отличия яркости пикселя Р от его среднего значения яркости более чем на величину х определяется выражением:
— Ъ /
1п(х) Г е /(2а\ъ (4).
■\/2пп «Ї
Наличие множителя 2 в этом выражении обусловлено тем, что мы рассматриваем как отрицательные, так и положительные отклонения от среднего. Правая часть этого выражения называется интегралом вероятности ошибки и обозначается егОД, где 1=ъ О. В большинстве сборников математических таблиц приводятся значения этой функции, некоторые из них приведены в таблице.
Таблица
Некоторые значения интеграла вероятности ошибки
1 і 1,5 2 2,5 3 3,5 4
егед 0,317 0,134 0,046 0,012 0,003 0,0005 0,0001
она задаётся значениями интеграла вероятности ошибки ей(Т/о ).) Например, при Т=2о в неравенстве (2) вероятность невыполнения этого условия для некоторого пикселя составляет 4.6%, а при Т=3 О -приблизительно 0.3%. Значение этой вероятности будем обозначать Р(Т). Поскольку вероятность выполнения условия (2) равна 1-Р(Т), а область включает N пикселей, то не выделить однородную область мы можем лишь с вероятностью 1-[1-р(Т)]№ Для значений р(Т) много меньших эта вероятность составляет приблизительно ^(Т). Выбрав пороговое значение Т равное утроенному среднему квадратичному отклонению шума, для квадратной области размерами 16х16 (256 пикселей) вероятность отказа при проверке области на однородность получаем равной 54% (при использовании точной формулы). При выборе порога для Т равным четырёхкратному значению среднего квадратичного отклонения указанная вероятность составляет всего 2.5%, что вполне приемлемо для решения реальных задач. В последнем случае и точная и приближенная формулы дают близкие результаты -0.0253 и 0..256 соответственно.
Зачисление однородной области в неоднородные -не единственная из возможных ошибок, поэтому теперь необходимо изучить вероятность отнесения неоднородной области к однородным. Если соответствующая область достаточно велика для того, чтобы можно было при определении среднего значения пренебречь влиянием шума, то среднее значение равно:
Я1т1 + Я2т2 (5Х где q1 - доля пикселей области, истинное значение яркости которых равно т1(1=1,2), а т1, т2 - различия значений оценки т. Если истинное значение яркости пикселя равно т1, то разность между этим значением и оценкой среднего значения выглядит следующим образом:
5т - т! - (Д1т1 + q2m2) (6).
Так событие состоящее в том, что наблюдаемое значение яркости пикселя отличается от среднего значения более чем на Т, может иметь место, если оно отличается от истинного значения яркости т1 на Т ± О т, причем вероятность любого их двух последних событий определяется как:
Р1 ---1 [Р(|Т - 5т|) + Р(|Т + 5т|)] (7).
Таким образом, р1 представляет собой вероятность невыполнения неравенства (2) для наблюдаемого значения яркости пикселя, истинное значение яркости которого равно т1. Вероятность того, что ни для одного пикселя подобного нарушения условия (2) не происходит, определяется:
— Z
1
(2а2)
е
Если область является однородной, то оптимальная оценочная функция для значения яркости определяется выражением (1). Тогда отклонение значений яркости пикселей от значений оценки т будут определятся только шумом и поэтому вероятность невыполнения неравенства (2) для какого-то пикселя указывается выражением (4), если ъ=Т. (В этом случае
Ри = (1 — Р1)Ч1П(1 — Р2)Ч2П(8).
Очевидно, что если значение 8 т мало по сравнению с пороговым значением Т, то вероятность р1 близка вероятности р(Т). Если то же самое справедливо для вероятности р2, то вероятность ри прибли-
женно равна [1-p(T)]N. Ситуации в которых 8 m оказывается малой, обычно возникает в случаях, когда рассматриваемая область состоит почти исключительно из символов одного характера, и, следовательно, ошибка отнесения такой области к однородным не столь серьёзна. Если, с другой стороны, в рассматриваемой области представлены примерно в равной мере пиксели обоев типов, т.е. если q1=q2, так что
5m = (mi - m2) ,
2
то мы предпочли бы, чтобы вероятность отнесения такой области к однородным была очень малой. Это так, если абсолютное значение разности 8 m предполагается много больше среднего квадратичного отклонения шума, так как в этом случае значение 8 m будет сравнимым с пороговым значением Т. При выполнении этих условий аргумент первого члена суммы в выражении (7) оказывается близким к нулю и соответствующая вероятность близка к 1. Второй элемент этой суммы имеет аргумент, равный среднему квадратичному отклонению, взятому с высокой степенью кратности и, следовательно, соответствующая вероятность оказывается близкой к нулю. В результате введения этих допущений вероятность р1 составляет 0.5 и можно показать, что вероятность р2 имеет то же значение. В таком случае вероятность ри « 0.5, в результате невыполнение условия (2) влечёт с вероятностью 1-0. 5n признание области неоднородной. При N=256 эта вероятность близка к 1.
Подсистема анализа морфологических характеристик. В процессе сегментации методом наращивания областей, после чего осуществляется «раскраска», т.е. присвоение некоторого фиксированного значения (например, 255) соответствующей точке результирующего изображения до тех пор пока выполнены условия: 1) данная точка не была раскрашена на предыдущих этапах работы алгоритма; 2) данная точка принадлежит окрестности типа «крест» некоторой ранее раскрашенной точки; 3) для данной точки x[m(t),n(t)] и соседней с ней ранее раскрашенной точки x[m(tj<t),n(tj<t)] имеет место неравенство:
\x[m(t X n(t)]- x[m(t1 X n(t1 )]| < const. В процессе раскраски при const=0 производится суммарный подсчет количества раскрашенных точек (площади сегмента в нанометрах). Для точек, у которых не выполняется условие 3) осуществляется подсчет количества таких точек (периметр сегмента), а также вычисляются максимальная и минимальная абсциссы m1, m2 и ординаты n и n2. Кроме того производится подсчет средних, среднеквадратических отклонений и отношений среднеквадратических и средних (в %) для площадей, периметров, компактностей, удлиненностей и диагоналей сегментов, а также гистограмм. Подсистема анализа генерирует следующие характеристики объектов выделенных на изображении:
средняя площадь сегмента S (нм);
средний периметр сегмента P (нм);
P
компактность сегмента С= к ,___,
к - коэффициент компактности (нм);
(р + )р2 - 48) удлиненность сегмента Е=-----* ,
(р -)р2 - 48)
р= ^ -полупериметр (нм);
средняя диагональ сегмента Б= | (п2 - п1)2 + (т2 - т1)2 (нм);
средняя яркость изображения; средняя яркость сегмента; среднеквадратические отклонения для всех параметров.
База данных и система статистической обработки
Данные в системе, в соответствии с их характером, имеют три различные формы представления [9]. Персональные данные обследуемого пациента, включающие идентификационный номер, дату обследования, номер истории болезни, фамилию, имя, отчество, профессию, анамнез. Клинические данные: диагноз, лечение. Данные инструментальных обследований разбиты на отдельные группы, каждая из которых реализует определенный метод обследования (бодиплетизмография, эргоспирометрия, зональная реография, биохимия, морфометрия). Полученные системой обработки и анализа изображений данные заносятся в группу морфометрических данных, которая содержит до 75 различных параметров.
Если пациент впервые регистрируется в системе, то после ввода идентификационного номера, который уникален для каждого пациента, происходит проверка, действительно ли этот человек регистрируется впервые. При утвердительном ответе начинается запись персональных данных, затем в базу заносятся результаты обследования, после проведения компьютерной обработки клеточных изображений легочной ткани и проведения анализа результаты морфометрических исследований записываются в базу данных. В дальнейшем накопленные в разделе морфометрии данные предполагается использовать в процедуре распознавания.
Статистическая обработка. Статистическая обработка осуществляется на основе созданных, в процессе анализа выборок. Используются стандартные методы дисперсионного, корреляционного, регрессионного анализа [2]. Подпрограмма проверки данных позволяет просмотреть значения параметров, которые занесены в базу данных для каждого обработанного изображения, а также повести минимальный статистический анализ, в том числе и на неправдоподобные данные в выборках и проверить, распределены ли значения этой величины по закону Гаусса. Проверка осуществляется по критериям асимметрии, эксцесса, Пирсона-Мизеса и Колмогорова-Смирнова. Распределение считается гауссовым (нормальным), если этого не отрицает ни один из критериев. Проверка критериев позволяет исключить из выборок неправильно измеренные данные. Корреляционный
анализ используется для расчета коэффициента парной корреляции, его доверительного интервала и значимости между двумя переменными из любых двух выборок. Регрессионный анализ включает в себя разделы: множественная линейная регрессия, построение уравнения регрессии любого параметра из любой выборки по совокупности любых других переменных; регрессия по нелинейным функциональным зависимостям (полиномиальная, степенная, экспоненциальная, гиперболическая). В целом, регрессионный анализ, кроме поиска причинноследственных связей, позволяет создавать системы должных величин.
Подсистема анализа и классификации исследуемого изображения
При переходе к задачам распознавания (классификации) изображений возникают математические задачи, связанные с формальным описанием изображения как объекта анализа. Описание изображения, главным образом, опирается на рассмотрение параметров четырех типов: контраста, цвета, формы и текстуры (эти параметры и заносятся в базу данных). В нашем случае строится база данных эталонных классов изображений по указанным типам параметров [5, 4]. Для классификатора разрабатываются правила, которые дают количественные оценки близости изображения соответствующему классу эквивалентности. Используются методы статистической теории решений, реализуемые в многомерном пространстве признаков [1,8].
Дискриминантный анализ используется как методика классификации и позволяет выяснить различаются ли две выборки по заданной совокупности параметров? Для этого строится дискриминантная функция, являющаяся наилучшим разделителем выборок и определяется вероятность различия. Классификация осуществляется по ограниченному числу признаков. Строится дискриминантное уравнение, расчитывается вероятность ошибок классификации. Кроме того в систему включены непараметрические методы сравнения рядов и корреляции: критерий Вилкоксона, Манна-Уитни, хи-квадрат, Колмогорова-Смирнова, корреляция по Спирмэну и по Кэндэлу [1-3].
Разработанная система позволяет строить обучающиеся алгоритмы диагностики типа «Бинарное дерево». Для этого необходимо и достаточно в соответствии со структурой дерева и программой сортировки сделать выборки из имеющейся базы данных, проанализировать их статистическими методами, а затем скорректировав и используя дискриминантный анализ, выделить диагностически значимые параметры и построить дискриминантное уравнение для каждого узла. Построенное дискриминантное уравне-
ние позволяет осуществлять диагностику вновь поступивших изображений, тем самым увеличивая объем обучающих выборок и точность каждого последующего диагноза.
Заключение
Новизна проекта состоит в использовании оригинальных алгоритмов обработки информации и программного обеспечения. Создание теоретических основ обработки изображений и использование математических методов в этой области тесно связаны с квалификацией этих задач как специального класса математических задач обработки информации. Этот подход в обработке изображений для информатики оказывается весьма плодотворным. Комплексное использование методов обработки изображений, анализа морфологических характеристик объектов на изображениях и распознавания объектов позволяет получить научно-исследовательскую и диагностическую систему, содержащую в себе знания специалистов из различных областей науки и техники.
ЛИТЕРАТУРА
1. Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений. -
М.:Статистика,1974. -237 с.
2. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. - М.:Мир,1982. -488 с.
3. Волынский Ю.Д., Курочкина А.И., Титова М. И. и др. Использование многомерного анализа данных при построении экспертных систем // Вестник АМН СССР. - 1988.- №8.- С. 24-30.
4. Горелик А.Л., Скрипкин В.А. Построение систем распознавания. - М.:Советское радио,1974. - 332 с.
5. Горелик А.Л., Скрипкин В.А. Методы распознавания. -М.:Высшая Школа,1989. - 287с.
6. Змитрович А. И. Интеллектуальные информационные системы.- Мн.: НТОО «ТетраСистемс», 1997.- 368 с.
7. Павлидис Т. Алгоритмы машинной графики и обработки изображений: Пер. с англ. - М.: Радио и связь, 1986. - 40 0 с.
8. Патрик Э. Основы теории распознавания образов: Пер. с англ./ Под ред. Б.Р. Левина. -М.: Сов. радио, 1980. - 408 с.
9. Ульянычев Н.В. Автоматизированная система для научных исследований в области физиологии и патологии дыхания человека.- Новосибирск:ВО «Наука», 1993. -246 с.
10. Яншин В.В., Калинин Г.А.. Обработка изображений на языке Си для 1ВМ РС: Алгоритмы и программы. - М.:Мир, 1994. - 240 с.
□ □□