УДК 004
А.А. Журавлев
студент 2 курса магистратуры ОГУ имени И.С. Тургенева,
г. Орел, РФ Е-mail: [email protected]
НЕЙРОСЕТЕВОЙ КЛАССИФИКАТОР НА ОСНОВЕ НЕЧЕТКИХ КЛАСТЕРОВ ДЛЯ КЛАССИФИКАЦИИ ОПУХОЛЕЙ МОЛОЧНОЙ ЖЕЛЕЗЫ НА УЛЬТРАЗВУКОВЫХ
ИЗОБРАЖЕНИЯХ
Аннотация
Неоднозначные обучающие выборки могут вводить классификатор в заблуждение, что приводит к снижению эффективности классификации. Для улучшения процесса принятия решений при использовании автоматических методов, необходима идентификация зашумленных выборок в обучающем наборе данных. В этой статье предлагается метод классификации, сочетающий в себе метод FCM и BPANN для классификации доброкачественных и злокачественных опухолей на УЗИ снимках молочной железы.
Ключевые слова
Рак груди, неоднозначные примеры обучения, классификация опухолей молочной железы, ультразвуковое изображение, классификация на основе кластеров.
Рак груди является одной из основных причин смертности от рака среди женщин во всем мире, на долю которого приходится свыше 1.6 процента от общей смертности. Маммография и ультразвук являются наиболее распространенными методами обнаружения рака молочной железы на ранних стадиях.
В последнее время, повсеместно используются системы автоматизированной диагностики (СППР) для обнаружения рака молочной железы, уменьшая при этом вероятность принятия неправильного решения врачом в рамках обработки ультразвуковых изображений.
Эффективность таких систем в значительной степени зависит от качества учебного набора. На практике, учебные данные могут содержать некоторые сомнительные метки, возникающие из-за перекрытия доброкачественной и злокачественной ткани в ультразвуковых изображениях.
Таким образом для того, чтобы повысить производительность классификации, при подготовки обучающей выборки необходимо автоматически определять сомнительные снимки и игнорировать их в процессе обучения классификатора.
Для решения этой проблемы, в данной статье предлагается новый подход к классификации опухолей груди на ультразвуковых изображениях. Предлагаемый подход использует комбинацию нечеткого алгоритма кластеризации (англ. Fuzzy Classifier Means, FCM) и обратного распространения искусственной нейронной сети (англ. back-propagation artificial neural networks, BPANN) для классификации опухоли молочной железы.
В качестве материала для исследования используются ультразвуковые снимки получение из открытых баз медицинских снимков рака молочной железы.
Набор состоит из 178 цветных снимков, с разрешением ~300x300 пикселей. 88 снимков содержат доброкачественные опухоли, 90 злокачественные.
В данной работе используются снимки, полученные с помощью УЗИ аппарата.
Все снимки являются двумерными.
Выбора значимых параметров для классификации опухоли груди производится с помощью метода многокритериального выбора.
1. Обучение. На каждом изображении из обучающей базы выделяется несколько областей для анализа текстуры. Для областей составляются векторы текстурных признаков. На основе многокритериального метода выбора параметров выбираются наилучшие. Применяя алгоритм FCM формируются окончательные
тренировочные наборы на которых тренируется ансамбль классификаторов.
2. Классификация. Для каждого вновь поступившего изображения выделяются области интереса, вычисляются такие же векторы признаков и классифицируются при помощи обученного ансамбля.
Предварительная обработка снимков
Для устранения искажений на снимках в данном исследовании применяется Вейвлет-фильтр.
Изначально, спектр ультразвуковых снимков молочной железы раскладывается на четыре подгруппы, а именно приблизительные коэффициенты (LL) и детализирующие коэффициенты (HH, LH и HL) путем применения дискретного Вейвлет-преобразование (англ. Discrete Wavelet Transform, DWT) Хаара.
Спектр в HH группе в основном состоит из высокочастотных компонентов и пятен шума. Таким образом, HH группа была исключена и изображения восстанавливались с помощью обратного дискретного Вейвлет-преобразования (англ. inverse discrete wavelet transform, IDWT). После уменьшения искажений, следующим шагом является извлечение областей интереса (англ. Region Of Interest, ROI).
Перед вычислением текстурных характеристик анализируемое изображение нормализуется по яркости. Для этого рассматривается множество пикселей, образующее области интереса: и
Cl= U !/ €Е ROI, } , где п - число выделенных областей. к=\ А
Для множества Q вычисляются среднее значение и среднеквадратичное отклонение. После чего линейным преобразованием исходное изображение приводится к изображению со средним значением яркости 256 и среднеквадратичным отклонением 30.
Область внутри опухоли и ее контур чрезвычайно важны для характеристики опухоли молочной железы. Кроме того, область, окружающая опухоль, также указывает на ее характеристики, поскольку она может содержать важные признаки, например, акустическое затенение, которое указывает на возможную злокачественность опухоли.
Таким образом, извлеченный ROI представляет собой прямоугольные области, содержавшие участки опухоли, а также области вокруг нее.
Вычисление признаков
Извлечение и анализ элементов играет важнейшую роль в классификации опухолей молочной железы. Различные ткани в ультразвуковом изображении груди характеризуются различными текстурами и формами. В этом исследовании, в общей сложности извлекаются 457 признаков, из них, 447 выделенных признаков формируются на основе текстур и 10 признаков на основе форм. Извлеченные признаки представлены в таблице 1.
Для того, чтобы можно было вычислять сходства объектов, результаты признаков были нормализованы в диапазоне [0..1] с использованием линейного масштабирования.
Правильный выбор набора функций является важной задачей, поскольку их количество напрямую влияет на производительность классификатора и время вычисления. Методы выбора признаков делятся на методы фильтрации и методы обертки. Методы фильтрации используют методы ранжирования объектов с упорядочиваем значений в качестве основного критерия для выбора функций. Методы обертки сначала генерируют подмножества объектов, а затем оценивают их.
Таблица 1
Текстурных и формообразующих признаков, используемых при классификации
опухоли молочной железы
Группа признаков Количество признаков Наименование признаков
Статистика 1 -ого порядка 8 среднее (м), дисперсия (р2), стандартное отклонение (а), асимметрия (^3),эксцесс (ц4), параметр гладкости (Р), параметр единообразия (у), энтропия (е) ^[1] - F[8])
Характеристики Харалика 26 Рассчитаны среднее значение и диапазон следующих признаков: угловой момент, контраст, корреляция, сумма квадратов, характеристики инверсии, средняя сумма, сумма отклонения, сумма энтропии, энтропия, дифференциальное отклонение, дифференциальная энтропию; ^[9] - F[34])
Продолжение таблицы 1
Группа признаков Количество признаков Наименование признаков
Статистика разницы уровней серого 4 контраст, угловой момент, энтропия, среднее значение (F[35] - F[38])
Матрица разностей соседних уровней серого 5 Грубость (coarseness), контраст (contrast), прочностность, сложность (F[39] - F[43])
Матрица статистических характеристик 4 Грубость, контрастность, периодичность, шероховатость (F[44] -F[47])
меры текстурной энергии Лоза 6 LL, EE, SS, LE, ES, LS (F[48] - F[53])
Фрактальные особенности текстуры 4 Коэффициент Херста H(k) для k = 1,2,3,4. (F[54] - F[57])
Спектральные характеристики текстуры 379 199 радиальных функции (S(r)) (F[58]- F[256]) и 180 угловых функций ( S(в) ) (F[257] - F[436])
Ширина текстур 11 SRE, LRE, GLNU, RLNU, RPC, LGRE, HGRE, SRLGE, SRHGE, LRHGE, LRLGE (F[437] - F[447])
Региональные особенности 3 Площадь, периметр и периметр2/площадь
Инвариантные моменты 7 ф1 - ф7
В этом исследовании, применяются и анализируются следующие методы:
- англ. information gain, IG;
- англ. gain ratio, GR;
- критерий хи-квадрат (англ. Chi-Square test, CHI2);
- англ. symmetrical uncertainty, SU;
- англ. 1R;
- англ. relief F, RLF;
- коэффициент Пирсона (R);
- англ. consistency measure, C;
- англ. random forest, RF;
- англ. recursive feature elimination, RFE.
Представленные методы широко применяются и используются в литературе, поэтому, их подробное объяснение не включены в данную статью.
Традиционные методы отбора признаков с использованием только одного критерия оценки показали ограниченный потенциал, в области распознавания образов и классификации, обусловленный их склонностью к единому критерию. Таким образом, в данном исследовании применяется новый подход к выбору многокритериальных признаков.
В рамках этого подхода, оценка важности того или иного параметра производиться с использованием мажоритарного голосования на основе голосов, полученных от упомянутыми выше десяти различных методов фильтрации и обертки.
Выбор многокритериальных признаков работает следующим образом.
Во-первых, таблица, состоящая из 457 признаков (F[1],F[2],..,F[457]), делится на функциональные группы, а именно IG, GR, CHI2, SU, 1R, RLF, R, C, RF и RFE соответственно. Каждая группа содержит список из 19 наиболее значимых параметров, представленных в таблице 2. Затем вычисляется общее количество голосов для каждого параметра (от F1 до F457), называемой оценкой голосования. Параметр с наибольшим количеством голосов будет считаться наиболее значимым.
Все параметры (F[1],F[2],...,F[457]) затем ранжируются на основе их балла голосования. Для экономии вычислительного времени в этом исследовании для классификации опухолей молочной железы были использованы только 19 основных параметров. Остальные не были рассмотрены из-за их низкой оценки (т. е. оценки голосования < 3).
Результат работы предложенного подхода представлен в таблице 3.
Таблица 2
Девятнадцать наиболее значимых параметров отобранные методами выбора
Группа метода выбора признаков Методы выбора параметров Выбранные параметры
Фильтр приближения Information gain (IG) F141, F171, F55, F154, F163, F50, F52, F53, F175, F133, F174, F155, F137, F140, F170, F145, F136, F169, F42
Фильтр приближения Gain ratio (GR) F50, F135, F121, F119, F138, F136, F52, F116, F107, F122, F18, F105, F53, F118, F31, F129, F45, F124, F117
Фильтр приближения Chi-square score (CHI2) F141, F154, F171, F163, F55, F175, F42, F173, F155, F168, F170, F177, F158, F156, F174, F176, F169, F145, F157
Фильтр приближения Symmetrical uncertainty (SU) F50, F171, F141, F52, F53, F163, F55, F154, F133, F135, F136, Fl 19, F121, F137, F107, F18, F116, F122, F138
Фильтр приближения 1R F171, F159, F170, F173, F169, F176, F95, F177, F145, F175, F158, F136, F50, F154, F162, F161, F138, F130, F135
Фильтр приближения Relief F (RLF) F52, F53, F50, F49, F453, Fll, F457, F146, F141, F140, F163, F448, F158, F139, F145, F155, F154, F455, F162
Фильтр обертки Consistency (C) F14, F17, F21, F32, F44, F49, F50, F65, F66, F171, F452
Фильтр обертки Pearson's correlation coefficient (P) F55, F66, F93, F50, F52, F13, F24, F64, F171, F343, F32, F53, F141, F149, F154
Фильтр обертки Random forest (RF) F20, F30, F33, F34, F37, F38, F42, F44, F50, F52, F53, F55, F171
Фильтр обертки Recursive feature elimination (RFE) F53, F55, F42, F37, F56, F20, F38, F52, F50, F19, F13, F35, F140
Таблица 3
Девятнадцать наиболее значимый параметров, выбранные многокритериальным методом
Группа метода выбора признаков Методы выбора параметров Выбранные параметры
Гибридный фильтр методами многокритериального выбора (англ. Multi-criterion) F50, F52, F171, F53, F55, F154, F42, F136, F141, F163, F135, F138, F140, F145, F155, F158, F169, F170, F175
Алгоритм классификации
Методы кластеризации - это неконтролируемые методы, которые разбивают набор данных X на попарно непересекающиеся подмножества с, все непустые и повторяющиеся X, объединяются. БСМ является одним из самых популярных методов кластеризации, используемых для решения нескольких задач из различных областей.
Он основан на минимизации ошибки наименьших квадратов:
N с
Jm(U,V) = ХЕ(МкГИЛ "^ (1)
к=1 .=1
где Y = {у1,у2,..., уу} - набор данных, с число кластеров в У(2 < с < п), т - вес экспоненты (1 < т <<х>) определяющий нечеткости результирующих кластеров, и - нечеткое разбиение Y, -степень принадлежности объектов к к кластеру ^ vi = v2,..,Vn) является центром кластера ^ ||||А -норма, характеризующая расстояние от центра кластера i до объекта к.
Квадрат расстояния между ук и v¡ вычисляется по формуле (2):
4 =|| Ук -V |А = (у -V.)ТА(ук -V) (2)
В данном раздел объясняется принцип работы предложенного подхода классификации основанного на объединении алгоритма БСМ и ВРА№К
Искусственные нейронные сети с обратным распространением (BPANN) являются наиболее популярными моделями в области исследований нейронных сетей.
Архитектурная топология ВРАКК, используемая в этом исследовании, состоит из входного слоя, двух скрытых слоев и выходного слоя. Первый скрытый слой содержит 20 нейронов, второй 10. Гиперболическая функция активации используется на выходе входного слоя, в то время как линейная функция активации используется на выходе первого и второго скрытого слоя. Порог достоверности и
~ 35 ~
максимальное количество итераций были установлены значениями 10-5 и 1000 соответственно. Для повышения производительности алгоритма обратного распространения применяется адаптивная скорость обучения для достижения стабильного обучения. Начальная скорость равна 0.01.
Используя тренировочные данные представленные в таблице 4, опишем работу алгоритма FCM.
В таблице 4 представлено 8 тренировочных образцов (1-8), с признаком либо 0 (доброкачественный), либо 1 (злокачественный) класс.
Каждый пример характеризуется тремя весами (х0, х1 и х2).
На первом этапе, используется алгоритм FCM для разделения набора обучающих данных на две группы (с = 2) без использования разделения на классы. Как показано на рисунке 1, результатом является разделение на кластеры с1 = (1, 3, 4, 6) и с 2 = (2, 4, 7, 8).
На втором этапе на основе признака злокачественности образцов, проверяется каждый кластер. Поскольку большинство образцов (т.е. 1, 3, 4) в кластере с1 относятся к доброкачественной категории, он рассматривается как доброкачественные кластера, в то время как кластер с2 рассматривается как злокачественный кластер, потому что он состоит главным образом из злокачественных выборок (т.е., 2, 7, 8). Можно также отметить, что один образец в каждом кластере (т.е. примеры 6 в с1 и 4 в с2) принадлежит к противоположному классу. Таким образом, эти образцы идентифицируются как сомнительные. Сомнительные образцы в тренировочном наборе данных могут вводить в заблуждение классификатор, что ведет к увеличению диагностических ошибок и неправильным классификациям. Следовательно, такие образцы, исключаются из подготовки набора данных, в то время как остальные образцы используются как входные данные для искусственной нейронной сети.
Таблица 4
Тренировочные данные
Тренировочный Входные параметры Выходные данные
примеры XO XI X2 (опенка экспертов)
1 0.1 0.1 0.2 0
2 0.7 0.7 1 1
3 0.1 0.1 0.25 0
4 0.2 0.25 0.25 0
5 0.6 0.1 0.75 0
6 0.25 0.3 1 1
7 0.8 0.7 0.9 1
8 0.8 0.8 1 1
Блок схема алгоритма FCM представлен на рисунке 1.
Рисунок 1- Поэтапная иллюстрация алгоритма FCM
- 36 -
Блок схема предложенного подхода классификации представлен на рисунке 2.
Рисунок 2 - Схема алгоритма классификации
Оценка правильности работы классификатора
Для оценки классификатора, набор данных сначала разбивается с помощью метода удержания, который разбивает данные случайным образом на два взаимоисключающих подмножества, называемых обучающим набором и тестовым набором. Общепринятое правило состоит в том, чтобы назначить две трети данных в качестве набора данных для обучения, а оставшуюся треть - в качестве тестового набора данных.
При повторном разделении стандартное удержание повторяется k-раз, а показатели производительности, такие как точность, чувствительность, специфичность, AUC и MCC, вычисляются каждый раз и усредняются для получения общих показателей эффективности.
В этом исследовании, 10 раундов (k = 10). На каждом раунде 67% (120 выборок) от общего набора данных используется для обучения, а остальные 33% (58 выборок) используются для тестирования.
В таблице 5 показаны функции, используемые для оценки производительности классификаторов. Символы TP (True Positives), FP (False Positives), FN (False Negatives) и TN (True Negatives) представляют верно классифицированные положительные примеры, отрицательные примеры, классифицированные как положительные (ошибка II рода), положительные примеры, классифицированные как отрицательные (ошибка I рода) и верно классифицированные отрицательные примеры соответственно.
Таблица 5
Показатели эффективности, используемые для оценки классификатора
Показатель эффективности (%) Математическое уравнение Пояснение
Точность TP + TN -х 100 TP + FN + TN + FP Определяет общий процент правильно классифицированных выборок
Продолжение таблицы 5
Показатель эффективности (%) Математическое уравнение Пояснение
Чувствительность (истинный положительный значения) TP -х 100 FN + TP Определяет процент правильно классифицированных злокачественных опухолей
Специфичность (истинно отрицательная значение) TN -х 100 TN + FP Определяет процент правильно классифицированных доброкачественных опухолей
Площадь под рабочей характеристикой (ROI) (AUC) 1 TP TN - (-+-) x 100 2 TP + FN TN + FP Общая мера чувствительности и специфичности
Коэффициент корреляции Мэтью (MCC) TP х TN - FP х FN ■ X100 sj (TP + FPfTP + FN )(TN + FP)(TW + FN ) Критерий оценки точности методов машинного обучения
Все эксперименты по классификации и оценке производительности проводятся на программной платформе MATLABR2012a.
Анализ результатов исследования
В таблице 3 показаны наиболее значимые параметры, отобранные методом многокритериального выбора.
Установлено, что многокритериального метод достигает точности 94.138% с погрешностью ±0.898. Ниже описаны результаты классификации основанного на комбинации алгоритма FCM и BPANN. При использовании всех 457 признаков для классификации, установлено, что предложенный классификационный подход дает точность классификации 95,862% с погрешностью ±1,002. Другие показатели, а именно: чувствительность, специфичность, AUC (англ. area under ROC curve, площадь под ROC-кривой) и МСС (англ. Maximum segment size) равны 95.139%, 96.575%, 95.857% и 91.732% соответственно.
Точности классификации при использовании 19 наиболее значимых признаков, выбранных методом выбора многокритериальных признаков, достигает 94.138% с погрешностью ±0.898.
Исследование может быть продолжено с использованием магнитно-резонансных изображений (МРТ) молочной железы, трехмерной ультразвуковой визуализации молочной железы и гистологических изображений.
Список использованной литературы:
1. Дьяков В.П., Абраменкова И.В. Обработка сигналов и изображений: Специальный справочник / СПб.: Питер, 200. 608с.
2. Рутковская Д., Пилиньский М.. Рутковский Л. «Нейронные сети, генетические алгоритмы и нечеткие системы». Пер. с польск., И.Д. Рудинского. 2006. 452 с.
3. Wu, W. J., Lin, S. W., Moon, W. K. (2012). Combining support vector machine with genetic algorithm to classify ultrasound breast tumor images. Computerized Medical Imaging and Graphics, 36(8), 627-633.
4. Yap, M. H., Edirisinghe, E. A., Bez, H. E. (2009). A comparative study in ultrasound breast imaging classification. In J. P. W. Pluim, & B. M. Dawant (Eds.), Medical imaging: Image processing. Proc. of SPIE 12с.
5. Zhang, Q., Chang, H., Liu, L., Li, A., Huang, Q., et al. (2014). A computer aided system for classification of breast tumors in ultrasound images via biclustering learning. In X. Wang, et al. (Eds.), ICMLC 2014, 481с. (стр. 24-32).
6. Amadasun, M., King, R. (1989). Texture features corresponding to textural proper- ties. IEEE Transactions on Systems, Man and Cybernetics, 19(5), 1264-1274.
7. Bezdek, J. C., Ehrlich, R., Full, W. (1984). FCM: The fuzzy c-means clustering algorithm. Computers and Geosciences, 10(2), 191-203.
© Журавлев А.А., 2018