УДК 004.93
ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ НЕЙРОСЕТЕВОЙ КЛАССИФИКАЦИИ ГИПЕРСПЕКТРАЛЬНЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ПРЕОБРАЗОВАНИЯ ГИЛЬБЕРТА - ХУАНГА
Артем Сергеевич Феоктистов
Институт автоматики и электрометрии СО РАН, 630090, Россия, г. Новосибирск, пр. Академика Коптюга, 1, инженер-программист, e-mail: feoktistov.artem@gmail.com
Евгений Семенович Нежевенко
Институт автоматики и электрометрии СО РАН, 630090, Россия, г. Новосибирск пр. Академика Коптюга, 1, доктор технических наук, старший научный сотрудник, ведущий научный сотрудник лаборатории информационной оптики, e-mail: nedj@iae.nsk.su
Метод классификации изображения с предварительной трансформацией его к главным компонентам и использованием преобразования Гильберта - Хуанга исследуется на примере нейросетевой классификации гиперспектрального изображения. Показана его эффективность путем сравнения с традиционными методами нейросетевой классификации при использовании в качестве признаков спектральных компонент и главных компонент без привлечения пространственной информации.
Ключевые слова: классификация, гиперспектральное изображение, преобразование Гильберта - Хуанга.
NEURAL NETWORK CLASSIFICATION OF HYPERSPECTRAL IMAGES USING HILBERT-HUANG TRANSFORM EFFICIENCY STUDY
Artem S. Feoktistov
Institute of Automation and Electrometry SB RAS, 630090, Russia, Novosibirsk, Koptyuga prosp., 1, software engineer, e-mail: feoktistov.artem@gmail.com
Evgeny S. Nejevenko
Institute of Automation and Electrometry SB RAS, 630090, Russia, Novosibirsk, Koptyuga prosp., 1. Ph. D., senior researcher, leading researcher, laboratory of information optics, e-mail: nedj@iae.nsk.su
Hyperspectral Image classification method with Hilbert - Huang Transform of principal components is studied. Effectiveness of neural network classification by comparison with the traditional methods is presented when using empirical modes of principal components as features.
Key words: classification, hyperspectral image, Hilbert - Huang transform.
Гиперспектральная съемка весьма эффективна при решении задач классификации земных объектов. Общеизвестно, что главным способом повышения эффективности классификации является привлечение дополнительных признаков, каковыми и являются множество спектральных компонент. Однако во многих работах показано [1], [2], что только спектральных компонент недостаточно, по многим причинам, изложенным в [1], они не дают хороших результатов при классификации площадных объектов на земле. Конструктивным решением этой проблемы является привлечение пространственной информации, что как показано в [1], существенно повышает качество классификации, определяемое веро-
ятностью правильного распознавания площадных объектов, класс которых определен маршрутным исследованием. Однако в большинстве методов с использованием пространственной информации присутствует один существенный недостаток - способ обработки никак не связан с самим изображением. Ну, например, усреднение в окрестности пиксела, «Majority analysis» [3], сглаживание данных посредствам медианной фильтрации, вейвлет анализ - все эти методы не зависят от характеристик самого изображения. Этот недостаток мы постарались преодолеть в работе [4] - мы использовали в качестве признаков параметры эмпирических мод, получаемых путем преобразования Гилберта-Хуанга (ННТ преобразование). Оно достаточно подробно описано в предыдущей работе, поэтому здесь мы только отметим, что путем ННТ преобразования изображение разлагается по системе функций, являющихся внутренними колебаниями, присущими анализируемому изображению, а не фиксированным набором частот или вейвлет функций. Функции базиса разложения называются эмпирическими модами (intrinsic mode function - IMF), их получение производится путем преобразования Хуанга. Эмпирические моды являются аналитическими сигналами, путем преобразования Гилберта из них вычисляются мгновенные амплитуды и частоты, которые могут быть использованы в качестве признаков распознавания объектов.
Однако в предыдущей работе мы для эксперимента взяли не гипер-, а мультиспектральное изображение, причем зоны интереса не соприкасались. Кроме того, обучающая выборка формировалась путем визуального (экспертного) анализа изображения. Мы получили совершенно неожиданный результат -100 процентную вероятность правильного распознавания при использовании пятых мод главных компонент. Было сделано предположение, что результаты будут скорее всего не такие хорошие, если зоны интереса будут соприкасаться - повлияет «размаз» моды, который может привести к пересечению классов и, соответственно, не стопроцентной классификации. Для его проверки при экспериментальном исследовании были выбраны широко известные тестовые фрагменты гиперспектральных изображений, предлагаемых в открытом пакете MultiSpec (эти же изображения использовались в работе [1]). Изображение получено в рамках программы AVIRIS (Airborne Visible Infrared Imaging Spectrometer) на опытном полигоне Индиан Пайс (штат Индиана, США). Фрагмент имеет размер - 145х145 пикселей, разрешение - 20 м/пикс., число каналов -220 в диапазоне 0.4-2.5 мкм., при этом 20 каналов, содержащих высокий уровень шума, при проведении исследований удалены из рассмотрения. Обучающая выборка формировалась путем маршрутной съемки. Фрагмент изображения и маршрутная классификация его участков представлены на рис. 1. Они приведены для того, чтобы показать, что в отличие от фрагментов, классифицированных в работе [4], здесь участки разных классов вплотную примыкают друг к другу.
Это изображение было преобразовано к главным компонентам (ГК), после чего по критерию «каменистая осыпь» для классификации было отобрано 5 ГК, после которых кривая собственных значений выходит на пологий участок.
а б
Рис. 1. а - классифицируемое изображение, б - карта классов
К каждой из ГК было применено ННТ, в результате для каждой ГК было отобрана 5 эмпирических мод. Преобразование ННТ было проведено в программе, которая была разработана в среде Matlab, основными модулями которой являются модули преобразования Хуанга и Гильберта, для поиска локальных экстремумов реализованы операторы морфологической реконструкции, а для построения огибающих реализована, как аппроксимация с помощью RBF функций, так и с помощью сплайнов.
Классификация проводилась в нейросетевом пакете программы STATSOFT. При этом конструировалось 10 нейронных сетей, из которых отбиралось 5 наилучших. Во всех случаях наилучший результат показывали нейронные сети на основе RBF функций. Каждый массив делился случайным образом на 3 выборки: обучающую, контрольную и тестовую. Контрольная выборка использовалась для остановки процесса обучения.
Таким образом, было получено 3 массива, подлежащих классификации: массив спектральных компонент (МСК), массив главных компонент (МГК) и массив эмпирических мод главных компонент (МЭМГК). Решаемая задача: определение вероятности правильной классификации на каждом из массивов, а затем выбор эффективной и наиболее экономичной системы признаков. Результаты обучения и классификации представлены вероятностями распознавания: на обучающей выборке - Роб, на тестовой - РТ. На МСК Роб=0,916, РТ=0,904. Как видно, почти 10% пикселов классифицированы неправильно. На МГК Роб=0,997, РТ=0,996. Т.е. главные компоненты как признаки намного эффективнее исходных признаков. Но самые удивительные результаты получились при использовании пространственной информации - эмпирических мод. Для МЭМГК Роб=0,999, РТ=0, 995. После получения такого результата мы решили выяснить, какие именно из 5 мод дают почти 100 процентную классификацию.
Рис. 2. Скриншот результатов обучения в программе «Статистика»
Были перебраны самые разные комбинации мод и оказалось, что когда мы взяли только пятые моды главных компонент, результат классификации практически не изменился. (рис. 2) Роб=0,997, РТ=0, 992. Следует сказать, что пятая мода - это фактически набор пятен вместо изображения. Одно из объяснений полученного результата! каждое из этих пятен сохраняет характеристики классов, т.е. соотношение преобразованных в соответствии с модами главных компонент, причем для всего участка, характеризующего класс.
Заключение
Таким образом, настоящей работой мы опровергли наше же предположение о причине стопроцентной классификации и подтвердили, что преобразование Гильберта-Хуанга в сочетании с главными компонентами - весьма эффективное преобразование гиперспектральных изображений с точки зрения классификации. Однако здесь еще требуются серьезные исследования для определения эффективного состава мод для разных типов изображений и зон интереса.
Работа выполнена при поддержке гранта Российского фонда фундаментальных исследований № 13-07-12202.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Борзов С. М., Потатуркин А. О. Спектрально-пространственная классификация типов подстилающей поверхности по гиперспектральным данным // Интерэкспо ГЕО-Сибирь-2015. XI Междунар. науч. конгр. ; Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» i сб. материалов в 2 т. (Новосибирск, 13-25 апреля 2015 г.). - Новосибирск i СГУГиТ, 2015. Т. 2. -С 13-17.
2. Plaza A., Benediktsson J.A., Boardman J.W., Brazile J., Bruzzone L., Camps-Valls G., Chanussot J., Fauvel M., Gamba P., Gualtieri A., Marconcini M., Tilton J.C., Trianni G. Recent advances in techniques for hyperspectral image processing // Remote Sensing of Environment, 2009, V. 113. P.110-122.
3. Thomas M. Lillesand, Raiph W. Kiefer, Jonathan W. Chipman, Remote Sensing and Image Interpretation. - 2004. - John Wiley & Song, Inc. - 763 P
4. Феоктистов А. С., Нежевенко Е. С. Классификация гиперспектральных изображений с помощью преобразования Гильберта - Хуанга // Интерэкспо ГЕО-Сибирь-2015. XI Междунар. науч. конгр. i Междунар. науч. конф. «Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология» i сб. материалов в 2 т. (Новосибирск, 13-25 апреля 2015 г.). - Новосибирск i СГУГиТ, 2015. Т. 2. - С. 23-27.
© А. С. Феокстистов, Е. С. Нежевенко, 2016