Научная статья на тему 'АНАЛИЗ ОБРАЗЦОВ ПШЕНИЦЫ, ОСНОВАННЫЙ НА ВЫЧИСЛЕНИИ МУЛЬТИФРАКТАЛЬНОГО СПЕКТРА'

АНАЛИЗ ОБРАЗЦОВ ПШЕНИЦЫ, ОСНОВАННЫЙ НА ВЫЧИСЛЕНИИ МУЛЬТИФРАКТАЛЬНОГО СПЕКТРА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
77
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ИЗОБРАЖЕНИЙ ПШЕНИЦЫ / МУЛЬТИФРАКТАЛЬНЫЙ СПЕКТР / МЕТОД ЧУВСТВИТЕЛЬНОЙ КРИСТАЛЛИЗАЦИИ / КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Муренин Иван Николаевич, Ампилова Наталья Борисовна

В настоящее время вычислительный анализ изображений пшеницы с целью идентификации сортов пшеницы и оценкой ее качества находит много применений в~сельском хозяйстве и на производстве. В данной работе предложен и реализован подход к анализу и классификации изображений образцов пшеницы, полученных методом кристаллизации с добавлениями. Исходные данные представляют набор изображений из 5 различных классов, 12 изображений для каждого класса, которые представляют результаты экспериментов для 3 вариантов концентраций и 4 временных интервалов для каждой концентрации. Все изображения имеют довольно близкие визуальные характеристики, что не позволяет успешно использовать такие известные методы, как статистики второго порядка. В качестве признакового описания изображений использовался мультифрактальный спектр, полученный методом вычисления так называемой локальной функции плотности. Классификация проводилась с помощью различных методов машинного обучения, таких как линейная регрессия, наивный байесовский классификатор, машина опорных векторов и случайный лес. В некоторых случаях для сокращения размерности признаковых характеристик использовался метод главных компонент. Результаты классификации показали, что использование мультифрактального спектра в качестве классификационного признака и метода случайного леса в комбинации с методом главных компонент позволяет идентифицировать изображения, полученные методом чувствительной кристаллизации, с наибольшей средней точностью классификации в 74%.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Муренин Иван Николаевич, Ампилова Наталья Борисовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF WHEAT SAMPLES USING THE CALCULATION OF MULTIFRACTAL SPECTRUMS

The computational analysis of wheat images to identify wheat varieties and quality has wide applications in agriculture and production. This paper presents an approach to the analysis and classification of images of wheat samples obtained by the method of crystallization with additives. In tests 3 concentration and 4 times for each concentration were used, such that each type of wheat was characterized by 12 images. We used the images obtained for 5 classes. All the images have similar visual characteristics, that makes it difficult to use statistical methods of analysis. The multifractal spectrum obtained by calculating the local density function was used as a classifying feature. The classification was performed on a set of 60 wheat images corresponding to 5 different samples (classes) by various machine learning methods such as linear regression, naive Bayesian classifier, support vector machine, and random forest. In some cases, to reduce the dimension of the feature space the method of principal components was applied. To identify the relationships between wheat samples obtained at different concentrations, 3 different clustering methods were used. The classification results showed that the multifractal spectrum as classifying sign and using the random forest method in combination with the principal component analysis allow identifying wheat samples obtained by crystallization with additives, being the highest average classification accuracy is 74%.

Текст научной работы на тему «АНАЛИЗ ОБРАЗЦОВ ПШЕНИЦЫ, ОСНОВАННЫЙ НА ВЫЧИСЛЕНИИ МУЛЬТИФРАКТАЛЬНОГО СПЕКТРА»

Компьютерные инструменты в образовании, 2021 № 1:5-20

УДК: 004(93'1+032.26+891.3):621.397 http://cte.eltech.ru doi:10.32603/2071-2340-2021-1-5-20

АНАЛИЗ ОБРАЗЦОВ ПШЕНИЦЫ, ОСНОВАННЫЙ НА ВЫЧИСЛЕНИИ МУЛЬТИФРАКТАЛЬНОГО СПЕКТРА

Муренин И. Н.1, аспирант, И imurenin@gmail.com, orcid.org/0000-0002-2263-2426 Ампилова Н. Б.1, кандидат физико-математических наук, доцент, И n.ampilova@spbu.ru,

orcid.org/0000-0002-2154-9399

1 Санкт-Петербургский государственный университет, Университетский пр. 28,198504, Санкт-Петербург, Старый Петергоф, Россия

Аннотация

В настоящее время вычислительный анализ изображений пшеницы с целью идентификации сортов пшеницы и оценкой ее качества находит много применений в сельском хозяйстве и на производстве. В данной работе предложен и реализован подход к анализу и классификации изображений образцов пшеницы, полученных методом кристаллизации с добавлениями. Исходные данные представляют набор изображений из 5 различных классов, 12 изображений для каждого класса, которые представляют результаты экспериментов для 3 вариантов концентраций и 4 временных интервалов для каждой концентрации. Все изображения имеют довольно близкие визуальные характеристики, что не позволяет успешно использовать такие известные методы, как статистики второго порядка.

В качестве признакового описания изображений использовался мультифракталь-ный спектр, полученный методом вычисления так называемой локальной функции плотности. Классификация проводилась с помощью различных методов машинного обучения, таких как линейная регрессия, наивный байесовский классификатор, машина опорных векторов и случайный лес. В некоторых случаях для сокращения размерности признаковых характеристик использовался метод главных компонент. Результаты классификации показали, что использование мультифрактального спектра в качестве классификационного признака и метода случайного леса в комбинации с методом главных компонент позволяет идентифицировать изображения, полученные методом чувствительной кристаллизации, с наибольшей средней точностью классификации в 74%.

Ключевые слова: анализ изображений пшеницы, мультифрактальный спектр, метод чувствительной кристаллизации, классификация изображений.

Цитирование: Муренин И. Н., Ампилова Н. Б. Анализ образцов пшеницы, основанный на вычислении мультифрактального спектра // Компьютерные инструменты в образовании. 2021. № 1. С. 5-20. doi: 10.32603/2071-2340-2021-1-5-20

1. ВВЕДЕНИЕ

Пшеница является одним из важнейших злаков из-за ценных питательных веществ. Это крупный источник энергии, белка и пищевых волокон в питании человека. За по-

алгоритмическая

математика и математическое моделирование

следние годы производство шл^ы шатателшо увеличилось. Определение сортов пшеницы необходимо для ее производителей, переработчиков и потребителей. Классификация образцов пшеницы имеет важное значение в определении рыночной стоимости сорта пшеницы. Идентификация класса пшеницы также необходима для определения ее качества и прогнозирования урожая [1].

Вычислительный анализ образцов пшеницы применяется для оценки ее качества, распознавания сорта, распознавания больных растений и т. д. В качестве исходных данных могут выступать изображения зерен пшеницы, полученные с фото и видеокамер, промышленным путем на производстве, а также с помощью специализированных форм лабораторного анализа образцов. Полученные данные рассматриваются как цифровые изображения, которые могут быть исследованы различными методами для получения классификационных признаков.

Обзор литературы позволяет выделить несколько основных подходов к анализу образцов пшеницы, полученных с помощью различных методов формирования изображений. Все подходы включают получение классификационных признаков с дальнейшим применением различных классификаторов.

В работе [2] классификация четырех сортов иранской пшеницы проводилась с использованием морфологических признаков изображений и искусственной нейронной сети. После подготовки образцов было получено 164 изображения зерен для каждого сорта с помощью камеры при определенном освещении. После операций предварительной обработки, проведенных над набором изображений, были извлечены 10 морфологических признаков. Из этих признаков, рассчитанных на изображениях, с помощью дискрими-нантного анализа были отобраны 9 наиболее значимых. Они использовались в качестве входных данных для разработанной нейронной сети. Классификация выполнялась с помощью многослойного перцептрона, обученного на 394 изображениях и проверенного на 94. Для оценки качества работы сети использовалось 25 % выборки, что составило 164 изображения. Для определения оптимальных параметров в ходе экспериментов проверялись разные сети с разным количеством нейронов в скрытых слоях. Предложенная архитектура сети имеет один скрытый слой из 26 нейронов. Итоговая точность классификации для 4 классов составила 85,7 %.

Авторы [3] рассматривали систему DeepCount для автоматического определения и подсчета количества колосьев пшеницы на цифровых снимках. Предложенный метод, основанный на модели глубокого обучения, дает оценку числа колосьев пшеницы путем сегментации изображения с использованием простой линейной итеративной кластеризации (Simple Linear Iterative Clustering), получения соответствующих характеристик купола, а затем построения модели признаков на основе свёрточной нейронной сети (Convolutional Neural Network) для семантической сегментации колосьев пшеницы. Метод протестирован на цифровых изображениях, полученных непосредственно в полевых условиях, на разных стадиях появления / созревания початков (с использованием визуально разных сортов пшеницы) в различных условиях окружающей среды. Кроме того, предложенная методика сравнивается с методом подсчета колосьев пшеницы, основанном на ранее разработанной методике обнаружения краев и морфологическом анализе изображений. Точность обнаружения колосьев пшеницы на rgb-изображениях и изображениях в оттенках серого составила 86 % и 81 % соответственно.

В работе [4] для оценки качества пшеницы предлагалось использование алгоритмов машинного обучения для решения задачи классификации пшеницы. Для этого использовались 2 различных метода классификации: машина опорных векторов (SVM) и нейрон-

ная сеть. В процессе сбора данных изображения зерен пшеницы снимались с помощью цифровой камеры с установкой порогового значения. После этого шага из изображений извлекались признаки и реализовывались алгоритмы машинного обучения. В качестве признаков использовались обобщенные характеристики, рассчитанные на основе содержания изображений, такие как площадь, периметр, объем, коэффициент округлости и процент битого зерна. По определенным критериям, изображения были разделены на 4 класса в соответствии с качеством соответствующих образцов пшеницы. Точность классификации с помощью машины опорных векторов составила 86,8 %, а с помощью нейронной сети — 94,5 %. К сожалению, в работе не указан размер набора исходных данных, использующихся для обучения и тестирования предложенных методов классификации.

Авторы [5] представляют подход к бинарной классификации изображений зерен пшеницы на основе однослойного перцептрона. Классификации проводилась на наборе данных из 200 изображений, разделенных на 2 класса, соответствующих разным сортам пшеницы. Изображения были получены путем съемки на камеру с высоким разрешением. После этого они были подвергнуты предварительной обработке, а именно переведены в градации серого и затем преобразованы в черно-белые с использованием бинаризации по порогу. В качестве признаков изображений использовались длина, ширина, периметр и площадь зерен. Для обеспечения устойчивости классификатора, использовались также некоторые производные характеристики, связанные с размерами. Кроме того, в дополнение к геометрическим также использовались статистики второго порядка (по Харалику), такие как контраст, корреляция, энергия, гомогенность и энтропия. Предложенная для классификации модель на основе однослойного перцептрона с одним скрытым слоем из пяти нейронов обучалась на 180 изображениях и тестировалась на 20, итоговая точность классификации составила 99,9 %.

Работа [6] описывает разработку программного решения, которое автоматически обнаруживает и классифицирует болезни растений пшеницы. Подход включает в себя четыре этапа: получение изображения, предварительная обработка, сегментация изображения, выделение признаков, которые учитывают цвет, форму и размер. Для классификации использовалась модель на основе нейронной сети. Для исследования были взяты изображения листьев пшеницы, снятые на цифровую камеру, дополненные некоторыми изображениями из сети для увеличения объема выборки. Все данные были обработаны медианным фильтром размером 3 х 3. Для обнаружения области заражения на листе использовался метод сегментации, основанный на разделении с использованием метода кластеризации fc-means. Для классификации использовались 3 группы признаков: текстурные, признаки формы и признаки цвета. Текстурные признаки рассчитывались с помощью статистик второго порядка. Признаки на основе формы представляют собой различные геометрические характеристики объекта, такие как площадь, периметр, округлость и сложность. Для представления признаков цвета использовалась два метода: цветовая гистограмма и метод цветовых моментов. Для бинарной классификации на здоровые и больные растения использовалась нейронная сеть на основе всех трех групп признаков и метод опорных векторов на основе текстурных признаков и признаков формы. Всего для анализа использовалось 120 изображений, 65 % которых были взяты для обучения, а остальные — для тестирования модели. Нейронная сеть дала 80 % точность распознавания, а метод опорных векторов — 89 %.

В исследовании [7] после предварительной обработки и сегментации изображений были выделены 25 признаков, включая 9 цветовых, 10 морфологических и 6 текстурных статистических признаков. Изображения зерен пшеницы классифицировались на 2 кате-

гориях: здоровые и поврежденные. При формировании набора данных использовалось четыре уровни влажности (9,11,5,14 и 16,5 %) и два цвета освещения (желтый свет, композиция желтого и белого). Для классификации использовались нейронная сеть, деревья решений и классификаторы на основе дискриминантного анализа. Результаты показали, что дерево решений имело наивысшую точность классификации 90,20 %. Классификатор на основе искусственной нейронной сети из трех слоев с 11,19 и 2 нейронами дал точность 87,46 %, а классификатор на основе дискриминантного анализа 81,81 %.

Одним из методов, применяемых для получения образцов растительного происхождения, является кристаллизация по хлориду меди. Метод получил название "crystallization with additives". К раствору хлорида меди добавляются препараты, (additives), полученные из компонентов растительного происхождения. Вид получаемого кристалла позволяет выявить особенности исследуемых веществ с помощью различных методов анализа изображений. В работе [8] использовался структурный алгоритм, вычисляющий 15 параметров длины кристаллических игл. Изображения были преобразованы в черно-белые, а бинарная кристаллическая структура изображения характеризовалась в соответствии с его межузловыми и конечными ветвями. Была исследована зависимость результата от условий эксперимента. Наиболее важными факторами, требующими стандартизации, оказались измельчение ядер в образце, подготовка и соотношение смеси хлорида меди и добавки на пластине, а также испарение и кристаллизация.

В данной работе мы реализуем подход к классификации образцов пшеницы, полученных методом кристаллизации по хлориду меди. В качестве классификационного признака используется мультифрактальный спектр изображения, определяемый путем вычисления так называемой локальной функции плотности, которая описывает степень изменения интенсивности в окрестности каждого пикселя. Этот метод был предложен в [9] и использован в работах [10,11].

Для анализа использовался набор из 60 изображений, представляющий 5 классов. В экспериментах были использованы виды пшеницы, которая была выращена в определенных условиях, таких как биодинамическое земледелие и земледелие с использованием различных видов удобрений. Каждый класс содержит результаты экспериментов для одного и того же образца пшеницы с тремя различными концентрациями на 4 различных временных интервалах от начала опыта, что дает 12 изображений.

Основная задача нашего исследования состоит в оценке возможности использования мультифрактального спектра как классификационного признака для дальнейшей классификации с целью идентификации образцов пшеницы определенного класса. Кроме того, исследуется вопрос о влиянии концентрации на результат эксперимента, а также оценивается степень схожести образцов из разных классов в процессе «старения» образца, то есть изменения с течением времени. Для выявления этих зависимостей используются 3 метода кластеризации.

В качестве методов классификации использовались логистическая регрессия, наивный байесовский классификатор, метод опорных векторов с линейным, полиномиальным и rbf-ядром, а также случайный лес. Результат исследований показал, что различие 5 данных классов возможно с точностью 74 % по совокупности изображений, характеризующих класс. Зависимость процесса старения от заданной концентрации оказалась очень низкой, что согласуется с визуальными наблюдениями. Таким образом, использование мультифрактального спектра как способа выявить тонкие различия в текстуре изображений показало, что многие образцы в исследуемых данных действительно близки.

Статья имеет следующую структуру. В разделе 2 описаны исходные данные и метод вычисления мультифрактального спектра. В разделе 3 представлены результаты при-

менения различных методов классификации. В заключении обсуждаются результаты и направления дальнейших исследований.

2. АЛГОРИТМ ВЫЧИСЛЕНИЯ МУЛЬТИФРАКТАЛЬНОГО СПЕКТРА

2.1. Описание данных

Исходные данные представляют собой изображения образцов пшеницы, полученные методом чувствительной кристаллизации с добавлениями. Параметры, соответствующие условиям эксперимента, представляют собой время Ь от начала эксперимента, через которое отмечались результаты, и концентрацию Сп. Время от начала эксперимента Ь принимает одно из четырех значений: Т = {3,5 часа, 3 дня, 8 дней, 12 дней}, рассматриваются три концентрации: СЫ = {0,33; 0,36; 0,39}. В каждой серии экспериментов с образцом пшеницы для каждого временного интервала проверялись все 3 концентрации. Всего было проанализировано 5 разных классов пшеницы, серия экспериментов для каждого класса с определенным временем и концентрацией позволила создать по 12 изображений, таким образом, набор данных включает в себя 60 изображений и метки С[, соответствующие одному из пяти классов С = {1, 2, 3, 4, 5} и времени Ь е Т с концентрацией Сп е СЫ. Размер изображений 329 х 291. Пример изображения приведен ниже.

Рис. 1. Изображение образца пшеницы, полученного методом кристаллизации с добавлениями

2.2. Получение признаков с помощью метода вычисления локальной функции плотности

В предложенном подходе используется метод вычисления мультифрактального спектра, основанный на вычислении так называемой локальной функции плотности для каждого пикселя. Все изображение разбивается на непересекающиеся множества уровня, то есть подмножества исходного изображения, содержащие пиксели с близкими характеристиками. Затем для каждого множества уровня вычисляется его фрактальная размерность. Набор фрактальных размерностей образует мультифрактальный спектр.

Пусть ц обозначает меру интенсивностей пикселей. Для каждого х е Яг обозначим за В(х, г) квадрат с центром и «радиусом» (половиной длины стороны) г . Предположим, что ¡л(В(х, г)) = кга(х) (х), где ^(х) — так называемая локальная функция плотности, к — некоторая константа. Будем менять величину г, выбирая ее достаточно малой. Тогда функция плотности в точке х определяется как

d (x) = liml0g ^ (x,r». r log r

Эта величина характеризует степень неоднородности распределения интенсивности в окрестности точки x. Множество всех точек x, имеющих локальную плотность а, образует множество уровня Еа = {x е R2 : d(x) = а}. На практике обычно рассматривают множества Еа>е = {x е R2 : d(x) е [а, а + е)}. Множества уровня представляют собой бинарные изображения, для каждого множества уровня вычисляется его емкостная размерность. Набор полученных размерностей образует мультифрактальный спектр f (а). На рис. 2 показан пример мультифрактального спектра, вычисленного для образца пшеницы с рис. 1 с помощью метода локальной функции плотности.

График интерпретируется следующим образом. Емкостная размерность подмножества, которое содержит точки со значениями функции плотности в интервале [0,8; 1,3) равна 0,35, размерность множества, содержащего точки с показателями из интервала [1,3; 1,8) равна 1,2 и т. д. Значение е выбрано равным 0,5. Выбор этого параметра определяет точность построения, при уменьшении е мы будем получать более подробный график.

Рис. 2. Мультифрактальный спектр для образца пшеницы с рис. 1

2.3. Преобразование к одной размерности

Нужно отметить, что получаемые диапазоны значений для разных изображений различны. Чем шире диапазон, тем более сложной является структура изображения. Это обстоятельство создает дополнительные проблемы при обработке результатов. Графики нельзя привести к одной шкале, так как они определены на разных областях задания. Каждый график представляет собой ломаную линию в осях (а,/(а)). Для каждого класса мы получаем 12 графиков мультифрактальных спектров.

Визуализация с разбиением по классам показана на рис. 3. Классы, соответствующие различным образцам пшеницы, отмечены различными линиями. Можно увидеть, что в данных довольно много выбросов, которые имеют нетипичную форму у кривой ближе к ее концу.

Рис. 3. Визуализация мультифрактальных спектров изображений 5 классов

Длиной спектра назовем число точек деления по оси X(а). Полученные спектры были преобразованы к последовательностям одной длины путем добавления нулей к спектрам, имеющим длину меньше максимальной длины п. Тогда в наших обозначениях для набора классов C = (Ci,...,C5) классификационный признак класса Ci можно представить как совокупность следующих данных (х, y, t, Cn), где x = (xi,..., xn), y = (yi,..., yn), t — время от начала опыта, Cn — концентрация.

Дальнейшие преобразования признаков изображений выполняются с целью сокращения размерности, а именно получения одного компонента ф для каждой пары компонентов (х, y) вектора признаков. Для каждой пары (х^, yk) координат соответствующих векторов рассчитываем представление комплексного числа Xk + iyk в полярной системе координат. Для упрощения формул опустим в записи индексы.

|х = r • cos ф, r & 0, y = r • sinф, -n ^ ф < П.

Находим для каждого числа аргумент:

arctg X, х > 0, arctg х + п, х < 0, y & 0, arctg х - п, х < 0, y < 0,

ф = arg z =

^ при (х) = 0: у > 0; -§, у < 0.

Таким образом, мы преобразовываем график мультифрактального спектра к специальной форме — вектору аргументов комплексных чисел, сопоставляемых каждой точке графика. Этот вектор далее будет использоваться как характеристика изображения.

2.4. О чистка данных

Для повышения точности анализа предлагается выявить в каждом классе данные, которые сильно отличаются от остальных и могут негативно повлиять на результаты классификации. Для выявления так называемых выбросов использовалась перекрестная оценка объектов каждого класса между собой на основе вычисления взаимной кросс-корреляции. Кросс-корреляция [12] является широко используемым методом нахождения

зависимостей между значениями двух последовательностей. Значения между дв^тя последовательностями x и y длины N, представляющими признаковое описание двух изображений пшеницы, рассчитывались по формуле:

т.^--1 fx(i) - mx) (y(i - d) - my) r (d) = '~0 v ,

^N=0 (x(i) - mx)2 ^Ef=-01 (y(i - d) - my)2 yd е [0, N - 1 : cr_corr (x, y) = max (r (d0),..., r (dN-1)),

TN х- TN v-

¿-i=0 x- Li=0 Vi

mx =-, mv =-.

N 1 N

Полученные значения для каждой пары объектов в каждом классе усреднялись, затем считались их средние и стандартные отклонения. Оценка средней корреляции внутри одного класса выполнялась следующим образом:

Y.cr _corr (Xi, Vi)

Ух-, yi £ Ck : i <> i, cr corr(Ck) =-ö-,

иЛ k J' - У k L(Ck)2 - L(Ck) '

где L(Ci) — количество элементов i-го класса.

Стандартное отклонение вычислялось аналогично среднему. Те классы, в которых средняя попарная корреляция была меньше значения 0,9, а стандартное отклонение превышало значение 0,1, проверялись на наличие выбросов. Те объекты, взаимная корреляция между которыми была ниже 0,8, считались выбросами и не рассматривались. Полученные пороги были выбраны экспериментально, подробная оценка и визуализация найденных выбросов приведена в разделе 3.

3. ЭКСПЕРИМЕНТЫ

Для оценки возможности отличать результаты экспериментов для разных классов пшеницы использовались логистическая регрессия, наивный байесовский классификатор, метод опорных векторов с линейным, полиномиальным и гМ-ядром, а также случайный лес. Для предварительной оценки распределения данных, снижения размерности данных и визуализации использовался метод главных компонент. Также были проведены эксперименты с использованием метода главных компонент для снижения размерности исходных признаков и последующей классификации.

Для исследования сходства-различия изображений из разных классов, имеющих одинаковую концентрацию, использовались следующие методы кластеризации: метод ^-средних, иерархическая кластеризация и самоорганизующаяся карта Кохонена. Результаты экспериментов и выводы сформулированы в разделе 3.

3.1. О чистка данных

Для поиска выбросов в данных и очистки от них вычислим средние значения и дисперсии кросс-корреляций внутри классов. Значения, близкие к единице, свидетельствуют о наличии сильной зависимости. Для поиска выбросов сосредоточимся на корреляциях внутри одного класса. В таблице 1 представлены средние значения корреляций и отклонения внутри одного класса, рассчитанные согласно описанию в разделе 3.

Таблица 1. Средние кросс-корреляции и отклонения внутри каждого класса

Номер класса Средняя корреляция) Стандартное отклонение

1 0,97 0,02

2 0,95 0,04

3 0,87 0,18

4 0,91 0,12

5 0,76 0,18

Видим, что для классов 3, 4, 5 имеют место невысокие корреляции или значительные отклонения от среднего, что хорошо характеризует выбросы. Посмотрев значения для каждого отдельно взятого элемента класса 3, видим, что такой значимый вклад в дисперсию вносят, в основном, всего 2 элемента за счет низких корреляций. Удалим эти 2 элемента. Проделаем аналогичную процедуру для классов 4 и 5, из класса 4 уберем один элемент, а из класса 5 — четыре элемента. Пример визуализации для классов 3 и 5 до (зеленый цвет) и после (черный) удаления представлен на рис. 4. Содержимое класса 4 изменилось незначительно.

(а) (б)

(в) (г)

Рис. 4. Состав класса 3 (а) и класса 5 (б) до очистки данных от выбросов и после очистки (в) и (г) соответственно

В ходе процедуры очистки данных размер набора данных уменьшился с 60 элементов до 53. По результатам экспериментов очистка данных дала небольшой прирост качества классификации, например на неочищенных данных на кросс-валидации с 10 разбие-

ниями классификатор случайный лес давал среднюю точность 69 %, а после обучения на очищенных данных его точность увеличилась до 73 %. Далее при оценке качества классификации для разных методов будем использовать очищенный набор данных.

з.2. Визуализация данных

Для визуализации данных использовалась проекция исходных данных в двумерное пространство, полученная с помощью метода главных компонент (рса). Метод главных компонент основан на вычислении собственных векторов ковариационной матрицы исходных признаков, соответствующих ее наибольшим значениям, и последующей проекции данных на полученные векторы. Он часто используется для снижения размерности

и, соответственно, визуализации данных. Результат представляет собой векторы характеристик исходных изображений, спроецированных в двумерное пространство, цветом обозначается класс соответствующего изображения. На рис. 5 представлена визуализация исходных 60 примеров данных до их очистки. Чем ближе на полученной проекции элементы одного класса (одного цвета) друг к другу и чем дальше расстояние от них до элементов из других классов, тем большую разрешающую способность обеспечивают характеристики изображений и тем проще будет выполнить их дальнейшую классификацию, в частности, с помощью линейных классификаторов. В данном случае можно сделать выводы о том, что разбиение не демонстрирует явного разделения объектов на группы в соответствии с их классами, что может создать трудности при классификации.

0.6 -

0.2 -

0.0 -

0.6 ■

0.4 -

0.0 ■

♦ • ♦

-0.6 412 00 14

(а) (б)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 5. Проекции данных в двумерное пространство до (а) и после очистки (б) данных

В дальнейшем применении классификаторов в качестве входных данных наряду с рассчитанными признаками использовались результаты, полученные с помощью метода главных компонент. Для этого использовались 3 компонента рассчитанных характеристик изображений, таким образом, выполнялась проекция в трехмерное пространство, и их размерность снижалась до 3.

3.3. Результаты экспериментов

Результаты классификации представлены в таблице 2. Параметры, при которых качество распознавания переставало существенного улучшаться, определялись экспериментально. Для случайного леса это 150 деревьев с глубиной 10. На вход классификаторам подавались признаковые описания объектов после приведения результатов, полученных

методом вычисления локальной функции плотности, к одномерному виду. Проводились эксперименты с уменьшением размерности исходных признаков с помощью метода главных компонент до трех компонент с последующей классификацией. Их результаты отражены в таблице 2 только для тех методов, которые, благодаря снижению размерности, хотя бы незначительно увеличили точность классификации. В ходе каждого эксперимента качество классификации оценивалось на кросс-валидации с 10 разбиениями исходной выборки. 11 изображений использовались для тестирования классификатора, а остальные 42 — для обучения.

Таблица 2. Результаты классификации

Метод Параметры Средняя Отклонение Макс. Мин.

точность точности точность точность

на кросс-

валидации

Lineaг regressюn репаку='12', solveг='liblineaг', muШ_dass='ovr 51% 16% 71% 43%

Nalvebayes 62% 20% 71% 43%

Svm КегпеЫтеаг 55% 19% 71% 43%

Svm Kernel=rbf 58% 22% 79% 50%

Pca+Svm Kernel=rbf 67% 17% 79% 57%

Svm Кете1=ро1у, Degree=2 64% 26% 86% 50%

Svm Кете1=ро1у, Degree=3 62% 16% 71% 50%

RandomForest Ntrees=15, depth=10 73% 20% 86% 57%

Pca+Random Forest Ntrees=15, depth=10 74% 23% 93% 57%

Можно увидеть, что все классификаторы оказались достаточно неустойчивы на кросс-валидации и показывали результаты, существенно отличающиеся друг от друга. При достижении максимальной точности в 93 % случайный лес в худшем случае все равно не превышал 57 % точности классификации. Это можно объяснить недостатком данных для обучения и проверки, так как способ разбиения выборки в данном случае существенно повлиял на результаты классификации. В среднем, лучшие результаты показал метод случайного леса, обученный на проекции исходных признаков в трехмерное пространство, полученных с помощью метода главных компонент. Простые линейные классификаторы показали низкие значения точности, что свидетельствует о наличии сложных зависимостей в данных, это подтверждает визуальная интерпретация метода главных компонент.

3.4. Кластеризация при исследовании зависимости от концентрации

В рассматриваемом наборе данных каждый образец пшеницы был получен в ходе эксперимента, выполненного при определенной концентрации. Для того чтобы оценить, насколько отличаются между собой образцы с разными концентрациями, было предложено провести кластеризацию с целью выявить общие черты в характеристиках образцов, принадлежащих к одной и той же концентрации. Для сравнения результатов дополнительно была проведена кластеризация с целью определения класса изображения. Эксперименты с кластеризацией были проведены с помощью трех различных методов: ^-средних, самоорганизующейся карты Кохонена и иерархической кластеризации. Для

определения класса исходного объекта будем задавать требуемое число кластеров равным 5, то есть равным исходному числу классов образцов пшеницы. Для определения концентрации образца будем задавать число кластеров равным 3, что соответствует трем различным концентрациям. Результаты кластеризации представлены в таблице 3.

Таблица 3. Результаты кластеризации исходных

Метод кластеризации Точность полученного разбиения для классов Точность полученного разбиения для концентраций

k-means 54,5% 35%

Som 58,5% 36,7%

Hierarchical clustering 48,3% 46,3%

Видим, что точность кластеризации для разбиения по классам практически не превышает полученного с помощью классификации минимального порога в 57 %. Разбиение по концентрациям также не прослеживается в структуре исходных данных, так как точность кластеризации не превышает 50 %, из чего можно заключить, что полученные в ходе эксперимента данные не будут иметь сильной зависимости от концентрации.

Для исследования зависимости характеристик изображений из разных классов от времени эксперимента была проведена кластеризация на 4 класса, соответствующих временным интервалам от начала эксперимента: 3,5 часа, 3 дня, 8 дней, 12 дней. В результате метки, соответствующие времени от начала эксперимента, совпадали с результатами кластеризации только на 15 % для каждого из трех методов кластеризации. Это позволяет сделать вывод, что характеристики исходных изображений не зависят от времени, взятого от начала эксперимента. Дополнительно для определения влияния параметров эксперимента на его результат проверим, как могут быть сгруппированы объекты разных классов внутри одной концентрации. В исходных данных множество концентраций СЫ шстоит из трех элементов — {0,33; 0,36; 0,39}. Для определения групп в составе концентраций проведем кластеризацию с помощью метода иерархической кластеризации на 5 групп внутри каждой из концентраций. Состав каждой концентрации изображен на рис. 6, визуализация получена методом главных компонент в трехмерное пространство аналогично общей визуализации данных из пункта 3.2. Результаты кластеризации для каждой из концентраций приведены в таблице 4.

Таблица 4. Кластеризация внутри концентрации

Концентрация Точность кластеризации

0,33 50%

0,36 55%

0,39 50%

Визуализация демонстрирует, что внутри концентраций 0,33 и 0,39 объекты не образуют структуры из обособленных групп, в концентрации 0,36 объекты фиолетового и зеленого цветов возможно отделить визуально от остальных. Результаты кластеризации внутри каждой концентрации существенно не меняются в сравнении с результатами кластеризации, полученными для всех данных, независимо от концентраций, что подтверждает сделанное ранее предположение о том, что различия результатов по степени концентрации являются незначительными.

Рис. 6. Разбиение исходных данных по концентрациям (0,33; 0,36; 0,39)

Проведем аналогичный эксперимент с разбиением характеристик изображений на группы внутри каждого подмножества, соответствующего определенному времени от начала эксперимента, результаты кластеризации приведены в таблице 5.

Таблица 5. Кластеризация внутри временного интервала

Время от начала эксперимента Точность кластеризации

3,5 часа 20%

3 дня 0%

8 дней 35,7 %

12 дней 6,7 %

В среднем, точность разбиения внутри каждого временного интервала составляет 15,5 %, что не отличается от результатов, полученных при кластеризации всех временных интервалов, соответственно, это подтверждает, что характеристики изображений мало зависят от времени, взятого от начала эксперимента.

4. ЗАКЛЮЧЕНИЕ

В работе были проведены исследования, связанные с классификацией изображений пшеницы, полученных методом кристаллизации с добавлениями. Использовались данные для 5 классов, соответствующих 5 различным образцам пшеницы, каждый класс характеризовался набором из 12 изображений, полученных для разных концентраций и разных временных интервалов от начала эксперимента. Все изображения являлись визуально близкими, без явных особенностей при рассмотрении их изменений во времени или сравнении результатов изменения образцов с разными концентрациями.

В качестве признаковых характеристик изображений использовались графики их мультифрактальных спектров, преобразованные в векторы, составленные из аргументов комплексных чисел, сопоставляемых точкам графиков. Предварительно из набора данных, содержащего 60 изображений были удалены изображения, характеристики которых содержали выбросы. Выбор таких изображений проводился по оценке степени сходства характеристик на основе кросс-корреляции. Классы различались по совокупности изображений. Эксперименты с классификацией показали лучшие результаты при использовании метода случайного леса с предварительным уменьшением размерности признаков до 3 с помощью метода главных компонент. Средняя точность классификации составила 74 %.

Были также проведены исследования для определения сходства-различия изображений из разных классов, имеющих одинаковую концентрацию. Эксперименты показали,

что концентрация практически не влияет на результат эксперимента. Полученные в ходе экспериментов результаты позволяют предположить, что классификация образцов, полученных методом чувствительной кристаллизации с помощью характеристик на основе мультифрактального спектра, не позволяет уникально идентифицировать образцы пшеницы, но при этом отражает некоторые характерные особенности исследуемых классов. Мультифрактальные спектры, выявляющие тонкие различия в текстурах, продемонстрировали определенную схожесть получаемых кристаллов, что может свидетельствовать как о недостаточности одного метода получения образцов, так и о необходимости использовать дополнительные классификационные признаки.

Неустойчивость классификаторов, то есть значительные колебания точности на разных разбиениях выборки, могут возникать из-за недостаточного количества данных для обучения модели. Направления дальнейших исследований связаны с классификацией большего количества получаемых образцов пшеницы, использований образцов, полученных другими методами, а также применением нескольких классификационных признаков.

Благодарности: Авторы благодарят Ю. Фритца за предоставленные изображения.

Список литературы

1. Shouche S., Rastogi R., Bhagwat S. G., Sainis J. K. Shape analysis of grains of Indian wheat varieties // Computers and Electronics in Agriculture. 2001. Vol. 33, № 1. P. 55-76. doi: 10.1016/S0168-1699(01)00174-0

2. Khoshroo A., Arefi A., Masoumiasl A., Jowkar G.-H. Classification of Wheat Cultivars Using Image Processing and Artificial Neural Networks // Agriculturial Communications. 2014. Vol. 2, № 1. P. 17-22.

3. Sadeghi-Tehran P., Virlet N., Ampe E. M., Reyns P., Hawkesford M. J. DeepCount: In-Field Automatic Quantification of Wheat Spikes Using Simple Linear Iterative Clustering and Deep Convolutional Neural Networks // Frontiers in Plant Science. 2019. Vol. 10. P. 1176. doi: 10.3389/fpls.2019.01176

4. Punn M., Bhalla N. Classification of Wheat Grains Using Machine Algorithms // Computer Science & Engineering. 2013. Vol. 2. P. 363-366.

5. SabanciK., KayabasiA., ToktasA. Computer vision-based method for classification of wheat grains using artificial neural network // Journal of the Science of Food and Agriculture. 2017. Vol. 97, № 8. P. 2588-2593. doi: 10.1002/jsfa.8080

6. Gaikwad V. P., Musande V. Wheat disease detection using image processing // 2017 1st International Conference on Intelligent Systems and Information Management (ICISIM). doi: 10.1109/ICISIM.2017.8122158

7. Basati Z., Rasekh M., Abbaspour-Gilandeh Y. Using different classification models in wheat grading utilizing visual features // International Agrophysics. 2017. Vol. 32, № 2. P. 225-235. doi: 10.1515/intag-2017-0008

8. Kahl J., Busscher N., Mergardt G., Andersen J. Standardization and Performance Test of Crystallization with Additives Applied to Wheat Samples. Food Analytical Methods. 2015. Vol. 8, № 10. P. 2533-2540. doi: 10.1007/s12161-015-0142-6

9. XuY., Ji H., Fermuller C. Viewpoint Invariant Texture Description Using Fractal Analysis // International Journal of Computer Vision. 2009. № 83. P. 85-100. doi: 10.1007/s11263-009-0220-6

10. Ampilova N., Soloviev I., Barth J.-G. Application of fractal analysis methods to images obtained by crystallization modified by an additive // Journal of Measurements in Engineering. 2019. Vol. 7, Issue 2. P. 48-57. doi: 10.21595/jme.2019.20436

11. Ампилова Н., Куликов Е., Сергеев В., Соловьев И. Методы фрактального анализа в исследовании изображений биомедицинских препаратов // Дифференциальные уравнения и процессы управления. 2018. № 1. С. 109-125.

12. Rockwood A. L., Crockett D. K., Oliphantand J. R., Elenitoba-Johnson K. S. Sequence Alignment by Cross-Correlation // Journal of biomolecular techniques. 2005. Vol. 16 (4), P. 453-458.

Поступила в редакцию 12.02.2021, окончательный вариант — 18.03.2021.

Муренин Иван Николаевич, аспирант математико-механического факультета СПбГУ, И imurenin@gmail.com

Ампилова Наталья Борисовна, кандидат физико-математических наук, доцент, доцент кафедры информатики СПбГУ, Bln.ampilova@spbu.ru

Computer tools in education, 2021 № 1: 5-20 http://cte.eltech.ru doi:10.32603/2071-2340-2021-1-5-20

Analysis of Wheat Samples Using the Calculation of Multifractal Spectrum

Murenin I. N.1, Postgraduate, El imurenin@gmail.com, orcid.org/0000-0002-2263-2426 Ampilova N. B.1, PhD, Associate Professor, El n.ampilova@spbu.ru, orcid.org/0000-0002-2154-9399

1 State University, 28, Universitetski pr., 198504, Saint Petersburg, Starii Petergof, Russia.

Abstract

The computational analysis of wheat images to identify wheat varieties and quality has wide applications in agriculture and production. This paper presents an approach to the analysis and classification of images of wheat samples obtained by the method of crystallization with additives. In tests 3 concentration and 4 times for each concentration were used, such that each type of wheat was characterized by 12 images. We used the images obtained for 5 classes. All the images have similar visual characteristics, that makes it difficult to use statistical methods of analysis.

The multifractal spectrum obtained by calculating the local density function was used as a classifying feature. The classification was performed on a set of 60 wheat images corresponding to 5 different samples (classes) by various machine learning methods such as linear regression, naive Bayesian classifier, support vector machine, and random forest. In some cases, to reduce the dimension of the feature space the method of principal components was applied. To identify the relationships between wheat samples obtained at different concentrations, 3 different clustering methods were used. The classification results showed that the multifractal spectrum as classifying sign and using the random forest method in combination with the principal component analysis allow identifying wheat samples obtained by crystallization with additives, being the highest average classification accuracy is 74 %.

Keywords: wheat image analysis, multifractal spectrum, sensitive crystallization method, image classification.

Citation: I. N. Murenin and N. B. Ampilova, "Analysis of Wheat Samples Using the Calculation of Multifractal Spectrum," Computer tools in education, no. 1, pp. 5-20, 2021 (in Russian); doi: 10.32603/2071-2340-2021-1-5-20

References

1. S. Shouche, R. Rastogi, S. G. Bhagwat, and J. K. Sainis, "Shape analysis of grains of Indian wheat varieties," Computers and Electronics in Agriculture, vol. 33, no. 1, pp. 55-76, 2001; doi: 10.1016/S0168-1699(01)00174-0

2. A. Khoshroo, A. Arefi, A. Masoumiasl, and G.-H. Jowkar, "Classification of Wheat Cultivars Using Image Processing and Artificial Neural Networks," Agriculturial Communications, vol. 2, no. 1, pp. 17-22, 2014.

3. P. Sadeghi-Tehran, N. Virlet, E. M. Ampe, P. Reyns, and M. J. Hawkesford, "DeepCount: In-Field Automatic Quantification of Wheat Spikes Using Simple Linear Iterative Clustering and Deep Convoluti-onal Neural Networks," Frontiers in Plant Science, vol. 10, p. 1176, 2019; doi: 10.3389/fpls.2019.01176

4. M. Punn and N. Bhalla, "Classification of Wheat Grains Using Machine Algorithms," Computer Science & Engineering, vol. 2, pp. 363-366, 2013.

5. K. Sabanci, A. Kayabasi, and A. Toktas, "Computer vision-based method for classification of wheat grains using artificial neural network," Journal of the Science of Food and Agriculture, vol. 97, no. 8, pp. 2588-2593, 2017; doi: 10.1002/jsfa.8080

6. V. P. Gaikwad and V. Musande, "Wheat disease detection using image processing," in Proc. 2017 1st International Conference on Intelligent Systems and Information Management (ICISIM), 2017, pp. 110-112; doi: 10.1109/ICISIM.2017.8122158

7. Z. Basati, M. Rasekh, and Y. Abbaspour-Gilandeh, "Using different classification models in wheat grading utilizing visual features," International Agrophysics, vol. 32, no. 2, pp. 225-235, 2018; doi: 10.1515/intag-2017-0008

8. J. Kahl, N. Busscher, G. Mergardt, and J. Andersen, "Standardization and Performance Test of Crystallization with Additives Applied to Wheat Samples," Food Anal. Methods, vol. 8, no. 10, pp. 2533-2540, 2015; doi: 10.1007/s12161-015-0142-6

9. Y. Xu, H. Ji, and C. Fermuller, "Viewpoint Invariant Texture Description Using Fractal Analysis," International Journal of Computer Vision, no. 83, pp. 85-100, 2009; doi: 10.1007/s11263-009-0220-6

10. N. Ampilova, I. Soloviev, and J.-G. Barth, "Application of fractal analysis methods to images obtained by crystallization modified by an additive," Journal of Measurements in Engineering, vol. 7, no. 2, pp. 48-57, 2019; doi: 10.21595/jme.2019.20436

11. N. Ampilova, E. Kulikov, V. Sergeev, and I. Soloviev, "Fractal Analysis Methods in Investigation of Biomedical Preparation Images," Differential Equations and Control Processes, no. 1, pp. 109-125, 2018 [in Russian].

12. A. L. Rockwood, D. K. Crockett, J. R. Oliphantand, and K. S. Elenitoba-Johnson, "Sequence Alignment by Cross-Correlation," Journal of biomolecular techniques, vol. 16, no. 4, pp. 453-458, 2005.

Received 12-02-2021, the final version — 18-03-2021.

Ivan Murenin, Postgraduate of the Faculty of Mathematics and Mechanics, SPbSU,

El imurenin@gmail.com

Natalia Ampilova, PhD, Associate Professor, Associate Professor of the Computer Science

Department, SPbSU, Bl n.ampilova@spbu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.