Научная статья на тему 'Сравнение эффективности различных методов интеллектуального анализа данных в задачах распознавания изображений'

Сравнение эффективности различных методов интеллектуального анализа данных в задачах распознавания изображений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
749
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ ИЗОБРАЖЕНИЙ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Митрофанов С. А.

Рассматривается решение задач распознавания изображений различными методами интеллектуального анализа данных. Обработка данных осуществлялась в системе RapidMiner. Представлены результаты классификации для всех задач, а также проведен бустинг по алгоритму AdaBoost и реализованы ансамбли.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение эффективности различных методов интеллектуального анализа данных в задачах распознавания изображений»

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА»

№12/2015

ISSN 2410-6070

В итоге, знак старшего ненулевого разряда «-» означает, что уменьшаемое меньше, следовательно, слово "word" меньше "world" в лексикографическом порядке.

Стоит отметить, что данный способ сравнения применим и к вещественным числам в форме с фиксированной точкой [4].

Список использованной литературы:

1. Ромм Я.Е. Метод вертикальной обработки потока целочисленных групповых данных. II. Приложение к бинарным арифметическим операциям // Кибернетика и системный анализ, Киев, 1998, № 6. - С. 146 - 162.

2. Ромм Я.Е., Иванова А.С. Вертикальное групповое алгебраическое суммирование применительно к сортировке со слиянием и параллельному поиску / ТГПИ. - Таганрог, 2012. - 44 с. Деп. В ВИНИТИ 03.09.2012, № 362-В2012.

3. Ромм Я.Е., Иванова А.С. Вертикальные групповые арифметические операции над целочисленными данными без вычисления переноса // Журнал Фундаментальные исследования.- №11 (часть 4) 2012 г.

4. Иванова А.С. Расширение диапазона данных для вертикальной обработки применительно к сортировке со слиянием и поиску: Автореферат диссертации на соискание ученой степени кандидата техн. наук. -Таганрог: ЮФУ, 2013. - 22 с

© Мезенцева А.С., 2015

УДК 519.87

С. А. Митрофанов, студент

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнёва

Г. Красноярск, Российская Федерация

СРАВНЕНИЕ ЭФФЕКТИВНОСТИ РАЗЛИЧНЫХ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ

Аннотация

Рассматривается решение задач распознавания изображений различными методами интеллектуального анализа данных. Обработка данных осуществлялась в системе RapidMiner. Представлены результаты классификации для всех задач, а также проведен бустинг по алгоритму AdaBoost и реализованы ансамбли.

Ключевые слова

Распознавание изображений, интеллектуальный анализ данных, классификация.

Распознавание изображений - одно из самых интенсивно развивающихся направлений в области информационных технологий. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки аналоговых сигналов и медицинской диагностики. В общем случае распознавание изображений - это отнесение исходных данных к определенному классу с помощью выделения существенных признаков, характеризующих эти данные, из общей массы несущественных данных.

В настоящей работе использованы 5 баз данных, в которых информация содержатся в виде численных значений закодированных пикселей [1]. В соответствии с содержанием баз данных определилось пять задач:

1) Распознавание типа почвы по снимкам со спутника.

2) Распознавание объектов в городском ландшафте.

3) Распознавание цифры по рукописи.

4) Распознавание типа автомобиля.

5) Распознавание объекта в сегментированном изображении.

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №12/2015 ISSN 2410-6070

Для обучения системы были применены 10 методов классификации, реализованные в системе RapidMiner [2]: нейронная сеть (NN), метод k ближайших соседей (k-NN), деревья решений (DT), индуктивный вывод правил (RI), метод опорных векторов (SVM), многослойный персептрон (MLP), наивный байесовский классификатор (NB), метод линейной регрессии (LR), линейный дискриминантный анализ (LDA), случайный лес (RF).

Для решения описанных выше задач определялись самые эффективные методы, которые по критерию Стьюдента (t-test) не обладают значимыми статистическими различиями между собой, но имеют их в сравнении с остальными используемыми методами. Данный оператор используется для сравнения производительности векторов, выполняя t-тест Стьюдента для определения вероятности нулевой гипотезы, то есть «актуальные значения одинаковы».

Результаты эффективности всех перечисленных методов представлены в таблице 1.

Таблица 1

Эффективность различных методов в задачах распознавания изображений.

Номер задачи NN MLP k-NN SVM RI NB RF DT LDA LR

1 89,56 89,87 90,71 90,8 85,8 79,6 68,73 83,08 79,42 76,19

2 77,04 73,47 29,18 18,37 73,8 81,05 43,26 78,82 73,47 74,23

3 91,72 92,70 97,68 98,14 88,74 82,15 69,22 88,64 82,22 82,26

4 82,60 81,53 65,32 68,28 68,65 46,29 57,98 63,33 76,56 75,39

5 71,63 95,8 96,32 15,67 95,11 79,39 68,35 95,84 14,29 74,82

Кроме того, для повышения эффективности решения задач определенные лучшие методы были собраны в ансамбли. В то же время, методы, которые поодиночке справляются с некоторой задачей классификации плохо, вместе могут решать эту задачу лучше. Поэтому в данной работе также были собраны в ансамбли три наихудших метода и все методы, использованные нами.

Однако не только ансамбли могут повышать эффективность. Поэтому был применен бустинг по алгоритму AdaBoost [3] (сокращение от Adaptive Boosting) к нескольким методам, которые были использованы в данной работе. Результаты бустинга и ансамблей представлены в таблице 2.

Таблица 2

Эффективность методов, подвергшихся бустингу и ансамблированию.

Номер задачи Бустинг по алгоритму AdaBoost Ансамбли

NB RI DT k-NN NN 3 лучших 3 худших Все методы

1 75,55 86,17 34,65 87,78 85,71 89,35 77,62 88,66

2 73,37 66,22 44,16 28,72 75,85 83,40 32,57 82,66

3 80,24 93,10 88,72 97,70 91,76 96,30 82,97 92,70

4 23,43 70,66 52,94 60,62 79,74 60,23 61,18 75,97

5 76,92 47,87 70,55 91,72 65,73 97,36 18,53 96,49

Эффективности методов классификации, ансамблей и методов, подвергшиеся бустингу, были сравнены по Т-критерию Стьюдента [4, а 97], чтобы узнать, какой вариант для каждой базы данных наиболее надежен и эффективен.

Как видно из таблиц 1 и 2, для различных задач подходят разные варианты.

Для задачи распознавания типа почвы по снимкам со спутника бустинг и ансамбли не дали желаемых результатов, а лишь ухудшили работу алгоритмов. Таким образом, для решения данной задачи лучшими являются метод опорных векторов и метод k ближайших соседей. С точки зрения статистики, они значимо не различаются и их можно использовать равноправно.

Для задачи распознавания объектов в городском ландшафте наилучшим решением оказались ансамбль, состоящий из всех методов и ансамбль, состоящий из лучших методов (наивный байесовский

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «ИННОВАЦИОННАЯ НАУКА» №12/2015 ISSN 2410-6070

классификатор, нейронная сеть, дерево решений). Эти ансамбли, также статистически не различаются и их можно использовать равнозначно для решения данной задачи.

В задаче распознавания цифры по рукописи бустинг метода k ближайших соседей незначительно увеличил эффективность метода, поэтому в равной мере можно использовать как обычный метод, так и модернизированный. Обычный метод опорных векторов от них статистически не отличается и тоже может использоваться для классификации по данной базе.

В задаче распознавания типа автомобилей определенно рекомендуется использовать нейронную сеть, так как она показала лучшую эффективность, значительно отличающуюся от остальных методов.

В задаче распознавания объекта в сегментированном изображении лучшим вариантом решения оказался ансамбль из лучших методов, состоящий из метода k ближайших соседей, дерева решений и многослойного персептрона. По результатам t-test он имеет значимые отличия от других методов.

Таким образом, результаты оказались неопределенными, что не позволяет однозначно выбрать наилучший подход в задачах распознавания изображений. Это значит, что необходимо строить более мощные, а лучше - адаптивные методы, которые смогут автоматически настраиваться на решаемую задачу. Сделать это в рамках используемой системы RapidMiner не представляется возможным, поэтому следует использовать другие подходы. Примером таких подходов являются бионические и эволюционные алгоритмы [5, c. 499], особенно в самоадаптивных вариантах [6, c. 2207]. Список использованной литературы:

1. Machine Learning Repository [Электронный ресурс]. URL:http://archive.ics.uci.edu/ml/ datasets.html (дата обращения: 15.02.2015).

2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 23.06.2015).

3. Freund Y., Schapire R.E. A decision-theoretic generalization of on-line learning and an application to boosting // Journal of Computer and System Sciences, no. 55, 1997.

4. А. А. Корнеев, А. Н. Кричевец. Условия применимости критериев Стьюдента и Манна-Уитни. // Психологический журнал, 2011, том 32, № 1, с. 97-110.

5. Akhmedova S., Semenkin E. Data mining tools design with co-operation of biology related algorithms // Lecture Notes in Computer Science. 2014. Т. 8794. С. 499-506.

6. Akhmedova S., Semenkin E. Co-operation of biology related algorithms // 2013 IEEE Congress on Evolutionary Computation, CEC 2013 2013. С. 2207-2214.

© Митрофанов С. А., 2015

УДК 004.82

С.А. Мишин, к.т.н., доцент доцент кафедры автоматизированных информационных систем ОВД

Воронежский институт МВД России А.В. Мишин, к.т.н., доцент заведующий кафедрой правовой информатики, информационного права и

естественнонаучных дисциплин ЦФ ФГБОУ ВО «Российский государственный университет правосудия», г. Воронеж, РФ

ФОРМАЛЬНАЯ СТРУКТУРА ПОДСИСТЕМЫ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ

Аннотация

В статье рассматривается подход к построению формальной структуры «оболочки» подсистемы представления знаний интеллектуальной системы поддержки принятий решений, учитывающий

i Надоели баннеры? Вы всегда можете отключить рекламу.